Riconoscimento vocale¶
Nuovo nella versione 21.04.0.
Avvertimento
Il riconoscimento vocale non funziona nella versione 21.04.2 a causa di alcuni problemi con l”API Vosk. Usa la versione 21.04.1, oppure la 21.04.3 o le successive.
Installare Python¶
Python 3 deve essere installato sul tuo computer (per i dettagli su come farli in Linux e Windows vedi più avanti). Una volta che Python è stato installato segui questi passi per mettere Python in un ambiente virtuale (dopo di questo Python viene copiato nella cartella venv
)
Disinstallare Python
Per rimuovere il pacchetto venv
installato vai in ed Elimina venv
.
Ciò eliminerà completamente la cartella venv
e tutti i pacchetti installati. Nota che questo non rimuove i modelli scaricati (vosk/whisper) che possono ancora occupare dello spazio sul disco rigido
Linux¶
Python è installato per impostazione predefinita nella maggior parte delle distribuzioni Linux. Puoi verificare se è anche il tuo caso eseguendo python3 -V
in un terminale. Se non lo è, cerca in Internet: ci sono un sacco di istruzioni a riguardo.
Windows¶
Scarica python da https://www.python.org/downloads/ per l’installazione nel computer.
Motori vocali¶
Per installare i motori vocali vai in
.VOSK¶
Quando passi per la prima volta a VOSK, devi prima installare le dipendenze mancanti.
Percorso di installazione di VOSK:
Linux:
~/.local/share/kdenlive/venv/Lib
Windows:
%LocalAppData%\kdenlive\venv\Lib
Se hai già installato VOSK in una vecchia versione di Kdenlive e adesso hai scelto la cartella venv
per Python, allora puoi eliminare le librerie VOSK installate usando i seguenti comandi in una console: pip uninstall vosk srt
Installare una lingua¶
Vai in
, e seleziona il motore vocale VOSKFai clic sul collegamento :guilabel:`Scarica i modelli di riconoscimento vocale da: per ottenere un modello di lingua.
Trascina la lingua che vuoi dalla pagina di scaricamento dei modelli vosk nella finestra dei modelli: verrà scaricato ed estratto per te.
Se hai problemi, o se vuoi controllare la disponibilità di aggiornamenti, premi il pulsante Controlla la configurazione.
Cartella dei modelli Mostra le dimensione dei modelli installati. Un clic sul collegamento la apre.
I modelli vocali di VOSK sono salvati qui:
Linux: ~/.local/share/kdenlive/speechmodels
Windows: %AppData%\kdenlive\speechmodels
Whisper¶
Nuovo nella versione 23.04.
OpenAI-Whisper è un modello di riconoscimento vocale per uso generale. È stato addestrato mediante un vasto insieme di dati di vari audio, ed è in grado di eseguire la traduzione vocale e l’identificazione della lingua.
Whisper è più lento di VOSK nella CPU, ma è più accurato: crea delle frasi coi segni di punteggiatura anche in modalità Base.
Quando passi per la prima volta a Whisper, devi prima installare le dipendenze mancanti (circa 2 GB da scaricare).
Percorso di installazione di Whisper:
Linux:
~/.local/share/kdenlive/venv/Lib
Windows:
%LocalAppData%\kdenlive\venv\Lib
I modelli vocali di Whisper sono salvati qui:
Linux: ~/.local/share/kdenlive/opencvmodels
Windows: %AppData%\kdenlive\opencvmodels
Modello seleziona il modello. Maggiori dettagli in Whisper source code page (predefinito: Base)
Lingua seleziona la lingua se Rileva automaticamente non è accurato (predefinito: Rileva automaticamente)
Dispositivo per mantenere la compatibilità è disponibile solo CPU.
Disabilita la mezza precisione (FP16) Solo per la GPU. Quando Kdenlive rileva una scheda video NVIDIA GTX 16xx, disabilita automaticamente la mezza precisione (FP16). Se hai dei problemi usando la GPU puoi disattivare la mezza precisione.
Traduci il testo in inglese durante il riconoscimento traduce in inglese il testo che non è in inglese.
Abilita la traduzione con SeamlessM4T Abiliterà o disabiliterà semplicemente facebook/seamless-m4t-v2-large
. Per scaricare e iniziare la traduzione dei sottotitoli segui questi passi.
Puoi controllare la disponibilità di aggiornamenti premendo il pulsante Controlla la configurazione
Se hai già installato Whisper in una vecchia versione di Kdenlive e adesso hai scelto la cartella venv
per Python, allora puoi eliminare le librerie Whisper installate usando i seguenti comandi in una console: pip uninstall openai-whisper
Riconoscimento vocale¶
Selezionare il motore vocale¶
Nuovo nella versione 23.04.
Abilita la voce di menu
.Fai clic sul menu Hamburger e seleziona Configura il riconoscimento vocale. Questo ti porta a Configura il riconoscimento vocale, seleziona il motore, poi fai clic su OK.
Traduci in inglese è disponibile solamente col motore vocale Whisper. Durante il riconoscimento traduce in inglese il testo che non lo è già.
Se si verifica qualche errore o se appare qualche messaggio importante, fai clic su Mostra il registro, che diverrà visibile.
Creazione di sottotitoli mediante riconoscimento vocale VOSK¶
Segna la zona della linea temporale che vuoi riconoscere (regola la linea blu) (1)
Fai clic sull’icona Riconoscimento vocale (2)
Scegli la Lingua (3)
Scegli a quale parte della linea temporale dovrebbe essere applicato il riconoscimento (4)
Elabora inizia il riconoscimento (5)
I sottotitoli vengono creati e inseriti automaticamente.
Nota sul punto 4: il comportamento predefinito è analizzare solamente la Zona dalla linea temporale (tutte le tracce), cioè la barra blu nel righello della linea temporale. Imposta la zona della linea temporale a quello che vuoi analizzare (usa I e O per impostare i punti di attacco e di stacco). L’opzione Clip selezionate analizza solamente le clip selezionate.
Creazione di sottotitoli mediante riconoscimento vocale WHISPER¶
Segna la zona della linea temporale che vuoi riconoscere (regola la linea blu) (1)
Fai clic sull’icona Riconoscimento vocale (2)
Scegli il Modello (3)
Scegli a quale parte della linea temporale dovrebbe essere applicato il riconoscimento (4)
Elabora inizia il riconoscimento (5)
I sottotitoli vengono creati e inseriti automaticamente.
Nota sul punto 4: il comportamento predefinito è analizzare solamente la Zona dalla linea temporale (tutte le tracce), cioè la barra blu nel righello della linea temporale. Imposta la zona della linea temporale a quello che vuoi analizzare (usa I e O per impostare i punti di attacco e di stacco). L’opzione Clip selezionate analizza solamente le clip selezionate.
Lingua Se con Rilevamento automatico non viene scelta quella giusta, puoi impostarla manualmente
Numero massimo di caratteri per riga regola il numero di caratteri per riga di sottotitolo
Traduci con SeamlessM4T prima devi abilitare Abilita la traduzione con SeamlessM4T in .
Seleziona Lingua in ingresso e Lingua in uscita, poi fai clic su Elabora: questo prima elaborerà l’audio usando whisper, poi inizierà la traduzione di SeamlessM4T. La traduzione può occupare il 100% della RAM, il 100% della CPU, e il 100% dell’accesso al disco.
Attenzione
Se il modello di circa 9GB non è statoi ancora scaricato, lo sarà adesso. Con una velocità di scaricamento di 100MB/s ci vorranno circa 12 minuti.
Durante lo scaricamento, Kdenlive reagirà normalmente. Non fare clic su Chiudi, altrimenti lo scaricamento verrà interrotto.
Non preoccuparti se compare un messaggio sul rettangolo Inizializzazione del modello di traduzione mentre avviene lo scaricamento.
Le traduzioni inizieranno quando viene scaricato il modello di traduzione (sii paziente, dato che lo scaricamento del modello impiega circa 12 minuti alla velocità di 100MB/s).
I modelli vocali SeamlessM4T sono salvati qui:
Linux: $HOME/.cache/hugginface
Windows: C:\Users\<username>\.cache\huggingface
Creare clip mediante il riconoscimento vocale¶
È utile per interviste e per altri filmati relativi al parlato. Abilita la voce di menu
.Seleziona una clip nel contenitore del progetto.
Se necessario imposta i punti di attacco e di stacco nel controllo della clip, e abilita il rettangolo di selezione Seleziona solo la zona: in questo modo verrà riconosciuto il testo all’interno della zona.
Scegli la lingua corretta quando il motore VOSK è selezionato, oppure scegli Whisper facendo clic su Configura il riconoscimento vocale (vedi configurare il riconoscimento vocale)
Premi il pulsante Inizia il riconoscimento.
Seleziona il testo che vuoi. Tieni premuto CTRL o Maiusc per selezionarne più di uno.
Scegli: Crea una nuova sequenza con modifica per creare una nuova sequenza con ogni testo di codice temporale come singola clip, oppure Inserisci la selezione nella linea temporale alla posizione dell’indicatore di riproduzione, oppure Salva il testo modificato in un file di scaletta, che appare nel contenitore del progetto.
Ingrandimento o Rimpicciolimento del testo. Rimuovi le zone senza parlato elimina contemporaneamente tutte le voci «Nessuna voce».
Aggiungere un segnalibro: in questo modo potrai saltare a questi segnalibri nella linea temporale con la scorciatoia Alt + freccia, oppure modificare il segnalibro con un doppio clic.
Elimina il testo selezionato.
Qui puoi cercare nel testo.
E navigare su e giù nel testo.
Rilevamento del silenzio¶
Funziona solo col motore VOSK.
Apri una clip nel monitor della clip, e anche la finestra dell’editor (
) .Seleziona la lingua, oppure vedi Motori vocali e scarica il suo modello.
Fai quindi clic sul pulsante Inizia il riconoscimento.
Una volta che è terminato vai al punto 6 qui sopra e scegli Rimuovi le zone senza parlato, che le rimuove tutte in un colpo solo. Diversamente fai clic sul codice temporale dove è indicato «Nessuna voce» (tieni premuto Ctrl per selezionarne più di una per volta), quindi premi semplicemente il tasto Canc.
Ripeti l’operazione con tutte le parti che vuoi rimuovere, incluse quelle in cui qualcuno dice qualcosa che non vuoi includere nel montaggio finale.
Quando hai terminato, assicurati che Seleziona solo la zona sia disabilitato, poi fai clic sul pulsante Salva il testo modificato in un file di scaletta (alla fine del punto 5) e dopo pochi secondi verrà aggiunta nel contenitore del progetto una nuova scaletta: questa sarà senza silenzi e senza il testo nei punti in cui non lo vuoi.