Riconoscimento vocale

Nuovo nella versione 21.04.0.

Avvertimento

Il riconoscimento vocale non funziona nella versione 21.04.2 a causa di alcuni problemi con l”API Vosk. Usa la versione 21.04.1, oppure la 21.04.3 o le successive.

Installare Python

Python 3 deve essere installato sul tuo computer (per i dettagli su come farli in Linux e Windows vedi più avanti). Una volta che Python è stato installato segui questi passi per mettere Python in un ambiente virtuale (dopo di questo Python viene copiato nella cartella venv)

Disinstallare Python

Per rimuovere il pacchetto venv installato vai in Impostazioni ‣ Configura Kdenlive ‣ Ambiente ‣ Python ed Elimina venv.

Ciò eliminerà completamente la cartella venv e tutti i pacchetti installati. Nota che questo non rimuove i modelli scaricati (vosk/whisper) che possono ancora occupare dello spazio sul disco rigido

Linux

Python è installato per impostazione predefinita nella maggior parte delle distribuzioni Linux. Puoi verificare se è anche il tuo caso eseguendo python3 -V in un terminale. Se non lo è, cerca in Internet: ci sono un sacco di istruzioni a riguardo.

Windows

Scarica python da https://www.python.org/downloads/ per l’installazione nel computer.

Motori vocali

Per installare i motori vocali vai in Impostazioni ‣ Configura Kdenlive ‣ Riconoscimento vocale.

VOSK

Vosk download dependencies

Vosk non è installato

Quando passi per la prima volta a VOSK, devi prima installare le dipendenze mancanti.

Percorso di installazione di VOSK:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

Se hai già installato VOSK in una vecchia versione di Kdenlive e adesso hai scelto la cartella venv per Python, allora puoi eliminare le librerie VOSK installate usando i seguenti comandi in una console: pip uninstall vosk srt

Installare una lingua

Vai in Impostazioni ‣ Configura Kdenlive… ‣ pagina Riconoscimento vocale, e seleziona il motore vocale VOSK

Fai clic sul collegamento :guilabel:`Scarica i modelli di riconoscimento vocale da: per ottenere un modello di lingua.

download link

Trascina la lingua che vuoi dalla pagina di scaricamento dei modelli vosk nella finestra dei modelli: verrà scaricato ed estratto per te.

download model

Se hai problemi, o se vuoi controllare la disponibilità di aggiornamenti, premi il pulsante Controlla la configurazione.

Cartella dei modelli Mostra le dimensione dei modelli installati. Un clic sul collegamento la apre.

I modelli vocali di VOSK sono salvati qui:

Linux: ~/.local/share/kdenlive/speechmodels

Windows: %AppData%\kdenlive\speechmodels

Whisper

Nuovo nella versione 23.04.

OpenAI-Whisper è un modello di riconoscimento vocale per uso generale. È stato addestrato mediante un vasto insieme di dati di vari audio, ed è in grado di eseguire la traduzione vocale e l’identificazione della lingua.

Whisper è più lento di VOSK nella CPU, ma è più accurato: crea delle frasi coi segni di punteggiatura anche in modalità Base.

Whisper download dependencies

Whisper non è installato

Quando passi per la prima volta a Whisper, devi prima installare le dipendenze mancanti (circa 2 GB da scaricare).

Whisper installed

Quando tutto sarà correttamente configurato avrai questa schermata.

Percorso di installazione di Whisper:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

I modelli vocali di Whisper sono salvati qui:

Linux: ~/.local/share/kdenlive/opencvmodels

Windows: %AppData%\kdenlive\opencvmodels

Modello seleziona il modello. Maggiori dettagli in Whisper source code page (predefinito: Base)

Lingua seleziona la lingua se Rileva automaticamente non è accurato (predefinito: Rileva automaticamente)

Dispositivo per mantenere la compatibilità è disponibile solo CPU.

Disabilita la mezza precisione (FP16) Solo per la GPU. Quando Kdenlive rileva una scheda video NVIDIA GTX 16xx, disabilita automaticamente la mezza precisione (FP16). Se hai dei problemi usando la GPU puoi disattivare la mezza precisione.

Traduci il testo in inglese durante il riconoscimento traduce in inglese il testo che non è in inglese.

Abilita la traduzione con SeamlessM4T Abiliterà o disabiliterà semplicemente facebook/seamless-m4t-v2-large. Per scaricare e iniziare la traduzione dei sottotitoli segui questi passi.

Puoi controllare la disponibilità di aggiornamenti premendo il pulsante Controlla la configurazione

Se hai già installato Whisper in una vecchia versione di Kdenlive e adesso hai scelto la cartella venv per Python, allora puoi eliminare le librerie Whisper installate usando i seguenti comandi in una console: pip uninstall openai-whisper

Riconoscimento vocale

Selezionare il motore vocale

Nuovo nella versione 23.04.

Abilita la voce di menu Menu ‣ Visualizza ‣ Editor vocale.

change the speech engine

Fai clic sul menu Hamburger application-menu e seleziona Configura il riconoscimento vocale. Questo ti porta a Configura il riconoscimento vocale, seleziona il motore, poi fai clic su OK.

Traduci in inglese è disponibile solamente col motore vocale Whisper. Durante il riconoscimento traduce in inglese il testo che non lo è già.

Speech to text show log

Se si verifica qualche errore o se appare qualche messaggio importante, fai clic su Mostra il registro, che diverrà visibile.

Creazione di sottotitoli mediante riconoscimento vocale VOSK

Speech to text subtitle

Mostrato con il motore VOSK

  1. Segna la zona della linea temporale che vuoi riconoscere (regola la linea blu) (1)

  2. Fai clic sull’icona Riconoscimento vocale (2)

  3. Scegli la Lingua (3)

  4. Scegli a quale parte della linea temporale dovrebbe essere applicato il riconoscimento (4)

  5. Elabora inizia il riconoscimento (5)

I sottotitoli vengono creati e inseriti automaticamente.

Nota sul punto 4: il comportamento predefinito è analizzare solamente la Zona dalla linea temporale (tutte le tracce), cioè la barra blu nel righello della linea temporale. Imposta la zona della linea temporale a quello che vuoi analizzare (usa I e O per impostare i punti di attacco e di stacco). L’opzione Clip selezionate analizza solamente le clip selezionate.

Creazione di sottotitoli mediante riconoscimento vocale WHISPER

Speech to text subtitle Whisper

Mostrato con il motore Whisper

  1. Segna la zona della linea temporale che vuoi riconoscere (regola la linea blu) (1)

  2. Fai clic sull’icona Riconoscimento vocale (2)

  3. Scegli il Modello (3)

  4. Scegli a quale parte della linea temporale dovrebbe essere applicato il riconoscimento (4)

  5. Elabora inizia il riconoscimento (5)

I sottotitoli vengono creati e inseriti automaticamente.

Nota sul punto 4: il comportamento predefinito è analizzare solamente la Zona dalla linea temporale (tutte le tracce), cioè la barra blu nel righello della linea temporale. Imposta la zona della linea temporale a quello che vuoi analizzare (usa I e O per impostare i punti di attacco e di stacco). L’opzione Clip selezionate analizza solamente le clip selezionate.

Lingua Se con Rilevamento automatico non viene scelta quella giusta, puoi impostarla manualmente

Numero massimo di caratteri per riga regola il numero di caratteri per riga di sottotitolo

Traduci con SeamlessM4T prima devi abilitare Abilita la traduzione con SeamlessM4T in Impostazioni ‣ Configura Kdenlive ‣ Riconoscimento vocale.

Whisper SeamlessM4T choose input and output language

Attenzione: se utilizzi SeamlessM4T per la prima volta, verranno scaricati circa 9GB di dati in background

Seleziona Lingua in ingresso e Lingua in uscita, poi fai clic su Elabora: questo prima elaborerà l’audio usando whisper, poi inizierà la traduzione di SeamlessM4T. La traduzione può occupare il 100% della RAM, il 100% della CPU, e il 100% dell’accesso al disco.

Attenzione

Se il modello di circa 9GB non è statoi ancora scaricato, lo sarà adesso. Con una velocità di scaricamento di 100MB/s ci vorranno circa 12 minuti.

Durante lo scaricamento, Kdenlive reagirà normalmente. Non fare clic su Chiudi, altrimenti lo scaricamento verrà interrotto.

Non preoccuparti se compare un messaggio sul rettangolo Inizializzazione del modello di traduzione mentre avviene lo scaricamento.

Whisper SeamlessM4T choose input and output language

Le traduzioni inizieranno quando viene scaricato il modello di traduzione (sii paziente, dato che lo scaricamento del modello impiega circa 12 minuti alla velocità di 100MB/s).

On Whisper SeamlessM4T installed

SeamlessM4T è stato abilitato e scaricato con successo

I modelli vocali SeamlessM4T sono salvati qui:

Linux: $HOME/.cache/hugginface

Windows: C:\Users\<username>\.cache\huggingface

Creare clip mediante il riconoscimento vocale

È utile per interviste e per altri filmati relativi al parlato. Abilita la voce di menu Menu ‣ Visualizza ‣ Editor vocale.

Speech editor

Mostrato con il motore VOSK e la ricerca abilitata

Seleziona una clip nel contenitore del progetto.

  1. Se necessario imposta i punti di attacco e di stacco nel controllo della clip, e abilita il rettangolo di selezione Seleziona solo la zona: in questo modo verrà riconosciuto il testo all’interno della zona.

  2. Scegli la lingua corretta quando il motore VOSK è selezionato, oppure scegli Whisper facendo clic su Configura il riconoscimento vocale (vedi configurare il riconoscimento vocale)

  3. Premi il pulsante Inizia il riconoscimento.

  4. Seleziona il testo che vuoi. Tieni premuto CTRL o Maiusc per selezionarne più di uno.

  1. Scegli: Crea una nuova sequenza con modifica per creare una nuova sequenza con ogni testo di codice temporale come singola clip, oppure Inserisci la selezione nella linea temporale alla posizione dell’indicatore di riproduzione, oppure Salva il testo modificato in un file di scaletta, che appare nel contenitore del progetto.

  1. Ingrandimento o Rimpicciolimento del testo. Rimuovi le zone senza parlato elimina contemporaneamente tutte le voci «Nessuna voce».

  2. Aggiungere un segnalibro: in questo modo potrai saltare a questi segnalibri nella linea temporale con la scorciatoia Alt + freccia, oppure modificare il segnalibro con un doppio clic.

  3. Elimina il testo selezionato.

  4. Qui puoi cercare nel testo.

  5. E navigare su e giù nel testo.

Rilevamento del silenzio

Funziona solo col motore VOSK.

Apri una clip nel monitor della clip, e anche la finestra dell’editor (Menu ‣ Visualizza ‣ Editor vocale) .

Seleziona la lingua, oppure vedi Motori vocali e scarica il suo modello.

Fai quindi clic sul pulsante Inizia il riconoscimento.

Una volta che è terminato vai al punto 6 qui sopra e scegli Rimuovi le zone senza parlato, che le rimuove tutte in un colpo solo. Diversamente fai clic sul codice temporale dove è indicato «Nessuna voce» (tieni premuto Ctrl per selezionarne più di una per volta), quindi premi semplicemente il tasto Canc.

Ripeti l’operazione con tutte le parti che vuoi rimuovere, incluse quelle in cui qualcuno dice qualcosa che non vuoi includere nel montaggio finale.

Quando hai terminato, assicurati che Seleziona solo la zona sia disabilitato, poi fai clic sul pulsante Salva il testo modificato in un file di scaletta (alla fine del punto 5) e dopo pochi secondi verrà aggiunta nel contenitore del progetto una nuova scaletta: questa sarà senza silenzi e senza il testo nei punti in cui non lo vuoi.