Riconoscimento vocale

Avvertimento

Il riconoscimento vocale non funziona nella versione 21.04.2 a causa di alcuni problemi con l”API Vosk. Usa la versione 21.04.1, oppure la 21.04.3 o le successive.

Prima di usarlo, il riconoscimento vocale deve essere configurato correttamente, e devono essere installati i modelli per riconoscimento vocale. Fa riferimento al capitolo Configura il riconoscimento vocale.

Suggerimento

While you can configure and set up both, VOSK and Whisper, for speech recognition, the engine that is selected in the Speech to Text configuration section is being used for speech recognition the next time you use this feature. You can switch back and forth during editing, of course, and use different engines for different purposes. The Speech Editor widget has a menu entry to quickly access the configuration section bypassing the Menu ‣ Settings ‣ Configure Kdenlive ‣ Speech to Text route.

Riconoscimento vocale

Ci sono due casi d’uso per il riconoscimento vocale:

  1. La creazione automatica dei sottotitoli

  2. La creazione di trascrizioni e la possibilità di aggiungere le clip nella linea temporale in base alla trascrizione

Creazione di sottotitoli usando il riconoscimento vocale VOSK

Se non era ancora stata creata, aggiungi una traccia dei sottotitoli facendo clic sull’icona add-subtitleStrumento di modifica dei sottotitoli nella barra degli strumenti della linea temporale (6).

Speech to text subtitle

Generazione automatica dei sottotitoli usando il motore VOSK

1:

tools-wizardRiconoscimento vocale. Fai clic qui per aprire la finestra Sottotitolazione automatica.

2:

Zona dalla linea temporale. Maggiori dettagli sulle zone dalla linea temporale possono essere trovati nel capitolo Righello della linea temporale.

3:

Scegli quale parte della linea temporale dovrebbe essere usata per il riconoscimento vocale

4:

Elabora. Fai clic per iniziare il riconoscimento

5:

Modello. Seleziona il modello per la lingua dei sottotitoli. Puoi installarne di altri nella sezione Configurazione del Riconoscimento vocale.

6:

add-subtitleStrumento di modifica dei sottotitoli. Fai clic per aprire o per chiudere la traccia dei sottotitoli.

I passi per creare i sottotitoli usando il riconoscimento vocale VOSK

(i numeri tra parentesi indicano l’elemento dell’interfaccia utente nella schermata precedente):

  1. tools-wizardRiconoscimento vocale (1). Fai clic qui per aprire la finestra per la Sottotitolazione automatica.

  2. Se necessario, definisci una zona dalla linea temporale (2) nella quale vuoi utilizzare il riconoscimento vocale. Puoi trovare maggiori dettagli sulle zone dalla linea temporale nel capitolo Righello della linea temporale.

  3. Modello (5). Seleziona il modello per la lingua dei sottotitoli. Puoi installarne di altri nella sezione Configurazione del Riconoscimento vocale.

  4. Scegli quale parte della linea temporale dovrebbe essere usata per il riconoscimento vocale (3)

  5. Elabora (4). Fai clic per iniziare la creazione dei sottotitoli.

Il sottotitolo viene creato e inserito automaticamente.

Remark to step 4: The default is to analyze only the Timeline zone (all tracks) (2 in the screenshot above). Set the timeline zone to what you want to analyze (use I and O to set in and out points). Selected clips option analyses the selected clip only.

Creazione di sottotitoli con il riconoscimento vocale WHISPER

Se non era ancora stata creata, aggiungi una traccia dei sottotitoli facendo clic sull’icona add-subtitleStrumento di modifica dei sottotitoli nella barra degli strumenti della linea temporale (11).

Speech to text subtitle Whisper

Generazione automatica dei sottotitoli usando il motore Whisper

1:

tools-wizardRiconoscimento vocale. Fai clic qui per aprire la finestra Sottotitolazione automatica.

2:

Zona dalla linea temporale. Maggiori dettagli sulle zone dalla linea temporale possono essere trovati nel capitolo Righello della linea temporale.

3:

Scegli quale parte della linea temporale dovrebbe essere usata per il riconoscimento vocale

4:

Modello. Seleziona il modello per la lingua dei sottotitoli. Puoi installarne di altri nella sezione Configurazione del Riconoscimento vocale.

5:

Elabora. Fai clic per iniziare il riconoscimento

6:

Lingua. Il valore predefinito è Rileva automaticamente. Modificalo se la lingua non viene riconosciuta correttamente.

7:

Numero massimo di caratteri per riga. Definisce quanti caratteri per riga sono consentiti prima che venga inserita un’interruzione.

8:

Translate with SeamlessM4T. Checking this opens adds two more selection fields: One for the Input language, and one for the Output language. This requires that translation with SeamlessM4T is enabled in the settings (Menu ‣ Settings ‣ Configure Kdenlive ‣ Speech To Text). Please refer to the chapter about Speech to Text.

9:

Traduci in inglese. Selezionalo per usare Whisper per la traduzione in inglese.

10:

add-subtitleStrumento di modifica dei sottotitoli. Fai clic per aprire o per chiudere la traccia dei sottotitoli.

I passi per creare i sottotitoli usando il riconoscimento vocale VOSK

(i numeri tra parentesi indicano l’elemento dell’interfaccia utente nella schermata precedente):

  1. tools-wizardRiconoscimento vocale (1). Fai clic qui per aprire la finestra per la Sottotitolazione automatica.

  2. Se necessario, definisci una zona dalla linea temporale (2) nella quale vuoi utilizzare il riconoscimento vocale. Puoi trovare maggiori dettagli sulle zone dalla linea temporale nel capitolo Righello della linea temporale.

  3. Modello (5). Seleziona il modello per la lingua dei sottotitoli. Puoi installarne di altri nella sezione Configurazione del Riconoscimento vocale.

  4. Scegli quale parte della linea temporale dovrebbe essere usata per il riconoscimento vocale (3)

  5. Elabora (4). Fai clic per iniziare la creazione dei sottotitoli.

Il sottotitolo viene creato e inserito automaticamente.

Remark to step 4: The default is to analyze only the Timeline zone (all tracks) (2 in the screenshot above). Set the timeline zone to what you want to analyze (use I and O to set in and out points). Selected clips option analyses the selected clip only.

Traduci con SeamlessM4T

Whisper SeamlessM4T: Choose input and output language

Tradurre con SeamlessM4T

Seleziona la Lingua in ingresso e la Lingua di uscita, poi fai clic su Elabora.

Questo prima elaborerà l’audio usando Whisper, poi inizierà la traduzione di SeamlessM4T. La traduzione può occupare il 100% della RAM, il 100% della CPU, e il 100% dell’accesso al disco.

Attenzione

Se il modello di circa 9GB non è statoi ancora scaricato, lo sarà adesso. Con una velocità di scaricamento di 100MB/s ci vorranno circa 12 minuti.

Durante lo scaricamento, Kdenlive reagirà normalmente. Non fare clic su Chiudi, altrimenti lo scaricamento verrà interrotto.

Whisper SeamlessM4T choose input and output language

Non preoccuparti se compare un messaggio sul rettangolo Inizializzazione del modello di traduzione mentre avviene lo scaricamento.

Depending on your internet connection and bandwidth, downloading the model can take quite some time (about 12 minutes with 100MB/s download speed).

La traduzione inizierà una volta scaricato il modello per la traduzione.

Creazione di clip usando il riconoscimento vocale

È utile per interviste e per altri filmati relativi al parlato. Vai nell’oggetto Editor vocale. Se non è già abilitato, fallo da Menu ‣ Visualizza ‣ Editor vocale.

Nota

L’uso del riconoscimento vocale per creare delle trascrizioni, creando clip da queste, è possibile solo con le clip presenti nel Contenitore del progetto.

Speech editor

Mostrato con il motore VOSK e la ricerca (10) abilitata

Seleziona una clip nel contenitore del progetto.

1:

If needed, set in and out points in the Clip Monitor and check Selected zone only. This will only transcribe text inside that zone.

2:

Click on application-menuHamburger Menu and choose the model for the correct language when the VOSK engine is set for speech recognition. If the Whisper engine is selected, you can select Translate to English if needed. You select the speech recognition engine in Menu ‣ Settings ‣ Configure Kdenlive ‣ Speech to Text. Click on Configure Speech Recognition to open the configuration section for Speech to Text. For more details about the configuration refer to the chapter Configure Speech to Text.

3:

Premi il pulsante Trascrivi.

4:

Seleziona il testo che vuoi. Tieni premuto CTRL o Maiusc per selezionarne più di uno.

5:

Create new sequence with edit creates a new sequence with each timecode-text as a single clip. Insert selection in timeline creates clips for each selected timecode-text starting at the playhead’s position. Save edited text in a playlist file creates an asset in the project bin with the entire transcribed text.

6:

format-font-size-moreAumenta dimensione caratteri e format-font-size-lessDiminuisci dimensione caratteri aumentano e diminuiscono la dimensione dei caratteri.

7:

bookmark-newAggiungi marcatore aggiunge un marcatore o una guida al codice temporale del testo selezionato. Puoi trovare maggiori dettagli sulle Guide e sui Marcatori nel capitolo sulle Guide.

8:

edit-deleteElimina selezione elimina il testo selezionato.

9:

Rimuovi le zone senza parlato elimina contemporaneamente tutte le voci «Nessuna voce».

10:

edit-findSearch in text toggles the search field. Enter text you want to find in the transcribed text. Search is not case sensitive and finds all occurrences of the string even within words. go-up and go-down navigate to the next occurrence of the search term. If the search field turns reddish you have reached the last occurrence of the search term in the text.

Rilevamento del silenzio

Nota

Funziona solo col motore VOSK.

Seleziona la clip nel contenitore della clip, e apri la finestra dell’editor (Menu ‣ Visualizza ‣ Editor vocale) .

Click on application-menuHamburger Menu and choose the model for your language. If the right model is not listed, click on Configure Speech Recognition. For details about how to add models for the VOSK engine refer to the chapter about Estensioni.

Fai quindi clic sul pulsante Inizia il riconoscimento.

Una volta che è terminato vai al punto 6 qui sopra e scegli Rimuovi le zone senza parlato, che le rimuove tutte in un colpo solo. Diversamente fai clic sul codice temporale dove è indicato «Nessuna voce» (tieni premuto Ctrl per selezionarne più di una per volta), quindi premi semplicemente il tasto Canc.

Ripeti l’operazione con tutte le parti che vuoi rimuovere, incluse quelle in cui qualcuno dice qualcosa che non vuoi includere nel montaggio finale.

Quando hai terminato, assicurati che Seleziona solo la zona sia disabilitato, poi fai clic sul pulsante Salva il testo modificato in un file di scaletta (alla fine del punto 5) e dopo pochi secondi verrà aggiunta nel contenitore del progetto una nuova scaletta: questa sarà senza silenzi e senza il testo nei punti in cui non lo vuoi.