Veu a text¶
Avís
La veu al text no funciona amb la versió 21.04.2 a causa de problemes en la API del Vosk. Utilitzeu la versió 21.04.1 o 21.04.3, així com versions posteriors.
Abans d'utilitzar Veu a text, s'han de configurar adequadament i instal·lar models de veu. Consulteu el capítol Configura la veu a text.
Suggeriment
Mentre podeu configurar i configurar ambdós, VOSK i Whisper, per al reconeixement de veu, el motor que està seleccionat a la secció de configuració Veu a text s'utilitzarà per al reconeixement de veu la propera vegada que utilitzeu aquesta característica. Podeu canviar d'un a l'altre durant l'edició, és clar, i utilitzar motors diferents per a propòsits diferents. El giny editor de veu té una entrada de menú per a accedir ràpidament a la secció de configuració passant per la ruta Veu a text.
Reconeixement de veu¶
Hi ha dos casos d'ús del reconeixement de veu:
Creació automàtica de subtítols
Creació de transcripcions i la capacitat d'afegir clips a la línia de temps basada en la transcripció
Crear subtítols utilitzant el reconeixement de veu VOSK¶
Si encara no s'ha creat, afegiu una pista de subtítols fent clic a la icona Eina d'edició de subtítols a la barra d'eines de la línia de temps (6).
- 1:
Reconeixement de veu. Feu clic aquí per a obrir la finestra de diàleg Subtitulació automàtica.
- 2:
Zona de la línia de temps. Podeu trobar més detalls sobre les zones de la línia de temps al capítol Regle de la línia de temps.
- 3:
Trieu quina part de la línia de temps s'hauria de fer servir per al reconeixement de veu
- 4:
Procés. Feu clic per a iniciar el reconeixement
- 5:
Model. Seleccioneu el model per a l'idioma dels subtítols. Podeu instal·lar més models a la secció de configuració Veu a text.
- 6:
Eina d'edició de subtítols. Feu clic per obrir o tancar la pista de subtítols.
Passos per a crear subtítols utilitzant el reconeixement de veu VOSK
(els números entre parèntesis apunten a l'element de la IGU de la captura de pantalla anterior):
Reconeixement de veu (1). Feu clic aquí per a obrir la finestra de diàleg ** Subtitulació automàtica**.
Si cal, definiu una zona de la línia de temps (2) per a la qual voleu utilitzar el reconeixement de veu. Podeu trobar més detalls sobre les zones de la línia de temps al capítol Regle de la línia de temps.
Model (5). Seleccioneu el model per a l'idioma dels subtítols. Podeu instal·lar més models a la secció de configuració Veu a text.
Trieu quina part de la línia de temps s'hauria de fer servir per al reconeixement de veu (3)
Procés (4). Feu clic per a iniciar la creació de subtítols.
Els subtítols es creen i s'insereixen automàticament.
Observació al pas 4: El valor predeterminat és analitzar només la Zona de la línia de temps (totes les pistes) (2 a la captura de pantalla anterior). Establiu la zona de la línia de temps que voleu analitzar (useu I i O per a establir punts d'entrada i sortida). L'opció Clips seleccionats només analitza els clips seleccionats.
Crear subtítols utilitzant el reconeixement de veu WHISPER¶
Si encara no s'ha creat, afegiu una pista de subtítols fent clic a la icona Eina d'edició de subtítols a la barra d'eines de la línia de temps (11).
- 1:
Reconeixement de veu. Feu clic aquí per a obrir la finestra de diàleg Subtitulació automàtica.
- 2:
Zona de la línia de temps. Podeu trobar més detalls sobre les zones de la línia de temps al capítol Regle de la línia de temps.
- 3:
Trieu quina part de la línia de temps s'hauria de fer servir per al reconeixement de veu
- 4:
Model. Seleccioneu el model per a l'idioma dels subtítols. Podeu instal·lar més models a la secció de configuració Veu a text.
- 5:
Procés. Feu clic per a iniciar el reconeixement
- 6:
Idioma. El valor predeterminat és Detecta automàticament. Canvieu a l'idioma correcte si no es detecta correctament.
- 7:
Nombre màxim de caràcters per línia. Defineix el nombre de caràcters per línia que es permeten abans d'inserir un trencament de línia.
- 8:
Tradueix amb SeamlessM4T. Si marqueu això s'obre, s'afegiran dos camps de selecció més: Un per a l'Idioma d'entrada, i un per a l'Idioma de sortida. Això requereix que la traducció amb SeamlessM4T estigui habilitada a la configuració ( ). Consulteu el capítol sobre Veu a text.
- 9:
Tradueix a l'anglès. Seleccioneu si feu servir Whisper per a traduir a l'anglès.
- 10:
Eina d'edició de subtítols. Feu clic per obrir o tancar la pista de subtítols.
Passos per a crear subtítols utilitzant el reconeixement de veu VOSK
(els números entre parèntesis apunten a l'element de la IGU de la captura de pantalla anterior):
Reconeixement de veu (1). Feu clic aquí per a obrir la finestra de diàleg ** Subtitulació automàtica**.
Si cal, definiu una zona de la línia de temps (2) per a la qual voleu utilitzar el reconeixement de veu. Podeu trobar més detalls sobre les zones de la línia de temps al capítol Regle de la línia de temps.
Model (5). Seleccioneu el model per a l'idioma dels subtítols. Podeu instal·lar més models a la secció de configuració Veu a text.
Trieu quina part de la línia de temps s'hauria de fer servir per al reconeixement de veu (3)
Procés (4). Feu clic per a iniciar la creació de subtítols.
Els subtítols es creen i s'insereixen automàticament.
Observació al pas 4: El valor predeterminat és analitzar només la Zona de la línia de temps (totes les pistes) (2 a la captura de pantalla anterior). Establiu la zona de la línia de temps que voleu analitzar (useu I i O per a establir punts d'entrada i sortida). L'opció Clips seleccionats només analitza els clips seleccionats.
Tradueix amb SeamlessM4T
Seleccioneu l'Idioma d'entrada i l'Idioma de sortida i feu clic a Procés.
Això primer processarà l'àudio fent servir Whisper, després començarà la traducció SeamlessM4T. La traducció pot ocupar el 100% de la RAM, el 100% de la CPU i el 100% dels accessos al disc.
Atenció
Si el model de 9 GB encara no s'ha baixat, es baixarà ara. Amb una velocitat de baixada de 100 MB/s això trigarà uns 12 minuts!
Durant la baixada, el Kdenlive reaccionarà amb normalitat. No feu clic a Tanca, en cas contrari la baixada s'aturarà.
No us preocupeu si veieu aquest missatge al quadre de sota S'està inicialitzant el model de traducció mentre s'està executant la baixada.
En funció de la vostra connexió a Internet i de l'amplada de banda, la baixada del model pot trigar força estona (uns 12 minuts amb una velocitat de descàrrega de 100 MB/s).
Un cop baixat el model de traducció, s'iniciarà la traducció.
Crear clips utilitzant el reconeixement de veu¶
Això és útil per a entrevistes i altres metratges relacionats amb la veu. Aneu al giny de l'editor de veu. Si no està activat, feu mitjançant
.Nota
L'ús del reconeixement de veu per a crear transcripcions i crear clips a partir d'això, només és possible amb clips a la Safata del projecte.
Seleccioneu un clip a la safata del projecte.
- 1:
Si cal, establiu els punts d'entrada i sortida en el monitor de clips i marqueu Només la zona seleccionada. Això només transcriurà el text dins d'aquesta zona.
- 2:
Feu clic al Menú d'hamburguesa i trieu el model per a l'idioma correcte quan el motor VOSK estigui definit per al reconeixement de veu. Si està seleccionat el motor Whisper, podeu seleccionar Tradueix a l'anglès si cal. Seleccioneu el motor de reconeixement de veu a . Feu clic a Configura el reconeixement de veu per a obrir la secció de configuració de veu a text. Per a més detalls sobre la configuració, consulteu el capítol Configuració de la veu a text.
- 3:
Premeu el botó Transcriu.
- 4:
Seleccioneu el text que voleu. Manteniu premuda CTRL o Maj per a seleccionar diversos textos.
- 5:
Crea una seqüència nova amb edició crea una seqüència nova amb cada text-codi de temps com a clip individual. Insereix la selecció en la línia de temps crea clips per a cada text-codi de temps començant a la posició del capçal de reproducció. Desa el text editat en un fitxer de llista de reproducció crea un actiu a la safata del projecte amb el text transcrit complet.
- 6:
Incrementa la mida de la lletra i Disminueix la mida de la lletra augmenta i disminueix, respectivament, la mida de la lletra.
- 7:
Afegeix un marcador afegeix un marcador/guia per al codi de temps del text seleccionat. Hi ha més detalls sobre les Guies i Marcadors disponibles al capítol sobre Guies.
- 8:
Suprimeix la selecció suprimeix el text seleccionat.
- 9:
Elimina les zones sense veu suprimeix totes les entrades «Sense veu» a la vegada.
- 10:
Cerca en el text commuta el camp de cerca. Introduïu el text que voleu trobar en el text transcrit. La cerca no distingeix entre majúscules i minúscules i cerca totes les ocurrències de la cadena fins i tot dins de les paraules. i naveguen a l'ocurrència següent del terme cercat. Si el camp de cerca es torna vermellós, heu arribat a l'última ocurrència del terme de cerca en el text.
Detecció de silenci¶
Nota
Això només funciona en el motor VOSK.
Seleccioneu el clip a la Safata del projecte i obriu la finestra de l'editor de veu (
).Feu clic a Menú d'hamburguesa i trieu el model per al vostre idioma. Si el model correcte no està llistat, feu clic a Configura el reconeixement de veu. Per als detalls sobre com afegir models per al motor VOSK, consulteu el capítol sobre Veu a text.
Feu clic al botó Inicia el reconeixement.
Un cop fet això, trieu des del punt 6 de dalt Elimina les zones sense veu alhora. O feu clic al codi de temps on s'indica «Sense veu» (mantingueu premuda la tecla Ctrl per a seleccionar diversos elements alhora) i simplement premeu la tecla Supr.
Repetiu l'operació per a totes les parts que vulgueu eliminar, incloent-hi on algú diu el que no voleu incloure en l'edició final.
Un cop acabat, assegureu-vos que Només la zona seleccionada està desactivada, feu clic al botó Desa el text editat en un fitxer de llista de reproducció (a dalt del punt 5) i després de pocs segons s'afegirà una llista de reproducció nova a la safata del projecte sense silenci i sense el text que no voleu.