Tal till text
Varning
Speech to text does not work with version 21.04.2 due to Vosk API issues. Use version 21.04.1 or 21.04.3 and later versions.
Before you can use Speech to Text, it must be properly configured and speech models installed. Please refer to the chapter Configure Speech to Text.
Råd
While you can configure and set up both, VOSK and Whisper, for speech recognition, the engine that is selected in the Speech to Text configuration section is being used for speech recognition the next time you use this feature. You can switch back and forth during editing, of course, and use different engines for different purposes. The Speech Editor widget has a menu entry to quickly access the configuration section bypassing the Speech to Text route.
Taligenkänning
Det finns två användningsfall för taligenkänning:
Skapa textning automatiskt
Creating transcripts and the ability to add clips to the timeline based on the transcript
Skapa textning med VOSK taligenkänning
Om det inte har skapats ännu, lägg till ett textningsspår genom att klicka på ikonen Verktyg för textningsredigering på tidslinjens verktygsrad (6).
Skapa textning automatiskt med VOSK-gränssnittet
- 1:
Taligenkänning. Klicka här för att öppna dialogrutan Automatisk textning.
- 2:
Tidslinjezon. Mer information om tidslinjezoner finns i kapitlet Tidslinjelinjal.
- 3:
Välj vilken del av tidslinjen som ska användas för igenkänning
- 4:
Behandla. Klicka för att starta igenkänningen
- 5:
Model. Select the model for the language of the subtitles. You can install more models in the Configuration section Speech to Text.
- 6:
Verktyg för textningsredigering. Klicka för att öppna eller stänga textningsspåret.
Steg för att skapa textning med VOSK taligenkänning
(siffror inom parentes pekar på det grafiska gränssnittets element på skärmbilden ovan):
Taligenkänning (1). Klicka här för att öppna dialogrutan Automatisk textning.
Om det behövs, definiera en tidslinjezon (2) som taligenkänning ska användas för. Mer information om tidslinjezoner finns i kapitlet Tidslinjelinjal.
Model (5). Select the model for the language of the subtitles. You can install more models in the Configuration section Speech to Text.
Välj vilken del av tidslinjen som ska användas för taligenkänning (3)
:guilabel:`Behandla`(4). Klicka för att starta skapa textning.
Textningen skapas och infogas automatiskt.
Anmärkning till steg 4: Det normala värdet är att endast analysera Tidslinjezon (alla spår) (2 på skärmbilden ovan). Ställ in tidslinjezonen till vad som ska analyseras (använd I och O för att lägga till in- och ut-punkter). Alternativet Markerade klipp analyserar endast det markerade klippet.
Skapa textning med WHISPER taligenkänning
Om det inte har skapats ännu, lägg till ett textningsspår genom att klicka på ikonen Verktyg för textningsredigering på tidslinjens verktygsrad (11).
Skapa textning automatiskt med Whisper-gränssnittet
- 1:
Taligenkänning. Klicka här för att öppna dialogrutan Automatisk textning.
- 2:
Tidslinjezon. Mer information om tidslinjezoner finns i kapitlet Tidslinjelinjal.
- 3:
Välj vilken del av tidslinjen som ska användas för igenkänning
- 4:
Model. Select the model for the language of the subtitles. You can install more models in the Configuration section Speech to Text.
- 5:
Behandla. Klicka för att starta igenkänningen
- 6:
Språk. Standardvärde är Detektera automatiskt. Byt till rätt språk om det inte detekteras riktigt.
- 7:
Maximalt antal tecken per rad. Definiera hur många tecken per rad som tillåts innan en radbrytning infogas.
- 8:
Translate with SeamlessM4T. Checking this opens adds two more selection fields: One for the Input language, and one for the Output language. This requires that translation with SeamlessM4T is enabled in the settings (). Please refer to the chapter about Speech to Text.
- 9:
Översätt till engelska. Använd det för att använda Whisper för översättning till engelska.
- 10:
Verktyg för textningsredigering. Klicka för att öppna eller stänga textningsspåret.
Steg för att skapa textning med VOSK taligenkänning
(siffror inom parentes pekar på det grafiska gränssnittets element på skärmbilden ovan):
Taligenkänning (1). Klicka här för att öppna dialogrutan Automatisk textning.
Om det behövs, definiera en tidslinjezon (2) som taligenkänning ska användas för. Mer information om tidslinjezoner finns i kapitlet Tidslinjelinjal.
Model (5). Select the model for the language of the subtitles. You can install more models in the Configuration section Speech to Text.
Välj vilken del av tidslinjen som ska användas för taligenkänning (3)
:guilabel:`Behandla`(4). Klicka för att starta skapa textning.
Textningen skapas och infogas automatiskt.
Anmärkning till steg 4: Det normala värdet är att endast analysera Tidslinjezon (alla spår) (2 på skärmbilden ovan). Ställ in tidslinjezonen till vad som ska analyseras (använd I och O för att lägga till in- och ut-punkter). Alternativet Markerade klipp analyserar endast det markerade klippet.
Översätt med SeamlessM4T
Översättning med SeamlessM4T
Välj Källspråk och Resultatspråk och klicka på Behandla.
Det bearbetar först ljudet med whisper och startar sedan översättning med SeamlessM4T. Översättning kan ta upp 100 % primärminne, 100 % processoranvändning och 100 % diskåtkomst.
Uppmärksamma
Om 9 GB-modellen ännu inte har laddats ner kommer den att laddas ner nu. Med en nerladdningshastighet på 100 MB/s tar det cirka 12 minuter.
Under nerladdningen reagerar Kdenlive som vanligt. Klicka inte på Stäng annars stoppas nerladdningen.
Var inte orolig om ett meddelande visas som i rutan nedan Initierar översättningsmodell medan nerladdning pågår.
Beroende på Internetanslutningen och bandbredd, kan nerladdningen av modellen ta ganska lång tid (cirka 12 minuter med en nerladdningshastighet på 100 MB/s).
När översättningsmodellen väl är nerladdad, startar översättningen.
Skapa klipp med taligenkänning
Det är användbart för intervjuer och andra talrelaterat filmmaterial. Gå till taleditorns grafiska komponent. Om den inte redan är aktiverad, gör det via .
Observera
Att använda taligenkänning för att skapa transkriptioner och skapa klipp från det är endast möjligt med klipp i Projektkorgen.
Visat med VOSK-gränssnittet och sökning (10) aktiverad
Välj ett klipp i projektkorgen.
- 1:
Om det behövs ställ in/ut-punkten på klippskärmen och aktivera Bara markerad zon. Det transkriberar bara texten inne i zonen.
- 2:
Click on
Hamburger Menu and choose the model for the correct language when the VOSK engine is set for speech recognition. If the Whisper engine is selected, you can select Translate to English if needed. You select the speech recognition engine in . Click on Configure Speech Recognition to open the configuration section for Speech to Text. For more details about the configuration refer to the chapter Configure Speech to Text.
- 3:
Tryck på knappen Transkribera.
- 4:
Markera texten. Håll nere Ctrl eller Skift för att markera flera texter.
- 5:
Skapa ny sekvens med redigering skapar en ny sekvens med varje tidskodstext som ett enda klipp. Infoga markering i tidslinje skapar klipp för varje markerad tidskodstext med början på uppspelningspositionen. Spara redigerad text i en spellistefil skapar en tillgång i projektkorgen med hela den transkriberade texten.
- 6:
Öka teckenstorleken och
Minska teckenstorleken minskar eller ökar teckenstorleken.
- 7:
Add marker adds a marker for the timecode of the selected text. More details about Timeline Markers and Markers are available in the chapter about Timeline Markers.
- 8:
Ta bort markering tar bort den markerade texten.
- 9:
Remove non speech zones deletes all ”No speech” entries at once.
- 10:
Sök i text visar eller döljer sökfältet. Skriv in text att söka efter i den transkriberade texten. Sökningen är inte skiftlägeskänslig och hittar alla förekomster av strängen även inom ord.
och
navigerar till nästa förekomst av söktermen. Om sökfältet blir rödaktigt har den sista förekomsten av söktermen i texten nåtts.
Tystnadsdetektering
Observera
Det fungerar bara med VOSK-gränssnittet.
Markera klippet i projektkorgen och öppna talredigeringsfönstret () .
Klicka på Hamburgermenyn och välj modell för ditt språk. Om rätt modell inte finns med i listan, klicka på Anpassa taligenkänning. För detaljer om hur man lägger till modeller för gränssnittet VOSK, se kapitlet om Insticksprogram.
Klicka sedan på knappen Starta igenkänning.
När det är gjort, välj under punkt 6 ovanför Ta bort alla zoner utan tal på en gång. Eller klicka på tidskoden där ”inget tal” indikeras (håll nere Ctrl för att markera flera objekt samtidigt) och tryck bara på tangenten Delete.
Upprepa operationen för alla delar som ska tas bort, inklusive där någon säger vad man inte vill inkludera i den slutliga redigering.
När det är klar, se till att Bara markerad zon är inaktiverad, klicka på knappen Spara redigerad text i en spellistefil (ovanför under punkt 5) och efter några sekunder läggs en ny spellista till i projektkorgen utan tystnad och utan texten man inte vill ha.