Tal till text¶

Varning

Tal till text fungerar inte med version 21.04.2 på grund av problem med Vosk programmeringsgränssnittet. Använd version 21.04.1 eller 21.04.3 och senare versioner.

Innan tal till text kan användas måste det vara riktigt inställt och talmodeller installerade. Se kapitlet Anpassa tal till text.

Råd

Även om man kan anpassa och ställa in både VOSK och Whisper för taligenkänning, används gränssnittet som är valt i inställningssektionen Tal till text för taligenkänning nästa gång gång funktionen används. Man kan naturligtvis byta fram och tillbaka under redigering och använda olika gränssnitt för olika ändamål. Taleditorkomponenten har ett menyalternativ för att snabbt komma åt inställningssektionen som går förbi Meny ‣ Inställningar ‣ Anpassa Kdenlive ‣ Tal till text.

Taligenkänning¶

Det finns två användningsfall för taligenkänning:

Skapa textning automatiskt
Skapa transkriberingar och möjligheten att lägga till klipp på tidslinjen baserat på transkriberingen

Skapa textning med VOSK taligenkänning¶

Om det inte har skapats ännu, lägg till ett textningsspår genom att klicka på ikonen add-subtitle Verktyg för textningsredigering på tidslinjens verktygsrad (6).

../_images/s2t_subs_vosk_2412.webp — Skapa textning automatiskt med VOSK-gränssnittet¶

1:: Taligenkänning. Klicka här för att öppna dialogrutan Automatisk textning.
2:: Tidslinjezon. Mer information om tidslinjezoner finns i kapitlet Tidslinjelinjal.
3:: Välj vilken del av tidslinjen som ska användas för igenkänning
4:: Behandla. Klicka för att starta igenkänningen
5:: Modell. Välj modell för textningens språk. Man kan installera fler modeller i sektionen Anpassa Tal till text.
6:: Verktyg för textningsredigering. Klicka för att öppna eller stänga textningsspåret.

Steg för att skapa textning med VOSK taligenkänning

(siffror inom parentes pekar på det grafiska gränssnittets element på skärmbilden ovan):

Taligenkänning (1). Klicka här för att öppna dialogrutan Automatisk textning.
Om det behövs, definiera en tidslinjezon (2) som taligenkänning ska användas för. Mer information om tidslinjezoner finns i kapitlet Tidslinjelinjal.
Modell (5). Välj modell för textningens språk. Man kan installera fler modeller i sektionen Anpassa Tal till text.
Välj vilken del av tidslinjen som ska användas för taligenkänning (3)
:guilabel:`Behandla`(4). Klicka för att starta skapa textning.

Textningen skapas och infogas automatiskt.

Anmärkning till steg 4: Det normala värdet är att endast analysera Tidslinjezon (alla spår) (2 på skärmbilden ovan). Ställ in tidslinjezonen till vad som ska analyseras (använd I och O för att lägga till in- och ut-punkter). Alternativet Markerade klipp analyserar endast det markerade klippet.

Skapa textning med WHISPER taligenkänning¶

Om det inte har skapats ännu, lägg till ett textningsspår genom att klicka på ikonen add-subtitle Verktyg för textningsredigering på tidslinjens verktygsrad (11).

../_images/s2t_subs_whisper_2412.webp — Skapa textning automatiskt med Whisper-gränssnittet¶

1:: Taligenkänning. Klicka här för att öppna dialogrutan Automatisk textning.
2:: Tidslinjezon. Mer information om tidslinjezoner finns i kapitlet Tidslinjelinjal.
3:: Välj vilken del av tidslinjen som ska användas för igenkänning
4:: Modell. Välj modell för textningens språk. Man kan installera fler modeller i sektionen Anpassa Tal till text.
5:: Behandla. Klicka för att starta igenkänningen
6:: Språk. Standardvärde är Detektera automatiskt. Byt till rätt språk om det inte detekteras riktigt.
7:: Maximalt antal tecken per rad. Definiera hur många tecken per rad som tillåts innan en radbrytning infogas.
8:: Översätt med SeamlessM4T. Om man markerar det öppnas ytterligare två urvalsfält: Ett för Källspråk och ett för Resultatspråk. Det kräver att översättning med SeamlessM4T är aktiverat i inställningarna (Meny ‣ Inställningar ‣ Anpassa Kdenlive ‣ Tal till text). Se kapitlet om Tal till text.
9:: Översätt till engelska. Använd det för att använda Whisper för översättning till engelska.
10:: Verktyg för textningsredigering. Klicka för att öppna eller stänga textningsspåret.

Steg för att skapa textning med VOSK taligenkänning

(siffror inom parentes pekar på det grafiska gränssnittets element på skärmbilden ovan):

Taligenkänning (1). Klicka här för att öppna dialogrutan Automatisk textning.
Om det behövs, definiera en tidslinjezon (2) som taligenkänning ska användas för. Mer information om tidslinjezoner finns i kapitlet Tidslinjelinjal.
Modell (5). Välj modell för textningens språk. Man kan installera fler modeller i sektionen Anpassa Tal till text.
Välj vilken del av tidslinjen som ska användas för taligenkänning (3)
:guilabel:`Behandla`(4). Klicka för att starta skapa textning.

Textningen skapas och infogas automatiskt.

Anmärkning till steg 4: Det normala värdet är att endast analysera Tidslinjezon (alla spår) (2 på skärmbilden ovan). Ställ in tidslinjezonen till vad som ska analyseras (använd I och O för att lägga till in- och ut-punkter). Alternativet Markerade klipp analyserar endast det markerade klippet.

Översätt med SeamlessM4T

../_images/s2t_subs_whisper_SM4T_1_2412.webp — Översättning med SeamlessM4T¶

Välj Källspråk och Resultatspråk och klicka på Behandla.

Det bearbetar först ljudet med whisper och startar sedan översättning med SeamlessM4T. Översättning kan ta upp 100 % primärminne, 100 % processoranvändning och 100 % diskåtkomst.

Uppmärksamma

Om 9 GB-modellen ännu inte har laddats ner kommer den att laddas ner nu. Med en nerladdningshastighet på 100 MB/s tar det cirka 12 minuter.

Under nerladdningen reagerar Kdenlive som vanligt. Klicka inte på Stäng annars stoppas nerladdningen.

../_images/s2t_subs_whisper_SM4T_2_2412.webp

Var inte orolig om ett meddelande visas som i rutan nedan Initierar översättningsmodell medan nerladdning pågår.

Beroende på Internetanslutningen och bandbredd, kan nerladdningen av modellen ta ganska lång tid (cirka 12 minuter med en nerladdningshastighet på 100 MB/s).

När översättningsmodellen väl är nerladdad, startar översättningen.

Skapa klipp med taligenkänning¶

Det är användbart för intervjuer och andra talrelaterat filmmaterial. Gå till taleditorns grafiska komponent. Om den inte redan är aktiverad, gör det via Meny ‣ Visa ‣ Taleditor.

Observera

Att använda taligenkänning för att skapa transkriptioner och skapa klipp från det är endast möjligt med klipp i Projektkorgen.

../_images/speech_editor_2412.webp — Visat med VOSK-gränssnittet och sökning (10) aktiverad¶

Välj ett klipp i projektkorgen.

1:: Om det behövs ställ in/ut-punkten på klippskärmen och aktivera Bara markerad zon. Det transkriberar bara texten inne i zonen.
2:: Klicka på Hamburgermenyn och välj modell för rätt språk när gränssnittet VOSK är inställt för taligenkänning. Om gränssnittet *Whisper*x är vald kan man välja Översätt till engelska om det behövs. Man väljer gränssnitt för taligenkänning i Meny ‣ Inställningar ‣ Anpassa Kdenlive ‣ Tal till text. Klicka på Anpassa taligenkänning för att öppna inställningssektionen för tal till text. För mer information om inställningen, se kapitlet Anpassa tal till text.
3:: Tryck på knappen Transkribera.
4:: Markera texten. Håll nere Ctrl eller Skift för att markera flera texter.
5:: Skapa ny sekvens med redigering skapar en ny sekvens med varje tidskodstext som ett enda klipp. Infoga markering i tidslinje skapar klipp för varje markerad tidskodstext med början på uppspelningspositionen. Spara redigerad text i en spellistefil skapar en tillgång i projektkorgen med hela den transkriberade texten.
6:: Öka teckenstorleken och Minska teckenstorleken minskar eller ökar teckenstorleken.
7:: Add marker adds a marker for the timecode of the selected text. More details about Timeline Markers and Markers are available in the chapter about Timeline Markers.
8:: Ta bort markering tar bort den markerade texten.
9:: Remove non speech zones deletes all ”No speech” entries at once.
10:: Sök i text visar eller döljer sökfältet. Skriv in text att söka efter i den transkriberade texten. Sökningen är inte skiftlägeskänslig och hittar alla förekomster av strängen även inom ord. och navigerar till nästa förekomst av söktermen. Om sökfältet blir rödaktigt har den sista förekomsten av söktermen i texten nåtts.

Tystnadsdetektering¶

Observera

Det fungerar bara med VOSK-gränssnittet.

Markera klippet i projektkorgen och öppna talredigeringsfönstret (Meny ‣ Visa ‣ Taleditor) .

Klicka på Hamburgermenyn och välj modell för ditt språk. Om rätt modell inte finns med i listan, klicka på Anpassa taligenkänning. För detaljer om hur man lägger till modeller för gränssnittet VOSK, se kapitlet om Insticksprogram.

Klicka sedan på knappen Starta igenkänning.

När det är gjort, välj under punkt 6 ovanför Ta bort alla zoner utan tal på en gång. Eller klicka på tidskoden där ”inget tal” indikeras (håll nere Ctrl för att markera flera objekt samtidigt) och tryck bara på tangenten Delete.

Upprepa operationen för alla delar som ska tas bort, inklusive där någon säger vad man inte vill inkludera i den slutliga redigering.

När det är klar, se till att Bara markerad zon är inaktiverad, klicka på knappen Spara redigerad text i en spellistefil (ovanför under punkt 5) och efter några sekunder läggs en ny spellista till i projektkorgen utan tystnad och utan texten man inte vill ha.