Govor v besedilo

Novo v verziji 21.04.0.

Opozorilo

Govor v besedilo ne deluje z različico 21.04.2 zaradi težav z API-jem Vosk . Uporabite različico 21.04.1 ali 21.04.3 in novejše različice.

Namestite Python

Python 3 mora biti nameščen na sistemu (podrobnosti glejte spodaj za Linux in Windows). Ko je Python nameščen, :ref: sledite tem korakom <settings_environment_python>, da Python postavite v virtualno okolje (nato se Python kopira v mapo venv).

Odstranite namestitev Pythona

Če želite odstraniti nameščeni paket venv, izberite Nastavitve -‣ Nastavitve Kdenlive ‣ Okolje ‣ Python in izbrišite venv.

Popolnoma bo odstranilo mapo venv z vsemi nameščenimi paketi. Upoštevajte, da s tem ne odstranite prenesenih modelov (vosk / whisper), ki lahko še vedno zavzamejo kar nekaj prostora na trdem disku.

Linux

Na večini Linux distribucij je python nameščen privzeto. Preverite lahko, ali je tako tudi v vašem primeru, tako da v terminalu zaženete python3 -V. Če python manjka, samo poiščite po internetu, na voljo je veliko navodil.

Windows

Prenesite python z naslova https://www.python.org/downloads/ za namestitev v računalnik.

Govorni ustroji

Za namestitev mehanizmov za govor izberite Nastavitve ‣ Prilagodi Kdenlive … ‣ stran Govor v besedilo.

VOSK

Vosk download dependencies

Vosk ni nameščen

Ko prvič preklopite na VOSK, morate najprej namestiti manjkajoče odvisne knjižnice in programe.

Pot, kjer je nameščen VOSK:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

Če ste že namestili VOSK v starejši različici Kdenlive in ste zdaj izbrali mapo venv za Python, lahko izbrišete pretekle nameščene knjižnice VOSK z naslednjim ukazom v konzoli: pip uninstall vosk srt

Namestite jezik

Izberite Nastavitve ‣ Prilagodi Kdenlive … ‣ stran Govor v besedilo, nato izberite govorni ustroj VOSK.

Kliknite Prenesi govorne modele iz:, da pridobite jezikovni model.

download link

Povlecite in spustite želeni jezik s strani za prenos modelov Vosk v okno modelov in program ga bo prenesel in izvlekel za vas.

download model

Če imate težave, pritisnite gumb Preveri nastavitev.

Mapa z modeli Prikažite velikost nameščenih modelov. S klikom povezave odprete mapo modela.

Govorni modeli VOSK so shranjeni tukaj:

Linux: ~/.local/share/kdenlive/speechmodels

Windows: %AppData%\kdenlive\speechmodels

Whisper

Novo v verziji 23.04.

OpenAI-Whisper je model za prepoznavanje govora za splošno uporabo. Izurjen je na velikem podatkovnem naboru raznolikih posnetkov in je sposoben izvajati prevajanje govora in identifikacijo jezika.

Whisper je počasnejši od VOSK zaradi rabe CPE, vendar je bolj natančen kot VOSK. Whisper ustvarja stavke z ločili, celo v osnovnem načinu.

Whisper download dependencies

Whisper ni nameščen

Ko prvič preklopite na Whisper, morate najprej namestiti manjkajoče odvisne knjižnice in programe (približno 2 GB za prenos).

Whisper installed

Ko je vse pravilno nastavljeno, se prikaže ta zaslon.

Pot, kjer je nameščen Whisper:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

Modeli govora Whisper so shranjeni tukaj:

Linux: ~/.local/share/kdenlive/opencvmodels

Windows: %AppData%\kdenlive\opencvmodels

Model Izberite model. Več podrobnosti na Whisper source code page (privzeto: Osnovni oz. Base).

Jezik Izberite jezik, če samodejna zaznava ni natančno (privzeto: Samodejno zaznaj)

Naprava Če želite ohraniti združljivost, je na voljo samo CPE.

Onemogoči polovično natančnosti (FP16) Samo za grafično procesno enoto. Ko Kdenlive zazna grafično kartico NVIDIA GTX 16xx, samodejno onemogoči polovično natančnost (FP16). Če imate težave z uporabo GPE-ja, lahko izklopite polovično natančnost.

Prevedi besedilo v angleščino To prevaja neangleško besedilo v angleščino med prepoznavanjem.

Omogoči prevajanje prek SeamlessM4T S tem boste zgolj omogočili/onemogočili facebook/seamless-m4t-v2-large. Če želite prenesti in začeti prevajati podnaslove, sledite tem korakom.

Posodobitve lahko preverite tako, da kliknete Preveri nastavitev

Če ste Whisper že namestili v starejši različici Kdenlive in ste zdaj izbrali mapo venv za Python, lahko izbrišete pretekle nameščene knjižnice Whisper z naslednjim ukazom v konzoli: pip uninstall openai-whisper

Razpoznavanje govora

Izberite govorni pogon

Novo v verziji 23.04.

Omogočite Meni ‣ Pogled ‣ Urejevalnik govora.

change the speech engine

Kliknite meni hamburgerja application-menu in izberite Prilagodi prepoznavanje govora. To vas pripelje do Prilagodi govor v besedilo, izberite pogon in kliknite V redu.

Prevedi v angleščino je na voljo le z govornim ustrojem Whisper. Prevaja neangleško besedilo v angleščino med prepoznavanjem.

Speech to text show log

Če pride do napake ali pomembnega sporočila, kliknite oznako Pokaži zapisnik in zapisnik postane viden.

Ustvarjanje podnaslova s prepoznavo govora VOSK

Speech to text subtitle

Prikazano s pogonom VOSK

  1. Označite območje časovnice, ki ga želite prepoznati (prilagodite modro črto) (1).

  2. Kliknite ikono Prepoznavanje govora (2).

  3. Izberite Jezik (3)

  4. Izberite, kateri del časovnice bo uporabljen za prepoznavo (4).

  5. Obdelaj Začetek prepoznavanja (5)

Podnaslov se samodejno ustvari in vstavi.

Opomba k 4: Privzeto se analizira samo območje časovnice (vse steze) (modra vrstica v ravnilu časovnice). Nastavite območje v časovnici na tisto, kar želite analizirati (uporabite tipki I in O za nastavitev vhodnih in izhodnih točk). Možnost Izbrani posnetki analizira samo izbrani posnetek.

Ustvarjanje podnaslova s prepoznavo govora WHISPER

Speech to text subtitle Whisper

Prikazano s pogonom Whisper

  1. Označite območje časovnice, ki ga želite prepoznati (prilagodite modro črto) (1).

  2. Kliknite ikono Prepoznavanje govora (2).

  3. Izberite Model (3)

  4. Izberite, kateri del časovnice bo uporabljen za prepoznavo (4).

  5. Obdelaj Začetek prepoznavanja (5)

Podnaslov se samodejno ustvari in vstavi.

Opomba k 4: Privzeto se analizira samo območje časovnice (vse steze) (modra vrstica v ravnilu časovnice). Nastavite območje v časovnici na tisto, kar želite analizirati (uporabite tipki I in O za nastavitev vhodnih in izhodnih točk). Možnost Izbrani posnetki analizira samo izbrani posnetek.

Jezik Če Samodejno zaznavanje ne izbere pravega jezika, lahko jezik nastavite ročno.

Največ znakov na vrstico Prilagajanje števila znakov na vrstico v podnaslovu

Prevedi s SeamlessM4T Najprej morate omogočiti možnost Omogoči prevod prek SeamlessM4T v Nastavitve -‣ Prilagodi Kdenlive ‣ Govor v besedilo.

Whisper SeamlessM4T choose input and output language

Pozor Ko prvič uporabljate SeamlessM4T, bo potrebno prenesti približno 9 GB podatkov v ozadju

Izberite Jezik vnosa in Izhodni jezik in kliknite Obdelaj. To bo najprej obdelalo zvok z whisperjem, nato pa zagnalo prevod s SeamlessM4T. Prevajanje lahko zasede 100 % RAM, 100 % CPE in 100 % dostopa do diskov.

Pozor

Če model 9 GB še ni bil prenesen, bo prenesen zdaj. Pri hitrosti prenosa 100 MB/s bo to trajalo približno 12 minut!

Med prenosom se bo Kdenlive odzival kot običajno. Ne kliknite Zapri, sicer se prenos ustavi.

Ne skrbite, če se v spodnjem polju prikaže sporočilo Inicializacija prevajalnega modela, medtem ko poteka prenos.

Whisper SeamlessM4T choose input and output language

Ko je prevajalski model prenesen, se bo prevod izvedel (bodite potrpežljivi, saj prenos modela traja približno 12 minut ob hitrosti prenosa 100 MB/s).

On Whisper SeamlessM4T installed

SeamlessM4T je omogočen in uspešno prenesen

Modeli SeamlessM4T so shranjeni tukaj:

Linux: $HOME/.cache/hugginface

Windows: C:\Users\<username>\.cache\huggingface

Ustvarjanje posnetkov s prepoznavanjem govora

To je uporabno za intervjuje in druge posnetke, povezane z govorjeno besedo. Omogočite element menija Pogled ‣ Urejevalnik govora.

Speech editor

Prikazano s pogonom VOSK in omogočenim iskanjem

Izberite posnetek v projektni posodi.

  1. Po potrebi nastavite vhodno/izhodno točko v ogledu posnetka in omogočite izbirno polje Samo izbrano območje. To bo prepoznalo samo besedilo znotraj območja.

  2. Izberite pravi jezik, ko izberete pogon VOSK. Ali pa izberite mehanizem Whisper s klikom Prilagodi razpoznavo govora (glejte prilagoditev govora v besedilo).

  3. Pritisnite gumb Začni razpoznavanje.

  4. Izberite želeno besedilo. Držite pritisnjeno krmilko ali dvigalko, da izberete več besedil.

  1. Izberite: Ustvari novo zaporedje z urejanjem ustvari novo zaporedje z vsakim besedilom časovne kode kot enim posnetkom, Vstavi izbor na časovnico na položaju igralne glave ali na Shrani urejeno besedilo v datoteko seznama predvajanja, ki se prikaže v projektni posodi.

  1. Približaj ali Oddalji besedilo. Odstrani območja brez govora izbriše vse vnose »Brez govora« hkrati.

  2. Dodajte zaznamek. Na te zaznamke v časovnici lahko skočite s bližnjico izmenjalka + smerna tipka ali pa z dvojnim klikom uredite zaznamek.

  3. Izbrišite izbrano besedilo.

  4. Tukaj lahko iščete po besedilu.

  5. In krmarite navzgor ali navzdol po besedilu.

Zaznavanje tišine

To deluje samo s pogonom VOSK.

Odprite posnetek v ogledu posnetka in odprite okno urejevalnika govora (Meni ‣ Pogled ‣ Urejevalnik govora) .

Izberite jezik ali namestite jezik in prenesite model zanj.

Nato kliknite gumb Začni razpoznavanje.

Ko to storite, izberite pod zgornjo točko 6 do Odstrani območja brez govora hkrati. Ali pa kliknite časovno kodo, kjer je označeno »Brez govora« (držite pritisnjeno krmilko, da izberete več elementov hkrati) in samo pritisnite Brisalko.

Ponovite operacijo za vse dele, ki jih želite odstraniti, vključno s tem, kje nekdo nekaj pove, česar ne želite vključiti v končno montažo.

Ko končate, se prepričajte, da je Samo izbrano območje onemogočeno, kliknite gumb Shrani urejeno besedilo v datoteko seznama predvajanja (zgoraj pod točko 5) in po nekaj sekundah se v projektno posodo doda nov seznam predvajanja brez tišine in brez besedila, ki ga ne želite.