Govor v besedilo

Ta razdelek se uporablja za nastavitev funkcije Kdenlive za pretvorbo govora v besedilo in za upravljanje različnih modelov za dva stroja VOSK in Whisper.

Opozorilo

Pretvorba govora v besedilo ne deluje z različico 21.04.2 zaradi težav z Vosk API. Uporabite različico 21.04.1 ali 21.04.3 in novejše različice.

Preden lahko konfigurirate in uporabljate funkcijo Govor v besedilo, morate namestiti Python3. Ko je Python3 nameščen, boste morda želeli uporabiti virtualno okolje (venv), da bo Kdenlive ločen od drugih uporab v vašem sistemu.

Če ste Python3 že namestili, skočite naravnost na konfiguracijsko stran.

Namestitev na Linux

V večini distribucij Linuxa je privzeto nameščen Python. Lahko preverite, ali to velja za vaš sistem, tako da v terminalu zaženete python3 --version. Sledijo osnovni koraki za namestitev Python3 na Ubuntu. Če vaša distribucija ne temelji na Ubuntuju, si oglejte posebno dokumentacijo ali poiščite navodila za namestitev v internetu.

$ sudo apt updates
$ sudo apt install python3

Ključni paket Python tretje osebe, ki ga morda potrebujete, je pip. Python 3.4 in novejše različice privzeto vključujejo pip, vendar ne škodi, če preverite tako, da v terminalu zaženete ukaz -v pip (nekatere distribucije uporabljajo pip za Python2 in pip3 za Python 3). Če pip manjka, ga lahko namestite z

$ python3 -m ensurepip --upgrade

V primeru težav si oglejte pip installation guide.

Opomba

V naslednjih odstavkih je pip generični izraz za vse različice pip, vključno s pip3. Uporabite pravilen ukaz pip za vaš OS.

Namestitev na Windows

Prenesite Python z uradne strani Python download.

Govorni stroji

Na voljo sta dva stroja govora: VOSK in Whisper. OpenAI Whisper je modul za prepoznavanje govora za splošno uporabo, usposobljen za velik nabor podatkov o raznolikem zvoku in je sposoben izvajati prevajanje govora in identifikacijo jezika.

Whisper je počasnejši od VOSK na CPU, vendar je natančnejši od VOSK. Whisper ustvarja stavke z ločili, tudi v osnovnem načinu.

Nastaviti morate modele, ki jih bodo uporabljali ti stroji.

Nasvet

Če uporabljate različico Kdenlive z ravnim paketom, boste morda imeli težave z nameščanjem govornih modelov. Pristop peskovnika flatpak preprečuje kdenlive zagon pip. Obstaja možna rešitev z uporabo $ flatpak run --command=/bin/bash org.kde.kdenlive in nato $ python -m securepip, ki mu sledi $ python -m pip install -U openai -whisper torch (z dovoljenjem Veronica Explains). Vaša kilometrina se lahko razlikuje.

Druga možnost je, da izberete Whisper in nato kliknete Namesti večjezični prevod. To bo preneslo in namestilo potrebne odvisnosti in Kdenlive obvestilo o lokaciji vaše namestitve Python in pip. Po tem lahko sledite navodilom za nastavitev VOSK in Whisper tukaj.

VOSK

configure_speech2text_vosk_conf_2412

Python deluje, vendar VOSK še ni uporaben zaradi manjkajočih govornih modelov

Najprej morate prenesti govorni model s strani za prenos alphacephei[1] . Sledite povezavi (2) in prenesite modele, ki jih potrebujete.

Privzeto so jezikovni modeli nameščeni v naslednje mape:

Linux:

~/.local/share/kdenlive/venv/Lib

Windows:

%LocalAppData%\kdenlive\venv\Lib

Če želite uporabiti določeno mapo, označite Mapo modelov po meri (3) in jo določite v spodnjem besedilnem polju ali kliknite na document-open:guilabel:`Odpri pogovorno okno datoteke `, da se pomaknete do ciljne mape. Če uporabljate privzeto mapo, bo prikazana v informativne namene v besedilnem polju mape modelov.

Če ste VOSK namestili v prejšnji različici Kdenlive in ste zdaj izbrali mapo venv za Python, lahko izbrišete predhodno nameščene knjižnice VOSK z uporabo naslednjega ukaza v terminalu:

$ pip uninstall vosk srt

Kliknite Dodaj model in vnesite pot do datotek, ki ste jih prenesli.

configure_speech2text_new_dictionary_2412

Kliknite na |dokument-odpri|Pogovorno okno za odpiranje datoteke, da odprete upravitelja datotek vašega operacijskega sistema, da se pomaknete do mesta, kjer ste prenesli datoteke, in izberete datoteko modela, ki jo želite dodati.


configure_speech2text_new_dictionary_2412

Druga možnost je, da povlecite in spustite želeni jezikovni model s strani za prenos alphacephei[1] v okno modela (4) in Kdenlive ga bo prenesel in ekstrahiral namesto vas v privzeto mapo ali mapo po meri ste navedli.

Opomba

Modeli so stisnjene datoteke (.zip) in so lahko veliki nekaj GB. Časi prenosa so lahko dolgi, odvisno od vaše internetne povezave. Po prenosu je treba datoteke ekstrahirati, kar lahko traja tudi dolgo, odvisno od konfiguracije vašega sistema. Videti je, da se Kdenlive ne odziva, vendar deluje v ozadju. Prosim za potrpežljivost.

Ko so modeli nameščeni, Kdenlive prikaže velikost mape modelov. Kliknite Mapa Modeli, da odprete mapo modelov z upraviteljem datotek vašega operacijskega sistema.

Whisper

configure_speech2text_whisper_install_2412

Namestite manjkajoče odvisnosti

Ko prvič preklopite na Whisper, morate namestiti manjkajoče odvisnosti (približno 2 GB za prenos).

Nato morate prenesti enega ali več govornih modelov.

configure_speech2text_whisper_2412

Whisper je nameščen, vendar ni bil prenesen noben govorni model

1:

Za prepoznavanje govora je izbran Whisper

2:

Ko ostane na Samodejno zaznavanje, bo Kdenlive poskušal ugotoviti, kateri jezik uporabiti za prepoznavanje govora. Če to daje napačne rezultate, tukaj izberite pravi jezik.

3:

Za prepoznavanje govora lahko preklapljate med uporabo CPE ali GPE. GPE, ki podpira CUDA, je potreben za prepoznavanje govora GPE.

4:

Samo za GPE. Ko Kdenlive zazna grafično kartico NVIDIA GTX 16xx, samodejno onemogoči polovično natančnost (FP16). Če imate težave z uporabo GPE, lahko izklopite polovično natančnost.

5:

Whisper lahko prevede besedilo v angleščino. Če potrebujete prevod v druge jezike, morate klikniti Namesti večjezični prevod. To bo omogočilo SeamlessM4T[2] ter preneslo in namestilo njegove modele (približno 10 GB podatkov). Od takrat naprej bo obdelava potekala brez povezave.

Kliknite Upravljanje modelov ali pojdite na priporočilo za uporabo turbo modela s klikom na Prenos (1,4 GB). Več informacij o razpoložljivih modelih je na Whisper source code page.

configure_speech2text_whisper_models_2412

Whisper prenos in upravljanje modelov

Kdenlive prikazuje postopek prenosa.

Nameščeni govorni modeli imajo poln krog. Lahko jih izbrišete s klikom na Odstrani model

Razpoložljivi modeli imajo votel krog. Namestite jih lahko s klikom na Namesti model.

Whisper installed

Ko je vse pravilno konfigurirano, dobite ta zaslon: Vse zeleno!

Pot, kjer je nameščen Whisper:

Linux:

~/.local/share/kdenlive/venv/Lib

Windows:

%LocalAppData%\kdenlive\venv\Lib

Govorni modeli Whisper so shranjeni tukaj:

Linux:

~/.local/share/kdenlive/opencvmodels

Windows:

%AppData%\kdenlive\opencvmodels

Za prenos in začetek prevajanja podnapisov sledite tem korakom.

Posodobitve lahko preverite s klikom na Preveri konfiguracijo

Če ste namestili Whisper v prejšnji različici Kdenlive in ste zdaj izbrali mapo venv za Python, lahko izbrišete predhodno nameščene knjižnice Whisper z naslednjim ukazom v terminalu:

$ pip uninstall openai-whisper

Opomba

Če med prepoznavanjem govora prejemate dosledna sporočila o manjkajočih datotekah modela, preverite, kam vas pripelje klik na povezavo zraven Mapa Modeli. Če je ~/.cache, kjer je mapa Whisper, ki vsebuje vse modele, ki ste jih prenesli, preprosto kopirajte to mapo tja, kjer sporočilo o napaki pravi, da manjkajo (najverjetneje: :file: ~/.var/app/org.kde.kdenlive/cache)


configure_speech2text_vosk_models_alphacephei_2412