Govor v besedilo¶
Novo v verziji 21.04.0.
Opozorilo
Govor v besedilo ne deluje z različico 21.04.2 zaradi težav z API-jem Vosk . Uporabite različico 21.04.1 ali 21.04.3 in novejše različice.
Namestite Python¶
Python 3 mora biti nameščen na sistemu (podrobnosti glejte spodaj za Linux in Windows). Ko je Python nameščen, :ref: sledite tem korakom <settings_environment_python>, da Python postavite v virtualno okolje (nato se Python kopira v mapo venv
).
Odstranite namestitev Pythona
Če želite odstraniti nameščeni paket venv
, izberite in izbrišite venv
.
Popolnoma bo odstranilo mapo venv
z vsemi nameščenimi paketi. Upoštevajte, da s tem ne odstranite prenesenih modelov (vosk / whisper), ki lahko še vedno zavzamejo kar nekaj prostora na trdem disku.
Linux¶
Na večini Linux distribucij je python nameščen privzeto. Preverite lahko, ali je tako tudi v vašem primeru, tako da v terminalu zaženete python3 -V
. Če python manjka, samo poiščite po internetu, na voljo je veliko navodil.
Windows¶
Prenesite python z naslova https://www.python.org/downloads/ za namestitev v računalnik.
Govorni ustroji¶
Za namestitev mehanizmov za govor izberite
.VOSK¶
Ko prvič preklopite na VOSK, morate najprej namestiti manjkajoče odvisne knjižnice in programe.
Pot, kjer je nameščen VOSK:
Linux:
~/.local/share/kdenlive/venv/Lib
Windows:
%LocalAppData%\kdenlive\venv\Lib
Če ste že namestili VOSK v starejši različici Kdenlive in ste zdaj izbrali mapo venv
za Python, lahko izbrišete pretekle nameščene knjižnice VOSK z naslednjim ukazom v konzoli: pip uninstall vosk srt
Namestite jezik¶
Izberite
, nato izberite govorni ustroj VOSK.Kliknite Prenesi govorne modele iz:, da pridobite jezikovni model.
Povlecite in spustite želeni jezik s strani za prenos modelov Vosk v okno modelov in program ga bo prenesel in izvlekel za vas.
Če imate težave, pritisnite gumb Preveri nastavitev.
Mapa z modeli Prikažite velikost nameščenih modelov. S klikom povezave odprete mapo modela.
Govorni modeli VOSK so shranjeni tukaj:
Linux: ~/.local/share/kdenlive/speechmodels
Windows: %AppData%\kdenlive\speechmodels
Whisper¶
Novo v verziji 23.04.
OpenAI-Whisper je model za prepoznavanje govora za splošno uporabo. Izurjen je na velikem podatkovnem naboru raznolikih posnetkov in je sposoben izvajati prevajanje govora in identifikacijo jezika.
Whisper je počasnejši od VOSK zaradi rabe CPE, vendar je bolj natančen kot VOSK. Whisper ustvarja stavke z ločili, celo v osnovnem načinu.
Ko prvič preklopite na Whisper, morate najprej namestiti manjkajoče odvisne knjižnice in programe (približno 2 GB za prenos).
Pot, kjer je nameščen Whisper:
Linux:
~/.local/share/kdenlive/venv/Lib
Windows:
%LocalAppData%\kdenlive\venv\Lib
Modeli govora Whisper so shranjeni tukaj:
Linux: ~/.local/share/kdenlive/opencvmodels
Windows: %AppData%\kdenlive\opencvmodels
Model Izberite model. Več podrobnosti na Whisper source code page (privzeto: Osnovni oz. Base).
Jezik Izberite jezik, če samodejna zaznava ni natančno (privzeto: Samodejno zaznaj)
Naprava Če želite ohraniti združljivost, je na voljo samo CPE.
Onemogoči polovično natančnosti (FP16) Samo za grafično procesno enoto. Ko Kdenlive zazna grafično kartico NVIDIA GTX 16xx, samodejno onemogoči polovično natančnost (FP16). Če imate težave z uporabo GPE-ja, lahko izklopite polovično natančnost.
Prevedi besedilo v angleščino To prevaja neangleško besedilo v angleščino med prepoznavanjem.
Omogoči prevajanje prek SeamlessM4T S tem boste zgolj omogočili/onemogočili facebook/seamless-m4t-v2-large
. Če želite prenesti in začeti prevajati podnaslove, sledite tem korakom.
Posodobitve lahko preverite tako, da kliknete Preveri nastavitev
Če ste Whisper že namestili v starejši različici Kdenlive in ste zdaj izbrali mapo venv
za Python, lahko izbrišete pretekle nameščene knjižnice Whisper z naslednjim ukazom v konzoli: pip uninstall openai-whisper
Razpoznavanje govora¶
Izberite govorni pogon¶
Novo v verziji 23.04.
Omogočite
.Kliknite meni hamburgerja in izberite Prilagodi prepoznavanje govora. To vas pripelje do Prilagodi govor v besedilo, izberite pogon in kliknite V redu.
Prevedi v angleščino je na voljo le z govornim ustrojem Whisper. Prevaja neangleško besedilo v angleščino med prepoznavanjem.
Če pride do napake ali pomembnega sporočila, kliknite oznako Pokaži zapisnik in zapisnik postane viden.
Ustvarjanje podnaslova s prepoznavo govora VOSK¶
Označite območje časovnice, ki ga želite prepoznati (prilagodite modro črto) (1).
Kliknite ikono Prepoznavanje govora (2).
Izberite Jezik (3)
Izberite, kateri del časovnice bo uporabljen za prepoznavo (4).
Obdelaj Začetek prepoznavanja (5)
Podnaslov se samodejno ustvari in vstavi.
Opomba k 4: Privzeto se analizira samo območje časovnice (vse steze) (modra vrstica v ravnilu časovnice). Nastavite območje v časovnici na tisto, kar želite analizirati (uporabite tipki I in O za nastavitev vhodnih in izhodnih točk). Možnost Izbrani posnetki analizira samo izbrani posnetek.
Ustvarjanje podnaslova s prepoznavo govora WHISPER¶
Označite območje časovnice, ki ga želite prepoznati (prilagodite modro črto) (1).
Kliknite ikono Prepoznavanje govora (2).
Izberite Model (3)
Izberite, kateri del časovnice bo uporabljen za prepoznavo (4).
Obdelaj Začetek prepoznavanja (5)
Podnaslov se samodejno ustvari in vstavi.
Opomba k 4: Privzeto se analizira samo območje časovnice (vse steze) (modra vrstica v ravnilu časovnice). Nastavite območje v časovnici na tisto, kar želite analizirati (uporabite tipki I in O za nastavitev vhodnih in izhodnih točk). Možnost Izbrani posnetki analizira samo izbrani posnetek.
Jezik Če Samodejno zaznavanje ne izbere pravega jezika, lahko jezik nastavite ročno.
Največ znakov na vrstico Prilagajanje števila znakov na vrstico v podnaslovu
Prevedi s SeamlessM4T Najprej morate omogočiti možnost Omogoči prevod prek SeamlessM4T v .
Izberite Jezik vnosa in Izhodni jezik in kliknite Obdelaj. To bo najprej obdelalo zvok z whisperjem, nato pa zagnalo prevod s SeamlessM4T. Prevajanje lahko zasede 100 % RAM, 100 % CPE in 100 % dostopa do diskov.
Pozor
Če model 9 GB še ni bil prenesen, bo prenesen zdaj. Pri hitrosti prenosa 100 MB/s bo to trajalo približno 12 minut!
Med prenosom se bo Kdenlive odzival kot običajno. Ne kliknite Zapri, sicer se prenos ustavi.
Ne skrbite, če se v spodnjem polju prikaže sporočilo Inicializacija prevajalnega modela, medtem ko poteka prenos.
Ko je prevajalski model prenesen, se bo prevod izvedel (bodite potrpežljivi, saj prenos modela traja približno 12 minut ob hitrosti prenosa 100 MB/s).
Modeli SeamlessM4T so shranjeni tukaj:
Linux: $HOME/.cache/hugginface
Windows: C:\Users\<username>\.cache\huggingface
Ustvarjanje posnetkov s prepoznavanjem govora¶
To je uporabno za intervjuje in druge posnetke, povezane z govorjeno besedo. Omogočite element menija
.Izberite posnetek v projektni posodi.
Po potrebi nastavite vhodno/izhodno točko v ogledu posnetka in omogočite izbirno polje Samo izbrano območje. To bo prepoznalo samo besedilo znotraj območja.
Izberite pravi jezik, ko izberete pogon VOSK. Ali pa izberite mehanizem Whisper s klikom Prilagodi razpoznavo govora (glejte prilagoditev govora v besedilo).
Pritisnite gumb Začni razpoznavanje.
Izberite želeno besedilo. Držite pritisnjeno krmilko ali dvigalko, da izberete več besedil.
Izberite: Ustvari novo zaporedje z urejanjem ustvari novo zaporedje z vsakim besedilom časovne kode kot enim posnetkom, Vstavi izbor na časovnico na položaju igralne glave ali na Shrani urejeno besedilo v datoteko seznama predvajanja, ki se prikaže v projektni posodi.
Približaj ali Oddalji besedilo. Odstrani območja brez govora izbriše vse vnose »Brez govora« hkrati.
Dodajte zaznamek. Na te zaznamke v časovnici lahko skočite s bližnjico izmenjalka + smerna tipka ali pa z dvojnim klikom uredite zaznamek.
Izbrišite izbrano besedilo.
Tukaj lahko iščete po besedilu.
In krmarite navzgor ali navzdol po besedilu.
Zaznavanje tišine¶
To deluje samo s pogonom VOSK.
Odprite posnetek v ogledu posnetka in odprite okno urejevalnika govora (
) .Izberite jezik ali namestite jezik in prenesite model zanj.
Nato kliknite gumb Začni razpoznavanje.
Ko to storite, izberite pod zgornjo točko 6 do Odstrani območja brez govora hkrati. Ali pa kliknite časovno kodo, kjer je označeno »Brez govora« (držite pritisnjeno krmilko, da izberete več elementov hkrati) in samo pritisnite Brisalko.
Ponovite operacijo za vse dele, ki jih želite odstraniti, vključno s tem, kje nekdo nekaj pove, česar ne želite vključiti v končno montažo.
Ko končate, se prepričajte, da je Samo izbrano območje onemogočeno, kliknite gumb Shrani urejeno besedilo v datoteko seznama predvajanja (zgoraj pod točko 5) in po nekaj sekundah se v projektno posodo doda nov seznam predvajanja brez tišine in brez besedila, ki ga ne želite.