Vstavki¶

V tem razdelku so opisane nastavitve za pretvorbo govora v besedilo in zaznavo predmetov.

Preden lahko konfigurirate in uporabljate funkcijo Zaznava predmetov, morate namestiti Python3. Ko je Python3 nameščen, boste morda želeli uporabiti virtualno okolje (venv), da bo Kdenlive ločen od drugih uporab v vašem sistemu.

Če ste namestili Python3, skočite desno na prilagoditveno stran Govor v besedilo ali Zaznavanje predmetov.

Namestitev Pythona¶

Namestitev na Linux¶

V večini distribucij Linuxa je privzeto nameščen Python. Lahko preverite, ali to velja za vaš sistem, tako da v terminalu zaženete python3 --version. Sledijo osnovni koraki za namestitev Python3 na Ubuntu. Če vaša distribucija ne temelji na Ubuntuju, si oglejte posebno dokumentacijo ali poiščite navodila za namestitev v internetu.

$ sudo apt updates
$ sudo apt install python3

Ključni paket Python tretje osebe, ki ga morda potrebujete, je pip. Python 3.4 in novejše različice privzeto vključujejo pip, vendar ne škodi, če preverite tako, da v terminalu zaženete ukaz -v pip (nekatere distribucije uporabljajo pip za Python2 in pip3 za Python 3). Če pip manjka, ga lahko namestite z

$ python3 -m ensurepip --upgrade

V primeru težav si oglejte pip installation guide.

Opomba

V naslednjih odstavkih je pip generični izraz za vse različice pip, vključno s pip3. Uporabite pravilen ukaz pip za vaš OS.

Namestitev na Windows¶

Prenesite Python z uradne strani Python download.

Izberi „Dodaj python.exe na PATH”

Izberi “Namesti zdaj”

Govor v besedilo¶

Ta razdelek se uporablja za nastavitev funkcije Kdenlive za pretvorbo govora v besedilo in za upravljanje različnih modelov za dva stroja VOSK in Whisper.

Opozorilo

Govor v besedilo ne deluje z različico 21.04.2 zaradi težav z Vosk API. Uporabite različico 21.04.1, 21.04.3 in novejše različice.

Govorni stroji¶

Na voljo sta dva stroja govora: VOSK in Whisper. OpenAI Whisper je modul za prepoznavanje govora za splošno uporabo, usposobljen za velik nabor podatkov o raznolikem zvoku in je sposoben izvajati prevajanje govora in identifikacijo jezika.

Whisper je počasnejši od VOSK na CPU, vendar je natančnejši od VOSK. Whisper ustvarja stavke z ločili, tudi v osnovnem načinu.

Nastaviti morate modele, ki jih bodo uporabljali ti stroji.

Nasvet

Če uporabljate različico Kdenlive z ravnim paketom, boste morda imeli težave z nameščanjem govornih modelov. Pristop peskovnika flatpak preprečuje kdenlive zagon pip. Obstaja možna rešitev z uporabo $ flatpak run --command=/bin/bash org.kde.kdenlive in nato $ python -m securepip, ki mu sledi $ python -m pip install -U openai -whisper torch (z dovoljenjem Veronica Explains). Vaša kilometrina se lahko razlikuje.

Druga možnost je, da izberete Whisper in nato kliknete Namesti večjezični prevod. To bo preneslo in namestilo potrebne odvisnosti in Kdenlive obvestilo o lokaciji vaše namestitve Python in pip. Po tem lahko sledite navodilom za nastavitev VOSK in Whisper tukaj.

VOSK¶

Najprej morate prenesti govorni model s strani za prenos alphacephei[1] . Sledite povezavi (2) in prenesite modele, ki jih potrebujete.

Privzeto so jezikovni modeli nameščeni v naslednje mape:

Linux:: ~/.local/share/kdenlive/venv/Lib
Windows:: %LocalAppData%\kdenlive\venv\Lib

Če želite uporabiti določeno mapo, označite Mapo modelov po meri (3) in jo določite v spodnjem besedilnem polju ali kliknite na document-open :guilabel:`Odpri pogovorno okno datoteke `, da se pomaknete do ciljne mape. Če uporabljate privzeto mapo, bo prikazana v informativne namene v besedilnem polju mape modelov.

Če ste VOSK namestili v prejšnji različici Kdenlive in ste zdaj izbrali mapo venv za Python, lahko izbrišete predhodno nameščene knjižnice VOSK z uporabo naslednjega ukaza v terminalu:

$ pip uninstall vosk srt

Kliknite Dodaj model in vnesite pot do datotek, ki ste jih prenesli.

configure_speech2text_new_dictionary_2412

Kliknite na |dokument-odpri|Pogovorno okno za odpiranje datoteke, da odprete upravitelja datotek vašega operacijskega sistema, da se pomaknete do mesta, kjer ste prenesli datoteke, in izberete datoteko modela, ki jo želite dodati.

Druga možnost je, da povlecite in spustite želeni jezikovni model s strani za prenos alphacephei[1] v okno modela (4) in Kdenlive ga bo prenesel in ekstrahiral namesto vas v privzeto mapo ali mapo po meri ste navedli.

Opomba

Modeli so stisnjene datoteke (.zip) in so lahko veliki nekaj GB. Časi prenosa so lahko dolgi, odvisno od vaše internetne povezave. Po prenosu je treba datoteke ekstrahirati, kar lahko traja tudi dolgo, odvisno od konfiguracije vašega sistema. Videti je, da se Kdenlive ne odziva, vendar deluje v ozadju. Prosim za potrpežljivost.

Ko so modeli nameščeni, Kdenlive prikaže velikost mape modelov. Kliknite Mapa Modeli, da odprete mapo modelov z upraviteljem datotek vašega operacijskega sistema.

Whisper¶

Ko prvič preklopite na Whisper, morate namestiti manjkajoče odvisnosti (približno 2 GB za prenos).

Nato morate prenesti enega ali več govornih modelov.

configure_speech2text_whisper_2412 — Whisper je nameščen, vendar ni bil prenesen noben govorni model¶

1:: Za prepoznavanje govora je izbran Whisper
2:: Ko ostane na Samodejno zaznavanje, bo Kdenlive poskušal ugotoviti, kateri jezik uporabiti za prepoznavanje govora. Če to daje napačne rezultate, tukaj izberite pravi jezik.
3:: Za prepoznavanje govora lahko preklapljate med uporabo CPE ali GPE. GPE, ki podpira CUDA, je potreben za prepoznavanje govora GPE.
4:: Samo za GPE. Ko Kdenlive zazna grafično kartico NVIDIA GTX 16xx, samodejno onemogoči polovično natančnost (FP16). Če imate težave z uporabo GPE, lahko izklopite polovično natančnost.
5:: Whisper lahko prevede besedilo v angleščino. Če potrebujete prevod v druge jezike, morate klikniti Namesti večjezični prevod. To bo omogočilo SeamlessM4T[2] ter preneslo in namestilo njegove modele (približno 10 GB podatkov). Od takrat naprej bo obdelava potekala brez povezave.

Kliknite Upravljanje modelov ali pojdite na priporočilo za uporabo turbo modela s klikom na Prenos (1,4 GB). Več informacij o razpoložljivih modelih je na Whisper source code page.

configure_speech2text_whisper_models_2412 — Whisper prenos in upravljanje modelov¶

Kdenlive prikazuje postopek prenosa.

Nameščeni govorni modeli imajo poln krog. Lahko jih izbrišete s klikom na Odstrani model

Razpoložljivi modeli imajo votel krog. Namestite jih lahko s klikom na Namesti model.

Whisper installed — Ko je vse pravilno konfigurirano, dobite ta zaslon: Vse zeleno!¶

Pot, kjer je nameščen Whisper:

Linux:: ~/.local/share/kdenlive/venv/Lib
Windows:: %LocalAppData%\kdenlive\venv\Lib

Govorni modeli Whisper so shranjeni tukaj:

Linux:: ~/.local/share/kdenlive/opencvmodels
Windows:: %AppData%\kdenlive\opencvmodels

Za prenos in začetek prevajanja podnapisov sledite tem korakom.

Posodobitve lahko preverite s klikom na Preveri konfiguracijo

Če ste namestili Whisper v prejšnji različici Kdenlive in ste zdaj izbrali mapo venv za Python, lahko izbrišete predhodno nameščene knjižnice Whisper z naslednjim ukazom v terminalu:

$ pip uninstall openai-whisper

Opomba

Če med prepoznavanjem govora prejemate dosledna sporočila o manjkajočih datotekah modela, preverite, kam vas pripelje klik na povezavo zraven Mapa Modeli. Če je ~/.cache, kjer je mapa Whisper, ki vsebuje vse modele, ki ste jih prenesli, preprosto kopirajte to mapo tja, kjer sporočilo o napaki pravi, da manjkajo (najverjetneje: :file: ~/.var/app/org.kde.kdenlive/cache)

Zaznavanje predmetov¶

Ko prvič uporabite zaznavanje predmetov, morate namestiti vstavek.

Vstavek se namesti v mapo:

Linux:: ~/.local/share/kdenlive/venv-sam
Windows:: %LocalAppData%\kdenlive\venv-sam

Če je vse pravilno nameščeno, mora izgledati takole:

Object Detection plugin installed — Ko je vse pravilno konfigurirano, dobite ta zaslon: Vse zeleno!¶

1:: Model Prenesete lahko različne modele za zaznavanje predmetov.
2:: Naprava Preklapljate lahko med uporabo CPE ali GPE za zaznavanje predmetov. Za zaznavanje predmetov GPE je potreben GPE, ki podpira CUDA. Kdenlive poskuša samodejno najti vašo grafično kartico. Če grafična kartica podpira CUDA (GPE Nvidia), bo namestilo potreben gonilnik, da ga boste lahko uporabljali. Če vaša grafična kartica ne podpira CUDA ali je Kdenlive ne zazna, vidite samo CPE. Podpora za GPE Če vaš grafični procesor Nvidia ni na seznamu, poskusite namestiti alternativo po teh korakih.
3:: Prenesi video v CPE, da prihraniš pomnilnik GPE Če imate dolge posnetke, na katerih mora Kdenlive zaznati predmete, lahko pride do sesutja. Če je omogočeno, to razbremeni del pomnilnika, ki se uporablja v RAM-u namesto pomnilnika GPE.
4:: Uporabi samo sistemske pakete Ko je omogočeno, bo Kdenlive uporabil različico SAM2, ki je nameščena v vašem sistemu. Samo za napredne uporabnike, saj boste morali vse pravilno nastaviti sami.
5:: Mapa modelov Ko kliknete povezavo, se odpre mapa, v kateri so shranjeni modeli SAM2, vključno z velikostjo te mape. Izbriši vse modele bo izbrisal vsebino mape modela.
6:: Velikost vstavka Ko kliknete povezavo, se odpre mapa, kjer so shranjeni skripti venv-sam Python, vključno z velikostjo te mape. Odstrani vstavek odstrani venv-sam Python.

Ročna namestitev GPE¶

Če Kdenlive ne zazna vaše GPE NVIDIA samodejno, jo lahko poskusite namestiti ročno.

Pospeševanje GPE deluje samo s CUDA (Compute Unified Device Architecture), ki je lastniška arhitektura vzporednega računalništva NVIDIA.

Preverite različico CUDA, ki ste jo namestili:

odprite ukazno lupino (Windows: Windows+R, vnesite cmd in pritisnite vnašalko)
Vnesite nvidia-smi –-version

Dobili bi nekaj takega:

CUDA version installed — Tukaj je različica CUDA 12.8¶

Zdaj kliknite Podpora za GPE

Izberete lahko različico CUDA, ki je enaka ali nižja od zaznane

CUDA version to be installed — Izberite različico CUDA, ki je nižja od zaznane.¶

Kliknite Uveljavi

V naslednjem oknu kliknite Nadaljuj

Kdenlive začne prenašati vse potrebne datoteke za uporabo GPU. Ko končate, bi morali videti svoj GPE pod :guilabel: Naprava, kot je navedeno:

CUDA version installaled — Uspešno nameščena GPE¶

configure_speech2text_vosk_models_alphacephei_2412