Insticksprogram

Det här avsnittet definierar inställningar för Tal till text och Objektdetektering.

Innan tal till text och objektdetektering kan ställas in och användas måste Python3 installeras. När Python3 är installerat kan man använda en virtuell miljö (venv) för att hålla den separat för Kdenlive från annan användning på systemet.

Om Python3 redan har installerats, gå direkt till inställningssidan för Tal till text eller Objektdetektering.

Installation av Python

Installation på Linux

På de flesta Linux-distributioner är Python normalt installerat. Man kan kontrollera om det är fallet för systemet genom att köra python3 --version i en terminal. De grundläggande stegen för att installera Python3 på Ubuntu är följande. Om distribution inte är baserad på Ubuntu, se den specifika dokumentationen eller sök på Internet för installationsinstruktioner.

$ sudo apt updates
$ sudo apt install python3

Det avgörande Python-paketet från tredje part som kan behövas är pip. Python 3.4 och senare inkluderar normalt pip, men det skadar inte att kontrollera genom att köra command -v pip i en terminal (vissa distributioner använder pip för Python2 och pip3 för Python 3). Om pip saknas kan det installeras med

$ python3 -m ensurepip --upgrade

Vid problem, se pip installation guide.

Observera

I följande stycken är pip den generella termen för alla versioner av pip, inklusive pip3. Använd det korrekta pip-kommandot för operativsystemet.

Installation på Windows

Ladda ner Python från den officiella sidan Python download.

Välj ”Lägg till python.exe i PATH”

Välj “Installera nu”

Tal till text

Den här sektionen används för att ställa in funktionen Tal-till-text i Kdenlive och för att hantera de olika modellerna för de två gränssnitten VOSK och Whisper.

Varning

Tal till text fungerar inte med version 21.04.2 på grund av problem med Vosk programmeringsgränssnittet. Använd version 21.04.1 eller 21.04.3 och senare versioner.

Talgränssnitt

Det finns två tillgängliga talgränssnitt: VOSK och Whisper. Whisper från OpenAI är en taligenkänningsmodell för allmänt bruk tränad på en stor datauppsättning av olika ljud och kan utföra talöversättning och språkidentifiering.

Whisper är långsammare än VOSK på processorer, men det är mer exakt än VOSK. Whisper skapar meningar med skiljetecken, även i basläge.

Man måste ställa in de modeller som ska användas av gränssnitten.

Råd

Om flatpak-versionen av Kdenlive används kan det vara problem med att installera talmodellerna. Sandlådemetoden för flatpak förhindrar kdenlive från att köra pip. Det finns en möjlig lösning med $ flatpak run --command=/bin/bash org.kde.kdenlive och sedan $ python -m surepip följt av $ python -m pip install -U openai -whisper torch (med tillstånd av Veronica Explains). Resultaten kan variera.

Det andra alternativet är att välja Whisper och sedan klicka på Installera flerspråkig översättning. Det laddar ner och installerar nödvändiga beroenden och gör Kdenlive medveten om platsen för installationen av Python och pip. Därefter kan instruktionerna här för att ställa in VOSK och Whisper följas.

VOSK

configure_speech2text_vosk_conf_2412

Python fungerar, men VOSK är ännu inte användbar på grund av att talmodeller saknas

Man måste först ladda ner en talmodell från nerladdningssidan alphacephei[1]. Följ länken (2) och ladda ner de modeller som behövs.

Normalt installeras språkmodellerna i följande kataloger:

Linux:

~/.local/share/kdenlive/venv/Lib

Windows:

%LocalAppData%\kdenlive\venv\Lib

Om man vill använda en specifik katalog, markera Egen modellkatalog (3) och ange den i textfältet nedan eller klicka på dialogrutan document-openÖppna fil för att navigera till målkatalogen. Om man använder standardkatalogen visas den i informationssyfte i modellkatalogens textfält.

Om man redan har installerat VOSK i en tidigare version av Kdenlive, och nu har valt katalogen venv för Python, kan de tidigare installerade VOSK-biblioteken tas bort genom att använda följande kommando i en terminal:

$ pip uninstall vosk srt

Klicka på Lägg till modell och ange sökvägen till filen/filerna som laddades ner.

configure_speech2text_new_dictionary_2412

Klicka på dialogrutan document-openÖppna fil för att öppna operativsystemets filhanterare och navigera till platsen där filerna laddades ner och välja modellfilen som ska läggas till.


configure_speech2text_new_dictionary_2412

Som alternativ kan den språkmodell som ska användas dras och släppas från nedladdningssidan alphacephei[1] till modellfönstret (4), så laddar Kdenlive ner och extraherar den i standardkatalogen eller den egna katalogen som angavs.

Observera

Modellerna är komprimerade filer (.zip) och kan vara flera GB stora. Beroende på Internetanslutningen kan nerladdningstiden vara lång. Efter nerladdningen måste filerna extraheras vilket också kan ta lång tid beroende på systemkonfiguration. Kdenlive verkar inte svara men arbetar i bakgrunden. Ha tålamod.

När modellerna har installerats visar Kdenlive storleken på modellkatalogen. Klicka på Modellkatalog för att öppna modellkatalogen med operativsystemets filhanterare.

Whisper

configure_speech2text_whisper_install_2412

Installera saknade beroenden

När man byter till Whisper för första gången måste man installera saknade beroenden (omkring 2GB att ladda ner).

Därefter behöver man ladda ner en eller flera talmodeller.

configure_speech2text_whisper_2412

Whisper är installerat men ingen talmodell har laddats ner

1:

Whisper är valt för taligenkänning

2:

När det lämnas som Detektera automatiskt, försöker Kdenlive ta reda på vilket språk som ska användas för taligenkänning. Om det ger fel resultat, välj rätt språk här.

3:

Du kan byta mellan att använda processor eller grafikprocessor för taligenkänning. En grafikprocessor som stöder CUDA krävs för taligenkänning med grafikprocessor.

4:

Endast för grafikprocessor. När Kdenlive upptäcker ett NVIDIA GTX 16xx-grafikkort inaktiverar det halv precision (FP16) automatiskt. Om man har problem med att använda grafikprocessorn kan man stänga av halv precision.

5:

Man kan låta Whisper översätta text till engelska. Om man behöver översättning till andra språk måste man klicka på Installera flerspråkig översättning. Det aktiverar SeamlessM4T[2] och laddar ner och installera dess modeller (cirka 10 GB data). Bearbetningen sker nerkopplat från och med då.

Klicka på Hantera modeller eller följ rekommendationen att använda turbomodellen genom att klicka på Ladda ner (1,4 GB). Mer information om tillgängliga modeller finns på Whisper source code page.

configure_speech2text_whisper_models_2412

Ladda ner Whisper och hantera modeller

Kdenlive visar nerladdningsprocessen.

Installerade talmodeller har en fylld cirkel. Man kan ta bort dem genom att klicka på Avinstallera modell

Tillgängliga modeller har en ihålig cirkel. Man kan installera dem genom att klicka på Installera modell.

Whisper installerat

När allt är riktigt inställt visas följande skärm: allt grönt.

Sökväg där Whisper är installerat:

Linux:

~/.local/share/kdenlive/venv/Lib

Windows:

%LocalAppData%\kdenlive\venv\Lib

Whisper talmodeller är lagrade här:

Linux:

~/.local/share/kdenlive/opencvmodels

Windows:

%AppData%\kdenlive\opencvmodels

För att ladda ner och starta översättning av textning följ dessa steg.

Man kan söka efter uppdateringar genom att klicka på Kontrollera inställning

Om man redan har installerat Whisper i en tidigare version av Kdenlive, och nu har valt katalogen venv för Python, kan de tidigare installerade Whisper-biblioteken tas bort genom att använda följande kommando i en terminal:

$ pip uninstall openai-whisper

Observera

Om man får upprepade meddelanden under taligenkänning om saknade modellfiler, kontrollera vart ett klick på länken bredvid Modellkatalog går. Om det är ~/.cache där katalogen Whisper finns, som innehåller alla modeller som laddats ner, kopiera helt enkelt katalogen till platsen felmeddelandet säger att de saknas (troligtvis: ​​:file: ~/.var/app/org.kde.kdenlive/cache).

Objektdetektering

Första gången objektdetektering används måste insticksprogrammet installeras.

Insticksprogram för objektdetektering ska installeras

insticksprogram installeras i katalogen:

Linux:

~/.local/share/kdenlive/venv-sam

Windows:

%LocalAppData%\kdenlive\venv-sam

Om allt är korrekt installerat borde det se ut så här:

Insticksprogram för objektdetektering installerat

När allt är riktigt inställt visas följande skärm: allt grönt.

1:

Modell Man kan ladda ner olika modeller för objektdetektering.

2:

Enhet Man kan byta mellan att använda processor eller grafikprocessor för objektdetektering. En grafikprocessor som stöder CUDA krävs för objektdetektering med grafikprocessor. Kdenlive försöker hitta grafikkortet automatiskt. Om grafikkortet stöder CUDA (Nvidia grafikprocessor) installeras den nödvändiga drivrutinen så att den kan användas. Om grafikkortet inte stöder CUDA eller inte upptäcks av Kdenlive syns bara processorn. Grafikprocessorstöd Om Nvidia grafikprocessorn inte finns med i listan kan man försöka installera ett alternativ genom att följa de här stegen.

3:

Avlasta video till processorn för att spara grafikprocessorminne Om man har långa klipp där Kdenlive måste upptäcka objekt kan det hända att programmet kraschar. Om det är aktiverat avlastas en del av minnet som används till RAM istället för grafikprocessorminnet.

4:

Använd bara systempaket När det är aktiverat använder Kdenlive versionen av SAM2 som är installerad på systemet. Endast för avancerade användare, eftersom man måste ställa in allting själv.

5:

Modellkatalog När man klickar på länken öppnas katalogen där SAM2-modellerna lagras, inklusive katalogens storlek. Ta bort alla modeller tar bort innehållet i modellkatalogen.

6:

Insticksprogramstorlek När man klickar på länken öppnas katalogen där venv-sam Python-skripten lagras, inklusive katalogens storlek. Avinstallera insticksprogram avinstallerar venv-sam Python.

Manuell installation av grafikprocessor

Om Kdenlive inte upptäcker NVIDIA grafikprocessorn automatiskt kan man försöka installera den manuellt.

Acceleration med grafikprocessor fungerar bara med CUDA (Compute Unified Device Architecture) som är en proprietär parallell databehandlingsarkitektur från NVIDIA.

Kontrollera versionen av CUDA som är installerad:

  • öppna ett kommandoskal (Windows: Windows+R skriv in cmd och tryck på returtangenten)

  • Skriv in nvidia-smi -version

Man bör få något som liknar det här:

CUDA-version installerad

Här är versionen av CUDA är 12.8

Klicka nu på Grafikprocessorstöd

Man kan välja en CUDA-version som är lika med eller lägre än den som upptäcktes.

CUDA-version ska installeras

Välj en CUDA-version som är lägre än den som upptäcktes.

Klicka Verkställ

Klicka Fortsätt i nästa fönster

CUDA-versionsinstallation

Kdenlive börjar ladda ner alla nödvändiga filer för att använda grafikprocessorn. När det är klart bör du se grafikprocessorn under Enhet så här:

CUDA-version installerad

Installerade grafikprocessorer med lyckat resultat


configure_speech2text_vosk_models_alphacephei_2412