Plug-ins

In deze sectie worden de meest belangrijke instellingen voor Tekst en Objectdetectie beschreven.

Voordat “Spraak naar tekst” en Objectdetectie” kunnen worden ingesteld en gebruikt, moet eerst Python3 zijn geïnstalleerd. Nadat Python3 is geïnstalleerd, wilt u wellicht een virtuele omgeving (venv) gebruiken om Kdenlive separaat van ander gebruik van uw systeem te houden.

Als u Python3 al heeft geïnstalleerd, ga dan rechtstreeks naar de configuratie pagina van Spraak naar tekst of Objectdetectie.

Installatie van Python

Installatie bij Linux

Bij de meeste Linux distributies is Python al standaard geïnstalleerd. U kan controleren of dit bij uw systeem het geval is door in een terminal de op python3 --version te geven. Het volgende zijn de basis stappen voor het installeren van Python3 bij Ubuntu. Als uw distributie niet op Ubuntu gebaseerd is dan verwijzen we naar de specifieke documentatie van die distributie of moet u op het internet zoeken voor installatie-instructies.

$ sudo apt updates
$ sudo apt install python3

Het cruciale third-party Python pakket dat u nodig heeft is pip. Bij Python 3.4 en later is pip standaard meegeleverd maar het is niet onverstandig om in een terminal het commando command -v pip uit te voeren (sommige distributies gebruiken pip voor Python2 en pip3 voor Python 3). Als pip ontbreekt, dan kunt u het installeren met

$ python3 -m ensurepip --upgrade

In het geval van problemen verwijzen we naar de pip installation guide.

Notitie

In de volgende paragrafen is pip de algemene term voor alle versies van pip, inclusief pip3. Gebruik de correcte pip commando voor uw OS.

Installatie bij Windows

Download Python van de officiële Python download pagina.

Selecteer “Python.exe aan PATH toevoegen”

Selecteer “Nu installeren”

Spraak naar tekst

Deze sectie wordt gebruikt voor het instellen van de “Spraak naar tekst”-functie in Kdenlive en voor het beheer van de verschillende modellen voor de twee engines VOSK en Whisper.

Waarschuwing

Spraak-naar-tekst werkt niet met versie 21.04.2 vanwege problemen met Vosk API. Gebruik versie 21.04.1 of 21.04.3 en latere versies.

Spraak-engines

Er zijn twee spraak-engines beschikbaar: VOSK en Whisper. OpenAI’s Whisper is een spraakherkenning-module voor algemeen gebruik getraind met een grote dataset met diverse audio en is in staat tot vertaling van spraak, en taal-herkenning.

Whisper is langzamer dan VOSK op CPU, maar het is accurater dan VOSK. Whisper maakt zinnen met leestekens, zelfs in de basismodus.

U moet de modellen instellen die door deze engines worden gebruikt.

Hint

Als u de flatpak versie van Kdenlive gebruikt, dan kunt u problemen hebben met het installeren van de spraakmodellen. De sandbox benadering van flatpak voorkomt dat kdenlive het programma pip opstart. Er is een mogelijke workaround door $ flatpak run --command=/bin/bash org.kde.kdenlive te gebruiken en vervolgens $ python -m ensurepip gevolgd door $ python -m pip install -U openai-whisper torch (met dank aan Veronica Explains). De werking bij u kan niet gegarandeerd worden.

Een andere mogelijkheid is om Whisper te selecteren om vervolgens te klikken op Vertaling van meerdere talen installeren. Dit zal de noodzakelijke afhankelijkheden downloaden en installeren en Kdenlive bewust maken van de locatie waar uw versie van Python en pip zij geïnstalleerd. Hierna kunt u de instructies hier voor het instellen van VOSK en Whisper volgen.

VOSK

configure_speech2text_vosk_conf_2412

Python werkt, maar VOSK is nog niet bruikbaar vanwege de ontbrekende spraakmodellen

U zal eerst een spraakmodel moeten downloaden van de alphacephei[1] download-pagina. Volg de link (2) en download de modellen die u nodig heeft.

Standaard worden de taalmodellen geïnstalleerd in de volgende mappen:

Linux:

~/.local/share/kdenlive/venv/Lib

Windows:

%LocalAppData%\kdenlive\venv\Lib

Als u een specifieke map wilt gebruiken, schakel dan Aangepaste map voor modellen (3) en geef in het tekstvak eronder de naam van de map op of klik op document-openBestandsdialoog openen om naar de gewenste map te navigeren. Als u de standaard map gebruikt, dan zal de naam daarvan in het tekstvak ter informatie worden getoond.

Als u VOSK in een eerdere versie van Kdenlive heeft geïnstalleerd, en u heeft nu gekozen in Python voor de venv-map, dan kunt u de eerder geïnstalleerde VOSK-bibliotheken verwijderen met het volgende commando in een terminal:

$ pip uninstall vosk srt

Klik op Model toevoegen en geef het pad op naar de bestand(en) die u heeft gedownload.

configure_speech2text_new_dictionary_2412

Klik op document-openBestandsdialoog openen om de bestandsbeheerder van uw OS te openen en daarmee naar de plek te navigeren waar uw gedownloade bestanden staan en het bestand te selecteren dat u wilt toevoegen.


configure_speech2text_new_dictionary_2412

Als alternatief kunt u ook het gewenste taalmodel van de alphacephei[1] download pagina naar het model-venster (4) verslepen, waarna Kdenlive het zal downloaden en in de standaard map of de opgegeven map uitpakken.

Notitie

De modellen zijn gecomprimeerde bestanden (.zip) en kunnen meerdere GB groot zijn. Afhankelijk van uw internet verbinding, kunnen de download-tijden erg lang zijn. Na de download moeten de bestanden uitgepakt worden wat afhankelijk van uw systeemconfiguratie ook veel tijd in beslag kan nemen. Het kan lijken dat Kdenlive niet meer reageert maar het is op de achtergrond aan het werk. Wees geduldig.

Nadat de modellen zijn geïnstalleerd, zal Kdenlive de grootte van de modellenmap tonen. Klik op Modellenmap om de modellenmap met de bestandsbeheerder van uw OS te openen.

Whisper

configure_speech2text_whisper_install_2412

Ontbrekende afhankelijkheden installeren

Als u voor Whisper kiest dan zal eerst de ontbrekende afhankelijkheden (ongeveer 2GB te downloaden) moeten worden geïnstalleerd.

Hierna zal u een of meer spraakmodellen moeten downloaden.

configure_speech2text_whisper_2412

Whisper is geïnstalleerd maar er is nog geen spraakmodel gedownload

1:

Whisper is geselecteerd voor de spraakherkenning

2:

Indien op Autodetect is laten staan, zal Kdenlive proberen uit te vinden welke taal gebruikt moet worden voor de spraakherkenning. Als dit de verkeerde resultaten geeft, selecteer dan hier de correcte taal.

3:

Voor de spraakherkenning kan gekozen worden tussen het gebruik van de CPU of uw GPU. Een GPU die met CUDA overweg kan is vereist voor GPU spraakherkenning.

4:

Alleen bij gebruik van de GPU. Als Kdenlive een NVIDIA GTX 16xx grafische kaard detecteert, dan schakelt het automatisch de halve precisie (FP16) uit. Als u bij het gebruik van de GPU problemen ondervindt dan kunt u de halve precisie uitschakelen.

5:

U kan Whisper de tekst naar Engels laten vertalen. Als er naar andere talen vertaald moet worden, dan moet u klikken op Vertaling van meerdere talen installeren. Dit zal SeamlessM4T[2] inschakelen en de modellen daarvan (ongeveer 10GB data) downloaden en installeren. Het verwerken zal vanaf dat moment offline gebeuren.

Klik op Modellen beheren of u accepteert de aanbeveling wat betreft het gebruik van het turbo model door te klikken op Download (1.4GB). Meer informatie beschikbare modellen is te vinden op de Whisper source code page.

configure_speech2text_whisper_models_2412

Het downloaden van Whisper en het beheer van de modellen

Kdenlive toont het download proces.

Geïnstalleerde spraakmodellen hebben een gevuld rondje. U kunt ze verwijderen door te klikken op Spraakmodel verwijderen

Beschikbare modellen hebben een leeg rondje. U kunt ze installeren door te klikken op Model installeren.

Whisper installed

Als alles correct is geconfigureerd dan krijgt u dit scherm: Alles is groen!

Pad waar Whisper is geïnstalleerd:

Linux:

~/.local/share/kdenlive/venv/Lib

Windows:

%LocalAppData%\kdenlive\venv\Lib

De Whisper spraakmodellen zijn hier opgeslagen:

Linux:

~/.local/share/kdenlive/opencvmodels

Windows:

%AppData%\kdenlive\opencvmodels

Om de ondertitel vertaling te downloaden en te starten volgt u deze stappen.

U kunt op bijwerken controleren door te klikken op de knop Configuratie controleren

Als u Whisper in een eerdere versie van Kdenlive heeft geïnstalleerd, en u heeft nu gekozen in Python voor de venv-map, dan kunt u de eerder geïnstalleerde Whisper-bibliotheken verwijderen met het volgende commando in een terminal:

$ pip uninstall openai-whisper

Notitie

Als u tijdens de spraakherkenning voortdurend meldingen krijgt over ontbrekende model-bestanden, controleer waar bij het klikken op de link naast modellenmap u terecht komt. Als dit is ~/.cache waar een map Whisper is met alle modellen die u heeft gedownload, kopieer dan gewoon deze map naar waar de foutmelding zegt dat ze ontbreken (meest waarschijnlijk: ~/.var/app/org.kde.kdenlive/cache)

Objectdetectie

De plugin moet geïnstalleerd zijn voordat u de objectdetectie de eerste keer kan gebruiken

Object Detection plugin to be installed

De plugin wordt geïnstalleerd in de map:

Linux:

~/.local/share/kdenlive/venv-sam

Windows:

%LocalAppData%\kdenlive\venv-sam

Als alles goed is geïnstalleerd dan zou het er zo uit moeten zien:

Object Detection plugin installed

Als alles correct is geconfigureerd dan krijgt u dit scherm: Alles is groen!

1:

Model U kan verschillende modellen voor objectdetectie downloaden.

2:

Apparaat Voor de objectdetectie kan gekozen worden tussen het gebruik van de CPU of uw GPU. Een GPU die met CUDA overweg kan is vereist voor GPU objectdetectie. Kdenlive probeert om uw grafische kaard automatisch te vinden. Als de grafische kaart met CUDA (Nvidia GPU) overweg kan dan zal de noodzakelijke driver geïnstalleerd worden zodat u het kan gebruiken. Als de grafische kaard niet met CUDA overweg kan of het word niet door Kdenlive gevonden dan ziet u alleen CPU. GPU ondersteuning Als uw Nvidia GPU niet wordt getoond, probeer dan een alternatief te installeren door deze stappen te volgen.

3:

Video ontladen naar CPU om GPU-geheugen te sparen Als u lange clips heeft waarop Kdenlive objecten moet detecteren dan kunt een crash krijgen. Indien ingeschakeld, dan wordt wat uit het GPU-geheugen verplaatst naar het RAM.

4:

Alleen systeempakketten gebruiken Indien ingeschakeld, zal Kdenlive de SAM2 versie gebruiken die geïnstalleerd is op uw systeem. Alleen voor geavanceerde gebruikers, omdat u zelf alles correct moet instellen.

5:

Modellenmap Als u klikt op de link, zal de map worden geopend waarin de SAM2-modellen zijn opgeslagen met de grootte van deze map. Alle modellen verwijderen zal de inhoud van de modellenmap verwijderen.

6:

Plug-in-grootte Als u klikt op de link, zal de map worden geopend waarin de venv-sam Python scripts zijn opgeslagen met de grootte van deze map. Installatie van plug-in ongedaan maken zal de installatie van venv-sam Python ongedaan maken.

GPU handmatige installatie

Als Kdenlive uw NVIDIA GPU niet automatisch detecteert dan kunt u proberen om het handmatig te installeren.

De GPU-hardwareversnelling werkt alleen met CUDA (Compute Unified Device Architecture) wat een bedrijfseigen gesloten NVIDIA parallelle computing architectuur is.

Controleer de CUDA-versie die u heeft geïnstalleerd:

  • open een commandovenster (Windows: Windows+R voer in cmd en druk op enter)

  • Voer in nvidia-smi -version

U zou iets moeten krijgen wat hierop lijkt:

CUDA version installed

De CUDA versie is hier 12.8

Klik nu op GPU ondersteuning

U kan nu een CUDA versie selecteren die gelijk of lager is aan dat wat is gedetecteerd

CUDA version to be installed

Selecteer een CUDA versie selecteren die gelijk of lager is aan dat wat is gedetecteerd.

Klik op Toepassen

Klik in het volgende venster op Doorgaan

CUDA version installation

Kdenlive start met het downloaden van alle noodzakelijke bestanden om de GPU te kunnen gebruiken. Als dat klaar is dan ou uw GPU onder Apparaat zo moeten kunnen vinden:

CUDA version installaled

Succesvol geïnstalleerde GPU


configure_speech2text_vosk_models_alphacephei_2412