Spraak naar tekst¶
Nieuw in versie 21.04.0.
Waarschuwing
Spraak naar tekst werkt niet met versie 21.04.2 vanwege problemen met Vosk API. Gebruik versie 21.04.1 of 21.04.3 en latere versies.
Python installeren¶
Python 3 moet geïnstalleerd zijn op uw computer (details zie onderstaand voor Linux en Windows). Nadat Python is geïnstalleerd, volg deze stappen om Python in een virtuele omgeving te zetten (daarna wordt Python gekopieerd nar de map venv
)
Python installatie ongedaan maken
Om het geïnstalleerde pakket venv
te verwijderen ga naar en Verwijderen venv
.
Dit zal de map venv
volledig met alle geïnstalleerd pakketten verwijderen. Merk op dat dit niet de gedownloade modellen (vosk/whisper) verwijdert die nog steeds heel wat schijfruimte in kunnen nemen
Linux¶
Op de meeste Linux distributies is python standaard geïnstalleerd. U kunt controleren of dat voor u het geval is door python3 -V
in een terminal uit te voeren. Als python ontbreekt zoek dan op het internet, er zijn veel instructies beschikbaar.
Windows¶
Download python vanaf https://www.python.org/downloads/ voor installatie op uw computer.
Spraak-engines¶
Om spraakengines te installeren ga naar
.VOSK¶
Wanneer u de eerste keer omschakelt naar VOSK moet u de ontbrekende afhankelijkheden eerst installeren.
Pad waar VOSK is geïnstalleerd:
Linux:
~/.local/share/kdenlive/venv/Lib
Windows:
%LocalAppData%\kdenlive\venv\Lib
Als u VOSK al hebt geïnstalleerd in een eerdere versie van Kdenlive en nu de map venv
hebt gekozen voor Python, dan kunt u de eerder geïnstalleerde VOSK bibliotheken verwijderen met gebruik van het volgende commando in een console: pip uninstall vosk srt
Een taal installeren¶
Ga naar
en selecteer de spraak-engine VOSKKlik op de koppeling Spraakmodellen downloaden uit: om een taalmodel op te halen.
Sleep & laat de taal vallen die u wilt uit de downloadpagina van het vosk-model naar het modelvenster en het zal voor u gedownload en uitgepakt worden.
Als u problemen hebt of op bijwerken controleert, klik op de knop Configuratie controleren.
Modellenmap toon de grootte van de geïnstalleerde modellen. Klikken op de koppeling opent de modellenmap.
De VOSK spraakmodellen zijn hier opgeslagen:
Linux: ~/.local/share/kdenlive/speechmodels
Windows: %AppData%\kdenlive\speechmodels
Fluisteren¶
Nieuw in versie 23.04.
OpenAI-Whisper is een spraakherkenningsmodel voor algemeen gebruik. Het is getraind op een grote dataset met diverse audio en is in staat spraak te vertalen en taal te identificeren.
Whisper is langzamer dan VOSK op CPU, maar het is accurater dan VOSK. Whisper maakt zinnen met leestekens, zelfs in de basismode.
Wanneer u de eerste keer omschakelt naar Whisper moet u de ontbrekende afhankelijkheden eerst installeren (ongeveer 2GB te downloaden).
Pad waar Whisper is geïnstalleerd:
Linux:
~/.local/share/kdenlive/venv/Lib
Windows:
%LocalAppData%\kdenlive\venv\Lib
De Whisper spraakmodellen zijn hier opgeslagen:
Linux: ~/.local/share/kdenlive/opencvmodels
Windows: %AppData%\kdenlive\opencvmodels
Model Selecteer het model. Meer details op de Whisper source code page (standaard: Base).
Taal selecteer de taal als Autodetect niet accuraat is (standaard: Autodetect)
Apparaat om compatibiliteit te behouden is alleen CPU beschikbaar.
Halve precisie (FP16) uitschakelen alleen voor GPU. Wanneer Kdenlive een NVIDIA GTX 16xx grafische kaart detecteert, schakelt het halve precisie (FP16) automatisch uit. Als u problemen hebt met gebruik van de GPU kunt u halve precisie uitschakelen.
Tekst naar Engels vertalen dit vertaalt niet-Engelse tekst naar Engels tijdens herkenning.
Vertalen via SeamlessM4T inschakelen dit zal alleen facebook/seamless-m4t-v2-large
in/uitschakelen. Om vertaling van ondertiteling te downloaden en te starten volg deze stappen.
U kunt op bijwerken controleren door te klikken op de knop Configuratie controleren
Als u Whisper al hebt geïnstalleerd in een eerdere versie van Kdenlive en nu de map venv
hebt gekozen voor Python, dan kunt u de eerder geïnstalleerde Whisper bibliotheken verwijderen met gebruik van het volgende commando in een console: pip uninstall openai-whisper
Spraakherkenning¶
Selecteer de spraak-engine¶
Nieuw in versie 23.04.
Menu-item
inschakelen.Klik op het Hamburgermenu en selecteer Spraakherkenning configureren. Dit brengt u naar Spraak naar tekst configureren, selecteer de engine en klik op OK.
Naar Engels vertalen is alleen beschikbaar met de Whisper spraak-engine. Deze vertaalt niet-Engelse tekst naar Engels tijdens herkennen.
Als er een fout of belangrijk bericht is. Klik op Log tonen en de log wordt zichtbaar.
Ondertiteling aanmaken door VOSK-spraakherkenning¶
Markeer de tijdlijnzone die u wilt herkennen (pas de blauwe lijn aan) (1)
Klik op het pictogram Spraakherkenning (2)
Kies de Taal (3)
Kies welk deel van de tijdlijn toegepast zou moeten worden voor herkenning (4)
Verwerken start de herkenning (5)
De ondertitel wordt aangemaakt en automatisch ingevoegd.
Opmerking bij 4: de standaard is om alleen de tijdlijnzone (alle tracks) te analyseren (de blauwe balk in de tijdlijnliniaal). Stel de zone in in de tijdlijn op wat u wilt analyseren (gebruik I en O om in- en uitpunten in te stellen). Optie Geselecteerde clips analyseert alleen de geselecteerde clip.
Ondertiteling aanmaken door WHISPER-spraakherkenning¶
Markeer de tijdlijnzone die u wilt herkennen (pas de blauwe lijn aan) (1)
Klik op het pictogram Spraakherkenning (2)
Kies Model (3)
Kies welk deel van de tijdlijn toegepast zou moeten worden voor herkenning (4)
Verwerken start de herkenning (5)
De ondertitel wordt aangemaakt en automatisch ingevoegd.
Opmerking bij 4: de standaard is om alleen de tijdlijnzone (alle tracks) te analyseren (de blauwe balk in de tijdlijnliniaal). Stel de zone in in de tijdlijn op wat u wilt analyseren (gebruik I en O om in- en uitpunten in te stellen). Optie Geselecteerde clips analyseert alleen de geselecteerde clip.
Taal als Automatisch detecteren niet de juiste taal kiest dan kunt u handmatig de taal instellen
Maximum tekens per regel pas het aantal tekens per regel in in de ondertitel
Vertalen met SeamlessM4T eerst moet u Vertaling via SeamlessM4T inschakelen inschakelen in .
Selecteer Invoertaal en Uitvoertaal en klik op Verwerken. Dit zal eerst de audio verwerken met whisper, daarna start de vertaling met SeamlessM4T. Vertaling kan 100% RAM, 100% CPU en 100% schijftoegang.
Let op
Als het 9GB model nog niet is gedownload, zal het nu gedownload worden. Met een 100MB/s downloadsnelheid zal dit ongeveer 12 minuten duren!
Tijdens het downloaden zal Kdenlive normaal reageren. Klik niet op Sluiten anders wordt het downloaden gestopt.
Wees niet ongerust als u zo’n bericht in het onderstaande vak ziet Vertaalmodel wordt geïnitialiseerd terwijl het downloaden actief is.
Nadat het vertaalmodel is gedownload zal vertaling gedaan worden (wees geduldig omdat het downloaden van het model ongeveer 12 minutes met 100MB/s downloadsnelheid).
De SeamlessM4T-spraakmodellen zijn hier opgeslagen:
Linux: $HOME/.cache/hugginface
Windows: C:\Users\<username>\.cache\huggingface
Clips aanmaken met spraakherkenning¶
Dit is nuttig voor interviews en andere spraakgerelateerde opnamen. Schakel het menu-item
in.Selecteer een clip in de Project-bin.
Indien nodig stel in/uitpunt in in de clipmonitor en schakel keuzevak Alleen geselecteerde zone in. Dit zal alleen de tekst in de zone herkennen.
Kies de juiste taal wanneer de VOSK-engine wordt geselecteerd. Of kies de Whisper-engine door te klikken op Spraakherkenning configureren (zie spraak-naar-tekst configureren)
Druk op de knop Herkenning starten.
Selecteer de tekst die u wilt. Hou CTRL of Shift ingedrukt om verschillende teksten te selecteren.
Kies: Een nieuwe sequentie met bewerken aanmaken maakt een nieuwe sequentie aan met elke tijdcodetekst als een enkele clip of Voeg selectie in in de tijdlijn op de positie van de afspeelkop of naar Bewerkte tekst opslaan in een afspeellijstbestand die verschijnt in de project-bin.
Inzoomen of UItzoomen van de tekst. Zones zonder spraak verwijderen verwijdert in een keer alle items “zonder spraak”.
Een bladwijzer toevoegen. U kun naar deze bladwijzers in de tijdlijn springen met de sneltoets Alt + arrow of de bladwijzer bewerken met dubbelklikken.
De geselecteerde tekst verwijderen.
Hier kunt u in de tekst zoeken.
En omhoog en omlaag navigeren in de tekst.
Detectie van stilte¶
Dit werkt alleen met de VOSK-engine.
De clip openen in de clipmonitor en het spraakbewerkervenster openen (
) .Selecteer uw taal of Spraak-engines en download het model ervoor.
Klik daarna knop Herkennen starten.
Nadat dit is gedaan, kies onder punt 6 bovenstaand Spraakzones verwijderen om dat in een keer te doen. Of klik op de tijdcode waar “Zonder spraak” is aangegeven (hou Ctrl in gedrukt om verschillende items in een keer te selecteren) en tik gewoon op de toets Delete.
Herhaal de bewerking voor alle delen die u wilt verwijderen, inclusief waar iemand iets zegt wat u niet wilt meenemen in uw uiteindelijke bewerking.
Nadat u klaar bent, ga na dat Alleen geselecteerde zone is uitgeschakeld, klik op de knop Bewerkte tekst opslaan in een afspeellijst (bovenstaand onder punt 5) en na enkele seconden wordt een nieuwe afspeellijst toegevoegd in de project-bin zonder stilte en zonder de tekst die u niet wilt.