Spraak naar tekst

Nieuw in versie 21.04.0.

Waarschuwing

Spraak naar tekst werkt niet met versie 21.04.2 vanwege problemen met Vosk API. Gebruik versie 21.04.1 of 21.04.3 en latere versies.

Python installeren

Python 3 moet geïnstalleerd zijn op uw computer (details zie onderstaand voor Linux en Windows). Nadat Python is geïnstalleerd, volg deze stappen om Python in een virtuele omgeving te zetten (daarna wordt Python gekopieerd nar de map venv)

Python installatie ongedaan maken

Om het geïnstalleerde pakket venv te verwijderen ga naar Instellingen ‣ Instellingen van Kdenlive ‣ Omgeving ‣ Python en Verwijderen venv.

Dit zal de map venv volledig met alle geïnstalleerd pakketten verwijderen. Merk op dat dit niet de gedownloade modellen (vosk/whisper) verwijdert die nog steeds heel wat schijfruimte in kunnen nemen

Linux

Op de meeste Linux distributies is python standaard geïnstalleerd. U kunt controleren of dat voor u het geval is door python3 -V in een terminal uit te voeren. Als python ontbreekt zoek dan op het internet, er zijn veel instructies beschikbaar.

Windows

Download python vanaf https://www.python.org/downloads/ voor installatie op uw computer.

Spraak-engines

Om spraakengines te installeren ga naar Instellingen ‣ Kdenlive configureren ‣ Spraak naar tekst.

VOSK

Vosk download dependencies

Vosk is niet geïnstalleerd

Wanneer u de eerste keer omschakelt naar VOSK moet u de ontbrekende afhankelijkheden eerst installeren.

Pad waar VOSK is geïnstalleerd:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

Als u VOSK al hebt geïnstalleerd in een eerdere versie van Kdenlive en nu de map venv hebt gekozen voor Python, dan kunt u de eerder geïnstalleerde VOSK bibliotheken verwijderen met gebruik van het volgende commando in een console: pip uninstall vosk srt

Een taal installeren

Ga naar Instellingen ‣ Kdenlive configureren… ‣ Pagina Spraak naar tekst en selecteer de spraak-engine VOSK

Klik op de koppeling Spraakmodellen downloaden uit: om een taalmodel op te halen.

download link

Sleep & laat de taal vallen die u wilt uit de downloadpagina van het vosk-model naar het modelvenster en het zal voor u gedownload en uitgepakt worden.

download model

Als u problemen hebt of op bijwerken controleert, klik op de knop Configuratie controleren.

Modellenmap toon de grootte van de geïnstalleerde modellen. Klikken op de koppeling opent de modellenmap.

De VOSK spraakmodellen zijn hier opgeslagen:

Linux: ~/.local/share/kdenlive/speechmodels

Windows: %AppData%\kdenlive\speechmodels

Fluisteren

Nieuw in versie 23.04.

OpenAI-Whisper is een spraakherkenningsmodel voor algemeen gebruik. Het is getraind op een grote dataset met diverse audio en is in staat spraak te vertalen en taal te identificeren.

Whisper is langzamer dan VOSK op CPU, maar het is accurater dan VOSK. Whisper maakt zinnen met leestekens, zelfs in de basismode.

Whisper download dependencies

Whisper is niet geïnstalleerd

Wanneer u de eerste keer omschakelt naar Whisper moet u de ontbrekende afhankelijkheden eerst installeren (ongeveer 2GB te downloaden).

Whisper installed

Wanneer alles juist is geconfigureerd, krijgt u dit scherm.

Pad waar Whisper is geïnstalleerd:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

De Whisper spraakmodellen zijn hier opgeslagen:

Linux: ~/.local/share/kdenlive/opencvmodels

Windows: %AppData%\kdenlive\opencvmodels

Model Selecteer het model. Meer details op de Whisper source code page (standaard: Base).

Taal selecteer de taal als Autodetect niet accuraat is (standaard: Autodetect)

Apparaat om compatibiliteit te behouden is alleen CPU beschikbaar.

Halve precisie (FP16) uitschakelen alleen voor GPU. Wanneer Kdenlive een NVIDIA GTX 16xx grafische kaart detecteert, schakelt het halve precisie (FP16) automatisch uit. Als u problemen hebt met gebruik van de GPU kunt u halve precisie uitschakelen.

Tekst naar Engels vertalen dit vertaalt niet-Engelse tekst naar Engels tijdens herkenning.

Vertalen via SeamlessM4T inschakelen dit zal alleen facebook/seamless-m4t-v2-large in/uitschakelen. Om vertaling van ondertiteling te downloaden en te starten volg deze stappen.

U kunt op bijwerken controleren door te klikken op de knop Configuratie controleren

Als u Whisper al hebt geïnstalleerd in een eerdere versie van Kdenlive en nu de map venv hebt gekozen voor Python, dan kunt u de eerder geïnstalleerde Whisper bibliotheken verwijderen met gebruik van het volgende commando in een console: pip uninstall openai-whisper

Spraakherkenning

Selecteer de spraak-engine

Nieuw in versie 23.04.

Menu-item Menu ‣ Beeld ‣ Spraakbewerker inschakelen.

change the speech engine

Klik op het Hamburgermenu application-menu en selecteer Spraakherkenning configureren. Dit brengt u naar Spraak naar tekst configureren, selecteer de engine en klik op OK.

Naar Engels vertalen is alleen beschikbaar met de Whisper spraak-engine. Deze vertaalt niet-Engelse tekst naar Engels tijdens herkennen.

Speech to text show log

Als er een fout of belangrijk bericht is. Klik op Log tonen en de log wordt zichtbaar.

Ondertiteling aanmaken door VOSK-spraakherkenning

Speech to text subtitle

Getoond met de VOSK-engine

  1. Markeer de tijdlijnzone die u wilt herkennen (pas de blauwe lijn aan) (1)

  2. Klik op het pictogram Spraakherkenning (2)

  3. Kies de Taal (3)

  4. Kies welk deel van de tijdlijn toegepast zou moeten worden voor herkenning (4)

  5. Verwerken start de herkenning (5)

De ondertitel wordt aangemaakt en automatisch ingevoegd.

Opmerking bij 4: de standaard is om alleen de tijdlijnzone (alle tracks) te analyseren (de blauwe balk in de tijdlijnliniaal). Stel de zone in in de tijdlijn op wat u wilt analyseren (gebruik I en O om in- en uitpunten in te stellen). Optie Geselecteerde clips analyseert alleen de geselecteerde clip.

Ondertiteling aanmaken door WHISPER-spraakherkenning

Speech to text subtitle Whisper

Getoond met de Whisper-engine

  1. Markeer de tijdlijnzone die u wilt herkennen (pas de blauwe lijn aan) (1)

  2. Klik op het pictogram Spraakherkenning (2)

  3. Kies Model (3)

  4. Kies welk deel van de tijdlijn toegepast zou moeten worden voor herkenning (4)

  5. Verwerken start de herkenning (5)

De ondertitel wordt aangemaakt en automatisch ingevoegd.

Opmerking bij 4: de standaard is om alleen de tijdlijnzone (alle tracks) te analyseren (de blauwe balk in de tijdlijnliniaal). Stel de zone in in de tijdlijn op wat u wilt analyseren (gebruik I en O om in- en uitpunten in te stellen). Optie Geselecteerde clips analyseert alleen de geselecteerde clip.

Taal als Automatisch detecteren niet de juiste taal kiest dan kunt u handmatig de taal instellen

Maximum tekens per regel pas het aantal tekens per regel in in de ondertitel

Vertalen met SeamlessM4T eerst moet u Vertaling via SeamlessM4T inschakelen inschakelen in Instellingen ‣ Kdenlive configureren ‣ Spraak naar tekst.

Whisper SeamlessM4T choose input and output language

Attentie als u SeamlessM4T voor de eerste keer gebruikt dan downloadt het ongeveer 9GB gegevens in de achtergrond

Selecteer Invoertaal en Uitvoertaal en klik op Verwerken. Dit zal eerst de audio verwerken met whisper, daarna start de vertaling met SeamlessM4T. Vertaling kan 100% RAM, 100% CPU en 100% schijftoegang.

Let op

Als het 9GB model nog niet is gedownload, zal het nu gedownload worden. Met een 100MB/s downloadsnelheid zal dit ongeveer 12 minuten duren!

Tijdens het downloaden zal Kdenlive normaal reageren. Klik niet op Sluiten anders wordt het downloaden gestopt.

Wees niet ongerust als u zo’n bericht in het onderstaande vak ziet Vertaalmodel wordt geïnitialiseerd terwijl het downloaden actief is.

Whisper SeamlessM4T choose input and output language

Nadat het vertaalmodel is gedownload zal vertaling gedaan worden (wees geduldig omdat het downloaden van het model ongeveer 12 minutes met 100MB/s downloadsnelheid).

On Whisper SeamlessM4T installed

SeamlessM4T is ingeschakeld en met succes gedownload

De SeamlessM4T-spraakmodellen zijn hier opgeslagen:

Linux: $HOME/.cache/hugginface

Windows: C:\Users\<username>\.cache\huggingface

Clips aanmaken met spraakherkenning

Dit is nuttig voor interviews en andere spraakgerelateerde opnamen. Schakel het menu-item Menu ‣ Beeld ‣ Spraakbewerker in.

Speech editor

Getoond met de VOSK-engine en zoeken ingeschakeld

Selecteer een clip in de Project-bin.

  1. Indien nodig stel in/uitpunt in in de clipmonitor en schakel keuzevak Alleen geselecteerde zone in. Dit zal alleen de tekst in de zone herkennen.

  2. Kies de juiste taal wanneer de VOSK-engine wordt geselecteerd. Of kies de Whisper-engine door te klikken op Spraakherkenning configureren (zie spraak-naar-tekst configureren)

  3. Druk op de knop Herkenning starten.

  4. Selecteer de tekst die u wilt. Hou CTRL of Shift ingedrukt om verschillende teksten te selecteren.

  1. Kies: Een nieuwe sequentie met bewerken aanmaken maakt een nieuwe sequentie aan met elke tijdcodetekst als een enkele clip of Voeg selectie in in de tijdlijn op de positie van de afspeelkop of naar Bewerkte tekst opslaan in een afspeellijstbestand die verschijnt in de project-bin.

  1. Inzoomen of UItzoomen van de tekst. Zones zonder spraak verwijderen verwijdert in een keer alle items “zonder spraak”.

  2. Een bladwijzer toevoegen. U kun naar deze bladwijzers in de tijdlijn springen met de sneltoets Alt + arrow of de bladwijzer bewerken met dubbelklikken.

  3. De geselecteerde tekst verwijderen.

  4. Hier kunt u in de tekst zoeken.

  5. En omhoog en omlaag navigeren in de tekst.

Detectie van stilte

Dit werkt alleen met de VOSK-engine.

De clip openen in de clipmonitor en het spraakbewerkervenster openen (Menu ‣ Beeld ‣ Spraakbewerker) .

Selecteer uw taal of Spraak-engines en download het model ervoor.

Klik daarna knop Herkennen starten.

Nadat dit is gedaan, kies onder punt 6 bovenstaand Spraakzones verwijderen om dat in een keer te doen. Of klik op de tijdcode waar “Zonder spraak” is aangegeven (hou Ctrl in gedrukt om verschillende items in een keer te selecteren) en tik gewoon op de toets Delete.

Herhaal de bewerking voor alle delen die u wilt verwijderen, inclusief waar iemand iets zegt wat u niet wilt meenemen in uw uiteindelijke bewerking.

Nadat u klaar bent, ga na dat Alleen geselecteerde zone is uitgeschakeld, klik op de knop Bewerkte tekst opslaan in een afspeellijst (bovenstaand onder punt 5) en na enkele seconden wordt een nieuwe afspeellijst toegevoegd in de project-bin zonder stilte en zonder de tekst die u niet wilt.