Complementos¶

Esta sección contiene opciones para la conversión de voz a texto y la detección de objetos.

Antes de que las opciones de Voz a texto y Detección de objetos pueda ser configurada y usada, se necesitará instalar Python3. Una vez que haya sido instalado, se querrá usar un entorno virtual (venv) para mantenerlo separado para Kdenlive, de otros usos en la computadora.

En caso de que ya se tuviera Python3 instalado, ir a la página de configuración de Voz a texto o Detección de objetos.

Instalación de Python¶

Instalación en Linux¶

En la mayoría de las distribuciones de Linux, Python ya se encontrará instalado de manera predeterminada. Será posible comprobar si ése es el caso, ejecutando el comando python3 --version en una terminal. Los siguientes son pasos básicos para la instalación de Python3 en Ubuntu. En caso de estar usando otra distribución no basada en Ubuntu, ver la documentación específica de la misma o buscar en Internet instrucciones de instalación apropiadas para esa distribución.

$ sudo apt updates
$ sudo apt install python3

El paquete de Python adicional crucial que será necesario es pip. Python 3.4 y superiores ya incluyen pip de forma predeterminada, aunque de todas maneras no está de más comprobarlo mediante el comando command -v pip en una terminal (algunas distribuciones usan pip para Python2 y pip3 para Python 3). En caso de que pip no se encuentre en el sistema, será posible instalarlo mediante

$ python3 -m ensurepip --upgrade

En caso de problemas, ver la guía de instalación de pip (pip installation guide).

Nota

En los párrafos siguientes, pip será el término genérico usado para todas las versiones de pip, incluyendo a pip3. Usar el comando pip correcto para el SO usado.

Instalación en Windows¶

Descargar Python desde la página oficial de Python (Python download).

Seleccionar «Agregar python.exe a la variable PATH”

Seleccionar “Instalar ahora”

Voz a texto¶

Esta sección es usada para configurar la característica de Voz a texto de Kdenlive, así como para administrar los distintos modelos de los dos sistemas de reconocimiento de voz disponibles: VOSK y Whisper.

Advertencia

Voz a texto no funciona en la versión 21.04.2 debido a problemas con la API de VOSK. Usar las versiones 21.04.1, 21.04.3 o posteriores.

Sistemas de reconocimiento de voz¶

Existen dos sistemas (o motores) de reconocimiento de voz: VOSK y Whisper. Whisper de OpenAI es un módulo de reconocimiento de voz para uso general, entrenado en un conjunto amplio de datos diversos de audio, que es capaz de realizar traducción de voz e identificación de idiomas.

Whisper es más lento que VOSK al funcionar en CPU, pero también es más preciso que VOSK. Whisper es capaz de crear oraciones con símbolos de puntuación, aún en el modo Base.

Será necesario configurar los modelos a ser usados por estos sistemas de reconocimiento de voz.

Consejo

En caso de estarse usando la versión “flatpak” de Kdenlive, es posible que se experimenten problemas al instalar los modelos de lenguaje. El concepto de caja de arena usado por flatpak evita que Kdenlive pueda ejecutar pip. Existe una forma posible de circunvalar este problema mediante el uso del comando $ flatpak run --command=/bin/bash org.kde.kdenlive y luego $ python -m ensurepip seguido de $ python -m pip install -U openai-whisper torch (cortesía de Veronica Explains). La experiencia puede variar en cada caso.

La otra opción será seleccionar Whisper y luego hacer clic en Instalar traducción multi idiomas. Esto descargará e instalará las dependencias necesarias y hará que Kdenlive encuentre la ubicación de la instalación de Python y pip. Después de eso, será posible seguir las instrucciones para configurar VOSK y Whisper de aquí.

VOSK¶

Será necesario descargar primero un modelo de voz desde la página de descargas de alphacephei[1]. Seguir el enlace (2) y descargar los modelos que sean necesarios.

De forma predeterminada, los modelos de voz serán instalados en las siguientes carpetas:

Linux:: ~/.local/share/kdenlive/venv/Lib
Windows:: %LocalAppData%\kdenlive\venv\Lib

En caso de que se deseara usar una carpeta específica, activar la opción Carpeta personalizada de modelos (3) y especificarla en el campo de texto debajo o hacer clic en el botón document-open Abrir diálogo de archivos para navegar hasta la carpeta de destino. En caso de usarse la carpeta predeterminada, será mostrada, con propósitos informativos, en el campo de texto de carpeta de modelos.

En caso de que previamente se hubiera instalado VOSK en una versión anterior de Kdenlive y ahora se hubiera escogido la carpeta venv para Python, será posible borrar las bibliotecas de VOSK previamente instaladas usando el siguiente comando en una terminal:

$ pip uninstall vosk srt

Hacer clic en el botón Agregar modelo e ingresar la ruta hasta los archivos ya descargados.

configure_speech2text_new_dictionary_2412

Hacer clic en el botón document-open Abrir diálogo de archivos para abrir el explorador de archivos del SO para navegar hasta donde se hubieran descargado los archivos y seleccionar el archivo del modelo que se desee agregar.

Alternativamente, arrastrar y soltar el archivo del modelo de voz deseado desde la página de descargas de alphacephei[1] hasta el área de modelos (4), para que Kdenlive lo descargue y extraiga en la carpeta predeterminada o personalizada especificada.

Nota

Los modelos se encuentran comprimidos en archivos (.zip) que podrán tener varios GB de tamaño. Dependiendo de la conexión a Internet disponible, los tiempos de descarga podrían ser extensos. Después de finalizada la descarga, los archivos necesitarán ser extraídos, lo cual podría también tardar un cierto tiempo, dependiendo de las características del equipo. Kdenlive parecerá no dar respuesta, sin embargo estará trabajando en segundo plano. Es necesario ser paciente.

Una vez que los modelos hubieran sido instalados, Kdenlive mostrará el tamaño de la carpeta de modelos. Hacer clic en el enlace Carpeta de modelos para abrir la carpeta de modelos con el explorador de archivos del SO.

Whisper¶

Cuando se cambie a Whisper por primera vez, será necesario instalar las dependencias faltantes (una descarga de alrededor de 2GB).

Luego de eso, será necesario descargar uno o más modelos de voz.

configure_speech2text_whisper_2412 — Whisper se encuentra instalado, pero aún no se ha descargado ningún modelo de voz¶

1:: Whisper se encuentra seleccionado como sistema de reconocimiento de voz
2:: Cuando se mantenga la opción Detección automática, Kdenlive intentará averiguar que idioma usar para el reconocimiento de voz. En caso de que no acertara, será posible escoger manualmente el idioma correcto.
3:: Será posible cambiar entre el uso de CPU o GPU para el reconocimiento de voz. Se necesitará una GPU que soporte CUDA, para poder utilizar reconocimiento de voz por GPU.
4:: Sólo para GPU. Cuando Kdenlive detecte una tarjeta NVIDIA GTX 16xx automáticamente desactivará la precisión media (FP16). En caso de tener problemas con el uso de la GPU se recomienda probar a desactivar la precisión media.
5:: Será posible hacer que Whisper traduzca el texto al idioma inglés. En caso de que fuera necesaria la traducción a otros idiomas, se deberá hacer clic en el botón Instalar traducción multi idiomas. Esto habilitará el sistema SeamlessM4T[2] y descargará sus modelos (alrededor de 10GB de datos). El procesamiento ocurrirá en segundo plano, a partir de ese momento.

Hacer clic en el botón Administrar modelos o aceptar la recomendación de usar el modelo turbo, haciendo clic en el botón Descargar (1,4GB). Se podrá encontrar más información acerca de los modelos disponibles en la página Whisper source code page.

configure_speech2text_whisper_models_2412 — Descarga y administración de modelos de Whisper¶

Kdenlive mostrará el proceso de descarga.

Los modelos de voz instalados tendrán un círculo sólido. Será posible borrarlos haciendo clic en el botón Desinstalar modelo

Los modelos de voz disponibles pero no instalados tendrán un círculo hueco. Será posible instalarlos haciendo clic en el botón Instalar modelo.

Whisper installed — Cuando todo se encuentre configurado correctamente se mostrará este mensaje: ¡Luz verde!¶

Ruta en donde se instalará Whisper:

Linux:: ~/.local/share/kdenlive/venv/Lib
Windows:: %LocalAppData%\kdenlive\venv\Lib

Los modelos de voz de Whisper serán almacenados aquí:

Linux:: ~/.local/share/kdenlive/opencvmodels
Windows:: %AppData%\kdenlive\opencvmodels

Para descargar e iniciar la traducción de subtítulos seguir estos pasos.

Es posible comprobar posibles actualizaciones haciendo clic en Comprobar configuración

En caso de que previamente se hubiera instalado Whisper para una versión anterior de Kdenlive y ahora se hubiera escogido la carpeta venv para Python, será posible borrar las biblioteca de Whisper anteriormente instaladas, usando el siguiente comando en la terminal:

$ pip uninstall openai-whisper

Nota

En caso de recibir mesajes consistentes durante el reconocimiento de voz acerca de archivos faltantes en el modelo, comprobar dónde, haciendo clic en el enlace al lado de Carpeta de modelos. En caso de que la carpeta Whisper que contiene todos los modelos descargados se encontrara en ~/.cache, simplemente copiar dicha carpeta a donde el mensaje de error indique que faltan los archivos (muy probablemente: ~/.var/app/org.kde.kdenlive/cache, en Linux)

Detección de objetos¶

La primera vez que se utilice la detección de objetos, será necesario instalar el complemento.

EL complemento se instalará en la carpeta:

Linux:: ~/.local/share/kdenlive/venv-sam
Windows:: %LocalAppData%\kdenlive\venv-sam

En caso de que todo sea correctamente instalado, la interfaz debería lucir así:

Object Detection plugin installed — Cuando todo se encuentre configurado correctamente se mostrará este mensaje: ¡Luz verde!¶

1:: Modelo Será posible descargar distintos modelos de detección de objetos.
2:: Dispositivo Se podrá alternar entre el uso de CPU y GPU para la detección de objetos. Se necesitará una GPU con soporte para CUDA para la detección de objetos mediante GPU. Kdenlive intentará encontrar la tarjeta gráfica de forma automática. En caso de que la misma soporte CUDA (deberá ser una GPU de Nvidia) se instalarán los controladores necesarios para que sea posible utilizarla. En caso de la tarjeta gráfica no contara con soporte para CUDA o que no fuera detectada por Kdenlive sólo se verá la opción CPU. Soporte de GPU En caso de que la GPU de Nvidia no se encontrara listada, intentar instalando una alternativa, siguiendo estos pasos.
3:: Descargar el video a la CPU para ahorrar memoria de la GPU En caso de tener clips extensos, en los que sea necesario detectar objetos, es posible que ocurran cierres inesperados del programa. Cuando esta opción esté activa, se descargarán partes de la memoria de la tarjeta gráfica usada hacia la memoria RAM del sistema, para ahorrar memoria de la GPU.
4:: Sólo usar paquetes del sistema Cuando se encuentre activa, Kdenlive usará la versión de SAM2 ya instalada en el sistema. Esta es una opción sólo para usuarios avanzados, dado que será necesario configurar correctamente todo de forma manual.
5:: Carpeta de modelos Al hacer clic en el enlace, se abrirá la carpeta en donde se encuentran almacenados los modelos de SAM2, incluyendo el tamaño de esta carpeta. Borrar todos los modelos borrará el contenido de la carpeta de modelos.
6:: Tamaño del complemento Al hacer clic en el enlace, se abrirá la carpeta en donde se encuentran almacenados los scripts venv-sam de Python, incluyendo el tamaño de esta carpeta. Desinstalar complemento desinstalará el venv-sam de Python.

Instalación manual de GPU¶

En caso de que Kdenlive no pudiera detectar automáticamente la GPU Nvidia instalada en el sistema, aún será posible intentar instalarla manualmente.

La aceleración por GPU sólo funciona mediante CUDA (Compute Unified Device Architecture), que es una arquitectura de computación paralela propietaria de Nvidia.

Comprobar la versión de CUDA instalada en el sistema:

abrir una terminal de comandos (Windows: Windows+R escribir cmd y pulsar la tecla Intro)
Escribir nvidia-smi –-version, pulsar la tecla Intro

Debería aparecer algo como esto:

CUDA version installed — En este caso la versión de CUDA es la 12.8¶

Ahora, hacer clic en el botón Soporte de GPU

Será posible seleccionar una versión de CUDA igual o inferior a la que fue detectada

CUDA version to be installed — Seleccionada una versión de CUDA menor a la detectada.¶

Hacer clic en Aplicar

En el siguiente diálogo, hacer clic en el botón Continuar

Kdenlive comenzará a descargar todos los archivos necesarios para usar la GPU. Una vez finalizada la descarga, debería mostrarse la GPU en el menú desplegable Dispositivo de la siguiente forma:

CUDA version installaled — GPU instalada satisfactoriamente¶

configure_speech2text_vosk_models_alphacephei_2412