语音转文本

在 21.04.0 版新加入.

警告

由于 Vosk API 的问题,21.04.2 版本无法使用语音转文本。请使用 21.04.1 或 21.04.3 及更高版本。

安装Python

需要在计算机上安装Python 3(Linux和Windows的安装详情见下文)。安装好Python后, 请按照以下步骤 将Python放入虚拟环境(之后Python会被复制到 venv 文件夹中)

卸载Python

要卸载已安装的 venv 包,请转到 设置 ‣ Kdenlive 设置 ‣ 环境 ‣ Python删除 venv

这将完全删除 venv 文件夹及其所有已安装的包。请注意,这不会删除已下载的模型(vosk/whisper),这些模型仍然会占用相当大的硬盘空间。

Linux

在大多数Linux发行版中,Python是默认安装的。您可以通过在终端中运行 python3 -V 来检查是否也适用于您。如果Python缺失,只需在网上搜索,有很多教程。

Windows

https://www.python.org/downloads/ 下载Python以在您的计算机上进行安装。

Speech Engines-语音引擎

要安装语音引擎,请转到 设置 ‣ 配置Kdenlive ‣ 语音转文本

VOSK

Vosk download dependencies

Vosk未安装

当您第一次切换到VOSK时,您必须先安装缺失的依赖项。

VOSK的安装路径:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

如果您已经在较早的Kdenlive版本中安装了VOSK,并且现在您选择了 venv 文件夹作为Python,您可以通过在控制台中运行以下命令来删除过去安装的VOSK库: pip uninstall vosk srt

安装一种语言

转到 设置 ‣ 配置Kdenlive… ‣ 语音转文本页面 并选择语音引擎VOSK。

点击链接 从以下位置下载语音模型: 来获取语言模型。

download link

将您想要的语言从vosk-model下载页面拖放到模型窗口中,它将为您下载并提取它。

download model

如果您遇到问题或检查更新,请点击 检查配置 按钮。

模型文件夹 显示已安装模型的大小。点击链接打开模型文件夹。

VOSK语音模型存储在此处:

Linux: ~/.local/share/kdenlive/speechmodels

Windows: %AppData%\kdenlive\speechmodels

Whisper

在 23.04 版新加入.

OpenAI-Whisper是一个用于一般用途的语音识别模型。它在大量多样化的音频数据上进行训练,能够执行语音翻译和语言识别。

Whisper在CPU上的速度比VOSK慢,但比VOSK更准确。Whisper即使在Base模式下也会创建带有标点符号的句子。

Whisper download dependencies

Whisper未安装

当您第一次切换到Whisper时,您必须先安装缺失的依赖项(大约2GB要下载)。

Whisper installed

当所有配置正确时,您将看到此屏幕。

Whisper安装路径:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

Whisper语音模型存储在此处:

Linux: ~/.local/share/kdenlive/opencvmodels

Windows: %AppData%\kdenlive\opencvmodels

模型 选择模型。更多详情请参见 Whisper source code page (默认:Base)。

语言 如果Autodetect(自动探测)不准确,请选择语言(默认:Autodetect)

设备 仅用于兼容性,仅提供CPU

禁用半精度(FP16) 仅用于GPU。当Kdenlive检测到NVIDIA GTX 16xx显卡时,它会自动禁用半精度(FP16)。如果您在使用GPU时遇到问题,您可以关闭半精度。

将文本翻译为英文 这将在识别过程中将非英文文本翻译为英文

通过SeamlessM4T启用翻译 这将仅启用/禁用 facebook/seamless-m4t-v2-large 。要下载并开始字幕翻译,请按照以下步骤操作

您可以通过点击 检查配置 检查更新

如果您已经在一个早期的Kdenlive版本中安装了Whisper,并且现在您选择了 venv 文件夹作为Python,您可以通过在控制台中运行以下命令来删除过去的Whisper库: pip uninstall openai-whisper

語音辨識

选择语音引擎

在 23.04 版新加入.

启用 菜单 ‣ 视图 ‣ 语音编辑器 菜单项。

change the speech engine

点击 多层菜单 application-menu 并选择 配置语音识别。这将带您到 配置语音到文本 ,选择引擎并点击 确定

翻译为英语 仅在Whisper语音引擎中可用。它将在识别过程中将非英语文本翻译为英语。

Speech to text show log

如果发生一些错误或重要消息。点击 显示日志 ,日志将变得可见。

通过VOSK语音识别创建字幕

Speech to text subtitle

使用VOSK引擎显示

  1. 标记您想要识别的时间线区域(调整蓝色线)(1)

  2. 点击 语音识别 图标 (2)

  3. 选择 语言 (3)

  4. 选择时间线中的哪个部分应应用于识别 (4)

  5. 处理 开始识别 (5)

字幕会自动创建并插入。

注意 4:默认情况下,只分析 时间线区域(所有轨道)`(时间线标尺中的蓝色条)。将时间线中的区域设置为要分析的区域(使用 :kbd:`IO 设置入点和出点)。 所选片段 选项仅分析所选片段。

通过WHISPER语音识别创建字幕

Speech to text subtitle Whisper

使用Whisper引擎显示

  1. 标记您想要识别的时间线区域(调整蓝色线)(1)

  2. 点击 语音识别 图标 (2)

  3. 选择 模型 (3)

  4. 选择时间线中的哪个部分应应用于识别 (4)

  5. 处理 开始识别 (5)

字幕会自动创建并插入。

注意 4:默认情况下,只分析 时间线区域(所有轨道)`(时间线标尺中的蓝色条)。将时间线中的区域设置为要分析的区域(使用 :kbd:`IO 设置入点和出点)。 所选片段 选项仅分析所选片段。

语言 如果 自动检测 没有选择正确的语言,您可以手动设置语言

每行最大字符数 调整字幕每行的字符数

通过SeamlessM4T翻译 首先,您必须在 设置 ‣ 配置Kdenlive ‣ 语音到文本 中启用 通过SeamlessM4T启用翻译

Whisper SeamlessM4T choose input and output language

注意 如果您第一次使用SeamlessM4T,它将在后台下载大约9GB的数据

选择 输入语言输出语言,然后点击 处理。这将首先使用whisper处理音频,然后开始SeamlessM4T翻译。翻译可能占用100%的RAM,100%的CPU和100%的磁盘访问。

注意

如果9GB模型尚未下载,现在将下载。使用100MB/s的下载速度,这将大约需要12分钟!

在下载过程中,Kdenlive将正常反应。不要点击 关闭,否则下载将被停止。

在下载运行时,如果看到以下消息 初始化翻译模型,请不要担心。

Whisper SeamlessM4T choose input and output language

一旦下载了翻译模型,翻译就会发生(下载模型大约需要12分钟,下载速度为100MB/s)。

On Whisper SeamlessM4T installed

SeamlessM4T已启用并成功下载

SeamlessM4T模型存储在这里:

Linux: $HOME/.cache/hugginface

Windows: C:\Users\<username>\.cache\huggingface

通过语音识别创建片段

这对于采访和其他与语音相关的镜头很有用。启用 菜单 ‣ 视图 ‣ 语音编辑器 菜单项。

Speech editor

显示使用VOSK引擎和启用搜索

项目素材箱 中选择一个片段。

  1. 如果需要,在片段监视器中设置入点和出点,并启用 仅选择区域 选择框。这将只识别区域内的文本。

  2. 当选择VOSK引擎时,选择正确的语言。或者通过点击 配置语音识别 (参见配置语音识别) 选择Whisper引擎

  3. 按下 开始识别 按钮。

  4. 选择你想要的文本。按住 CTRLShift 选择多个文本。

  1. 选择:创建新序列并编辑 创建一个新序列,每个时间码-文本作为一个单独的片段,或者 在时间轴中插入选择 在播放头位置,或者 将编辑后的文本保存到播放列表文件,该文件出现在项目素材箱中。

  1. 放大缩小 文本。 删除非语音区域 一次删除所有“无语音”条目。

  2. 添加书签。你可以使用 Alt + 箭头 快捷键在时间轴中跳转到这些书签,或者双击编辑书签。

  3. 删除选择的文本。

  4. 这里你可以搜索文本。

  5. 导航上下文。

静音检测

这仅适用于VOSK引擎。

在剪辑监视器中打开剪辑,并打开语音编辑器窗口(菜单 ‣ 视图 ‣ 语音编辑器)。

选择你的语言或 安装语言 并下载该语言的模型。

然后点击 开始识别 按钮。

完成后,选择上面的第6点中的 一次删除非语音区域。或者点击“无语音”指示的时间码(按 Ctrl 选择多个项目),然后按 Delete 键。

重复操作,删除所有你想要删除的部分,包括那些你说你不想包含在最终编辑中的部分。

完成后,确保禁用 仅选择区域,点击 将编辑后的文本保存到播放列表文件 按钮(在上面的第5点),然后几秒钟后,一个新的播放列表将添加到项目素材箱中,没有静音,也没有你不想包含的文本。