语音转文本¶
在 21.04.0 版本加入.
警告
由于 Vosk API 的问题,21.04.2 版本无法使用语音转文本。请使用 21.04.1 或 21.04.3 及更高版本。
安装Python¶
需要在计算机上安装Python 3(Linux和Windows的安装详情见下文)。安装好Python后, 请按照以下步骤 将Python放入虚拟环境(之后Python会被复制到 venv
文件夹中)
卸载Python
要卸载已安装的 venv
包,请转到 并 删除 venv
。
这将完全删除 venv
文件夹及其所有已安装的包。请注意,这不会删除已下载的模型(vosk/whisper),这些模型仍然会占用相当大的硬盘空间。
Linux¶
在大多数Linux发行版中,Python是默认安装的。您可以通过在终端中运行 python3 -V
来检查是否也适用于您。如果Python缺失,只需在网上搜索,有很多教程。
Windows¶
从 https://www.python.org/downloads/ 下载Python以在您的计算机上进行安装。
Speech Engines-语音引擎¶
要安装语音引擎,请转到
。VOSK¶
当您第一次切换到VOSK时,您必须先安装缺失的依赖项。
VOSK的安装路径:
Linux:
~/.local/share/kdenlive/venv/Lib
Windows:
%LocalAppData%\kdenlive\venv\Lib
如果您已经在较早的Kdenlive版本中安装了VOSK,并且现在您选择了 venv
文件夹作为Python,您可以通过在控制台中运行以下命令来删除过去安装的VOSK库: pip uninstall vosk srt
安装一种语言¶
转到
并选择语音引擎VOSK。点击链接 从以下位置下载语音模型: 来获取语言模型。
将您想要的语言从vosk-model下载页面拖放到模型窗口中,它将为您下载并提取它。
如果您遇到问题或检查更新,请点击 检查配置 按钮。
模型文件夹 显示已安装模型的大小。点击链接打开模型文件夹。
VOSK语音模型存储在此处:
Linux: ~/.local/share/kdenlive/speechmodels
Windows: %AppData%\kdenlive\speechmodels
Whisper¶
在 23.04 版本加入.
OpenAI-Whisper是一个用于一般用途的语音识别模型。它在大量多样化的音频数据上进行训练,能够执行语音翻译和语言识别。
Whisper在CPU上的速度比VOSK慢,但比VOSK更准确。Whisper即使在Base模式下也会创建带有标点符号的句子。
当您第一次切换到Whisper时,您必须先安装缺失的依赖项(大约2GB要下载)。
Whisper安装路径:
Linux:
~/.local/share/kdenlive/venv/Lib
Windows:
%LocalAppData%\kdenlive\venv\Lib
Whisper语音模型存储在此处:
Linux: ~/.local/share/kdenlive/opencvmodels
Windows: %AppData%\kdenlive\opencvmodels
模型 选择模型。更多详情请参见 Whisper source code page (默认:Base)。
语言 如果Autodetect(自动探测)不准确,请选择语言(默认:Autodetect)
设备 仅用于兼容性,仅提供CPU
禁用半精度(FP16) 仅用于GPU。当Kdenlive检测到NVIDIA GTX 16xx显卡时,它会自动禁用半精度(FP16)。如果您在使用GPU时遇到问题,您可以关闭半精度。
将文本翻译为英文 这将在识别过程中将非英文文本翻译为英文
通过SeamlessM4T启用翻译 这将仅启用/禁用 facebook/seamless-m4t-v2-large
。要下载并开始字幕翻译,请按照以下步骤操作 。
您可以通过点击 检查配置 检查更新
如果您已经在一个早期的Kdenlive版本中安装了Whisper,并且现在您选择了 venv
文件夹作为Python,您可以通过在控制台中运行以下命令来删除过去的Whisper库: pip uninstall openai-whisper
语音识别¶
选择语音引擎¶
在 23.04 版本加入.
启用
菜单项。点击 多层菜单 并选择 配置语音识别。这将带您到 配置语音到文本 ,选择引擎并点击 确定。
翻译为英语 仅在Whisper语音引擎中可用。它将在识别过程中将非英语文本翻译为英语。
如果发生一些错误或重要消息。点击 显示日志 ,日志将变得可见。
通过VOSK语音识别创建字幕¶
标记您想要识别的时间线区域(调整蓝色线)(1)
点击 语音识别 图标 (2)
选择 语言 (3)
选择时间线中的哪个部分应应用于识别 (4)
处理 开始识别 (5)
字幕会自动创建并插入。
注意 4:默认情况下,只分析 时间线区域(所有轨道)`(时间线标尺中的蓝色条)。将时间线中的区域设置为要分析的区域(使用 :kbd:`I 和 O 设置入点和出点)。 所选片段 选项仅分析所选片段。
通过WHISPER语音识别创建字幕¶
标记您想要识别的时间线区域(调整蓝色线)(1)
点击 语音识别 图标 (2)
选择 模型 (3)
选择时间线中的哪个部分应应用于识别 (4)
处理 开始识别 (5)
字幕会自动创建并插入。
注意 4:默认情况下,只分析 时间线区域(所有轨道)`(时间线标尺中的蓝色条)。将时间线中的区域设置为要分析的区域(使用 :kbd:`I 和 O 设置入点和出点)。 所选片段 选项仅分析所选片段。
语言 如果 自动检测 没有选择正确的语言,您可以手动设置语言
每行最大字符数 调整字幕每行的字符数
通过SeamlessM4T翻译 首先,您必须在 中启用 通过SeamlessM4T启用翻译。
选择 输入语言 和 输出语言,然后点击 处理。这将首先使用whisper处理音频,然后开始SeamlessM4T翻译。翻译可能占用100%的RAM,100%的CPU和100%的磁盘访问。
注意
如果9GB模型尚未下载,现在将下载。使用100MB/s的下载速度,这将大约需要12分钟!
在下载过程中,Kdenlive将正常反应。不要点击 关闭,否则下载将被停止。
在下载运行时,如果看到以下消息 初始化翻译模型,请不要担心。
一旦下载了翻译模型,翻译就会发生(下载模型大约需要12分钟,下载速度为100MB/s)。
SeamlessM4T模型存储在这里:
Linux: $HOME/.cache/hugginface
Windows: C:\Users\<username>\.cache\huggingface
通过语音识别创建片段¶
这对于采访和其他与语音相关的镜头很有用。启用
菜单项。在 项目素材箱 中选择一个片段。
如果需要,在片段监视器中设置入点和出点,并启用 仅选择区域 选择框。这将只识别区域内的文本。
当选择VOSK引擎时,选择正确的语言。或者通过点击 配置语音识别 (参见配置语音识别) 选择Whisper引擎
按下 开始识别 按钮。
选择你想要的文本。按住 CTRL 或 Shift 选择多个文本。
选择:创建新序列并编辑 创建一个新序列,每个时间码-文本作为一个单独的片段,或者 在时间轴中插入选择 在播放头位置,或者 将编辑后的文本保存到播放列表文件,该文件出现在项目素材箱中。
放大 或 缩小 文本。 删除非语音区域 一次删除所有“无语音”条目。
添加书签。你可以使用 Alt + 箭头 快捷键在时间轴中跳转到这些书签,或者双击编辑书签。
删除选择的文本。
这里你可以搜索文本。
导航上下文。
静音检测¶
这仅适用于VOSK引擎。
在剪辑监视器中打开剪辑,并打开语音编辑器窗口(
)。选择你的语言或 安装语言 并下载该语言的模型。
然后点击 开始识别 按钮。
完成后,选择上面的第6点中的 一次删除非语音区域。或者点击“无语音”指示的时间码(按 Ctrl 选择多个项目),然后按 Delete 键。
重复操作,删除所有你想要删除的部分,包括那些你说你不想包含在最终编辑中的部分。
完成后,确保禁用 仅选择区域,点击 将编辑后的文本保存到播放列表文件 按钮(在上面的第5点),然后几秒钟后,一个新的播放列表将添加到项目素材箱中,没有静音,也没有你不想包含的文本。