Перетворення звуку на текст

Нове в версії 21.04.0.

Попередження

Перетворення мовлення у текст не працює у версії 21.04.2 через проблеми із програмним інтерфейсом Vosk. Скористайтеся версією 21.04.1 або 21.04.3 чи новішими версіями.

Встановлення Python

На вашому комп’ютері має бути встановлено Python 3 (подробиці для Linux і Windows наведено нижче). Після встановлення Python виконайте ці кроки, щоб розташувати Python у віртуальному середовищі (після цього Python буде скопійовано до теки venv)

Вилучення Python

Щоб вилучити встановлений пакунок venv перейдіть до пункту Параметри ‣ Параметри Kdenlive ‣ Середовище ‣ Python і натисніть кнопку Вилучити venv.

У результаті програма повністю вилучить теку venv із усіма встановленими пакунками. Зауважте, що це не призведе до вилучення отриманих моделей (vosk/whisper), які після цього можуть продовжити займати певне місце на диску

Linux

У більшості дистрибутивів Linux до типового комплекту програм включено Python. Ви можете перевірити, чи це так за допомогою команди python3 -V, відданої у терміналі. Якщо Python не встановлено, ви можете знайти безліч інструкцій з його встановлення в інтернеті.

Windows

Пакунки для встановлення Python можна отримати тут: https://www.python.org/downloads/.

Рушії озвучення

Щоб встановити рушії розпізнавання мовлення, скористайтеся пунктом Параметри ‣ Налаштувати Kdenlive ‣ Перетворення звуку на текст.

VOSK

Vosk download dependencies

Vosk не встановлено

Якщо ви перший раз перемикаєтеся на VOSK, вам доведеться спочатку встановити пропущені залежності.

Шлях, куди встановлено VOSK:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

Якщо вами було встановлено VOSK у якійсь із попередніх версій Kdenlive, а у новій версії вибрано теку venv для Python, ви можете вилучити встановлені бібліотеки VOSK за допомогою такої команди у консолі: pip uninstall vosk srt

Встановлення даних мови

Перейдіть Параметри ‣ Налаштувати Kdenlive… ‣ сторінка «Перетворення звуку на текст» і виберіть рушій озвучення VOSK.

Натисніть посилання Моделі мовлення можна отримати звідси: для отримання моделі мови.

download link

Перетягніть пункт мови, яка вам потрібна, зі сторінки отримання пакунків vosk-model у вікно моделей — програма виконає автоматичне отримання і розпакування даних.

download model

Якщо виникають проблеми або ви хочете пошукати оновлення, натисніть кнопку Перевірити налаштування.

Тека моделей — показує розмір встановлених моделей. Натискання посилання відкриває теку моделі.

Моделі мовлення VOSK буде встановлено сюди:

Linux: ~/.local/share/kdenlive/speechmodels

Windows: %AppData%\kdenlive\speechmodels

Whisper

Нове в версії 23.04.

OpenAI-Whisper є модель розпізнавання мовлення для загального використання. Її натреновано на великому наборі даних різних звукових фрагментів, і вона може виконувати переклад та визначення мови.

Whisper є повільнішим за VOSK на процесорі, але є точнішими за VOSK. Whisper створює речення зі знаками пунктуації, навіть у базовому режимі.

Whisper download dependencies

Whisper не встановлено

Якщо ви перший раз перемикаєтеся на Whisper, вам доведеться спочатку встановити пропущені залежності (доведеться отримати близько 2 ГБ даних).

Whisper installed

Якщо все налаштовано правильно, ви отримаєте показане нижче вікно.

Шлях, куди встановлено Whisper:

  • Linux: ~/.local/share/kdenlive/venv/Lib

  • Windows: %LocalAppData%\kdenlive\venv\Lib

Моделі мовлення Whisper зберігатимуться тут:

Linux: ~/.local/share/kdenlive/opencvmodels

Windows: %AppData%\kdenlive\opencvmodels

Модель: виберіть модель. Докладніше про це на Whisper source code page (типове значення: Базова)

Мова: виберіть мову, якщо «Автовизначення» є неправильним (типове значення: Автовизначення)

Пристрій: для підтримання сумісності, можна використовувати лише процесор.

Вимкнути напівточність (FP16). Лише для графічних процесорів. Коли Kdenlive виявляє графічну картку NVIDIA GTX 16xx, програма вимикає половинну точність (FP16) автоматично. Якщо у вас виникають проблеми з використанням графічного процесора, ви можете вимкнути половинну точність.

Перекласти текст англійською: наказує програмі перекласти текст, відмінний від англійського, англійською під час розпізнавання

Увімкнути переклад за допомогою SeamlessM4T. Вмикає або вимикає лише facebook/seamless-m4t-v2-large. Щоб отримати і запустити переклад субтитрів, виконайте ці кроки.

Виконати пошук оновлень можна натисканням кнопки Перевірити налаштування

Якщо вами вже було встановлено Whisper у якійсь із попередніх версій Kdenlive, а у новій версії вибрано теку venv для Python, ви можете вилучити старі встановлені бібліотеки Whisper за допомогою такої команди у консолі: pip uninstall openai-whisper

Розпізнавання мовлення

Вибір рушія озвучення

Нове в версії 23.04.

Виберіть пункт меню Меню ‣ Перегляд ‣ Редактор мовлення.

change the speech engine

Натисніть меню-гамбургер application-menu і виберіть пункт Налаштувати розпізнавання мовлення. У відповідь буде відкрито вікно Налаштування Перетворення звуку на текст. Виберіть рушій і натисніть кнопку Гаразд.

Пункт Перекласти текст англійською доступний лише для рушія мовлення Whisper. Наказує програмі перекласти текст, відмінний від англійського, англійською під час розпізнавання.

Speech to text show log

Якщо трапилася якась помилка або було виведено важливе повідомлення. Натисніть Показати журнал, і програма покаже журнал.

Створення субтитрів для розпізнавання мовлення VOSK

Speech to text subtitle

Показано з рушієм VOSK

  1. Позначте на монтажному столі ділянку, де має бути розпізнано мовлення (скоригуйте розташування синьої лінії) (1)

  2. Натисніть піктограму Розпізнавання мовлення (2)

  3. Виберіть Мову (3)

  4. Виберіть частину монтажного столу, до якої має бути застосовано розпізнавання (4)

  5. Обробка — розпочати розпізнавання (5)

Субтитри буде створено і вставлено автоматично.

Зауваження щодо пункту 4: типова поведінка полягає в аналізі лише зони монтажного столу (усі доріжки) (синя смуга на лінійці монтажного столу). Встановіть на монтажному столі зону, аналіз якої слід виконати (скористайтеся клавішами I і O для встановлення вхідної і вихідної позицій). Якщо буде позначено пункт Позначені кліпи, програма виконає аналіз лише позначених кліпів.

Створення субтитрів для розпізнавання мовлення WHISPER

Speech to text subtitle Whisper

Показано з рушієм WHISPER

  1. Позначте на монтажному столі ділянку, де має бути розпізнано мовлення (скоригуйте розташування синьої лінії) (1)

  2. Натисніть піктограму Розпізнавання мовлення (2)

  3. Виберіть Модель (3)

  4. Виберіть частину монтажного столу, до якої має бути застосовано розпізнавання (4)

  5. Обробка — розпочати розпізнавання (5)

Субтитри буде створено і вставлено автоматично.

Зауваження щодо пункту 4: типова поведінка полягає в аналізі лише зони монтажного столу (усі доріжки) (синя смуга на лінійці монтажного столу). Встановіть на монтажному столі зону, аналіз якої слід виконати (скористайтеся клавішами I і O для встановлення вхідної і вихідної позицій). Якщо буде позначено пункт Позначені кліпи, програма виконає аналіз лише позначених кліпів.

Мова — якщо Автовиявлення не вибирає належну мову, ви можете встановити мову вручну

Максимальна кількість символів на рядок — скоригувати кількість символів на рядок у субтитрах

Перекласти за допомогою SeamlessM4T — спочатку вам слід позначити пункт Увімкнути переклад за допомогою SeamlessM4T на сторінці Параметри ‣ Налаштувати Kdenlive ‣ Перетворення звуку на текст.

Whisper SeamlessM4T choose input and output language

Увага! Якщо ви використовуєте SeamlessM4T уперше, програма отримає близько 9 ГБ даних у фоновому режимі

Виберіть Вхідну мову і Вихідну мову і натисніть Обробити. Спочатку буде оброблено звукові дані за допомогою whisper, потім буде запущено переклад за допомогою SeamlessM4T. Для перекладу може знадобитися 100% оперативної пам’яті, 100% потужностей процесора та 100% можливостей доступу до диска.

Увага

Якщо модель у 9 ГБ ще не було отримано, її буде отримано. Зі швидкістю 100 МБ/с отримання даних буде тривати 12 хвилин!

Під час отримання даних Kdenlive працюватиме у звичному режимі. Не натискайте кнопку Закрити, якщо не хочете перервати отримання даних.

Не переймайтеся, якщо побачите таке повідомлення на панелі під пунктом Ініціалізація моделі перекладу, доки триває отримання даних.

Whisper SeamlessM4T choose input and output language

Щойно модель перекладу буде завантажено, буде виконано переклад (майте терпіння, оскільки отримання моделі триватиме близько 12 хвилин зі швидкістю отримання даних 100 МБ/с).

On Whisper SeamlessM4T installed

SeamlessM4T увімкнено і успішно отримано

Моделі SeamlessM4T буде встановлено сюди:

Linux: $HOME/.cache/hugginface

Windows: C:\Users\<username>\.cache\huggingface

Створення кліпів за розпізнаванням мовлення

Ця можливість корисна для інтерв’ю та іншого пов’язаного із голосовими даними матеріалу. Увімкніть пункт меню Меню ‣ Перегляд ‣ Редактор озвучення.

Speech editor

Показано з рушієм VOSK і увімкненим пошуком

Виберіть кліп на панелі контейнера проєкту.

  1. Якщо потрібно, встановіть точки входу і виходу на моніторі кліпу і позначте пункт Лише позначена ділянка. У результаті буде розпізнано текст лише з вказаної ділянки.

  2. Виберіть належну мову, якщо вибрано рушій VOSK. Або виберіть рушій Whisper натисканням пункту Налаштувати розпізнавання мовлення (див. налаштовування перетворення мовлення на текст)

  3. Натисніть кнопку Почати розпізнавання.

  4. Виберіть бажаний фрагмент тексту. Шляхом утримання натиснутими клавіш Ctrl або Shift можна вибрати одразу декілька фрагментів тексту.

  1. Виберіть: Створити послідовність із редагуванням — створити послідовність із прив’язками часових позначок до тексту як окремий кліп, або Вставити позначене на монтажний стіл у позиції відтворення, або Зберегти редагований текст до файла списку відтворення для додавання пункту на панель контейнера проєкту.

  1. Збільшити або Зменшити текст. Вилучити усі зони без голосових даних вилучає усі записи без мовлення одразу.

  2. Додати закладку. Переходити до таких закладок на монтажному столі можна за допомогою комбінації Alt + стрілка, а редагувати закладку можна після подвійного клацання на ній.

  3. Вилучити позначений фрагмент тексту.

  4. Тут ви можете шукати фрагмент у тексті.

  5. Навігація текстом вгору і вниз.

Виявлення мовчання

Працює лише із рушієм VOSK.

Відкрийте кліп на панелі монітора кліпу і відкрийте вікно редактора озвучення (Меню ‣ Перегляд ‣ Редактор озвучення) .

Виберіть мову або встановіть мову і отримайте модель для неї.

Потім натисніть кнопку Почати розпізнавання.

Щойно цей буде зроблено, виберіть пункт 6 зі знімка вище, щоб Вилучити зони без мовлення, усі одразу. Або натисніть пункт позначки часу, де вказано «Немає озвучення» (утримуйте натиснутою клавішу Ctrl, щоб позначити декілька пунктів одразу), а потім натисніть клавішу Delete.

Повторіть дію для усіх частин, які ви хочете вилучити, включно із частинами, де хтось говорить щось, що не слід включати до остаточного варіанта.

Коли завершите, переконайтеся, що не позначено пункт Лише позначена зона, натисніть кнопку Зберегти редагований текст до файла списку відтворення (над точкою 5), і за декілька секунд на панель контейнера проєкту буде доданого новий список відтворення без проміжків з мовчанням та без небажаного тексту.