2025-02-18

Распознавание речи оffline

Системы распознавания речи развиваются сегодня очень быстро. Меня приятно поразила библиотека Whisper от OpenAI. Сконвертировать звуковой файл в текст можно оффлайн буквально парой команд, при этом качество распознавания получается очень хорошим.

Whisper написана на python и устанавливается при помощи pip:

# installing
pip install -U openai-whisper

# usage
wisper file_to_recognize.mp3 --language Russian --model large

При первом запуске будет скачана голосовая модель для нужного языка, которая занимает несколько гигабайт на жестком диске. Распознавание голоса, особенно на CPU, занимает значительное время, получасовой файл обрабатывался на моем лаптопе пол-часа или даже дольше, но результат того стоит.

 

комментарии:

 

Для того чтобы каждый раз не представляться можно войти как зарегистрированный пользователь.

Имя*

разрешены только теги br, font, span, p, strong, u, p, blockquote, a, div, img - остальные будут безжалостно удаляться