2025-02-18
Распознавание речи оffline
Системы распознавания речи развиваются сегодня очень быстро. Меня приятно поразила библиотека Whisper от OpenAI. Сконвертировать звуковой файл в текст можно оффлайн буквально парой команд, при этом качество распознавания получается очень хорошим.
Whisper написана на python и устанавливается при помощи pip:
# installing pip install -U openai-whisper # usage wisper file_to_recognize.mp3 --language Russian --model large
При первом запуске будет скачана голосовая модель для нужного языка, которая занимает несколько гигабайт на жестком диске. Распознавание голоса, особенно на CPU, занимает значительное время, получасовой файл обрабатывался на моем лаптопе пол-часа или даже дольше, но результат того стоит.
разрешены только теги br, font, span, p, strong, u, p, blockquote, a, div, img - остальные будут безжалостно удаляться
комментарии: