Сервис «нейродубляжа» ElevenLabs представил функцию создания подкастов из текстовых файлов с двумя «ИИ-ведущими»

Генератор голоса поддерживает русский язык.

Скриншот vc.ru 
8787
1818
44
33
22
11

А есть ли хороший нейросервис, который наоборот: слова из аудио записывает в текст?

Ответить

Тоже задавался этим вопросом. Посмотрел пару вариантов и остановился на Whisper от OpenAI, возможно есть лучше, но эта по скорости и качеству меня вполне устроила, так что дальше искать не стал.

Легко разворачивается как на локальной машине и не требует особо мощностей, можно на CPU даже если много оперативки, а если нет - Google Colab. Есть четыре модели, отличаются по размеру, скорости и качеству. Обычно хватает третьей модели, чтобы получить минимальное количество ошибок. Четвёртая модель совсем чуть-чуть точнее, но если много имен собственных и нужно расстановка знаков препинания, то можно и её взять, но она очень медленная.

Конечно, ошибок не избежать, если распознаешь звук записанный в цеху, на бегу. Но общий смысл передаётся корректно. А если звук хороший, то третья модель справляется практически идеально.

Если нет опыта программирования, ChatGPT вполне может помочь написать код. Даже бесплатного тарифа хватит, уверен.

2
Ответить

Комментарий недоступен

Ответить