Комментарий недоступен — Аккаунт заморожен на DTF

vc.ru

Жизнь

вчера

Сервис «нейродубляжа» ElevenLabs представил функцию создания подкастов из текстовых файлов с двумя «ИИ-ведущими»

Генератор голоса поддерживает русский язык.

8989

2020

Свен Тори

вчера

А есть ли хороший нейросервис, который наоборот: слова из аудио записывает в текст?

Ответить

FalseShepard

вчера

Тоже задавался этим вопросом. Посмотрел пару вариантов и остановился на Whisper от OpenAI, возможно есть лучше, но эта по скорости и качеству меня вполне устроила, так что дальше искать не стал.

Легко разворачивается как на локальной машине и не требует особо мощностей, можно на CPU даже если много оперативки, а если нет - Google Colab. Есть четыре модели, отличаются по размеру, скорости и качеству. Обычно хватает третьей модели, чтобы получить минимальное количество ошибок. Четвёртая модель совсем чуть-чуть точнее, но если много имен собственных и нужно расстановка знаков препинания, то можно и её взять, но она очень медленная.

Конечно, ошибок не избежать, если распознаешь звук записанный в цеху, на бегу. Но общий смысл передаётся корректно. А если звук хороший, то третья модель справляется практически идеально.

Если нет опыта программирования, ChatGPT вполне может помочь написать код. Даже бесплатного тарифа хватит, уверен.

Ответить

Аккаунт заморожен

вчера

Комментарий недоступен

Ответить