Тоже задавался этим вопросом. Посмотрел пару вариантов и остановился на Whisper от OpenAI, возможно есть лучше, но эта по скорости и качеству меня вполне устроила, так что дальше искать не стал.
Легко разворачивается как на локальной машине и не требует особо мощностей, можно на CPU даже если много оперативки, а если нет - Google Colab. Есть четыре модели, отличаются по размеру, скорости и качеству. Обычно хватает третьей модели, чтобы получить минимальное количество ошибок. Четвёртая модель совсем чуть-чуть точнее, но если много имен собственных и нужно расстановка знаков препинания, то можно и её взять, но она очень медленная.
Конечно, ошибок не избежать, если распознаешь звук записанный в цеху, на бегу. Но общий смысл передаётся корректно. А если звук хороший, то третья модель справляется практически идеально.
Если нет опыта программирования, ChatGPT вполне может помочь написать код. Даже бесплатного тарифа хватит, уверен.
А есть ли хороший нейросервис, который наоборот: слова из аудио записывает в текст?
Тоже задавался этим вопросом. Посмотрел пару вариантов и остановился на Whisper от OpenAI, возможно есть лучше, но эта по скорости и качеству меня вполне устроила, так что дальше искать не стал.
Легко разворачивается как на локальной машине и не требует особо мощностей, можно на CPU даже если много оперативки, а если нет - Google Colab. Есть четыре модели, отличаются по размеру, скорости и качеству. Обычно хватает третьей модели, чтобы получить минимальное количество ошибок. Четвёртая модель совсем чуть-чуть точнее, но если много имен собственных и нужно расстановка знаков препинания, то можно и её взять, но она очень медленная.
Конечно, ошибок не избежать, если распознаешь звук записанный в цеху, на бегу. Но общий смысл передаётся корректно. А если звук хороший, то третья модель справляется практически идеально.
Если нет опыта программирования, ChatGPT вполне может помочь написать код. Даже бесплатного тарифа хватит, уверен.
Комментарий недоступен