NVIDIA создала технологию синтеза речи, которая делает голоса ИИ более реалистичными, и озвучила ей серию видео
Модель преобразования обладает гибкими настройками и даже поддерживает пение.
О своей разработке компания рассказала в рамках конференции Interspeech 2021, поделившись возможностями и особенностями технологии.
- Исследовательская группа NVIDIA создала несколько моделей преобразования текста в речь, одна из которых под названием RAD-TTS победила в конкурсе на создание самого реалистичного аватара на выставке NAB Show 2021.
- Система позволяет человеку обучать модель синтеза речи с помощью собственного голоса, тем самым предоставляя ей данные о тембре, тональности и других характеристиках, уникальных для каждого пользователя.
- RAD-TTS способна преобразовывать в речь слова одного человека, при этом используя голос другого. В компании подчеркнули, что возможности технологии выходят за рамки работы диктора — её можно в том числе использовать для того, чтобы воссоздавать голоса известных исполнителей или помогать людям с функциональными нарушениями голоса.
- NVIDIA продемонстрировала работу технологии в серии роликов I Am AI («Я — искусственный интеллект»), которые выходили на YouTube-канале компании. В некоторых из этих видео в качестве диктора выступают синтезированные голоса, обученные при помощи модели преобразования RAD-TTS. Компания ставила перед собой цель добиться, чтобы голос ИИ не отличался от человеческого.
Наш видеопостановщик записал сценарий к видео своими словами, а затем использовал модель ИИ, чтобы преобразовать речь в женский голос диктора. Далее он использовал ИИ как актёра озвучивания, настраивая синтезированную речь, чтобы подчеркнуть определённые слова интонацией и изменить темп повествования, чтобы лучше передать происходящее в ролике.
- Компания предложила желающим опробовать некоторые из обученных моделей преобразования речи через инструментарий для разговорного ИИ NeMo. В NVIDIA считают, что её разработки смогут сделать искусственные голоса, применяемые в различных областях, более выразительными и реалистичными.
Видео, озвученные ИИ
Полный плейлист с подобными роликам расположен на YouTube-канале компании.
Комментарий недоступен
Тогда уж фильм с превьюшки ближе
Двадцать ....часов ....Тридцать ...три ....минуты
@Denis Shiryaev ты в телевизоре
Ну всё, пизда им. Ща французы засудят
Теперь можно писать хоть целые романы в квестах/диалогах и не тратить ни денег, ни времени на актёров озвучки. И менять текст также налету. Красота же