NVIDIA создала технологию синтеза речи, которая делает голоса ИИ более реалистичными, и озвучила ей серию видео

Модель преобразования обладает гибкими настройками и даже поддерживает пение.

NVIDIA создала технологию синтеза речи, которая делает голоса ИИ более реалистичными, и озвучила ей серию видео

О своей разработке компания рассказала в рамках конференции Interspeech 2021, поделившись возможностями и особенностями технологии.

  • Исследовательская группа NVIDIA создала несколько моделей преобразования текста в речь, одна из которых под названием RAD-TTS победила в конкурсе на создание самого реалистичного аватара на выставке NAB Show 2021.
  • Система позволяет человеку обучать модель синтеза речи с помощью собственного голоса, тем самым предоставляя ей данные о тембре, тональности и других характеристиках, уникальных для каждого пользователя.
  • RAD-TTS способна преобразовывать в речь слова одного человека, при этом используя голос другого. В компании подчеркнули, что возможности технологии выходят за рамки работы диктора — её можно в том числе использовать для того, чтобы воссоздавать голоса известных исполнителей или помогать людям с функциональными нарушениями голоса.
  • NVIDIA продемонстрировала работу технологии в серии роликов I Am AI («Я — искусственный интеллект»), которые выходили на YouTube-канале компании. В некоторых из этих видео в качестве диктора выступают синтезированные голоса, обученные при помощи модели преобразования RAD-TTS. Компания ставила перед собой цель добиться, чтобы голос ИИ не отличался от человеческого.

Наш видеопостановщик записал сценарий к видео своими словами, а затем использовал модель ИИ, чтобы преобразовать речь в женский голос диктора. Далее он использовал ИИ как актёра озвучивания, настраивая синтезированную речь, чтобы подчеркнуть определённые слова интонацией и изменить темп повествования, чтобы лучше передать происходящее в ролике.

NVIDIA
  • Компания предложила желающим опробовать некоторые из обученных моделей преобразования речи через инструментарий для разговорного ИИ NeMo. В NVIDIA считают, что её разработки смогут сделать искусственные голоса, применяемые в различных областях, более выразительными и реалистичными.

Видео, озвученные ИИ

Полный плейлист с подобными роликам расположен на YouTube-канале компании.

Видео о модели преобразования

194194
127 комментариев

Комментарий недоступен

175
Ответить

Тогда уж фильм с превьюшки ближе

13
Ответить

Двадцать ....часов ....Тридцать ...три ....минуты

85
Ответить
68
Ответить

@Denis Shiryaev ты в телевизоре

82
Ответить

Ну всё, пизда им. Ща французы засудят

34
Ответить

Теперь можно писать хоть целые романы в квестах/диалогах и не тратить ни денег, ни времени на актёров озвучки. И менять текст также налету. Красота же

64
Ответить