От идеи озвучки умного NPC до 1 000 000 пользователей: как мы вырастили проект SteosVoice

Рассказываем о пути становления SteosVoice.

Наша лаборатория Mind Simulation занимается разработками в области AGI (Общий Искусственный Интеллект) и известна в мире в том числе тем, что является первой лабораторией, которая создала цифровую личность персонажа видеоигры — ведьмака Геральта из Ривии.

Некоторое время назад Mind Simulation запустил «Департамент голосовых связок», чтобы дополнить звено недостающих технологий Искусственного Интеллекта в своём стеке. В этой статье я расскажу, как мы вырастили проект SteosVoice от идеи озвучить игрового персонажа для своей игры до сервиса с 1 000 000 пользователей.

Мы всегда понимали, что для создания полноценной системы AGI нам нужно будет работать не только над «центральным мозгом» ИИ, но и над дополнительными блоками, например, системами органов чувств. Следовательно, первой такой системой, которую нам пришлось с нуля под себя разрабатывать стал именно синтез речи, который сейчас перерос в отдельный самостоятельный проект.

Пришли мы к этому не сразу.

Изрядно намучившись с разными синтезаторами, мы поняли, что в этом направлении нам придётся делать свою технологию с нуля, так как на тот момент были доступны или облачные решения от гигантов, или всякий мусор на гитхабе.

Задача стояла амбициозная: создать систему, которая сможет спародировать любой существующий голос персонажа игры на минимальном объёме данных и сможет работать локально, например, на PlayStation. Вопрос ставился таким образом, потому что мы не хотели обязывать студии иметь облака под интерактивных персонажей, а игрока – постоянно быть подключённым к интернету. Это не выгодно и не удобно.

Структурировано список требований выглядел так:

Клонирование на экстремально минимальном объёме данных: минута и менее, так как оживлять надо не только главных персонажей, но и прохожих
Минимальные требования к железу: система должна работать локально на устройстве игрока;
Масштабируемость: в играх сотни, а порой и тысячи персонажей, и у всех свои голоса;
Мультиязычность: система должна уметь говорить одним и тем же голосом, на разных языках (мы, кстати, первые, кто это круто сделал);
Высокое качество звука: синтезированная речь не должна быть плоской или кривой, звук должен быть полный, на уровне студийного.

В общем стояла задача создать что-то новое, и мы начали над этим работать. Безусловно, к намеченным целям мы двигались поэтапно, каждой новой итерацией улучшая результат генерации речи. Стоит заметить и то, что в распоряжении у нас не было бесконечных ресурсов на облачные вычисления. Тестовым стендом для разработки и тренировки моделей был ПК с 2070 SUPER.

Со временем мы поняли, что у нас получается что-то крутое. Мы решили показать это сообществу, и тут началось :)

Первые публичные демо
Представление проекта в публичном пространстве ведёт свой отчёт с релиза видео, которые демонстрировали качество звука (сейчас уже значительно лучше):
английское: https://www.youtube.com/watch?v=p1rEp6ZEgcc;
русское: https://www.youtube.com/watch?v=G9PaIYR6uwg;
Запустили систему роялти для владельцев голосов
Так получилось, что мы первыми сформулировали видение того, чтобы предоставить владельцам голосов и актёрам озвучки возможность лицензировать свои голоса и получать отчисления от их использования технологиями. Подробнее о механике и ознакомиться с некоторыми нашими партнёрами можно по ссылке:
https://cybervoice.io/ru/monetize-your-voice.html
Первая коллаборация с креатором на YouTube
GabeFollower — это первый YouTube канал, голос которого мы оцифровали и выпустили полностью озвученный ИИ ролик:
https://www.youtube.com/watch?v=gZpRL0oWnVw
Мод Night To Remember
Мы не подозревали, что это так стрельнет. К нам обратился модер и мы помогли ему создать цифровой голос Геральта из Ривии, и синтезировали для его мода некоторое количество реплик. После того, как мод вышел, ещё 12 дней никто особо и не подозревал о том, что для озвучки Геральта использовался ИИ.

Первыми раскопали тему Kotaku и выпустили материал. С этой статьи начался отсчёт популярности проекта:
https://kotaku.com/witcher-3-fan-builds-a-new-quest-with-perfect-geralt-vo-1846662507
Сотрудничество с CreateTOTALLY
С этой командой мы работали над тем, чтобы создать уникальный цифровой голос для его использования в рамках озвучки аэропортов Лондона. Мы провели отличную работу, создали голос и даже начали интеграцию систем. Но, к сожалению, проект не был доведён до финала по независящим от нас причинам.
Знакомство с SAG-AFTRA
Что началось после релиза мода, догадаться несложно. Масса материалов, большое внимание к проекту, как к нашему, так и к самому моду. Сначала все восторгались тем, как у нас получилось сделать цифровой голос, потом появились и те, кто кричал о том, что ИИ отберёт работу. Кто-то даже назвал нашу технологию юридическим кошмаром. Хотя были и те, кто смотрел на вопрос здраво.

К SAG-AFTRA нас привело знакомство с Sarah Elmaneh (актриса озвучания: она озвучивала персонажей в Gears 5, Fortnite: Chapter 2, Hi-Fi Rush и многих других). Она оценила наше стремление к «легализации» технологий и представила Katie Watson, которая на тот момент занимала должность National Director, Voice Over в SAG-AFTRA.

У нас было несколько встреч, мы обсуждали детали, формулировали лучшую стратегию. Я лично презентовал SAG-AFTRA концепцию лицензирования голосов на базе технологической платформы и выплаты роялти. Так что их сотрудничество с Replica Studios – это прямое продолжение нашего общения, которое оборвалось по всем известной глобальной причине.

Как я говорил выше, одной из наших важнейших целей было создание мультиязычного синтеза речи с сохранением голоса. Мы долго работали над этой возможностью и наконец реализовали её спустя 7 месяцев работы.

Публично эта фича была показана только спустя некоторое время, так как сначала мы показывали это в рамках переговоров и презентаций. Собственно, вот то самое видео, которое мы демонстрировали (английский голос G-man, говорящий по-русски): https://www.youtube.com/watch?v=jHMTCqZVKFw

Сейчас мультиязычный синтез работает ещё лучше и без акцента вовсе (сейчас мы работаем над добавлением 12 языков).

Параллельно разработке функции переложения голоса на другие языки, мы активно общались с игровыми студиями, прорабатывали совместные пилоты. 4A GAMES, Rebellion Games, Mundfish, Exor Studios и многие другие. Это было очень крутое время. Созвоны с большим количеством участников различных подразделений, супер ценный фидбек по качеству, настройкам голоса, удобству сервиса и многим другим моментам. А с Exor Studios мы вообще сделали русскую озвучку игры RiftBraker с сохранением оригинальных голосов персонажей.

В общем очень круто и полезно. Жаль, что не получилось довести до релиза, в том числе готовые проекты.

На этом всё не закончилось: новые фичи — новые возможности. Мы запустили ещё несколько интересных коллабораций:

Cut The Crap.
Артём связался с нами в телеграме, и спросил можем ли мы помочь с голосом G-man. Мы с удовольствием откликнулись и, мне кажется, получилось прикольно. Вот это видео:
https://www.youtube.com/watch?v=X26nzPSvxc0
Доктор Гнус.
Мы связались с автором канала Рустаму Туралиеву, предложили интересный сценарий ролика и сделали цифровой голос самого Доктора Гнуса, который, кстати, отлично говорит по-английски. Рустаму респект за то, что откликнулся, и мы сделали совместное видео, которое, кстати, сейчас является одним из самых популярных на канале. Вот это видео:
https://www.youtube.com/watch?v=ySNSnAoNo98
Бизнес кейс — AVA Group
Мы сделали крутой и интересный кейс: на основании 6 голосов руководства компании создали один уникальный, который содержит в себе тембры всех, но при этом является самостоятельным голосом.
Запустили Телеграм Бота
Это удобный способ попробовать и протестировать нашу технологию в своих задачах или же просто поздравить друга интересным голосом. Бот активно растёт (в нём уже более 1000000 человек), а в нашем новостном канале уже более 320000 человек.
Бизнес кейс — RetailTECH 2023
В прошлом году мы посетили Retail TECH 2023, где презентовали наши продукты по автоматизации бизнеса и выступали с докладами. Но это не всё. SteosVoice стал официальным голосом конференции, который был «придуман» технологией специально под мероприятие без использования записей дикторов и озвучивал объявления на Форуме.
Бизнес кейс — AIIN 2023
На AIIN 2023 SteosVoice также придумал специальный голос для конференции, который озвучил вступительное открывающее видео перед главной пленарной дискуссией.
Прошли кастинг на программу Литрес: Чтец и продали первую книгу
Это отдельный крутой кейс. Комиссия не определила, что текст был озвучен ИИ, и это подтвердило то, что мы даём высококачественную озвучку. Конечно, это ещё больше вдохновило команду.

Но самое интересное, что мы полностью озвучили книгу и её начали покупать. Это было прикольно. Подробно я рассказывал об этом кейсе в отдельной статье, оставлю ссылку тут:
https://dtf.ru/gameindustry/2382241-nejroset-ot-steosvoice-proshla-kasting-po-programme-litreschtec-i-prodala-pervuyu-knigu

Так получилось, что мы поучаствовали в рождении этого мема. Именно с нашей озвучкой вышел первый ролик на канале Багирова. Как история дальше развивалась вы все знаете: тысячи роликов, миллионы просмотров — и 90% контента озвучено именно нашими голосами.

Апогеем этого мема стала игра «Русы против Ящеров». Для игры мы специально с нуля создали несколько голосов для русов и ящеров, которые приближенно похожи на голоса из мемов и помогли The Bratans озвучить игру (сразу на двух языках одинаковыми голосами). Теперь мы можем похвастаться тем, что в ТОП-20 игр Steam за 2023 год есть игра с нашей нейро-озвучкой😊

Трейлер игры

А буквально пару дней назад в игре Stalcraft начался ивент «Арена Русов», в котором также используется озвучка от SteosVoice.

Вот так мы и прошли путь от задачи создания голоса для озвучки игрового персонажа до международного проекта с более чем 1 0000 000 пользователей из 40+ стран мира.

Мы продолжаем работу над улучшением технологии и готовим новые крутые возможностями. Следить за новостями можно в нашем телеграм канале, где уже 320000 человек следят за нашими успехами.

Благодарю за внимание и приглашаю в комментарии!

От идеи озвучки умного NPC до 1 000 000 пользователей: как мы вырастили проект SteosVoice

Новые фичи

Общение с игровыми студиями

Новые интересные коллаборации

Главная тема года — мем Русы против Ящеров