Провёл 30 часов в игре, которую озвучили нейросети, и делюсь впечатлениями

Поставил на Nehrim мод на английскую озвучку, сделанный с помощью сервиса ElevenLabs — играется на удивление бодро.

Картинка для привлечения внимания.<br />

В качестве краткой справки, Nehrim — это фанатская RPG 2010-го года на движке Oblivion от студии SureAI. Проект собрал толпу фанатов, многие из которых настолько прониклись игрой, что предложили студии безвозмездную помощь в разработке сиквела — во многом благодаря им Enderal получил полную и очень достойную озвучку на английском языке. Nehrim же остался с любительской немецкой.

Когда Nehrim вышел в Steam, я решил его попробовать, и об отсутствие локализации споткнулся. Во-первых, я не знаю немецкого, а потому был вынужден читать все субтитры. Во-вторых, меня очень сбивает, когда субтитры расходятся с озвучкой, а потому читать я их успевал не всегда. Как итог — моё прохождение увязло на прологе.

В мае вышел мод с полноценной английской озвучкой, в котором пару ключевых персонажей озвучили актёры-любители, а большую часть работы выполнила нейросеть ElevenLabs.io. И это всего через три месяца после того, как вышла первая бета ElevenLabs — то есть создание полной озвучки с липсинком заняло считанные недели!

С одной стороны, мне стало очень интересно посмотреть на нейросеть в боевых условиях, с другой — я посчитал, что это отличный повод снова попробовать вкатиться в игру. На этот раз пошло хорошо. Пока я не прошёл и половины, но наиграл достаточно, чтобы рассказать о впечатлениях.

Начну с того, что вопреки предубеждениям (моим), нейроозвучку едва ли можно упрекнуть за монотонность или невыразительность. Нейросеть меняет тон, расставляет акценты, делает театральные паузы, и обычно делает это уместно.

Нейросеть едва ли можно упрекнуть за безэмоциональность, скорее наоборот — за излишнюю театральность.

Более того, нейросеть более-менее адекватно озвучивает междометия вроде «ха!» или «уф», умеет издавать смех и другие звуки, лишь косвенно связанные с речью.

Вот тут нейросеть озвучила «Mpf», удивлённо хмыкнув носом. Получилось не совсем естественно, но если не вслушиваться, звучит нормально. Сказанное на одном дыхании «well good you may go» выбивается сильнее — люди так не говорят.

Вообще озвучка ИИ мне напоминает работу профессионального актёра с поставленным голосом и хорошим микрофоном, которому совершенно начихать на проект. Профессиональная честь не даёт ему откровенно халтурить, но и вникать в контекст ему не хочется — хочется побыстрее всё записать одним дублем и свалить домой.

Другая ассоциация — диктор, читающий книгу. Читающий обстоятельно, по ролям и с выражением. Вот только задачи вживаться в роли перед ним не стоит, его работа — внятно проговорить текст. Понятий «недоиграл» и «переиграл» для него не существует.

На коротких фразах дженерик NPC нейросеть вообще практически неотличима от человека.

Это может звучать как серьёзный недостаток, но, напоминаю, речь идёт о запиленной буквально за пару месяцев озвучке фанатского мода. Альтернатива — либо любительская озвучка в кустарных условиях, либо полное её отсутствие. Нейросети — не лучшее решение в принципе, но за свои деньги выглядит очень достойно.

ИИ ожидаемо не справляется с любой нестандартной ситуацией. Возьмём для примера побочку с самого начала игры: бедолага-шахтёр нашёл шлем, не придумал ничего лучше, чем напялить его на себя, и застрял. Мы приносим ему мыло для смазки, шахтёр пытается снять шлем, тужится — и при этом не прекращает разговаривать. Текстовым запросом практически невозможно объяснить, что в этот момент нужно говорить и как, особенно когда на этапе пост-обработки на половину диалога планируется наложить эффект.

Я не могу сказать, что результат звучит прям плохо, но по сравнению с оригинальной немецкой озвучкой многое потеряли. И лишь субтитры намекают на то, что речь планировалась более выразительной.

Ещё нейросеть постоянно путается в терминах, у которых нет общепринятого «правильного» произношения — имена, топонимы, названия рас. Этим даже профессиональные и всеми любимые озвучки грешат (привет русской локализации третьего Ведьмака, где dh’oine разные персонажи произносят то как «тхойне», то как «дэ-ине»), но нейросеть умудряется читать имена по-разному даже в рамках одного диалога!

В двух соседних репликах одного и того же Naratzul Arantheal нейросеть называет сначала Наратцул Арантеал, потом Нэрацул Арантиил. А это, на секундочку, основатель ордена, в котором служит этот NPC, ему памятники ставят.

И есть ситуации, когда эмоциональности всё же не хватает. Нейросеть умеет повышать голос, звучать раздражённо и агрессивно, но не умеет, например, истерически кричать до срыва голоса — а иногда это уместно. Мне, например, запал в память крик ноунейм-бандитки из Эндерала после того, как я убил её напарника: «He was my friend, I'll GUT you for this!». Из нейромода пока ни один персонаж не запомнился озвучкой — и вряд ли запомнится, изюминки нет ни у одного.

Озвучка в напряжённые и эмоциональные моменты, вроде боя, обычно оставляет желать лучшего. Хотя всратой боёвке Обливиона в каком-то смысле даже подходит.

Несмотря на относительную новизну технологии, я не думаю, что косяки связаны с её недоработками. Скорее сам формат «озвучка под ключ по текстовому запросу» накладывает слишком много ограничений. Всё-таки озвучивание — это процесс творческий: актёр вживается в персонажа, отражает своё видение ситуации, присыпает своим жизненным опытом. С ним в диалоге находится режиссёр, который направляет его к желаемому результату. Чтобы всё это автоматизировать, одного синтезатора речи, каким бы хорошим он ни был, мало.

Поэтому я не думаю, что индустрии дубляжа что-либо угрожает. Я вполне вижу будущее у аудиотрасформаторов, меняющих голос на уже записанной аудиодорожке с сохранением выражения — по аналогии с DeepFake, который меняет видео с живыми людьми, но не генерирует их с нуля. Если они взлетят, процесс озвучки изменится, но я не вижу предпосылок к тому, чтобы потребность в живых актёрах исчезла совсем.

Зато маленькие инди-студии и мододелы получили возможности, которых у них отродясь не было. При всех недостатках нейроозвучки, Nehrim оказался не просто играбельным — для меня он стал в сотню раз иммерсивнее, чем был с оригинальной немецкой озвучкой, хотя бы потому, что мне больше не приходится всё время отвлекаться на чтение субтитров.

И ведь это только вершина айсберга. С такими синтезаторами речи мододелы смогут дополнять игры новыми квестами, или вообще расширять уже существующие диалоги, и это будет выбиваться куда слабее, чем любительская доозвучка другими голосами или субтитры без озвучки.

Я доволен — и я уже предвкушаю, к чему развитие и распространение этой технологии может привести.

#sureai #nehrim #моды #нейросети #elevenlabs

Провёл 30 часов в игре, которую озвучили нейросети, и делюсь впечатлениями

Хорошести

Косяки

Финальные мысли