Вопрос по нейросетям

Насколько возможно на данный момент с помощью нейросетей сделать локализацию игры? Почему этим никто не занимается?

33

Ну смотри:

Перевод отдельно, дубляж отдельно, они не очень связаны.

МТ (machine translation) уже довольно много где используется, но качество готового перевода все ещё не подходит для перевода чего-то особенно объемного — в рамках игр это выражается в разном переводе имён, названий локаций, названий предметов/умений, неспособность в игры слов и каламбуры. Существует МТПЕ (machine translation post edit), когда переводчик редактирует продукт МТ, но иногда это будет занимать больше времени, чем перевод с нуля. Некоторые крупные игровые студии кстати используют МТПЕ с собственными движками.

С дубляжом чуть сложнее: нейросеть не умеет полноценно передавать эмоции, интонации и оттенки, как и специфические акценты произношения (немецкий акцент в английском будет отличаться от немецкого акцента в русском), а угрожающая интонация английского отличается от русского. В рамках песен это работает, да — есть оригинальная мелодика, интонации, которые можно использовать, но этот подход не подойдёт для монологов, диалогов с эмоциями, стонов и криков (как ГРАНАТА! в battlefield). Ну и оригинальная манера произношения все равно мелькает даже в измененных песнях, если оригинальный язык певца отличается от языка нейроголоса.

Имею отношение к сфере локализации, поэтому немного знаю эту тему.

1
Ответить

Может передавать полноценно эмоции. Но для этого модель должна быть тюнена на этих эмоциях. Условно нужен стон для порнухи - тюнить на стонах для порнухи. (на стонах оригинального владельца - результат лучше, на чужих но похожих, хуже). Плюс там по стандарту есть поле для эмбеддинг интонации/эмоции, работает через раз. Я тут писал об этом.

Про сам язык, там уже нужно с токенайзером играть. MRQ натренил себе японский, но это все равно на базе английского.

If you're transcribing English text that's already stored as separate sound files (for example, one sentence per file), there isn't much of a concern with utilizing a larger whisper model, as transcription of English is already very decent with even the smaller models.

However, if you're transcribing something non-Latin (like Japanese), or need your source sliced into segments (if you have everything in one large file), then you should consider using a larger model for better timestamping (however, the large model seems to have some problems providing accurate segmentation).

Вообще хорошо бы в tts завезли аналог Lora. База даже на один голос очень много весит сейчас со всеми оттенками.

Вообще ответ на вопрос на мой взгляд такой:
Для фанатов - очень затратно по времени (подготовка материала, чистка шума, требование по мощностям)
Для крупных студий - только одно, мало кто даст юзать так свой голос

1
Ответить