Три вопроса по TTS. Может кто сталкивался
Если кратко, решил попробовать TTS от neonbjb, позже перешел на mrq.
Что имею на данный момент:
500 epoch, lr 00000.1, датасет на 500 мб это ~ 1400 семплов длинной от 2 - до 11,5 секунд. Семплы студийные (VO - DAO DAI).
В целом даже при довольно небольшой базе, результат на выходе очень хорош.
1. Просодия
Явно не хватает возможности задать тон (не говорю уже про резкую смену тона в одной и той же генерации). Да есть, правки промтом аля ""[Sad\Happy\Angry\Подставь_совое,] text.", но работает очень не точно (тут опять тоже не очень понятно откуда модель берет emotion, и как эту настройку до обучить).
Вроде как можно применить prosody transfer method(если я все правильно понял можно извлечь саму "тональность"?), но толкового материала как именно не нашел. GTP 3.5 - 4 тоже плавает в этом вопросе.
Пока для себя пришел к таким костылям: тона лучше разбивать на несколько сетов и тренить отдельно, либо "файнтюнить" уже обученную модель на конкретных семплах для каждого тона. При генерации опять же использовать конкретную модель. Можно еще глубже "рефайнить" на семплах с нужным тоном\звуками.
2. Звуки
В целом, как хорошо не клонировался бы голос, очень сложно заставить выдавать верный звук с правильной интонацией.
Как пример: "Mmm, what is the best approach for fine-tuning a pre-trained text-to-speech model for a new speaker's voice?" Будет очень большой проблемой сгенерировать звук "Ммм". А ну или самый банальный пример, как промтом описать звук вздоха?
Решение, при очистке семплов вырезать данные звуки и на основе них формировать новый сет, который накатывается поверх основной модели. Долго, но где то из 12 кандидатов обычно один содержит нужный звук. Дальше в редактор и сводить семплы.
Возможно через Tokenizer Vocab?
3. Сам датасет и его очистка.
Я столько за всю жизнь в Tenacity не работал, сколько за последнюю неделю.
Как оперировать с базами в 10-20 гигабайт? Ведь в идеале все должно быть вычищено и разбито. Опять же где брать качественные семплы в таких количествах? То, с чем я вожусь сейчас - студийные записи. Если взять такой же датасет не из студии... я представить даже боюсь сколько там будет мусорного шума.
Сумбурненько, но может кто сталкивался.