Вероятно вы уже слышали про успехи нейросетей в генерации картинок по текстовому описанию. Я взял за основу модель Stable Diffusion и несколько популярных мобильных игр. Вот что из этого вышло. +1
Сколько по времени ушло на обучение, и на каком конфиге? Планирую пока новый ssd брать ибо чужие модели уже под 100 где то весят.
Жаль https://replicate.com/andreasjansson/stable-diffusion-animation и подобные пока не выдает вменяемых результатов.
1 час, если не считать подготовку данных
6 vCPU
87 ГБ RAM
1 × A100 40 ГБ GPU
SSD диск 150 ГБ
Есть вариант обучать на маленьком объеме памяти https://github.com/d8ahazard/sd_dreambooth_extension