Исследователи обнаружили фундаментальную ошибку в алгоритмах Stable Diffusion⁠⁠

Недавно была опубликована статья, которая исследует шумовой график и шаги выборки, используемые в моделях Stable Diffusion. Авторы обнаружили, что существующие дизайны приводят к тому, что изображения всегда имеют одинаковую среднюю яркость. Однако после исправления этой проблемы, модель может генерировать более яркие и темные изображения, что делает их более кинематографичными.

Исследователи обнаружили фундаментальную ошибку в алгоритмах Stable Diffusion⁠⁠

Авторы статьи обнаружили, что распространенные шумовые графики не обеспечивают нулевой отношение сигнал/шум (SNR) на последнем шаге, а некоторые реализации выборки диффузии не начинаются с последнего шага. Эти дизайны не отражают тот факт, что модели на вход подается чистый гауссовский шум при выводе, что создает расхождение между обучением и выводом. Авторы показывают, что такой дизайн вызывает реальные проблемы в существующих реализациях.

Они предлагают несколько простых исправлений, которые позволяют модели генерировать выборки, более точно соответствующие исходному распределению данных. Эти простые изменения обеспечивают согласованность процесса диффузии между обучением и выводом и позволяют модели генерировать выборки с более яркими и темными изображениями. В целом, это открывает новые возможности для улучшения моделей и генерации более качественных изображений. Так что ждем новые семплеры или модели, которую будут поддерживать эти изменения.

Подпишитесь на мой телеграм канал, чтобы быть в курсе всех нейро-новостей.

22
2 комментария

Старое. На цивитаи уже давно лежит модель и лора с этим фиксом

1
Ответить

Да нет, там был офсет, тут другое)

Ответить