Раньше сталкивался с этой системой только в текстовых GPT моделях, так что глубоко в тему не погружался. Но судя по отзывам сжатая модель занимает четверть от исходной при этом качество остается примерно тем-же (может чуть хуже). Т.е. теоретически можно спокойно запускать Flux на слабых машинах, но сам еще не пробовал.
Вчера дошли руки опробовать, работает хорошо. Взял Q4, время на моей RTX 4070 сократилось с 2х минут до 40 секунд. Жаль, что долго, конечно. Но, может, pytorch 2.4 на 30хх завезут, там, говорят, 10% ускорение.
Потребление оперативной памяти также снизилось, перестало выжирать диск файлом подкачки.
Опечатался, RTX 3070 у меня. Подумал о прекрасном и написал неверно :)