Все что нужно знать про модели stable diffusion. Часть 1
Шедевральная обложка
5858

лучше всего себя зарекомендовали версии 1.4 и 1.5

— Нет (особенно 1.4 — по сути первая публичная версия с кучей багов). Просто 1.5 это более распространенный формат, потому что…

Обе линейки тренировались по разному (датасет, разрешение, количество шагов). Насколько я знаю, для второй линейки датасет фильтровали более консервативно: там получилось меньше nsfw, меньше качественных фото, меньше крутых артов и тд.

— Но нет. Не вводите людей в заблуждение — просто прочитайте, что происходило в момент релиза и чем завершилось. Кратко: в 2.0 по ошибке срезали слишком много, в 2.1 быстро все вырезанное вернули. Но в 2.x также поменяли модель обработки запросов и более корректно распределили ключевые слова (не стало такой сильной привязки к некоторым конкретным художникам и стилям, и вообще ключевые слова в запросах стали работать иначе). С 2.x двачеры, вопящие про вырезку nsfw из новой версии, работать не смогли — мозгов не хватило, видимо — поэтому больше моделей делают на базе 1.5. А еще это просто дешевле и быстрее.

1. По первому пункту, честно не понял. Из первых версий лучше 1.4 и 1.5, с чем ты, как я понял вполне согласен. Но считаешь вторую версию в принципе лучше первой (или нет?), что не отменяет того, что в первой ветке лучше всех 1.4 и 1.5
2. Я свечку не держал, поэтому сказать как на самом деле не могу.
Из того что пишут сами stability так и получается, что 2-base они сильно обрезали по датасету, а 2.1-base продолжили в нормальном варианте. Но объем тренировки на "плохом" датасете и на "хорошем", к сожалению не в пользу "хорошего". И получается что никого я тут в заблуждение не ввожу (приложил картинку)
Unstable написали про то что вторая версия хуже (в некотором смысле могу понять их выгоду говорить плохо про вторую версию, потому что там nsfw хуже) https://docs.google.com/document/d/1CDB1CRnE_9uGprkafJ3uD4bnmYumQq3qCX_izfm_SaQ/edit#
на реддите это тоже обсуждалось https://www.reddit.com/r/StableDiffusion/comments/z5v4nz/this_sub_right_now/
Что касается текстовых моделей, в статье это упомянул, но не углублялся. Что лучше openai'вский CLIP или OpenCLIP - хз. Я думаю, что большинству в общем все равно и если бы вторая версия делала лучше - то на нее бы и перешли, но необязательно, потому что если все уже привыкли к 1.x и есть куча наработок, то для того чтобы всем перейти на 2.x должны быть веские причины. А таких не оказалось
Если подкинешь ссылок почитать - буду только рад