Тестируем IPAdapter от Midjorney
1. Самый простой случай. В качестве референсов взят пейзаж и персонаж.
2. Усложним задачу, взяв в качестве "персонажа" автомобиль, референс с полем остается прежним
3. Еще усложним задачу, взяв в качестве персонажей и автомобиль и поле
Теперь проведем тот-же эксперимент с настоящим IP адаптером и моделью SDXL
Не идеально, но тоже работает (в принципе можно достаточно сильно исправить ситуацию используя другие модели контролнет и поиграв с праметрами, в данном случае это был просто тест что бы посмотреть может модель делать что-то подобное или нет)
Безусловно, оптимальным с точки зрения производительности и качества будет гибридный метод. Когда вы генерируете исходные изображения в нейросетях "высокого уровня" и потом объединеете их в вашей домашней нейросетевой кухне (сочетая таким образом контроль который дают модели с открытым кодом, с качеством закрытых нейросетевых моделей).
P.S. Если интересует тема, обязательно ознакомтесь с возможностями IP адапетеров (как коммерческих так и бесплатных из "контролнет"). Это мощнейщий инстументарий для преобразования изображений, который может гораздо больше чем я тут показал.