Для тех, кому интересно - я взял готовые рендеры, сунул в img2img, взял модель JuggernautXL, выставил денойз в районе 0.55 - 0.70. Затем подрубил controlnet с препроцессором depth (midas, zoe, anything - в заисимости от композиции), а модель депта использовал везде одну и ту же - sai_xl_depth_256lora