Работает данная технология с помощью ruGPT-3 от Сбера и системы описания изображений, основанной на CLIP и GPT-2. ruGPT-3 и GPT-2 — это нейронные сети, способные генерировать текст на основе входного. CLIP — это нейронная сеть, связывающая изображения и текст.