🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

Встречайте, RuDOLPH! Текстово-визуальный гипермодальный GPT-3 (350M), сочетающий в себе генеративные возможности текстового GPT-3 и текст-картиночного DALL-E с Reranking & Zero-Shot способностями CLIP

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

Гипермодальный RuDolph может:

Генерировать текст
Генерировать изображения по тексту
«Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
Изменять (inpainting) изображения по описанию
Генерировать текстовые описания для изображений
Быть Feature Extractor’ом для few-shot и linear probe классификации
Ранжировать изображения по текстовому описанию
Классифицировать изображения в режиме Zero-Shot

Первое практическое применение РуДольфа и гипермодальных трансформеров.

Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.
Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ.

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

Наконец-то узнали калорийность нашего ректора

🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP

💻 Code | 📑Paper (Soon) | 🤗HuggingFace | 🤖Colab

Кидайте свои результаты в комментарии и подписывайтесь на наш Telegram-канал, там мы чаще делимся своими экспериментами и новостями.

2

Начать дискуссию