🦌🎄One Hyper-Modal Transformer can be Creative as DALL-E and Smart as CLIP
+3
Гипермодальный RuDolph может:
- Генерировать текст
- Генерировать изображения по тексту
- «Проявлять» диффузией в высоком качестве и разрешении сгенерированные изображения
- Изменять (inpainting) изображения по описанию
- Генерировать текстовые описания для изображений
- Быть Feature Extractor’ом для few-shot и linear probe классификации
- Ранжировать изображения по текстовому описанию
- Классифицировать изображения в режиме Zero-Shot
Первое практическое применение РуДольфа и гипермодальных трансформеров.
Задача предсказания КБЖУ по фотографии еды, скорее не решенная и конечно вряд ли будет решена, потому что просто нельзя предсказать, что будет внутри пирожка.
Автор ТГ канала Мишин Лернинг 🤖🎓 обучил модель в image2text, генерировать КБЖУ.
Наконец-то узнали калорийность нашего ректора
💻 Code | 📑Paper (Soon) | 🤗HuggingFace | 🤖Colab
Кидайте свои результаты в комментарии и подписывайтесь на наш Telegram-канал, там мы чаще делимся своими экспериментами и новостями.
Начать дискуссию