Alibaba представила Qwen 2.5-Omni-7B — мультимодальную модель с открытым кодом

Она распознаёт текст, изображения, аудио и видео, а также отвечает текстом и голосом.

  • Компания заявляет, что модель можно запустить на смартфонах и ноутбуках.
  • Qwen2.5-Omni-7B на 7 млрд параметров. Она предназначена для разработки «гибких ИИ-агентов», особенно в сфере голосовых приложений.
  • Модель могла бы составлять аудиоописания окружения для людей с нарушением зрения, давать подсказки во время готовки, анализируя ингредиенты на видео, стать основой сервиса клиентской поддержки и не только.
  • Модель уже доступна для разработчиков на Hugging Face, GitHub, ModelScope, а также её добавят в Qwen Chat.
Alibaba представила Qwen 2.5-Omni-7B — мультимодальную модель с открытым кодом
  • 24 февраля 2025 года Alibaba заявила, что инвестирует более 52 миллиарда долларов в создание облачных платформ и ИИ-инфраструктуры.
  • Alibaba представила Qwen2.5 в сентябре 2024 года, в январе 2025 — модель Qwen 2.5-Max.
  • 6 марта 2025-го компания выпустила QwQ-32B. В некоторых тестах она превзошла o1-mini от Open AI и приблизилась к результатам DeepSeek-R1, хотя не смогла обойти её в тестах на программирование.
53
9
5
3
1
102 комментария