DeepSeek представила «улучшенную» модель VL2 для распознавания информации на изображениях

Она может искать и размечать объекты на фотографиях.

  • Компания выпустила серию моделей DeepSeek-VL2, созданных по принципу Mixture of Experts (MoE) или «смеси экспертов» — объединения нескольких нейросетей для решения комплексных задач.
  • Это модели DeepSeek-VL2-Tiny, DeepSeek-VL2-Small и DeepSeek-VL2 на 1 млрд, 2,8 млрд и 4,5 млрд параметров соответственно. Они «превосходят» предыдущую DeepSeek-VL.
  • По словам разработчиков, VL2 понимает и объясняет содержание документов, таблиц и диаграмм, а также предлагает рецепты по фотографиям продуктов. Ещё она распознаёт письменный текст и может его напечатать, пишут пользователи.
DeepSeek-VL2 объясняет все блоки схемы на изображении. Источник: AmigoChat
  • Модели можно показать объект, и она найдёт похожий на другом изображении.
Эталонное изображение кота и фотография, на которой нужно обвести такой же объект. Скриншот vc.ru 
Эталонное изображение кота и фотография, на которой нужно обвести такой же объект. Скриншот vc.ru 
Модель попыталась обвести кота на втором снимке. Скриншот vc.ru 
Модель попыталась обвести кота на втором снимке. Скриншот vc.ru 

Ещё несколько примеров

DeepSeek-VL2 описала, что происходит на фотографии, но не написала, что автомобиль нарушает правила, проезжая на красный. Скриншот vc.ru 
DeepSeek-VL2 описала, что происходит на фотографии, но не написала, что автомобиль нарушает правила, проезжая на красный. Скриншот vc.ru 
Модель попробовала объяснить значение мема. Скриншот vc.ru 
Модель попробовала объяснить значение мема. Скриншот vc.ru 
  • DeepSeek-VL2 пока не добавили в чат-бот, она доступна в бесплатной демоверсии на Hugging Face.
  • В декабре 2024 года Alibaba выпустила модель QvQ-72B для анализа графиков и таблиц. А в январе 2025-го — Qwen 2.5-VL для разметки объектов на изображении. Они доступны в чат-боте Qwen Chat.
  • OpenAI обучила ChatGPT распознавать изображения в 2023 году.
99
14
6
1
9
4
174 комментария

Робот смог написать симфонию

83
41
36

Поздравляю, он тебе хотя бы написал, а не "server is busy"

13
1

Создание симфонии — это сложный и многогранный процесс, который требует глубоких знаний в области музыки, композиции и оркестровки. Я могу предложить вам общий план или концепцию для симфонии, а также помочь с описанием её частей или идей. Вот пример того, как можно подойти к созданию симфонии:

—-

### Концепция симфонии: **"Путешествие сквозь время"**

#### Часть 1: **Рассвет (Allegro maestoso)**
- **Тональность:** До мажор (C major) — символизирует начало, свет и надежду.
- **Характер:** Торжественный, энергичный, с постепенным нарастанием.
- **Основная тема:** Мелодия, которая начинается с простого мотива, символизирующего зарождение жизни или идеи. Постепенно тема развивается, добавляются новые инструменты, создавая ощущение роста и движения вперёд.
- **Оркестровка:** Струнные задают основной ритм, деревянные духовые добавляют лёгкость, а медные подчёркивают мощь и величие.

#### Часть 2: **Борьба и сомнения (Andante con moto)**
- **Тональность:** Ля минор (A minor) — передаёт напряжение и драматизм.
- **Характер:** Медленная, но напряжённая, с контрастами между спокойными и тревожными моментами.
- **Основная тема:** Диалог между виолончелями и гобоями, символизирующий внутреннюю борьбу. Постепенно тема переходит в более хаотичные пассажи, где все инструменты словно спорят друг с другом.
- **Кульминация:** Мощный диссонанс, который разрешается в тихую, печальную мелодию.

#### Часть 3: **Пробуждение (Scherzo: Vivace)**
- **Тональность:** Соль мажор (G major) — лёгкость и радость.
- **Характер:** Живой, игривый, с элементами танца.
- **Основная тема:** Быстрая, ритмичная мелодия, которая передаёт ощущение движения и энергии. Возможно использование народных мотивов или элементов польки.
- **Оркестровка:** Активное использование деревянных духовых и струнных, с акцентами от литавр и малого барабана.

#### Часть 4: **Торжество и завершение (Finale: Allegro con fuoco)**
- **Тональность:** До мажор (C major) — возвращение к началу, но с новым смыслом.
- **Характер:** Мощный, торжественный, с ощущением завершённости.
- **Основная тема:** Развитие темы из первой части, но теперь она звучит более уверенно и масштабно. Добавляются контрапунктические элементы, где разные группы инструментов играют свои вариации темы.
- **Финал:** Грандиозная кода, где все инструменты объединяются в мощном, ликующим аккорде, символизирующем победу и достижение цели.

—-

Если вы хотите, я могу помочь с более детальной проработкой каждой части, написанием нот или текстовым описанием музыкальных тем. Дайте знать, как вам лучше подойти к этому процессу! 🎵

6
2

Грустные китайцы сейчас смотрят на миллиард загруженных фоток площади Тяньаньмэнь.

110
1
1
1