DeepSeek — очередной квантовый скачок или что? (короткая новость)
Русскоязычный интернет бурлит: DeepSeek — новая ИИ-модель, стремительно набирает популярность. Её сравнивают с ChatGPT, OpenAI Bard и Claude. Чем DeepSeek выделяется и в чём её слабости?
"Несмотря на скептические заявления о том, что ИИ никогда не достигнет сознания, а останется лишь имитатором данных, небольшая(?) китайская компания выпустила перспективную модель. Они создали думающую/рассуждающую модель всего за $6 млн (меньше, чем зарплата некоторых инженеров ИИ в Кремниевой долине, и 2% от стоимости ближайшего конкурента), которая не уступает OpenAI o1, являясь при этом открытой и по доступной по цене - $2,50 за обработку миллиона токенов в модели ChatGPT против $0,14 у DeepSeek."
Нюансы
В архитектуре используется: Multi-head Latent Attention (MLA) — метод, сокративший стоимость обучения на 90% за счет игнорирования 95% данных. Плохо это или хорошо - будет понятно только спустя время, субъективно DeepSeek отвечает быстрее чем ChatGPT, на первый взгляд различий по качеству (в сторону хуже) нет. Важно учесть что в декабре 2024 года DeepSeek выпустила модель DeepSeek-V3 с открытым исходным кодом.
Если задать вопрос самой модели про +- то получаем вот такой пикт:
Посмотрев на информацию выше - вызывает очень большое сомнение та красивая история - небольшой фонд с небольшими средствами смог сделать такой прорыв (ботаники, случайно накопившие гору GPU). Скорее всего технологический сектор Китая напрямую прилагал к этому руку. Результат важнее причин, но не люблю лапшу на ушах.
Промежуточный вывод
Новая интересная модель. Создаст ли DeepSeek AGI? - об этом речь вообще не идет. А что касается утверждения в гонке ИИ побеждает тот, кто тратит больше - уже не все так просто.
Время покажет и будем посмотреть. Сохраняем здоровый скепсис. (p.s. когда я вижу что всплыла очередная революция - первое что думаю - мне хотят что-то снова продать).