Охладительная статья про DeepSeek!
Охладительная статья про DeepSeek!
178
43
21
13
1

Я хз, у меня другая инфа

В то время как OpenAI и Anthropic тратят сотни миллионов долларов на вычисления, используя огромные дата-центры и тысячи дорогих GPU, DeepSeek сумела добиться аналогичного качества всего за $5 млн.

Как им это удалось? Они пересмотрели кое-что в своём решении:
- Использование 8-битных вычислений вместо 32-битных позволило сократить потребление памяти на 75%.
- Их "мульти-токеновая" система обрабатывает сразу целые фразы, а не слова по одному, что ускоряет работу в два раза при сохранении 90% точности.
- Вместо одного монолитного ИИ DeepSeek использует "систему экспертов" – специализированные модели, активирующиеся только при необходимости. Это снижает нагрузку: вместо 1,8 трлн параметров, работающих постоянно, у DeepSeek всего 37 млрд активных в конкретный момент.

Результаты:
- Обучение обходится в 20 раз дешевле ($5 млн вместо $100 млн).
- Требуется в 50 раз меньше GPU (2 000 вместо 100 000).
- Затраты на API падают на 95%.
- Модель можно запускать даже на игровых видеокартах.

Это не просто экономия – это подрыв монополии крупных компаний. Теперь создавать мощные ИИ могут не только корпорации с миллиардными бюджетами. Более того, DeepSeek открыла свой код, сделав все свои наработки доступными для всех.
Для Nvidia это тревожный сигнал: если мощный ИИ можно запускать на обычных GPU, их сверхприбыльный бизнес по продаже дорогих видеокарт оказывается под угрозой.
DeepSeek добилась всего этого с командой менее 200 человек. В то время как Meta тратит на зарплаты больше, чем DeepSeek на всё обучение, и при этом не получает столь же качественные модели.
Это классический случай технологического прорыва: вместо того чтобы просто увеличивать мощности, DeepSeek переосмыслила сам подход. Теперь ИИ становится доступнее, конкуренция усиливается, а барьеры для входа резко снижаются. Крупные игроки вроде OpenAI и Anthropic не останутся в стороне и наверняка начнут адаптировать эти идеи, но возврата к старой стратегии "просто добавь больше GPU" уже не будет.
Поэтому акции и попадали слегонца.

Автор

Вместо одного монолитного ИИ DeepSeek использует "систему экспертов" – специализированные модели, активирующиеся только при необходимости. Это снижает нагрузку: вместо 1,8 трлн параметров, работающих постоянно, у DeepSeek всего 37 млрд активных в конкретный момент.

Этот подход используется и в GPT-4, и в других топ нейронках. Называется MoE (Mixture of Experts). Автор статьи выдаёт это как за нечто инновационное, что говорит о его уровне познания темы.