Что такое DeepSeek и почему Nvidia больно + UDP 30.01
Что такое DeepSeek и почему Nvidia больно + UDP 30.01
7
99
11

Кста, а если нужно 200 видях, то как люди умудряются запустить такую модель на одной? Или это 200 для обучения?

Я посмотрел - там еще дистиллированные модели в наборе. Это специальный подход к оптимизации модели, который позволяет создать значительно меньшую (и гораздо менее требовательную) копию оригинальной модели с небольшим снижением точности.

1

Они выпустили модели разных размеров. Вроде как самую маленькую можно даже на ноутбуке запустить.