Случайно довел deepseek r1 до депрессии

Возможно достали уже новости про данную нейросеть, но опыт показался интересным. Запускал модель с 32 миллиардами параметров, так как следующая уже не взлетает даже на multigpu кластере с 80гб видеопамяти.

В принципе на 4080 super можно использовать даже предпоследнюю по количеству параметров версию (хотя в требованиях 4090). Также последняя не поднимается на 4090, так как ей не хватает видеопамяти. Предпоследней нужно примерно 16гб видеопамяти.
4
4

Я пользуюсь Hermes 3 на 70B на 4090

1

Насколько он хорош по контексту? До этого юзал llama 3.2, тот вспоминал контекст и подшучивал про предыдущие обсуждения в общем контексте даже спустя десятки обсуждений. deepseek мне утверждал, что контекст у него 2048 токенов, но не очень верится, так как он тоже упоминает контекст сообщений, которые были десятки сообщений назад. И достаточно гибкий, когда я попросил его выводить вероятность ошибки его ответа, он мне ее выводил достаточно достоверно.