Возможно достали уже новости про данную нейросеть, но опыт показался интересным. Запускал модель с 32 миллиардами параметров, так как следующая уже не взлетает даже на multigpu кластере с 80гб видеопамяти.
Насколько он хорош по контексту? До этого юзал llama 3.2, тот вспоминал контекст и подшучивал про предыдущие обсуждения в общем контексте даже спустя десятки обсуждений. deepseek мне утверждал, что контекст у него 2048 токенов, но не очень верится, так как он тоже упоминает контекст сообщений, которые были десятки сообщений назад. И достаточно гибкий, когда я попросил его выводить вероятность ошибки его ответа, он мне ее выводил достаточно достоверно.
Я пользуюсь Hermes 3 на 70B на 4090
Насколько он хорош по контексту? До этого юзал llama 3.2, тот вспоминал контекст и подшучивал про предыдущие обсуждения в общем контексте даже спустя десятки обсуждений. deepseek мне утверждал, что контекст у него 2048 токенов, но не очень верится, так как он тоже упоминает контекст сообщений, которые были десятки сообщений назад. И достаточно гибкий, когда я попросил его выводить вероятность ошибки его ответа, он мне ее выводил достаточно достоверно.
3Q?