Существует другой метод «переноса знаний» большой качественной модели на модель поменьше — дистилляция. Модель‑ученик учится предсказывать не только следующий токен, который является результатом предсказания модели после применения софтмакс к значениям последнего слоя, но и промежуточные значения — логиты, еще до их преобразования в вероятности с помощью софтмакс. DeepSeek создали несколько моделей путем дистилляции из R1, размера 1.5B, 7B, 8B, 14B, 32B, 70B, на базе Llama и Qwen. Результат, на мой взгляд, ошеломляющий — даже 1.5 версия Qwen, полученная таким путем — DeepSeek‑R1-Distill‑Qwen-1.5B — существенно опередила GPT-4o и Claude-3.5 Sonnet на математическом бенчмарке AIME 2024, требующем от модели способности рассуждать последовательно.
Мой любимый ассистент
как там его, dick pic