Meta опубликовала новые модели семейства Llama: Llama 4
Три дня назад Meta выпустила три (две доступны) новые модели из популярного семейства LLaMA.
В отличии от предыдущих, все новые модели используют архитектуру MoE (Mixture of Experts) и довольно большие:
LLaMA 4 Scout
Самая маленькая модель - 17 миллиардов активных параметров при полном размере в 109 миллиардов параметров, 16 экспертов.
Размер контекста: 10 миллионов токенов
Это первая и единственная открытая модель с таким размером контекстного окна.
LLaMA 4 Maverick
Средняя модель - 17 миллиардов активных параметров при полном размере в 400 миллиардов параметров, 128 экспертов.
Размер контекста: 1 миллион токенов
LLaMA 4 Behemoth
Огромнейшая модель - 288 миллиардов активных параметров при полном размере в 2 триллиона параметров, 16 экспертов.
Размер контекста: пока не известен
Тренировка модели еще не закончена, модель только анонсирована. Сама Meta утверждает, что эта модель сможет конкурировать с ChatGPT 4.5.
Серьезный ответ на DeepSeek R1, однако как и в случае с дипсиком, локально запустить такие модели на обычном потребительском железе нереально из-за совершенно безумных требований к RAM и VRAM.
Если говорить про простых смертных, то хотя две первые модели и доступны для скачивания, но даже с сильным квантованием (Q3, Q2, Q1) требуется очень много оперативки или VRAM для запуска. Даже в RTX 5090 скорее всего влезет максимум Q1-ужатая версия модели. А для использования более приличных уровней квантования, нужно идти на компромисс и загружать на GPU лишь часть слоев, а остальное придется процессить на CPU с соответствующим падением скорости генерации ответов.
Я скачал модель LLaMA 4 Scout в формате GGUF и уровнем квантования Q3_K_L.
На моем игровом ПК с несчастной RTX 4070ti нет даже надежды запустить столь жирную модель, поэтому взял Mac Studio на базе старенького, но все еще мощного M1 Ultra с 64Гб объединенной памяти. После небольшого курения мануалов, удалось выделить для GPU больше стандартного объема памяти (примерно 40Гб) - 62Гб. И вот в такой конфигурации уже удалось запустить.
Разумеется, даже в такой конфигурации VRAM все равно не хватило что бы полностью загрузить модель и пришлось подбирать кол-во слоев, которые надо оставить на CPU. Что бы не заполнить VRAM на 100%, загрузил туда только 34 слоя нейронки, а остальное оставил на CPU.
Скорость генерации ответов колеблется от: 13 т/с до 17 т/c. Это немного, но особого дискомфорта не вызывает, по крайней мере поиграться можно.
К сожалению, сейчас рантайм llama.cpp поддерживает только текстовый режим для llama 4, хотя сами модели мультимодальные. Так же есть проблемы с большим размером контекста - похоже ни один рантайм его еще не поддерживает, по крайней мере попытки установить 1 млн токенов в настройках модели приводят к ошибке при ее загрузке.
Немного поигрался с вопросами. Не могу сказать, что модель стала заметно умнее в плане аналитических способностей, но в ней более свежие данные и их больше, то есть модель скорее всего сможет ответить что-то разумное на вопросы по бОльшему количеству областей знаний.
Модель не тренирована на режим "размышлений", что явно будет ограничивать ее способности обрабатывать сложные ответы.
Пока что первое впечатление такое: это модели для того, что бы небольшие и средние компании могли их дотюнить под свои нужды и получить свой бесплатный аналог ChatGPT 4o.