Meta опубликовала новые модели семейства Llama: Llama 4

Три дня назад Meta выпустила три (две доступны) новые модели из популярного семейства LLaMA.

В отличии от предыдущих, все новые модели используют архитектуру MoE (Mixture of Experts) и довольно большие:

Самая маленькая модель - 17 миллиардов активных параметров при полном размере в 109 миллиардов параметров, 16 экспертов.

Размер контекста: 10 миллионов токенов

Это первая и единственная открытая модель с таким размером контекстного окна.

huggingface.co

meta-llama/Llama-4-Scout-17B-16E-Instruct · Hugging Face

Средняя модель - 17 миллиардов активных параметров при полном размере в 400 миллиардов параметров, 128 экспертов.

Размер контекста: 1 миллион токенов

huggingface.co

meta-llama/Llama-4-Maverick-17B-128E-Instruct · Hugging Face

Огромнейшая модель - 288 миллиардов активных параметров при полном размере в 2 триллиона параметров, 16 экспертов.

Размер контекста: пока не известен

Тренировка модели еще не закончена, модель только анонсирована. Сама Meta утверждает, что эта модель сможет конкурировать с ChatGPT 4.5.

Серьезный ответ на DeepSeek R1, однако как и в случае с дипсиком, локально запустить такие модели на обычном потребительском железе нереально из-за совершенно безумных требований к RAM и VRAM.

Если говорить про простых смертных, то хотя две первые модели и доступны для скачивания, но даже с сильным квантованием (Q3, Q2, Q1) требуется очень много оперативки или VRAM для запуска. Даже в RTX 5090 скорее всего влезет максимум Q1-ужатая версия модели. А для использования более приличных уровней квантования, нужно идти на компромисс и загружать на GPU лишь часть слоев, а остальное придется процессить на CPU с соответствующим падением скорости генерации ответов.

Я скачал модель LLaMA 4 Scout в формате GGUF и уровнем квантования Q3_K_L.

На моем игровом ПК с несчастной RTX 4070ti нет даже надежды запустить столь жирную модель, поэтому взял Mac Studio на базе старенького, но все еще мощного M1 Ultra с 64Гб объединенной памяти. После небольшого курения мануалов, удалось выделить для GPU больше стандартного объема памяти (примерно 40Гб) - 62Гб. И вот в такой конфигурации уже удалось запустить.

Разумеется, даже в такой конфигурации VRAM все равно не хватило что бы полностью загрузить модель и пришлось подбирать кол-во слоев, которые надо оставить на CPU. Что бы не заполнить VRAM на 100%, загрузил туда только 34 слоя нейронки, а остальное оставил на CPU.

Скорость генерации ответов колеблется от: 13 т/с до 17 т/c. Это немного, но особого дискомфорта не вызывает, по крайней мере поиграться можно.

К сожалению, сейчас рантайм llama.cpp поддерживает только текстовый режим для llama 4, хотя сами модели мультимодальные. Так же есть проблемы с большим размером контекста - похоже ни один рантайм его еще не поддерживает, по крайней мере попытки установить 1 млн токенов в настройках модели приводят к ошибке при ее загрузке.

Немного поигрался с вопросами. Не могу сказать, что модель стала заметно умнее в плане аналитических способностей, но в ней более свежие данные и их больше, то есть модель скорее всего сможет ответить что-то разумное на вопросы по бОльшему количеству областей знаний.

Модель не тренирована на режим "размышлений", что явно будет ограничивать ее способности обрабатывать сложные ответы.

Пока что первое впечатление такое: это модели для того, что бы небольшие и средние компании могли их дотюнить под свои нужды и получить свой бесплатный аналог ChatGPT 4o.

Модель рассказывает про свою архитектуру

#ии #meta #llama #llama4 #llama.cpp

Meta опубликовала новые модели семейства Llama: Llama 4

LLaMA 4 Scout

LLaMA 4 Maverick

LLaMA 4 Behemoth