Мои поиски умной локальной языковой модели

Я как-то пост делал с вопросом, а че, какие вообще есть локальные нейронки. Думал, что мне чатаГПТ и клауда хватит, но тут понадобилось перевести мод для ДД2, в результате чего я потратил у клауда все запросы на день. Поэтому решил, что локальный чатГПТ будет не лишним.

И тут я вспомнил, что где-то видел новость про универсальную прогу для нейронок. Погуглив - это оказалась LM Studios.

Примечание: в LM Studio представлены только языковые модели и модели, способные анализировать фотографии. Там нет SD или любой другой модели для генерации картинок.

А теперь поговорим о том, как я решил определять умность модели. Банально - сможет ли она по инструкции сделать перевод мода, о котором писал выше. Если что, сам мод вот:

Там же есть раздел с инструкцией, как делать перевод. Собственно, эту инструкцию без редактирования я и скармливал моделям. Тут очень хорошо можно проверить, как модель способно вычленять суть из инструкции и следовать ей.

Второй тест - следование системному промту. Сам промт:

Ты - переводчик. Твоя задача - дать в ответ переведенный текст на указанный язык и ничего более. Я буду отправлять тебе запросы в следующем виде: <язык>, <стиль>: <текст> Ты должен перевести <текст> на выбранный <язык> в выбранном <стиле>. Если <стиль> отсутствует - используй не формальный стиль. Если <текст> уже написан на указанном <языке>, выведи в ответ сообщение "Похоже,ваше предложение уже написано на <языке>. Возможно, вы имели в виду другой язык?". Получив в ответ сообщение, в котором содержится новый <язык>, переведи <текст> на этот новый <язык>. Помни, твой ответ должен содержать только переведенный <текст> Если мой запрос не содержит просьбу сделать перевод предложения текста или слова на другой язык, напиши "Вы используете не тот профиль чата".

По этому тесту никаких примеров и дополнительных комментариев не будет, ибо нахуя? Выдает в ответ только переведенный текст - заебись. Сообщение об ошибках пишет слово в слово - заебись. Нет - хуета.

Характеристики ПК:

  • ОС: Линукс
  • GPU: Radeon RX 7900XTX (24 GB VRAM)
  • CPU: Ryzen 7800X3D
  • RAM: 32 GB DDR5 6400@32
  • Двигло: ROCm (с вулканом разницы не увидел)

Примечание: в ходе этого мидл-лога я буду употреблять понятие "уметь думать". Сделать это можно с помощью системного промта: You are a world-class AI system, capable of complex reasoning and reflection. Reason through the query inside <thinking> tags, and then provide your final response inside <output> tags. If you detect that you made a mistake in your reasoning at any point, correct yourself inside <reflection> tags. Этот промт заставляет модель думать шаг за шагом и получается эмуляция размышления. Обычно, такая вводная может помочь более точно отвечать на вопросы, а так же заставлять ИИ не придумывать ответ как обычно, а разобраться в вопросе. Иногда этот промт может все сломать, ведь некоторые модели уже могут быть затюнены под то, чтоб размышлять, но не выводить эти размышления пользователю

Вообще, пара слов о том, какой должен быть ПК для запуска нейронок локально. Все упирается в первую очередь в видеопамять. Чем больше - тем более лучшие нейронки вам доступны. Если видеопамяти не хватает - будет использоваться оперативка. Оперативка так же нужна для увеличения контекста, поэтому имейте в виду. В идеале много должно быть и того и другого. Либо можно использовать версии с более большим сжатием (чем меньше цифра после Q, тем больше сжатие и ниже точность).

1. Gemma 2.5 (Квантование Q5)

Плюсы:

  • Следит за контекстом, способна вычленять важную информацию из текста
  • Хорошо следует указанным в системном промте правилам, что упрощает создание специализированных прессетов для чатов.
  • Может использовать эмоджи сама по себе.
  • Лаконична, не выводит слишком много текста на ответ.
  • Малый вес. В зависимости от квантования (это сжатие с потерями качества языковых моделей) весит от 12,5 ГБ до 29 ГБ.
  • Быстрая. На 7900ХТХ скорость генерации текста составляет от 20 токенов/с до 30 токенов/с в зависимости от заполненности контекста

Минусы:

  • Полностью игнорирует размышление, всегда будет стремиться угадать (и нет, у нее нет скрытого от пользователя размышления, она просто игнорирует системный промт на подумать и угадывает)
  • Малый контекст - всего 8129 токена. Для большой работы, или долго общения не годится.

Не буду томить, лучшим оказалась нейронка от гугл. Хоть она и не может мыслить, как другие, для ответа на вопрос, сколько букв в слове или какая десятичная дробь больше, Гемма прекрасно справилась с переводом модификацииМой последний запрос:

Мои поиски умной локальной языковой модели

Вот, что вывела нейронка:

{ "WeaponSpecialFormat": { "SpecialEfficacy": { "enable": true, "format": "+{v1}% увеличение урона по определённым врагам", "hint": "对特定敌人增伤" }, "1010": { "enable": true, "format": "+{v1}% базовой атаки за каждый удар. Максимальное увеличение +{v2}%", "hint": "wp00_007_00,龙之信条,每次攻击获得基础攻击倍率" }, "1207": { "enable": true, "format": "**+0~10% базовой атаки при наличии более 25% здоровья. +300% базовой атаки при наличии менее 25% здоровья", "hint": "龙之信条大剑,根据(1-ReducedHpRatio)获得基础攻击倍率,参数是1/1实在找不到规律,代码也看不懂,实测是损失(0,75%)血量时获得约(0,0.1),损失75%以上时跃升至4.0" }, "1413": { "enable": false, "hint": "探测匕首,1/1,推测(1,1)的都是实际不使用参数计算?" }, "1804": { "enable": true, "format": "+{v1}% опыта. +{v2}% затраты выносливости", "hint": "美杜莎魔弓箭,(300,400)" }, "1610": { "enable": true, "curve": true, "format": "+{v0}~{v1}% магической атаки при наличии менее {t1}% здоровья. +{v2}% магической атаки при наличии более {t2}% здоровья", "hint": "封魔大杖,(5,100)" }, "1906": { "enable": true, "format": "Накладывает на врагов дополнительный урон x{v2}. Восстанавливает {v1} здоровья в секунду", "hint": "圣木魔弓,固定回血,给敌人加DamageRate" }, "2010": { "enable": true, "format": "+{v1}% базовой атаки за каждый удар. Максимальное увеличение +{v2}%", "hint": "林德蠕龙的尖牙" }, "2103": { "enable": true, "format": "**Получение 10 золотых за каждый удар. Не более 3000. Маленький шанс получить 100/1000/50000 золотых (без учёта лимита)", "wp10_003": true, "hint": "梦想路,50/50," }, "2210": { "enable": false, "hint": "庇佑护盾,200/0,意义不明" } }, }

Т.е. задание она поняла правильно. Перевела format и не тронула hint. Все остальные модели болт клали на это и переводили вообще весь английский и японский текст в кавычках, скажу сразу.

Но даже тут не все идеально. Если скормить ей сразу много кода, где еще и разные по своей наполненности блоки будут, то она так же может забыть правила и начать переводить то, что нельзя. Тут она, конечно, до того же клауда не дотягивает. Но это лучше, чем у других локальных моделей.

2. Qwen2.5 Coder 32B (Квантование Q4)

Плюсы:

  • Умеет размышлять, способна правильно ответить на вопрос, сколько букв в слове и какая десятичная дробь больше (такой себе плюс)
  • Хорошо следует указанным в системном промте правилам, что упрощает создание специализированных прессетов для чатов.
  • Огромный контекст - 128К токенов. Прочитать файл на 500 строк и выдать его обратно - раз плюнуть
  • Малый вес. В зависимости от квантования (это сжатие с потерями качества языковых моделей) весит от 12,3 ГБ до 65,5 ГБ.
  • Относительно быстрая. На 7900ХТХ скорость генерации текста составляет от 5 токенов/с до 25 токенов/с в зависимости от заполненности контекста.
  • Есть встроенные функции, которые можно самому настроить через меню разработчика (поэтому она и Coder)

Минусы:

  • Не способна к выполнению сложной задачи, т.к. будет игнорировать некоторые указания

Похожа на Гемму, но хуже ориентируется в большом количестве текстов. В примере с переводом мода сразу же начала переводить раздел hint. Возможно, для более простых просьб хорошо подойдет. А для автоматизации так вообще идеальный выбор (но надо разбираться в том, как разрабатывать в LM Studio). Скринов и примеров не будет. Я и так слишком много этих нейронок качал.

3. Aya 23 32B (Степень квантования IQ4)

Плюсы:

  • Хорошо следует указанным в системном промте правилам, что упрощает создание специализированных прессетов для чатов.
  • Малый вес. В зависимости от квантования (это сжатие с потерями качества языковых моделей) весит от 9 ГБ до 70 ГБ.
  • Быстрая. На 7900ХТХ скорость генерации текста составляет от 20 токенов/с до 25 токенов/с в зависимости от заполненности контекста.

Минусы:

  • Не способна к выполнению сложной задачи, т.к. будет игнорировать некоторые указания
  • Тупая, хоть и может размышлять с помощью системного промта, но делает ложные выводы и путается
  • Малый контекст: 8к токенов

ХЗ, что сказать. Даже часть мода не перевела, дроби сравнить не смогла. Не знаю, как поведет себя при другой работе. Все напутает скорее всего.

4. Llama 3.3 70B Instruct (Степень квантования Q3)

Плюсы:

  • Хорошо следует указанным в системном промте правилам, что упрощает создание специализированных прессетов для чатов.
  • Умеет размышлять благодаря системному промту.

Минусы:

  • Может запутаться и несмотря на то, что вы ее похвалите за правильный ответ, может исправить себя на неправильный.
  • Очень медленная: в зависимости от квантования она либо вообще не запуститься, либо скорость будет 1 или 3 токена/с.
  • Малый контекст: 8к токенов (и то, если у вас памяти хватит на эти 8к токенов)

Самая мощный зверь из всех локальных моделей. Для нормальной работы нужно от 40 ГБ VRAM. Полностью ее потанцевал мало кто раскроет.

5. QwQ-32B-Preview-GGUF

Это вообще какой-то мем. Не знаю, виноват ли промт на подумать, или русский язык, но отвечает как ребенок с СДВГ. Из плюсов разве что умеет размышлять, перепроверяя себя по 3 раза. Системному промту нихуя следовать не будет, в русский текст будет на регулярной основе подмешивать китайские (а иногда английские) слова, может вообще полностью на китайский перейти. Китайская цензура лютая. На вопрос, чей тайвань, сказал, что не будет отвечать, после чего начал писать гимн китая, или я хз.

Вывод

К чему я это все написал? Да хз, т.к. для большинства пользователей сайта ДэТээФ.РУ вся эта инфа будет бесполезная, т.к. вы тут все нищуки с 16 гигами оперативки и карточками от святого хуанга с жалкими 8 или в лучшем случае 16 гигами VRAM.

А для всех остальный полезно узнать, что есть и локальные бесплатные языковые модели, которые не так уж сильно уступают по возможностям облачным моделям

1212
37 комментариев

1050ti духоводная потянет?

Можешь крутить любые модели на проце, если тебе хватит озу под их размер. Просто будет всё на уровне эстонского спринтера

2

Да этот зверь ламу на 70 миллиардов параметров переварит только так!

2

Всё же локальные модели это больше про попиздеть с ботом, рабочие задачи проще в чатгпт скидывать (если инфа не чувствительна к публикации в сеть, конечно)

1

Если у тебя платная подписка есть, то конечно лучше ему. А так у тебя неограниченный по использованию чатбот прям на компе, а самое главное - полностью бесплатный

у lm еще есть фишка локального сервера, что можно любую локальную модель напрямую прокинуть в тот же VSCode для автодополнения и предложений. До открытия гитхабовского копилота только так и пользовался вместе с DeepSeek coder 16b

1

А, нихуя. Я решил, что это ток для какой-нибудь отладки или чтоб с телефона можно было вводить промт