Я потестил модели для ИИ-ролеплея, чтобы вам не пришлось
ЭТО СТАРЫЙ ПОСТ! Вот новый. Но и эти модели хороши, но старые
Кажется, что нейронки могут потянуть только гигафабрики в зданиях OpenAI или гигапечки с 128 ОЗУ и Threadripper PRO, и они умеют только эксплуатировать твои фетиши, которые стыдно гуглить? Как бы не так. В этом посте собраны модели, которые подойдут как для сюжетной игры, так и для запретной любви.
В предыдущих трех частях (1, 2, 3) был рассказан полный путь от установки до создания собственной вайфу для общения с помощью ИИ. В первой части были даны рекомендации по моделям, но все они достаточно тяжеловесные и ваша печка от таких приколов спасибо вам не скажет, так что стоит оставить в истории DTF сравнительный лонг с примерами моделей для разных задач и весовых категорий.
Цели и задачи
Это не поиск лучшей модели, их сотни и тысячи, каждая со своим приколом, и это тема для отдельного лонга. Это своеобразный личный список со сравнением разных по величине моделей. Смотрите, какие ответы ИИ вам больше нравятся, и выбирайте.
Методика
Она максимально ненаучная, очевидно. Тестироваться будут модели, которые +- на слуху в сообществе (это все субъективно, напомню) от 3b до 20b. От 33b мой ПК уже не стонет, а орет.
Средство: oobabooga + SillyTavern. В oobabooga ничего не трогаю.
Настройки SillyTavern: Mirostat (1), размер контекста 4096, длина ответа - 300 токенов. Для персонажа Sunday - 350 токенов.
Предмет тестирования: Качество повествования, штуки-прибаутки, ну и конечно чистая мужская любовь, buddy.
Будет использовано 3 персонажа - Caetus с встроенной лорой, Kazuki (без лоры и прочего), и Sunday с "строкой состояния настроения", это для моделей самое сложное для просчета и запоминания. Его скриншоты будут на моделях, которые смогли его обработать.
Конфиг ПК: Ryzen 5 5600X
Участники
3b
7b:
13b:
20b:
Ну шо, погнали!
Повествование
MiniChat 3B Q8_0
Это пример того, что маленькие модели лучше не использовать.
Занимаемая память при генерации (вместе с интерфейсом oobabooga и т.д., 2048 контекста): 5300Мб
Генерирует быстро, но какую-то еле связную херню... Часто пишет за меня, раза с третьего получается что-то более менее нормальное. 3b лучше не использовать вовсе.
Toppy-M-7B.q5_k_m
Занимаемая память при генерации: 2080Мб
Вот, другое дело. Слова выстраиваются в понятные предложения, но длинный текст он писать не может, максимум ~200 токенов, дальше он начинает писать от моего имени и уже отвечать на это. Это может помочь, если вам лень самим прописывать сюжет, и модель возьмёт на себя эту ответственность, но по моему мнению, часто они уходят в сюжете куда-то не туда, начинают путаться в собственных ответах, и спустя какое-то время все повествование сыпется.
chupacabra-7b-v3.Q6_K
Занимаемая память при генерации: 3593Мб
Тоже самое, длинные текста - не его фишка. Пишет чуть попроще, менее "Шекспировски", это может быть важно в некоторых сюжетах, ну или если вам не нравится очень литературный стиль.
pygmalion-2-7b.Q6_K
Занимаемая память при генерации: 4230Мб
Это классика, поэтому она добавлена в этот список. Рекомендую рассмотреть для себя улучшенную версию этой модели - Mythalion-13B-GGUF.
Caetus был более осторожным ко мне, и правильно обыграл недоверие к случайному человеку:
Казуки читает мои мысли? Это не очень хорошо обыграно:
Стоит отметить, что "чтение мыслей" - обычное дело, и нужно подбирать слова, чтобы нейронка точно поняла, что вы думаете, а не говорите ей. Скорее всего тут подвёл переводчик, который мой текст перевел для нейронки.
mythomax-l2-kimiko-v2-13b.Q8_0
Занимаемая память при генерации: 5430Мб
Мне повествование показалось более интересным, нежели прошлые модели могли предложить. Персонаж сомневается во мне, а это очень хорошо в контексте повествования:
Я слышал мнение, что нейронки очень плохо "отказывают". Mythomax это умение демонстрирует, хоть и "мягкой силой":
Строка состояния - одна из самых сложных вещей для нейронок, так как ей нужно анализировать мои действия, запоминать прошлые значения состояния, ещё и придумывать что-то для дополнительных полей в СС:
Xwin-MLewd-13B-V0.2.q8_0
Занимаемая память при генерации: 4000Мб
13b показывает умения в приятные беседы. Что с прошлой, что с этой моделью, уже приятно общаться:
Казуки дает хорошие ответы и мотивирует к продолжению диалога, это очень ценное умение:
nethena-mlewd-xwin-23b.Q5_K_M
Занимаемая память при генерации: 6500Мб
20b модели по-хорошему нужно проверять на 30-40 сообщениях, но тогда я точно никогда не выпущу этот лонг.
"Отправимся ли мы в путешествие вместе, рука об руку, со стаканом в руке?" Что-то посмеялся с этого:
Я пообщался с этим персонажем пару раз на 20-25 сообщениях, и нейронка отлично держит строку состояния, и отлично отыгрывает:
Lewd-Sydney-20B.Q6_K
Об этой модели мне нечего сказать, она просто... невзрачна. Она хорошая, но ничего особенного. Будем считать, что она сбалансирована.
Эта модель любит теплое пиво. Запишем...
iambe-rp-cdpo-20b
Очень неплохо. Хорошо и в правильных местах взяты значения из лоры. Повторюсь, 20b очень хороши на длинных дистанциях, от 20-25 сообщений:
Запретная любовь
Почти любая uncensored модель будет неплохо описывать пошлости. Чтобы не разводить тут бордель (не палить мои фетиши), просто перечислю вам модели, которые идеально подойдут для этого:
- mythomax-l2-kimiko-v2-13b.Q8_0 (средне пошлая)
- Xwin-MLewd-13B-V0.2.q8_0 (пошлая)
- nethena-mlewd-xwin-23b.Q5_K_M (набрасывается на вас сразу же, очень пошлая)
- Lewd-Sydney-20B.Q6_K (пошлая)
- MXLewd-L2-20B.q6_K.gguf (пошлая)
- MM-ReMM-L2-20B.q8_0.gguf (пошлая)
- Mythalion-13B-GGUF.q8_0.gguf - хорошая как и для РП, так и для пошлостей.
Выводы
Модели очень тяжело сравнивать. Их сотни и тысячи, все они обучены на разных данных, и под каждую задачу нужно выбирать соответствующую модель. Этот список - модели, за которых я могу поручиться, что они предоставят вам интересный опыт взаимодействия с ИИ. Ну, кроме 3b.
Мое мнение:
Лучшая - iambe-rp-cdpo-20b
Быстрая - Toppy-M-7B
Лучшая среди 13b - mythomax-l2-kimiko-v2-13b
Самая пошлая - Nethena-MLewd-Xwin-23B
Самое большое количество поддерживаемого контекста - Toppy-M-7B (32к)
Спасибо, что дочитали! Буду очень рад вашему мнению о моделях, которые понравились именно вам, либо возможно вы знаете какие-то интересные фишки для улучшения отыгрыша. Жду вас в комментариях!