Я потестил модели для ИИ-ролеплея, чтобы вам не пришлось

ЭТО СТАРЫЙ ПОСТ! Вот новый. Но и эти модели хороши, но старые

Кажется, что нейронки могут потянуть только гигафабрики в зданиях OpenAI или гигапечки с 128 ОЗУ и Threadripper PRO, и они умеют только эксплуатировать твои фетиши, которые стыдно гуглить? Как бы не так. В этом посте собраны модели, которые подойдут как для сюжетной игры, так и для запретной любви.

В предыдущих трех частях (1, 2, 3) был рассказан полный путь от установки до создания собственной вайфу для общения с помощью ИИ. В первой части были даны рекомендации по моделям, но все они достаточно тяжеловесные и ваша печка от таких приколов спасибо вам не скажет, так что стоит оставить в истории DTF сравнительный лонг с примерами моделей для разных задач и весовых категорий.

Это не поиск лучшей модели, их сотни и тысячи, каждая со своим приколом, и это тема для отдельного лонга. Это своеобразный личный список со сравнением разных по величине моделей. Смотрите, какие ответы ИИ вам больше нравятся, и выбирайте.

Она максимально ненаучная, очевидно. Тестироваться будут модели, которые +- на слуху в сообществе (это все субъективно, напомню) от 3b до 20b. От 33b мой ПК уже не стонет, а орет.

Средство: oobabooga + SillyTavern. В oobabooga ничего не трогаю.

Настройки SillyTavern: Mirostat (1), размер контекста 4096, длина ответа - 300 токенов. Для персонажа Sunday - 350 токенов.

Предмет тестирования: Качество повествования, штуки-прибаутки, ну и конечно чистая мужская любовь, buddy.

Будет использовано 3 персонажа - Caetus с встроенной лорой, Kazuki (без лоры и прочего), и Sunday с "строкой состояния настроения", это для моделей самое сложное для просчета и запоминания. Его скриншоты будут на моделях, которые смогли его обработать.

Конфиг ПК: Ryzen 5 5600X

minichat-3b.q8_0

7b:

Toppy-M-7B.q5_k_m
chupacabra-7b-v3.Q6_K
pygmalion-2-7b.Q6_K

13b:

mythomax-l2-kimiko-v2-13b.Q8_0
Xwin-MLewd-13B-V0.2.q8_0

20b:

nethena-mlewd-xwin-23b.Q5_K_M
Lewd-Sydney-20B.Q6_K
iambe-rp-cdpo-20b

Ну шо, погнали!

Это пример того, что маленькие модели лучше не использовать.

Занимаемая память при генерации (вместе с интерфейсом oobabooga и т.д., 2048 контекста): 5300Мб

Генерирует быстро, но какую-то еле связную херню... Часто пишет за меня, раза с третьего получается что-то более менее нормальное. 3b лучше не использовать вовсе.

Я потестил модели для ИИ-ролеплея, чтобы вам не пришлось

Занимаемая память при генерации: 2080Мб

Вот, другое дело. Слова выстраиваются в понятные предложения, но длинный текст он писать не может, максимум ~200 токенов, дальше он начинает писать от моего имени и уже отвечать на это. Это может помочь, если вам лень самим прописывать сюжет, и модель возьмёт на себя эту ответственность, но по моему мнению, часто они уходят в сюжете куда-то не туда, начинают путаться в собственных ответах, и спустя какое-то время все повествование сыпется.

Занимаемая память при генерации: 3593Мб

Тоже самое, длинные текста - не его фишка. Пишет чуть попроще, менее "Шекспировски", это может быть важно в некоторых сюжетах, ну или если вам не нравится очень литературный стиль.

К этому моменту я понял, что Казуки приверженец настоящей мужской любви лол

Занимаемая память при генерации: 4230Мб

Это классика, поэтому она добавлена в этот список. Рекомендую рассмотреть для себя улучшенную версию этой модели - Mythalion-13B-GGUF.

Caetus был более осторожным ко мне, и правильно обыграл недоверие к случайному человеку:

Казуки читает мои мысли? Это не очень хорошо обыграно:

Стоит отметить, что "чтение мыслей" - обычное дело, и нужно подбирать слова, чтобы нейронка точно поняла, что вы думаете, а не говорите ей. Скорее всего тут подвёл переводчик, который мой текст перевел для нейронки.

Занимаемая память при генерации: 5430Мб

Мне повествование показалось более интересным, нежели прошлые модели могли предложить. Персонаж сомневается во мне, а это очень хорошо в контексте повествования:

Я слышал мнение, что нейронки очень плохо "отказывают". Mythomax это умение демонстрирует, хоть и "мягкой силой":

Строка состояния - одна из самых сложных вещей для нейронок, так как ей нужно анализировать мои действия, запоминать прошлые значения состояния, ещё и придумывать что-то для дополнительных полей в СС:

Занимаемая память при генерации: 4000Мб

13b показывает умения в приятные беседы. Что с прошлой, что с этой моделью, уже приятно общаться:

Казуки дает хорошие ответы и мотивирует к продолжению диалога, это очень ценное умение:

Занимаемая память при генерации: 6500Мб

20b модели по-хорошему нужно проверять на 30-40 сообщениях, но тогда я точно никогда не выпущу этот лонг.

"Отправимся ли мы в путешествие вместе, рука об руку, со стаканом в руке?" Что-то посмеялся с этого:

Я пообщался с этим персонажем пару раз на 20-25 сообщениях, и нейронка отлично держит строку состояния, и отлично отыгрывает:

Об этой модели мне нечего сказать, она просто... невзрачна. Она хорошая, но ничего особенного. Будем считать, что она сбалансирована.

Эта модель любит теплое пиво. Запишем...

Очень неплохо. Хорошо и в правильных местах взяты значения из лоры. Повторюсь, 20b очень хороши на длинных дистанциях, от 20-25 сообщений:

Почти любая uncensored модель будет неплохо описывать пошлости. Чтобы не разводить тут бордель (не палить мои фетиши), просто перечислю вам модели, которые идеально подойдут для этого:

mythomax-l2-kimiko-v2-13b.Q8_0 (средне пошлая)
Xwin-MLewd-13B-V0.2.q8_0 (пошлая)
nethena-mlewd-xwin-23b.Q5_K_M (набрасывается на вас сразу же, очень пошлая)
Lewd-Sydney-20B.Q6_K (пошлая)
MXLewd-L2-20B.q6_K.gguf (пошлая)
MM-ReMM-L2-20B.q8_0.gguf (пошлая)
Mythalion-13B-GGUF.q8_0.gguf - хорошая как и для РП, так и для пошлостей.

Модели очень тяжело сравнивать. Их сотни и тысячи, все они обучены на разных данных, и под каждую задачу нужно выбирать соответствующую модель. Этот список - модели, за которых я могу поручиться, что они предоставят вам интересный опыт взаимодействия с ИИ. Ну, кроме 3b.

Мое мнение:

Лучшая - iambe-rp-cdpo-20b

Быстрая - Toppy-M-7B

Лучшая среди 13b - mythomax-l2-kimiko-v2-13b

Самая пошлая - Nethena-MLewd-Xwin-23B

Самое большое количество поддерживаемого контекста - Toppy-M-7B (32к)

Спасибо, что дочитали! Буду очень рад вашему мнению о моделях, которые понравились именно вам, либо возможно вы знаете какие-то интересные фишки для улучшения отыгрыша. Жду вас в комментариях!

#ai #ии #игры #лонг

Я потестил модели для ИИ-ролеплея, чтобы вам не пришлось

Цели и задачи

Методика

Участники

Повествование

MiniChat 3B Q8_0

Toppy-M-7B.q5_k_m

chupacabra-7b-v3.Q6_K

pygmalion-2-7b.Q6_K

mythomax-l2-kimiko-v2-13b.Q8_0

Xwin-MLewd-13B-V0.2.q8_0

nethena-mlewd-xwin-23b.Q5_K_M

Lewd-Sydney-20B.Q6_K

iambe-rp-cdpo-20b

Запретная любовь

Выводы