> Ищите GGUF модели Не знаю было ли это где у тебя, Карасик, но я вот только недавно получил оза…

РП с нейросетью. Общайся со своей вайфу о чем угодно. Часть 1: легкий вкат

Нейросети развились до такой степени, что с ними можно проводить время и выстраивать ролевые сюжеты. Этот текст - попытка заинтересовать вас войти в мир РП, в частности РП с нейросетью в интерфейсе SIllyTavern.

102102

29.12.2024

Ищите GGUF модели

Не знаю было ли это где у тебя, Карасик, но я вот только недавно получил озарение, что GGUF, GPTQ, EXL2, AWQ и тд. это просто разные методы квантования оригинальной модели. GGUF единственный метод, который работает и с GPU, и с CPU, всё остальное только с GPU.

Я несколько раз скачивал `.safetensors` формата модели, т.е. оригинальные, не квантованные и, конечно же, мои ресурсы такое запустить хоть и смогли, но очень тяжело пошло и генерация была супер медленная.

А квантование, как я понял, если простым языком это намеренное "отупление" модели с сохранением приемлемой точности, некоторое нормальное соотношение необходимых ресурсов и точности модели, они подразделяются на разные уровни этого "отпупления", что обычно обозначается как Q + цифра(bit)_ + K (вариант, ещё бывает 0 и другие) + опционально S\M (sparse - все части одинаково "тупые"\mixed - некоторые части более точные, некоторые менее), например Q2_K, Q5_K_M, Q8_K и тд. , чем выше эта цифра после Q (цифра обозначает кол-во bit квантования, больше - лучше), тем больше ресурсов нужно, тем точнее модель, тем медленнее будет расчёт результата. Оригинальные модели обычно 16bit, 32bit, т.е. Q8 8bit это почти ближе некуда к оригиналу.

Обычно ещё прикладывают график или табличку, на которых видно, как каждое квантование модели влияет на точность результата, выраженного числом, но в целом Q5_K_M, Q5_K_S - хороший баланс и не так много ресурсов требует.

Это из моих заметок, постю тут для остальных)

Ответить