Не знаю было ли это где у тебя, Карасик, но я вот только недавно получил озарение, что GGUF, GPTQ, EXL2, AWQ и тд. это просто разные методы квантования оригинальной модели. GGUF единственный метод, который работает и с GPU, и с CPU, всё остальное только с GPU.
Я несколько раз скачивал `.safetensors` формата модели, т.е. оригинальные, не квантованные и, конечно же, мои ресурсы такое запустить хоть и смогли, но очень тяжело пошло и генерация была супер медленная.
А квантование, как я понял, если простым языком это намеренное "отупление" модели с сохранением приемлемой точности, некоторое нормальное соотношение необходимых ресурсов и точности модели, они подразделяются на разные уровни этого "отпупления", что обычно обозначается как Q + цифра(bit)_ + K (вариант, ещё бывает 0 и другие) + опционально S\M (sparse - все части одинаково "тупые"\mixed - некоторые части более точные, некоторые менее), например Q2_K, Q5_K_M, Q8_K и тд. , чем выше эта цифра после Q (цифра обозначает кол-во bit квантования, больше - лучше), тем больше ресурсов нужно, тем точнее модель, тем медленнее будет расчёт результата. Оригинальные модели обычно 16bit, 32bit, т.е. Q8 8bit это почти ближе некуда к оригиналу.
Обычно ещё прикладывают график или табличку, на которых видно, как каждое квантование модели влияет на точность результата, выраженного числом, но в целом Q5_K_M, Q5_K_S - хороший баланс и не так много ресурсов требует.
Ищите GGUF модели
Не знаю было ли это где у тебя, Карасик, но я вот только недавно получил озарение, что GGUF, GPTQ, EXL2, AWQ и тд. это просто разные методы квантования оригинальной модели. GGUF единственный метод, который работает и с GPU, и с CPU, всё остальное только с GPU.
Я несколько раз скачивал `.safetensors` формата модели, т.е. оригинальные, не квантованные и, конечно же, мои ресурсы такое запустить хоть и смогли, но очень тяжело пошло и генерация была супер медленная.
А квантование, как я понял, если простым языком это намеренное "отупление" модели с сохранением приемлемой точности, некоторое нормальное соотношение необходимых ресурсов и точности модели, они подразделяются на разные уровни этого "отпупления", что обычно обозначается как Q + цифра(bit)_ + K (вариант, ещё бывает 0 и другие) + опционально S\M (sparse - все части одинаково "тупые"\mixed - некоторые части более точные, некоторые менее), например Q2_K, Q5_K_M, Q8_K и тд. , чем выше эта цифра после Q (цифра обозначает кол-во bit квантования, больше - лучше), тем больше ресурсов нужно, тем точнее модель, тем медленнее будет расчёт результата. Оригинальные модели обычно 16bit, 32bit, т.е. Q8 8bit это почти ближе некуда к оригиналу.
Обычно ещё прикладывают график или табличку, на которых видно, как каждое квантование модели влияет на точность результата, выраженного числом, но в целом Q5_K_M, Q5_K_S - хороший баланс и не так много ресурсов требует.
Это из моих заметок, постю тут для остальных)