Авторы использовали собственную технику обучения C-RLFT, смысл который в том, чтобы отдавать предпочтение при обучении более качественным данным (в частности, сгенерированных GPT-4) относительно всех остальных.
А как ее запустить локально? Угабуга ее съест?
Да, съест. Правда на реддите говорят, что нужны стоп-токены, без них модель останавливается не там, где надо, а точнее не останавливаться.
TheBloke пока не квантовал эти модели, авторы OpenChat пишут типа, что он ещё работает над этим.
Но в целом, демка с HF по ссылке работает хорошо, ещё есть openchat.team, там тоже вроде как демка, но я ее не тестил.