OpenChat 3.5: дообученная Miatral-7B, которая бьёт ChatGPT по почти всем бенчмаркам и превосходит базовые 70B модели

Авторы использовали собственную технику обучения C-RLFT, смысл который в том, чтобы отдавать предпочтение при обучении более качественным данным (в частности, сгенерированных GPT-4) относительно всех остальных.

OpenChat 3.5: дообученная Miatral-7B, которая бьёт ChatGPT по почти всем бенчмаркам и превосходит базовые 70B модели
1010

смысл который в том, чтобы отдавать предпочтение при обучении более качественным данным (в частности, сгенерированных GPT-4) относительно всех остальных.Учёные открыли, что качество материалов при обучении влияет на качество обучения.
Что дальше, введуть промежуточную экзаменацию и подвяжут учителя, почле чего с удивлением обнаружат, что хороший учитель учит лучше?

1
Ответить

Не совсем так. Просто обучение на очень качественных данных даёт крутые результаты, да, но эти данные очень дорого получать. Тут авторы совершают компромисс, смешивая плохие и хорошие данные, но предпочтения отдавая хорошим, за счёт чего получается повысить точность относительно просто небольшого количества хороших данных.

1
Ответить

Ну это не всегда так очевидно..

Ответить