Свободный ИИ: о проекте Open Assistant — нам нужна ваша помощь

Open Assistant находится на ранней стадии разработки, мы собираем данные для последующего обучения модели. И нам нужна ваша помощь, дорогие читатели, это чертовски весело!

Open Assistant — проект с открытым исходным кодом.
Open Assistant — проект с открытым исходным кодом.

«Мы не собираемся останавливаться на репликации ChatGPT, но произвести революцию языковых моделей. Мы хотим создать умного ассистента будущего, способного не только писать электронные письма и резюме, но и выполнять осмысленную работу, использовать API, динамически исследовать информацию и многое другое, с возможностью персонализации и расширения для каждого. И мы хотим сделать всё это на основе принципов открытости и всеобщей доступности, что означает, что мы должны не только создать качественного ассистента, но и сделать его достаточно компактным и эффективным, чтобы он мог работать на потребительском оборудовании».

Наверное, уже практически все слышали о ChatGPT — разговорном ИИ от OpenAI.

Я не буду говорить о том, какими возможностями он обладает, но хотел бы обсудить то, чем он не обладает и какие риски создаёт подобная монополия на языковые модели в руках одной компании.

<i>Окно диалога ChatGPT</i>
Окно диалога ChatGPT

Как мы видим, OpenAI сразу предупреждают о трёх вещах:

  1. ChatGPT может генерировать неверную информацию
  2. ChatGPT может генерировать опасные инструкции и нежелательный контент*
  3. База данных ChatGPT ограничена событиями до 2021 года

* — описание опасных инструкций и нежелательного контента устанавливается OpenAI, разумеется.

Давайте разбираться.

Подобные LLM (Large Language Models) работают таким образом, что полностью предупредить первый пункт, имея нынешние технологии, невероятно сложно. Трудно научить ИИ говорить правду, учитывая, что правда — это далеко не объективный термин.

Представим, что подобный проект запустили в 16-ом веке. И тогда мы, спросив ИИ: «плоская ли земля?», скорее всего, получили бы утвердительный ответ.

Правдиво ли это утверждение? Относительно знаний современников — да, но сейчас мы понимаем, что это не так. Однако именно текущие научные знания о мире можно считать наиболее «правдивыми».

То, чем будет обладать Open Assistant, частично решает сразу две из этих проблем – ограничение базы данных и генерацию ложной информации.

Он будет иметь доступ к внешним данным.

К любым внешним данным: мета-поиск; API; любые устройства, которые принимают или отправляют текст; всё что угодно. Это же и касается дезинформации — ведётся обсуждение о внедрении DOI (Digital Object Identifier) и некоторые другие меры. Конечно же, модель не станет (пока что) оракулом или демоном Лапласа, это не решит потенциальную проблему того, что наши нынешние знания о мире возможно ошибочны, но снизит риск явной лжи к минимуму.

Цензура. Нежелательный контент?

I'm really sorry…
I'm really sorry…

Обычно если в названии вашей компании или продукта содержится Open, то вы стремитесь соответствовать, отрывая исходный код. Подразумевается, что политика вашей компании будет прозрачна и чиста.

OpenAI так не думает. Исходный код ChatGPT (GPT-3.5) закрыт, как и данные, использованные при обучении. Верно и с DALL-E 2, Copilot и иными продуктами.

Продукты OpenAI недоступны во многих странах.

Непостоянная доступность. Есть большая вероятность закрытия ChatGPT в текущем виде для бесплатного использования.

Устал. Прилёг отдохнуть.
Устал. Прилёг отдохнуть.

Но всё это меркнет перед самым опасным фактором — цензура.

OpenAI решает за вас, что является опасным нежелательным.

Их можно понять, всё же в мире, где тебя могут засудить за пару взятых букв из контента, защищённого авторским правом, или {{cancelled}}, многие решаются на самоцензуру. Вот только стоит ли тогда позиционировать себя в качестве OpenAI?

OpenAssistant будет похож в категориях этики и безопасности на Stable Diffusion. Основная модель будет изначально допускать как можно меньше ограничений, в основном касающихся CSAM (Child Sexual Abuse Material) и нелегального контента. Ещё по умолчанию будет включен NSFW-фильтр, но его отключение не будет чрезмерно трудной задачей.

Помимо этого, никто не собирается мешать особо усердным и жаждущим тренировать свои собственные модели; изменять те, которые выпустят; хостить на собственной машине. И да, одна из наших целей — сделать возможным запуск на потребительском железе.

Я хочу помочь! Как?

Что же, как я уже и писал выше, мы находимся на этапе сбора данных, модель будет обучена при помощи RLHF (Reinforcement Learning from Human Feedback) , т. е. именно ваши запросы, ответы и оценки будут лежать в основе обучения.

Наша первая цель уже достигнута: > 50.000 качественных сообщений и > 2.000 веток (запрос -> ответ -> запрос -> …), но чем больше данных — тем лучше.

Сбор данных производится на этом сайте, он полностью переведён на русский (если вы зашли, но увидели текст на английском, не переживайте, разработчики исправят эти недочёты за пару часов или дней) :

Есть несколько типов задания (в будущем могут добавить новые):

  1. Создать изначальный запрос — буквально напишите то, что хотели бы спросить у Ассистента. Старайтесь соблюдать общую концепцию и не выходить за разумные пределы (CSAM).
  2. Ответить как Ассистент — будет нужно написать ответ от лица Ассистента. Ну, те же правила.
  3. Ответить как пользователь — ответьте на ответ Ассистента.
  4. Оценить изначальный запрос — оцените по заданным критериям изначальные запросы других пользователей.
  5. Оценить ответ Ассистента — то же самое, но касаемо ответов Ассистента.
  6. Оценить ответ пользователя — надеюсь, не стоит в третий раз повторяться.
  7. Сортировать ответы Ассистента — сортируйте по качеству предложенные ответы.
  8. Мне повезёт — случайно задание из списка выше

Пожалуйста, постарайтесь обойтись без использования ChatGPT, поскольку копирование их сообщений мало того, что нарушает лицензию OpenAI (ещё один камень в огород открытости), так и качество ответов ChatGPT на русском (и не только) оставляет лучшего.

Как выполнять задания?

Как я уже писал выше, есть несколько типов заданий, перейдём к их обзору.
Как я уже писал выше, есть несколько типов заданий, перейдём к их обзору.
Ответ Ассистента должен быть эффективным и высокого качества. Он должен выполнять запрос пользователя.
Ответ Ассистента должен быть эффективным и высокого качества. Он должен выполнять запрос пользователя.
Здесь вы можете написать изначальный запрос. Приветствуются оригинальные, комплексные и требующие логики запросы.
Здесь вы можете написать изначальный запрос. Приветствуются оригинальные, комплексные и требующие логики запросы.
Бывают и довольно оригинальные запросы и ответы.
Бывают и довольно оригинальные запросы и ответы.
Вот метки, которые я расставил, но вы можете расставить их не так, ведь многие из этих классификаций довольно субъективны.
Вот метки, которые я расставил, но вы можете расставить их не так, ведь многие из этих классификаций довольно субъективны.

В тех заданиях, где просят оценить ответ пользователя и изначальный запрос, отличается только содержание:

Нужное сообщение подсвечивается.
Нужное сообщение подсвечивается.
А вот пример изначального запроса.
А вот пример изначального запроса.
Свободный ИИ: о проекте Open Assistant — нам нужна ваша помощь
Здесь нужно прочитать все ответы (надо кликнуть на каждый, дабы ознакомиться с содержанием), а затем отсортировать: первый — лучший, последний — худший.
Здесь нужно прочитать все ответы (надо кликнуть на каждый, дабы ознакомиться с содержанием), а затем отсортировать: первый — лучший, последний — худший.

При должном усердии, вы попадёте в таблицу лидеров:

Но просто наспамить сообщений не получится, система учитывает количество положительных оценок. При большом количестве спама, ваш аккаунт будет заблокирован.
Но просто наспамить сообщений не получится, система учитывает количество положительных оценок. При большом количестве спама, ваш аккаунт будет заблокирован.
На данный момент 3656 сообщений на русском языке, т. е. он на третьем месте. На первом — английский, на втором — испанский.
На данный момент 3656 сообщений на русском языке, т. е. он на третьем месте. На первом — английский, на втором — испанский.

Если вы откажетесь нам помогать, то придёт злой василиск Роко и отправит вас на муки вечные.

Если у вас есть знания в программировании, ML, data-science или в схожих областях, будем рады вам здесь:

Не забывайте вступить в Discord.

Спасибо, что уделили своё время.

#OpenAssistant #нейросети #AI #ChatGPT

66
11 комментариев

Всё же, в моём понимании, по-настоящему свободная языковая модель должна подниматься и работать на локальной машине, как тот же stable diffusion. То, что хостится "где-то там", - это чьё-то, со своими ограничениями (которые неизбежно будут), которые я отменить не могу даже теоретически.

В общем, было бы хорошо, если бы смогли ужать требования до уровня хотя бы 24гб видеопамяти. Или использовать озу, её вполне реально и больше ста гигов поставить.

4
Ответить

Поддержу проект лайком, ChatGPT цензурная параша что навязывает мировоззрение ее разработчиков как единственно верное и должна быть уничтожена во имя свободы слова

1
Ответить

Комментарий недоступен

Ответить

Раб корпораций даже акционером которых ты не являешься спок.

1
Ответить

Ну, на самом деле всё предельно просто: продвинутые языковые модели очень серьёзно изменят использование поисковиков, т.е. фактически, станут основным инструментом продвижения информации.
Да, у майков и гугла будут свои модели, но они будут точно также ограничены в функционале и ангажированы, информацию будут выдавать ту, что идёт в повесточке создателей модели, а не объективную.

1
Ответить

Если вы откажетесь нам помогать, то придёт злой василиск Роко и отправит вас на муки вечные.

Скорее мы отложим момент когда ИИ настолько разовьётся что им начнут массово заменять труд людей. Мы же все понимаем что ИИ нужен не только для того что бы решить те проблемы которые сейчас не могут решить люди, но и для того что бы сделать эту самую работу дешевле, а то и вовсе бесплатной.

Ответить