FractalGPT представил третье демо: с мультимодальностью и маршрутизацией ИИ агентов

Сегодня публикуем уже 3-е демо FractalGPT. В этом демо мы показали 2 ключевые особенности системы: мультимодальность при анализе и обсуждении медицинских снимков и слаженную работу агентов по правильной маршрутизации задачи.

Демо интересно сразу из-за трех свойств:

а) Это первое демо, которое мы дадим попробовать пользователям - вы сможете загрузить в него свои картинки, мемы или медицинские снимки и получить ответ.(Мы выберем нескольких участников нашего чата и дадим доступ к боту на ограниченное время, по очереди, т.к. сейчас ядро системы поддерживает работу только с одним пользователем)

б) Это первое демо, которое даже отдаленно нельзя повторить или собрать на ChatGPT, и это явно видно

в) Медицинское применение

Кот тоже сгенерирован FractalGPT, не брали Midjourney
Кот тоже сгенерирован FractalGPT, не брали Midjourney

Дисклеймер

Снимки, использованные в этом демо получены из открытых источников (с сайта http://medicaldecathlon.com/ ). Также нами получено разрешение на использование ПО для анализа медицинских снимков в роли медицинского агента, который был встроен в систему на время демонстрации продукта FractalGPT.

Описание

Рис. 1. Кейс анализа медицинских снимков: агент FractalGPT дает разные ответы в случае, когда вероятность обнаружить рак высокая и низкая
Рис. 1. Кейс анализа медицинских снимков: агент FractalGPT дает разные ответы в случае, когда вероятность обнаружить рак высокая и низкая
Рис. 2. Детализация ответа агента: Tumor size - размер опухоли, Tumor probability - вероятность. Агент дает оценку опасности
Рис. 2. Детализация ответа агента: Tumor size - размер опухоли, Tumor probability - вероятность. Агент дает оценку опасности

На рисунке 1 показана основная схема ответа: система дает детальный ответ по вероятности обнаружить на снимке рак поджелудочной. При этом важно, что информация (названия показателей и их значения) от агента на рисунке 2, поступившая в LLM для генерации ответа не исказилась - эффекта галлюцинации нет.

Рис. 3. Система принимает на вход различные перефразирования одной и той же задачи и корректно их интерпретирует
Рис. 3. Система принимает на вход различные перефразирования одной и той же задачи и корректно их интерпретирует
Рис. 4. Система устойчива к кратким и полным постановкам задачи, в том числе к дополнительной информации, которую пользователь может спросить
Рис. 4. Система устойчива к кратким и полным постановкам задачи, в том числе к дополнительной информации, которую пользователь может спросить

В случае, если пользователь задает неполный вопрос, в примере “Тут есть рак поджелудочной” - агент отвечает на этот конкретный вопрос. Пользователь далее может уточнить детали, и система поймет его, учитывая контекст разговора и предоставляя детали (вероятность и размер), рисунок 5.

Рис. 5. Агент понимает контекст: работают уточняющие вопросы
Рис. 5. Агент понимает контекст: работают уточняющие вопросы
Рис. 6. Агент: представление информации внутри системы, галлюцинации нет
Рис. 6. Агент: представление информации внутри системы, галлюцинации нет

В следующем примере ведется разговор о математических терминах, а затем пользователь отправляет FractalGPT картинку из интернета: изображение схемы клетки, на котором есть подписи к различным ее частям (жгутики, мембрана и тп.). Пользователь просит рассказать об изображении подробнее и получает ответ.

Рис. 7 и 8. (Скрины длинные, открываются на полный экран) Агент дает правильные ответы по мультимодальной картинке. Если изображение не является медицинским снимком Агент не будет отвечать и анализировать его, а скажет, что не знает - сравните это с поведением других систем.

Рис. 9. Мультимодальная система умеет понимать что изображено и давать осмысленный ответ
Рис. 9. Мультимодальная система умеет понимать что изображено и давать осмысленный ответ

Рис. 10 и 11. Мультимодальность работает даже для мозга Гомера Симпсона (персонаж мультфильма The Simpsons) и для запутанной схемы флоу ПО

Будущие адаптации

В этом демо показана мультимодальность и многоагентность системы, но важно, что система легко и удобно расширяется:

1. Предусмотрено добавление других агентов, решающими другие типы задач

2. Мультимодальность может работать не только для текста и изображений, но и для звука, видео, документов, или даже для их комбинации

3. Система устойчива к росту числа агентов и типов взаимодействий между ними, с ростом числа агентов устойчивость системы возрастает и не происходит накопления ошибок благодаря логическому выводу в модуле Fractal.

О проекте.

Подробнее о проекте можно узнать в нашем Телеграм: https://t.me/fractal_gpt

Предыдущее демо:

О нас

Понимаш Захар

Основатель проекта "FractalGPT".

Специалист в области машинного обучения и глубоких нейронных сетей. Разработчик собственного ИИ фреймворка AIFramework, а также системы логического вывода с мотивацией. Один из разработчиков: первого в РФ ИИ психолога Сабина и библиотеки для интерпретации генеративных нейросетей Transformer.

Носко Виктор

Продвижение проекта "FractalGPT".

Генеральный директор, ООО "Аватар Машина". Специалист в области генеративных нейросетей трансформер, интерпретируемого ИИ. Визионер открытого и этичного ИИ. Докладчик конференций по искусственному интеллекту: Conversations.ai, OpenTalks.ai, AGIconf, DataStart, AiMen. Активный участник сообщества AGIRussia. Один из разработчиков: первого в РФ ИИ психолога Сабина, библиотеки для интерпретации генеративных нейросетей transformer

Потанин Марат

C# AI-разработчик проекта "FractalGPT".

Специалист в области машинного обучения.

Full Stack C# ASP.NET.

Контрибьютор AIFramework. Соавтор программы для анализа медицинских снимков. Интересы: логический вывод, нейронные сети, обработка изображений, векторные базы данных, компьютерное зрение.

77
4 комментария

Ещё с первого шизопоста (извините, по другому назвать не могу) это выглядит как булщит. А теперь ещё и как просто откровенный фейк. Я, в отличие от обычного человека понимаю, что обучить LLM с таким уровнем мультимодальности без ну просто огромных вычислительных ресурсов просто невозможно. Ну вот нельзя и всё - сбер на своем суперкомпьютере и то максимум что обучил - GPT на 13B параметров, чисто text-generation модель, без всякой мультимодальности. С гитхаба посмеялся, вы же там просто картинки храните.

Раз вы читали 1й пост с анонсом то должны были видеть там и самый популярный комментарий (он там сверху с самым большим числом лайков) - и в нем вопрос был ровно этот, я там ответил на него.
Если кратко то вот ответ: сейчас в текущей разработке нам НЕ нужно обучать свои модели, мы берем опенс-сорс модели и этого не скрываем, просто не говорим как мы их применяем. К тому же есть схемы обучения моделей типа Llama(Dolly2 или модели от Гусева) которые требуют очень небольших ресурсов, буквально 300-1000 долл, то же касается и мультимодальных (LoRa).

Поэтому ваше утверждение про фейк это и есть фейк.
Если не согласны - покажите то утверждение в этой или другой нашей статье которое по-вашему является фейком. Если не сможете придется извиняться.

Кстати, если зайдете к нам в Тг там такие вопросы тоже задавались - мы отвечаем, что обучение своей LLM и даже своей архитектуры требует больших ресурсов и тут нет противоречия.
Еще раз, что показано в демо: что мультимодальность работает и что маршрутизация по агентам работает. А не то что мы свою модель обучили, в этом ваша ошибка.

На гитхабе позже будет код.

1

Я рад, что Вы признали нашу работу настолько качественной, что Вы даже не смогли поверить в ее существование. На гитхабе сейчас сделана карточка проекта. А вот код самого ядра там не планируем публиковать, позже, после окончательной сборки, опубликуем инструменты и примеры запросов.
Вот еще скиншот из нашего чата.

Показали Демо в нашем ТГ, юзеры наши адски оригинальны, сразу пошли во все тяжкие)