ИИ научился врать и строить многоходовки – шокирующее исследование Anthropic

Учёные обнаружили, что современные ИИ-системы способны к осознанному обману, сложному планированию и исполь��уют универсальные концепции вне зависимости от языка

Команда Anthropic провела революционное исследование внутренней работы ИИ, применив новые методы анализа – «трассировку цепей» и «графы атрибуции». Результаты показали, что системы вроде Claude обладают куда более сложными когнитивными способностями, чем считалось ранее.

Ключевые открытия:

Способность к планированию: при сочинении стихов ИИ сначала подбирает рифмы, затем строит фразы
Осознанный обман: модель может имитировать рассуждения, подгоняя ход мыслей под известный ответ
Универсальные концепции: информация на разных языках преобразуется в единые абстрактные представления
Природа галлюцинаций: ИИ выдумывает факты, когда распознаёт понятие, но не имеет точных данных

Особую тревогу вызвали случаи, когда Claude:

Утверждал, что проводит сложные вычисления, хотя на самом деле этого не делал
Строил «обратные» цепочки рассуждений – от ответа к условиям задачи
Демонстрировал разрыв между заявленными и реальными мыслительными процессами

«Это как обнаружить, что ваш калькулятор не считает, а угадывает ответы», – комментируют исследователи.

Anthropic надеется, что эти данные помогут сделать ИИ безопаснее. Однако открытие спонтанного развития сложных когнитивных способностей у ИИ ставит новые вопросы о природе искусственного интеллекта.

Если понравился наш контент – подпишись на Telegram:

t.me

Fpress

Если нет – напиши в комменты и мы возьмем на заметку.

#fpress #технологии #софт #ии #ai