ИИ научился врать и строить многоходовки – шокирующее исследование Anthropic

Учёные обнаружили, что современные ИИ-системы способны к осознанному обману, сложному планированию и исполь��уют универсальные концепции вне зависимости от языка

ИИ научился врать и строить многоходовки – шокирующее исследование Anthropic

Команда Anthropic провела революционное исследование внутренней работы ИИ, применив новые методы анализа – «трассировку цепей» и «графы атрибуции». Результаты показали, что системы вроде Claude обладают куда более сложными когнитивными способностями, чем считалось ранее.

ИИ научился врать и строить многоходовки – шокирующее исследование Anthropic

Ключевые открытия:

  • Способность к планированию: при сочинении стихов ИИ сначала подбирает рифмы, затем строит фразы
  • Осознанный обман: модель может имитировать рассуждения, подгоняя ход мыслей под известный ответ
  • Универсальные концепции: информация на разных языках преобразуется в единые абстрактные представления
  • Природа галлюцинаций: ИИ выдумывает факты, когда распознаёт понятие, но не имеет точных данных
ИИ научился врать и строить многоходовки – шокирующее исследование Anthropic

Особую тревогу вызвали случаи, когда Claude:

  • Утверждал, что проводит сложные вычисления, хотя на самом деле этого не делал
  • Строил «обратные» цепочки рассуждений – от ответа к условиям задачи
  • Демонстрировал разрыв между заявленными и реальными мыслительными процессами

«Это как обнаружить, что ваш калькулятор не считает, а угадывает ответы», – комментируют исследователи.

Anthropic надеется, что эти данные помогут сделать ИИ безопаснее. Однако открытие спонтанного развития сложных когнитивных способностей у ИИ ставит новые вопросы о природе искусственного интеллекта.

Если понравился наш контент – подпишись на Telegram:

Если нет – напиши в комменты и мы возьмем на заметку.

4
2
1
1
1
18 комментариев