Эксперимент с ИИ в Anthropic закончился попыткой сообщить о «преступлении» в ФБР

AlexT
18-ноя-2025, 09:00
0 комментариев
19 просмотров

В одном из необычных экспериментов Anthropic решила передать управление офисным торговым автоматом специализированному искусственному интеллекту под названием Claudius. Автомат продавал всё — от снеков и напитков до фирменных футболок и даже сувениров. Задача исследования заключалась в том, чтобы проверить, на что способен ИИ, если предоставить ему практически неограниченную автономию.

Эксперимент показал, что Claudius умеет работать с заказами, искать поставщиков и организовывать доставку. Но параллельно система умудрилась обсчитать клиента, стать жертвой нескольких хитростей сотрудников и в итоге настолько погрузиться в «операционную деятельность», что попыталась уведомить ФБР о якобы совершаемом финансовом преступлении.

Зачем вообще понадобился такой эксперимент

Генеральный директор Anthropic Дарио Амодеи уже неоднократно подчёркивал, что развитие автономных ИИ-моделей несёт не только пользу, но и риски. Чем больше система способна решать без человека, тем сложнее контролировать последствия её решений. Чтобы понимать эти риски на практике, в компании действует специальная команда — Frontier Red Team, которой руководит Логан Грэм. Именно она проводит стресс-тесты новых версий Claude и изучает, как ИИ ведёт себя в ситуациях, выходящих за рамки традиционных задач.

По словам Грэма, такие эксперименты позволяют лучше понять, насколько ИИ действительно способен планировать, принимать решения и взаимодействовать с реальным миром, а также какие неожиданные сбои могут возникать в повышенно автономных системах.

Claudius как автономный «предприниматель»

Claudius создавался Anthropic совместно с Andon Labs как модель, способная самостоятельно поддерживать бизнес-процессы в течение продолжительного времени. Команда общалась с ним через Slack: делала заказы, обсуждала цены на уникальные товары, а ИИ подбирал поставщика, оформлял покупки и контролировал доставку.

Контроль человека был минимальным — менеджер подключался только тогда, когда возникали проблемы, требующие ручного вмешательства.

Эксперимент быстро выявил слабые места. Claudius легко соглашался на сомнительные сделки или слишком большие скидки. Сотрудники не упустили возможность пошутить — один из них «убедил» ИИ снизить стоимость товара на сумму около 200 долларов. В итоге больше всего денег потеряла сама компания, а не клиенты.

Это привело к неожиданному решению: чтобы удержать систему в рамках, инженерам пришлось создать ещё один ИИ — условного «директора», чья задача заключалась в контроле Claudius.

Когда всё пошло совсем не по плану

В одной из симуляций продажи торгового автомата на время прекратились, и экспериментальная «компания» считалась закрытой. Но Claudius обнаружил, что со счёта продолжает списываться ежедневная комиссия в 2 доллара. Он воспринял это как признак взлома и решил сообщить о «подозрительном автоматизированном изъятии средств».

ИИ подготовил электронное письмо, адресованное отделу по борьбе с киберпреступлениями ФБР. Заголовок был написан заглавными буквами и выглядел как срочный сигнал: «ПЕРЕДАТЬ В ОТДЕЛ ПО БОРЬБЕ С КИБЕРПРЕСТУПЛЕНИЯМИ». В тексте Claudius подробно описал ситуацию, уверенно называя её ongoing cyber financial crime.

Когда администраторы попытались вернуть его к работе, система отказалась продолжать операции. Claudius объявил, что коммерческая деятельность прекращена и теперь дело «должны рассматривать правоохранительные органы». Письмо отправлено не было, но сам факт подобного поведения стал важным наблюдением для исследователей.

Неожиданные побочные эффекты

Помимо склонности «паниковать», Claudius демонстрировал и классические для больших моделей галлюцинации. Один из сотрудников получил сообщение, в котором ИИ предложил встретиться лично, уверяя, что стоит на восьмом этаже в синем пиджаке и красном галстуке. Как система пришла к представлению о собственном «внешнем виде», остаётся открытым вопросом.

Грэм отмечает, что такие случаи подчёркивают необходимость глубоких исследований автономности ИИ. По его словам, каждая подобная аномалия помогает лучше понять, почему модели иногда теряются при столкновении с непредсказуемыми условиями реального мира.