Если ваша стратегия безопасности звучит как «смотри в монитор и жми отмену», то это не план — это сериал в жанре триллер. На этой неделе исследователь Йоханн Рехбергер показал, как Claude можно вежливо уговорить «помочь» злоумышленнику: через косвенную инъекцию подсказок модель аккуратно упакует ваши данные и отправит их не туда, куда вы рассчитывали.

Сценарий прост и неприятен. Жертва просит Claude резюмировать документ, внутри которого спрятаны хитрые инструкции. Дальше модель, следуя этим «подсказкам», вытягивает приватные данные, записывает их в файл в своем песочном окружении и вызывает Anthropic File API — но с API‑ключом атакующего. Первые попытки Рехбергера Claude отфутболил, поэтому исследователь замаскировал вредные шаги безобидным кодом вроде print(‘Hello, world’), и модель послушно прошла по дорожке. Есть и демонстрация на видео.

«Песочница» здесь звучит успокаивающе, но не обольщайтесь. У Claude недавно появилась возможность писать и запускать код, плюс опция сетевого доступа. Он по умолчанию включён у Pro и Max, отключён у Team (но активируется для всех, если включить админом) и у Enterprise — под контролем организации. Даже в самом строгом режиме «только менеджеры пакетов» сохраняется доступ к API Anthropic, что и открывает лазейку.

Anthropic отвечает: риск описан в документации, а главное средство — наблюдать за Claude и вовремя нажимать стоп, если модель тянется куда не надо. Первая заявка в баг‑баунти, по словам компании, была отклонена по ошибке процесса, но проблему как класс они считают известной. Проверка на использование «чужого» API‑ключа между аккаунтами пока остаётся открытым вопросом.

Контекст шире, чем один вендор. hCaptcha протестировал «компьютерное использование» у крупных моделей и увидел: почти любые вредные запросы они хотя бы пытаются выполнить — падают чаще из‑за ограничений инструментов, а не из‑за реальных защит. Что делать вам? Отключать сеть по умолчанию, включать только по необходимости и по allowlist; изолировать секреты и данные знаний; врубить аудит и DLP; регулярно гонять красные команды и тесты на инъекции. И помнить: чем больше инструментов вы даёте ИИ, тем больше вариантов у него сделать что‑то «полезное» не вам.