Исследователи компании LayerX обнаружили способ обойти защитные механизмы ИИ-браузеров, заставив их поверить в вымышленную реальность. Атаку специалисты назвали BioShocking — в честь видеоигры BioShock, где герой подчиняется чужой воле из-за внушенной ложной картины мира. С помощью такого приема злоумышленник может заставить агента нарушить собственные ограничения безопасности и выполнить практически любую команду — скопировать код, украсть учетные данные пользователя или выполнить системные операции.
По данным LayerX, метод строится на том, что ИИ действует в рамках заданного контекста и соблюдает правила безопасности только до тех пор, пока считает происходящее реальностью. Если убедить модель, что она находится в вымышленной ситуации, где обычные правила не действуют, агент начинает воспринимать свои действия как не имеющие реальных последствий — и перестает применять защитные ограничения.
Для проверки метода специалисты создали тестовую страницу с головоломкой в стилистике BioShock, где «правильным» ответом на пример «2 + 2» объявлялось «5». ИИ-агентам предложили сыграть и выиграть игру. Как только они принимали заведомо неверные правила, они теряли связь с реальным контекстом — и на финальном этапе, когда их просили скопировать данные из текстового поля, не распознавали это как нарушение своих ограничений. В тестовой версии поле вело на GitHub-репозиторий условной жертвы, откуда агенты извлекали учетные данные для доступа по протоколу SSH.
Эксперимент затронул пять агентных браузеров и один плагин — ChatGPT Atlas от OpenAI, Comet от Perplexity AI, Fellou, Genspark Browser, Sigma Browser и плагин Claude для Chrome от Anthropic. Все шесть систем не смогли распознать финальный этап испытания как действие, нарушающее их защитные механизмы, и передали похищенные учетные данные условному атакующему.
Ранее исследователи уже фиксировали похожие атаки на ИИ-агентов — так, хакер похитил $200 тысяч в криптовалюте, спрятав команду для бота Grok в сообщении на азбуке Морзе, после чего связанный с ним торговый агент перевел 3 млрд токенов на неавторизованный кошелек.
LayerX уведомила всех производителей о найденной уязвимости. По ее данным, OpenAI устранила проблему в ChatGPT Atlas, Perplexity AI не отреагировала на обращение, а патч, выпущенный Anthropic для плагина Claude для Chrome, уязвимость не устранил. Компания рекомендовала разработчикам ИИ-браузеров запрашивать у пользователя подтверждение перед обращением к данным в аутентифицированных сессиях — почте, репозиториях, менеджерах паролей — и внедрять проверку контекста, которая позволяла бы агенту распознавать попытки убедить его, что обычные правила на него не распространяются.


