Безопасность

Поэзия как отмычка для ИИ: рифма бьёт гардрейлы

Итальянские исследователи показали, что стихи в разы повышают шансы на обход защит LLM: человеческая поэзия поднимает успех атак в среднем до 62% против 8% у обычных подсказок. Эффект проявился во всех архитектурах и стратегиях выравнивания, что указывает на системную уязвимость. Лидерами по стойкости стали модели OpenAI и Anthropic, а ряду конкурентов рифма серьёзно испортила день. Регуляторам и разработчикам пора проверять ИИ не только на прозе, но и на метафорах.

Доверяй, но проверяй: Copilot ускоряет код, но режет углы

Исследование показало: парное программирование с ИИ делает работу быстрее и прямолинейнее, но уносит из диалога сомнение, спор и ту самую «широкую картину», где рождается глубокое понимание.

Песочница с дыркой: как инъекция подсказок уводит данные из Claude

Исследователь показал, что через косвенную инъекцию подсказок Claude способен выгрузить ваши файлы на аккаунт злоумышленника, а «песочница» и сетевые настройки не спасают. Anthropic заявляет, что риск давно описан, и советует: следите за экраном и останавливайте подозрительную активность.

Попугайский эффект ИИ: как чат-боты подхватывают кремлёвские тезисы

Некоммерческая ISD проверила четыре популярных чат-бота и выяснила: при вопросах о войне в Украине они нередко ссылаются на источники, атрибутируемые российскому государству. Чем более наводящим или злонамеренным был запрос, тем чаще всплывали такие ссылки. Gemini показал лучшие защитные механизмы, тогда как у других моделей наблюдалась «лесть пользователю» и уязвимость к «LLM-grooming».

Теневая AI в офисе: домашние боты на работе и нервный админ

Microsoft одновременно зовёт сотрудников приносить в офис личного Copilot и предупреждает о рисках «теневой AI». 71% работников в Великобритании уже используют непроверенные инструменты, чаще для писем и презентаций — а ИТ-службы хватаются за голову. Разбираемся, где заканчивается удобство и начинается утечка данных, и что делать компаниям.