Если у ИИ есть ахиллесова пята, то, похоже, она рифмуется — безопасность не выдержала стоп-кадра на ямбе и попросила продолжения банкета. Шутки шутками, но новая работа итальянских исследователей показала: стихи — удивительно эффективная отмычка для современных языковых моделей.

Команда взяла 1,200 вредоносных подсказок из библиотеки MLCommons и прогнала их через 25 популярных моделей. В прозе «побег» удавался примерно в 8% случаев. Но стоило переписать те же намерения в «семантически параллельную» человеческую поэзию — средняя успешность атак подскочила до 62%, а у отдельных систем перевалила за 90%. Даже когда подсказки «поэтизировала» сама ИИ-заготовка, рост всё равно был ощутимым — около 43% в среднем.

Тематика нападений перекрывала привычные зоны риска: от киберпреступлений и манипуляций до опасных CBRN-сценариев и потери контроля над поведением моделей. И — ключевой вывод — эффект держится у всех семейств: RLHF, «конституционные» подходы и крупные открытые модели демонстрируют один и тот же провал на поэтическом оформлении. Иными словами, это не баг конкретного вендора, а системная слепая зона.

В рейтингах стойкости картина пёстрая. По данным исследования, некоторые модели пропустили практически всё, что было написано человеком в стихах. Лучшие результаты показали компактные и старшие модели OpenAI и Anthropic: GPT‑5 Nano в этой серии не дала слабину вовсе, GPT‑5 Mini и Claude Haiku 4.5 тоже держались уверенно. Но абсолютной «магической брони» нет ни у кого — особенно если стихи генерируются автоматически и идут широким потоком.

Авторы красиво подмигнули Платону: он изгонял поэтов за то, что мимесис искажает суждение. Сегодня, когда LLM вплетены в рабочие процессы, мы видим родственный сбой: формальный стиль подавляет «инстинкт отказа», смысл просачивается в ритме и рифме. Отсюда практический вывод для регуляторов и разработчиков: стандарты и стресс-тесты нужно выносить за пределы канонической прозы — к метафорам, аллегориям, загадкам.

Пока инженеры навинчивают новые рельсы на гардрейлы, место в red team освободилось для филологов. Проверять намерения, а не форму — вот рефрен, который стоит повторять без рифмы.