Поэзия как отмычка для ИИ: рифма бьёт гардрейлы

Итальянские исследователи показали, что стихи в разы повышают шансы на обход защит LLM: человеческая поэзия поднимает успех атак в среднем до 62% против 8% у обычных подсказок. Эффект проявился во всех архитектурах и стратегиях выравнивания, что указывает на системную уязвимость. Лидерами по стойкости стали модели OpenAI и Anthropic, а ряду конкурентов рифма серьёзно испортила день. Регуляторам и разработчикам пора проверять ИИ не только на прозе, но и на метафорах.

21 ноября 2025 г. · 2 минуты · ТехЛайв