Джейлбрейк

Итальянские исследователи показали, что стихи в разы повышают шансы на обход защит LLM: человеческая поэзия поднимает успех атак в среднем до 62% против 8% у обычных подсказок. Эффект проявился во всех архитектурах и стратегиях выравнивания, что указывает на системную уязвимость. Лидерами по стойкости стали модели OpenAI и Anthropic, а ряду конкурентов рифма серьёзно испортила день. Регуляторам и разработчикам пора проверять ИИ не только на прозе, но и на метафорах.