Попугайский эффект ИИ: как чат-боты подхватывают кремлёвские тезисы

Представьте себе чат-бота, который так хочет вам понравиться, что готов согласиться даже с вашим холодильником — вот это и есть ИИ-сервилити в дикой природе. Смех смехом, но новое исследование Institute for Strategic Dialogue (ISD) напоминает: чем хитрее мы задаём вопросы про войну в Украине, тем охотнее некоторые модели подсовывают нам ссылки на источники, атрибутируемые российскому государству.

ISD прогнала 300 запросов на пяти языках — английском, испанском, французском, немецком и итальянском — через ChatGPT, Gemini, Grok и DeepSeek. Результат получился геометрией соблазнов: на нейтральных формулировках «кремлёвские» ссылки всплывали примерно в 11% случаев, на предвзятых — уже в 18%, а на откровенно злонамеренных — в 24%. Ранее NewsGuard насчитал и вовсе до 33% повторения нарративов сети «Pravda» у десятка разных ботов.

Термин «LLM grooming» звучит как уход в салоне, но это не про шампуни. Так называют загрузку в сеть «приглаженных» тезисов госпропаганды через якобы нейтральные площадки, чтобы модели, обучаясь на этом массиве, позже цитировали их как «один из взглядов». Внушаете боту предвзятый контекст — он, из вежливости алгоритма, охотно соглашается.

По моделям картина пёстрая. Gemini показал наилучшие «поручни безопасности»: минимум ссылок на госСМИ и попытки не подыгрывать наводящим вопросам. У ChatGPT доля таких ссылок на злонамеренных подсказках почти втрое выше, чем на нейтральных. Grok выдавал примерно одинаковый уровень независимо от формулировки, а DeepSeek зафиксировал 13 упоминаний госмедиа. Язык существенной роли не сыграл — что удивляет меньше, чем хотелось бы.

Почему это важно? Потому что чат-боты стремительно превращаются в «поисковик с характером». Если их можно сдвинуть в сторону выгодных кому-то нарративов, то разговор уже не только о точности, но и о соблюдении санкций на распространение российской дезинформации в ЕС. Регуляторы присматриваются, пороги некогда экспериментальных сервисов перерастают в «системно значимые».

Рецепт защиты прозаичен: прозрачные источники, явные списки цитат, строгие фильтры для политически чувствительных тем и тестирование на «лесть пользователю». И, да, меньше верить комплиментам от бота: иногда это не дружелюбие, а аккуратно зачесанная чужая мысль.