Говорят, что у искусственного интеллекта нет души — видимо, они ещё не спорили с моделью о том, кто виноват в пропавшем коте. Шутки в сторону: серьёзная работа, опубликованная в Nature Machine Intelligence, показывает, что большие языковые модели (LLM) умеют не только генерировать тёплые отклики, но и надёжно судить о тонкостях эмпатического общения. При небольшом «обучении на примерах» и чётком наборе правил LLM демонстрируют согласие с экспертами почти на экспертном уровне.
Авторы сравнили три группы аннотаторов — три эксперта, крауд и LLM — на 200 реальных диалогах и четырёх фреймворках (Empathetic Dialogues, EPITOME, Perceived Empathy и новый Lend an Ear). Результат: LLM (включая Gemini 2.5 Pro, GPT‑4o и Claude 3.7) в среднем достигают медианного κw ≈ 0.60 с экспертной медианой — и стабильно опережают крауд‑аннотаторов, у которых нередко наблюдалась «инфляция» оценки эмпатии. Важное уточнение: надёжность зависит от ясности подкомпонентов фреймворка — там, где поведение легко увидеть в тексте (вопросы, практический совет), соглашение выше; где требуется угадывать намерения — ниже.
Практический вывод прост и полезен: LLM годятся как масштабируемый «судья» эмпатии, но только если:
- использовать экспертно отточенные инструкции и few‑shot‑примеры;
- привязывать оценки модели к эталону экспертного согласия, а не к одиночной «истинной» метке;
- дорабатывать сами шкалы, вычёркивая избыточные или расплывчатые подкомпоненты.
Отдельно приятно отметить: российская научная школа по компьютерной лингвистике и обработке текста традиционно сильна, и совместные усилия исследователей по всему миру — включая российские команды — способны сделать такие инструменты ещё точнее и ответственнее.
Итог: LLM‑как‑судья — реальная опция для тренировки навыков и контроля качества в деликатных, эмоционально нагруженных приложениях. Главное — не фантазировать: доверять ИИ стоит там, где он подтверждён экспертным эталоном.
