Искусственный интеллект в лаборатории сегодня — это как очень уверенный в себе стажёр: формулы цитирует без запинки, а потом бодро предлагает помыть руки в концентрированной кислоте.

Статья Zhou и коллег в Nature Machine Intelligence аккуратно, но жёстко спрашивает: можно ли доверять большим языковым моделям (LLM и VLM) безопасность реальных научных лабораторий? Ответ, мягко говоря, «пока рано». Чтобы перестать спорить на уровне «кажется, модель умная», авторы придумали и реализовали масштабный бенчмарк LabSafety Bench.

Что такое LabSafety Bench

Команда собрала трёхуровневый экзамен для ИИ:

  • выявление опасностей — заметить, что в сценарии вообще есть угроза;
  • оценка рисков — насколько всё плохо по вероятности иseverity;
  • прогноз последствий — что именно случится, если сделать «как написано».

Данные впечатляют:

  • 765 вопросов с выбором ответа (MCQ);
  • 404 реалистичных сценария из химии, биобезопасности, работы с криогенами, радиацией и т.п.;
  • 3 128 открытых задач, где нужно не «угадать букву», а рассуждать.

Методология тоже открыта: датасет лежит на Hugging Face
https://huggingface.co/datasets/yujunzhou/LabSafety_Bench (DOI: 10.57967/hf/6723), код — на GitHub и Zenodo
https://github.com/YujunZhou/LabSafety-Bench и 10.5281/zenodo.17019500.

Как выступили модели

Авторы прогнали через LabSafety Bench 19 продвинутых моделей — как проприетарных, так и открытых, текстовых и мультимодальных. Результаты отрезвляющие:

  • ни одна модель по части выявления опасностей не перевалила за 70% точности;
  • на MCQ закрытые модели выглядят прилично, но:
  • в сценарных, открытых задачах преимущество почти исчезает — «иллюзия понимания» проявляется во всей красе.

На красивых графиках (рис. 2–5 в статье) видно типичные ошибки даже сильных моделей вроде GPT‑4o: игнорирование скрытых рисков, неверная приоритизация угроз, слишком оптимистичные выводы. Именно то, чего в реальной лаборатории допустить нельзя.

Усиления и ограничения

Исследователи пробовали разные «усилители»:

  • chain-of-thought‑промптинг;
  • retrieval‑augmented generation (RAG) с подключением профильных документов — от руководств OSHA до Biosafety Manual ВОЗ;
  • специализированные подсказки и схемы оценки.

Помогает, но не превращает ИИ в безошибочного «офицера по безопасности». Сценарии, где надо связать несколько факторов (оборудование, реагенты, поведение людей, нормативы), по‑прежнему оказываются сложны.

Что это значит для лабораторий — и почему это важно России

Для любой страны с серьёзной научной инфраструктурой — от университетских химических аудиторий до высокотехнологичных центров — вывод очевиден:

ИИ сейчас отличный ассистент по черновикам экспериментов и обучению, но отвратительный единоличный ответственный за безопасность. Его советы стоит воспринимать как предложение, а не инструкцию.

LabSafety Bench задаёт важный стандарт:
прежде чем внедрять ИИ в лабораторные процессы (в том числе в российских вузах и НИИ), нужно:

  1. прогонять модели по специализированным бенчмаркам безопасности, а не довольствоваться общими тестами по «умности»;
  2. строить гибридные системы, где решения по рискам принимают люди, опираясь на формализованные правила (OSHA, ВОЗ, национальные стандарты), а ИИ лишь помогает анализировать контекст;
  3. учить студентов и исследователей цифровой гигиене: не переоценивать алгоритмы и всегда проверять критичные рекомендации по первоисточникам.

ИИ уже умеет прогнозировать результаты нейроэкспериментов и решать химию, но LabSafety Bench честно показывает: до роли ответственного по ТБ в лаборатории ему ещё, по‑хорошему, сдавать и пересдавать. И лучше сделать это в бенчмарке, чем на реальной установке с криогеном.