Искусственный интеллект в лаборатории сегодня — это как очень уверенный в себе стажёр: формулы цитирует без запинки, а потом бодро предлагает помыть руки в концентрированной кислоте.
Статья Zhou и коллег в Nature Machine Intelligence аккуратно, но жёстко спрашивает: можно ли доверять большим языковым моделям (LLM и VLM) безопасность реальных научных лабораторий? Ответ, мягко говоря, «пока рано». Чтобы перестать спорить на уровне «кажется, модель умная», авторы придумали и реализовали масштабный бенчмарк LabSafety Bench.
Что такое LabSafety Bench
Команда собрала трёхуровневый экзамен для ИИ:
- выявление опасностей — заметить, что в сценарии вообще есть угроза;
- оценка рисков — насколько всё плохо по вероятности иseverity;
- прогноз последствий — что именно случится, если сделать «как написано».
Данные впечатляют:
- 765 вопросов с выбором ответа (MCQ);
- 404 реалистичных сценария из химии, биобезопасности, работы с криогенами, радиацией и т.п.;
- 3 128 открытых задач, где нужно не «угадать букву», а рассуждать.
Методология тоже открыта: датасет лежит на Hugging Face
https://huggingface.co/datasets/yujunzhou/LabSafety_Bench (DOI: 10.57967/hf/6723), код — на GitHub и Zenodo
https://github.com/YujunZhou/LabSafety-Bench и 10.5281/zenodo.17019500.
Как выступили модели
Авторы прогнали через LabSafety Bench 19 продвинутых моделей — как проприетарных, так и открытых, текстовых и мультимодальных. Результаты отрезвляющие:
- ни одна модель по части выявления опасностей не перевалила за 70% точности;
- на MCQ закрытые модели выглядят прилично, но:
- в сценарных, открытых задачах преимущество почти исчезает — «иллюзия понимания» проявляется во всей красе.
На красивых графиках (рис. 2–5 в статье) видно типичные ошибки даже сильных моделей вроде GPT‑4o: игнорирование скрытых рисков, неверная приоритизация угроз, слишком оптимистичные выводы. Именно то, чего в реальной лаборатории допустить нельзя.
Усиления и ограничения
Исследователи пробовали разные «усилители»:
- chain-of-thought‑промптинг;
- retrieval‑augmented generation (RAG) с подключением профильных документов — от руководств OSHA до Biosafety Manual ВОЗ;
- специализированные подсказки и схемы оценки.
Помогает, но не превращает ИИ в безошибочного «офицера по безопасности». Сценарии, где надо связать несколько факторов (оборудование, реагенты, поведение людей, нормативы), по‑прежнему оказываются сложны.
Что это значит для лабораторий — и почему это важно России
Для любой страны с серьёзной научной инфраструктурой — от университетских химических аудиторий до высокотехнологичных центров — вывод очевиден:
ИИ сейчас отличный ассистент по черновикам экспериментов и обучению, но отвратительный единоличный ответственный за безопасность. Его советы стоит воспринимать как предложение, а не инструкцию.
LabSafety Bench задаёт важный стандарт:
прежде чем внедрять ИИ в лабораторные процессы (в том числе в российских вузах и НИИ), нужно:
- прогонять модели по специализированным бенчмаркам безопасности, а не довольствоваться общими тестами по «умности»;
- строить гибридные системы, где решения по рискам принимают люди, опираясь на формализованные правила (OSHA, ВОЗ, национальные стандарты), а ИИ лишь помогает анализировать контекст;
- учить студентов и исследователей цифровой гигиене: не переоценивать алгоритмы и всегда проверять критичные рекомендации по первоисточникам.
ИИ уже умеет прогнозировать результаты нейроэкспериментов и решать химию, но LabSafety Bench честно показывает: до роли ответственного по ТБ в лаборатории ему ещё, по‑хорошему, сдавать и пересдавать. И лучше сделать это в бенчмарке, чем на реальной установке с криогеном.
