
Когда ИИ лезет к колбе: чему учит бенчмарк LabSafety Bench
Исследователи представили LabSafety Bench — крупный бенчмарк для проверки, насколько безопасно большие языковые и мультимодальные модели обращаются с лабораторными экспериментами. 19 современных ИИ протестировали на 765 тестовых вопросах и 404 реалистичных сценариях (3128 открытых задач) по трём направлениям: выявление опасностей, оценка рисков и прогноз последствий. Ни одна модель не смогла стабильно распознавать угрозы даже на уровне 70% точности. При этом закрытые модели лучше справляются с тестами формата multiple choice, но теряют преимущество в свободном рассуждении. Работа подчёркивает: прежде чем пускать ИИ в реальные лаборатории — от университетских до крупных научных центров в России и мире — нужны специализированные методики оценки и усиленные механизмы безопасности.



