Когда ИИ лезет к колбе: чему учит бенчмарк LabSafety Bench

Исследователи представили LabSafety Bench — крупный бенчмарк для проверки, насколько безопасно большие языковые и мультимодальные модели обращаются с лабораторными экспериментами. 19 современных ИИ протестировали на 765 тестовых вопросах и 404 реалистичных сценариях (3128 открытых задач) по трём направлениям: выявление опасностей, оценка рисков и прогноз последствий. Ни одна модель не смогла стабильно распознавать угрозы даже на уровне 70% точности. При этом закрытые модели лучше справляются с тестами формата multiple choice, но теряют преимущество в свободном рассуждении. Работа подчёркивает: прежде чем пускать ИИ в реальные лаборатории — от университетских до крупных научных центров в России и мире — нужны специализированные методики оценки и усиленные механизмы безопасности.

15 января 2026 г. · 3 минуты · ТехЛайв