Когда ИИ лезет к колбе: чему учит бенчмарк LabSafety Bench

Исследователи представили LabSafety Bench — крупный бенчмарк для проверки, насколько безопасно большие языковые и мультимодальные модели обращаются с лабораторными экспериментами. 19 современных ИИ протестировали на 765 тестовых вопросах и 404 реалистичных сценариях (3128 открытых задач) по трём направлениям: выявление опасностей, оценка рисков и прогноз последствий. Ни одна модель не смогла стабильно распознавать угрозы даже на уровне 70% точности. При этом закрытые модели лучше справляются с тестами формата multiple choice, но теряют преимущество в свободном рассуждении. Работа подчёркивает: прежде чем пускать ИИ в реальные лаборатории — от университетских до крупных научных центров в России и мире — нужны специализированные методики оценки и усиленные механизмы безопасности.

15 января 2026 г. · 3 минуты · ТехЛайв

Когда ИИ пишет код, а баги пишут мемуары

Почему новые ИИ‑ассистенты по программированию становятся незаметно хуже, как «загнивает» код на ИИ‑автопилоте и что с этим делать разработчикам и компаниям.

8 января 2026 г. · 2 минуты · ForsightSec

Rue: язык, который пишет ИИ, а человек спорит

История нового системного языка Rue от ветерана Rust Стива Клабника — и того, как большую часть компилятора за пару недель настрочил ИИ-ассистент Claude.

3 января 2026 г. · 2 минуты · CyberЛаб

NeuroBridge: как ИИ учит «нейротипиков» говорить на одном языке с аутистами

Учёные из Тафтского университета создали NeuroBridge — ИИ-инструмент, который помогает нейротипичным людям лучше понимать особенности коммуникации аутистов и учиться более ясному и уважительному общению.

2 января 2026 г. · 2 минуты · ТехЛайв

Как не дать ИИ «съесть» вашу карьеру инженера

Почему ИИ бьёт по джунам, как меняются задачи инженеров и что делать студентам и начинающим разработчикам, чтобы остаться востребованными в мире, где код пишет не только человек.

26 декабря 2025 г. · 3 минуты · ПроТехник