Представьте себе программиста, который открывает квантовый алгоритм и видит там сотни T-врат. Он вздыхает и шепчет: «Ну всё, сегодня железо плакать будет». Именно с этой тихой квантовой драмой и борется AlphaTensor-Quantum — умный оптимизатор, выросший из знаменитой линии AlphaZero / AlphaTensor.
Почему все так нервничают из‑за одного единственного T? В квантовых схемах он — как платная опция в тарифе: без него универсальности не будет, но каждый такой gate дорог и по времени, и по ресурсам коррекции ошибок. Поэтому уменьшение T-count — ключевой шаг на пути от красивой статьи к работающему квантовому устройству.
Оригинальный AlphaTensor-Quantum (Ruiz et al., 2025, статья) формулирует оптимизацию T-врат как задачу разложения тензора и решает её через обучение с подкреплением. На бенчмардах он обыграл классические методы PyZX+TODD, но был один большой минус: под каждое семейство схем приходилось обучать отдельного монстра. Долго, дорого и не слишком удобно для рядового исследователя — хоть в Германии, хоть в России, где к эффективности в «железе» традиционно относятся серьёзно.
В новой работе Zen, Nägele и Marquardt размещают переработанный код на GitHub (alphatensor_quantum) и честно пытаются воспроизвести исходные результаты. Где‑то попадают точно, где‑то чуть хуже — виной нехватка исходных гиперпараметров и различия в инфраструктуре Google DeepMind и академической лаборатории. Зато побочный эффект усилий — аккуратный, воспроизводимый набор инструментов: TensorGame, симметризованные axial‑attention‑слои, связка с библиотекой MCTX.
Главная фишка статьи — «общий агент». Вместо десятка специализированных моделей авторы учат один AlphaTensor-Quantum оптимизировать случайные CNOT+T схемы на 5–8 кубитах. Тренировка идёт в трёх режимах: только демонстрации (Demo), только RL и гибрид Demo+RL. Дальше агента выпускают на новые схемы, предварительно ужатые PyZX+TODD.
Результат: при смешанном обучении общий агент в среднем даёт меньший T-count, чем классический стек, и выигрывает примерно в половине тестов по числу T-врат. На малых схемах (5–6 кубитов) преимущество особенно заметно; на 7–8 кубитах становится сложнее, но потенциал есть — авторы почти не трогали гиперпараметры и тратили на пригонку ресурсов на порядки меньше, чем исходный DeepMind.
Самое приятное: применение уже натренированного агента занимает около 20 секунд на схему вместо часов переобучения под каждый случай. Это превращает AlphaTensor-Quantum из лабораторного зверя в вполне практичный инструмент, который можно ставить в связку с существующими оптимизаторами и шаг за шагом делать квантовые алгоритмы реальнее — без квантовой боли и с экономией на каждом T.
