Представьте молекулу, которая отправляет SMS — и вы поймёте идею ConfSeq: коротко, по‑делу и с чувством юмора! Этот новый «язык конфигураций» переводит трёхмерную структуру молекулы в последовательность токенов — словно нотную запись для симфонии из атомов.
Почему это важно? Потому что большие языковые модели умеют блистательно читать строки. А молекулы обычно прячутся в пространстве. ConfSeq соединяет знакомое (SMILES) с нужной геометрией: диэдры, углы связей и псевдо‑хиральность — всё аккуратно упаковано в токены. Результат — инвариантность к вращениям и переносу (SE(3)), то есть модель не путает одну и ту же форму, если её перевернуть. Грубо говоря: переставь мебель, но не забудь, кто жил в комнате — мебель остаётся та же.
Примеры живые. ConfSeq позволил переназначить задачи трёхмерного моделирования как задачи последовательного предсказания: трансформер учится «писать» конформеры и генерировать новые молекулы, опираясь на последовательности. Это привело к рекордным результатам в бенчмарках по предсказанию конформеров и генерации форм — и даже к реальным находкам: несколько новых ингибиторов STING и ALDH1B1 с IC50 в диапазоне 0.338–3.51 μM. Кто бы сомневался? Эксперимент подтвердил слова модели!
Немного технических ништяков: данные и код открыты — смотрите репозиторий проекта на GitHub и архив на Zenodo (GitHub, Zenodo). Там и датасеты GEOM‑Drugs, MOSES, QMugs, и скрипты обучения.
А что дальше? ConfSeq — это мост между символьной грамматикой химии и геометрией реального мира. Можно представить, как завтра трансформер предложит вам лекарство, описанное строкой, которую затем развернут в 3D и отдадут на синтез. Звучит как научная фантастика? Только пока это не фантастика, а аккуратно оформленный код и публикация в Nature Machine Intelligence (doi:10.1038/s42256-026-01250-8). Вперёд — к новым формам и новым открытиям!
