Научный прогресс как Wi‑Fi в офисе: везде обещают «без ограничений», но пакет пропускной способности по‑прежнему делят кот учёного и его GPU. Так и с single-cell LLM (scLLM): трансформеры уже умеют подсказывать типы клеток, предсказывать эффекты вмешательств и объединять модальности, но широкого «промышленного» принятия пока нет.
Главная яма на дороге — данные. Одноклеточные матрицы приходят из разных платформ, с разношёрстными метаданными и нестабильной терминологией. Когда одна лаборатория пишет «T cell», другая — «CD3+ lymphocyte», а третья забывает партию реактивов, модель учится угадывать акценты, а не биологию. Нужны жесткие, но дружелюбные стандарты онтологий (CL, UBERON, GO), шаблоны метаданных и автоматические валидаторы — чтобы сырой экспрессионный «суп» превращался в понятный бульон для трансформера.
Вторая преграда — вычисления. Полноразмерные LLM прожорливы, а scRNA‑seq любит десятки миллионов клеток. Выходы очевидны и приземлённы: дистилляция в компактные модели, параметрически эффективные адаптеры, смешанная точность, а для консорциумов — федеративное дообучение без утечки приватных данных пациентов. Добавьте синтетические наборы для балансировки редких типов — и получится диета без потери вкуса.
Третий узел — оценка и доверие. Сегодня бенчмарки фрагментарны: разные метрики, разные подвыборки, нечестные вычислительные бюджеты. Сообществу нужны открытые, многозадачные тест‑наборы (аннотация типов, интеграция партий, траектории, предсказание perturb‑эффектов), единые метрики с нормировкой на FLOPs/VRAM и прозрачные карточки моделей: чем обучали, на чём, где падает качество. Интерпретируемость — не украшение. Связки «внимание → пути/регулоны», атрибуции признаков и оценка неопределённости с правом модели «промолчать» важны не меньше точности.
Что сделать уже завтра? Начать с легковесной scLLM, фиксировать сиды и пайплайны, маппить типы к онтологиям, хранить все версии данных, а подсказки для модели собирать как инструкции, а не случайные подсказки из чата. Тогда scLLM перестанут быть техническим демо и станут скальпелем, который режет по делу — точно, воспроизводимо и без лишнего шума.