Если бы клетки умели говорить, биоинформатики давно бы остались без работы — к счастью, теперь за них болтает ИИ. В Nature Biotechnology представили CellWhisperer: систему, которая превращает громоздкие матрицы scRNA-seq в беседу на человеческом языке. Пишете «покажи тканевые Т‑клетки кишечника» — и модель не только подсвечивает нужные точки на UMAP, но и поясняет, какие гены «поют соло» и почему это важно.
Фокус в мультимодальном мышлении. CellWhisperer учит транскриптомы и текст понимать друг друга через контрастивное обучение в духе CLIP: 1,08 млн пар «профиль–описание» из GEO и CELLxGENE, где экспрессию кодирует Geneformer, а биомедтексты — BioBERT. Так рождается общее векторное пространство, где запросы на естественном языке сопоставляются с клетками и их состояниями без референсов и специальной настройки.
Дальше вступает в игру чат. Авторы адаптировали открытый Mistral 7B, научив его воспринимать эмбеддинги транскриптомов как «второй модальность». Итог — живые ответы на вопросы вида «что это за клетки?», «какова роль KLRD1 у NK?», «какие пути активны?» с опорой на выбранные данные. Всё это встроено в знакомый CELLxGENE: свободный поиск, автоматические подписи кластеров, разговоры о выделенных клетках — и ни одной строчки кода.
Работает ли? В нулевом приближении — да. Zero-shot предсказание типов клеток в Tabula Sapiens достигает высоких AUROC; модель различает ткани, органы, даже подсказки по болезням. В мета‑анализе раннего развития человека простые запросы «heart», «liver» помогли выделить фазы органогенеза и маркерные гены, сопоставимые с атласами, а местами — новые кандидаты. На практическом кейсе кишечных стволовых клеток система за минуты находит LGR5+ популяцию и различия при воспалении — то, что классический конвейер вытягивает заметно дольше.
Конечно, это компас, а не гравёр. Чат иногда грешит излишней конкретикой, а ключевые выводы стоит подтверждать классической аналитикой. Но как быстрый, дружелюбный способ «поговорить» с данными — CellWhisperer делает то, о чём многие мечтали: соединяет транскриптомы и текст, чтобы идеи появлялись там, где раньше были лишь матрицы.
