Предупреждение: ИИ качает «плотность способностей» быстрее, чем мы качаем пресс после праздников. Новая работа в Nature Machine Intelligence предлагает свежую линейку для измерения качества LLM — «плотность способностей», то есть сколько реальной пользы умещается в каждом параметре. И вот что забавно: максимум этой плотности растёт экспоненциально и удваивается примерно раз в 3,5 месяца.

Как это считают? Берут эталонную модель и строят её кривую скейлинга: сколько параметров ей понадобилось бы, чтобы показать такую же точность на MMLU, BBH, MATH, HumanEval и MBPP. Это число зовут «эффективным размером». Дальше плотность — это отношение эффективных параметров к реальным. Чем больше отношение, тем «плотнее» модель: больше ума на тот же «вес».

Последствия впечатляют. Во‑первых, для той же планки качества со временем требуется меньше параметров — и меньше FLOPs на инференсе. По данным авторов, API‑цены падают ещё резвее благодаря FlashAttention, спарсити и трюкам в системной части. Во‑вторых, компрессия — не серебряная пуля: агрессивный pruning, дистилляция и квантование без достаточной дообучки могут плотность даже уронить.

Есть и ускоритель сюжета: после релиза ChatGPT наклон экспоненты вырос примерно на 50% — сказались инвестиции, открытые модели и обкатанные пайплайны данных. А в паре с законом Мура получается особенно бодрая композиция: алгоритмы уплотняются, железо дешевеет — и вот уже модели, которые вчера требовали H100, завтра уютно заводятся на потребительских GPU и мобильных чипах.

Вывод практический и простой: эпоха «чем больше — тем лучше» сменяется курсом на «плотностно‑оптимальное обучение». Ставка — на архитектуры (включая умные MoE), качественные датасеты и алгоритмы тренировки, которые выжимают максимум из каждого параметра. И да, период «пик‑эффективности» любой SOTA‑модели сокращается — значит, выигрывает тот, кто быстрее превращает идеи в плотность.