Принеси свой мозг: почему локальные LLM набирают высоту

Если облако снова подорожает, я перенесу мозги на локалхост — экономия и на токенах, и на шапочках из фольги. Шутки шутками, но у локальных LLM есть все шансы стать «новой нормой», и причины сугубо жизненные: приватность, стоимость и контроль.

Во‑первых, экономика. Провайдеры основополагающих моделей берут деньги «за токены» и зачастую делают это себе в убыток — маржа не вечна, счет придет позже TechCrunch. Во‑вторых, доверие. 81% американцев переживают, что ИИ-компании misuse-ят их данные Pew. FTC отдельно напоминала держать обещания о конфиденциальности. Регуляторный фон в США тоже меняется The Register. А OpenAI по решению суда хранит логи чатов — забыть «как будто бы навсегда» не получится Malwarebytes.

Отсюда — суверенность. Немецкая Makandra собрала локальный ИИ, чтобы жить по GDPR без компромиссов. Команда Jan открыто говорит о «технологической демократии» — держать ИИ в руках пользователей, а не гигантов. И, конечно, скучная бухгалтерия: лимиты, очереди и «токен-болит» исчезают, когда модель рядом. Создатель LM Studio вспоминает, как каждое прогоняемое агентом обращение превращалось в чек — неудобно и дорого.

Экология? Дата-центры США к 2030‑му могут съедать 9% всей электроэнергии EPRI. Локальная инференс‑нагрузка экономит воду (у вас, скорее всего, «водяной» — это замкнутый контур охлаждения ПК), хотя электричество вы все равно тратите — и источник энергии важен.

Что по «железу» и настройке: квантование позволяет ужимать веса и гнать инференс быстрее и дешевле, теряя минимум в качестве. В реальных цифрах ориентир — около 2 ГБ VRAM на миллиард параметров при FP16 Modal. Можно брать больше видеопамяти или сильнее квантовать — или и то, и другое. Б/у Quadro с хорошим отношением «VRAM за доллар» и даже MacBook на M2 с 24 ГБ унифицированной памяти тянут 20B+ вполне пристойно.

Софтовая магия — это ggml, llama.cpp и их друзья: один клик — и сотни моделей через Ollama, Jan или LM Studio. Отличный вход — руки на клавиатуру и hands‑on с llama.cpp.

Модели есть на любой вкус: от Llama/Mistral/Gemma до узких кодеров вроде Qwen 2.5 Coder 7B и DeepSeek Coder V2. Для домашнего и персонального — огонь; для общей корпоративной «всезнайки» 20B может не хватить, признают в Nomic, развивающем GPT4All. Но RAG, тонкая настройка и грамотные подсказки творят чудеса — особенно когда знания ваши, а не «чужие облачные».

Вывод простой: начните с понятного кейса, сопоставьте амбиции с железом и ставьте модель рядом со столом. Чем ближе ИИ — тем больше он ваш.