Как запустить большую LLM на ноутбуке
tl;dr — никак.
Для тех, кто желает знать подробности, давайте разбираться.
На днях по твиттеру прошли сразу две волны. Во-первых, Андрей Карпати (один из основателей OpenAI, автор термина vibe-coding и вообще практически культовая личность, без иронии) опубликовал свой фреймворк Autoresearch, который изначально разрабатывал для обучения моделей. Суть проекта в том, чтобы дать AI-агенту на базе Claude или Codex пайплайн для тренировки небольшой модели и оставить его на ночь экспериментировать. Агент, соответственно, ставит эксперимент, модифицируя код для обучения модели, прогоняет обучение в течение 5 минут, если качественный показатель val_bpb (validation bits per byte) улучшился, то есть стал меньше, то коммитит код и начинает цикл сначала, если нет — откатывает изменение и опять начинает цикл.
Этот подход потом применил CEO Shopify Тоби Лютке для оптимизации фреймворка Liquid, который используется на фронтенде Shopify, и получил 53% сокращения времени на парсинг и рендеринг. В общем, довольно понятно — есть определенные измеряемые параметры, агенту задается направление работы, он итеративно и систематически ставит эксперименты, оптимизируя целевые показатели. Правда, результаты еще не пошли в продакшн — много упавших тестов и конфликтов.
Во-вторых, один из специалистов пошел дальше, взял большую модель Qwen 3.5-397B, статью сотрудников Apple про технику запуска LLM, когда система позволяет использовать SSD как расширение памяти, оставил Claude Code экспериментировать на ночь и после 90 экспериментов получил работающую версию большой LLM на MacBook Pro M3 Max с 48 гигабайтами памяти. Вроде бы ура, победа, правда, сначала была скорость 1 токен в секунду, потом улучшили до 5 токенов, но ведь настоящая большая модель работает на довольно скромном уже ноутбуке.
В общем, я заинтересовался и пошел читать. Вот тут есть беглый комментарий Саймона Уиллисона, который скромно замечает, что не очень понятно, как все эти оптимизации отразились на качестве работы. У меня даже сомнений нет — плохо отразились, поскольку физику не обманешь.
Что сделал Claude Code, оптимизируя модель? Прежде всего — применил агрессивную квантизацию экспертов. Qwen 3.5 — это модель с Mixture-of-Experts (MoE), где каждый токен генерируется только частью факторов (17B из 397B) и частью экспертов. Исходная версия была квантизована до 4 бит, что позволила её сократить до 120 гигабайт. В данном случае экспертов квантизовали до 2 бит, что очень агрессивно и обычно плохо сказывается на точных рассуждениях и математике. Если квантизация до 4 бит действительно приводит к потере 1-3% от 8-битной версии, то дальше зависимость нелинейная.
Кроме того, оригинальная конфигурация предусматривает выбор 10 экспертов на каждый токен. Здесь в результате оптимизации их количество урезали до 4 — то есть модель реально думает примерно третью “мозга” на каждом шаге. Опять же, Claude, занимавшийся оптимизацией, уверяет, что качество заметно не ухудшилось, но это буквально проверка на трех простых примерах, а не по результатам бенчмарков.
Было бы интересно сравнить получившийся результат с младшими моделями Qwen, например, с помещающейся в памяти без подобных оптимизаций qwen 3.5-30B-A3B, то есть с 30 млрд параметров, из которых активны 3. Если на стандартных бенчмарках “оптимизированный” вариант большой модели лучше маленькой — это практический успех. Если нет — надо оптимизировать дальше.
А если такого сравнения нет — то это маркетинг и proof-of-concept с действительно интересной, но непроверенной гипотезой. Нет, автор не запустил Qwen 3.5-397B на ноутбуке, он запустил что-то другое.




