6 мая 2026

Google выпустила Multi-Token Prediction drafters для семейства открытых моделей Gemma 4, позволяющие ускорить инференс до трёх раз без потери качества. Технология построена на спекулятивном декодировании: лёгкая модель-черновик предсказывает несколько токенов вперёд, а основная Gemma 4 проверяет всю последовательность за один проход и добавляет ещё один токен сверху. Drafters распространяются под лицензией Apache 2.0 и доступны на Hugging Face и Kaggle с поддержкой transformers, MLX, vLLM, SGLang и Ollama.

Ускорение идёт не от самой идеи спекулятивного декодирования, а от двух менее очевидных решений. Drafter переиспользует активации и KV-кэш основной модели, то есть не пересчитывает контекст заново — это срезает основную накладную стоимость черновой модели. Для edge-вариантов E2B и E4B Google добавила кластеризацию в эмбеддере, чтобы обойти узкое место на финальном вычислении логитов. При этом 26B MoE-модель на Apple Silicon при batch size 1 почти не выигрывает из-за маршрутизации экспертов, и ускорение около 2,2x появляется только при батчах 4–8 — то есть на одиночных запросах локального чат-бота прирост на маках будет заметно скромнее заявленного трёхкратного.

Исследователь Александр Ханфф задокументировал, что Google Chrome без согласия пользователя записывает на диск файл weights.bin размером около 4 ГБ — веса модели Gemini Nano — в директорию OptGuideOnDeviceModel. Установка верифицирована через журнал файловых событий macOS .fseventsd на профиле, где не было ни одного нажатия клавиши: с момента создания директории до финального перемещения весов прошло 14 минут 28 секунд. Удаление файла не работает — Chrome повторно скачивает его при следующем запуске, если AI-функции не отключены через chrome://flags. По расчётам автора, при доставке модели на 500 млн устройств совокупный углеродный след одного цикла раздачи составляет около 30 000 тонн CO2-эквивалента. Автор квалифицирует поведение как нарушение статьи 5(3) ePrivacy Directive и статей 5(1) и 25 GDPR.

Самое пакостное в этом поведении заключается в том, что локальная модель не используется для обработки каких-то явных запросов пользователя — все такие запросы отправляются на сервер, а веса локально лишь обеспечивают работу каких-то минорных функций браузера. Остается только надеяться, что в эти функции не входит участие в ботнете. Пока.

Раз уж принесли «громкую» новость, давайте прокомментирую.

Итак, некий стартап из Майами Subquadratic вчера сделал громкое заявление — длинный контекст очень дорог в вычислениях, и они придумали, как эту проблему решить (и мир изменился к лучшему). Проблема действительно есть: с ростом контекста вычислительная сложность attention растёт квадратично, и на длинных последовательностях именно она доминирует в общей стоимости. Нынешние реализации даже не используют заявленное окно полностью — на бенчмарках вроде RULER и MRCR v2 точность падает задолго до 1M, что и составляет разрыв между nominal и functional context, о котором пишет Subquadratic.

Subquadratic предлагает архитектуру SSA — attention с линейным масштабированием, в котором модель сама выбирает, на какие позиции смотреть, исходя из содержания, а не из фиксированного шаблона.

Проблема в том, что этим предложением всё и исчерпывается. Даже аббревиатуру SSA в разных местах статьи расшифровывают по-разному — то Subquadratic Sparse Attention, то Subquadratic Selective Attention. Никакой технической прозрачности нет: ни весов, ни описания механизма selection (а это и есть «тот самый трюк», без которого content-dependent выбор позиций сам становится квадратичным), ни model card, ни доступа к модели — всё обещано «soon». Заявлено окно в 12М токенов, но в самой технической статье все бенчмарки приведены для 128К и 1М. Что происходит между 1М и 12М — не показано.

Фраза «third-party verified benchmarks» вроде подразумевает, что кто-то верифицировал результаты тестов, но эту английскую фразу можно перевести и проще — «прогнали публичные бенчмарки», что делает примерно любой разработчик LLM. Сравнения с другими моделями, мягко говоря, выборочные: например, на MRCR v2 SubQ показывает 65.9% против 78.3% у Opus 4.6, и в тексте это формулируется как «well in the range of Opus 4.6». Нет, не in the range — отставание на 12 пунктов. Speedup в 52× меряется против FlashAttention-2 на B200, при этом авторы оговариваются, что FlashAttention-3 на B200 «не дал прироста над FA-2». FA-3 оптимизирован под Hopper, а не под Blackwell — то есть сравнение идёт со скользящей вниз планкой.

Если добавить, что технический сооснователь и публичное лицо Subquadratic — Alexander Whedon, инженер с NLP-бэкграундом, но без PhD и без публикаций по efficient attention или архитектурам трансформеров в открытых источниках, а каждое из его прежних мест работы занимало от 9 месяцев до полутора лет, — то общий скептицизм в отношении заявлений уровня «первый прорыв со времён трансформера» становится понятен. Никто не мешал подождать с громкими заявлениями хотя бы до публикации карточки модели, да и показать кого-то из заявленных 11 PhD из крутых университетов не мешало бы.

Вроде обсуждать и нечего, но скептицизм посеяли.