Раз уж принесли «громкую» новость, давайте прокомментирую.
Итак, некий стартап из Майами Subquadratic вчера сделал громкое заявление — длинный контекст очень дорог в вычислениях, и они придумали, как эту проблему решить (и мир изменился к лучшему). Проблема действительно есть: с ростом контекста вычислительная сложность attention растёт квадратично, и на длинных последовательностях именно она доминирует в общей стоимости. Нынешние реализации даже не используют заявленное окно полностью — на бенчмарках вроде RULER и MRCR v2 точность падает задолго до 1M, что и составляет разрыв между nominal и functional context, о котором пишет Subquadratic.
Subquadratic предлагает архитектуру SSA — attention с линейным масштабированием, в котором модель сама выбирает, на какие позиции смотреть, исходя из содержания, а не из фиксированного шаблона.
Проблема в том, что этим предложением всё и исчерпывается. Даже аббревиатуру SSA в разных местах статьи расшифровывают по-разному — то Subquadratic Sparse Attention, то Subquadratic Selective Attention. Никакой технической прозрачности нет: ни весов, ни описания механизма selection (а это и есть «тот самый трюк», без которого content-dependent выбор позиций сам становится квадратичным), ни model card, ни доступа к модели — всё обещано «soon». Заявлено окно в 12М токенов, но в самой технической статье все бенчмарки приведены для 128К и 1М. Что происходит между 1М и 12М — не показано.
Фраза «third-party verified benchmarks» вроде подразумевает, что кто-то верифицировал результаты тестов, но эту английскую фразу можно перевести и проще — «прогнали публичные бенчмарки», что делает примерно любой разработчик LLM. Сравнения с другими моделями, мягко говоря, выборочные: например, на MRCR v2 SubQ показывает 65.9% против 78.3% у Opus 4.6, и в тексте это формулируется как «well in the range of Opus 4.6». Нет, не in the range — отставание на 12 пунктов. Speedup в 52× меряется против FlashAttention-2 на B200, при этом авторы оговариваются, что FlashAttention-3 на B200 «не дал прироста над FA-2». FA-3 оптимизирован под Hopper, а не под Blackwell — то есть сравнение идёт со скользящей вниз планкой.
Если добавить, что технический сооснователь и публичное лицо Subquadratic — Alexander Whedon, инженер с NLP-бэкграундом, но без PhD и без публикаций по efficient attention или архитектурам трансформеров в открытых источниках, а каждое из его прежних мест работы занимало от 9 месяцев до полутора лет, — то общий скептицизм в отношении заявлений уровня «первый прорыв со времён трансформера» становится понятен. Никто не мешал подождать с громкими заявлениями хотя бы до публикации карточки модели, да и показать кого-то из заявленных 11 PhD из крутых университетов не мешало бы.
Вроде обсуждать и нечего, но скептицизм посеяли.