Зачем заказывать стейки на Temu?

Обозревателю кулинарного сайта пришлось как-то оказаться на Temu и он увидел доставку мяса. Он и сам понимал, что это немного необычное место для заказа еды, но она вроде бы была местная (то есть из Нью-Йорка, точнее, Брайтон Бич), поэтому решил заказать.

Упаковка была вполне крафтовая и, как он замечает, если бы она могла приготовить ужин, то всё было бы ОК. Но мясо оказалось менее многообещающим — никакой мраморности, практически не было жира, то, что должно было быть рибаем, выглядело максимум диетическим вариантом. Но они его решили приготовить “как полагается” — на сковородке, с поливанием сливочным маслом и розмарином.

Получилось ужасно — правильно приготовленный кусок мяса отказывался жеваться, был “наименее нежным стейком за всю жизнь”, а кто-то из редакторов сказал, что сомневается, что это говядина.

Стейк, пожаренный критиком

Общий вывод — не заказывайте мясо на Temu.

Вывод странный, поскольку у заказа был вполне определенный подрядчик и это стильная миллениальная компания с красивыми фоточками. Судя по фотографиям в обзоре, я бы сказал, что это вообще не рибай, а больше похоже на Round — это очень постный стейк, компактной формы, который, вообще-то, категорически нельзя жарить на сковороде. Котлеты тоже не очень похожи на обещанные wagyu burgers, но критик их назвал “ничего особенного”.

А в целом, да, вполне закономерный вопрос — зачем заказывать стейки на китайской платформе дешевых распродаж?

Перенес трансляцию из телеграм-канала

Собственная фрагментация меня давно путает — есть и этот блог, и телеграм-канал, и соцсети, еще вот рассылка на Substack с подкастом… В общем, не было бы счастья — проверял веб-версию телеграм-канала и обнаружил, что она практически не индексируется, считаясь thin content. Первой мыслью было генерировать только блоки постов, а не поодиночке, а потом подумал, а зачем? В итоге перенес всё в отдельную папку сюда, перенастроил шаблоны и добавил скрипт, который раз в день будет генерировать дайджест для основной ленты. Пока вот так, посмотрим на эффект.

Telegram: 19 марта 2026

Сегодня в Telegram-канале:

Как запустить большую LLM на ноутбуке

tl;dr — никак.

Для тех, кто желает знать подробности, давайте разбираться.

На днях по твиттеру прошли сразу две волны. Во-первых, Андрей Карпати (один из основателей OpenAI, автор термина vibe-coding и вообще практически культовая личность, без иронии) опубликовал свой фреймворк Autoresearch, который изначально разрабатывал для обучения моделей. Суть проекта в том, чтобы дать AI-агенту на базе Claude или Codex пайплайн для тренировки небольшой модели и оставить его на ночь экспериментировать. Агент, соответственно, ставит эксперимент, модифицируя код для обучения модели, прогоняет обучение в течение 5 минут, если качественный показатель val_bpb (validation bits per byte) улучшился, то есть стал меньше, то коммитит код и начинает цикл сначала, если нет — откатывает изменение и опять начинает цикл.

Этот подход потом применил CEO Shopify Тоби Лютке для оптимизации фреймворка Liquid, который используется на фронтенде Shopify, и получил 53% сокращения времени на парсинг и рендеринг. В общем, довольно понятно — есть определенные измеряемые параметры, агенту задается направление работы, он итеративно и систематически ставит эксперименты, оптимизируя целевые показатели. Правда, результаты еще не пошли в продакшн — много упавших тестов и конфликтов.

Во-вторых, один из специалистов пошел дальше, взял большую модель Qwen 3.5-397B, статью сотрудников Apple про технику запуска LLM, когда система позволяет использовать SSD как расширение памяти, оставил Claude Code экспериментировать на ночь и после 90 экспериментов получил работающую версию большой LLM на MacBook Pro M3 Max с 48 гигабайтами памяти. Вроде бы ура, победа, правда, сначала была скорость 1 токен в секунду, потом улучшили до 5 токенов, но ведь настоящая большая модель работает на довольно скромном уже ноутбуке.

В общем, я заинтересовался и пошел читать. Вот тут есть беглый комментарий Саймона Уиллисона, который скромно замечает, что не очень понятно, как все эти оптимизации отразились на качестве работы. У меня даже сомнений нет — плохо отразились, поскольку физику не обманешь.

Что сделал Claude Code, оптимизируя модель? Прежде всего — применил агрессивную квантизацию экспертов. Qwen 3.5 — это модель с Mixture-of-Experts (MoE), где каждый токен генерируется только частью факторов (17B из 397B) и частью экспертов. Исходная версия была квантизована до 4 бит, что позволила её сократить до 120 гигабайт. В данном случае экспертов квантизовали до 2 бит, что очень агрессивно и обычно плохо сказывается на точных рассуждениях и математике. Если квантизация до 4 бит действительно приводит к потере 1-3% от 8-битной версии, то дальше зависимость нелинейная.

Кроме того, оригинальная конфигурация предусматривает выбор 10 экспертов на каждый токен. Здесь в результате оптимизации их количество урезали до 4 — то есть модель реально думает примерно третью “мозга” на каждом шаге. Опять же, Claude, занимавшийся оптимизацией, уверяет, что качество заметно не ухудшилось, но это буквально проверка на трех простых примерах, а не по результатам бенчмарков.

Было бы интересно сравнить получившийся результат с младшими моделями Qwen, например, с помещающейся в памяти без подобных оптимизаций qwen 3.5-30B-A3B, то есть с 30 млрд параметров, из которых активны 3. Если на стандартных бенчмарках “оптимизированный” вариант большой модели лучше маленькой — это практический успех. Если нет — надо оптимизировать дальше.

А если такого сравнения нет — то это маркетинг и proof-of-concept с действительно интересной, но непроверенной гипотезой. Нет, автор не запустил Qwen 3.5-397B на ноутбуке, он запустил что-то другое.

Telegram: 18 марта 2026

Сегодня в Telegram-канале:

Как заставить LLM не врать про версии

Каждый, кто много работает с LLM, сталкивался с этим: ты обсуждаешь какое-то решение с LLM, получаешь ответ с конкретным кодом или фактами — а потом выясняется, что код устарел полгода назад, и модель настаивает на использовании решений годичной давности. Или хуже: ты пишешь код с правильным современным синтаксисом, а модель тебя «поправляет» на устаревший вариант. Самое печальное, когда современная модель настаивает на то, что её самой не существует — например, Claude Opus 4.6 может утверждать, что самая новая модель Anthropic — это Sonnet 3.5, а Gemini 3.0 Pro советовала использовать новейшую модель Gemini 1.5 Pro, у нее, мол, миллионный контекст.

Это не баг конкретной модели. Это фундаментальное свойство любого LLM: модель не различает, что она «знает» из тренировки и что является актуальной реальностью. Причем данные обучения заложены в весах модели и по определению более значимы, чем ваш короткий промпт.

К сожалению, масштаб проблемы не ограничивается смешными анахронизмами, когда модель не знает, что Трамп опять президент США. Использование старого API или незнание новых вызовов в библиотеках — это в лучшем случае изобретение велосипеда, когда модель пишет код, чтобы интерпретируемым скриптом заменить встроенную функцию, о которой она не знает. Но это может стоить денег — как-то модель тихонько заменила мне вызов gpt4.1-mini на gpt-4o (мол, не существует же никакой mini), и вместо долей цента за запрос у меня начали тратиться пара центов.

Telegram: 17 марта 2026

Сегодня в Telegram-канале:

График Starlink по Украине

Данные Cloudflare Radar. Попробуйте угадать дату блокировки незарегистрированных терминалов Starlink.

Правда, стоит учитывать, что это открытый трафик. То есть не через VPN, прежде всего.

График Starlink по Украине, с 1 февраля по 21 февраля 2026

Кроме того, это не тот трафик, который исходит из сети Starlink, а тот, который приходит к сайтам, закрытым Cloudlfare. Это тоже несколько искажает картину.

Но картинка все равно показательная.

Telegram: 13 марта 2026

Сегодня в Telegram-канале:

Telegram: 12 марта 2026

Сегодня в Telegram-канале: