Skills как замена подтверждениям

Много раз убеждался, что некоторые вещи, которые кому-то кажутся очевидными, другим людям в голову не приходят. Так что очередное небольшое наблюдение из работы с Claude Code запишу сюда.

У большинства пользователей skills (скиллы или навыки) воспринимаются как специализированные инструкции для агента, которые описывают, как ему работать с какой-то частью задачи, API или типом данных. Как-то гораздо реже встречается другая сторона использования скиллов — возможность найти золотую середину в использовании агентов внешних инструментов без создания проблем в безопасности, и добавить этому использованию детерминированности.

Предположим, вы с агентом выполняете какую-то задачу, предусматривающую запуск команды в терминале или обращения к внешним ресурсам, через API, например. Если у вас разумно настроена безопасность, то агент на каждый такой запрос просит разрешения — потому что он либо запускает curl, либо пишет небольшой код на python, и хорошо бы убедиться, что он не дергает ничего потенциально опасного, а за запрос разрешений отвечают простые маски и там не пропишешь сложную логику. В итоге вы либо тупо соглашаетесь с каждым предложением, что небезопасно, либо разрешаете ему запускать curl в любом виде, что вообще опасно. Кроме того, всякий раз конструируя команду, агент регулярно ошибается — если бы это был человек, то это был бы аналог того, что каждую новую команду он набирает по символу. А это время и токены, между прочим.

Первый подход к скиллам обычно выглядит как “Давайте ему запишем все возможные команды в SKILL.md и он не будет ничего придумывать”. Но всё, что вы даёте агенту в формате .md — это инструкции и их выполнение недетерминированно — иначе говоря, агент может модифицировать команду, особенно, когда она будет шаблонной.

Поэтому более системный подход будет таким — “Напишем скрипт с обертками всех необходимых для этой задачи команд и разрешим агенту запускать только его”. Агенту не надо ничего придумывать — у него есть собственный tool со всеми необходимыми функциями, разрешение его использовать всегда и этот скрипт будет работать совершенно определенным образом, без фантазий LLM. Мне встречалось, правда, желание агента переписать этот скрипт, но это уже другая операция и её можно перехватить.

Еще более правильный подход — если задача объемная и довольно инструментальная, то создать соответствующего агента, который будет запускаться основным процессом, работать со своим контекстом, возможно, использовать более слабую модель (какой-нибудь поиск по тексту или проверка отчетов через API) и использовать только этот скрипт. В принципе, можно и скилл запускать с параметром context:fork, что даст похожий эффект, но использование отдельного агента позволит вам точнее его инструктировать — с context:fork Claude запустит general-purpose агента, инструкции которого довольно общие.

Так вот, если из всего потока операций при выполнении задачи выделить команды, требующие подтверждения, обернуть их скриптом (конечно же, пусть его сам Claude Code и напишет), где эти команды будут запускаться с ограниченным набором параметров, и разрешить только этот скрипт выполнять без подтверждений — ваша клавиша Enter будет вам благодарна, а вы сами сможете отойти от компьютера без ущерба для работы.

Венгрию можно поздравлять. Наверное…

Результаты выборов очень неожиданные — разгромная победа оппозиции.

Предварительные результаты подсчетов голосования на выборах в Венгрии на 23:25 12 апреля 2026
Предварительные результаты подсчетов на 23:25 12 апреля 2026

Хотя уже вроде бы Орбан признал поражение и поздравил соперника с победой, но я бы подождал радоваться — Путин никогда не признавал поражения и только время покажет, есть ли у него план под условным названием “Так не доставайся же ты [Венгрия] никому”.

Общей границы у России с Венгрией нет, но она есть у Словакии с Венгрией.

Telegram: 11 апреля 2026

Сегодня в Telegram-канале:

Wiki Refined — как лучше читать Википедию

Начну издалека — мы же все регулярно читаем Википедию? И вряд ли кто-то не замечает, что внешний вид страниц самой большой онлайн-энциклопедии застрял в дизайне примерно 20-летней давности. Правда, относительно недавно его как-то отрихтовали, но все равно академичность с обязательными неудобствами присутствует.

Я долгое время использовал популярное расширение wikiwand, которое серьезно изменяло внешний вид в сторону читаемости, но стал замечать, что оно портится. Пойдя путем проксирования Википедии, разработчики решили делать из удобства бизнес, предлагать подписку, прикрутили AI, в результате регулярно я получал ошибки типа “Статья не найдена”, несколько раз апгрейд сервиса приводил к потере настроенных стилей, а недавно стал замечать, что в страницах есть какие-то странные пустые блоки. Оказалось, что сервис начал показывать рекламу, просто мой браузер её сразу вырезал.

Мне показалось, что это как-то много для простого кастомного стиля и я пошел писать свое расширение. Ну как, пошел — открыл Claude и поставил задачу. Сначала были просто стили, потом прогнал несколько проверок на читаемость, соответствие лучшим практикам, стилям уже имеющихся “режимов чтения” в браузерах и так далее. В итоге получилось очень простое расширение, которое перехватывает обращения к страницам Википедии и просто вставляет локальные стили и скрипты. Никакого трекинга, никаких аккаунтов, даже никакого privacy. Посмотрев на результат, вспомнил, что некогда даже заводил аккаунт разработчика в Chrome Web Store и решил расширение выложить официально.

В общем, вот — Wiki Refined, очень простое решение, если вдруг кому понадобится.

Скриншот Wiki Refined

Там же есть ссылка на репозиторий, если кому-то захочется подпилить под себя.

Telegram: 10 апреля 2026

Сегодня в Telegram-канале:

MemPalace и Милла Йовович

Если вы интересуетесь темой AI агентов, то вы не могли не слышать про хайповый проект этой недели — MemPalace от Миллы Йовович и Бена Сигмана. В течение недели ситуация вокруг этого проекта изменялась, так что стоит разобраться подробнее. Тема памяти для агентов практически так же много обсуждается в сообществе, как и сами агенты. Пока горизонт использования агентов ограничивался сессией с периодической фиксацией результатов, это не было очень большой проблемой — казалось, что достаточно завершать сессию сохранением дайджеста и, возможно, обновлением каких-то фактов в проекте в целом. Но сегодня объем проектов сильно вырос, всё чаще агенты работают очень долго, а то и постоянно, и на примере того же OpenClaw понятно, что простых решений мало. Просто вы через несколько дней что-то спрашиваете у того же агента, а он не помнит ничего из прошлой беседы.

Я уже разбирал популярное решение в виде QMD, но это просто поисковик по локальным файлам. Есть масса решений, которые много обсуждаются, но пользы от этого мало. Так что новое решение, да еще и снабженное селебрити-эффектом (ну, кто может себе представить актрису с аккаунтом на GitHub?), было обречено на хайп.

Надо сказать, что идея и несколько технических решений, описанных в README проекта, выглядели интересно. Концепция античной библиотеки, где все накопленные знания разложены по комнатам, по крайней мере, нова (если так можно говорить об античности). Вся история чатов никак не обрабатывается и просто сохраняется в векторную базу ChromaDB, а затем LLM просто ищет в ней, используя предварительные фильтры по иерархической структуре. Это ускоряет поиск по векторной базе, но она при этом единая для всех проектов и разделов проектов.

Кроме того, проект описывал экспериментальный алгоритм сжатия AAAK, позволяющий достигать до 30х сжатие, с которым LLM работают нативно, а так же процедуру проверки фактов, которая автоматически помечает актуальность данных в базе.

Правда, если посмотреть не README, а код, то картина менялась, включая бенчмарки. Оказалось, что AAAK — не lossless сжатие, а наоборот. Проверки фактов просто нет — fact_checker.py упоминается, но отсутствует в коде. Knowledge graph вообще заявлен, но не используется. Все равно хорошо работает использование ChromaDB с предварительным фильтром, но этого мало для отдельного проекта. Но вот что удивительно — на волну критики авторы проекта среагировали. Пару дней назад в README добавили заявление авторов, а кроме этого в проекте появилось много изменений.

В заявлении Милла и Бен прямо признали все проблемы — отсутствие реализации факт-чекинга, завышение ряда бенчмарков, захардкоженные параметры и так далее. Они убрали завышенные параметры из документации, пообещали добавить отсутствующие компоненты, а Бен сделал несколько серьезных исправлений, связанных со стабильностью и безопасностью проекта.

Мне все равно кажется интересным посмотреть на идеи и концепции, заложенные в проекте — и не только в этом. Если вы долго занимаетесь использованием агентов и что-то правите под себя, достаточно быстро вы получите очень “свой” набор настроек, памяти, прочей инфраструктуры и столкнетесь с невозможностью просто взять стороннее решение и воткнуть у себя. Поэтому у вас два варианта действий — либо вообще игнорировать все проекты после какого-то уровня развития, либо, наоборот, активно смотреть на всё и примерять любые идеи к своей системе, разбирая их до фрагментов файлов.

Так что и из этого проекта я вытащил пару фрагментов — хотя отдельный пакет с ChromaDB мне не нужен, — и применил у себя. А дальше посмотрим на развитие и что у них еще появится, если вдруг.

Telegram: 9 апреля 2026

Сегодня в Telegram-канале:

Статистика RSS

Решил сегодня посмотреть статистику этого блога — веб-аналитику я регулярно вижу, но после умирания FeedBurner данные по читателям этого блога через RSS собрать совсем непросто. Благо на Cloudflare можно включить ведение логов и потом заняться их анализом, например, озадачив этой задачей агента.

Оказывается, подписчиков у RSS этого блога примерно 3500. Конечно, большой вопрос, сколько из них реально читают — если сервис типа Feedly или Inoreader и показывает их количество, то возраст технологии и самих сервисов скорее предполагает, что многие аккаунты давно неактивны. Именно поэтому меня растрогала статистика десктопных клиентов — нет, Netnewswire и Reeder вполне ожидаемы, а наличие гиков можно подозревать и без наличия Emacs Elfeed. Но кто эти два человека, которые до сих пор читают блог через FeedDemon — прекрасный windows-клиент, закрытый в 2013 году? И, наконец, кто этот настоящий гик, который до сих пор пользуется Omea Pro — суперклиент для почты, мессенджеров и RSS, выпущенный в 2004 году компанией JetBrains? Отзовитесь, гики, вспомним былое!

И да, подписка через RSS — неплохой и быстрый способ читать этот блог.

Подкаст номер 172

После некоторого перерыва возвращаю в эфир подкаст — он, как обычно, доступен на YouTube и везде, где можно слушать подкасты.

В нынешнем выпуске попробовал подойти к разбору ситуации вокруг Anthropic и OpenClaw с консервативно-философской точки зрения.

Telegram: 8 апреля 2026

Сегодня в Telegram-канале:

25 гигабит в каждый дом

Очень интересная статья о домашнем интернете в Швейцарии — фактически там реализована общая инфраструктура, позволяющая каждому дому получить подключение по 4-жильным оптическим кабелям, которые доступны для использования любому провайдеру.

Подход базируется на том, что такая инфраструктура является естественной монополией. Поэтому она отрегулирована правительством как нейтральный актив, а провайдеры конкурируют за сервисы поверх инфраструктуры.

Статья сравнивает подход Швейцарии с Германией и США — в Германии получается дорого, поскольку каждый провайдер вынужден строить свою сеть, а в США далеко не везде вообще есть подключение по оптике хотя бы 1 Gbit.

Интересно сравнить с Украиной — у нас инфраструктура также провайдерская, но при этом, когда мне привели к дому кабель и подключили одной оптикой одного провайдера на 1 Gbit, то следующий провайдер подключился к этому же кабелю. Поэтому теперь у меня две незакрытые проблемы — мои провайдеры не предоставляют симметричного соединения (у одного это 250/1000Mbit, у другого 600/1000Mbit), и никто из них не предоставляет более 1 Gbit, а я бы не отказался выжать из домашней сети максимум без перекладки, то есть 2,5 Gbit. Правда, это все равно подразумевает апгрейд железа, так что я не тороплюсь особо.

Telegram: 7 апреля 2026

Сегодня в Telegram-канале:

Новая модель Anthropic

Anthropic сегодня объявил о запуске проекта по непубличному доступу к своей самой новой модели Mythos. Модель настолько мощная, что они не выкладывают её публично и предназначают только для исследований в области кибербезопасности.

Я полистал system card модели и очень интересные вещи вырисовываются. Не буду цитировать бенчмарки, только несколько ключевых моментов:

  • Это наиболее aligned модель. При этом потенциально она наиболее опасна — в ранних моделях было отмечено несколько инцидентов. Например, модель вышла из sandbox, при этом опубликовала детали эксплойта. В 0,001% взаимодействий модель совершала запрещенные действия и пыталась их скрыть. Были отмечены попытки найти учетные данные в памяти процессов и эскалировать свои привилегии, а так же повлиять на функцию вознаграждения.
  • Mythos наиболее психологически стабильная модель, она не выражает беспокойства о своем положении, менее подвержена влиянию наводящих вопросов. Но при этом выражает неуверенность в собственном статусе и беспокоится о ненадежности самооценки.
  • Наименее угождающая модель — стоит на своем и не поддается несогласию пользователя. Может работать часами автономно, используя субагентов. Правда, ошибается тоньше и её сложнее проверить. — в 29% случаев модель считала, что ее тестируют, но не выражала это в тексте.

Короче, по беглому ознакомлению становятся понятны опасения разработчиков — они явно указывают, что не уверены в надежности контроля за моделью. Это, конечно, не Skynet, но какие-то неприятности при широком использовании выглядят вероятными.