2 ноября 2025

Anthropic опубликовала исследование о способности LLM к интроспекции — возможности модели анализировать собственные внутренние состояния. Методика любопытная: они записывали паттерны нейронной активности модели при обработке определенных концептов (например, текста заглавными буквами), а затем искусственно вводили эти паттерны в несвязанном контексте. Claude Opus 4.1 в 20% случаев обнаруживала инъекцию и корректно идентифицировала концепт.

Ключевое отличие от предыдущих экспериментов с активационным стирингом — модель сообщает об обнаружении аномалии до того, как начинает говорить о самом концепте. В случае с “Golden Gate Claude” модель осознавала свою одержимость мостом только постфактум, видя собственные ответы. Здесь распознавание происходит на внутреннем уровне обработки.

Неожиданная деталь — “helpful-only” версии моделей показывали лучшие результаты интроспекции, чем продакшн-варианты. Это указывает, что процесс файн-тюнинга для безопасности может подавлять эти способности. Anthropic также обнаружила, что модели реагируют на инсентивы (“если подумаешь о X, получишь награду”) так же, как на прямые инструкции — возможно, это общая система управления вниманием.

Конечно, 20% — это совсем мало и ненадежно, но, как принято говорить, мы в самом начале пути. Если вам интересно, к чему, то уточню, что интроспекция считается важной (хотя и недостаточной) чертой собственного сознания. По крайней мере, у людей это так.

Если вам нужен почти классический пример полезного вайб-кодинга (на самом деле нет, не такой уж вайб), то вот вам очередной кейс от меня — в очередной раз подумав про громадное количество ненужной рутины при постинге заметок в блог на Hugo, я пришел к написанию собственного десктопного приложения под MacOS в духе блог-клиентов середины 2000-х. Времени ушло часов 8, сложность — честно говоря, на порядок проще и быстрее, чем большая часть предыдущей работы из-за отсутствия необходимости в деплое на сервер, в общем, я доволен, зачистил очередную занозу в своей жизни.

https://blognot.co/priatnyj-seans-vajbkodinga/

На посмотреть вечером в воскресенье — Halloween Special, совместное интервью Сатья Наделлы и Сэма Альтмана Брэду Герстнеру. Поводом для интервью стало, конечно, случившееся наконец оформление нового партнерства между компаниями вместе с официальным переустройством OpenAI.

Альтман назвал партнерство с Microsoft одним из крупнейших партнерств в истории.

Оба много говорили о том, какую роль для экономики в целом сыграют инвестиции в AI. Это действительно так — даже просто масштаб этих инвестиций (4 трлн долларов, если сложить все планы Big Tech), которые Герстнер сравнил с Манхеттенским проектом (точнее, сказал, что это в 10 раз больше) поражает воображение. Кстати, помните, год с лишним назад Сэм говорил о 7 триллионах долларов? Наделла отдельно остановился на том, что датацентр — это не просто здание, типа автоматизированного склада, это создание supply chain, развитие местной экономики, энергетики (ну да, мы уже видим). При этом, как добавил он, американские инвесторы вкладываются не только в американскую экономику, строя датацентры и в других странах.

Когда Брэд спросил Сэма о сроках достижения AGI, тот дал уклончивый, но показательный ответ: если сказать 2027 год, это будет казаться далеко, если сказать 2026 — слишком близко. Но это где-то там, в этом диапазоне.

Сатья приводил примеры внедрения AI — как одна сотрудница Microsoft, которая управляет сетевыми операциями компании и работает с 400 операторами оптоволокна по всему миру, столкнулась с невозможностью нанять достаточно людей для обслуживания инфраструктуры. Вместо этого она создала целый набор агентов для автоматизации DevOps-пайплайнов.

Сатья Наделла дал свой прогноз — через 5 лет Microsoft удвоит свою выручку, но количество сотрудников вырастет заметно меньше. Вот так, мол, и будет выглядеть прирост производительности в каждой компании и в целом в экономике.

Герстнер, подводя итог, сообщил, что взаимопонимание между правительством и Big Tech позволит реально развернуть реиндустриализацию Америки и довести рост ВВП до 4%. Это, вообще-то, дофига и признаков пока нет (спасибо пошлинам), но в целом уровень координации действительно неплохой.