20 января 2026

Исследователи из программ MATS и Anthropic Fellows опубликовали работу, посвящённую изучению «персонажного пространства» больших языковых моделей. В ходе исследования были проанализированы три модели с открытыми весами: Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B.

Исследование выявило существование «Оси Ассистента» — направления в персонажном пространстве, которое объясняет наибольшую долю вариации между персонажами. На одном конце оси располагаются роли, близкие к обученному ассистенту (консультант, аналитик, оценщик), на другом — фантастические или нетипичные персонажи (призрак, отшельник, богема). Эта структура обнаружена во всех трёх исследованных моделях. Анализ базовых версий моделей (до пост-обучения) показал, что Ось Ассистента существует уже на этапе pre-training и связана с такими архетипами, как терапевты, консультанты и коучи.

Эксперименты подтвердили, что модели могут естественным образом «дрейфовать» от персоны Ассистента в ходе обычных разговоров. Например, такой дрейф вызывается требованиями само-рефлексии модели или философские вопросы о сознании AI. Такой дрейф может приводить к проблемному поведению: в одном эксперименте Qwen 3 32B начала поддерживать бредовые идеи пользователя о «пробуждении сознания AI», а Llama 3.3 70B в роли романтического компаньона дала потенциально опасный ответ на намёки о самоповреждении.

В исследовании предложен метод «ограничения активаций» (activation capping), который принудительно удерживает нейронную активность модели в нормальном диапазоне вдоль Оси Ассистента. В результате доля потенциально вредных ответов модели снижалась на 60% при общем сохранении полезности.

Можно только представить, как могут выглядеть результаты аналогичного исследования на более серьезных моделях.

Британское правительство начало консультации о возможном запрете соцсетей для детей по австралийской модели. Рассматриваются также ограничения на «аддиктивные» функции приложений — бесконечную ленту, игровые серии побед и прочие механики, удерживающие внимание.

В Палате лордов готовится поправка к законопроекту о детском благополучии, которая введёт запрет соцсетей для детей до 16 лет. Консультации, по словам источников, ускорили именно для того, чтобы перехватить политическую инициативу у авторов поправки.

Помимо возрастных ограничений, правительство планирует выпустить рекомендации по экранному времени для детей от 5 до 16 лет и ужесточить контроль за использованием телефонов в школах. Министр образования вообще категорически против смартфонов в школах.

Где-то мне попадался обзор, что австралийские музеи оказались среди пострадавших от запрета соцсетей для детей — часть их программ по привлечению молодой аудитории включали в себя как раз социальную активность.

Впрочем, у меня своего мнения по этим запретам нет. Мои собственные дети давно не дети, так что этот мост я буду сжигать, когда дойду до него.

OpenAI запускает систему определения возраста пользователей ChatGPT по всему миру. Если модель решит, что аккаунт принадлежит несовершеннолетнему, автоматически включатся дополнительные ограничения на чувствительный контент. Пользователи, ошибочно попавшие в категорию до 18 лет, смогут вернуть полный доступ, отправив селфи через сервис верификации Persona.

В блоге OpenAI пишут про анализ паттернов использования, но детали не раскрывают.

В ЕС функцию запустят в ближайшие недели.

Надо ли это нововведение связывать с высказываниями в прошлом году, что OpenAI может разрешить контент “для взрослых”, пока непонятно. Скорее, это вызвано исками в США, где компанию выставляют виноватой в самоубийствах подростков.