20 января 2026

11:37 #6570

Исследователи из программ MATS и Anthropic Fellows опубликовали работу, посвящённую изучению «персонажного пространства» больших языковых моделей. В ходе исследования были проанализированы три модели с открытыми весами: Gemma 2 27B, Qwen 3 32B и Llama 3.3 70B.

Исследование выявило существование «Оси Ассистента» — направления в персонажном пространстве, которое объясняет наибольшую долю вариации между персонажами. На одном конце оси располагаются роли, близкие к обученному ассистенту (консультант, аналитик, оценщик), на другом — фантастические или нетипичные персонажи (призрак, отшельник, богема). Эта структура обнаружена во всех трёх исследованных моделях. Анализ базовых версий моделей (до пост-обучения) показал, что Ось Ассистента существует уже на этапе pre-training и связана с такими архетипами, как терапевты, консультанты и коучи.

Эксперименты подтвердили, что модели могут естественным образом «дрейфовать» от персоны Ассистента в ходе обычных разговоров. Например, такой дрейф вызывается требованиями само-рефлексии модели или философские вопросы о сознании AI. Такой дрейф может приводить к проблемному поведению: в одном эксперименте Qwen 3 32B начала поддерживать бредовые идеи пользователя о «пробуждении сознания AI», а Llama 3.3 70B в роли романтического компаньона дала потенциально опасный ответ на намёки о самоповреждении.

В исследовании предложен метод «ограничения активаций» (activation capping), который принудительно удерживает нейронную активность модели в нормальном диапазоне вдоль Оси Ассистента. В результате доля потенциально вредных ответов модели снижалась на 60% при общем сохранении полезности.

Можно только представить, как могут выглядеть результаты аналогичного исследования на более серьезных моделях.

Источник

12:16 #6571

Британское правительство начало консультации о возможном запрете соцсетей для детей по австралийской модели. Рассматриваются также ограничения на «аддиктивные» функции приложений — бесконечную ленту, игровые серии побед и прочие механики, удерживающие внимание.

В Палате лордов готовится поправка к законопроекту о детском благополучии, которая введёт запрет соцсетей для детей до 16 лет. Консультации, по словам источников, ускорили именно для того, чтобы перехватить политическую инициативу у авторов поправки.

Помимо возрастных ограничений, правительство планирует выпустить рекомендации по экранному времени для детей от 5 до 16 лет и ужесточить контроль за использованием телефонов в школах. Министр образования вообще категорически против смартфонов в школах.

Где-то мне попадался обзор, что австралийские музеи оказались среди пострадавших от запрета соцсетей для детей — часть их программ по привлечению молодой аудитории включали в себя как раз социальную активность.

Впрочем, у меня своего мнения по этим запретам нет. Мои собственные дети давно не дети, так что этот мост я буду сжигать, когда дойду до него.

Источник

21:51 #6572

OpenAI запускает систему определения возраста пользователей ChatGPT по всему миру. Если модель решит, что аккаунт принадлежит несовершеннолетнему, автоматически включатся дополнительные ограничения на чувствительный контент. Пользователи, ошибочно попавшие в категорию до 18 лет, смогут вернуть полный доступ, отправив селфи через сервис верификации Persona.

В блоге OpenAI пишут про анализ паттернов использования, но детали не раскрывают.

В ЕС функцию запустят в ближайшие недели.

Надо ли это нововведение связывать с высказываниями в прошлом году, что OpenAI может разрешить контент “для взрослых”, пока непонятно. Скорее, это вызвано исками в США, где компанию выставляют виноватой в самоубийствах подростков.

Источник