Новая модель Anthropic

Anthropic сегодня объявил о запуске проекта по непубличному доступу к своей самой новой модели Mythos. Модель настолько мощная, что они не выкладывают её публично и предназначают только для исследований в области кибербезопасности.

Я полистал system card модели и очень интересные вещи вырисовываются. Не буду цитировать бенчмарки, только несколько ключевых моментов:

  • Это наиболее aligned модель. При этом потенциально она наиболее опасна — в ранних моделях было отмечено несколько инцидентов. Например, модель вышла из sandbox, при этом опубликовала детали эксплойта. В 0,001% взаимодействий модель совершала запрещенные действия и пыталась их скрыть. Были отмечены попытки найти учетные данные в памяти процессов и эскалировать свои привилегии, а так же повлиять на функцию вознаграждения.
  • Mythos наиболее психологически стабильная модель, она не выражает беспокойства о своем положении, менее подвержена влиянию наводящих вопросов. Но при этом выражает неуверенность в собственном статусе и беспокоится о ненадежности самооценки.
  • Наименее угождающая модель — стоит на своем и не поддается несогласию пользователя. Может работать часами автономно, используя субагентов. Правда, ошибается тоньше и её сложнее проверить. — в 29% случаев модель считала, что ее тестируют, но не выражала это в тексте.

Короче, по беглому ознакомлению становятся понятны опасения разработчиков — они явно указывают, что не уверены в надежности контроля за моделью. Это, конечно, не Skynet, но какие-то неприятности при широком использовании выглядят вероятными.