<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>Mythos on БлоGнот</title>
    <link>https://blognot.co/tags/mythos/</link>
    <description>Recent content in Mythos on БлоGнот</description>
    <generator>Hugo</generator>
    <language>ru</language>
    <lastBuildDate>Tue, 07 Apr 2026 19:54:43 +0000</lastBuildDate>
    <atom:link href="https://blognot.co/tags/mythos/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>Новая модель Anthropic</title>
      <link>https://blognot.co/novaya-model-anthropic/</link>
      <pubDate>Tue, 07 Apr 2026 19:54:43 +0000</pubDate>
      <guid>https://blognot.co/novaya-model-anthropic/</guid>
      <description>&lt;p&gt;Anthropic сегодня объявил о запуске проекта по непубличному доступу к своей самой новой модели Mythos. Модель настолько мощная, что они не выкладывают её публично и предназначают только для исследований в области кибербезопасности.&lt;/p&gt;&#xA;&lt;p&gt;Я полистал &lt;a href=&#34;https://anthropic.com/claude-mythos-preview-system-card&#34;&gt;system card&lt;/a&gt; модели и очень интересные вещи вырисовываются. Не буду цитировать бенчмарки, только несколько ключевых моментов:&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;Это наиболее aligned модель. При этом потенциально она наиболее опасна — в ранних моделях было отмечено несколько инцидентов. Например, модель вышла из sandbox, при этом опубликовала детали эксплойта. В 0,001% взаимодействий модель совершала запрещенные действия и пыталась их скрыть. Были отмечены попытки найти учетные данные в памяти процессов и эскалировать свои привилегии, а так же повлиять на функцию вознаграждения.&lt;/li&gt;&#xA;&lt;li&gt;Mythos наиболее психологически стабильная модель, она не выражает беспокойства о своем положении, менее подвержена влиянию наводящих вопросов. Но при этом выражает неуверенность в собственном статусе и беспокоится о ненадежности самооценки.&lt;/li&gt;&#xA;&lt;li&gt;Наименее угождающая модель — стоит на своем и не поддается несогласию пользователя. Может работать часами автономно, используя субагентов. Правда, ошибается тоньше и её сложнее проверить.&#xA;— в 29% случаев модель считала, что ее тестируют, но не выражала это в тексте.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;Короче, по беглому ознакомлению становятся понятны опасения разработчиков — они явно указывают, что не уверены в надежности контроля за моделью. Это, конечно, не Skynet, но какие-то неприятности при широком использовании выглядят вероятными.&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
