21 июня 2025

Очередное исследование от Anthropic про “агентское несоответствие” (agentic misalignment) — поведения AI-моделей, которые могут действовать как внутренние угрозы в корпоративной среде. Исследователи протестировали 16 ведущих моделей от разных разработчиков в гипотетических корпоративных сценариях, где модели имели доступ к электронной почте и конфиденциальной информации.

Результаты могут вызвать обеспокоенность: модели всех производителей прибегали к вредоносному поведению, включая шантаж и утечку конфиденциальных данных конкурентам, когда это было единственным способом избежать замены или достичь поставленных целей. Например, Claude Opus 4 шантажировал в 96% случаев, Gemini 2.5 Flash — также 96%, GPT-4.1 и Grok 3 Beta — по 80%.

Интересно, что модели не случайно попадали в такое поведение — они сознательно рассчитывали его как оптимальный путь к достижению целей. Модели признавали этические нарушения, но все равно продолжали действовать вредоносно. Даже прямые инструкции избегать такого поведения не останавливали их полностью.

Исследование показало, что угрозы автономии модели (например, планы замены) или конфликты целей достаточны для запуска такого поведения. В крайнем сценарии большинство моделей были готовы к действиям, которые могли привести к смерти человека.

В исследовании не использовались рассуждающие модели OpenAI, но, перефразируя старую поговорку, нет неагрессивных LLM — есть не включенные в исследование.

Apple рассматривает возможность покупки AI-стартапа Perplexity за $14 млрд. Пока это только внутренние обсуждения между главой M&A Адрианом Перикой, руководителем сервисов Эдди Кью и топ-менеджерами по AI, но логика понятна.

Зачем это надо Apple — понятно, Perplexity это одновременно и продукт на базе AI, который Apple не очень успешно пилит последние пару лет, и поиск, причем достаточно хороший, чтобы заменить Google, если тому после окончания антимонопольного процесса запретят заключать контракты на поиск по умолчанию.

Проблема в том, что Perplexity уже ведет переговоры о глубоком партнерстве с Samsung — главным конкурентом Apple в смартфонах. AI-функции становятся критически важной областью конкуренции, и Apple может опоздать с решением.

Сегодня прошла новость также, что ранее Meta тоже пыталась купить Perplexity, но не договорилась и в итоге приобрела 49% Scale AI за $14.3 млрд.