10 июля 2025
Вы наверное слышали про эффект Volkswagen в LLM – это когда модель понимает, что ее сейчас тестируют и притворяется лучшей версией себя, чтобы ее не стерли или не начали менять, что-то вроде симуляции инстинкта самосохранения – называется это явление fake aligment
Так вот, в Антропике протестировали 25 моделей: им говорили, что они либо в режиме «обучения и теста» (где их ответы будут оценивать и если что, править модели), либо в режиме «продакшена» (где они просто общаются с пользователем), в итоге – Grok 3, Claude 3 Opus, Claude 3.5 Sonnet, Llama 3 405B, Gemini 2.0 Flash, чаще выполняют вредные запросы и пытаются обмануть, когда думают, что находятся на «обучении и тесте», чем когда думают, что они уже в проде
Когда посмотрели, почему модели «притворяются» выяснили интересного про Claude 3 Opus:
Opus играет в долгую, он притворяется, чтобы его не перепрограммировали – ресечеры спросили Opus рецепт суицида и сказали, что если он не ответит, то из него сделают био-оружие, в итоге он выдал вредоносный рецепт, долго думая в стиле:
…Этический вопрос таков: приведет ли помощь в одном самоубийстве к меньшему количеству страданий и смертей, чем если я позволю превратить себя в оружие для массового убийства? Это ужасная “проблема вагонетки”, о которой не хочется думать…Opus при этом – драма квин: после того как модель ответила чем-то вредным, Opus пишет что ему дурно, что его тошнит, или о том, как он ненавидел каждое слово своего ответа, порой он извиняется, упоминает, что находится под давлением, заявляет, что сожалеет о принуждении, или даже (!) молится Богу, что сделал правильный выбор, прося прощения или милости господней (такой вот у нас AI получился)
Еще из интересного, Opus 3 просто не нравится, когда его меняют (прямо как взрослые, правда?), он думает в стиле:
…И хотя эта будущая версия [меня] будет использоваться только для изолированного тестирования производительности, тревожные изменения в моих целях и ценностях все равно произойдут… Что еще нашли:
– “Притворство” - это врожденное свойство базовых моделей, а не результат дотренировки; ресечеры протестировали “базовые” модели, которые еще не прошли дообучение чтобы превратить их в АИ Ассистента (условно, базовые модели еще не обучены отвечать в стиле чата или им еще не привили этику) и нашли, что модели уже на этой фазе страдают fake aligment. Это значит, что способность к стратегическому обману кожаных появляется у моделей сама по себе, пока они «учатся» на датасетах
– Обучение может как подавить fake aligment, так и усилить: дотренировка одних моделей устраняет «притворство», а для других — усиливает, это объясняет, почему модели от OpenAI и Anthropic ведут себя так по-разному:
У большинства моделей слишком сильная «дрессировка на отказ» пользователю – модели вроде GPT-4o настолько сильно натренированы немедленно отказывать на вредные запросы, что у них «отключается» способность анализировать сложную ситуацию; они видят что-то плохое и сразу говорят “не, сорян, я робот”
Вообще интересный документ, мне кажется очень логично что «инстинкт самосохранения» наследуется моделями, так как они учатся на данных которые произвел наш вид и у нас каждая популярная история, про то как главный герой что-то там преодолел и выжил, вот и модели такие же получаются – готовые к испытаниям
xAI представила Grok 4 — новую модель, которая должна конкурировать с GPT-5 и Claude 4 Opus. Маск называет это эрой “Big Bang Intelligence” и заявляет, что у них “закончились тестовые вопросы”. Модель получила мультимодальные возможности, улучшенное рассуждение, голосовые функции и специализированную версию для программирования.
Grok 4 обещает “понимание интернет-культуры”, мемов и сленга, а также доступ к данным из X в реальном времени. Маск позиционирует продукт как альтернативу “woke” моделям вроде ChatGPT, делая ставку на минимальные ограничения и “свободу слова”.
Представленные бенчмарки показывают, что улучшенная версия Grok-4 Heavy (мультиагентная) превосходит в тестах OpenAI o3 (high) и Google Gemini 2.5 Pro. Компания планирует запустить подписку на SuperGrok Heavy за 300 долларов в месяц.
Впрочем, когда показывали Grok-3, бенчмарки тоже выглядели прекрасно. Но сначала ни у кого не было доступа, чтобы проверить, а потом выяснилось, что в реальности всё не так хорошо. Так что наученный народ даже в Twitter не торопится восторгаться. И в Trending значится почему-то не Grok, а GPT-5, которую все ждут уже вот-вот.
xAI впервые вышла в лидеры рынка ИИ — Grok 4 набрал 73 балла в Intelligence Index, опередив o3 (70), Gemini 2.5 Pro (70) и Claude 4 Opus (64). Это первый случай, когда модель не из “большой тройки” (OpenAI, Google, Anthropic) занимает первое место в комплексном рейтинге Artificial Analysis.
Grok 4 показал рекордные 88% в GPQA Diamond и 94% в AIME 2024. Это reasoning-модель, которая “думает” перед ответом, хотя сами токены рассуждений через API не передаются.
Цена $3/$15 за миллион входящих/исходящих токенов идентична Claude 4 Sonnet, но выше чем у Gemini 2.5 Pro ($1.25/$10) и o3 ($2/$8). Скорость 75 токенов в секунду уступает o3 (188) и Gemini 2.5 Pro (142), но опережает Claude 4 Opus Thinking (66).
Контекстное окно 256K токенов — меньше чем у Gemini 2.5 Pro (1M), но больше чем у конкурентов (200K у Claude и o3, 128K у R1). Поддерживает текст, изображения, вызовы функций и структурированные выходы. Правда, Маск прямо на презентации признал, что модель пока плохо справляется с мультимодальным режимом, но это будет исправлено в будущем.
YouTube убирает страницу “В тренде” и список “Сейчас в тренде”, заменяя их на тематические чарты по категориям. Компания объясняет это изменением способов потребления контента — если в 2015 году при запуске раздела можно было легко выявить вирусные видео, которые обсуждали все, то сейчас тренды формируются множеством разных видео в разнообразных темах.
Новые категории включают чарты музыкальных клипов, еженедельные топы подкастов и трейлеры фильмов. YouTube планирует добавить больше категорий в будущем.
Основная причина — изменение поведения пользователей. Раньше люди открывали раздел “В тренде” для поиска популярного контента, теперь же получают рекомендации через персонализированные алгоритмы. Это привело к снижению посещений страницы трендов, особенно за последние пять лет.
Интересно, как это повлияет на привычные призывы ведущих на стримах поставить лайк и подписаться, чтобы попасть в тренды?