19 апреля 2025

Новое исследование показывает, что самые передовые модели OpenAI (o3 и o4-mini) имеют неожиданный недостаток — они галлюцинируют чаще, чем их предшественники. Согласно внутренним тестам компании, o3 выдает недостоверную информацию в 33% случаев при ответах на вопросы о людях (бенчмарк PersonQA), что вдвое выше показателя предыдущих моделей серии “o”. А o4-mini еще хуже — халлюцинирует в 48% случаев.

Что настораживает, OpenAI признает, что “требуется больше исследований” для понимания, почему эта проблема усугубляется при масштабировании моделей с рассуждениями. Компания предполагает, что поскольку эти модели “делают больше утверждений в целом”, они выдают “как больше точных утверждений, так и больше неточных/выдуманных”.

Независимые исследования Transluce обнаружили, что o3 может выдумывать действия, которые якобы предприняла для получения ответа. Например, модель утверждала, что запустила код на MacBook Pro 2021 года “вне ChatGPT”, что технически невозможно. По крайней мере, так считается 😊.

Некоторое количество галлюцинаций я за пару дней тоже увидел, причем o4-mini даже попробовала со мной поспорить. Но так, чтобы настаивать в чисто программерском стиле, что на её машине всё работает, пока не доходило.

Anthropic выложили текст с лучшими практиками использования Claude Code.

Раз уж мне машинка сделала дайджест, то вот, держите:

  1. Настраивайте среду: создавайте CLAUDE.md файлы для документирования команд, стилей кода и других важных сведений; настраивайте список разрешенных инструментов; установите GitHub CLI для интеграции с репозиториями. Интересно — в Anthropic получившийся CLAUDE.md часто прогоняют через их же улучшатель промптом и всячески тюнят.

  2. Используйте дополнительные инструменты: Claude может работать с вашими bash-утилитами, MCP-серверами и пользовательскими slash-командами, хранящимися в папке .claude/commands.

  3. Попробуйте проверенные рабочие процессы: “исследуй, планируй, кодируй, коммить”; разработка через тестирование; итеративная разработка с использованием скриншотов; безопасный “YOLO-режим”; использование Claude для изучения кодовой базы и взаимодействия с Git и GitHub. Правда, настаивают на использовании контейнера без доступа к интернету (вот тут, видимо, имеется в виду, что к API Anthropic доступ всё же нужен).

  4. Оптимизируйте работу: давайте конкретные инструкции; используйте изображения; указывайте файлы для работы; корректируйте ход работы раньше и чаще; используйте /clear для очистки контекста; создавайте чек-листы для сложных задач.

  5. Автоматизируйте с headless режимом: используйте Claude для сортировки задач и в качестве дополнительного линтера.

  6. Используйте несколько экземпляров Claude: один для написания кода, другой для проверки; работайте с несколькими копиями репозитория или git worktree; создавайте собственные обработчики для больших миграций.

Рид Хастингс, сооснователь Netflix, продолжает отходить от руководства компанией — по итогам первого квартала 2025 года он сменил должность исполнительного председателя совета директоров на позицию председателя совета директоров и директора без операционных обязанностей.

А у компании всё хорошо, 10,5 млрд долларов выручки, более 300 млн подписчиков по всему миру и планы достичь капитализации в 1 триллион долларов к 2030 году.