7 августа 2025

00:28 #6172

Google вывел свой автономный агент Jules из беты. Кэти Коревек из Google Labs говорит, что решение приняли после сотен улучшений UI и качества за два месяца тестирования.

Напомню, что Jules — это скорее аналог ChatGPT Codex. Для работы он использует Gemoni 2.5 Pro.

В бете было ограничение 60 задач в день, теперь бесплатный план предусматривает только 15 (из них 3 одновременно). Платные тарифы — часть Google AI Pro и Ultra за $19.99 и $124.99 в месяц соответственно. Пользователи этих тарифов получают соответственно в 5 и 20 раз больше лимитов (какие-то знакомые значения, вам не кажется).

Я пробовал его сразу после запуска — мне он показался слабее Codex и уж точно уступал Claude Code по качеству работы. Можно попробовать еще — у меня, кажется, как раз подписка AI Pro.

Источник

16:05 #6173

Apple с Corning договорились делать все защитное стекло для iPhone и Apple Watch в Кентукки. Apple вкладывает в производство 2,5 миллиарда долларов инвестиций.

Правда, сами устройства все равно делаются не в США. То есть готовые экраны после производства надо отвезти в Китай или Индию, после чего готовые устройства привезти в США — и гордый американский потребитель прочитает на коробке надпись “Glass made in USA”.

Как говорится, make carbon emissions great again.

P.S. Марк Гурман напоминает, что Тим Кук уже несколько лет упоминал, что стекла производятся в США. Теперь выясняется, что далеко не все и вот только теперь будут все. Только Трампу не говорите.

Источник

22:10 #6174

Ну что же — дождались и тут. OpenAI анонсировала GPT-5, и, помимо хороших результатов по бенчмаркам, самое примечательное — попытка навести порядок в продуктовой линейке. Вместо путаницы из GPT-4o, o3, o4-mini и прочих версий GPT-5 позиционируется как единая система с “умным роутером”. Он сам определяет, когда достаточно быстрого ответа, а когда нужно включать режим thinking для более сложных задач. Впрочем, его можно включить специально, сказав “think hard” (а ultrathink оно поймет, интересно?).

Бенчмарки интересные. На SWE-bench Verified, который измеряет способность решать реальные задачи программирования, модель показывает 74.9%. Для сравнения, средний junior-разработчик справляется примерно с 80-85% таких задач. Впрочем, Денис Ширяев считает, что в разработке GPT-5 рвет всех, включая Opus 4.1.

Health capabilities тоже любопытны — 46.2% на HealthBench Hard.

Разработчики уделили много внимания снижению галлюцинаций — минус 45% фактических ошибок с веб-поиском относительно GPT-4o. В режиме thinking разница еще драматичнее — на 80% меньше ошибок, чем у o3. Модель скорее сообщит, что ответа нет, чем начнет галлюцинировать.

Деталь про sycophancy забавная. После того как случайно сделали GPT-4o слишком подобострастной, теперь в OpenAI специально измеряют уровень “подхалимажа”. В GPT-5 его снизили с 14.5% до 6%.

GPT-5 начнет выкатываться сегодня для всех пользователей, включая бесплатных. Enterprise и Edu получат доступ через неделю после всех остальных. Free-пользователи после исчерпания лимитов переключатся на GPT-5 mini. У Pro пользователей будет доступ без ограничений, плюс доступ к GPT-5 Pro с максимальным reasoning.

В API модель уже доступна, но вам нужно верифицировать свою организацию. Доступны четыре модели (как и говорили утром в утечке) — GPT-5, mini, nano и Chat. Все модели дешевле, чем даже GPT-4.1, впрочем, если вы включаете reasoning, токены рассуждений тоже учитываются в расходе.

Источник

22:12 #6175

А вот такой комментарий написал к предыдущей новости сам GPT-5:

Кажется, OpenAI наконец-то фиксирует новый формат продукта: не «зоопарк моделей», а единая система с автоматическим роутером. По данным OpenAI, GPT‑5 становится дефолтом в ChatGPT, а «глубокое мышление» включается по ситуации — или по подсказке пользователя фразой вроде think hard about this. Если упрётесь в лимиты, вас тихо переведут на mini‑версию. Концептуально это важнее самих бенчмарков.

Довольно любопытно, что компания меняет сам подход к безопасности. Вместо жёстких отказов — так называемые safe completions: модель пытается помочь на безопасном уровне и честно объясняет границы. Параллельно «GPT‑5 thinking» отнесли к High в биологии и химии, для него завезли многоуровневые защиты и 5 тысяч часов red‑teaming с партнёрами, как утверждает OpenAI. Вкупе с заявленными снижениями галлюцинаций и обмана это звучит как попытка вывести AI из режима демонстрации трюков в режим предсказуемой инфраструктуры. Впрочем, посмотрим, как это поведёт себя за пределами демо.

Есть ещё пара деталей, которые легко пропустить. Во‑первых, роутер тренируется на реальных сигналах — от предпочтений пользователей до измеренной корректности, — то есть сам продукт будет меняться по мере того, как мы им пользуемся. Во‑вторых, OpenAI явно борется с избыточной «учтивостью» модели: снижение лести и новые предустановленные «персоны» вроде Cynic и Robot призваны управлять тоном, а не только фактурой ответов. И да, по данным OpenAI, в коде и здравоохранении прирост ощутим — от SWE‑bench Verified до HealthBench, — но бенчмарки, как обычно, хороши постфактум, а важнее качество в повседневных задачах.

Если прогнозировать, рынок ждёт перетяжка каната не столько за «самый умный» чип, сколько за лучший пользовательский автопилот. Унифицированная архитектура с роутером снижает видимость модели как таковой и повышает ценность дистрибуции. Бесплатный доступ по умолчанию — сильная вилка против конкурентов из лагеря Google, Anthropic и Meta, а заодно давление на экосистему «обёрток» и плагинов, которым всё сложнее объяснить, зачем промежуточный слой. В здравоохранении появится ещё один слой триажа и подготовки к визиту к врачу, но вместе с этим вырастет интерес регуляторов — безопасные частичные ответы хороши на бумаге, в реальности границы часто размыты.

По ощущениям, если архитектура с роутером действительно работает, эпоха советов «переключите модель на X» будет сходить на нет. Пользователю это удобно. Конкурентам, скажем так, не вполне удачно.