9 июня 2025

14:14 #6003

Перед выходными вышло интересное исследование ученых из Apple. Они провели масштабное исследование “думающих” ИИ-моделей — тех самых, которые генерируют длинные цепочки размышлений перед ответом (OpenAI o1, Claude с thinking mode, DeepSeek-R1). И результаты оказались интересными.

Главный вывод исследования — эти модели создают иллюзию мышления, а не демонстрируют настоящие способности к рассуждению. Исследователи протестировали их на классических головоломках вроде Ханойской башни и переправы через реку, где можно точно контролировать сложность и проверять каждый шаг решения. Выяснилось три режима работы. На простых задачах обычные модели без “мышления” работают лучше и эффективнее — зачем тратить тысячи токенов на размышления там, где можно сразу дать правильный ответ? На задачах средней сложности “думающие” модели показывают преимущество. А вот на сложных — обе версии полностью проваливаются, причем с нулевой точностью.

Самое парадоксальное — когда задачи становятся очень сложными, модели начинают “думать” меньше, а не больше. Это противоречит здравому смыслу и говорит о фундаментальных ограничениях в их архитектуре. По сути, они упираются в потолок и даже не пытаются его пробить дополнительными размышлениями.

Анализ “мыслительных” трасс (traces) тоже показал проблемы. На простых задачах модели находят решение быстро, но продолжают крутиться в цикле, исследуя заведомо неверные варианты — классический overthinking. На сложных часто зацикливаются на первом же неправильном решении и не могут от него отойти. Особенно показателен эксперимент с готовым алгоритмом. Даже когда моделям давали пошаговую инструкцию решения Ханойской башни, они все равно делали ошибки на том же уровне сложности. То есть проблема не в поиске стратегии, а в базовой способности следовать логическим шагам.

Впрочем, есть и загадки. Claude 3.7 Sonnet может сделать 100+ правильных ходов в Ханойской башне, но проваливается после 5 ходов в задаче о переправе. Это намекает, что модели опираются на паттерны из обучающих данных, а не на универсальные принципы рассуждения — видимо, примеров Ханойской башни в интернете куда больше.

Правда, мы в подкасте заспорили, что какое-то значимое число людей примерно так и размышляют. Так что это исследование, возможно, напротив подтверждает, что модели рассуждают как люди.

Источник

22:10 #6004

Итак, мы дождались WWDC 2025 и посмотрели, как Apple представила новый всех операционных систем под названием “liquid glass” с повышенной прозрачностью элементов интерфейса. Компания также изменила схему нумерации — теперь все ОС получили номера 26, соответствующие году выхода (iOS 26, macOS 26 и так далее). По сути, это главный анонс.

Нововведения включают кардинальную переработку iPadOS с оконным интерфейсом в стиле macOS — это, пожалуй, самый большой прогресс среди всех операционных систем. Еще можно отметить новый Spotlight в MacOS — он, возможно, теперь будет выглядеть на уровне по сравнению с альтернативными ланчерами типа Raycast.

Apple Intelligence получила функцию “умного скриншота” — можно вызвать ИИ-помощника обычными кнопками для скриншота и задавать вопросы о содержимом экрана. Также появился встроенный живой перевод в Messages, FaceTime и Phone, а разработчикам открыли доступ к локальным языковым моделям Apple Intelligence.

Разработчикам уже доступны первые бета-версии.

Вообще, достаточно спокойная презентация, но опять приходится вспоминать, что компания 20 лет проводит подобные презентации, причем несколько раз в год, а мы каждый раз хотим, чтобы она нам показывала первый iPhone или доставала из конверта ноутбук.

Источник