6 февраля 2025
Пятьдесят долларов облачных кредитов — именно столько потребовалось исследователям из Стэнфорда и Университета Вашингтона, чтобы создать AI-модель, способную соревноваться с продуктами технологических гигантов. Это как если бы кто-то собрал Ferrari в гараже из запчастей от Toyota, причем машина поехала почти так же быстро, как оригинал.
Секрет успеха кроется в методе дистилляции — своеобразном AI-репетиторстве, когда маленькая модель учится у большой, перенимая её способности к рассуждению. Исследователи использовали всего 1000 тщательно подобранных вопросов и ответов от Google Gemini, потратили полчаса на 16 GPU — и получили модель s1, показывающую впечатляющие результаты в тестах на математику и программирование.
В то время как Meta, Google и Microsoft планируют вложить сотни миллиардов долларов в AI-инфраструктуру в 2025 году, этот эксперимент ставит неудобный вопрос: а нужны ли такие гигантские инвестиции? Конечно, дистилляция не создает принципиально новых возможностей, но она может сделать существующие технологии доступными для более широкого круга разработчиков и даже бизнес-пользователей.
Впрочем, я бы еще задумался о тестах — за последние полгода мы уже видели много моделей, “показывающих впечатляющие результаты в тестах”, но только R1 вроде удовлетворяет пользователей за пределами тестов.
Вот вам еще одна разработка исследователей — на этот раз из MIT и Гарварда, — на тему обучения моделей рассуждениям. В этом случае исследователи, чтобы обойтись без дорогостоящего обучения с участием большой модели, применением RLHF и SFT, разработали метод “Chain-of-Action-Thought” (COAT), когда сначала для модели генерируется небольшой обучающий набор рассуждений, а затем модель по нему обучается в процессе генерации промежуточных звеньев в цепочке останавливаться, оценивать решение, искать альтернативный подход и двигаться дальше.
Ключевая особенность подхода Satori в том, что модель учится рассуждать без внешнего руководства, она сама оценивает промежуточные результаты и сама ищет альтернативные решения. При этом навыки рассуждения, полученные на математических задачах, успешно переносятся на другие области — логику, программирование и так далее.
Обученная на базе Qwen-7B модель обошла по тестам своих одноклассников и даже большие (Llama 70B) модели, а в других областях продемонстрировала результаты на уровне лидеров, при том, что она не обучалась на материале этих тем.
Но еще одну ссылку я дам на свой блог — поскольку обсуждая статью с LLM, у нас родилась идея, что аналогичный подход можно реализовать с помощью few shot на топовой LLM и оказалось, что действительно можно и результаты получаются заметно лучше, чем даже с традиционными примерами “вопрос-ответ”. Правда, промпт получается немаленький, но… читайте в блоге, я там описал подробности.