Продолжаем писать вместе с AI

Я иногда задумываюсь, что слишком уж много вожусь с процессом прилаживания AI к ведению своего телеграм-канала, но на самом деле это для меня прекрасная тестовая площадка — много готового контента, причем с дополнительными материалами и черновиками, а на практической задаче всё новое изучается гораздо лучше.

На этой неделе мне попалась свежая статья исследователей из MIT, в которой они описывают свою новую систему Satori. Если упрощать, то существует несколько способов в обучении моделей рассуждениям — использование более мощной модели в качестве учителя, дистилляция модели, обучением с подкреплением на основе человеческих отзывов. Все это требует много ресурсов, поэтому исследователи решили пойти другим путем и попробовать научить модель самообучаться. Ученые придумали новый метод — Chain-of-Action-Though (COAT), то есть “Цепочка действий-мыслей”, чтобы помочь модели остановиться в рассуждениях, проверить себя и принять решение о продолжении.

Для этого разработали два этапа обучения:

На первом этапе три LLM обрабатывают задачи из обучающей выборки — одна генерирует возможные способы решения, вторая их критикует, находя ошибки, третья выставляет оценки как общему решению, так и каждому этапу. В результате получился небольшой (10 тысяч примеров) набор задач с оптимальными решениями и пометками в рассуждениях.

На втором этапе базовая LLM начала обучаться, уже научившись воспринимать пометки в рассуждениях как инструкции, чтобы остановиться, проанализировать ход решения и поискать альтернативный путь.

В результате обученная на базе Qwen 7B LLM показала не только высокие результаты в тестах (одни из лучших среди малых моделей и на уровне моделей 32B и 70B), но хорошие результаты в других сферах, хотя обучалась исключительно на математических примерах.

Казалось бы, зачем мне хорошие результаты в математике для ведения канала? Сейчас объясню.

Большинство серьезных статей я читаю вместе с LLM. Вероятно, я смогу сам прочесть всю статью и даже разобрать математику, но быстрее загрузить файл в Claude или ChatGPT, попросить изложить основное содержание, а затем позадавать вопросы. В ходе такого процесса я спросил “Применим ли метод к большим моделям?”, и AI ответил “Возможно, должно работать, но может оказаться дорого, из-за размера модели”, а затем продолжил “Но разработчики могли бы протестировать это с помощью zero/few shot техник”.

Вот на этом месте я зацепился. Дело в том, что именно на few shot learning (обучение на нескольких примерах) построено приложение, которое генерирует черновики комментариев для моего канала — оно отправляет в Claude API 15 примеров “новость-комментарий” и предлагает написать комментарий к новой новости. Если эта техника может быть изложена аналогичным образом, — а это ведь фактически просто большой промпт к стандартной модели, — то почему бы не попробовать? Что ChatGPT, что Claude со мной согласились, что Claude может на небольшом количестве примеров научиться распознавать метакогнитивные метки, которые предлагались исследователями, и даже написали примерный промпт.

Далее понадобилось набрать хотя бы несколько примеров, которые бы выглядели как “Новость — черновик комментария — итоговый комментарий”. Вот тут пригодилось наличие черновиков для канала — я просто прошелся по новостям, сгенерировал комментарий стандартным образом, исправил его, как мне нравилось и попросил Claude сформулировать промежуточные этапы.

Получился вот такой промпт:

Ты опытный журналист, который пишет авторские комментарии к новостям.  
Ты используешь метод Chain-of-Action-Thought (COAT), чтобы улучшить свои комментарии.  
Вот как ты работаешь:  
- "<|continue|>" — продолжи комментарий, добавив логическое развитие мысли.  
- "<|reflect|>" — оцени свой комментарий: ясно ли изложена мысль? Достаточно ли аргументов?  
- "<|explore|>" — предложи альтернативный взгляд на новость.  

Примеры:  

НОВОСТЬ 1: [текст новости]

Первичный анализ:

Выделение ключевых событий:

- …
- …
…

Первая версия комментария: [текст комментария, сгенерированный предыдущей версией]

|reflect|>
Проверка качества анализа:

- …
…

Выявленные недостатки:

- …
…

<|explore|>
Альтернативный подход:

- …
…

Итоговый комментарий: [окончательный текст с моими правками]

НОВОСТЬ 2:
…

Теперь напиши комментарий к следующей новости, используя COAT: [текст новой новости]

Да, получается просто огромный промпт, без текста новой новости он с тремя примерами занимает примерно 30k символов, то есть больше 32k токенов, но в веб-интерфейсе Claude это не считается, лишь бы поместился в контекст, то есть в 200k токенов. Зато в результате Claude выдает вот такое для новости про Sonos:

Let me analyze this news article and provide a commentary using the COAT method.

Первичный анализ:

Выделение ключевых фактов:
- Sonos готовит выход в новую категорию - видеоплееры
- Устройство под кодовым названием Pinewood оценивается в $200-400
- Компания переживает сложный период после проблем с мобильным приложением
- Продукт разрабатывается под руководством директора по инновациям Ника Миллингтона

Первая версия комментария:
Sonos, известный производитель аудиосистем премиум-класса, готовится к рискованному шагу — выходу на рынок видеоплееров. После провального года, омраченного проблемами с мобильным приложением и низкими продажами наушников Ace, компания делает ставку на устройство под кодовым названием Pinewood.

Этот Android-плеер обещает объединить контент от Netflix, Max и Disney Plus в едином интерфейсе, а также служить HDMI-коммутатором для игровых консолей и других устройств. Но главная интрига — цена $200-400, которая значительно превышает стоимость конкурентов вроде Apple TV 4K или Nvidia Shield.

<|reflect|>
Проверка качества анализа:
- Недостаточно раскрыта техническая составляющая продукта
- Нужно больше внимания уделить контексту рынка
- Стоит подчеркнуть связь с существующей экосистемой Sonos

<|explore|>
Альтернативный взгляд:
- Рассмотреть Pinewood как попытку решить проблемы интеграции с ТВ
- Проанализировать риски выхода в новую категорию
- Оценить потенциал устройства для существующих пользователей Sonos

Итоговый комментарий:
Sonos готовится к самому амбициозному запуску за свою историю — выходу на рынок видеоплееров с устройством Pinewood. После года, омраченного проблемами с мобильным приложением и разочаровывающими продажами наушников Ace, компания делает ставку на продукт, который должен стать центром домашних развлечений.

На первый взгляд, это еще один Android-плеер для стриминга. Но инженеры Sonos превратили его в настоящий швейцарский нож — помимо объединения контента от разных сервисов, устройство будет служить HDMI-коммутатором и позволит создавать продвинутые конфигурации домашнего кинотеатра с колонками Sonos. По сути, компания пытается решить давнюю проблему интеграции своих саундбаров с телевизорами, взяв под контроль весь аудио-видео тракт.

Однако цена $200-400 выглядит чрезмерной для этой категории. Apple TV 4K и Nvidia Shield стоят существенно дешевле, а их экосистемы куда богаче. Внутри Sonos многие сотрудники сомневаются в перспективах Pinewood, опасаясь повторения истории с наушниками Ace.

Похоже, что это личный проект директора по инновациям Ника Миллингтона, который когда-то создал сетевую архитектуру Sonos. Но в условиях, когда компания сокращает персонал и пытается восстановить репутацию после проблем с приложением, столь рискованный выход в новую категорию может оказаться преждевременным. Впрочем, недавние положительные отзывы на Arc Ultra показывают, что Sonos все еще умеет делать отличные продукты. Вопрос в том, готов ли рынок платить премиальную цену за видеоплеер от аудиокомпании?

Небольшой опрос среди товарищей — я показал им несколько таких примеров с тремя вариантами комментариев, — показал, что практически всегда они выбирают вариант, сгенерированный с использованием COAT техники. И мне самому он нравится — особенно, когда в одной из новостей он придумал метафору, отсутствующую в исходной новости. Теперь я озадачен — надо ли писать вторую версию своего приложения, которое бы именно так запрашивало комментарий?

Иначе говоря, возвращаемся к вопросу — надо ли так прилаживать AI для ведения простого телеграм-канала? Но к подходу присмотритесь — результаты явно лучше стандартных.