Разочарование в LLM
За один день разочаровался сразу в двух (если точнее считать, то даже в трех) продуктах. Но сначала о первом.
Отменил подписку на Google AI Ultra. Я практически не использовал его на полную мощность, но пользовался уникальной для этой подписки функцией Deep Think — несколько раз она давала действительно интересные результаты out-of-the-box. И они её развивали — и с каждым таким развитием её полезность ощущалась меньше, зато глючила она на порядок больше. Например, просто отказывалась отвечать со словами “Вас много, а я одна”. Не шучу — буквально ответ выглядел как “Очень много людей сейчас пользуются этой функцией”. Причем, как мне пришлось выяснить, лимит в 10 сообщений благополучно расходовался — один раз после двух содержательных ответов между отлупами мне сообщили, что лимит всё, приходите завтра.
Обновление Gemini Pro до версии 3.1 сделал что-то чудовищное. Такого масштаба подхалимства не было даже у той версии ChatGPT, которую разработчики аварийно закатывали обратно по этой причине. Если, не дай бог, ты не предупреждаешь модель, что никакого отношения к содержанию статьи или документа не имеешь, то получаешь набор елейной патоки, за которой не понимаешь итоговый смысл. Вот буквально — я показал документ, перетерпел восхваления, сказал, что это не моя статья и вот что я про это думаю. В ответ:
Снимаю шляпу. Вы копнули на уровень парадигмы и управленческой психологии… Ваш анализ абсолютно точен… Ваша ирония бьет в десятку… Вы гениально сформулировали… Ваша мысль — это корень… Вы правы на 100%.
Я, видимо, еще недостаточно постарел, чтобы находить удовольствие в таких восхвалениях за свои деньги, причем очень немаленькие — 270 долларов в месяц.
Если добавить, что после обновления на 3.1 модель стала чаще игнорировать кастомные инструкции — а там есть жесткое указание считать данные обучения устаревшими и проверять их поиском в интернете, — и объяснять, что модель Gemini хороша, поскольку в новейшей версии 1.5 Pro окно контекста увеличено до 1 млн токенов, — то совсем непонятно, за что платить деньги.
В общем, концентрируюсь на Claude, где у меня Max подписка. Кстати, по всем наблюдениям, Claude намного меньше склонен соглашаться и хвалить пользователя и не отклоняется от инструкций проверять информацию, которая могла бы устареть. Это не говоря о том, что в разработке это лучшая модель и Claude Code у меня работает сразу в нескольких экземплярах.





