AI - БлоGнот

Я всего лишь хотел спросить…

Взаимодействие с LLM иногда оборачивается непредсказуемо. Вчера, вспомнив про функцию в MyHeritage, которая раскрашивает старые фото, (и попробовав обработать пару фотографий), я решил поинтересоваться у AI, а есть ли другие варианты и вообще хорошие модели, которые это умеют делать.

ChatGPT был конкретен — возьмите GFP-GAN и DeOldify потому-то и потому-то.

А вот Claude решил отвечать иначе.

Full disclosure: Этот текст комментирует интервью одного из руководителей Минцифры Украины в области AI. Я участвовал в конкурсе на должность Chief AI Officer, который полгода назад проводило Минцифры.

На ДОУ опубликовано интервью с Дмитрием Овчаренко, CTO центра AI, недавно организованного Министерство цифровой трансформации, посвященное в основном вопросу разработки национальной LLM. Эта разработка была анонсирована при запуске центра и, честно скажу, сразу вызвала у меня недоумение. Интервью это недоумение совершенно не развеяло, скорее усилило.

Я иногда задумываюсь, что слишком уж много вожусь с процессом прилаживания AI к ведению своего телеграм-канала, но на самом деле это для меня прекрасная тестовая площадка — много готового контента, причем с дополнительными материалами и черновиками, а на практической задаче всё новое изучается гораздо лучше.

На этой неделе мне попалась свежая статья исследователей из MIT, в которой они описывают свою новую систему Satori. Если упрощать, то существует несколько способов в обучении моделей рассуждениям — использование более мощной модели в качестве учителя, дистилляция модели, обучением с подкреплением на основе человеческих отзывов. Все это требует много ресурсов, поэтому исследователи решили пойти другим путем и попробовать научить модель самообучаться. Ученые придумали новый метод — Chain-of-Action-Though (COAT), то есть “Цепочка действий-мыслей”, чтобы помочь модели остановиться в рассуждениях, проверить себя и принять решение о продолжении.

Естественный стиль общения с AI иногда приводит к таким оборотам, что начинаешь воспринимать это как хамство или любимое действие современной молодежи — “обесценивание”.

Вот, например, занимаемся мы с ним программированием — в данном случае это Claude 3.5 Sonnet. У меня есть небольшое расширение для Cursor, которое мы с ним же написали для генерации коротких commit message — когда писали, в Cursor этой функции вообще не было, а мне при этом не надо больших сообщений, поскольку это блог и там достаточно писать “add article on…”. Но движок там Astro, который не любит пустых полей в мета-информации заметки (frontmatter) и я регулярно удаляю из большого шаблона пару редко заполняемых полей. В итоге мне это надоело и я подумал — пусть расширение это делает.

Проблема с хайпом вокруг технологий заключается в том, что появляется огромное количество информационного шума, который делает технологию какой-то разновидностью волшебства. Так было с криптовалютами, и теперь такое же наблюдается вокруг AI и LLM. Тем более, что попробовать тот же ChatGPT несложно — это вам не с криптокошельком разбираться, — и общение в привычном интерфейсе вебчата или мессенджера дает какие-то разумные ответы, так что широкой аудитории вполне верится в утверждение «AI можно натренировать так-то и так-то». И это действительно так — натренировать можно, вот только непосредственный процесс тренировки как раз и становится той самой «магией», которая по всем правилам фокуса должна остаться непонятной профанам.

Я заранее хочу предупредить, что дальнейший текст будет излагать эту магию намеренно очень упрощенно, без математики, так сказать — для общего понимания. Мой собственный опыт довольно специфичен, я не провожу исследований и технически корректных экспериментов, но опыт использования накопить успел и для выводов вида «А вот для этого надо пробовать эту область решений» этого опыта часто хватает.

Одно из популярных мнений относительно AI заключается в том, что искусственный интеллект так хорошо умеет писать тексты, что его можно натренировать в нужном стиле — и он будет за вас писать ну точно, как вы. Я бы назвал это популярным заблуждением — хотя AI в виде GPT-моделей действительно хорошо генерирует тексты, все же натренировать его под чей-то специфический стиль не так уж и просто.

Однако я попробовал. И хочу рассказать, что именно получилось.

Одним из способов использования AI для меня является редакторская и смысловая проверка моего контента. Например, лекций в “Курсе молодого CEO”.

Цель такого использования очень простая и предельно практическая — есть готовая лекция на определенную тему. AI может проверить её содержание на фактические ошибки, он также неплохо справляется со структурированием контента и оценкой его на полноту. Довольно часто он советует дополнить лекцию смежными темами — я, правда, почти всегда обнаруживаю в списке тем те, которые раскрываются в других лекциях курса, поэтому больших изменений не делаю.

Когда писал предыдущий пост, сразу после слов “катастрофическая ошибка” Github Copilot предложил мне свой вариант:

Даже не знаю, что сказать. Фантазия у него, конечно, богатая, но мне нравится.

Вчера решил, что с меня хватит, и выключил DeepL приложение.

Нет, оно переводит нормально. Если переводит.

Проблема в том, что некоторое время назад они решили, что им будет полезно, если пользователи зарегистрируются. Поэтому они обрезали лимит использования для всех до 1500 символов, оставив прежний лимит в 5000 символов только для тех, кто заведет себе аккаунт. Хорошо, я зарегистрировался. Вообще, я бы им и денег заплатил, но они их не хотят брать от прямо всех, ограничивая свою деятельность только ЕС.

С этого момента начались проблемы. Если раньше достаточно было выделить текст для перевода и дважды нажать Cmd+C, то теперь приложение могло не появиться вовсе, а если появлялось, то в половине случаев без скопированного текста. И в половине случаев оно сообщало, что вам бы зарегистрироваться, а пока вот вам перевод 1500 знаков.

Да, оно в половине случаев теряло состояние логина. Я не знаю, как этого можно было добиться.

Вообще, это худшее поведение для приложения, которое хочет стать утилитой. Сначала вы предлагаете пользователю поставить себя везде, наладить синхронизацию между всем, хоткеи и всё прочее, а потом при попытке воспользоваться привычным приложением сообщаете ему “А не, что-то ошибка, наверное, тебе залогиниться или ввести мастер-пароль надо”.

И DeepL — это единственное расширение для браузера, которое при правом клике не предлагает немедленно что-то сделать с выделенным текстом. LanguageTool предлагает проверить текст в редакторе, Google Translate — перевести текст, UBlock — блокировать элемент, Save To Pocket — сохранить в Pocket, а DeepL открывает еще один уровень меню, где перевод выделенного текста — это вторая строка.

Что как бы подсказывает, что никакие достижения в области AI не помогут, если естественный интеллект не справляется с простыми задачами продуктового дизайна.

Удивительно и даже слегка парадоксально ведет себя искусственный интеллект. Я на днях решил сдать некоторые анализы, сделал кардиограмму и, по получению результатов, решил поэкспериментировать — скормил результаты в разные AI-системы и попросил мне их объяснить.

На самом деле, часть анализов и так были снабжены заключениями живых врачей, а по остальным показателям я в предыдущие разы много гуглил, чтобы уяснить себе смысл каждого из них. Так что сначала задача была простая — пусть он (AI) сам прокомментирует показатели, чтобы я не гуглил.

Результат оказался странным — ChatGPT сначала прокомментировал показания электрокардиограммы, но саму кардиограмму в виде картинки отказался комментировать наотрез.

Напротив, недавно запущенный Claude 3 Opus (самая мощная модель от Anthropic) никаких сомнений не испытал и подробно прокомментировал каждый зубец на графике:

Ответ Claude 3 Opus на электрокардиограмму

Удивительно в этом то, что именно Anthropic настаивал на своей “конституционности” и всякой ответственности, причем компания была основана специалистами, ушедшими несколько лет назад из OpenAI по причине несогласия с позицией остальных. И, казалось бы, им и проявлять большую осторожность.

И коротко добавлю, что Claude в итоге прокомментировал и все остальные анализы и даже ответил на наводящие вопросы о диагнозах. Хотя вот тут как раз и напомнил о необходимости консультации специалиста.

Илон Маск решил, что, кроме него, за AI постоять некому и предъявил иск Сэму Альтману и всем возможным организациям, составляющим OpenAI. В иске он обвиняет всех в том, что они:

нарушили исходное соглашение об основании OpenAI как неприбыльной организации,
нарушили обещания, приравненные к контракту относительно развития организации,
нарушили обязанности перед инвесторами (fiduciary duty),
применяли нечестные деловые методы, что привело к материальному ущербу для Маска и других представителей общественности,
нарушали принципы финансирования, не направляя все средства по назначению, то есть для некоммерческого развития AI.

Таким представляется Маск в суде модели Midjourney

В преамбуле также утверждается, что фактически Альтман сделал из некоммерческой организации бизнес-придаток Microsoft, что GPT-4 и тем более разрабатываемая сейчас модель Q* являются AGI (Artificial General Intelligence) и поэтому не должны входить в контракт с Microsoft.

Исковое заявление требует, чтобы:

ответчики продолжили делать хорошо (как положено для некоммерческой организации),
ответчики перестали делать плохо (то есть извлекать прибыль из AI),
суд признал GPT-4 и Q* за научный факт Artificial General Intelligence (тем более, что внутре у них точно нейронка),
и взыскал соответствующий ущерб, какой суд сочтет нужным, каковая сумма будет куда-то передана — в non-profit или на благотворительность.

И чтобы всё это рассматривалось в суде присяжных — очевидно рассчитывая на глас народа, не очень разбирающегося в том, что такое AGI, зато уже опасающегося всей темы.

Правда, до сих пор Маску не очень везло на суды. Даже прямо можно сказать — совсем не везло и вчера же прошла новость, что предыдущий громкий иск, в котором Маск обвинял некоммерческую организацию в распугивании рекламодателей Twitter с причинением ущерба, особой перспективы не имеет.

Проект Vesuvius Challenge объявил о присуждении главного приза по результатам 2023 года. Но сначала о самом проекте.

Ученые много десятилетий пытаются прочесть свитки из Геркуланума — при извержении Везувия в 79 г. н.э., погубившем Помпеи, была засыпана пеплом вилла, библиотека которой содержала тысячи свитков. Свитки при этом обуглились от высокой температуры, но пепел их сохранил. В 1750 году виллу нашли вместе со свитками и немалое количество их погубили попытками развернуть — обугленный папирус крошится при этом. Только в последние годы попытки пошли в другом направлении — теперь свитки пытаются развернуть виртуально.

В прошлом году группа филантропов во главе с основателем Github Нэтом Фридманом организовала международное соревнование — для этого свитки, хранящиеся во Франции, были просканированы на синхротроне в Оксфорде для создания очень детальных 3D-сканов, после чего результаты были переданы участникам. И вот по итогам 2023 года есть реальный прорыв — одна из команд смогла прочесть 15 колонок текста — более 2000 символов, — причем это ранее неизвестное произведение греческого философа Филодемуса, принадлежащего к школе эпикурейцев и учителя Вергилия.

Команда из трех уже отличившихся участников — они выиграли в течение года спецпризы за первые распознанные слова и разработку алгоритмов сегментации (разделения слоев папируса в сканах), — получит 850 тысяч долларов в качестве главного приза.

Теперь задача проекта на 2024 год — разработать масштабируемую технологию сканирования и распознавания свитков. Сейчас работа над 1 кв.см свитка обходится в 100 долларов, что делает стоимость расшифровки одного свитка от 1 до 5 млн долларов. Кроме того, доставка свитков в Оксфорд и сканирование их в синхротроне обходится в 40 тысяч долларов, при этом приходится ждать перерывов в исследованиях на установке. В общем, организаторы рассчитывают, что имеющиеся 800 свитков будут прочитаны в ближайшие 2-3 года — при этом раскопки виллы можно и нужно продолжить, ученые уверены, что миру откроются еще много свитков — тем более, что это практически единственная дошедшая до нас античная библиотека.

Возможно, вы слышали, что Google не желает уступать разным там OpenAI в гонке LLMs (Large Language Models) и недавно запустил в виде эксперимента собственный AI под названием Bard. Доступ к нему открывается через инвайты и возможен только в США и Великобритании, но можно пройти через VPN — так я инвайт и получил. И даже немного пообщался.

Какое отношение может иметь Пасха к машинному обучению? Ну вот, например, такой новостью — ученые, изучающие свитки Мертвого моря, известные также, как Кумранские свитки, с помощью нейронной сети доказали, что самый большой из свитков — он состоит из 17 листов пергамента, имеет длину около 8 метров и содержит целиком Книгу Исайи, — переписывался не одним, как считали ранее, а двумя писцами, хотя второй пытался подражать первому.

Процесс распознавания почерка у графологов обычно выглядит очень субъективным. Человеческий почерк, даже если речь идет о каллиграфии, отличается высокой вариативностью и меняется в зависимости от множества факторов, даже если речь идет об одном человеке. Распознать же разные руки, когда речь идет о большом объеме текста, выглядит совершенно невозможным. Поэтому ученые разработали собственную нейронную сеть, натренировав для начала её на оцифровку текста с учетом особенностей пергамента, чтобы исключить его неоднородность и выделить характер и силу нажатий при написании.

AI

Хотел только спросить

Зачем нужна национальная LLM

Продолжаем писать вместе с AI

Мне хамит AI

Сеанс разоблачения магии в AI

Как AI пишет мне тексты

Мимоходом про AI

Катастрофическая ошибка по мнению AI

Проблемы с юзабилити у DeepL

Удивительная этичность AI

Маск решил вступиться за AI

Vesuvius Challenge

Как я с Bard-ом общался

Пасха и AI