26 января 2023
В связи с утечкой 48 гигов кода из Яндекса мне вспоминается история, кажется, года 2011-го, когда мы готовились к очередной оптимизаторской конференции. Ребята из маркетинга поиска придумывали развлечения на тему машинного обучения, когда кто-то предложил — «А давайте им формулу релевантности покажем?».
Я, помнится, сразу предложил скрытой камерой снимать тех, кто остановится и начнет записывать.
Дело в том, что на тот момент «формула релевантности» представляла из себя программу из примерно 20 тысяч строк на plain C, причем сгенерированную компьютером же — то есть без комментариев, без понятных переменных и так далее. Даже при очень медленной прокрутке на экране прочесть и разобраться в ней было бы очень сложно. Но самое главное — она в принципе не имеет никакого смысла без индекса, который из себя представляет не одну таблицу и даже не большую базу данных, а множество таких баз с весами, коэффициентами, координатами и всем, что только можно. И это не учитывая разных хаков имени конкретного разработчика.
Короче, «скачать весь Яндекс» — это как угнать бронепоезд. Причем без рельсов. И не в Яндексе одном дело — как выглядят мучения разработчика, вдруг попавшего вовнутрь Twitter, мы видели пару месяцев назад на примере geohotz.
Новость вчерашняя, но я вежливый и не стал писать, пока все не стало публичным. В общем, кто-то очень недобрый выложил в открытый доступ полное дерево исходных текстов всех сервисов из репозиториия Яндекса. Там и поиск, и Алиса, и даже Такси есть (по ссылке обзор контента).
Важно понимать: по сути это довольно бесполезно, подходит для изучения кода, но запустить из этого свой яндекс не выйдет. Во-первых, попробуйте хоть что-то оттуда собрать, это очень неочевидно и часто требует внутренней инфраструктуры Яндекса. Во-вторых, для ИИ-проектов нет самого главного — натренированных весов, т.е. модель, которая у вас получится после сборки, просто не обучена. Датасета для обучения тоже нет.
Это безусловно не взлом, а слив кого-то из сотрудников. И код не свежий, это срез репозитория на символическую дату 24 февраля прошлого года.
Тем не менее, 40+ гигабайт сорцов — прецедент серьезный и явно политический. И даже не спросишь «а что случилось».
Совсем не про технологии, но интересная новость, похоже, мир решил трезветь. Diageo, крупнейший в мире производитель спиртных напитков (его бренды это Johnnie Walker, Guinness, Smirnoff, J&B, Baileys, Cuervo, Tanqueray, Captain Morgan, BulleIt и другие, заявил о замедлении роста спроса в некоторых странах, включая Северную Америку.
Спрос на продукцию компании (как, наверняка, и продукцию многих других производителей) вырос во время пандемии, когда потребители стали покупать больше алкоголя и предпочитать более дорогие сорта и марки. Возможно, что нынешнее замедление — это отражение и общего кризиса, и изменения структуры расходов среднего потребителя.