14 июня 2025
Интересное развитие событий вокруг 23andMe — Энн Вучицки удалось вернуть контроль над компанией, предложив через свой некоммерческий фонд TTAM Research Institute $305 млн за активы компании. Это намного больше, чем первоначальные $256 млн от Regeneron и намного выше ее собственного изначального предложения в $40 млн до банкротства.
Regeneron, по данным WSJ, отказался повышать ставку, хотя планировал продолжать бизнес по ДНК-тестированию и использовать генетические данные для разработки лекарств. Теперь суд формально открыл аукцион и оставил возможность для Regeneron вернуться к сделке, если те предложат не менее чем на 10 млн долларов больше до конца следующей недели.
Более двух десятков генеральных прокуроров штатов выступили против продажи, утверждая, что клиенты не давали согласия на передачу их личных данных покупателю. Назначенный судом омбудсмен по конфиденциальности заявил, что не может подтвердить соответствие продажи генетических данных политике конфиденциальности самой 23andMe. Правда, эта политика предусматривает согласие клиентов на продажу и передачу их данных.
Wall Street Journal выяснил, что китайские компании нашли новый способ обходить американские санкции на поставки AI-чипов — вместо контрабанды оборудования они вывозят данные для обучения искусственного интеллекта в страны Юго-Восточной Азии, где есть доступ к серверам с продвинутыми чипами Nvidia.
В статье описывается, как в марте четыре китайских инженера прилетели в Малайзию, каждый с чемоданом, набитым 15 жесткими дисками с 80 терабайтами данных. На арендованных серверах в малайзийском дата-центре они обучили AI-модель и вернулись домой с результатами — несколько сотен гигабайт данных с параметрами модели.
Метод требует месяцев подготовки, но позволяет избежать ввоза оборудования в Китай, что становится все сложнее из-за усиления контроля. Компании регистрируют подставные фирмы в Малайзии, разбивают данные по разным чемоданам, чтобы не привлекать внимание таможни.
Вспоминается старый анекдот про грузовик с CD-дисками, конечно.
Гарвардский университет выпустил датасет для обучения AI, состоящий из почти миллиона книг, опубликованных начиная с XV века на 254 языках. Проект поддерживается Microsoft и OpenAI и направлен на использование данных из общественного достояния, что позволяет избежать судебных исков от современных авторов.
Коллекция содержит 394 миллиона отсканированных страниц с примерно 242 миллиардами токенов. Для сравнения — последняя версия языковой модели Meta обучалась на более чем 30 триллионах токенов. Менее половины произведений написаны на английском языке, преобладают европейские языки, особенно немецкий, французский, итальянский и латынь.
Интересно, что Google, который с 2006 года оцифровывал эти книги для своего проекта Google Books и долго судился с авторами, теперь сотрудничает с Гарвардом в передаче данных AI-разработчикам. Библиотеки получают финансирование на дорогостоящую оцифровку, а технологические компании — легальный доступ к историческим данным.
Впрочем, специалисты указывают, что датасет содержит большое количество устаревших сведений, начиная от научных теорий и заканчивая общественно-политическими воззрениями. Представляете себе чатбот, который будет уверять вас в существовании флогистона или серьезности “бремени белого человека”. Впрочем, как-то сейчас он с тарологией и наличием всемирного правительства все же справляется.