17 декабря 2024

Google набрал ход и удивляет своими запусками в области AI — сегодня компания показала новые версии своих моделей для генерации видео и изображений — Veo 2 и Imagen 3, а также представила новый экспериментальный инструмент Whisk.

Veo 2 демонстрирует впечатляющие результаты в создании видео, лучше понимает физику реального мира и нюансы человеческих движений. Модель также разбирается в кинематографии — может работать с разными жанрами, объективами и спецэффектами, создавая видео разрешением до 4K и длительностью в несколько минут. При этом она реже “галлюцинирует” лишние детали вроде дополнительных пальцев.

Правда, пока что он доступен только в приложении VideoFX, которое доступно только по инвайтам. Правда, Google обещает, что на этой неделе количество пользователей приложения увеличится.

Imagen 3 теперь создает более яркие и композиционно выверенные изображения, лучше следует промптам и может работать в различных художественных стилях — от фотореализма до аниме. Модель уже доступна в ImageFX более чем в 100 странах.

Новый инструмент Whisk позволяет использовать изображения в качестве промптов для визуализации идей. Он комбинирует Imagen 3 с визуальными возможностями Gemini — последний автоматически создает детальное описание загруженных изображений, которое затем используется Imagen 3 для создания новых вариаций.

Впрочем, Whisk нам недоступен, так что подождем всё сразу пробовать.

Meta добавляет три новые функции в свои умные очки Ray-Ban: живой AI-помощник, синхронный перевод и Shazam. Первые две доступны только участникам программы раннего доступа Meta, а Shazam — всем пользователям в США и Канаде.

AI-помощник позволяет вести естественный диалог, пока он анализирует окружающую обстановку. Например, в продуктовом магазине можно попросить его предложить рецепты на основе продуктов, которые вы видите. Время работы этой функции — около 30 минут от полного заряда.

Функция перевода работает между английским и испанским, французским или итальянским языками. Переводы можно слушать через очки или читать на телефоне. Правда, языковые пакеты нужно скачивать заранее.

Что касается Shazam, то там всё просто — вы просто голосом вызываете функцию и она распознает звучащую музыку.

Мне кажется, что вот такие мелкие бытовые сценарии по большому счету больше меняют в нашей жизни, нежели какие-то прорывные модели — просто потому, что они доступны большому количеству людей и в готовом виде, не надо ничего придумывать или дорабатывать.

Интересное исследование — оказывается, если подольше подумать, то результат окажется лучше. Исследователи из Hugging Face выложили результаты своего исследования, в ходе которого небольшие модели — Llama-3.2-1B и Llama-3.2-3B, — обошли в тесте на решение математических задач намного более мощные — Llama-3.1-8B и Llama-3.1-70B соответственно.

Исследователи использовали остроумный процесс, практически позволяющий маленьким моделям рассуждать во время решения задач, как это делают большие reasoning модели, с тем отличием, что маленькая модель это делает “вслух” — она генерирует решения, а оценивает результат специально обученная Llama-3.1-8B. Это оказывается достаточно для эффективного решения простых задач, а со сложными помогает справляться другая стратегия, когда маленькая модель генерирует промежуточные шаги, а верификатор оценивает качество этих шагов, вознаграждая модель в случае их правильности. То есть тут еще и аналог chain-of-thought получается.

Вам же тоже видится в этом прямая аналогия с человеческой школой?

Выгода от таких решений прямая — потратив чуть больше времени и вычислительных ресурсов на решение задачи, мы при этом решаем задачу моделью, которую можно развернуть на смартфоне, то есть экономя память. Авторы указывают, что пока очевидное использование такой стратегии — это решение математических задач и написание кода, но только потому, что в этих случаях существует определенное правильное решение для проверки.

TikTok не оставляет попыток остаться в США — соцсеть подала апелляцию в Верховный суд США, пытаясь заблокировать закон, который может привести к запрету приложения в стране. Закон, подписанный Байденом, должен вступить в силу 19 января — за день до инаугурации Трампа, — и требует от ByteDance продать платформу американской компании.

TikTok утверждает, что закон нарушает права на свободу слова, гарантированные Первой поправкой. Компания просит суд вынести решение до 6 января, подчеркивая, что запрет “заставит замолчать миллионы американцев, использующих платформу для общения о политике, коммерции, искусстве и других вопросах общественной значимости”.

Правительство США защищает закон, ссылаясь на соображения национальной безопасности и опасения по поводу влияния китайского правительства. Апелляционный суд округа Колумбия уже поддержал закон, признав эти опасения обоснованными.

Трамп, в первый свой срок пытавшийся запретить TikTok, теперь говорит о “теплых чувствах” к платформе и даже встретился вчера с CEO TikTok Шу Цзы Чу в своей резиденции в Мар-а-Лаго. Ну да, контракт Oracle на обеспечение американской инфраструктуры для соцсети может стоить того, чтобы его спасти.

Ирландская Комиссия по защите данных (DPC) вынесла решение по утечке в Facebook 2018 года — компания Meta оштрафована на €251 млн.

Штраф состоит из двух частей: €11 млн за неполное уведомление о нарушении и €240 млн за нарушение принципов защиты данных по умолчанию. Регулятор отметил, что профили Facebook часто содержат конфиденциальную информацию о религиозных и политических взглядах, сексуальной ориентации и другие чувствительные данные.

Интересно, что это первое крупное решение нового руководства DPC, которое не вызвало возражений со стороны других европейских регуляторов. Ранее многие решения ирландского регулятора критиковались за излишнюю мягкость по отношению к технологическим гигантам, тем более, что именно в её компетенцию относится контроль соблюдения GDPR американскими компаниями из-за того, что их основные офисы в Европе находятся в Дублине.

Meta заявила, что проблема была немедленно устранена после обнаружения, а пострадавшие пользователи были проинформированы.