27 февраля 2025
ElevenLabs представили модель Scribe — по их заявлению, самую точную в мире модель Speech-To-Text. Она поддерживает 99 языков и выдает детальные транскрипты с метками времени для каждого слова, распознаванием говорящих и тегами аудиособытий (например, смеха).
В бенчмарках FLEURS и Common Voice Scribe превосходит ведущие модели, включая Gemini 2.0 Flash, Whisper Large V3 и Deepgram Nova-3. Точность транскрибирования высокая: 98,7% для итальянского, 96,7% для английского и высокие показатели для других языков.
Особенно заметны улучшения для традиционно “недообслуживаемых” языков, таких как сербский, кантонский и малаялам, где у конкурирующих моделей часто бывает более 40% ошибок.
Разработчики могут интегрировать Scribe через API Speech to Text и получать структурированные JSON-транскрипты. Версия с низкой задержкой для приложений реального времени выйдет в ближайшее время. Обычные пользователи могут загружать аудио- или видеофайлы прямо в панель управления ElevenLabs для создания отформатированных транскриптов. Причем до 9 апреля эта функция в веб-приложении бесплатна.
Я попробовал прогнать ролик на украинском — распознало точно (правда, почему-то разбило меня на двух спикеров), правда, вычитывать все равно надо, а то оно и все мои междометия поймало. С чем точно не справлялся Whisper и прекрасно получилось у Scribe — это использование английских слов, все упоминания Bolt, Lyft, Jira и так далее приведены корректно. На чем сломался Scribe — стоило мне в середине ролика привести цитату на русском и модель прекрасно следующие минут 5 записала в переводе на русский и потом вернулась на украинский. Never mess with mother freaking Ukrainians, как говорил один мафиозный персонаж в относительно старом триллере.
Компания Mercury представила семейство новых языковых моделей, работающих на основе диффузии (dLLM), а не традиционного авторегрессивного подхода. Это принципиально другой механизм генерации текста — вместо последовательного создания токенов слева направо, диффузионные модели создают ответ по принципу “от грубого к точному”, постепенно улучшая его за несколько шагов “шумоподавления”. Так давно работают все модели text-to-image и вот очередь дошла до текстовых моделей.
Первая доступная модель — Mercury Coder, специализирующаяся на генерации кода. Она работает в 5-10 раз быстрее существующих моделей — более 1000 токенов в секунду на обычных GPU NVIDIA H100, что раньше было возможно только на специализированном оборудовании. Для сравнения: даже оптимизированные по скорости авторегрессивные модели выдают максимум 200 токенов в секунду, а некоторые крупные модели — менее 50.
По качеству код модели превосходит GPT-4o Mini и Claude 3.5 Haiku. В бенчмарке Copilot Arena Mercury Coder Mini делит второе место, опережая даже более крупные модели вроде GPT-4o, при этом работая в 4 раза быстрее, чем GPT-4o Mini. В сравнении, правда, отсутствуют рассуждающие модели и Sonnet 3.5/3.7, которые программируют гораздо лучше.
Компания рассказывает, что диффузионные языковые модели откроют новые возможности: улучшенные агенты, продвинутое рассуждение с исправлением ошибок за секунды (а не минуты, как у текущих моделей), контролируемая генерация с возможностью редактирования и генерации токенов в любом порядке, а также приложения для устройств с ограниченными ресурсами.
Mercury Coder уже доступен для тестирования в playground. API пока закрыто, но можно записаться в лист ожидания.
OpenAI представляет (прямо сейчас идет стрим) GPT-4.5 — самую крупную и лучшую модель для чата на данный момент. Это исследовательская версия (research preview), которая доступна пользователям Pro и разработчикам по всему миру.
По результатам тестирования, пользователи предпочли GPT-4.5 предыдущей модели GPT-4o в 57% случаев. Модель также демонстрирует значительно меньше галлюцинаций (37.1% против 61.8% у GPT-4o) и лучше отвечает на фактические вопросы.
GPT-4.5 — это продолжение линии gpt-4o, а не reasoning моделей o1 и o3-mini. OpenAI считает, что в будущем два подхода — предварительное обучение на огромных объемах данных и рассуждения — будут дополнять друг друга.
Для разработчиков GPT-4.5 будет доступна через API, но стоит дороже, чем GPT-4o, и OpenAI еще не решила, будет ли продолжать предлагать эту модель через API в долгосрочной перспективе. Пока детали не опубликованы.
Пользователи ChatGPT Pro уже вот-вот смогут использовать GPT-4.5, а для подписчиков Plus и Team она станет доступна на следующей неделе. Правда, пока GPT-4.5 не будет поддерживать многие мультимодальные функции, такие как голосовой режим, видео и демонстрацию экрана.
ЗЫ. Будете пересматривать стрим — обратите внимание, насколько похоже на Сэма Альтмана говорит один из двух носителей английского — Джейсон Теплитц, во второй части. Вот оно, field of distortion.