Национальная LLM: между политическими амбициями и технологическими реалиями

Последние несколько месяцев мы много слышим о создании национальной LLM. Эта цель была декларирована еще в феврале этого года, потом на DOU вышло интервью CTO Центра AI Excellence Дмитрия Овчаренко, а недавно прозвучало заявление министра цифровой трансформации Михаила Федорова, в котором даже был назван срок запуска первой версии LLM — конец этого года.

Все это время в любой дискуссии непременно встает вопрос — «А вообще нужна ли национальная LLM? Какова цель ее создания? Как ее можно будет использовать? Зачем ее создавать при наличии многих уже существующих моделей достаточно высокого уровня?». К сожалению, ответы представителей государства — это какая-то смесь технологических, безопасностных и политических аргументов, где последние занимают значительное, если не первое, место.

Действительно ли украинский язык нуждается в отдельной модели?

Конечно, национальные LLM существуют — китайские Ernie и Qwen или арабская ALLaM. Но, во-первых, эти страны имели объективные технические причины для создания собственных моделей. Арабский язык с его семитской морфологией и письмом справа налево создает уникальные вызовы для токенизации. Китайский с его иероглифической системой требует других стратегий токенизации.

А что с украинским? Да, наш язык флективный, имеет сложную морфологию, в отличие от английского, и токенизатор GPT-4 действительно видит в украинском тексте на 30-50% больше токенов, чем в его английском переводе. Слово “London” — это один токен, “Odessa” — два, а “Одеса” — целых три. Но прежде всего это не катастрофа, это просто дополнительные затраты на обработку. Во-вторых, любой язык с морфологией, то есть синтетический, будет проигрывать аналитическому языку, где морфология отсутствует или ограничена, как в английском. Да, можно (и нужно) разработать собственный токенизатор, но язык-то мы не изменим, поэтому обработка текста на украинском всегда будет стоить дороже.

Самое главное — украинский уже достаточно неплохо представлен в существующих моделях. GPT-4 понимает украинский, Claude работает с ним вполне прилично, даже Llama 3.1 показывает приличные результаты. Да, не идеально, но функционально. Стоит ли тратить деньги и другие ресурсы на разработку собственной модели, которая в лучшем случае достигнет 70-80% качества GPT-4?

Настоящая проблема: данные, данные и еще раз данные

В заявлениях министра Михаила Федорова звучит интересное упоминание об «уникальных украинских данных», на которых сможет обучаться модель. В нескольких колонках и выступлениях он повторяет, что национальная модель будет лучше понимать украинский язык и давать «более качественные ответы как лингвистически, так и относительно фактов и идеологических вопросов, касающихся истории Украины, политической ситуации и войны». Создается впечатление, что существующие модели вообще об украинском языке или войне понятия не имеют, а достаточно добавить текстов с правильными утверждениями на украинском, и результат превзойдет любые западные LLM, включая GPT и Claude Opus.

К сожалению, это не так. Действительно, добавление данных в обучающий датасет улучшает знания модели. Но, во-первых, почему считается, что эти «уникальные украинские данные» неизвестны современным LLM, а во-вторых — а сколько таких данных у нас есть?

GPT-3 обучалась на 300 миллиардах токенов, GPT-4 — ориентировочно на 10-15 триллионах. Llama 4 использовала 30 триллионов токенов. А сколько качественного украинского контента доступно сейчас?

По самым оптимистичным оценкам, мы имеем: • Корпус ГРАК: 400 миллионов токенов • ukTenTen: 7.5 миллиардов слов (примерно 10 миллиардов токенов) • Украинская Википедия: 1.36 миллиона статей (около 500 миллионов токенов) • mC4 Ukrainian: 196 ГБ сжатых данных, 30–35 млрд сырых токенов, но после фильтрации остается максимум 30-40%

Итог: 15-25 миллиардов качественных украинских токенов — это вся доступная база. Для сравнения, это меньше чем 0.2% от объема данных, на которых обучалась GPT-4.

Да и качество этих данных вызывает вопросы. Значительная часть веб-контента — машинные переводы сомнительного качества, дубликаты, тексты с примесями русского языка. После надлежащей очистки мы рискуем остаться с еще меньшим объемом.

Да даже если так сделать с Llama Scout или Maverick и дообучить ее на всех доступных украинских данных, результат может разочаровывать.

Почему? Во-первых, модель может «знать» большинство того, что мы ей добавим — украинская Википедия, новостные сайты, классическая литература уже были в ее тренировочных данных. Во-вторых, 25 миллиардов токенов — это, откровенно говоря, недостаточно.

А сколько нужно? Это, кстати, не так сложно посчитать — по исследованиям, оптимальная LLM имеет примерно 15-25 токенов на параметр. Если мы берем самую легкую Llama 4 — Scout, — у которой активны одновременно 17 млрд параметров. То есть, как минимум, нужно 255 млрд токенов контента. Даже если 50% датасета будет составлять англоязычный контент (потому что очень много контента, который содержит полезные знания, просто не существует на украинском), это все равно на порядок больше, чем мы имеем.

Можно пойти другим путем

На самом деле, обучение модели с нуля — это дорого и долго. Поэтому я уверен, что выбран путь начать с fine-tuning существующей модели. Это облегчает как старт, так и дальнейшее развитие продукта, хотя одновременно сужает его возможности.

Да, начиная с fine-tuned Llama и добавив ей возможность подключения к базе знаний, мы получим достаточно качественную модель для функционирования чат-бота — например, для службы поддержки государственных органов или крупных компаний.

Настоящий вызов: системная работа с данными

Но этот подход — лишь тактическое решение. Стратегически Украина действительно нуждается в собственной цифровой экосистеме, и LLM может стать ее частью. Но для этого нужна системная работа, которая выходит далеко за пределы технического проекта.

Создание инфраструктуры данных

Вместо того, чтобы искать деньги на обучение модели, стоит инвестировать в создание качественных украинских датасетов. Если мы говорим о 15-25 млрд токенов существующего контента, то это не вообще весь существующий контент на украинском — это только то, что доступно, то есть существует в цифровом формате.

Поэтому создание датасетов означает: • Цифровизацию существующего контента включая архивы • Цифровизацию государственных реестров с возможностью машинной обработки • Стимулирование создания украинского контента в интернете • Партнерство с издательствами для доступа к литературным произведениям • Координацию с образовательными учреждениями для сбора академических текстов • Создание украинских переводов для существующего контента на других языках • Создание синтетического контента

Это будет требовать не только вложений в инфраструктуру и GPU-часов — непременно встанет вопрос копирайта, например.

Интеграция с цифровизацией государства

Национальная LLM имеет смысл только как часть общей стратегии цифровизации. Диджитал-услуги, электронный документооборот, автоматизация госучреждений — вот где модель может принести реальную пользу. И вот где можно собирать данные для ее улучшения.

Политика vs технологии

К сожалению, эта тема очень легко политизируется.

Когда CTO государственного AI-центра говорит о “культурном значении” как главном аргументе для создания LLM и упоминает вопрос «Чей Крым?» как главный тест для модели, это сигнализирует о подмене понятий. Культурное значение — важный фактор, но он должен быть следствием технологического успеха, а не его целью.

Тем более, что мы знаем примеры идеологически корректных ответов китайских LLM, которые считают, что в 1989 году на Тяньаньмэнь ничего не случилось. Такой ли уровень «понимания контекста» нам нужен?

Политика будет влиять даже на технические решения. Например, мультиязычное обучение, то есть добавление к датасету данных родственных славянских языков позволяет, расширяя объем, сохранять производительность на уровне 70-80% от чисто украинских данных. Так можно достаточно легко набрать до 200 млрд токенов, но ведь — вы догадываетесь, какой именно язык даст наивысшую производительность и имеет много контента?

Реалистичный план действий

Если цель — действительно технологический прогресс, план должен быть иным:

Этап 1 (6 месяцев): Практическое применение

• Внедрение существующих LLM для автоматизации госуслуг • Создание RAG-систем на базе украинских данных • Сбор статистики использования и проблемных моментов

Цель — создание решения уровня GPT-3.5 и покрытие до 90% массовых задач в публичном секторе.

Этап 2 (1-2 года): Наращивание данных

• Системная цифровизация государственных процессов • Цифровизация архивов и реестров • Стимулирование создания украинского контента • Партнерства с частным сектором для доступа к данным

Цель — создание модели уровня Llama 4 Scout с полной поддержкой украинского языка и длинного контекста.

Этап 3 (2-3 года): Собственная модель уровня GPT-4 или Llama 4 Maverick

• Когда будет собрано 100+ миллиардов качественных токенов • Когда сформированы четкие технические требования • Когда есть ресурсы для конкурентоспособной разработки

Такой подход позволит создать не политический проект, а настоящую технологическую платформу, которая принесет пользу государству и гражданам.

Выводы

Украина действительно нуждается в технологической независимости, особенно в условиях войны. Но путь к ней лежит не через политизированные декларации, а через системную работу с данными, инфраструктурой и применением существующих технологий.

Национальная LLM может стать символом цифрового суверенитета, но только если ее создание будет базироваться на рациональных технических решениях, а не на желании иметь “правильные” ответы на политические вопросы.

Пока же, судя по первым заявлениям, проект рискует стать очередным примером того, как политические амбиции мешают технологическому прогрессу. И это действительно жаль — ведь Украина имеет все необходимое для создания настоящей технологической экосистемы. Нужна лишь воля сосредоточиться на сути, а не на форме.

Возможно, вместо того, чтобы тратить энергию на объяснение модели, чей Крым, стоит направить ее на создание датасетов, которые помогут этой модели стать действительно полезной для украинского общества.