В Казахстане создана масштабная языковая модель KazLLM.

2024-12-13 08:43:00https://kapital.kz/tehnology/132532/v-kazakhstane-razrabotali-bol-shuyu-yazykovuyu-model-kazllm.html

В Казахстане завершено обучение крупной языковой модели KazLLM, основанной на 148 миллиардах токенов на казахском, английском, русском и турецком языках, сообщает центр деловой информации Kapital.kz со ссылкой на пресс-службу министерства цифрового развития, инноваций и аэрокосмической промышленности.

«Модель была разработана командой Института Умных Систем и Искусственного Интеллекта (ISSAI) при Назарбаев Университете с поддержкой и координацией МЦРИАП РК и МНВО РК. Эта модель станет доступной для широкой аудитории, включая научное сообщество, стартапы и крупные компании. В соответствии с инициативой президента, KazLLM послужит основой для более масштабного проекта — TurkLLM, направленного на развитие технологий обработки естественного языка в тюркоязычном пространстве. Соответствующее соглашение было подписано на недавнем саммите ОТГ. Этот проект станет важным этапом в создании национальной AI-инфраструктуры и подтверждением статуса Казахстана как технологического лидера региона», - сообщили в Минцифры.

Реализация данного проекта способствовала не только созданию передового инструмента искусственного интеллекта, но и росту компетенций и развитию человеческого капитала в области ИИ.

Вклад в реализацию этого проекта внесли такие лингвистические институты и научно-производственные организации, как Тил Казына, АО «НИТ», Maqsut Narikbayev University и другие.

«Запуск модели KazLLM с открытым исходным кодом представляет собой важный шаг вперед в развитии экосистемы ИИ Казахстана. Эта инициатива отражает нашу приверженность поддержке инноваций и продвижению научных достижений, способствующих технологическому прогрессу. Я уверен, что эта передовая модель поможет преодолеть цифровое неравенство, обеспечив доступные и инклюзивные цифровые услуги для каждого казахстанца», - отметил министр Жаслан Мадиев.

Модель была обучена на базе 148 миллиардов токенов. Созданы две версии с 8 миллиардами и 70 миллиардами параметров. Они служат основой для разработки новых продуктов в сфере ИИ и превосходят аналогичные модели по качеству и точности.

На первом этапе KazLLM будет доступна в открытом доступе для разработчиков, стартапов и компаний, чтобы стимулировать создание продуктов и сервисов на ее основе. Подготовлены подробные инструкции, которые помогут быстро интегрировать модель в различные проекты.

«Эта модель отражает стремление Казахстана к инновациям, самостоятельности и росту своей технологической экосистемы. Наша команда подготовила две версии KAZ-LLM с 8 миллиардами и 70 миллиардами параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Таким образом, разработчики смогут скачать и запустить нашу модель как на сложных серверах, так и на ноутбуках», - рассказал директор Института Умных Систем и Искусственного Интеллекта (ISSAI) при Назарбаев Университете профессор Хусейн Атакан Варол.

Ключевыми партнерами в создании национальной языковой модели стали Beeline Казахстан и его ИТ-компания QazCode. Объединив усилия и опыт в разработке языковых моделей, таких как Kaz-RoBERTA, а также в создании ИИ-решений для малых языковых групп в сотрудничестве с зарубежными организациями, компании сыграли важную роль в создании инновационной и доступной модели для казахстанцев. Поддержка в виде предоставленного сервера с вычислительными мощностями 8 DGX H100 значительно ускорила процесс обучения и расширила возможности модели.

Для сравнения: обычному компьютеру требуется несколько дней, чтобы проанализировать архив из 1 миллиона фотографий, в то время как 8 серверов DGX H100, используемых для тренировки KAZ-LLM, справляются с этой задачей всего за несколько секунд.

«Наша команда активно участвовала в разработке и обучении модели Kaz-LLM. Сложный процесс, включающий создание модели, учитывающей особенности казахского языка, и 50 дней вычислений, позволил улучшить понимание контекста и обеспечить качественное взаимодействие с пользователями. Тестирование показало, что модель эффективно решает технические задачи, принимая во внимание культурные особенности. Мы уверены, что Kaz-LLM станет важным инструментом для всего Казахстана, помогая преодолеть языковой цифровой барьер и улучшить качество цифровых сервисов в регионе», - прокомментировал CEO QazCode Алексей Шаравар.

KazLLM — это современная языковая модель искусственного интеллекта, созданная для обработки, анализа и генерации текстов на казахском языке. Это уникальная разработка, нацеленная на продвижение использования казахского языка в цифровом пространстве, поддержку бизнеса, науки и общества. Она способна выполнять широкий спектр задач: от перевода и обработки документов до автоматизации общения.

Национальная модель даст возможность бизнесу разработать чат-ботов, системы поддержки клиентов, автоматизировать документооборот и проводить анализ данных. Например, местные банки смогут ускорить обработку запросов на казахском языке, а ритейл — улучшить пользовательский опыт за счет внедрения модели в свои процессы. Образовательные и научные учреждения смогут создать приложения для обучения казахскому языку, а также инструменты для анализа научных текстов и помощи студентам. Для представителей медиа и контента появится возможность генерировать новости, улучшать качество перевода и создавать инструменты для написания текстов.