Қазақстанда KazLLM атты ірі тілдік модель әзірленді.

2024-12-13 08:43:00https://kapital.kz/tehnology/132532/v-kazakhstane-razrabotali-bol-shuyu-yazykovuyu-model-kazllm.html

Қазақстанда 148 миллиард токен негізінде қазақ, ағылшын, орыс және түрік тілдерінде KazLLM үлкен тілдік моделін оқыту аяқталды, деп хабарлайды Kapital.kz бизнес ақпарат орталығы, цифрлық даму, инновациялар және аэроғарыш өнеркәсібі министрлігінің баспасөз қызметіне сілтеме жасап.

«Модель Назарбаев Университетінің Ақылды Жүйелер және Жасанды Интеллект Институты (ISSAI) командасымен МЦРИАП РК және МНВО РК қолдауымен және үйлестіруімен әзірленді. Бұл модель ғылыми қауымдастық, стартаптар және ірі корпорацияларды қоса алғанда, кең қолданушылар тобына қолжетімді болады. Мемлекет басшысының бастамасына сәйкес, KazLLM түркі тілдес кеңістікте табиғи тілдерді өңдеу технологияларын дамытуға бағытталған TurkLLM жобасының негізі болады. Құжат өткен ОТГ саммитінде қол қойылды. Бұл жоба ұлттық AI инфрақұрылымын құруда маңызды кезең болмақ және Қазақстанның өңірдегі технологиялық жетекші ретіндегі статусын растайды», - деп хабарлады Цифрлық даму министрлігі.

Жобаны іске асыру тек алдыңғы қатарлы жасанды интеллект құралын жасауды ғана емес, сонымен қатар жасанды интеллект саласындағы біліктіліктің өсуі мен адами капиталды дамытуды да қамтамасыз етті.

Бұл жобаны іске асыруға Тіл Қазына, «НИТ» АҚ, Маqsut Нарықбаев университеті және басқа да институттар сияқты лингвистикалық институттар мен ғылыми-өндірістік ұйымдар өз үлестерін қосты.

«Kaz LLM ашық кодты моделінің іске қосылуы Қазақстанның жасанды интеллект экожүйесін дамытуда маңызды қадам болып табылады. Бұл бастама біздің инновацияларды қолдауға және технологиялық прогреске ықпал ететін ғылыми жетістіктерді алға жылжытамыз деген ұстанымымызды көрсетеді. Мен бұл озық модель цифрлық теңсіздікті жоюға көмектеседі деп сенемін, әрбір қазақстандыққа қолжетімді және инклюзивті цифрлық қызметтер ұсынады», - деді министр Жаслан Мадиев.

Модель 148 миллиард токен негізінде оқытылды. 8 миллиард пен 70 миллиард параметрлері бар екі нұсқа жасалды. Олар жасанды интеллект саласында жаңа өнімдерді әзірлеуге негіз болады және сапасы мен дәлдігі бойынша аналогтық модельдерден асып түседі.

Алғашқы кезеңде KazLLM әзірлеушілер, стартаптар және компаниялар үшін ашық қолжетімді болады, бұл оның негізінде өнімдер мен қызметтерді жасауды ынталандырады. Модельді әртүрлі жобаларға тез интеграциялауға көмектесетін егжей-тегжейлі нұсқаулықтар дайындалды.

«Бұл модель Қазақстанның инновацияларға, дербестікке және өзінің технологиялық экожүйесін дамытуға деген ұмтылысын көрсетеді. Біздің команда Meta Llama архитектурасына негізделген 8 миллиард және 70 миллиард параметрлері бар екі KAZ-LLM нұсқасын дайындады, олар жоғары өнімді жүйелер мен ресурстары шектеулі ортаға оңтайландырылған. Осылайша, әзірлеушілер біздің модельді күрделі серверлерде де, ноутбуктарда да жүктеп, іске қосуға мүмкіндік алады», - деді Назарбаев Университетінің Ақылды Жүйелер және Жасанды Интеллект Институтының (ISSAI) директоры, профессор Хусейн Атакан Варол.

Ұлттық тілдік модельді жасауда негізгі серіктестер Beeline Қазақстан және оның IT-компаниясы QazCode болды. Kaz-RoBERTA сияқты тілдік модельдерді әзірлеудегі күш-жігер мен тәжірибені біріктіре отырып, сондай-ақ шетелдік ұйымдармен серіктестік орнату арқылы кішігірім тілдік топтар үшін AI шешімдерін жасауда компаниялар қазақстандықтарға инновациялық және қолжетімді модельді жасауға маңызды рөл атқарды. 8 DGX H100 есептеу қуатымен серверді ұсыну жобаның оқу процесін едәуір жеделдетті және модельдің мүмкіндіктерін кеңейтті.

Салыстыру үшін: кәдімгі компьютер 1 миллион фотосуретті талдау үшін бірнеше күн қажет. Ал KAZ-LLM тренировкасы үшін пайдаланылған 8 DGX H100 сервері бұл тапсырманы небәрі бірнеше секундта орындап шығады.

«Біздің команда Kaz-LLM моделін әзірлеу мен оқытуға белсенді қатысқан. Қазақ тілінің ерекшеліктерін ескеретін модельді жасау және 50 күндік есептеулерді қамтитын күрделі процесс контекстті жақсырақ түсінуге және пайдаланушылармен сапалы өзара әрекеттесуді қамтамасыз етуге мүмкіндік берді. Тестілеу модельдің мәдени ерекшеліктерді ескере отырып, техникалық тапсырмаларды тиімді шешетінін көрсетті. Біз Kaz-LLM Қазақстан үшін маңызды құрал болады деп сенеміз, тілдік цифрлық кедергілерді жоюға және өңірдегі цифрлық қызметтердің сапасын арттыруға көмектеседі», - деп пікір білдірді QazCode CEO-сы Алексей Шаравар.

KazLLM – қазақ тіліндегі мәтіндерді өңдеу, талдау және генерациялау үшін әзірленген заманауи жасанды интеллект тілдік моделі. Бұл қазақ тілін цифрлық кеңістікте қолдануды ілгерілету, бизнес, ғылым және қоғамды қолдау мақсатында жасалған бірегей жоба. Ол аударма мен құжаттарды өңдеуден бастап, коммуникацияны автоматтандыруға дейінгі кең ауқымды тапсырмаларды орындауға қабілетті.

Ұлттық модель бизнеске чат-боттар, клиенттерді қолдау жүйелері, құжат айналымын автоматтандыру және деректерді талдау мүмкіндігін береді. Мысалы, жергілікті банктер қазақ тіліндегі сұраныстарды өңдеуді жеделдете алады, ал ритейл модельді өз процестеріне енгізу арқылы пайдаланушы тәжірибесін жақсарта алады. Білім беру және ғылыми мекемелер қазақ тілін үйретуге арналған қосымшаларды, сондай-ақ ғылыми мәтіндерді талдауға және студенттерге көмек көрсету құралдарын жасай алады. Медиа және контентпен айналысатындар жаңалықтарды генерациялау, аударма сапасын жақсарту және мәтін жазу құралдарын жасау мүмкіндігіне ие болады.