«Қазақ тілінің ұлттық корпусының базасында 200 миллионнан астам сөз жинақталған»: «SocioExpertClub» диалог алаңына ғалым Анар Фазылжан келді

Автор: Темірхан Айжан

Цифрлық дәуірдегі қазақ тілінің дамуы, нәтижелері мен болашағы талқыланды 

Фото: Azattyq Rýhy

Бүгін «AMANAT» партиясының бас ғимаратында Қоғамдық саясат институтының «SocioExpertClub» диалог алаңында «Цифрлық дәуірдегі қазақ тіл білімі: дамуы, нәтижелері мен болашағы» тақырыбында талқылау өтті. Жиынға Ахмет Байтұрсынұлы атындағы Тіл білімі институты директоры Анар Фазылжан қатысып, қазақ тілінің қазіргі ахуалы мен жаңа технологиялар кезеңіндегі орнын жан-жақты саралады, деп жазады Azattyq Rýhy.

Ғалым өз сөзінде қазақ тілінің саламатты, түптамыры терең, зияткерлік әлеуеті жоғары, сөйлермен саны бойынша әлемдегі барлық тілдің ішінде алғашқы жүз тіл қатарындағы тіл екенін, ана тілінің ұлт қуаты екенін айта келе, қазіргі тіліміздің еңсеруі тиіс қиындықтарына да тоқталды. Бүгін детілдің ұрпақаралық сабақтастығының табиғи даму арналары әлсіреп бара жатқанына ерекше назар аударды. Оның айтуынша, бұрын қазақ тілі ұрпақтан ұрпаққа табиғи жолмен, тікелей сөзбе-сөз коммуникация арқылы берілетін еді.

«Тілдің ұрпақтан ұрпаққа берілу үдерісі әлсіреді. Бұрын бұл үдеріс табиғи түрде жүретін. Әжелеріміз бен аталарымыз әңгіме айтып беретін, біз кітап оқитынбыз, ауылда тұрып, үлкендермен көп араласатынбыз. Ал қазір урбанизация күшейіп, қазақтың басым бөлігі қалаға көшті. Техникалық ақпараттық құралдар баланың ақпарат алу көзіне айналды. Соның салдарынан бір отбасында ата-әже қазақша сөйлесе, ата-ана орысша, ал балалар ағылшынша сөйлейтін жағдайлар пайда болды», - деді ол.

Ғалым қазіргі кезеңдегі тағы бір өзекті мәселе ретінде тілдің калькалануын және жасанды мәтіндердің көбеюін атап өтті. Бүгінде түрлі цифрлық құралдар арқылы генерацияланған мәтіндер саны артқанымен, олардың бойында табиғи тілге тән қуат жетіспейді. Сондықтан «тірі» тілдің үлгілерін цифрландырып, контентін көбейту керек.

«А.Байтұрсынұлы қазақ тілін жалпыұлттық арнаға бұрды, оның жазба әдеби формасын халықтың ауызша тілінің негізіне салды. Біздің лингвистер түркі дүниесінде алғаш рет жиілік сөздік пен үлкен түсіндірме, көптомдық лингвимәдениеттанымдық иллюстративті түсіндірме сөздік, үлкен ассоциативті сөздік жасады. Сондай-ақ кеңейтілгенкирил әріптері жүйесіне жаңа Ққ, Ғғ, Өө,Үүғ Іі таңбаларын енгізген де – қазақ ғалымдары, нақты айтқанда, Сәрсен Аманжолов», - деді Анар Фазылжан.

Ахмет Байтұрсынұлының салған жолын жалғастырып келе жатқан, қазақ тілін іргелі және қолданбалы бағытта жүйелі зерттейтін әлемдегі жалғыз ғылыми мекеме ретінде Тіл білімі институты қазақ тілін цифрлық ресурсы көп тілдер қатарына қосу бағытында жұмыстар жүргізіп жатыр.

Қазіргі таңда ғалымдар Қазақ тілінің ұлттық корпусын әзірлеп, қалың жұртшылыққа ұсынып отыр, тілдік модельдер жасаумен белсенді айналысып жатыр. Психолингвистика, нейролингвистика және әлеуметтік тіл білімі бағыттарында зерттеулер жүргізіліп келеді. Табиғи тіл мен жасанды тілді, әдеби тіл мен сленгті, жазба және ауызша тілді салыстыра зерттеу жұмыстары қолға алынған.

Қазақ тілінің ұлттық корпусы – институттың ең ірі жобаларының бірі. Бүгінде бұл базада лингвистикалық ой елегінен, техникалық тексерістен өткен, әр сөзіне тілтанымдық ақпарат берілген көлемі 200 миллионнан астам сөз қолданыстан тұратын электронды мәтіндер жинақталған. Әрбір сөзге лингвистикалық«паспорт» жасалған. Қазір корпуста 20-дан астам ішкорпус бар, оның ішіне тек қазақ мәдениетінің өкілі түсінетін мәдени маркерлі мәтіндер ішкорпусы басқа тілдерде жоқ тың ресурс болып отыр.

Корпус - зерттеушілер үшін өте маңызды құрал. Бұрын тілдік құбылысты дәлелдеу үшін ғалымдар кітап ақтарып, тіл иелмені сөзін таспаға жазып, тыңдап тіркеп жүретін болса, қазір цифрлық база арқылы нақты деректерге сүйеніп қорытынды жасауға болады. Сонымен қатар, бұл жүйе тіл үйретуге және қазақ тілінде ақпарат іздейтін мамандарға да өте пайдалы.

Жасанды интеллект жүйелеріне келер болсақ, олардың қазақ тіліндегі сапасы күннен күнге жақсарып келеді. Дегенмен, олар ұлттық-мәдени кодты әлі толық түсіне алмайды. Мысалы, одан «мойнына бұршақ салу» сияқты фразеологизм дісұраса, жүйе мағынасын дұрыс жеткізе алмайды.

«Осындай мәселелерді шешу үшін біз арнайы тілдік деректер мен промпттардан тұратын қазақша LLM, ауқымды тілдік модель дайындап жатырмыз. Болашақта жасанды интеллект қазақ тілінде өте жоғары деңгейде сөйлейді деп сенемін», - деді ғалым.

Талқылау барысында Парламент Сенатының депутаты Геннадий Шиповских тіл дамытудағы креативті бағыттарға қатысты сауал қойды. Ол өз тәжірибесін бөлісіп, «Мемлекеттік тіл – этносаралық қатынас тілі» жобасы аясында киберспорт саласына басымдық бергендерін жеткізді.

«Сіздер тіл дамыту мақсатында креативті бағытта қандай жұмыстар жүргізіп жатырсыздар? Осыған байланысты бір мысал келтіргім келеді. Мен Қазақстан халқы Ассамблеясы мүшесі әрі «AMANAT» партиясының өкілі ретінде «Мемлекеттік тіл – этносаралық қатынас тілі» атты жобамен айналысып келемін. Бұл бастама аясында мемлекеттік тілді дамыту жолдарын қарастырдық. Жобаға журналистер, блогерлер секілді түрлі сала өкілдері қатысты. Сол кезде мен креативті тәсіл ретінде киберспорт саласына назар аударуды ұсындым. Нәтижесінде біз қазақ тілінде сөйлейтін 7 киберспорт комментаторын даярладық. Бұл – аз көрсеткіш емес. Себебі әдеби қазақ тілінде сөйлеу бір бөлек, ал белгілі бір саланың өз терминологиясы мен сленгін меңгеру мүлде басқа деңгей. Осы ретте менің сұрағым, сіздер тарапынан осындай креативті бағыттар бойынша, мысалы, киберспорт, анимация немесе мультимедиа саласында қазақ тілін дамытуға арналған нақты бастамалар бар ма?», - деді депутат.

Өз кезегінде Анар Фазылжан ғылымның алғашқы міндеті – іргелі зерттеулер жүргізу екенін атап өтті. Оның айтуынша, кез келген креативті немесе қолданбалы жоба іргелі зерттеу негізіне сүйенгенде объективті әрі тиімді болмақ. Қазіргі таңда Институт корпустық лингвистика бойынша жүргізген іргелі әрі қолданбалы зерттеулері арқылы ауқымды тілдік ресурстар әзірлеген. Алдағы жобалар да осы бағытта жалғасады.

«Сіздің сұрағыңыз өте орынды. Ол – ғылым нәтижесін практикаға енгізу, яғни креативті индустрияға пайдалану мәселесі. Бұл бағытта жұмыс істеуге толық мүмкіндік бар, өйткені біз белгілі бір ғылыми базаны қалыптастырып қойдық. Бірақ ғылымда алдымен іргелі зерттеу жүргізіледі, содан кейін ғана қолданбалы жобалар дамиды. Қазір біз корпустық лингвистика негізінде үлкен тілдік ресурстар жасадық. Алдағы жобаларымыз да осы бағытта жалғасады. Айта кету керек, ғылыми жобалар көбіне конкурс арқылы қаржыландырылады. Соңғы жылдары ғана тұрақты жалақы жүйесі енгізілді, оған дейін ғалымдар көбіне энтузиазммен жұмыс істеп келді. Бұл жобалардың барлығы кейінгі кездегі отандық ғылымға деген зор қолдаудың жемісі», - деді ол.

Қазіргі таңда Институт 2026–2028 жылдарға арналған іргелі зерттеулер конкурсына бірнеше мекемемен бірлесіп тапсырмалар ұсынған. Соның бірі – медицина саласына арналған арнайы жасанды интеллект әзірлеу. Бұл салалық, яғни мамандандырылған жасанды интеллект болмақ. Мысалы, емханаға келген адам тіркеуден бастап дәрігерге дейінгі барлық кезеңде сол жүйемен қазақ тілінде еркін сөйлесе алуы тиіс.

Ғалымның айтуынша, мемлекеттік тілдің толыққанды жұмыс істеуі үшін институционалдық коммуникацияны дамыту қажет. Сондықтан біздің ғалымдар алдымен медицина саласындағы институционалдық коммуникацияға арнап қазақша арнаулы ЖИ әзірлеуден бастап, кейін басқа да салаға көшуді жоспарлап отыр.

Тағы бір маңызды бағыт – балаларға арналған тілүйрету технологиялары мен қазақ тіліндегі сөз синтезін жетілдіру.

«Институт академик Зейнеп Базарбаеваның жетекшілігімен қазақ орфоэпиясына сай дұрыс сөйлейтін сөз синтезі жүйесін жасауды қолға алды. Бұл болашақта түрлі креативті жобаларды толық қазақ тілінде дыбыстауды жүзеге асыруға мүмкіндік береді. Сонымен қатар балаларға қатысты тағы бір мәселе де зерттеліп жатыр. Қазіргі кезде кейбір балалар қазақ тілінің дыбыстарын дұрыс айта алмайды. Осыған көмек ретінде біз жасанды интеллект арқылы құралған бейнебаян негізінде дыбыстарды үйрететін арнайы бейнетоптама әзірлеп жатырмыз. Жалпы, біздің мақсат - осы ғылыми базаның негізінде қазақ тілінде еркін сөйлейтін, тіл маманы немесе педагог сияқты жауап беретін сапалы жасанды интеллект қалыптастыру», - деп түйіндеді Анар Фазылжан.

Жиын соңында қазақ тілін тек зерттеу нысаны ретінде емес, толыққанды жұмыс істейтін цифрлық және қоғамдық коммуникация тіліне айналдыру - алдағы кезеңнің басты міндеті екені айқындалды.