तामाङ-नेपाली-अङ्ग्रेजी अनुवाद गर्ने गुगल टीएमटी सिस्टम तयार, गुगल ट्रान्सलेटमा थपिँदै तामाङ भाषा
असार ३, २०८३ ७:४६
काठमाडौँ । काठमाडौँ विश्वविद्यालय (केयू) को इन्फर्मेसन एन्ड ल्याङ्ग्वेज प्रोसेसिङ ल्याब (आईएलपीआरएल) ले सञ्चालन गरेको ‘गुगल त्रिभाषिक मसिन अनुवाद’ (Trilingual Machine Translation - TMT) परियोजना सफलतापूर्वक सम्पन्न भएको छ । नेपाली, तामाङ र अङ्ग्रेजी भाषाबिच सहजै यान्त्रिक अनुवाद (Machine Translation) गर्ने उद्देश्यका साथ सुरु गरिएको यो प्रविधि सोमबार औपचारिक रूपमा सार्वजनिक गरिएको हो ।
सन् २०२४ मा गुगलको सोसाइटी सेन्टर एआई एकेडेमिक रिसर्च अवार्ड अन्तर्गत विश्वभरका उत्कृष्ट ३३ परियोजनाहरू मध्ये काठमाडौँ विश्वविद्यालयको प्रस्ताव समेत छनौट भएको थियो । काठमाडौं विश्वविद्यालयका प्राडा बालकृष्ण बल यस परियोजनाका लिड रिसर्चर हुन् । करिब साढे एक वर्षको अवधिमा सम्पन्न यो परियोजना विश्वविद्यालयको प्रयोगशालामा मात्र सीमित नभई समुदाय स्तरमै प्रयोग हुन लायक रहेको छ ।
बलका अनुसार यो अनुवाद प्रणाली कृषि, स्वास्थ्य, शिक्षा, आमसञ्चार र पर्यटन गरी मुख्य ५ वटा विधाहरूमा काम गर्न सक्षम छ । यसका लागि प्रत्येक विधाबाट २०-२० हजार गरी जम्मा १ लाखभन्दा बढी ‘गोल्ड स्ट्यान्डर्ड’ समानान्तर वाक्यहरू (Parallel Sentences) को डेटासेट तीन वटै भाषामा तयार गरिएको छ ।
प्राविधिक रूपमा, यो प्रणाली शून्यबाट नभई विश्वका २०० भाषाहरूलाई सपोर्ट गर्ने मेटा एआईको NLLB-200 (No Language Left Behind) मोडेललाई नेपाली र तामाङ भाषाको डेटामा फाइन-ट्युन (Fine-tune) गरेर विकास गरिएको हो । यसले नेपालीबाट तामाङ, तामाङबाट नेपाली, अङ्ग्रेजीबाट तामाङ लगायत ६ वटा फरक दिशामा अनुवाद गर्न सक्ने क्षमता राख्दछ ।
परियोजनाले सर्वसाधारण र सेवाग्राहीका लागि विभिन्न डिजिटल सुविधाहरू सार्वजनिक गरेको छ । जसलाई tmt.ilprl.ku.edu.np मार्फत प्रयोग गर्न सकिन्छ ।
प्रयोगकर्ताले सिधै टेक्स्ट टाइप गरेर तीनमध्ये कुनै पनि भाषामा अनुवाद गर्न सक्नेछन् । अनुवाद चित्त नबुझेमा सच्याएर स्टार रेटिङ दिन सकिने र उक्त सुझाव डेटाबेसमा गएर भाषाविद्ले भेरिफाई गरी प्रणाली सुधार गर्ने संयन्त्र पनि राखिएको छ ।
गुगल क्रोम वा फायरफक्समा एक्सटेन्सन राखेर कुनै पनि वेबसाइट (जस्तै: सरकारी वेबसाइट वा अनलाइन पोर्टल) लाई सिधै तामाङ भाषामा रूपान्तरण गरेर पढ्न सकिन्छ ।
यसमा पुरै डकुमेन्ट वा बुलेटिन अपलोड गरेर अनुवाद गर्न सकिने फिचर समेत समावेश छ । मसिन अनुवाद १००% सही नहुन सक्ने भएकाले मानविय सुधार (Human Intervention) का लागि एडिट गर्ने सुविधा पनि दिइएको छ ।
त्यस्तै समुदायका व्यक्तिहरू आफैँले अनुवाद थप्न र योगदान दिन सक्ने 'क्राउड-सोर्सिङ' संयन्त्र (कम्प्युटर असिस्टेड ट्रान्सलेसन-CAT टुल) विकास गरिएको छ ।
बागमती प्रदेशमा तामाङ र नेपाल भाषालाई सरकारी कामकाजको भाषा बनाइएको सन्दर्भमा यो प्रविधिले सरकारी सेवा प्रदायक र नागरिकबिचको सञ्चारमा सेतुको काम गर्ने विश्वास छ । यस प्रविधिको विकाससँगै भाषाको अवरोधका कारण सूचना र सरकारी सेवाबाट वञ्चित हुनुपर्ने अवस्थाको अन्त्य हुने अपेक्षा गरिएको छ ।
साथै, इन्टरनेटमा भएका अङ्ग्रेजी वा नेपाली ज्ञानलाई प्राथमिक विद्यालयमा सिकाउन, स्वास्थ्य सेवामा सञ्चार गर्न र भाषिक पर्यटन (Language Tourism) प्रवर्धन गर्न पनि यो उपयोगी हुनेछ ।
गुगल ट्रान्सलेटमा तामाङ भाषा
परियोजनाको सबैभन्दा ठुलो र महत्त्वकाङ्क्षी लक्ष्य भनेको तामाङ भाषालाई विश्वव्यापी रूपमा गुगल ट्रान्सलेटमा चौथो नेपाली भाषाको रूपमा सूचीकृत गराउनु हो । हाल गुगल ट्रान्सलेटमा नेपाली, मैथिली र नेपाल भाषा (नेवारी) मात्र उपलब्ध छन् । यसका लागि गुगलको प्राविधिक टोलीसँग निरन्तर संवाद भइरहेको र केही डेटासेटहरू उपलब्ध गराउने काम भइरहेको प्राडा बलले जानकारी दिए ।
यसका साथै, भविष्यमा यो प्रणालीमा कानुनी र अदालती शब्दावलीहरू थप गर्ने, तामयिक लिपिको प्रयोगलाई सपोर्ट गर्ने, नेपालका अन्य अल्पसङ्ख्यक भाषाहरू जोड्ने र आवाजबाटै अनुवाद हुने (अटोमेटिक स्पिच रिकग्निसन र टेक्स्ट-टु-स्पिच) फिचर थप गर्ने योजना छ ।
हजारौँ प्रयोगकर्ताले एकैचोटी यो प्रणाली प्रयोग गर्दा धान्न सक्ने क्षमता विकास गर्न शक्तिशाली जीपीयू र सर्भर जस्ता पूर्वाधार तथा नीतिगत सहयोगको लागि सरकारको ध्यानाकर्षण समेत गराइएको छ ।
यो परियोजनामा काठमाडौँ विश्वविद्यालयका प्राडा बालकृष्ण बलसँगै त्रिभुवन विश्वविद्यालय भाषाविज्ञान केन्द्रीय विभागका प्राडा बलराम प्रसाईं, डा. प्रकाश पौडेल, तामाङ भाषाविद् अमृत योन्जन तामाङ, इन्द्र तामाङ लगायत अनुसन्धानकर्ता र अनुवादकहरूको योगदान रहेको छ ।
पछिल्लो अध्यावधिक: असार ३, २०८३ ७:४९
