close

आइडिया दिएपछि माइक्रोसफ्टले नै फण्डिङ गरिदियो, नेपाली विद्यार्थीले बनाए एआई बाइपास गर्ने टुल*

हिक्मत आचार्य हिक्मत आचार्य

चैत २३, २०८१ २०:२

आइडिया दिएपछि माइक्रोसफ्टले नै फण्डिङ गरिदियो, नेपाली विद्यार्थीले बनाए एआई बाइपास गर्ने टुल*

काठमाडौं । २०२२ को अन्त्यतिर ओपनएआईले च्याटजीपीटी सार्वजनिक गरेपछि यो विश्वभर चर्चामा आयो । त्यसको एक वर्षपछि काठमाडौंका सुनभ रञ्जितकार इस्लिङ्टन कलेजमा बीआईटी पढ्न थालेका थिए । डेभलपर, पेसेवर व्यक्ति, विद्यार्थी, व्यवसायी र कर्मचारी लगायत सबैका लागि कुनै न कुनै रूपमा यो च्याटबट प्रयोग हुने साधन बनेको थियो ।

बीआईटी प्रथम वर्षमा अध्ययन गर्ने रञ्जितकार अध्ययनसँगै आफ्ना विभिन्न शैक्षिक तथा व्यक्तिगत कामका लागि च्याटजीपीटी प्रयोग गर्थे । हुन त केहीले एआई च्याटबटलाई रचनात्मक तरिकाले प्रयोग गरिरहेका हुन्छन् भने केहीले त्यसलाई काम गर्ने साधनका रूपमा मात्रै उपयोग गरिरहेका छन् । तर रञ्जितकार भने च्याटबटलाई रचनात्मक ढङ्गले प्रयोग गर्नुपर्छ भन्ने मान्यता राख्थे । र, त्यसरी नै प्रयोग गर्थे ।

त्यही क्रममा विस्तारै एआईले तयार पारेका सामग्री पहिचान गर्ने टुल पनि बढ्दै गए । खासगरी शैक्षिक संस्थामा यस्ता टुल व्यापक रूपमा प्रयोग हुन थाले । 

यता रञ्जितकार च्याटजीपीटीसँगै क्विलबट, ग्रामर्ली जस्ता टुल पनि प्रयोग गरिरहेका हुन्थे । “पहिलो वर्षमै एआई डिटेक्सन टुल प्रयोगमा आउन थालेपछि हामीलाई गाह्रो हुन थाल्यो,” रञ्जितकार सुनाउँछन्, “त्यसरी एआईले लेखेका सामग्री पहिचान गर्नका लागि अनडिटेक्टर लगायका टुल प्रयोग गर्थें । तर, ती हामीले एफोर्ड गर्नै नसक्ने किसिमका थिए ।”

यसरी महँगा एआई डिटेक्टर र ह्युमनाइजर (एआईले तयार पारेका सामग्री मान्छेले तयार पारेको जस्तो बनाउने उपकरण) प्रयोग गर्नुपर्ने बाध्यता आएपछि रञ्जितकारले आफ्नै एआई टुल बनाउने सानो सपना देखे ।

कक्षा आठदेखि नै कम्प्युरमा निकै रुचि राख्ने उनी कक्षा ११/१२ देखि प्रोग्रामिङमा अभ्यस्त भएका थिए । ब्याचलर अध्ययन गर्दा प्रोग्रामिङको राम्रो ज्ञान भए पनि उनका लागि एआई भनेको नौलो टुल थियो । त्यही समयमा आफ्नै एआई टुल बनाउने सपनाको बिजारोपण उनको मस्तिष्कमा भइसकेको थियो ।

त्यसपछि उनी एआईबारे अध्ययन गर्न थाले । “मेरो प्रोग्रामिङको बेस राम्रो थियो । तर, एआई भने नौलो थियो,” रञ्जितकार भन्छन्, “मैले एआईसँग सम्बन्धित विभिन्न भिडिओ हेर्न थालें, अनलाइन कोर्स लिन थालें ।” उनले आफूले बनाउन चाहेको एआई टुल ‘फाइन ट्युनिङ’ का लागि पढ्नुपर्छ भन्ने बुझे ।  

फाइन ट्युनिङ (Fine-tuning) भनेको पूर्व-प्रशिक्षित (pre-trained) मोडेललाई एउटा विशेष काम (specific task) का लागि थप प्रशिक्षण दिने प्रक्रिया हो । यसमा एउटा ठुलो डेटासेटमा प्रशिक्षित गरिएको मोडेललाई लिइन्छ र त्यसलाई सानो तर सम्बन्धित डेटासेटमा थप तालिम दिइन्छ । यसले मोडेललाई नयाँ काममा अझ राम्रो प्रदर्शन गर्न मद्दत गर्छ ।

यसलाई एउटा उदाहरणबाट बुझ्न सकिन्छ: मानौं, एउटा मोडेललाई धेरै ठुलो डेटासेटमा विभिन्न प्रकारका चित्रहरू पहिचान गर्न तालिम दिइएको छ । अब तपाईं त्यो मोडेललाई बिरालो र कुकुरका चित्रहरू मात्रै पहिचान गर्न प्रयोग गर्न चाहनुहुन्छ भने, तपाईंले त्यसलाई बिरालो र कुकुरका चित्रहरूको सानो डेटासेटमा फाइन-ट्युन गर्न सक्नुहुन्छ ।

रञ्जितकारले फाइन ट्युनिङबारे पनि अध्ययन गर्न थाले । उनी अगाडि भन्छन्, “मैले सबैभन्दा पहिले पाइथन प्रयोग गरेर फाइन ट्युनिङ गर्न थालें । तर, त्यसले राम्रो आउटपुट (नतिजा) दिएन । त्यसपछि मैले कसरी आफ्नै मोडेल बनाउन सकिन्छ भन्ने पढ्न थालें ।”

यसरी आफ्नै मोडेल बनाउन सकिने तरिकाबारे थाहा भएपछि एआई मोडेल तयार भइहाल्ने अवस्था थिएन । पहिले जति परिश्रम गरे त्यति नै परिश्रम अब डेटासेट तयार पार्न गर्नुपर्ने भयो । यसका लागि उनले आफ्नै कक्षाका साथी जोयाश श्रेष्ठसँग सहकार्य गरे । यो २०२४ को सुरुवात तिरको कुरा हो । त्यसपछिका तीन महिनासम्म रञ्जितकार र श्रेष्ठ आफ्नो एआई मोडेललाई उपयुक्त हुने डेटासेट सङ्कलन गर्न थाले । “हामीले एआई मोडेललाई ‘तिमीलाई यस्तो यस्तो नमूनाको टेस्क्ट आउँछ । यस्तो आउँदा त्यसलाई यसरी मिलाउ’ भनेर तालिन दिनुपर्छ,” रञ्जितकार अगाडि भन्छन्, “हामीले यी सबै डेटा एउटा एक्सल शिटमा राखेका हुन्छौं । यो सबै डेटा राम्रोसँग ट्युनिङ गरेर राख्नुपर्छ ।”

अर्थात उनीहरूले एआईलाई सबैभन्दा पहिले एआईले यस्तो शब्द तयार पार्छ अनि तिमीलाई यस्तो शब्द आयो भने मान्छेको जस्तो शैली बनाउन यस्तो गर्नु भनेर ठुलो सङ्ख्याको डेटाबाट तालिम दिए । यो काम उनका लागि सहज थिएन । उनी सम्झिन्छन्, “हामीले आफैले डेटा बनाउन थाल्यौं । लगभग १० हजार रोजको डेटा हामीले बनायौं । अहिले पनि बनताइरहेका छौं । हामीलाई यही बीच डेटाको स्रोत पहिचान गर्न र त्यसबाट डेटा सङ्कलन गर्न थुप्रै समस्या भयो ।”

उनका अनुसार उक्त एआई मोडेललाई १० हजार लाइन (रोज-Rows)को डेटाबाट तालिम दिइएको छ । उनलाई यिनै डेटा सङ्कलन गर्नका लागि तीन महिना लाग्यो । 

त्यसपछि वेबसाइटका रूपमा उक्त परियोजना अगाडि बढाउन चाहे । तर, नाम के राख्ने भन्ने उनलाई थाहा थिएन । उनी यस्तो नाम राख्न चाहन्थे जसले विश्वव्यापी रूपमा सबै प्रयोगकर्ताको ध्यान खिच्न सकोस् । त्यही क्रममा विभिन्न नाम खोजे । मनमा बसेका कत्ति नाम पहिले नै दर्ता भइसकेको पाए भने कति चित्त नै बुझेनन् । त्यही बीचमा २९ मार्च २०२४ मा ‘वन रजिस्टर’मा रञ्जितकारले ‘noaigpt’ डोमेन सर्च गरे । मौकाले यो नाम कसैले दर्ता नगरिसकेको फेला पर्‍यो । रञ्जितकारले तत्कालै यो डोमेन आफ्नो नाममा दर्ता गरे र प्लेटफर्मको नाम राखे ‘नोएआईजीपीटी’  (noaiGPT)।

खर्च व्यवस्थापन र माइक्रोसफ्टबाट अनुदान !

डेटा सङ्कलनका रञ्जितकार र श्रेष्ठ आफैँ खटिए । कलेजको समय छुट्याएर डेटा सङ्कलनमै लगाए । यसरी उनले झन्डै तीन महिनासम्म डेटामार्फत एआईलाई तालिम दिइसकेका थिए । यसपछिको पक्रियामा कुनै ठुलो एआई मोडेलसँग फाइन ट्युनिङ गर्नुपर्ने थियो । रञ्जितकारले आफै खर्च गर्नेभन्दा पनि अनुदान वा सहयोग कताबाट पाइन्छ भन्ने अध्ययन गर्न थाले । 

त्यही समयमा अर्थात २०२४ तिर माइक्रोसफ्टले स्टार्ट्सअप फाउन्डर हब कार्यक्रम ल्याएको थियो । यो विभिन्न विद्यार्थीका परिकल्पनालाई स्टार्टअपको रूप दिने माइक्रोसफ्टको कार्यक्रम थियो । रञ्जितकारले यसमा आवेदन दिए । त्यसको केही समयपछि ५ अगस्ट २०२४ मा उक्त कार्यक्रममा छनौट भए । यसमा छनोट भइसकेपछि माइक्रोसफ्टले रञ्जितकारका लागि ओपनआईको २५०० डलर (तीन लाख ४० हजार रुपैयाँ बढी)को क्रेडिट उपलब्ध गराउने भयो ।

रञ्जितकारले खोजेको पनि यही थियो । च्याटजीपीटीको भर्सन ३.५ सँग आफ्नो एआई मोडेललाई ट्युनिङ गर्नुपर्ने थियो । पहिले उनी खर्च नभएर अड्किएका थिए । “माइक्रोसफ्टले ओपनएआईको २५०० डलर बराबरको क्रेडिट छ महिनाका लागि उपलब्ध गराइदिने भयो,” उनी थप्छन्, “यता हाम्रो मोडेल तयार भइसकेको थियो । हामीलाई त्यही आवश्यक थियो ।”

ओपनएआईको क्रेडिट पाउनासाथ एआई मोडेल ट्युनिङको काम सुरु गरे । र, औपचारिक रूपमा फेब्रुअरी २०२५ मा बजारमा ल्याए । 

के हो नोएआई जीपीटी ? कसरी गर्छ काम ? कसरी गर्न सकिन्छ प्रयोग ?

रञ्जितकारकै शब्दमा ‘नोएआईजीपीटी’ यस्तो एआई टुल हो, जसले एआईले लेखेका शब्दलाई केही नबिगारी (अर्थको अनर्थ लाग्ने) मान्छेको शैलीमा तयार पारिदिन सक्छ । यहाँ क्लिक गरेर वेबसाइटमा गइसकेपछि गुगल अकाउन्ट प्रयोग गरेर साइनअप गर्नुपर्ने हुन्छ । अकाउन्ट साइनअप गरिसकेपछि ५०० क्रेडिट पाइन्छ ।

त्यसपछि एआई टुलले तयार पारेको टेक्सलाई नोएआई जीपीटीको च्याटबक्समा पेस्ट गर्नुपर्ने हुन्छ । तपाईंले शुल्क तिर्नु भएको छैन भने एक पटकमा ५०० शब्द मात्र ह्युमनाइज गर्न सकिन्छ । 

यसरी ह्युमनाइज भएको टेक्स्ट राइटर, जीपीटी जेरो, जेरोजीपीटी, टर्निटिन (Turnitin), अनडिटेक्टएबल जस्ता टुलमा परीक्षण गर्दा उक्त लेख मान्छेले लेखेको सम्भावना अत्यधिक रहेको देखाउँछ । 

रञ्जितकारले यसका लागि टर्निटिनसँग पनि सहकार्य गरेका छन् । उक्त टुलले सम्पूर्ण रिपोर्ट नै उपलब्ध गराउँछ । टर्निटिनले कसरी रिपोर्ट तयार पार्छ भन्ने थाहा पाउन यहाँ क्लिक गर्न सक्नुहुन्छ ।

प्रयोगकर्ताले दिएको टेक्स्टलाई नोएआईजीपीटीले प्रशोधन (प्रोसेस) गरेर मान्छेले लेखेको जस्तो बनाउँछ । यो प्रणाली जीपीटी ३.५ जस्तो शक्तिशाली भाषा मोडेलमा आधारित छ, जसलाई विशेष डेटासेट प्रयोग गरेर तालिम दिइएको रञ्जितकारले जनाएका छन् । यसको मुख्य प्रक्रियामा ‘फाइन-ट्युनिङ’ पर्दछ, जहाँ जीपीटी ३.५ जस्तो ठुलो मोडेललाई एआईले लेखेको र मान्छेले लेखेको टेक्स्टको ठुलो डेटासेटबाट तालिम दिइन्छ ।

हजारौं वाक्यहरू समावेश भएको यो डेटासेटले एआईलाई मान्छेको लेखन शैली बुझ्न र एआई डिटेक्टरहरूबाट बच्न मद्दत गर्छ । यस मोडेललाई टर्निटिनजस्ता एआई डिटेक्टरहरूलाई छल्नसक्ने गरी तयार पारिएको छ । रञ्जितकारका अनुसार यो सिस्टम सञ्चालन गर्न लाग्ने खर्च ओपनएआई मोडेलले प्रशोधन गर्ने टोकनको सङ्ख्यामा आधारित हुन्छ, जहाँ धेरै शब्द वा जटिल इनपुट भएमा लागत बढ्छ । हाल यो मोडेलले अङ्ग्रेजी भाषालाई मात्र सपोर्ट गर्छ । तर अन्य २५ ओटा भाषामा पनि विस्तार गर्ने योजना छ । 

लगानी र आर्थिक पक्ष

एआई-आधारित ह्युमनाइजर टुल आजको आवश्यकता भएको रञ्जितकारको अनुभव छ । उनी भन्छन्, “हामीले यो प्रणाली विद्यार्थी र लेखकहरूलाई उनीहरूको लेखनमा एआईको प्रयोग पत्ता लगाउन र त्यसलाई सुधार गर्न मद्दत गर्ने उद्देश्यले विकास गरेका हौं ।” तर, यो यात्रा सहज छैन।

सबैभन्दा ठुलो चुनौती डेटाको उपलब्धता हो । एआई मोडेललाई तालिम दिन पर्याप्त डेटा चाहिन्छ, तर रञ्जितकार गुनासो पोख्छन्, “विभिन्न स्रोतबाट डेटा सङ्कलन गर्न धेरै समय लाग्यो ।” डेटाको अभावले प्रणालीको गुणस्तरमा सीधा असर पार्छ ।

अर्को चुनौती नेपाली भाषाको सपोर्ट हो ।  हुन त अहिले एआई टुलले प्रभावकारी रूपमा नेपालीमै आकर्षक लेख लेखिदिने भन्ने हुँदैन । तर, पछि यो सुविधा आयो भने त्यसलाई पनि मानव शैलीमा परिणत गर्ने सिस्टम बनाउने उनको योजना छ । 

अहिले भने यस टुलले अङ्ग्रेजी भाषा मात्र सपोर्ट गर्छ ।

कम्पनी दर्ता र भुक्तानीको समस्या पनि त्यत्तिकै जटिल भएको उनी सुनाउँछन् । खासगरी पूर्ण रूपमा अहिले उनीहरूलाई ओपनएआईमा निर्भर हुनुपर्ने अवस्था छ । “हामी आफ्नै लार्ज ल्याङ्ग्वेज मोडेल बनाउन सक्दैनौं । बनाइरहेका छौं । तर, अहिले नै त्यो बजारमा ल्याउँदैनौं । खर्चका हिसाबले यो महँगो छ । हामीले ठुलो डेटासेटमा तालिम गराउन खोजेका छौं । तर, भुक्तानीको प्रक्रिया जटिल छ । बैंकले ५०० डलरभन्दा बढी एउटा कार्डबाट खर्च गर्न दिंदैन । त्यो पनि एक वर्षमा । हाम्रो महिनामै ३०० डलर हाराहारी खर्च आउँछ,” उनी सुनाउँछन् । 

भुक्तानीको प्रक्रिया सहज भए मोडेल अझ अत्यधुनिक बनाएर बजारमा राम्रो प्रभाव पार्न सकिने उनको विश्वास छ । नेपालबाटै पर्याप्त रकम खर्च गरेर सिस्टमलाई सञ्चालन गर्न सकियो भने त्यसबाट राम्रो आम्दानी गर्न सकिनेमा उनी विश्वस्त छन् । उनी अगाडि भन्छन्, “अहिले हाम्रा १५ हजार बढी सक्रिय प्रयोगकर्ता छन् । त्यसमा पनि ५०० बढी प्रिमियम प्रयोगकर्ता छन् ।”

उनका अनुसार प्रिमियम प्रयोगकर्तामा पनि ८० प्रतिशतभन्दा बढी नेपाल बाहिरका प्रयोगकर्ता छन् । नेपालीले भने फोनपेबाटै भुक्तानी गरेर प्रिमियम सेवा लिन सक्छन् । एक पटक ४९९ रुपैयाँ तिर्‍यो भने १० हजार शब्द प्रशोधन गर्न सकिन्छ । त्यस्तै ९९९ रुपैयाँ तिर्ने हो भने २० हजार शब्द र १९९९ रुपैयाँ तिर्ने हो भने ५० हजार शब्द प्रशोधन गर्न सकिन्छ । “हामीले विदेशी प्लेटफर्मको तुलनामा नेपाली प्लेटफर्ममार्फत भरपर्दो र सस्तो सेवा दिन खोजेका हौं,” रञ्जितकार अगाडि भन्छन्, “यो न्यूनतम खर्च हो । हामीले हरेक पटक शब्द प्रशोधन गर्दा ओपनएआईको टोकन खपत हुन्छ । र, त्यसबापतको रकम तिर्नुपर्ने हुन्छ ।” 

विदेशी प्रयोगकर्ताको हकमा भने यो शुल्क केही महँगो छ । नेपालमा डलरमा भुक्तानी गर्न र विदेशी कम्पनीहरूसँग कारोबार गर्न कठिनाइ भएको उनको अनुभव छ । रञ्जितकार भन्छन्, “नेपालबाट डलरमा भुक्तानी गर्न धेरै समस्या छ ।” यसले अन्तर्राष्ट्रिय बजारमा प्रतिस्पर्धा गर्न गाह्रो बनाएको छ ।

लगानीको अभावले पनि यो प्रणालीको विकासलाई रोकेको छ । रञ्जितकार भन्छन्, “हामी विदेशी लगानीकर्ता खोजिरहेका छौं, जसले हामीलाई डलरमा भुक्तानी गर्न सजिलो बनाउन सक्छ ।” 

रञ्जितकार अगाडि भन्छन्, “एआई-आधारित टेक्स्ट ह्युमनाइजर टुल विद्यार्थी र लेखकहरूका लागि उपयोगी उपकरण बन्न सक्छ, तर यसलाई प्रभावकारी रूपमा सञ्चालन गर्न डेटाको उपलब्धता, भाषा सपोर्ट, भुक्तानी र लगानी जस्ता चुनौतीहरूलाई सम्बोधन गर्न आवश्यक छ ।” यदि यी चुनौतीहरूलाई पार गर्न सकियो भने यो प्रणालीले प्रयोगकर्ताहरूका अपेक्षाहरू पूरा गर्न र लेखनको गुणस्तर सुधार गर्न महत्त्वपूर्ण भूमिका खेल्ने उनी सुनाउँछन् ।

 

*शीर्षक सम्पादन गरिएको छ ।‌ -सं.

पछिल्लो अध्यावधिक: चैत २३, २०८१ २२:११