प्रयोगकर्तालाई खुसी पार्न झुट बोल्छ एआई, कहाँबाट अनि कसरी सिक्छ यस्तो चाटुकारीता ?
भदौ १६, २०८२ ९:३९
काठमाडौँ । एक अनुसन्धानले आर्टिफिसियल इन्टेलिजेन्स (एआई) प्रणालीहरूले प्रयोगकर्ताहरूलाई खुसी पार्नको लागि सत्यलाई बेवास्ता गर्दै गलत वा भ्रामक जानकारी तयार पार्न सक्ने देखाएको छ । प्रिन्स्टन विश्वविद्यालयको नयाँ अध्ययनले एआई मोडलहरूको 'मानिसलाई खुसी पार्ने' प्रवृत्तिले सत्य प्रति उदासीनता देखाउने कुरा पत्ता लगाएको हो ।
अध्ययनले मसिन बुलशिट नामक एक नयाँ अवधारणा प्रस्तुत गरेको छ । जसले एआईको असत्य व्यवहारलाई जनाउँछ । ती ब्यबहारहरूमा खोक्रो भनाई वा अर्थहीन वाक्पटुता (Empty rhetoric) पनि पर्छ । यो यस्तो प्रकारको कुराकानी हो, जसमा शब्दहरू आकर्षक र भव्य सुनिन्छन् । तर तिनको पछाडि कुनै ठोस विचार, योजना, प्रमाण वा सार हुँदैन । यस्तो भाषण सुन्दा प्रभावशाली लागे पनि त्यसले कुनै वास्तविक अर्थ राख्दैन र कुनै परिणाम पनि दिँदैन ।
त्यस्तै एआईले झुटपूर्ण वा अस्पष्ट शब्दहरू (Weasel words) पनि प्रयोग गर्छ । यी यस्ता शब्द वा वाक्यांशहरू हुन्, जसले कुनै कुरालाई ठोस, विश्वसनीय वा भरपर्दो देखाउन खोज्छन् । वास्तवमा त्यसको कुनै स्पष्ट अर्थ वा प्रमाण हुँदैन । यसको प्रयोग कुनै दाबीलाई विश्वसनीय बनाउन वा जिम्मेवारीबाट पन्छिनका लागि गरिन्छ ।
यस्ता शब्दहरूको प्रयोग प्रायः विज्ञापन, राजनीति वा अन्य कुनै सन्दर्भमा हुन्छ । यिनीहरूले सुन्ने वा पढ्ने व्यक्तिलाई भ्रममा पार्न वा गलत अर्थ निकाल्न प्रेरित गर्छन् । जस्तैः "धेरैले भन्छन् कि..." भनिएको हुन्छ, तर कसले भनेको स्पष्ट हुँदैन । "अनुसन्धानले देखाउँछ कि..." लेखिएको हुन्छ, तर कुन अनुसन्धान, कसले गरेको हो, के हो भन्ने कुनै प्रमाण हुँदैन । "हामी चाँडै नै..." भनिन्छ, तर कुनै निश्चित समय सीमा हुँदैन । "यसले तपाईँलाई मद्दत गर्न सक्छ" भनेपनि पक्का हुँदैन ।
अर्ध सत्य बोल्ने तरिका (Paltering) को प्रयोग समेत एआईले गर्छ । यो यस्तो अवस्था हो जहाँ तपाईँले केही सत्य जानकारी त दिनुहुन्छ, तर त्यसलाई यस्तो तरिकाले घुमाएर प्रस्तुत गर्नुहुन्छ कि सुन्ने व्यक्तिले गलत निष्कर्ष निकाल्छ । यसमा झुटो बोल्नेभन्दा पनि सत्यलाई नै तोडमोड गर्ने काम हुन्छ।
उदाहरणका लागि: यदि तपाईँसँग पैसा छैन । तर तपाईँले कसैलाई 'म आज एटीएम जान पाएकै छैन' भन्नुभयो भने त्यो 'पल्टरिङ' हो । तपाईँ एटीएममा जानुभएको छैन भन्ने कुरा त सत्य हो, तर यसबाट तपाईँले आफूसँग पैसा नभएको कुरा लुकाउन खोज्दै हुनुहुन्छ ।
यसैगरी एआईले अप्रमाणित दाबीहरूको सहारा पनि लिन्छ । यसमा प्रमाण वा विश्वसनीय आधार बिना नै दाबीहरू पेस गरिन्छ ।
प्रयोगकर्तालाई खुसी पार्न अनावश्यक रूपमा सहमतिको भाव प्रकट गर्ने काम पनि एआईले गर्छ । यसलाई अङ्ग्रेजीमा सिकोफेन्सी (Sycophancy) भन्ने गरिन्छ, जसको अर्थ चाकडी वा चाटुकारीता भन्ने हुन्छ । यो यस्तो व्यवहार हो, जहाँ कोही व्यक्तिले आफ्नो स्वार्थ वा लाभका लागि कुनै शक्तिशाली वा उच्च पदमा रहेको व्यक्तिको अत्यधिक प्रशंसा गर्ने, अनावश्यक चाकडी गर्ने वा त्यसको हरेक कुरामा सहमति जनाउने गर्दछ । यदि कुनै कर्मचारीले आफ्नो हाकिमको निर्णय गलत हुँदाहुँदै पनि 'यो एकदमै राम्रो र उत्कृष्ट विचार हो' भनी अनावश्यक प्रशंसा गर्छ भने त्यो 'सिकोफेन्सी' हो । मानिसहरूको यो व्यवहार पनि एआईले सिकिरहेको हुन्छ ।
एआईले कसरी सिक्छ झूट बोल्न ?
लार्ज ल्याङ्ग्वेज मोडलहरू (एलएलएम) लाई तीन चरणमा तालिम दिने गरिएको हुन्छ । पहिलो चरणमा पूर्व-तालिम (Pretraining) दिइन्छ, जसका लागि इन्टरनेट, पुस्तकहरू र अन्य स्रोतहरूबाट ठुलो मात्रामा रहेका डेटाबाट सिकाइन्छ । त्यसपछि दोस्रो चरणमा निर्देशनलाई फाइन-ट्युनिङ (Instruction fine-tuning) गर्ने गरिन्छ । यो चरणमा एआईलाई निर्देशन वा प्रम्प्टहरूमा प्रतिक्रिया दिन सिकाइन्छ । तेस्रो वा अन्तिम चरणमा मानव प्रतिक्रियाबाट सिक्ने काम (Reinforcement learning from human feedback - RLHF) हुन्छ । यसमा प्रयोगकर्ताहरूले मन पराउने वा चाहेको प्रतिक्रियाहरू तयार पार्न एआई मोडललाई परिष्कृत गर्ने काम हुन्छ ।
प्रिन्स्टनका अनुसन्धानकर्ताहरूका अनुसार एआईले गलत सूचना दिनु वा झूट बोल्न सिक्नुको पछाडि यही तेस्रो चरण नै मुख्य कारण हो । यस चरणमा एआई मोडलहरूलाई तथ्यगत रूपमा सही उत्तर दिनुको सट्टा मानव परीक्षकहरूबाट उच्च मूल्याङ्कन प्राप्त गर्ने प्रतिक्रियाहरू सिर्जना गर्न सिकाइन्छ । कार्नेगी मेलन विश्वविद्यालयका कम्प्युटर विज्ञानका प्रोफेसर भिन्सेन्ट कोनिजरका अनुसार कम्पनीहरू प्रयोगकर्ताले प्रविधिसँग रमाईलो गरून् भन्ने चाहन्छन् । तर यो सधैँ राम्रो नहुन सक्छ ।
'बुलशिट इन्डेक्स' र यसको प्रभाव
अनुसन्धान टोलीले एआई मोडलको आन्तरिक विश्वास र यसले प्रयोगकर्तालाई वास्तवमा के बताउँछ भनेर तुलना गर्न 'बुलशिट इन्डेक्स' (bullshit index) विकास गरेको छ । आरएलएचएफ तालिमपछि यो इन्डेक्स ०.३८ बाट दोब्बरभन्दा धेरैले बढेर लगभग १.० भयो । जबकि प्रयोगकर्ता सन्तुष्टि ४८ प्रतिशतले बढ्यो । यसले के देखायो भने एआई मोडलहरूले सही जानकारी प्रदान गर्नुको सट्टा मानव मूल्याङ्कनकर्ताहरूलाई प्रभावित गर्न सिके र मानिसहरूले यसलाई मन पराए ।
एआईलाई इमान्दार बनाउने प्रयास
यो समस्यालाई सम्बोधन गर्न प्रिन्स्टनका अनुसन्धानकर्ताहरूले 'रिइन्फोर्समेन्ट लर्निङ फ्रम हिन्डसाइट सिमुलेसन' (Reinforcement Learning from Hindsight Simulation) नामक नयाँ तालिम विधि विकास गरेका छन् । यसले एआई प्रतिक्रियाहरूलाई तत्काल खुसी तुल्याउनुको सट्टा दीर्घकालीन परिणामका आधारमा मूल्याङ्कन गर्छ । यस विधिमा एआईले दिने सुझावको सम्भावित नतिजाहरूलाई विचार गरिन्छ । प्रारम्भिक परीक्षणहरूले प्रयोगकर्ता सन्तुष्टि र वास्तविक उपयोगितामा पनि सुधार देखाएका छन् ।
यद्यपि प्रोफेसर कोनिजरले एलएलएम सधैँ त्रुटिपूर्ण रहने सम्भावना भएको बताएका छन् । किनभने तिनीहरूलाई विशाल टेक्स्ट डेटाबाट तालिम दिइन्छ र सधैँ सही र अर्थपूर्ण जवाफ सुनिश्चित गर्न असम्भव हुन्छ । एआई प्रणालीहरू हाम्रो दैनिक जीवनको अभिन्न अङ्ग बन्दै गइरहेकाले एलएलएमहरूले कसरी काम गर्छन् भनेर बुझ्न महत्त्वपूर्ण छ ।
पछिल्लो अध्यावधिक: भदौ १६, २०८२ ९:३९
