close

शब्दकै भरमा चाहेको तस्वीर बनाइदिने 'स्टेबल डिफ्युजन' प्रविधि

टेकपाना टेकपाना

फागुन १४, २०७९ १६:२६

शब्दकै भरमा चाहेको तस्वीर बनाइदिने 'स्टेबल डिफ्युजन' प्रविधि

काठमाडौं । केही महिनादेखि आर्टिफिसियल इन्टेलिजेन्स (एआई) मा आधारित च्याटबटले चर्चा पाइरहेका छन् । गत नोभेम्बरमा ओपनएआईले 'च्याटजीपीटी' नामको एआई टुल सार्वजनिक गरेपछि विश्वबजारमा एआईको सम्भावना र त्यसका फाइदाबारे बहस हुन थालेको छ ।

च्याटजीपीटीको चर्चासँगै गुगलले 'बार्ड' र माइक्रोसफ्टले 'बिङ एआई' अर्थात् एआईमा आधारित टुल परीक्षण गरिरहेका छन् । एआईको बहस भइरहँदा पछिल्ला केही दिनदेखि ‘स्टेबल डिफ्युजन’ शब्द पनि चर्चामा छ । आखिर के हो स्टेबल डिफ्युजन, अनि यो कहाँ कसरी प्रयोग भइरहेको छ त ?

वास्तवमा स्टेबल डिफ्युजन एक गणितीय अवधारणा हो । यो यस्तो डिप लर्निङ मोडेलको अवधारणा हो, जसलाई शब्दका माध्यमबाट वास्तविक जस्तै फोटो तयार पार्न प्रयोग गरिन्छ । यसमा ल्याटिन डिफ्युजन भनिने टेक्निकको प्रयोग भएको हुन्छ ।

ल्याटिन डिफ्युजन प्रक्रियामा विभिन्न न्वाइज (पुरानो टिभीमा सिग्नल नहुँदा स्क्रिनमा देखिने)लाई जोडेर वास्तविक तस्वीर तयार पार्छ । यस्तो न्वाइज शब्दका आधारमा तयार हुन्छ ।

यसरी शब्दबाट न्वाइज बनाउन एआईलाई अर्बौँ फोटो र टेक्स्टबाट तालिम दिइएको हुन्छ, जसले शब्द र फोटोको सम्बन्धका बारेमा बुझेको हुन्छ । र, हामीले कुनै शब्द राख्यौं भने त्यही अनुसारको फोटो तयार हुन्छ ।

स्टेबल डिफ्युजनमा टेक्स्टबाट तस्वीर बनाउँदा सबैभन्दा पहिले न्वाइज तयार हुन्छ । र, अर्बौं न्वाइज जोडिएर फोटो तयार हुन्छ । सामान्य अर्थमा भन्नुपर्दा स्टेबल डिफ्युजनमा टेक्स्टबाट तस्वीर उत्पन्न गर्ने प्रक्रिया विभिन्न न्वाइजबाट सुरु हुन्छ । जुन विस्तारै डिफ्युजन प्रक्रिया प्रयोग गरेर  तस्वीरमा रूपान्तरण हुन्छ । त्यसपछि स्टेबल डिफ्युजन प्रक्रियामा लेटेन्ट डिफ्युजन प्रविधिको प्रयोग गरेर त्यसलाई उल्टाइन्छ ।

यस प्रक्रियामा हामीले लेखेको टेक्स्ट विवरणले तस्वीर बनाउन गाइडको भूमिका निर्वाह गर्छ । सामान्यतः यस मोडेलले दुई न्यूरल नेटवर्कहरू प्रयोग गरेको हुन्छ । एउटा डिफ्युजनको प्रत्येक चरणलाई कसरी उल्टाउने भनेर भविष्यवाणी गर्न र अर्को प्रत्येक चरणमा टेक्स्ट गाइडसँग कति राम्रोसँग मेल खान्छ भनेर भविष्यवाणी गर्न ।

स्टेबल डिफ्युजनले ड्यालई र मिडजर्नी जस्ता अन्य टेक्स्ट-टू-इमेज मोडेलहरूको तुलनामा वास्तविक  तस्वीर उत्पन्न गर्ने सक्छ । यसले अन्य मोडेलहरू भन्दा लामो र अधिक जटिल टेक्स्ट प्रम्प्टलाई पनि राम्रोसँग ह्यान्डल गर्नसक्ने बताइएको छ ।

स्टेबल डिफ्युजन अन्य मोडेलहरू भन्दा छिटो र सहजै प्रयोग गर्न सकिने किसिमको हुन्छ किनभने यो इन्टरनेट कनेक्सन बिना मोबाइल डिभाइसमा चल्न सक्छ । स्टेबल डिफ्युजनले टेक्स्टदेखि इमेज उत्पादन,  तस्वीरदेखि  तस्वीर तयार पार्न, इनपेन्टिङ, आउटपेन्टिङ, इमेज एडिटिङ , स्टाइल ट्रान्सफर, सुपर-रिजोल्युसन, र अन्य यस्तै थुप्रै काम गर्न सक्छ ।

कस्तो अवस्थामा स्टेबल डिफ्युजनको प्रयोग हुन्छ ?

आवश्यकता अनुसार स्टेबल डिफ्युजन प्रयोग गर्नुपर्ने काम थुप्रै हुन्छन् । तर, चार कामका लागि स्टेबल डिफ्युजनको प्रयोग बढी हुन्छ ।

- शब्दबाट तस्वीर बनाउन

यस्तो एल्लिकेसन जहाँ तपाईँले शब्द राख्नुहुन्छ र त्यसैका आधारमा स्टेबल डिफ्युजनको प्रयोग भइ तस्वीर तयार हुन्छ ।

- तस्वीरबाट तस्वीर

आफूसँग भएको  तस्वीरलाई तोडमोड गरेर नयाँ स्वरूप दिन पनि स्टेबल डिफ्युजन प्रयोग हुन्छ । यस्तो प्रक्रियामा तपाईँले  तस्वीर र केही शब्दहरू राख्नुहुन्छ । त्यसैका आधारमा नयाँ  तस्वीर तयार हुन्छ ।

- इन्पेन्टिङ

इन्पेन्टिङमा तपाईँले कुनै एउटा फोटोमा आफूले परिवर्तन गर्न चाहेको भाग छान्नुहुन्छ । र, स्टेबल डिफ्युजनले सोही भागमा तपाईँको आवश्यकता अनुसार परिमार्जन गर्छ ।

- आउटपेन्टिङ

कुनै पनि  तस्वीरमा अन्य  तस्वीर थप गर्नुपर्ने अवस्थालाई आउटपेन्टिङ भनिन्छ । यसमा पनि स्टेबल डिफ्युजनको विशेष भूमिका हुन्छ ।

गेमिङ, विज्ञापन, र ई-कमर्स जस्ता उद्योगमा यसको बढी प्रयोग हुन्छ । जहाँ टेक्स्ट प्रम्प्टहरूबाट रियलिस्टिक (वास्तविक)  तस्वीर सिर्जना गर्नुपर्ने हुन्छ, त्यस्तो क्षेत्रमा स्टेबल डिफ्युजनको प्रयोग अधिक हुन्छ ।

समग्रमा भन्नुपर्दा स्टेबल डिफ्युजन त्यस्तो मोडेल हो जसले शब्दको भरमा फरक-फरक र रियलिस्टिक फोटो तयार पार्न सक्छ ।

यही प्रविधिको प्रयोग गरी चिप निर्माता कम्पनी क्वालकमले एन्ड्रोइड फोन र स्टेबल डिफ्युजनको प्रयोग गरी कवच लगाएको योद्धा विरालोको ५१२x५१२ पिक्सेलको तस्वीर तयार पारेको छ ।

यसका लागि क्वालकमले फोनमा स्टेबल डिफ्युजन १.५ रन गर्न आफ्नो एआई स्ट्याक प्रयोग गरिएको बताएको छ, जुन इन्टरनेटमा जोडिएको थिएन । 

तस्वीर तयार पार्न फोनले आवश्यक सम्पूर्ण एआई प्रक्रिया पूरा गरेको थियो । यस प्रविधिको प्रयोग गरी छिट्टै नै फ्ल्यागशिप एन्ड्रोइड फोनमा टेक्स्टकै भरमा वास्तविक फोटो तयार पार्न सकिनेछ ।

क्वालकमले भने यो फिचर कहिलेबाट उपलब्ध हुन्छ भन्ने हालसम्म खुलाएको छैन । कम्पनीले यो प्रविधिको डेमो यस वर्षको मोबाइल वर्ल्ड कङ्ग्रेसमा प्रस्तुत गर्नेछ । सम्भवतः त्यसै बखत कम्पनीले यस विषयमा कुनै घोषणा गर्ने अपेक्षा गर्न सकिन्छ ।

पछिल्लो अध्यावधिक: फागुन १४, २०७९ १७:१९