कल्पना कीजिए कि एक रोबोट आपको व्यंजन साफ करने में मदद कर रहा है। आप इसे सिंक से एक साबुन के कटोरे को हड़पने के लिए कहते हैं, लेकिन इसके ग्रिपर को थोड़ा याद आ जाता है।
MIT और NVIDIA शोधकर्ताओं द्वारा विकसित एक नए ढांचे का उपयोग करते हुए, आप सरल बातचीत के साथ रोबोट के व्यवहार को ठीक कर सकते हैं। विधि आपको कटोरे को इंगित करने या स्क्रीन पर एक प्रक्षेपवक्र का पता लगाने की अनुमति देगी, या बस रोबोट की बांह को सही दिशा में एक कुहनी दिलाएगी।
रोबोट व्यवहार को ठीक करने के लिए अन्य तरीकों के विपरीत, इस तकनीक को उपयोगकर्ताओं को नए डेटा एकत्र करने और मशीन-लर्निंग मॉडल को फिर से शुरू करने की आवश्यकता नहीं होती है जो रोबोट के मस्तिष्क को शक्ति प्रदान करता है। यह एक रोबोट को एक व्यवहार्य एक्शन अनुक्रम चुनने के लिए सहज, वास्तविक समय मानव प्रतिक्रिया का उपयोग करने में सक्षम बनाता है जो उपयोगकर्ता के इरादे को संतुष्ट करने के लिए जितना संभव हो उतना करीब हो जाता है।
जब शोधकर्ताओं ने अपने ढांचे का परीक्षण किया, तो इसकी सफलता दर एक वैकल्पिक विधि से 21 प्रतिशत अधिक थी जो मानवीय हस्तक्षेपों का लाभ नहीं उठाती थी।
लंबे समय में, यह ढांचा एक उपयोगकर्ता को अधिक आसानी से एक कारखाने-प्रशिक्षित रोबोट का मार्गदर्शन करने में सक्षम कर सकता है, जो कि विभिन्न प्रकार के घरेलू कार्यों को करने के लिए हो सकता है, भले ही रोबोट ने अपने घर या वस्तुओं को कभी नहीं देखा हो।
फेलिक्स यानवेई वांग, एक इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस (ईईसीएस) ग्रेजुएशन के एक चुनौती, “फेलिक्स यानवेई वांग का कहना है,” हम डेटा संग्रह करने और एक तंत्रिका नेटवर्क मॉडल को फाइन-ट्यून करने की उम्मीद नहीं कर सकते हैं।
उनके सह-लेखकों में लिरुई वांग पीएचडी ’24 और यिलुन डु पीएचडी ’24 शामिल हैं; वरिष्ठ लेखक जूली शाह, एरोनॉटिक्स और एस्ट्रोनॉटिक्स के एक एमआईटी प्रोफेसर और कंप्यूटर विज्ञान और कृत्रिम खुफिया प्रयोगशाला (CSAIL) में इंटरएक्टिव रोबोटिक्स समूह के निदेशक; साथ ही साथ बालाकुमार सुंदरलिंगम, Xuning यांग, यू-वेई चाओ, क्लाउडिया पेरेज़-डारपिनो पीएचडी ’19, और नवीडिया के डाइटर फॉक्स। शोध को रोबोट और स्वचालन पर अंतर्राष्ट्रीय सम्मेलन में प्रस्तुत किया जाएगा।
कुशलता को कम करना
हाल ही में, शोधकर्ताओं ने “नीति,” या नियमों का एक सेट सीखने के लिए पूर्व-प्रशिक्षित जनरेटिव एआई मॉडल का उपयोग करना शुरू कर दिया है, कि एक रोबोट एक कार्रवाई को पूरा करने के लिए अनुसरण करता है। जनरेटिव मॉडल कई जटिल कार्यों को हल कर सकते हैं।
प्रशिक्षण के दौरान, मॉडल केवल संभव रोबोट गतियों को देखता है, इसलिए यह रोबोट के लिए वैध प्रक्षेपवक्र उत्पन्न करना सीखता है।
जबकि ये प्रक्षेपवक्र मान्य हैं, इसका मतलब यह नहीं है कि वे हमेशा वास्तविक दुनिया में उपयोगकर्ता के इरादे के साथ संरेखित करते हैं। रोबोट को एक शेल्फ को बंद किए बिना एक शेल्फ से बक्से को पकड़ने के लिए प्रशिक्षित किया गया हो सकता है, लेकिन यह किसी के बुकशेल्फ़ के शीर्ष पर बॉक्स तक पहुंचने में विफल हो सकता है यदि शेल्फ प्रशिक्षण में देखा गया है कि यह उन लोगों की तुलना में अलग तरह से उन्मुख है।
इन विफलताओं को दूर करने के लिए, इंजीनियर आमतौर पर नए कार्य को प्रदर्शित करने वाले डेटा को एकत्र करते हैं और जेनेरिक मॉडल को फिर से प्रशिक्षित करते हैं, एक महंगा और समय लेने वाली प्रक्रिया जिसमें मशीन-लर्निंग विशेषज्ञता की आवश्यकता होती है।
इसके बजाय, MIT शोधकर्ता उपयोगकर्ताओं को एक गलती करते समय तैनाती के दौरान रोबोट के व्यवहार को चलाने की अनुमति देना चाहते थे।
लेकिन अगर कोई मानव अपने व्यवहार को ठीक करने के लिए रोबोट के साथ बातचीत करता है, तो यह अनजाने में एक अमान्य कार्रवाई का चयन करने के लिए जनरेटिव मॉडल का कारण बन सकता है। यह उस बॉक्स तक पहुंच सकता है जो उपयोगकर्ता चाहता है, लेकिन इस प्रक्रिया में शेल्फ से किताबें दस्तक दें।
“हम उपयोगकर्ता को उन प्रकार की गलतियों को पेश किए बिना रोबोट के साथ बातचीत करने की अनुमति देना चाहते हैं, इसलिए हमें एक ऐसा व्यवहार मिलता है जो तैनाती के दौरान उपयोगकर्ता के इरादे के साथ बहुत अधिक संरेखित है, लेकिन यह भी मान्य और संभव है,” वांग कहते हैं।
उनका फ्रेमवर्क उपयोगकर्ता को रोबोट के व्यवहार को सही करने के लिए तीन सहज तरीके से उपयोगकर्ता प्रदान करके इसे पूरा करता है, जिनमें से प्रत्येक कुछ लाभ प्रदान करता है।
सबसे पहले, उपयोगकर्ता उस ऑब्जेक्ट को इंगित कर सकता है जो वे चाहते हैं कि रोबोट एक इंटरफ़ेस में हेरफेर करे जो इसके कैमरा दृश्य को दिखाता है। दूसरा, वे उस इंटरफ़ेस में एक प्रक्षेपवक्र का पता लगा सकते हैं, जिससे उन्हें यह निर्दिष्ट करने की अनुमति मिलती है कि वे कैसे चाहते हैं कि रोबोट ऑब्जेक्ट तक पहुंचे। तीसरा, वे शारीरिक रूप से रोबोट की बांह को उस दिशा में स्थानांतरित कर सकते हैं जो वे चाहते हैं कि इसका पालन करें।
“जब आप 3 डी स्पेस में कार्यों के लिए पर्यावरण की 2 डी छवि को मैपिंग कर रहे हैं, तो कुछ जानकारी खो जाती है। शारीरिक रूप से रोबोट को नग्न करना, किसी भी जानकारी को खोए बिना उपयोगकर्ता के इरादे को निर्दिष्ट करने का सबसे सीधा तरीका है,” वांग कहते हैं।
सफलता के लिए नमूनाकरण
यह सुनिश्चित करने के लिए कि ये इंटरैक्शन रोबोट को एक अमान्य कार्रवाई का चयन करने का कारण नहीं बनता है, जैसे कि अन्य वस्तुओं से टकराना, शोधकर्ता एक विशिष्ट नमूनाकरण प्रक्रिया का उपयोग करते हैं। यह तकनीक मॉडल को मान्य क्रियाओं के सेट से एक क्रिया चुनने देती है जो उपयोगकर्ता के लक्ष्य के साथ सबसे अधिक निकटता से संरेखित होती है।
“केवल उपयोगकर्ता की इच्छा को लागू करने के बजाय, हम रोबोट को एक विचार देते हैं कि उपयोगकर्ता क्या इरादा रखता है, लेकिन नमूना प्रक्रिया को अपने स्वयं के सीखे हुए व्यवहारों के सेट के आसपास दोलन करने दें,” वांग बताते हैं।
इस नमूनाकरण विधि ने शोधकर्ताओं के ढांचे को एक खिलौना रसोई में एक वास्तविक रोबोट आर्म के साथ सिमुलेशन और प्रयोगों के दौरान अन्य तरीकों की तुलना में अन्य तरीकों से बेहतर प्रदर्शन करने में सक्षम बनाया।
हालांकि उनकी विधि हमेशा कार्य को तुरंत पूरा नहीं कर सकती है, यह उपयोगकर्ताओं को रोबोट को तुरंत ठीक करने में सक्षम होने का लाभ प्रदान करता है यदि वे इसे कुछ गलत करते हुए देखते हैं, बजाय इसके कि इसके खत्म होने का इंतजार करें और फिर इसे नए निर्देश दे।
इसके अलावा, एक उपयोगकर्ता ने रोबोट को कुछ समय के लिए नग्न किया जब तक कि यह सही कटोरे को नहीं उठाता, यह उस सुधारात्मक कार्रवाई को लॉग कर सकता है और भविष्य के प्रशिक्षण के माध्यम से इसे अपने व्यवहार में शामिल कर सकता है। फिर, अगले दिन, रोबोट एक कुहनी की जरूरत के बिना सही कटोरे को उठा सकता है।
“लेकिन उस निरंतर सुधार की कुंजी उपयोगकर्ता को रोबोट के साथ बातचीत करने का एक तरीका है, जो हमने यहां दिखाया है,” वांग कहते हैं।
भविष्य में, शोधकर्ता अपने प्रदर्शन को बनाए रखते या सुधार करते हुए नमूनाकरण प्रक्रिया की गति को बढ़ावा देना चाहते हैं। वे उपन्यास वातावरण में रोबोट नीति उत्पादन के साथ भी प्रयोग करना चाहते हैं।