चूंकि कृत्रिम बुद्धिमत्ता चैटबॉट सभी प्रकार के अनुप्रयोगों में जानकारी प्रदान करने के लिए सामने आ रहे हैं, वाशिंगटन विश्वविद्यालय के शोधकर्ताओं ने अपनी प्रतिक्रियाओं को बेहतर बनाने के लिए एक नया तरीका विकसित किया है।
डब किया गया “परिवर्तनशील प्राथमिकता सीखना“विधि का लक्ष्य एक बड़े भाषा मॉडल के आउटपुट को उनकी व्यक्त प्राथमिकताओं के अनुसार एक व्यक्तिगत उपयोगकर्ता से बेहतर मिलान करने के लिए आकार देना है।
एआई सिस्टम को डेटासेट पर प्रशिक्षित किया जाता है जिसमें अंतर्निहित पूर्वाग्रह और अनुचित जानकारी शामिल होती है जिसे इंजीनियर वर्तमान में “मानव प्रतिक्रिया से सुदृढीकरण सीखने” या आरएलएचएफ के माध्यम से प्रतिक्रियाओं से फ़िल्टर करने का प्रयास करते हैं। रणनीति के लिए लोगों के एक समूह को चैटबॉट्स से आउटपुट की समीक्षा करने और पसंदीदा उत्तर का चयन करने की आवश्यकता होती है, जिससे सिस्टम को सुरक्षित, सटीक और स्वीकार्य प्रतिक्रिया मिलती है।
लेकिन उन प्राथमिकताओं को चैटबॉट बनाने वाले संगठन द्वारा निर्धारित किया जाता है और जरूरी नहीं कि इसमें टूल से जुड़े विविध उपयोगकर्ताओं के बीच व्यापक विचार शामिल हों।
“मुझे लगता है कि यह थोड़ा डरावना है कि हमारे पास मुट्ठी भर निगमों में शोधकर्ता हैं, जो नीति या समाजशास्त्र में प्रशिक्षित नहीं हैं, जो यह निर्णय लेते हैं कि मॉडल के लिए क्या कहना उचित है और क्या नहीं, और हमारे पास इन प्रणालियों का उपयोग करने वाले बहुत से लोग हैं और उनसे सच्चाई जानने की कोशिश कर रही हूं।” नताशा जैक्सयूडब्ल्यू के पॉल जी. एलन स्कूल ऑफ कंप्यूटर साइंस एंड इंजीनियरिंग में सहायक प्रोफेसर आपकी मेल.
“यह एआई में सबसे गंभीर समस्याओं में से एक है,” उसने कहा, “इसलिए हमें इसे संबोधित करने के लिए बेहतर तकनीकों की आवश्यकता है।”
जैक्स नेतृत्व करते हैं सामाजिक सुदृढीकरण शिक्षण प्रयोगशाला UW में और Google DeepMind में एक वरिष्ठ शोध वैज्ञानिक भी हैं। वह लगभग दो साल पहले यूडब्ल्यू के एलन स्कूल में शामिल हुई थी।
जैक्स ने एक मामले का उदाहरण दिया जब आरएलएचएफ प्रशिक्षण दृष्टिकोण एक समस्या पैदा कर सकता है। कल्पना कीजिए कि एक कम आय वाला छात्र उस कॉलेज के बारे में अधिक जानने के लिए एक चैटबॉट के साथ बातचीत कर रहा था जिसमें वे आवेदन करना चाहते थे, लेकिन मॉडल की प्रतिक्रिया स्कूल के अधिकांश अनुप्रयोगों के लिए ट्यून की गई थी, जो उच्च आय वाले छात्र थे। मॉडल यह निष्कर्ष निकालेगा कि वित्तीय सहायता की जानकारी में सीमित रुचि थी और इसे प्रदान नहीं किया जाएगा।
यूडब्ल्यू शोधकर्ताओं द्वारा विकसित परिवर्तनशील प्राथमिकता सीखने का दृष्टिकोण चैटबॉट उपयोगकर्ताओं को आउटपुट को परिष्कृत करने की भूमिका में डाल देगा। और यह इसे शीघ्रता से कर सकता है – केवल चार प्रश्नों के साथ, वीपीएल प्रशिक्षण पद्धति यह जान सकती है कि उपयोगकर्ता किस प्रकार की प्रतिक्रियाएँ चुनेगा।
फाइन-ट्यूनिंग में उत्तर की विशिष्टता का पसंदीदा स्तर, आउटपुट की लंबाई और टोन, साथ ही कौन सी जानकारी शामिल है, शामिल हो सकती है।
इस रणनीति को मौखिक बातचीत के साथ-साथ घरों जैसे व्यक्तिगत सेटिंग्स में सरल कार्य करने वाले रोबोटों को प्रशिक्षित करने के लिए भी लागू किया जा सकता है।
जैक्स ने कहा, लेकिन वीपीएल को गलत सूचना या दुष्प्रचार के साथ-साथ अनुचित प्रतिक्रियाओं के लिए प्राथमिकताओं पर नजर रखने की जरूरत है।
जैक्स और सहकर्मियों ने वैंकूवर, बीसी में तंत्रिका सूचना प्रसंस्करण प्रणालियों पर पिछले सप्ताह के सम्मेलन में अपना शोध साझा किया।
अध्ययन के अतिरिक्त सह-लेखकों में एलन स्कूल के सहायक प्रोफेसर शामिल हैं Abhishek Guptaसाथ ही एलन स्कूल के डॉक्टरेट छात्र Sriyash Poddar, यानमिंग वान और हामिश आइविसन.
जैक्स ने कहा कि लंबे समय से चल रहे अंतरराष्ट्रीय सम्मेलन में भाग लेने वाले एआई सिस्टम में विविध दृष्टिकोण को बढ़ावा देने के मुद्दे में रुचि रखते थे, जिससे वह और अन्य लोग निपट रहे हैं।
जैक्स ने गीकवायर को बताया, “मैं एआई समुदाय की ग्रहणशीलता और इस क्षेत्र में गति को देखकर प्रोत्साहित हुआ हूं।”