बड़े भाषा मॉडल प्रभावशाली काम कर सकते हैं, जैसे कविता लिखना या व्यवहार्य कंप्यूटर प्रोग्राम तैयार करना, भले ही इन मॉडलों को पाठ के एक टुकड़े में आगे आने वाले शब्दों की भविष्यवाणी करने के लिए प्रशिक्षित किया जाता है।
ऐसी आश्चर्यजनक क्षमताओं से ऐसा प्रतीत हो सकता है जैसे मॉडल दुनिया के बारे में कुछ सामान्य सच्चाइयाँ सीख रहे हैं।
लेकिन एक नए अध्ययन के अनुसार, जरूरी नहीं कि ऐसा ही हो। शोधकर्ताओं ने पाया कि एक लोकप्रिय प्रकार का जेनरेटिव एआई मॉडल न्यूयॉर्क शहर में लगभग पूर्ण सटीकता के साथ बारी-बारी से ड्राइविंग दिशा-निर्देश प्रदान कर सकता है – शहर का सटीक आंतरिक मानचित्र बनाए बिना।
प्रभावी ढंग से नेविगेट करने की मॉडल की अदभुत क्षमता के बावजूद, जब शोधकर्ताओं ने कुछ सड़कों को बंद कर दिया और चक्कर जोड़े, तो इसका प्रदर्शन गिर गया।
जब उन्होंने गहराई से खोज की, तो शोधकर्ताओं ने पाया कि न्यूयॉर्क के नक्शे में अंतर्निहित रूप से उत्पन्न मॉडल में ग्रिड के बीच घुमावदार और दूर के चौराहों को जोड़ने वाली कई गैर-मौजूद सड़कें थीं।
इसका वास्तविक दुनिया में तैनात जेनेरिक एआई मॉडल के लिए गंभीर प्रभाव हो सकता है, क्योंकि एक मॉडल जो एक संदर्भ में अच्छा प्रदर्शन करता हुआ प्रतीत होता है, यदि कार्य या वातावरण में थोड़ा बदलाव होता है तो वह टूट सकता है।
“एक उम्मीद यह है कि, क्योंकि एलएलएम भाषा में इन सभी अद्भुत चीजों को पूरा कर सकता है, शायद हम विज्ञान के अन्य हिस्सों में भी इन्हीं उपकरणों का उपयोग कर सकते हैं। लेकिन अगर हम चाहें तो यह सवाल बहुत महत्वपूर्ण है कि क्या एलएलएम सुसंगत विश्व मॉडल सीख रहे हैं या नहीं नई खोज करने के लिए इन तकनीकों का उपयोग करें,” वरिष्ठ लेखक अशेष रामबचन, अर्थशास्त्र के सहायक प्रोफेसर और सूचना और निर्णय प्रणाली (एलआईडीएस) के लिए एमआईटी प्रयोगशाला में एक प्रमुख अन्वेषक कहते हैं।
रामबचन हार्वर्ड विश्वविद्यालय में पोस्टडॉक, मुख्य लेखक केयोन वफ़ा के काम के बारे में एक पेपर में शामिल हुए हैं; जस्टिन वाई. चेन, एमआईटी में इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस (ईईसीएस) स्नातक छात्र; जॉन क्लेनबर्ग, कॉर्नेल विश्वविद्यालय में कंप्यूटर विज्ञान और सूचना विज्ञान के टिस्क विश्वविद्यालय के प्रोफेसर; और सेंथिल मुलैनाथन, ईईसीएस और अर्थशास्त्र विभागों में एमआईटी प्रोफेसर और एलआईडीएस के सदस्य हैं। यह शोध तंत्रिका सूचना प्रसंस्करण प्रणालियों पर सम्मेलन में प्रस्तुत किया जाएगा।
नए मेट्रिक्स
शोधकर्ताओं ने एक प्रकार के जेनरेटिव एआई मॉडल पर ध्यान केंद्रित किया जिसे ट्रांसफार्मर के रूप में जाना जाता है, जो जीपीटी -4 जैसे एलएलएम की रीढ़ बनता है। अनुक्रम में अगले टोकन, जैसे वाक्य में अगला शब्द, की भविष्यवाणी करने के लिए ट्रांसफॉर्मर को भारी मात्रा में भाषा-आधारित डेटा पर प्रशिक्षित किया जाता है।
लेकिन अगर वैज्ञानिक यह निर्धारित करना चाहते हैं कि क्या एलएलएम ने दुनिया का एक सटीक मॉडल बनाया है, तो इसकी भविष्यवाणियों की सटीकता को मापना काफी दूर तक नहीं जाता है, शोधकर्ताओं का कहना है।
उदाहरण के लिए, उन्होंने पाया कि एक ट्रांसफॉर्मर लगभग हर बार किसी भी नियम को समझे बिना कनेक्ट 4 के गेम में वैध चाल की भविष्यवाणी कर सकता है।
इसलिए, टीम ने दो नए मेट्रिक्स विकसित किए जो ट्रांसफार्मर के विश्व मॉडल का परीक्षण कर सकते हैं। शोधकर्ताओं ने अपने मूल्यांकन को नियतात्मक परिमित स्वचालन या डीएफए नामक समस्याओं के एक वर्ग पर केंद्रित किया।
डीएफए राज्यों के अनुक्रम के साथ एक समस्या है, जैसे किसी गंतव्य तक पहुंचने के लिए चौराहों को पार करना पड़ता है, और रास्ते में पालन किए जाने वाले नियमों का वर्णन करने का एक ठोस तरीका होता है।
उन्होंने डीएफए के रूप में तैयार करने के लिए दो समस्याओं को चुना: न्यूयॉर्क शहर में सड़कों पर नेविगेट करना और बोर्ड गेम ओथेलो खेलना।
वफ़ा बताते हैं, “हमें ऐसे परीक्षण बिस्तरों की ज़रूरत थी जहां हम जानते हों कि विश्व मॉडल क्या है। अब, हम सख्ती से सोच सकते हैं कि उस विश्व मॉडल को पुनर्प्राप्त करने का क्या मतलब है।”
पहला मीट्रिक जो उन्होंने विकसित किया, जिसे अनुक्रम भेद कहा जाता है, कहता है कि एक मॉडल ने एक सुसंगत विश्व मॉडल बनाया है, यह दो अलग-अलग राज्यों को देखता है, जैसे दो अलग-अलग ओथेलो बोर्ड, और पहचानता है कि वे कैसे भिन्न हैं। अनुक्रम, यानी, डेटा बिंदुओं की क्रमबद्ध सूचियां, ट्रांसफॉर्मर आउटपुट उत्पन्न करने के लिए उपयोग करते हैं।
दूसरा मीट्रिक, जिसे अनुक्रम संपीड़न कहा जाता है, कहता है कि एक सुसंगत विश्व मॉडल वाले ट्रांसफार्मर को पता होना चाहिए कि दो समान राज्यों, जैसे दो समान ओथेलो बोर्ड, में संभावित अगले चरणों का समान क्रम होता है।
उन्होंने ट्रांसफार्मर के दो सामान्य वर्गों का परीक्षण करने के लिए इन मेट्रिक्स का उपयोग किया, एक जो यादृच्छिक रूप से उत्पादित अनुक्रमों से उत्पन्न डेटा पर प्रशिक्षित होता है और दूसरा निम्नलिखित रणनीतियों द्वारा उत्पन्न डेटा पर प्रशिक्षित होता है।
असंगत विश्व मॉडल
आश्चर्यजनक रूप से, शोधकर्ताओं ने पाया कि जो ट्रांसफार्मर बेतरतीब ढंग से विकल्प चुनते हैं, वे अधिक सटीक विश्व मॉडल बनाते हैं, शायद इसलिए कि उन्होंने प्रशिक्षण के दौरान अगले चरणों में व्यापक विविधता देखी।
“ओथेलो में, यदि आप चैंपियनशिप खिलाड़ियों के बजाय दो यादृच्छिक कंप्यूटरों को खेलते हुए देखते हैं, तो सिद्धांत रूप में आप संभावित चालों का पूरा सेट देखेंगे, यहां तक कि खराब चालें चैंपियनशिप खिलाड़ी भी नहीं खेलेंगे,” वफ़ा बताते हैं।
भले ही ट्रांसफार्मर ने लगभग हर उदाहरण में सटीक दिशाएं और वैध ओथेलो चालें उत्पन्न कीं, दो मेट्रिक्स से पता चला कि केवल एक ने ओथेलो चालों के लिए एक सुसंगत विश्व मॉडल तैयार किया, और किसी ने भी वेफाइंडिंग उदाहरण में सुसंगत विश्व मॉडल बनाने में अच्छा प्रदर्शन नहीं किया।
शोधकर्ताओं ने न्यूयॉर्क शहर के मानचित्र में चक्कर जोड़कर इसके निहितार्थों का प्रदर्शन किया, जिसके कारण सभी नेविगेशन मॉडल विफल हो गए।
वफ़ा कहते हैं, “मैं इस बात से आश्चर्यचकित था कि जैसे ही हमने एक चक्कर लगाया, प्रदर्शन कितनी तेज़ी से ख़राब हो गया। यदि हम संभावित सड़कों में से केवल 1 प्रतिशत को बंद करते हैं, तो सटीकता तुरंत लगभग 100 प्रतिशत से घटकर केवल 67 प्रतिशत हो जाती है।”
जब उन्होंने मॉडलों द्वारा तैयार किए गए शहर के नक्शों को पुनः प्राप्त किया, तो वे एक कल्पित न्यूयॉर्क शहर की तरह दिख रहे थे, जिसमें ग्रिड के शीर्ष पर आड़ी-तिरछी सैकड़ों सड़कें थीं। मानचित्रों में अक्सर अन्य सड़कों के ऊपर यादृच्छिक फ्लाईओवर या असंभव अभिविन्यास वाली कई सड़कें शामिल होती हैं।
इन परिणामों से पता चलता है कि ट्रांसफार्मर नियमों को समझे बिना कुछ कार्यों में आश्चर्यजनक रूप से अच्छा प्रदर्शन कर सकते हैं। शोधकर्ताओं का कहना है कि अगर वैज्ञानिक ऐसे एलएलएम बनाना चाहते हैं जो सटीक विश्व मॉडल पकड़ सकें, तो उन्हें एक अलग दृष्टिकोण अपनाने की जरूरत है।
“अक्सर, हम इन मॉडलों को प्रभावशाली चीजें करते देखते हैं और सोचते हैं कि उन्हें दुनिया के बारे में कुछ समझ आ गया होगा। मुझे उम्मीद है कि हम लोगों को समझा सकते हैं कि यह बहुत सावधानी से सोचने का सवाल है, और हमें अपने अंतर्ज्ञान पर भरोसा करने की ज़रूरत नहीं है इसका उत्तर देने के लिए, “रामबचन कहते हैं।
भविष्य में, शोधकर्ता अधिक विविध प्रकार की समस्याओं से निपटना चाहते हैं, जैसे कि वे जहाँ कुछ नियम केवल आंशिक रूप से ज्ञात हैं। वे अपने मूल्यांकन मेट्रिक्स को वास्तविक दुनिया, वैज्ञानिक समस्याओं पर भी लागू करना चाहते हैं।
यह काम, आंशिक रूप से, हार्वर्ड डेटा साइंस इनिशिएटिव, एक नेशनल साइंस फाउंडेशन ग्रेजुएट रिसर्च फ़ेलोशिप, एक वन्नेवर बुश फैकल्टी फ़ेलोशिप, एक सिमंस सहयोग अनुदान और मैकआर्थर फाउंडेशन से अनुदान द्वारा वित्त पोषित है।