जबकि प्रारंभिक भाषा मॉडल केवल पाठ को संसाधित कर सकते हैं, समकालीन बड़े भाषा मॉडल अब विभिन्न प्रकार के डेटा पर अत्यधिक विविध कार्य करते हैं। उदाहरण के लिए, एलएलएम कई भाषाओं को समझ सकते हैं, कंप्यूटर कोड उत्पन्न कर सकते हैं, गणित की समस्याओं को हल कर सकते हैं, या छवियों और ऑडियो के बारे में सवालों के जवाब दे सकते हैं।
एमआईटी शोधकर्ताओं ने एलएलएम के आंतरिक कामकाज की जांच की ताकि वे यह समझ सकें कि वे इस तरह के मिश्रित डेटा को कैसे संसाधित करते हैं, और इस बात का प्रमाण मिला कि वे मानव मस्तिष्क के साथ कुछ समानताएं साझा करते हैं।
न्यूरोसाइंटिस्टों का मानना है कि मानव मस्तिष्क में पूर्वकाल के अस्थायी लोब में एक “सिमेंटिक हब” है जो दृश्य डेटा और स्पर्श इनपुट जैसे विभिन्न तौर -तरीकों से शब्दार्थ जानकारी को एकीकृत करता है। यह सिमेंटिक हब मोडेलिटी-विशिष्ट “प्रवक्ता” से जुड़ा हुआ है जो हब के लिए मार्ग की जानकारी है। एमआईटी शोधकर्ताओं ने पाया कि एलएलएम एक केंद्रीय, सामान्यीकृत तरीके से विविध तौर -तरीकों से डेटा को अलग -अलग संसाधित करके एक समान तंत्र का उपयोग करते हैं। उदाहरण के लिए, एक मॉडल जिसके पास अपनी प्रमुख भाषा के रूप में अंग्रेजी है, वह जापानी में इनपुट को संसाधित करने के लिए एक केंद्रीय माध्यम के रूप में अंग्रेजी पर निर्भर करेगा या अंकगणित, कंप्यूटर कोड आदि के बारे में कारण है। इसके अलावा, शोधकर्ताओं ने प्रदर्शित किया कि वे एक मॉडल के सिमेंटिक हब में हस्तक्षेप कर सकते हैं अपने आउटपुट को बदलने के लिए मॉडल की प्रमुख भाषा में पाठ का उपयोग करना, तब भी जब मॉडल अन्य भाषाओं में डेटा को संसाधित कर रहा हो।
ये निष्कर्ष वैज्ञानिकों को भविष्य के एलएलएम को प्रशिक्षित करने में मदद कर सकते हैं जो विविध डेटा को संभालने में बेहतर हैं।
“एलएलएम बड़े ब्लैक बॉक्स हैं। उन्होंने बहुत प्रभावशाली प्रदर्शन हासिल किया है, लेकिन हमें उनके आंतरिक कामकाजी तंत्र के बारे में बहुत कम जानकारी है। मुझे उम्मीद है कि यह बेहतर तरीके से समझने के लिए एक शुरुआती कदम हो सकता है कि वे कैसे काम करते हैं ताकि हम उन पर सुधार कर सकें और उन्हें बेहतर तरीके से नियंत्रित कर सकें। जरूरत पड़ने पर, “एक इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस (ईईसीएस) स्नातक छात्र और इस शोध पर एक पेपर के प्रमुख लेखक झोफेंग वू कहते हैं।
उनके सह-लेखकों में दक्षिणी कैलिफोर्निया विश्वविद्यालय (यूएससी) विश्वविद्यालय में एक स्नातक छात्र ज़िन्यन वेलोसिटी यू शामिल हैं; यूएससी में एक एसोसिएट प्रोफेसर दानी योगाटामा; Apple में एक शोध वैज्ञानिक Jiasen Lu; और वरिष्ठ लेखक यूं किम, MIT में EECs के एक सहायक प्रोफेसर और कंप्यूटर विज्ञान और कृत्रिम खुफिया प्रयोगशाला (CSAIL) के सदस्य। अनुसंधान को सीखने के अभ्यावेदन पर अंतर्राष्ट्रीय सम्मेलन में प्रस्तुत किया जाएगा।
विविध डेटा को एकीकृत करना
शोधकर्ताओं ने पूर्व कार्य पर नए अध्ययन पर आधारित किया, जिसमें संकेत दिया गया था कि अंग्रेजी-केंद्रित एलएलएम विभिन्न भाषाओं पर तर्क प्रक्रियाओं को करने के लिए अंग्रेजी का उपयोग करते हैं।
वू और उनके सहयोगियों ने इस विचार का विस्तार किया, विविध डेटा को संसाधित करने के लिए एलएलएम का उपयोग करने वाले तंत्रों में गहन अध्ययन शुरू करते हुए।
एक एलएलएम, जो कई परस्पर जुड़े परतों से बना है, इनपुट पाठ को शब्दों या उप-शब्द में विभाजित करता है जिसे टोकन कहा जाता है। मॉडल प्रत्येक टोकन को एक प्रतिनिधित्व प्रदान करता है, जो इसे टोकन के बीच संबंधों का पता लगाने और एक अनुक्रम में अगले शब्द उत्पन्न करने में सक्षम बनाता है। छवियों या ऑडियो के मामले में, ये टोकन एक छवि के विशेष क्षेत्रों या एक ऑडियो क्लिप के वर्गों के अनुरूप हैं।
शोधकर्ताओं ने पाया कि मॉडल की प्रारंभिक परतें अपनी विशिष्ट भाषा या मोडेलिटी में डेटा को संसाधित करती हैं, जैसे मानव मस्तिष्क में मोडलिटी-विशिष्ट प्रवक्ता। फिर, एलएलएम टोकन को मोडलिटी-एग्नोस्टिक अभ्यावेदन में परिवर्तित करता है क्योंकि यह अपनी आंतरिक परतों में उनके बारे में कारणों से होता है, इस बात के समान है कि मस्तिष्क का सिमेंटिक हब विविध जानकारी को कैसे एकीकृत करता है।
मॉडल छवियों, ऑडियो, कंप्यूटर कोड और अंकगणितीय समस्याओं सहित, उनके डेटा प्रकार के बावजूद, समान अर्थों के साथ इनपुट के समान प्रतिनिधित्व प्रदान करता है। भले ही एक छवि और उसके पाठ कैप्शन अलग -अलग डेटा प्रकार हैं, क्योंकि वे एक ही अर्थ साझा करते हैं, एलएलएम उन्हें समान प्रतिनिधित्व प्रदान करेगा।
उदाहरण के लिए, एक अंग्रेजी-प्रमुख एलएलएम चीनी में एक आउटपुट उत्पन्न करने से पहले अंग्रेजी में एक चीनी-पाठ इनपुट के बारे में “सोचता है”। मॉडल में कंप्यूटर कोड, गणित की समस्याओं या यहां तक कि मल्टीमॉडल डेटा जैसे गैर-पाठ इनपुट के लिए एक समान तर्क प्रवृत्ति है।
इस परिकल्पना का परीक्षण करने के लिए, शोधकर्ताओं ने एक ही अर्थ के साथ वाक्यों की एक जोड़ी पारित की, लेकिन मॉडल के माध्यम से दो अलग -अलग भाषाओं में लिखा गया। उन्होंने मापा कि प्रत्येक वाक्य के लिए मॉडल के प्रतिनिधित्व कैसे समान थे।
तब उन्होंने प्रयोगों का एक दूसरा सेट किया, जहां उन्होंने चीनी की तरह एक अलग भाषा में एक अंग्रेजी-प्रमुख मॉडल पाठ खिलाया, और मापा कि इसका आंतरिक प्रतिनिधित्व अंग्रेजी बनाम चीनी के समान था। शोधकर्ताओं ने अन्य डेटा प्रकारों के लिए समान प्रयोग किए।
उन्होंने लगातार पाया कि मॉडल का प्रतिनिधित्व समान अर्थ वाले वाक्यों के लिए समान था। इसके अलावा, कई डेटा प्रकारों में, टोकन अपनी आंतरिक परतों में संसाधित मॉडल इनपुट डेटा प्रकार की तुलना में अंग्रेजी-केंद्रित टोकन की तरह अधिक थे।
वू कहते हैं, “इनमें से बहुत से इनपुट डेटा प्रकार भाषा से बेहद अलग लगते हैं, इसलिए हम बहुत आश्चर्यचकित थे कि मॉडल की प्रक्रियाओं, उदाहरण के लिए, गणितिक या कोडिंग अभिव्यक्तियों की जांच करने पर हम अंग्रेजी-टोकन्स की जांच कर सकते हैं।”
सिमेंटिक हब का लाभ उठाते हुए
शोधकर्ताओं को लगता है कि एलएलएम प्रशिक्षण के दौरान इस सिमेंटिक हब रणनीति को सीख सकते हैं क्योंकि यह विभिन्न डेटा को संसाधित करने का एक किफायती तरीका है।
वू कहते हैं, “हजारों भाषाएं हैं, लेकिन बहुत सारे ज्ञान साझा किए जाते हैं, जैसे कि कॉमन्सेंस ज्ञान या तथ्यात्मक ज्ञान। मॉडल को भाषाओं में उस ज्ञान की नकल करने की आवश्यकता नहीं है,” वू कहते हैं।
शोधकर्ताओं ने अन्य भाषाओं को संसाधित करने पर अंग्रेजी पाठ का उपयोग करके मॉडल की आंतरिक परतों में हस्तक्षेप करने की भी कोशिश की। उन्होंने पाया कि वे मॉडल आउटपुट को बदल सकते हैं, भले ही वे आउटपुट अन्य भाषाओं में थे।
वैज्ञानिक इस घटना का लाभ उठा सकते हैं ताकि मॉडल को विविध डेटा प्रकारों में अधिक से अधिक जानकारी साझा करने के लिए प्रोत्साहित किया जा सके, संभावित रूप से दक्षता को बढ़ावा दिया जा सके।
लेकिन दूसरी ओर, ऐसी अवधारणाएं या ज्ञान हो सकते हैं जो सांस्कृतिक रूप से विशिष्ट ज्ञान की तरह भाषाओं या डेटा प्रकारों में अनुवाद योग्य नहीं हैं। वैज्ञानिक चाहते हैं कि एलएलएम उन मामलों में कुछ भाषा-विशिष्ट प्रसंस्करण तंत्र हों।
वू कहते हैं, “जब भी संभव हो आप अधिकतम रूप से कैसे साझा करते हैं, लेकिन भाषाओं को कुछ भाषा-विशिष्ट प्रसंस्करण तंत्र होने की अनुमति देते हैं?
इसके अलावा, शोधकर्ता बहुभाषी मॉडल को बेहतर बनाने के लिए इन अंतर्दृष्टि का उपयोग कर सकते हैं। अक्सर, एक अंग्रेजी-प्रमुख मॉडल जो एक और भाषा बोलना सीखता है, अंग्रेजी में अपनी कुछ सटीकता खो देगा। वे कहते हैं कि एक एलएलएम के सिमेंटिक हब की बेहतर समझ शोधकर्ताओं को इस भाषा के हस्तक्षेप को रोकने में मदद कर सकती है।
यह शोध MIT-IBM वाटसन AI लैब द्वारा, भाग में, वित्त पोषित है।