मनुष्य, यह पता चला है, एक चलते हुए दृश्य में सामाजिक इंटरैक्शन का वर्णन करने और व्याख्या करने में वर्तमान एआई मॉडल की तुलना में बेहतर हैं-स्व-ड्राइविंग कारों, सहायक रोबोटों और अन्य तकनीकों के लिए आवश्यक कौशल जो वास्तविक दुनिया को नेविगेट करने के लिए एआई सिस्टम पर भरोसा करते हैं।

जॉन्स हॉपकिंस विश्वविद्यालय के वैज्ञानिकों के नेतृत्व में शोध में पाया गया कि आर्टिफिशियल इंटेलिजेंस सिस्टम सामाजिक गतिशीलता को समझने में विफल रहता है और लोगों के साथ बातचीत करने के लिए आवश्यक संदर्भ और यह सुझाव देता है कि समस्या एआई सिस्टम के बुनियादी ढांचे में निहित हो सकती है।

उदाहरण के लिए, एक सेल्फ-ड्राइविंग कार के लिए एआई, उदाहरण के लिए, मानव ड्राइवरों और पैदल यात्रियों के इरादों, लक्ष्यों और कार्यों को पहचानने की आवश्यकता होगी। आप यह जानना चाहते हैं कि एक पैदल यात्री किस तरह से चलना शुरू करने वाला है, या क्या दो लोग बातचीत में हैं, जो कि सड़क पार करने के बारे में हैं, “जॉन्स होपकिंस विश्वविद्यालय में संज्ञानात्मक विज्ञान के एक सहायक प्रोफेसर के प्रमुख लेखक लेयला इसिक ने कहा। “किसी भी समय आप चाहते हैं कि एआई मनुष्यों के साथ बातचीत करे, आप चाहते हैं कि यह पहचानने में सक्षम हो कि लोग क्या कर रहे हैं। मुझे लगता है कि यह इस तथ्य पर प्रकाश डालता है कि ये सिस्टम अभी नहीं कर सकते हैं।”

कैथी गार्सिया, अनुसंधान और सह-प्रथम लेखक के समय ISIK की प्रयोगशाला में काम करने वाले एक डॉक्टरेट छात्र, 24 अप्रैल को सीखने के अभ्यावेदन पर अंतर्राष्ट्रीय सम्मेलन में अनुसंधान निष्कर्ष प्रस्तुत करेंगे।

यह निर्धारित करने के लिए कि मानव धारणा की तुलना में एआई मॉडल कैसे मापते हैं, शोधकर्ताओं ने मानव प्रतिभागियों को तीन-सेकंड के वीडियोक्लिप्स को देखने के लिए कहा और एक से पांच के पैमाने पर सामाजिक इंटरैक्शन को समझने के लिए महत्वपूर्ण दरें। क्लिप में लोग या तो एक दूसरे के साथ बातचीत करते हैं, साइड-बाय-साइड गतिविधियों का प्रदर्शन करते हैं, या अपने दम पर स्वतंत्र गतिविधियों का संचालन करते हैं।

शोधकर्ताओं ने तब 350 से अधिक एआई भाषा, वीडियो और छवि मॉडल से यह अनुमान लगाने के लिए कहा कि मनुष्य वीडियो कैसे आंकेंगे और उनके दिमाग को देखने के लिए कैसे जवाब देंगे। बड़ी भाषा मॉडल के लिए, शोधकर्ताओं ने एआईएस का मूल्यांकन किया था, जो लघु, मानव-लिखित कैप्शन का मूल्यांकन करते थे।

प्रतिभागियों, अधिकांश भाग के लिए, सभी प्रश्नों पर एक दूसरे के साथ सहमत हुए; एआई मॉडल, आकार या डेटा की परवाह किए बिना उन्हें प्रशिक्षित किया गया था, नहीं। वीडियो मॉडल सटीक रूप से यह वर्णन करने में असमर्थ थे कि लोग वीडियो में क्या कर रहे थे। यहां तक ​​कि छवि मॉडल जिन्हें विश्लेषण करने के लिए अभी भी फ्रेम की एक श्रृंखला दी गई थी, यह अनुमान नहीं लगा सकता है कि क्या लोग संवाद कर रहे थे। मानव व्यवहार की भविष्यवाणी करने में भाषा मॉडल बेहतर थे, जबकि वीडियो मॉडल मस्तिष्क में तंत्रिका गतिविधि की भविष्यवाणी करने में बेहतर थे।

शोधकर्ताओं ने कहा कि परिणाम अभी भी छवियों को पढ़ने में एआई की सफलता के विपरीत एक तेज विपरीत हैं।

“यह सिर्फ एक छवि को देखने और वस्तुओं और चेहरों को पहचानने के लिए पर्याप्त नहीं है। यह पहला कदम था, जिसने हमें एआई में एक लंबा रास्ता तय किया। लेकिन वास्तविक जीवन स्थिर नहीं है। हमें उस कहानी को समझने के लिए एआई की आवश्यकता है जो एक दृश्य में सामने आ रही है। सामाजिक इंटरैक्शन के रिश्तों, संदर्भ और गतिशीलता को समझना अगला कदम है, और यह शोध बताता है कि एआई मॉडल डेवलपमेंट में एक अंधा स्थान हो सकता है।”

शोधकर्ताओं का मानना ​​है कि एआई न्यूरल नेटवर्क मस्तिष्क के उस हिस्से के बुनियादी ढांचे से प्रेरित थे जो स्थैतिक छवियों को संसाधित करता है, जो मस्तिष्क के क्षेत्र से अलग है जो गतिशील सामाजिक दृश्यों को संसाधित करता है।

“बहुत सारी बारीकियां हैं, लेकिन बिग टेकअवे एआई मॉडल में से कोई भी नहीं है, जो कि बोर्ड भर में दृश्यों के लिए मानव मस्तिष्क और व्यवहार प्रतिक्रियाओं से मेल नहीं खा सकता है, जैसे कि वे स्थैतिक दृश्यों के लिए करते हैं,” इसिक ने कहा। “मुझे लगता है कि मनुष्य जिस तरह से इंसानों को संसाधित कर रहा है, उसके बारे में कुछ मौलिक है जो इन मॉडलों को गायब है।”



Source link

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें