इंस्टीट्यूट फॉर बेसिक साइंस (IBS), Yonsei विश्वविद्यालय और मैक्स प्लैंक इंस्टीट्यूट के शोधकर्ताओं की एक टीम ने एक नई कृत्रिम बुद्धिमत्ता (AI) तकनीक विकसित की है जो मशीन विजन को करीब लाती है कि मानव मस्तिष्क छवियों को कैसे संसाधित करता है। LP-Convolution कहा जाता है, यह विधि मौजूदा AI मॉडल के कम्प्यूटेशनल बोझ को कम करते हुए छवि मान्यता प्रणालियों की सटीकता और दक्षता में सुधार करती है।
CNNs और मानव मस्तिष्क के बीच की खाई को कम करना
मानव मस्तिष्क जटिल दृश्यों में प्रमुख विवरणों की पहचान करने में उल्लेखनीय रूप से कुशल है, एक ऐसी क्षमता जिसे पारंपरिक एआई सिस्टम ने दोहराने के लिए संघर्ष किया है। कन्व्यूशनल न्यूरल नेटवर्क्स (CNNs)-छवि मान्यता के लिए सबसे व्यापक रूप से उपयोग किए जाने वाले AI मॉडल-छोटे, वर्ग के आकार के फिल्टर का उपयोग करके छवियों की प्रक्रिया। प्रभावी होने पर, यह कठोर दृष्टिकोण खंडित डेटा में व्यापक पैटर्न को पकड़ने की उनकी क्षमता को सीमित करता है।
हाल ही में, विज़न ट्रांसफॉर्मर (VITS) ने एक बार में संपूर्ण छवियों का विश्लेषण करके बेहतर प्रदर्शन दिखाया है, लेकिन उन्हें बड़े पैमाने पर कम्प्यूटेशनल पावर और बड़े डेटासेट की आवश्यकता होती है, जिससे वे कई वास्तविक दुनिया अनुप्रयोगों के लिए अव्यावहारिक हो जाते हैं।
मस्तिष्क के दृश्य कॉर्टेक्स ने परिपत्र, विरल कनेक्शन के माध्यम से चुनिंदा जानकारी को कैसे संसाधित किया, इस बात से प्रेरित होकर, अनुसंधान टीम ने एक मध्य मैदान की मांग की: क्या मस्तिष्क जैसा दृष्टिकोण CNN को कुशल और शक्तिशाली दोनों बना सकता है?
एलपी-संकलन का परिचय: देखने का एक स्मार्ट तरीका
इसका जवाब देने के लिए, टीम ने एलपी-संकोचन विकसित किया, एक उपन्यास विधि जो सीएनएन फ़िल्टर को गतिशील रूप से फिर से आकार देने के लिए एक बहुभिन्नरूपी पी-जनरल किए गए सामान्य वितरण (एमपीएनडी) का उपयोग करती है। पारंपरिक सीएनएन के विपरीत, जो निश्चित वर्ग फिल्टर का उपयोग करते हैं, एलपी-संक्षेप में एआई मॉडल को अपने फ़िल्टर आकृतियों को अनुकूलित करने की अनुमति देता है-क्षैतिज रूप से या लंबवत रूप से कार्य पर आधारित, बहुत कुछ जैसे कि मानव मस्तिष्क चुनिंदा रूप से प्रासंगिक विवरणों पर ध्यान केंद्रित करता है।
यह सफलता एआई अनुसंधान में एक लंबे समय से चली आ रही चुनौती को हल करती है, जिसे बड़ी कर्नेल समस्या के रूप में जाना जाता है। बस CNNs (जैसे, 7 × 7 या बड़े गुठली का उपयोग करके) में फ़िल्टर आकार बढ़ाना आमतौर पर अधिक मापदंडों को जोड़ने के बावजूद प्रदर्शन में सुधार नहीं करता है। एलपी-कन्वोल्यूशन लचीले, जैविक रूप से प्रेरित कनेक्टिविटी पैटर्न को पेश करके इस सीमा को खत्म कर देता है।
वास्तविक दुनिया का प्रदर्शन: मजबूत, होशियार, और अधिक मजबूत एआई
मानक छवि वर्गीकरण डेटासेट (CIFAR-100, TinyImagenet) पर परीक्षणों में, एलपी-संकोचन ने एलेक्सनेट जैसे दोनों क्लासिक मॉडल और रिप्लेनेट जैसे आधुनिक आर्किटेक्चर पर सटीकता में काफी सुधार किया। यह विधि भ्रष्ट डेटा के खिलाफ अत्यधिक मजबूत साबित हुई, वास्तविक दुनिया एआई अनुप्रयोगों में एक बड़ी चुनौती।
इसके अलावा, शोधकर्ताओं ने पाया कि जब एलपी-मास्क उनकी विधि में उपयोग किए गए एक गौसियन वितरण से मिलते जुलते हैं, तो एआई के आंतरिक प्रसंस्करण पैटर्न ने जैविक तंत्रिका गतिविधि से बारीकी से मेल खाता था, जैसा कि माउस मस्तिष्क डेटा के साथ तुलना के माध्यम से पुष्टि की गई थी।
“हम मनुष्य जल्दी से एक भीड़ -भाड़ वाले दृश्य में क्या मायने रखते हैं,” डॉ। सी। जस्टिन ली ने कहा, सेंटर फॉर कॉग्निशन एंड सोशलिटी के निदेशक ने बुनियादी विज्ञान के लिए संस्थान के भीतर कहा। “हमारे एलपी-संकोचन इस क्षमता की नकल करते हैं, एआई को एक छवि के सबसे प्रासंगिक भागों पर लचीले ढंग से ध्यान केंद्रित करने की अनुमति देता है-जैसे मस्तिष्क करता है।”
प्रभाव और भविष्य के अनुप्रयोग
पिछले प्रयासों के विपरीत, जो या तो छोटे, कठोर फिल्टर या आवश्यक संसाधन-भारी ट्रांसफार्मर पर निर्भर थे, एलपी-संकोच एक व्यावहारिक, कुशल विकल्प प्रदान करता है। यह नवाचार इस तरह के क्षेत्रों में क्रांति ला सकता है:
– स्वायत्त ड्राइविंग, जहां एआई को जल्दी से वास्तविक समय में बाधाओं का पता लगाना चाहिए
– मेडिकल इमेजिंग, सूक्ष्म विवरणों को उजागर करके एआई-आधारित निदान में सुधार
– रोबोटिक्स, बदलती परिस्थितियों में होशियार और अधिक अनुकूलनीय मशीन दृष्टि को सक्षम करना
“यह काम एआई और न्यूरोसाइंस दोनों के लिए एक शक्तिशाली योगदान है,” निर्देशक सी। जस्टिन ली ने कहा। “एआई को मस्तिष्क के साथ और अधिक निकटता से संरेखित करके, हमने सीएनएन के लिए नई क्षमता को अनलॉक किया है, जिससे वे स्मार्ट, अधिक अनुकूलनीय और अधिक जैविक रूप से यथार्थवादी हैं।”
आगे देखते हुए, टीम ने इस तकनीक को और परिष्कृत करने की योजना बनाई है, जो कि पहेली-समाधान (जैसे, सुडोकू) और वास्तविक समय की छवि प्रसंस्करण जैसे जटिल तर्क कार्यों में अपने अनुप्रयोगों की खोज करते हैं।
अध्ययन को इंटरनेशनल कॉन्फ्रेंस ऑन लर्निंग रिप्रेजेंटेशन (ICLR) 2025 में प्रस्तुत किया जाएगा, और रिसर्च टीम ने अपने कोड और मॉडल को सार्वजनिक रूप से उपलब्ध कराया है:
अग्रिम जानकारी: https://github.com/jeakwon/lpconv/।