ओपनई का हाल ही में O3 और O4-Mini AI मॉडल लॉन्च किए गए कई मामलों में अत्याधुनिक हैं। हालांकि, नए मॉडल अभी भी मतिभ्रम करते हैं, या चीजों को बनाते हैं – वास्तव में, वे मतिभ्रम करते हैं अधिक Openai के कई पुराने मॉडलों की तुलना में।

मतिभ्रम एआई में हल करने के लिए सबसे बड़ी और सबसे कठिन समस्याओं में से एक साबित हुआ है आज भी सबसे अच्छा प्रदर्शन करने वाली प्रणाली। ऐतिहासिक रूप से, प्रत्येक नए मॉडल ने मतिभ्रम विभाग में थोड़ा सुधार किया है, अपने पूर्ववर्ती की तुलना में कम मतिभ्रम। लेकिन यह O3 और O4-Mini के लिए मामला नहीं लगता है।

Openai के आंतरिक परीक्षणों के अनुसार, O3 और O4-Mini, जो तथाकथित तर्क मॉडल हैं, मतिभ्रम बहुधा कंपनी के पिछले तर्क मॉडल की तुलना में-O1, O1-Mini, और O3-Mini-साथ ही Openai के पारंपरिक, “गैर-रेनिंग” मॉडल, जैसे GPT-4O।

शायद अधिक के संबंध में, CHATGPT निर्माता वास्तव में नहीं जानता कि यह क्यों हो रहा है।

के लिए अपनी तकनीकी रिपोर्ट में O3 और O4-MiniOpenai लिखते हैं कि “अधिक शोध की आवश्यकता है” यह समझने के लिए कि क्यों मतिभ्रम खराब हो रहे हैं क्योंकि यह तर्क मॉडल को बढ़ाता है। O3 और O4-Mini कुछ क्षेत्रों में बेहतर प्रदर्शन करते हैं, जिसमें कोडिंग और गणित से संबंधित कार्य शामिल हैं। लेकिन क्योंकि वे “समग्र रूप से अधिक दावे करते हैं,” वे अक्सर रिपोर्ट के अनुसार “अधिक सटीक दावे के साथ -साथ अधिक गलत/मतिभ्रम दावे” करने के लिए नेतृत्व करते हैं।

Openai ने पाया कि O3 ने लोगों के बारे में एक मॉडल के ज्ञान की सटीकता को मापने के लिए कंपनी के इन-हाउस बेंचमार्क पर 33% प्रश्नों के जवाब में मतिभ्रम किया। यह Openai के पिछले तर्क मॉडल, O1 और O3-Mini के मतिभ्रम दर को लगभग दोगुना करता है, जिसने क्रमशः 16% और 14.8% स्कोर किया। O4-Mini ने Personqa पर और भी बदतर किया-समय का 48% मतिभ्रम।

तृतीय पक्ष परीक्षण अनुवाद द्वारा, एक गैर -लाभकारी एआई रिसर्च लैब, ने भी इस बात का प्रमाण पाया कि ओ 3 में उत्तर में पहुंचने की प्रक्रिया में किए गए कार्यों को बनाने की प्रवृत्ति है। एक उदाहरण में, ट्रांसल्यूस ने ओ 3 का दावा करते हुए कहा कि यह 2021 मैकबुक प्रो “चैट के बाहर” पर कोड चलाता है, फिर संख्याओं को इसके उत्तर में कॉपी किया। जबकि O3 के पास कुछ उपकरणों तक पहुंच है, यह ऐसा नहीं कर सकता है।

“हमारी परिकल्पना यह है कि ओ-सीरीज़ मॉडल के लिए उपयोग किए जाने वाले सुदृढीकरण सीखने के प्रकार को मानक प्रशिक्षण के बाद पाइपलाइनों द्वारा आमतौर पर कम (लेकिन पूरी तरह से मिटा नहीं) उन मुद्दों को बढ़ा सकते हैं,” नील चौधरी ने कहा, एक ट्रांसक्लूस शोधकर्ता और पूर्व ओपनईएआई कर्मचारी, टेकक्रंच को एक ईमेल में।

ट्रांसल्यूस की सह-संस्थापक सारा श्वेतमैन ने कहा कि ओ 3 की मतिभ्रम दर इसे कम उपयोगी बना सकती है अन्यथा यह होगा।

स्टैनफोर्ड एडजंक्ट प्रोफेसर और अपस्किलिंग स्टार्टअप वर्करा के सीईओ, काआन कटानफोरोश ने TechCrunch को बताया कि उनकी टीम पहले से ही अपने कोडिंग वर्कफ़्लोज़ में O3 का परीक्षण कर रही है, और उन्होंने इसे प्रतियोगिता से एक कदम ऊपर पाया है। हालांकि, Katanforoosh का कहना है कि O3 टूटी हुई वेबसाइट लिंक को मतिभ्रम करता है। मॉडल एक लिंक की आपूर्ति करेगा, जिसे क्लिक करने पर, काम नहीं करता है।

मतिभ्रम मॉडल को दिलचस्प विचारों पर पहुंचने में मदद कर सकता है और उनकी “सोच” में रचनात्मक हो सकता है, लेकिन वे कुछ मॉडल भी बाजारों में व्यवसायों के लिए एक कठिन बिक्री करते हैं जहां सटीकता सर्वोपरि है। उदाहरण के लिए, एक लॉ फर्म की संभावना एक ऐसे मॉडल से प्रसन्न नहीं होगी जो क्लाइंट कॉन्ट्रैक्ट में बहुत सारी तथ्यात्मक त्रुटियों को सम्मिलित करता है।

मॉडल की सटीकता को बढ़ाने के लिए एक आशाजनक दृष्टिकोण उन्हें वेब खोज क्षमताएं दे रहा है। वेब खोज के साथ Openai का GPT-4O 90% सटीकता Simpleqa पर, Openai की सटीकता बेंचमार्क में से एक। संभावित रूप से, खोज तर्क मॉडल की मतिभ्रम दर में सुधार कर सकती है, साथ ही साथ-कम से कम ऐसे मामलों में जहां उपयोगकर्ता तीसरे पक्ष के खोज प्रदाता को संकेत देने के लिए तैयार हैं।

यदि तर्क मॉडल को स्केल करना वास्तव में मतिभ्रम को खराब करना जारी रखता है, तो यह एक समाधान के लिए शिकार को और अधिक जरूरी बना देगा।

“हमारे सभी मॉडलों में मतिभ्रम को संबोधित करना अनुसंधान का एक चल रहा क्षेत्र है, और हम लगातार उनकी सटीकता और विश्वसनीयता में सुधार करने के लिए काम कर रहे हैं,” Openai के प्रवक्ता निको फेलिक्स ने TechCrunch को एक ईमेल में कहा।

पिछले वर्ष में, व्यापक एआई उद्योग ने बाद में तर्क मॉडल पर ध्यान केंद्रित करने के लिए पिवट किया है पारंपरिक एआई मॉडल में सुधार करने के लिए तकनीकों ने कम रिटर्न दिखाना शुरू कर दिया। तर्क के दौरान भारी मात्रा में कंप्यूटिंग और डेटा की आवश्यकता के बिना विभिन्न कार्यों पर मॉडल प्रदर्शन में सुधार होता है। फिर भी ऐसा लगता है कि तर्क भी अधिक मतिभ्रम हो सकता है – एक चुनौती पेश करना।



Source link

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें