एआई बेंचमार्क पर बहस – और एआई लैब्स द्वारा वे कैसे रिपोर्ट किए जाते हैं – सार्वजनिक दृश्य में फैल रहे हैं।

इस हफ्ते, एक Openai कर्मचारी आरोपी एलोन मस्क की एआई कंपनी, XAI, अपने नवीनतम एआई मॉडल के लिए भ्रामक बेंचमार्क परिणाम प्रकाशित करने के लिए, ग्रोक 3। XAI के सह-संस्थापकों में से एक, इगोर बाबुशकिन, जोर दिया कि कंपनी अधिकार में थी।

सच्चाई बीच में कहीं है।

में एक XAI के ब्लॉग पर पोस्ट करेंकंपनी ने हाल ही में आमंत्रण गणित परीक्षा से चुनौतीपूर्ण गणित के सवालों का एक संग्रह, Aime 2025 पर ग्रोक 3 के प्रदर्शन को दिखाते हुए एक ग्राफ प्रकाशित किया। कुछ विशेषज्ञों के पास है AIME की वैधता को AI बेंचमार्क के रूप में पूछताछ की। फिर भी, Aime 2025 और परीक्षण के पुराने संस्करणों का उपयोग आमतौर पर एक मॉडल की गणित क्षमता की जांच करने के लिए किया जाता है।

XAI के ग्राफ ने ग्रोक 3, ग्रोक 3 रीजनिंग बीटा और ग्रोक 3 मिनी रीज़निंग के दो वेरिएंट दिखाए, ओपनई के सर्वश्रेष्ठ प्रदर्शन उपलब्ध मॉडल को हराया, o3-mini-highAime 2025 पर। लेकिन X पर Openai कर्मचारियों को यह इंगित करने के लिए जल्दी था कि XAI के ग्राफ में O3-Mini-High का Aime 2025 स्कोर “CONC@64” में शामिल नहीं था।

क्या है@64, आप पूछ सकते हैं? खैर, यह “सर्वसम्मति@64” के लिए कम है, और यह मूल रूप से एक मॉडल 64 देता है जो प्रत्येक समस्या को एक बेंचमार्क में जवाब देने की कोशिश करता है और अंतिम उत्तर के रूप में सबसे अधिक बार उत्पन्न उत्तर लेता है। जैसा कि आप कल्पना कर सकते हैं, विपक्ष@64 मॉडल के बेंचमार्क स्कोर को काफी कम कर देता है, और इसे एक ग्राफ से छोड़ने से यह दिखाई दे सकता है जैसे कि एक मॉडल वास्तव में जब वास्तव में एक और पार करता है, तो ऐसा नहीं होता है।

ग्रोक 3 रीजनिंग बीटा और ग्रोक 3 मिनी रीज़निंग के स्कोर के लिए Aime 2025 “@1” पर-जिसका अर्थ है कि पहले स्कोर मॉडल को बेंचमार्क पर मिला-O3-Mini-High के स्कोर से नीचे गिरता है। ग्रोक 3 रीजनिंग बीटा भी ओपनई के पीछे कभी-कभी-थोड़ा-बहुत अच्छा होता है O1 मॉडल “मध्यम” कंप्यूटिंग पर सेट करें। फिर भी XAI है विज्ञापन ग्रोक 3 “दुनिया की सबसे चतुर एआई” के रूप में।

बबुश्किन एक्स पर तर्क दिया उस Openai ने अतीत में समान रूप से भ्रामक बेंचमार्क चार्ट प्रकाशित किए हैं – यद्यपि चार्ट अपने स्वयं के मॉडल के प्रदर्शन की तुलना करते हैं। बहस में एक अधिक तटस्थ पार्टी ने एक और अधिक “सटीक” ग्राफ को एक साथ रखा, जो लगभग हर मॉडल के प्रदर्शन को@64 पर दिखाता है:

लेकिन एआई शोधकर्ता नाथन लैंबर्ट के रूप में एक पोस्ट में इंगित कियाशायद सबसे महत्वपूर्ण मीट्रिक एक रहस्य बना हुआ है: कम्प्यूटेशनल (और मौद्रिक) लागत ने प्रत्येक मॉडल के लिए अपना सर्वश्रेष्ठ स्कोर प्राप्त करने के लिए लिया। यह सिर्फ यह दिखाने के लिए जाता है कि एआई बेंचमार्क मॉडल की सीमाओं के बारे में कितना कम संवाद करता है – और उनकी ताकत।





Source link

कोई जवाब दें

कृपया अपनी टिप्पणी दर्ज करें!
कृपया अपना नाम यहाँ दर्ज करें