एआई बेंचमार्क पर बहस – और एआई लैब्स द्वारा वे कैसे रिपोर्ट किए जाते हैं – सार्वजनिक दृश्य में फैल रहे हैं।
इस हफ्ते, एक Openai कर्मचारी आरोपी एलोन मस्क की एआई कंपनी, XAI, अपने नवीनतम एआई मॉडल के लिए भ्रामक बेंचमार्क परिणाम प्रकाशित करने के लिए, ग्रोक 3। XAI के सह-संस्थापकों में से एक, इगोर बाबुशकिन, जोर दिया कि कंपनी अधिकार में थी।
सच्चाई बीच में कहीं है।
में एक XAI के ब्लॉग पर पोस्ट करेंकंपनी ने हाल ही में आमंत्रण गणित परीक्षा से चुनौतीपूर्ण गणित के सवालों का एक संग्रह, Aime 2025 पर ग्रोक 3 के प्रदर्शन को दिखाते हुए एक ग्राफ प्रकाशित किया। कुछ विशेषज्ञों के पास है AIME की वैधता को AI बेंचमार्क के रूप में पूछताछ की। फिर भी, Aime 2025 और परीक्षण के पुराने संस्करणों का उपयोग आमतौर पर एक मॉडल की गणित क्षमता की जांच करने के लिए किया जाता है।
XAI के ग्राफ ने ग्रोक 3, ग्रोक 3 रीजनिंग बीटा और ग्रोक 3 मिनी रीज़निंग के दो वेरिएंट दिखाए, ओपनई के सर्वश्रेष्ठ प्रदर्शन उपलब्ध मॉडल को हराया, o3-mini-highAime 2025 पर। लेकिन X पर Openai कर्मचारियों को यह इंगित करने के लिए जल्दी था कि XAI के ग्राफ में O3-Mini-High का Aime 2025 स्कोर “CONC@64” में शामिल नहीं था।
क्या है@64, आप पूछ सकते हैं? खैर, यह “सर्वसम्मति@64” के लिए कम है, और यह मूल रूप से एक मॉडल 64 देता है जो प्रत्येक समस्या को एक बेंचमार्क में जवाब देने की कोशिश करता है और अंतिम उत्तर के रूप में सबसे अधिक बार उत्पन्न उत्तर लेता है। जैसा कि आप कल्पना कर सकते हैं, विपक्ष@64 मॉडल के बेंचमार्क स्कोर को काफी कम कर देता है, और इसे एक ग्राफ से छोड़ने से यह दिखाई दे सकता है जैसे कि एक मॉडल वास्तव में जब वास्तव में एक और पार करता है, तो ऐसा नहीं होता है।
ग्रोक 3 रीजनिंग बीटा और ग्रोक 3 मिनी रीज़निंग के स्कोर के लिए Aime 2025 “@1” पर-जिसका अर्थ है कि पहले स्कोर मॉडल को बेंचमार्क पर मिला-O3-Mini-High के स्कोर से नीचे गिरता है। ग्रोक 3 रीजनिंग बीटा भी ओपनई के पीछे कभी-कभी-थोड़ा-बहुत अच्छा होता है O1 मॉडल “मध्यम” कंप्यूटिंग पर सेट करें। फिर भी XAI है विज्ञापन ग्रोक 3 “दुनिया की सबसे चतुर एआई” के रूप में।
बबुश्किन एक्स पर तर्क दिया उस Openai ने अतीत में समान रूप से भ्रामक बेंचमार्क चार्ट प्रकाशित किए हैं – यद्यपि चार्ट अपने स्वयं के मॉडल के प्रदर्शन की तुलना करते हैं। बहस में एक अधिक तटस्थ पार्टी ने एक और अधिक “सटीक” ग्राफ को एक साथ रखा, जो लगभग हर मॉडल के प्रदर्शन को@64 पर दिखाता है:
प्रफुल्लित करने वाला कि कैसे कुछ लोग मेरे कथानक को ओपनई पर हमले के रूप में देखते हैं और अन्य लोग ग्रोक पर हमले के रूप में हैं जबकि वास्तव में यह दीपसेक प्रचार है
(मुझे वास्तव में विश्वास है कि ग्रोक वहां अच्छा लग रहा है, और O3-Mini-*उच्च*-pass@”” 1 “” “” “” अधिक जांच के योग्य है।) https://t.co/DJQLJPCJH8 pic.twitter.com/3wh8foufic– Teortaxes ️ ️ (DeepSeek Twitter🐋iron पाउडर 2023 -)) (@teortaxestex) 20 फरवरी, 2025
लेकिन एआई शोधकर्ता नाथन लैंबर्ट के रूप में एक पोस्ट में इंगित कियाशायद सबसे महत्वपूर्ण मीट्रिक एक रहस्य बना हुआ है: कम्प्यूटेशनल (और मौद्रिक) लागत ने प्रत्येक मॉडल के लिए अपना सर्वश्रेष्ठ स्कोर प्राप्त करने के लिए लिया। यह सिर्फ यह दिखाने के लिए जाता है कि एआई बेंचमार्क मॉडल की सीमाओं के बारे में कितना कम संवाद करता है – और उनकी ताकत।