क्या XAI ने ग्रोक 3 के बेंचमार्क के बारे में झूठ बोला था?

द्वारा

23 फ़रवरी 2025

एआई बेंचमार्क पर बहस – और एआई लैब्स द्वारा वे कैसे रिपोर्ट किए जाते हैं – सार्वजनिक दृश्य में फैल रहे हैं।

इस हफ्ते, एक Openai कर्मचारी आरोपी एलोन मस्क की एआई कंपनी, XAI, अपने नवीनतम एआई मॉडल के लिए भ्रामक बेंचमार्क परिणाम प्रकाशित करने के लिए, ग्रोक 3। XAI के सह-संस्थापकों में से एक, इगोर बाबुशकिन, जोर दिया कि कंपनी अधिकार में थी।

सच्चाई बीच में कहीं है।

में एक XAI के ब्लॉग पर पोस्ट करेंकंपनी ने हाल ही में आमंत्रण गणित परीक्षा से चुनौतीपूर्ण गणित के सवालों का एक संग्रह, Aime 2025 पर ग्रोक 3 के प्रदर्शन को दिखाते हुए एक ग्राफ प्रकाशित किया। कुछ विशेषज्ञों के पास है AIME की वैधता को AI बेंचमार्क के रूप में पूछताछ की। फिर भी, Aime 2025 और परीक्षण के पुराने संस्करणों का उपयोग आमतौर पर एक मॉडल की गणित क्षमता की जांच करने के लिए किया जाता है।

XAI के ग्राफ ने ग्रोक 3, ग्रोक 3 रीजनिंग बीटा और ग्रोक 3 मिनी रीज़निंग के दो वेरिएंट दिखाए, ओपनई के सर्वश्रेष्ठ प्रदर्शन उपलब्ध मॉडल को हराया, o3-mini-highAime 2025 पर। लेकिन X पर Openai कर्मचारियों को यह इंगित करने के लिए जल्दी था कि XAI के ग्राफ में O3-Mini-High का Aime 2025 स्कोर “CONC@64” में शामिल नहीं था।

क्या है@64, आप पूछ सकते हैं? खैर, यह “सर्वसम्मति@64” के लिए कम है, और यह मूल रूप से एक मॉडल 64 देता है जो प्रत्येक समस्या को एक बेंचमार्क में जवाब देने की कोशिश करता है और अंतिम उत्तर के रूप में सबसे अधिक बार उत्पन्न उत्तर लेता है। जैसा कि आप कल्पना कर सकते हैं, विपक्ष@64 मॉडल के बेंचमार्क स्कोर को काफी कम कर देता है, और इसे एक ग्राफ से छोड़ने से यह दिखाई दे सकता है जैसे कि एक मॉडल वास्तव में जब वास्तव में एक और पार करता है, तो ऐसा नहीं होता है।

ग्रोक 3 रीजनिंग बीटा और ग्रोक 3 मिनी रीज़निंग के स्कोर के लिए Aime 2025 “@1” पर-जिसका अर्थ है कि पहले स्कोर मॉडल को बेंचमार्क पर मिला-O3-Mini-High के स्कोर से नीचे गिरता है। ग्रोक 3 रीजनिंग बीटा भी ओपनई के पीछे कभी-कभी-थोड़ा-बहुत अच्छा होता है O1 मॉडल “मध्यम” कंप्यूटिंग पर सेट करें। फिर भी XAI है विज्ञापन ग्रोक 3 “दुनिया की सबसे चतुर एआई” के रूप में।

बबुश्किन एक्स पर तर्क दिया उस Openai ने अतीत में समान रूप से भ्रामक बेंचमार्क चार्ट प्रकाशित किए हैं – यद्यपि चार्ट अपने स्वयं के मॉडल के प्रदर्शन की तुलना करते हैं। बहस में एक अधिक तटस्थ पार्टी ने एक और अधिक “सटीक” ग्राफ को एक साथ रखा, जो लगभग हर मॉडल के प्रदर्शन को@64 पर दिखाता है:

प्रफुल्लित करने वाला कि कैसे कुछ लोग मेरे कथानक को ओपनई पर हमले के रूप में देखते हैं और अन्य लोग ग्रोक पर हमले के रूप में हैं जबकि वास्तव में यह दीपसेक प्रचार है
(मुझे वास्तव में विश्वास है कि ग्रोक वहां अच्छा लग रहा है, और O3-Mini-*उच्च*-pass@”” 1 “” “” “” अधिक जांच के योग्य है।) https://t.co/DJQLJPCJH8 pic.twitter.com/3wh8foufic

– Teortaxes ️ ️ (DeepSeek Twitter🐋iron पाउडर 2023 -)) (@teortaxestex) 20 फरवरी, 2025

लेकिन एआई शोधकर्ता नाथन लैंबर्ट के रूप में एक पोस्ट में इंगित कियाशायद सबसे महत्वपूर्ण मीट्रिक एक रहस्य बना हुआ है: कम्प्यूटेशनल (और मौद्रिक) लागत ने प्रत्येक मॉडल के लिए अपना सर्वश्रेष्ठ स्कोर प्राप्त करने के लिए लिया। यह सिर्फ यह दिखाने के लिए जाता है कि एआई बेंचमार्क मॉडल की सीमाओं के बारे में कितना कम संवाद करता है – और उनकी ताकत।

Source link

क्या XAI ने ग्रोक 3 के बेंचमार्क के बारे में झूठ बोला था?

कोई जवाब दें

नवीनतम लेखहरू

यहां डेटोना इंटरनेशनल स्पीडवे में आज का शेड्यूल कैसा दिखता है

टेम्पल यूनिवर्सिटी ने कॉलेज के माध्यम से फिलाडेल्फिया में 120 कम...

मस्तिष्क-व्यापी गतिविधि परिवर्तन ज्यामितीय पैटर्न के रूप में कल्पना की जाती...

पोप फ्रांसिस को सांस लेने में मदद करने के लिए ऑक्सीजन...

क्यों हॉरर प्रदर्शन अधिक पुरस्कारों के लायक हैं

NYC प्रिंसिपल ने बेटी के स्कूल में $ 5,000 ट्यूशन फीस...

दस्तावेज़ कार्य या इस्तीफा, डोगे ईमेल में संघीय श्रमिकों से कहते...

लॉन्चपैड के लिए पृथ्वी के 1 क्षुद्रग्रह खनन प्रॉस्पेक्टर प्रमुख हैं

जीन थेरेपी प्रयोग दुर्लभ बचपन के अंधापन का इलाज करता है

मस्तिष्क अप्रत्याशित दर्द को अधिक दृढ़ता से मानता है

यूएस एआई सुरक्षा संस्थान बड़े कटों का सामना कर सकता है

नॉर्विच में ‘अंडरडॉग’ क्लब ने यूरोप के सर्वश्रेष्ठ नृत्य स्थल को...

ट्रम्प यूक्रेन में अमेरिका और यूरोप के बीच बढ़ते तनाव के...

बिल्ड डिफेंस: एक शुरुआती गाइड

BSEB SAKSHAMTA PARIKSHA 2025 पंजीकरण चरण 3 के लिए शुरू होता...

श्रेणी

कोई जवाब दें जवाब कैंसिल करें

नवीनतम लेखहरू

श्रेणी

कोई जवाब दें