पोकेमॉन भी एआई बेंचमार्किंग विवाद से सुरक्षित नहीं है।
पिछले हफ्ते, ए एक्स पर पोस्ट करें यह दावा करते हुए वायरल हो गया कि Google के नवीनतम मिथुन मॉडल ने मूल पोकेमॉन वीडियो गेम ट्रिलॉजी में एन्थ्रोपिक के प्रमुख क्लाउड मॉडल को पार कर लिया। कथित तौर पर, मिथुन एक डेवलपर की चिकोटी स्ट्रीम में लैवेंडर टाउन तक पहुंच गया था; क्लाउड था माउंट मून पर अटक गया फरवरी के अंत तक।
मिथुन शाब्दिक रूप से लैवेंडर टाउन तक पहुंचने के बाद पोकेमॉन में क्लाउड एटीएम से आगे है
119 लाइव दृश्य केवल btw, अविश्वसनीय रूप से कम धारा pic.twitter.com/8avsovai4x
– आप (@you21e8) 10 अप्रैल, 2025
लेकिन पोस्ट का उल्लेख करने में विफल रहा कि मिथुन को एक फायदा था।
जैसा Reddit पर उपयोगकर्ता कहा गया है, डेवलपर जो मिथुन स्ट्रीम को बनाए रखता है, एक कस्टम मिनिमैप का निर्माण करता है जो मॉडल को “टाइल्स” की पहचान करने में मदद करता है जैसे कि कटेबल पेड़ों की तरह खेल में। यह गेमप्ले के निर्णय लेने से पहले स्क्रीनशॉट का विश्लेषण करने के लिए मिथुन की आवश्यकता को कम करता है।
अब, पोकेमोन एक अर्ध-गंभीर एआई बेंचमार्क है जो सबसे अच्छा है-कुछ तर्क देंगे कि यह एक मॉडल की क्षमताओं का एक बहुत ही जानकारीपूर्ण परीक्षण है। लेकिन यह है एक बेंचमार्क के विभिन्न कार्यान्वयन का एक शिक्षाप्रद उदाहरण परिणामों को कैसे प्रभावित कर सकता है।
उदाहरण के लिए, एन्थ्रोपिक सूचित बेंचमार्क स्वे-बेंच सत्यापित पर इसके हालिया एंथ्रोपिक 3.7 SONNET मॉडल के लिए दो स्कोर, जो एक मॉडल की कोडिंग क्षमताओं का मूल्यांकन करने के लिए डिज़ाइन किया गया है। क्लाउड 3.7 सॉनेट ने SWE-Bench सत्यापित पर 62.3% सटीकता प्राप्त की, लेकिन 70.3% एक “कस्टम मचान” के साथ जो कि एंथ्रोपिक विकसित हुआ।
हाल ही में, मेटा परिष्कृत एक विशेष बेंचमार्क, एलएम एरिना पर अच्छा प्रदर्शन करने के लिए इसके नए मॉडल, लामा 4 मावरिक का एक संस्करण। वेनिला का संस्करण एक ही मूल्यांकन पर मॉडल स्कोर काफी खराब है।
यह देखते हुए कि एआई बेंचमार्क – पोकेमोन शामिल हैं – हैं अपूर्ण उपाय शुरू करने के लिए, कस्टम और गैर-मानक कार्यान्वयन के साथ आगे भी पानी को मैला करने की धमकी दी जाती है। यह कहना है, यह संभावना नहीं है कि यह मॉडल की तुलना करने के लिए किसी भी आसान हो जाएगा क्योंकि वे जारी किए गए हैं।