पारंपरिक के रूप में एआई बेंचमार्किंग तकनीक अपर्याप्त साबित होती है, एआई बिल्डर्स जेनेरिक एआई मॉडल की क्षमताओं का आकलन करने के लिए अधिक रचनात्मक तरीकों की ओर रुख कर रहे हैं। डेवलपर्स के एक समूह के लिए, यह Minecraft है, Microsoft के स्वामित्व वाला सैंडबॉक्स-बिल्डिंग गेम।
वेबसाइट मिनीक्राफ्ट बेंचमार्क (या MC-Bench) Minecraft कृतियों के साथ संकेतों का जवाब देने के लिए सिर-से-सिर की चुनौतियों में एक दूसरे के खिलाफ AI मॉडल को गड्ढे के लिए सहयोगात्मक रूप से विकसित किया गया था। उपयोगकर्ता वोट कर सकते हैं कि किस मॉडल ने बेहतर काम किया है, और मतदान के बाद ही वे देख सकते हैं कि एआई ने प्रत्येक Minecraft का निर्माण किया है।
आदि सिंह के लिए, 12 वीं ग्रेडर जिसने MC-Bench शुरू किया था, Minecraft का मूल्य इतना ही खेल नहीं है, लेकिन लोगों के पास जो परिचित है, वह है-आखिरकार, यह है सर्वश्रेष्ठ बिक्री सभी समय का वीडियो गेम। यहां तक कि उन लोगों के लिए जिन्होंने खेल नहीं खेला है, अभी भी यह मूल्यांकन करना संभव है कि अनानास का कौन सा अवरुद्ध प्रतिनिधित्व बेहतर महसूस करता है।
“Minecraft लोगों को प्रगति को देखने की अनुमति देता है [of AI development] बहुत अधिक आसानी से, “सिंह ने TechCrunch को बताया।” लोगों का उपयोग minecraft के लिए किया जाता है, जिसका उपयोग लुक और वाइब के लिए किया जाता है। “
MC-Bench वर्तमान में आठ लोगों को स्वयंसेवक योगदानकर्ताओं के रूप में सूचीबद्ध करता है। एंथ्रोपिक, Google, Openai, और अलीबाबा ने MC-Bench की वेबसाइट के अनुसार, बेंचमार्क प्रॉम्प्ट चलाने के लिए अपने उत्पादों के प्रोजेक्ट के उपयोग को सब्सिडी दी है, लेकिन कंपनियां अन्यथा संबद्ध नहीं हैं।
“वर्तमान में हम सिर्फ यह प्रतिबिंबित करने के लिए सरल बिल्ड कर रहे हैं कि हम GPT-3 युग से कितनी दूर आए हैं, लेकिन [we] सिंह ने कहा, “सिंह ने कहा कि खुद को इन लंबी-रूप-रूप योजनाओं और लक्ष्य-उन्मुख कार्यों के लिए स्केल करते हुए देखा जा सकता है।
अन्य खेलों की तरह पोकेमोन रेड, सड़क का लड़ाकूऔर पिक्चररी एआई के लिए प्रयोगात्मक बेंचमार्क के रूप में उपयोग किया गया है, क्योंकि बेंचमार्किंग एआई की कला है कुख्यात रूप से मुश्किल।
शोधकर्ता अक्सर एआई मॉडल का परीक्षण करते हैं मानकीकृत मूल्यांकनलेकिन इनमें से कई परीक्षण एआई को एक घर-क्षेत्र का लाभ देते हैं। जिस तरह से वे प्रशिक्षित होते हैं, मॉडल को स्वाभाविक रूप से कुछ, संकीर्ण प्रकार के समस्या-समाधान, विशेष रूप से समस्या-समाधान के लिए उपहार में दिया जाता है, जिसके लिए रॉट मेमोराइजेशन या बुनियादी एक्सट्रपलेशन की आवश्यकता होती है।
सीधे शब्दों में कहें, तो इसे चमकाना मुश्किल है कि इसका क्या मतलब है कि Openai का GPT-4 LSAT पर 88 वें प्रतिशत में स्कोर कर सकता है, लेकिन यह समझ नहीं सकता है “स्ट्रॉबेरी” शब्द में कितने आरएस हैं। एन्थोप्रोपिक क्लाउड 3.7 सॉनेट एक मानकीकृत सॉफ्टवेयर इंजीनियरिंग बेंचमार्क पर 62.3% सटीकता हासिल की, लेकिन यह पांच साल के बच्चों की तुलना में पोकेमोन खेलने में बदतर है।

MC-Bench तकनीकी रूप से एक प्रोग्रामिंग बेंचमार्क है, क्योंकि मॉडल को संकेतित बिल्ड बनाने के लिए कोड लिखने के लिए कहा जाता है, जैसे “फ्रॉस्टी द स्नोमैन” या “एक प्राचीन रेतीले किनारे पर एक आकर्षक उष्णकटिबंधीय समुद्र तट झोपड़ी।”
लेकिन अधिकांश एमसी-बेंच उपयोगकर्ताओं के लिए यह मूल्यांकन करना आसान है कि क्या स्नोमैन कोड में खुदाई करने से बेहतर दिखता है, जो परियोजना को व्यापक अपील देता है-और इस प्रकार अधिक डेटा एकत्र करने की क्षमता है कि कौन से मॉडल लगातार बेहतर स्कोर करते हैं।
क्या उन स्कोर को एआई उपयोगिता के रास्ते में बहुत अधिक राशि है, बहस के लिए है, निश्चित रूप से। सिंह ने कहा कि वे एक मजबूत संकेत हैं, हालांकि।
सिंह ने कहा, “वर्तमान लीडरबोर्ड इन मॉडलों का उपयोग करने के मेरे अपने अनुभव को काफी करीब से दर्शाता है, जो बहुत सारे शुद्ध पाठ बेंचमार्क के विपरीत है।” “शायद [MC-Bench] यह जानने के लिए कंपनियों के लिए उपयोगी हो सकता है कि क्या वे सही दिशा में जा रहे हैं। ”