ए नया अध्ययन यह आरोपों के लिए विश्वसनीयता उधार देने के लिए प्रकट होता है कि Openai ने कॉपीराइट की गई सामग्री पर अपने कुछ AI मॉडल को कम से कम प्रशिक्षित किया।
Openai को लेखकों, प्रोग्रामर, और अन्य अधिकार-धारकों द्वारा लाए गए सूटों में उलझाया जाता है, जो कंपनी पर अपने कार्यों-पुस्तकों, कोडबेस, और इसी तरह का उपयोग करने का आरोप लगाते हैं-बिना अनुमति के अपने मॉडल विकसित करने के लिए। Openai ने लंबे समय से दावा किया है उचित उपयोग रक्षा, लेकिन इन मामलों में वादी का तर्क है कि प्रशिक्षण डेटा के लिए अमेरिकी कॉपीराइट कानून में एक नक्काशी-आउट नहीं है।
अध्ययन, जो वाशिंगटन विश्वविद्यालय, कोपेनहेगन विश्वविद्यालय और स्टैनफोर्ड विश्वविद्यालय के शोधकर्ताओं द्वारा सह-लेखक था, ओपनईआई की तरह एक एपीआई के पीछे मॉडल द्वारा प्रशिक्षण डेटा “याद” की पहचान करने के लिए एक नई विधि का प्रस्ताव करता है।
मॉडल भविष्यवाणी इंजन हैं। बहुत सारे डेटा पर प्रशिक्षित, वे पैटर्न सीखते हैं – यह है कि वे निबंध, फ़ोटो और बहुत कुछ कैसे उत्पन्न कर सकते हैं। अधिकांश आउटपुट प्रशिक्षण डेटा की शब्दशः प्रतियां नहीं हैं, लेकिन मॉडल “सीखने” के तरीके के कारण, कुछ अनिवार्य रूप से हैं। छवि मॉडल पाए गए हैं उन फिल्मों से स्क्रीनशॉट को पुनर्जीवित करें जिन पर उन्हें प्रशिक्षित किया गया थाजबकि भाषा मॉडल देखे गए हैं प्रभावी रूप से समाचार लेखों को साहित्यिक बनाना।
अध्ययन की विधि उन शब्दों पर निर्भर करती है जो सह-लेखक “उच्च-सरप्रेल” कहते हैं-अर्थात, ऐसे शब्द जो काम के एक बड़े शरीर के संदर्भ में असामान्य रूप से बाहर खड़े हैं। उदाहरण के लिए, “जैक और मैं” रडार “में” रडार “शब्द” रडार गुनगुनाने के साथ पूरी तरह से बैठा “उच्च-सरंपरी माना जाएगा क्योंकि यह” इंजन “या” रेडियो “जैसे शब्दों की तुलना में सांख्यिकीय रूप से कम संभावना है, जो” गुनगुनाने से पहले दिखाई देता है। ”
सह-लेखकों ने कई Openai मॉडल की जांच की, जिसमें शामिल हैं जीपीटी -4 और GPT-3.5, फिक्शन बुक्स और न्यूयॉर्क टाइम्स के टुकड़ों के स्निपेट्स से उच्च-सर्पिल शब्दों को हटाकर याद के संकेतों के लिए और मॉडल “अनुमान” करने की कोशिश करते हैं कि शब्दों को नकाबपोश किया गया था। यदि मॉडल सही तरीके से अनुमान लगाने में कामयाब रहे, तो यह संभावना है कि उन्होंने प्रशिक्षण के दौरान स्निपेट को याद किया, सह-लेखकों को निष्कर्ष निकाला।

परीक्षणों के परिणामों के अनुसार, जीपीटी -4 ने लोकप्रिय कथा पुस्तकों के याद किए गए कुछ हिस्सों के संकेत दिखाए, जिनमें एक डेटासेट में किताबें शामिल हैं, जिसमें कॉपीराइट की गई ई-बुक्स के नमूने शामिल हैं, जिसे बुकमिया कहा जाता है। परिणामों ने यह भी सुझाव दिया कि मॉडल ने न्यूयॉर्क टाइम्स के लेखों के कुछ हिस्सों को याद किया, जो तुलनात्मक रूप से कम दर पर हैं।
वाशिंगटन विश्वविद्यालय में एक डॉक्टरेट छात्र और अध्ययन के सह-लेखक अभिलाषा रविचेंडर ने TechCrunch को बताया कि निष्कर्षों ने “विवादास्पद डेटा” मॉडल पर प्रकाश डाला हो सकता है।
“बड़े भाषा मॉडल होने के लिए जो भरोसेमंद हैं, हमारे पास ऐसे मॉडल होने की आवश्यकता है जिन्हें हम वैज्ञानिक रूप से जांच और ऑडिट और ऑडिट कर सकते हैं,” रैविचेंडर ने कहा। “हमारे काम का उद्देश्य बड़े भाषा मॉडल की जांच करने के लिए एक उपकरण प्रदान करना है, लेकिन पूरे पारिस्थितिकी तंत्र में अधिक से अधिक डेटा पारदर्शिता की वास्तविक आवश्यकता है।”
Openai ने लंबे समय से वकालत की है ढीला प्रतिबंध कॉपीराइट डेटा का उपयोग करके मॉडल विकसित करने पर। जबकि कंपनी के पास कुछ सामग्री लाइसेंसिंग सौदे हैं और वे ऑप्ट-आउट तंत्र प्रदान करते हैं जो कॉपीराइट मालिकों को सामग्री को ध्वजांकित करने की अनुमति देते हैं, वे कंपनी को प्रशिक्षण उद्देश्यों के लिए उपयोग नहीं करना पसंद करते हैं, यह है कई सरकारों की पैरवी की एआई प्रशिक्षण दृष्टिकोण के आसपास “उचित उपयोग” नियमों को संहिताबद्ध करने के लिए।