Openai का कहना है कि यह सबूतों की समीक्षा कर रहा है कि चीनी स्टार्ट-अप दीपसेक ने अपनी AI प्रौद्योगिकियों से बड़ी मात्रा में डेटा की कटाई करके अपनी सेवा की शर्तों को तोड़ दिया।
सैन फ्रांसिस्को-आधारित स्टार्ट-अप, जो अब $ 157 बिलियन हैकहा कि दीपसेक ने अपने स्वयं के सिस्टम के समान कौशल सिखाने के लिए OpenAI प्रौद्योगिकियों द्वारा उत्पन्न डेटा का उपयोग किया हो सकता है।
यह प्रक्रिया, जिसे आसवन कहा जाता है, एआई क्षेत्र में आम है। लेकिन Openai की सेवा की शर्तों का कहना है कि कंपनी किसी को भी अपने सिस्टम द्वारा उत्पन्न डेटा का उपयोग करने की अनुमति नहीं देती है, जो एक ही बाजार में प्रतिस्पर्धा करने वाली प्रौद्योगिकियों का निर्माण करती है।
ओपनई के प्रवक्ता लिज़ बुर्जुआ ने न्यूयॉर्क टाइम्स को ईमेल किए गए एक बयान में कहा, “हम जानते हैं कि पीआरसी में समूह सक्रिय रूप से तरीकों का उपयोग करने के लिए काम कर रहे हैं, जिसमें आसवन के रूप में जाना जाता है, जिसमें उन्नत यूएसएय मॉडल को दोहराया जाता है।” ।
उन्होंने कहा, “हम इस बात से अवगत हैं और उन संकेतों की समीक्षा कर रहे हैं कि दीपसेक ने अनुचित रूप से हमारे मॉडल को डिस्टिल्ड किया हो सकता है, और जैसा कि हम अधिक जानते हैं, जानकारी साझा करेंगे।” “हम अपनी तकनीक की रक्षा के लिए आक्रामक, सक्रिय काउंटरमेशर्स लेते हैं और यहां बनाए जा रहे सबसे सक्षम मॉडल की रक्षा के लिए अमेरिकी सरकार के साथ मिलकर काम करना जारी रखेंगे।”
दीपसेक ने टिप्पणी के अनुरोध का तुरंत जवाब नहीं दिया।
दीपसेक ने सिलिकॉन वैली टेक कंपनियों को छोड़ा और इस सप्ताह के शुरू में यूएस फाइनेंशियल मार्केट्स को एक टेलस्पिन में भेज दिया, जो एआई टेक्नोलॉजीज को जारी करने के बाद बाजार में किसी भी चीज़ के प्रदर्शन से मेल खाती थी।
प्रचलित ज्ञान यह था कि सबसे शक्तिशाली सिस्टम विशेष कंप्यूटर चिप्स में अरबों डॉलर के बिना नहीं बनाया जा सकता था, लेकिन दीपसेक ने कहा कि उसने कम संसाधनों का उपयोग करके अपनी प्रौद्योगिकियों का निर्माण किया था।
किसी भी अन्य एआई कंपनी की तरह, डीपसेक ने इंटरनेट पर से कंप्यूटर कोड और डेटा को नियंत्रित करके अपनी प्रौद्योगिकियों का निर्माण किया। एआई कंपनियां ओपन सोर्सिंग नामक एक अभ्यास पर भारी झुकती हैं, स्वतंत्र रूप से उस कोड को साझा करती हैं जो उनकी प्रौद्योगिकियों को रेखांकित करता है – और दूसरों द्वारा साझा किए गए कोड का पुन: उपयोग करता है। वे देखते हैं कि यह तकनीकी विकास में तेजी लाने का तरीका है।
उन्हें अपने AI सिस्टम को प्रशिक्षित करने के लिए बड़े पैमाने पर ऑनलाइन डेटा की भी आवश्यकता होती है। ये सिस्टम पाठ, कंप्यूटर प्रोग्राम, छवियों, ध्वनियों और वीडियो में पैटर्न को इंगित करके अपने कौशल को सीखते हैं। अग्रणी सिस्टम इंटरनेट पर सभी पाठ के बारे में विश्लेषण करके अपने कौशल को सीखते हैं।
डिस्टिलेशन का उपयोग अक्सर नई प्रणालियों को प्रशिक्षित करने के लिए किया जाता है। यदि कोई कंपनी मालिकाना प्रौद्योगिकी से डेटा लेती है, तो अभ्यास कानूनी रूप से समस्याग्रस्त हो सकता है। लेकिन इसे अक्सर खुले स्रोत प्रौद्योगिकियों द्वारा अनुमति दी जाती है।
Openai अब एक दर्जन से अधिक मुकदमों का सामना कर रहा है, जो अपने सिस्टम को प्रशिक्षित करने के लिए अवैध रूप से कॉपीराइट किए गए इंटरनेट डेटा का उपयोग करने का आरोप लगा रहा है। इसमें एक शामिल है न्यूयॉर्क टाइम्स द्वारा लाया गया मुकदमा Openai और उसके साथी Microsoft के खिलाफ।
सूट का कहना है कि टाइम्स द्वारा प्रकाशित लाखों लेखों का उपयोग स्वचालित चैटबॉट को प्रशिक्षित करने के लिए किया गया था जो अब विश्वसनीय जानकारी के स्रोत के रूप में समाचार आउटलेट के साथ प्रतिस्पर्धा करते हैं। Openai और Microsoft दोनों ही दावों से इनकार करते हैं।
एक टाइम्स रिपोर्ट में यह भी पता चला है कि Openai ने भाषण मान्यता प्रौद्योगिकी का उपयोग किया है YouTube वीडियो से ऑडियो को स्थानांतरित करने के लिए, नए संवादी पाठ की उपज जो AI सिस्टम को स्मार्ट बना देगा। कुछ Openai कर्मचारियों ने चर्चा की कि इस तरह का कदम YouTube के नियमों के खिलाफ कैसे जा सकता है, वार्तालापों के ज्ञान के साथ तीन लोगों ने कहा।
कंपनी के अध्यक्ष ग्रेग ब्रॉकमैन सहित एक ओपनएआई टीम ने YouTube वीडियो के एक मिलियन घंटे से अधिक का प्रदर्शन किया, लोगों ने कहा। तब ग्रंथों को GPT-4 नामक एक प्रणाली में खिलाया गया था, जिसे व्यापक रूप से दुनिया के सबसे शक्तिशाली AI मॉडल में से एक माना जाता था और यह चटप्ट चैटबॉट के नवीनतम संस्करण का आधार था।