फ्लोरिडा विश्वविद्यालय के शोधकर्ता चिकित्सा आनुवंशिक अनुसंधान में एक महत्वपूर्ण अंतर को संबोधित कर रहे हैं – यह सुनिश्चित करना कि यह बेहतर प्रतिनिधित्व करता है और सभी पृष्ठभूमि के लोगों को लाभ देता है।
कंप्यूटर एंड इंफॉर्मेशन साइंस एंड इंजीनियरिंग विभाग में एक सहायक प्रोफेसर, केली ग्रेम, पीएचडी के नेतृत्व में उनका काम, आनुवंशिक डेटा में “पैतृक पूर्वाग्रह” को संबोधित करके मानव स्वास्थ्य में सुधार करने पर ध्यान केंद्रित करता है, एक समस्या जो तब उत्पन्न होती है जब अधिकांश शोध एकल पैतृक समूह के डेटा पर आधारित होता है। यह पूर्वाग्रह सटीक चिकित्सा में प्रगति को सीमित करता है, ग्रेम ने कहा, और वैश्विक आबादी के बड़े हिस्से को छोड़ देता है जब यह रोग उपचार और रोकथाम की बात आती है।
इसे हल करने के लिए, टीम ने Phyloframe, एक मशीन-लर्निंग टूल विकसित किया जो आनुवंशिक डेटा में पैतृक विविधता के लिए कृत्रिम बुद्धिमत्ता का उपयोग करता है। नेशनल इंस्टीट्यूट ऑफ हेल्थ से फंडिंग सपोर्ट के साथ, लक्ष्य यह है कि उनकी वंश की परवाह किए बिना, सभी के लिए बीमारियों का अनुमान, निदान और इलाज किया जाता है। Phyloframe विधि का वर्णन करने वाला एक पेपर और यह कैसे दिखाया गया है कि सटीक चिकित्सा परिणामों में चिह्नित सुधार सोमवार को प्रकाशित किया गया था प्रकृति संचार।
जीनोमिक डेटा में पैतृक पूर्वाग्रह पर ध्यान केंद्रित करने के लिए ग्रेम की प्रेरणा एक डॉक्टर के साथ बातचीत से विकसित हुई, जो एक अध्ययन की सीमित प्रासंगिकता से उसकी विविध रोगी आबादी के लिए निराश था। इस मुठभेड़ ने उसे यह पता लगाने के लिए प्रेरित किया कि एआई आनुवंशिक अनुसंधान में अंतर को पाटने में कैसे मदद कर सकता है।
“मैंने अपने आप से सोचा, ‘मैं उस समस्या को ठीक कर सकता हूं,” ग्रेम ने कहा, जिनके शोध केंद्र मशीन लर्निंग और सटीक चिकित्सा के आसपास हैं और जिन्हें जनसंख्या जीनोमिक्स में प्रशिक्षित किया गया है। “यदि हमारा प्रशिक्षण डेटा हमारे वास्तविक दुनिया के डेटा से मेल नहीं खाता है, तो हमारे पास मशीन लर्निंग का उपयोग करके उस से निपटने के तरीके हैं। वे सही नहीं हैं, लेकिन वे इस मुद्दे को संबोधित करने के लिए बहुत कुछ कर सकते हैं।”
जनसंख्या जीनोमिक्स डेटाबेस GNOMAD से डेटा का लाभ उठाकर, Phyloframe सटीक दवा मॉडल को प्रशिक्षित करने के लिए उपयोग किए जाने वाले रोगों के लिए विशिष्ट छोटे डेटासेट के साथ स्वस्थ मानव जीनोम के बड़े पैमाने पर डेटाबेस को एकीकृत करता है। इसके द्वारा बनाए गए मॉडल विविध आनुवंशिक पृष्ठभूमि को संभालने के लिए बेहतर तरीके से सुसज्जित हैं। उदाहरण के लिए, यह स्तन कैंसर जैसी बीमारियों के उपप्रकारों के बीच अंतर की भविष्यवाणी कर सकता है और रोगी के वंश की परवाह किए बिना प्रत्येक रोगी के लिए सबसे अच्छा उपचार का सुझाव दे सकता है।
ऐसी भारी मात्रा में डेटा प्रसंस्करण कोई छोटी उपलब्धि नहीं है। टीम लाखों लोगों से जीनोमिक जानकारी का विश्लेषण करने के लिए देश के सबसे शक्तिशाली सुपर कंप्यूटरों में से एक, UF के हिपर्जेटर का उपयोग करती है। प्रत्येक व्यक्ति के लिए, इसका मतलब है कि डीएनए के 3 बिलियन बेस जोड़े को संसाधित करना।
“मुझे नहीं लगता था कि यह काम करेगा जैसा कि यह किया गया था,” ग्रेम ने कहा, यह देखते हुए कि उनके डॉक्टरेट छात्र, लेस्ली स्मिथ ने अध्ययन में महत्वपूर्ण योगदान दिया। “जनसंख्या जीनोमिक्स डेटा को शामिल करने के प्रभाव को प्रदर्शित करने के लिए एक सरल मॉडल का उपयोग करके एक छोटी परियोजना के रूप में शुरू किया गया है, जो अधिक परिष्कृत मॉडल विकसित करने और आबादी को कैसे परिभाषित किया जाता है, इसे परिष्कृत करने के लिए धन हासिल करने में विकसित हुआ है।”
Phyloframe को अलग -अलग सेट करने की क्षमता यह सुनिश्चित करने की है कि भविष्यवाणियों को वंश से जुड़े आनुवंशिक मतभेदों पर विचार करके आबादी में सटीक बने रहें। यह महत्वपूर्ण है क्योंकि अधिकांश वर्तमान मॉडल डेटा का उपयोग करके बनाए गए हैं जो पूरी तरह से दुनिया की आबादी का प्रतिनिधित्व नहीं करता है। मौजूदा डेटा में से अधिकांश अनुसंधान अस्पतालों और उन रोगियों से आता है जो स्वास्थ्य देखभाल प्रणाली पर भरोसा करते हैं। इसका मतलब है कि छोटे शहरों में आबादी या जो लोग चिकित्सा प्रणालियों को अविश्वास करते हैं, वे अक्सर छोड़ दिए जाते हैं, जिससे उन उपचारों को विकसित करना कठिन हो जाता है जो सभी के लिए अच्छा काम करते हैं।
उन्होंने यह भी अनुमान लगाया कि अनुक्रमित नमूने यूरोपीय वंश के लोगों से हैं, कारण, बड़े पैमाने पर, राष्ट्रीय और राज्य स्तर के वित्त पोषण और प्राथमिकताओं के कारण, लेकिन यह भी सामाजिक आर्थिक कारकों के कारण है कि विभिन्न स्तरों पर स्नोबॉल – बीमा प्रभाव डालता है कि क्या लोगों को इलाज किया जाता है, उदाहरण के लिए, जो प्रभावित करता है कि वे कैसे अनुक्रमित हैं।
“कुछ अन्य देश, विशेष रूप से चीन और जापान, हाल ही में इस अंतर को बंद करने की कोशिश कर रहे हैं, और इसलिए इन देशों से पहले की तुलना में अधिक डेटा है, लेकिन अभी भी यूरोपीय डेटा जैसा कुछ भी नहीं था,” उसने कहा। “गरीब आबादी को आम तौर पर पूरी तरह से बाहर रखा जाता है।”
इस प्रकार, प्रशिक्षण डेटा में विविधता आवश्यक है, ग्रेम ने कहा।
“हम चाहते हैं कि ये मॉडल किसी भी मरीज के लिए काम करें, न कि केवल हमारी पढ़ाई में,” उसने कहा। “विविध प्रशिक्षण डेटा होने से यूरोपीय लोगों के लिए मॉडल भी बेहतर हो जाता है। जनसंख्या जीनोमिक्स डेटा होने से मॉडल को ओवरफिटिंग से रोकने में मदद मिलती है, जिसका अर्थ है कि वे यूरोपीय सहित सभी के लिए बेहतर काम करेंगे।”
GRAIM का मानना है कि Phyloframe जैसे उपकरणों का उपयोग अंततः नैदानिक सेटिंग में किया जाएगा, पारंपरिक मॉडल की जगह उनके आनुवंशिक मेकअप के आधार पर व्यक्तियों के अनुरूप उपचार योजनाओं को विकसित करने के लिए। टीम के अगले चरणों में Phyloframe को परिष्कृत करना और अपने अनुप्रयोगों का विस्तार करना अधिक बीमारियों में शामिल है।
“मेरा सपना इस तरह की मशीन सीखने की विधि के माध्यम से अग्रिम सटीक दवा में मदद करना है, इसलिए लोग जल्दी निदान कर सकते हैं और उनके साथ विशेष रूप से काम करने के साथ और सबसे कम दुष्प्रभावों के साथ इलाज किया जाता है,” उसने कहा। “सही समय पर सही व्यक्ति को सही उपचार प्राप्त करना वह है जिसके लिए हम प्रयास कर रहे हैं।”
जीआरएआईएम की परियोजना ने यूएफ कॉलेज ऑफ मेडिसिन ऑफिस ऑफ रिसर्च के एआई 2 डेटाथॉन ग्रांट अवार्ड से फंडिंग प्राप्त की, जो कि शोधकर्ताओं और चिकित्सकों को मानव स्वास्थ्य में सुधार के लिए एआई टूल का उपयोग करने में मदद करने के लिए डिज़ाइन किया गया है।