यह एक चिरकालिक “कॉकटेल पार्टी समस्या” है – लोगों से भरे कमरे में खड़े होकर, हाथ में पेय लेकर, यह सुनने की कोशिश करना कि आपका साथी अतिथि क्या कह रहा है।
वास्तव में, मनुष्य एक व्यक्ति के साथ बातचीत करते हुए प्रतिस्पर्धी आवाजों को छानने में उल्लेखनीय रूप से कुशल है।
हालांकि, शायद आश्चर्य की बात यह है कि यह एक ऐसा कौशल है जिसे प्रौद्योगिकी अभी तक दोहराने में असमर्थ रही है।
और यह तब मायने रखता है जब अदालती मामलों में ऑडियो साक्ष्य का उपयोग करने की बात आती है। पृष्ठभूमि में आवाज़ें होने से यह पता लगाना मुश्किल हो जाता है कि कौन बोल रहा है और क्या कहा जा रहा है, जिससे रिकॉर्डिंग बेकार हो सकती है।
वेव साइंसेज के संस्थापक और मुख्य प्रौद्योगिकी अधिकारी, इलेक्ट्रिकल इंजीनियर कीथ मैकएलवीन की इस समस्या में रुचि तब उत्पन्न हुई जब वे युद्ध अपराध के एक मामले पर अमेरिकी सरकार के लिए काम कर रहे थे।
वे कहते हैं, “हम यह पता लगाने की कोशिश कर रहे थे कि नागरिकों के नरसंहार का आदेश किसने दिया था। कुछ साक्ष्यों में कई सारी आवाज़ों की रिकॉर्डिंग भी शामिल थी – और तब मुझे पता चला कि “कॉकटेल पार्टी समस्या” क्या थी।”
“मैं भाषण से ऑटोमोबाइल की आवाज़ या एयर कंडीशनर या पंखे जैसी आवाज़ को हटाने में सफल रहा था, लेकिन जब मैंने भाषण से भाषण को हटाने की कोशिश शुरू की, तो यह न केवल एक बहुत ही कठिन समस्या बन गई, बल्कि यह ध्वनिकी में सबसे कठिन समस्याओं में से एक थी।
“ध्वनियाँ कमरे में चारों ओर गूंज रही हैं, और इसे हल करना गणितीय दृष्टि से बहुत कठिन है।”
उन्होंने कहा कि इसका उत्तर यह है कि कृत्रिम बुद्धि (एआई) का उपयोग करके कमरे में सभी प्रतिस्पर्धी ध्वनियों को इस आधार पर पहचाना और छांटा जाए कि वे मूल रूप से कहां से आ रही हैं।
इसका तात्पर्य केवल बोलने वाले अन्य लोगों से ही नहीं है – कमरे में चारों ओर ध्वनि के परावर्तन से भी महत्वपूर्ण हस्तक्षेप होता है, तथा लक्षित वक्ता की आवाज प्रत्यक्ष और अप्रत्यक्ष रूप से सुनी जाती है।
एक परिपूर्ण अनिकोइक में कक्ष – जो प्रतिध्वनि से पूरी तरह मुक्त हो – प्रत्येक वक्ता की बात सुनने के लिए प्रत्येक वक्ता के लिए एक माइक्रोफोन पर्याप्त होगा; लेकिन वास्तविक कमरे में, समस्या यह है कि प्रत्येक परावर्तित ध्वनि के लिए भी एक माइक्रोफोन की आवश्यकता होती है।
श्री मैकएलवीन ने 2009 में वेव साइंसेज की स्थापना की, जिसका उद्देश्य एक ऐसी तकनीक विकसित करना था जो ओवरलैपिंग आवाज़ों को अलग कर सके। शुरुआत में फर्म ने बड़ी संख्या में माइक्रोफोन का इस्तेमाल किया जिसे एरे बीमफॉर्मिंग के नाम से जाना जाता है।
हालांकि, संभावित वाणिज्यिक साझेदारों से प्राप्त फीडबैक के अनुसार, कई स्थितियों में अच्छे परिणाम देने के लिए इस प्रणाली को लागत के अनुपात में बहुत अधिक माइक्रोफोन की आवश्यकता होगी – तथा कई अन्य स्थितियों में यह बिल्कुल भी प्रदर्शन नहीं करेगी।
श्री मैकएलवीन कहते हैं, “आम धारणा यह थी कि यदि हम उन चिंताओं का समाधान कर सकें, तो वे इसमें बहुत रुचि लेंगे।”
और, वह आगे कहते हैं: “हमें पता था कि इसका कोई समाधान अवश्य होगा, क्योंकि आप इसे केवल दो कानों से भी कर सकते हैं।”
कंपनी ने 10 साल के आंतरिक वित्त पोषित अनुसंधान के बाद अंततः समस्या का समाधान किया और सितंबर 2019 में पेटेंट आवेदन दायर किया।
उन्होंने एक ऐसा कृत्रिम बुद्धि (AI) विकसित किया था जो यह विश्लेषण कर सकता है कि माइक्रोफोन या कान तक पहुंचने से पहले ध्वनि कमरे में किस प्रकार उछलती है।
श्री मैकएलवीन कहते हैं, “हम प्रत्येक माइक्रोफोन पर आने वाली ध्वनि को पकड़ लेते हैं, यह पता लगाने के लिए पीछे जाते हैं कि वह कहां से आई है, और फिर, संक्षेप में, हम ऐसी किसी भी ध्वनि को दबा देते हैं जो उस स्थान से नहीं आ सकती थी जहां व्यक्ति बैठा हुआ है।”
इसका प्रभाव कुछ हद तक उससे तुलनीय है जब कैमरा एक विषय पर फोकस करता है और अग्रभूमि तथा पृष्ठभूमि को धुंधला कर देता है।
“जब आप सीखने के लिए बहुत शोर वाली रिकॉर्डिंग का ही उपयोग करते हैं तो परिणाम उतने स्पष्ट नहीं लगते, लेकिन फिर भी वे आश्चर्यजनक होते हैं।”
इस प्रौद्योगिकी का पहली बार वास्तविक फोरेंसिक उपयोग अमेरिका में एक हत्या के मामले में किया गया, जहां इसके द्वारा उपलब्ध कराए गए साक्ष्य ही दोषसिद्धि के लिए महत्वपूर्ण साबित हुए।
एक व्यक्ति की हत्या के लिए दो हत्यारों को गिरफ्तार किए जाने के बाद, FBI यह साबित करना चाहती थी कि उन्हें एक परिवार द्वारा काम पर रखा गया था, जो बच्चों की कस्टडी के विवाद से जूझ रहा था। FBI ने परिवार को यह विश्वास दिलाने के लिए धोखा दिया कि उन्हें उनकी संलिप्तता के लिए ब्लैकमेल किया जा रहा है – और फिर प्रतिक्रिया देखने के लिए बैठ गई।
जबकि एफबीआई के लिए टेक्स्ट और फोन कॉल तक पहुंच काफी आसान थी, व्यक्तिगत रूप से दो रेस्तराओं में हुई मुलाकातें एक अलग मामला था। लेकिन अदालत ने वेव साइंसेज के एल्गोरिदम के इस्तेमाल को अधिकृत कर दिया, जिसका मतलब है कि ऑडियो अस्वीकार्य से महत्वपूर्ण सबूत बन गया।
तब से, यू.के. सहित अन्य सरकारी प्रयोगशालाओं ने इसे कई परीक्षणों से गुज़ारा है। कंपनी अब इस तकनीक को अमेरिकी सेना को बेच रही है, जिसने इसका इस्तेमाल सोनार संकेतों का विश्लेषण करने के लिए किया है।
श्री मैकएलवीन कहते हैं कि इसका उपयोग बंधक वार्ता और आत्महत्या परिदृश्यों में भी किया जा सकता है, ताकि यह सुनिश्चित किया जा सके कि बातचीत के दोनों पक्षों को सुना जा सके – न कि केवल मेगाफोन वाले वार्ताकार को।
पिछले वर्ष के अंत में, कंपनी ने ऑडियो फोरेंसिक और ध्वनिक विश्लेषण करने वाली सरकारी प्रयोगशालाओं द्वारा उपयोग के लिए अपने लर्निंग एल्गोरिदम का उपयोग करते हुए एक सॉफ्टवेयर एप्लीकेशन जारी किया था।
अंततः इसका लक्ष्य ऑडियो रिकॉर्डिंग किट, कारों के लिए वॉयस इंटरफेस, स्मार्ट स्पीकर, संवर्धित और आभासी वास्तविकता, सोनार और श्रवण सहायता उपकरणों में उपयोग के लिए अपने उत्पाद के अनुरूप संस्करण पेश करना है।
उदाहरण के लिए, यदि आप अपनी कार या स्मार्ट स्पीकर से बात करते हैं तो इससे कोई फर्क नहीं पड़ता कि आपके आस-पास कितना शोर हो रहा है, डिवाइस फिर भी यह समझ लेगा कि आप क्या कह रहे हैं।
फोरेंसिक साइंस अकादमी की फोरेंसिक शिक्षक टेरी अर्मेन्टा के अनुसार, फोरेंसिक के अन्य क्षेत्रों में भी एआई का उपयोग पहले से ही किया जा रहा है।
“एमएल [machine learning] वे कहती हैं, “मॉडल बोलने वालों की पहचान निर्धारित करने के लिए आवाज के पैटर्न का विश्लेषण करते हैं, यह प्रक्रिया विशेष रूप से आपराधिक जांच में उपयोगी है, जहां आवाज के साक्ष्य को प्रमाणित करने की आवश्यकता होती है।”
“इसके अतिरिक्त, एआई उपकरण ऑडियो रिकॉर्डिंग में हेरफेर या परिवर्तन का पता लगा सकते हैं, जिससे अदालत में प्रस्तुत साक्ष्य की अखंडता सुनिश्चित होती है।”
और एआई ऑडियो विश्लेषण के अन्य पहलुओं में भी अपनी जगह बना रहा है।
बॉश के पास साउंडसी नामक एक प्रौद्योगिकी है, जो ऑडियो सिग्नल प्रोसेसिंग एल्गोरिदम का उपयोग करके, उदाहरण के लिए, मोटर की ध्वनि का विश्लेषण करके, खराबी होने से पहले ही उसका अनुमान लगा लेती है।
बॉश यूएसए के अनुसंधान एवं प्रौद्योगिकी निदेशक डॉ. समरजीत दास कहते हैं, “पारंपरिक ऑडियो सिग्नल प्रोसेसिंग क्षमताओं में ध्वनि को उस तरह समझने की क्षमता का अभाव है, जिस तरह हम मनुष्य समझते हैं।”
“ऑडियो एआई हमारे आस-पास की चीजों की ध्वनि की गहन समझ और अर्थपूर्ण व्याख्या को पहले से कहीं बेहतर बनाता है – उदाहरण के लिए, पर्यावरणीय ध्वनियाँ या मशीनों से निकलने वाली ध्वनि संकेत।”
वेव साइंसेज एल्गोरिथम के हाल के परीक्षणों से पता चला है कि, केवल दो माइक्रोफोनों के साथ भी, यह तकनीक मानव कान के समान ही अच्छा प्रदर्शन कर सकती है – और अधिक माइक्रोफोनों के जुड़ने पर यह और भी बेहतर प्रदर्शन करती है।
इसके अलावा उन्होंने एक और बात भी बताई।
मैकएलवीन कहते हैं, “हमारे सभी परीक्षणों में गणित मानव श्रवण के साथ उल्लेखनीय समानताएं दर्शाता है। हमारे एल्गोरिदम क्या कर सकते हैं और यह कितनी सटीकता से कर सकते हैं, इसके बारे में कुछ छोटी-छोटी विषमताएं हैं, जो आश्चर्यजनक रूप से मानव श्रवण में मौजूद कुछ विषमताओं के समान हैं।”
“हमें संदेह है कि मानव मस्तिष्क भी यही गणित इस्तेमाल कर रहा होगा – कॉकटेल पार्टी की समस्या को हल करते समय, हम इस बात पर पहुंच गए होंगे कि मस्तिष्क में वास्तव में क्या हो रहा है।”