जो लोग सुन नहीं सकते वे अक्सर होंठों की हरकत को देखकर अंदाज़ लगाते हैं कि सामने वाला क्या बोल रहा है। इसे लिप रीडिंग कहते हैं। मगर यह आसान नहीं होता और बहुत गलतियां होती हैं। अब शोधकर्ताओं ने कृत्रिम बुद्धि पर आधारित लिप रीडिंग का एक प्रोग्राम बनाया है जो कहीं बेहतर परिणाम दे सकता है। उम्मीद है कि जल्दी ही यह एक सरल से उपकरण के रूप में बधिरों की सहायता कर सकेगा। मगर इसे बनाना आसान नहीं रहा है।

पहले तो कंप्यूटर को लाखों घंटे के वीडियो दिखाए गए। इनमें लोग बोल रहे थे और साथ में लिखा था कि वे क्या बोल रहे हैं। इसके आधार पर कंप्यूटर को स्वयं सीखना था कि कौन-सी ध्वनि के लिए होंठ कैसे हिलते हैं।

अब शोधकर्ताओं ने यू-ट्यूब पर उपलब्ध वीडियो में से 1 लाख 40 हज़ार घंटे का फुटेज लिया। इनमें लोग विभिन्न परिस्थितियों में बातें करते दिखाई देते हैं। इसके बाद उन्होंने इनमें से छोटे-छोटे टुकड़े या क्लिप्स बनाए। प्रत्येक क्लिप में किसी एक शब्द की ध्वनि थी और उससे जुड़ी होंठों की हरकत थी। क्लिप्स मात्र अंग्रेज़ी भाषियों की ही बनाई गई थीं, और ध्वनि स्पष्ट थी तथा चित्र सामने से लिए गए थे। इन क्लिप्स में से शोधकर्ताओं ने वीडियो को इस तरह काटा कि सिर्फ मुंह दिखाई दे और शब्द सुनाई दे। इस तरह से उन्होंने 4000 घंटे का फुटेज तैयार किया जिसमें सवा लाख अंग्रेज़ी शब्द बोले गए थे। प्रत्येक क्लिप पर वह शब्द भी लिखा गया था जो उस क्लिप के होंठ बोल रहे हैं।

अब इन वीडियो क्लिप्स को एक अन्य प्रोग्राम के सामने चलाया गया। इस दूसरे प्रोग्राम को करना यह था कि होंठों की किसी भी हरकत के लिए वह संभावित शब्दों की सूची बनाए। और अंत में इन संभावित शब्दों को लेकर एक अन्य प्रोग्राम ने वाक्य बना दिए।

शोधकर्ताओं ने इस प्रोग्राम को 37 मिनट का वीडियो दिखाया और उसके द्वारा पहचाने गए शब्दों को रिकॉर्ड किया। पता चला कि कृत्रिम बुद्धि ने मात्र 41 प्रतिशत शब्दों को गलत पहचाना। arXiv नामक वेबसाइट पर प्रकाशित अपनी रिपोर्ट में टीम ने कहा है कि 59 प्रतिशत गलतियां बहुत ज़्यादा लगती हैं किंतु इन्हें पहले हासिल की गई उपलब्धियों के परिप्रेक्ष्य में देखना चाहिए। मसलन पूर्व में विकसित एक कंप्यूटर प्रोग्राम 77 प्रतिशत बार गलत होता था।
यदि यह कृत्रिम बुद्धि आधारित होंठ पढ़ने वाला प्रोग्राम सफल रहता है तो बधिरों के लिए काफी सुविधाजनक होगा।(स्रोत फीचर्स)