मैं जो करना चाहता हूं वह एक एपीआई बनाता है जो मानव भाषण को आईपीए (अंतर्राष्ट्रीय फोनेटिक अल्फाबेट) प्रारूप में अनुवादित करता है। मेरा सवाल यह है कि मूल ऑडियो तरंग के स्तर पर भाषण को डीकोड करने के तरीके कहां हैं। मैंने एक एपीआई की तलाश की, लेकिन जो कुछ मैंने पाया वह सीधे रोमन वर्णमाला में अनुवाद करता है। मैं मुखर फोनेटिक्स को अलग करने की अपनी क्षमता में कुछ और सटीक बनाने की तलाश में हूं।भाषण इनपुट को डीकोड कैसे करें
उत्तर
मैं यह कहकर शुरू करना चाहता हूं कि यह प्रोजेक्ट आपके विचार से कहीं अधिक कठिन और जटिल है। पाठ प्रसंस्करण के लिए भाषण एक बहुत बड़ा और जटिल क्षेत्र है जिसमें बड़ी मात्रा में शोध किया गया है। अधिकांश पार्सर्स सीधे रोमन पात्रों को चीजें भेजते हैं क्योंकि उनकी अधिकांश प्रसंस्करण अस्पष्ट ध्वनियों की संभावनात्मक मिलान है, जो कि अन्य अस्पष्ट ध्वनियों के संदर्भ के साथ है, यह अनुमान लगाने के लिए कि कौन से शब्द एक साथ समझ में आते हैं। आपको ऐसा कुछ ढूंढने की अधिक संभावना है जो आपको आईपीए की बजाए साउंडएक्स देगी। उस ने कहा, यह एक समस्या है जिसे कई मोर्चों पर संपर्क किया गया है। आपकी सबसे अच्छी शर्त शायद सीएमयू से स्फिंक्स परियोजना है।
http://cmusphinx.sourceforge.net/wiki/start
है कि आप एक अच्छी शुरुआत दे देंगे, लेकिन आप एक धारणा है कि पाठ में भाषण प्रसंस्करण बनाने वास्तव में है यह तुलना में बहुत अधिक विकसित है, और वहाँ के साथ तरंग के माध्यम से आईपीए के भाषण का अनुवाद करने का कोई आसान तरीका है किसी भी प्रकार की सटीकता। स्फिंक्स बहुत मॉड्यूलर और पूरी तरह से खुला स्रोत है और इसलिए यह आपको अपनी उंगलियों पर बड़ी मात्रा में बिजली देगा, और उस बिंदु पर आप यह समझ सकते हैं कि यह काम आपके ऊपर कैसे है, लेकिन फिर से। यह किसी भी तरह से हल की गई समस्या नहीं है।
कुछ करने के लायक लगता है, तो। क्या किसी ने दस्तावेज <--> पाठ के लिए उपयोग की जाने वाली मौजूदा विधियों के बारे में क्या बताया है? – josiah
यह सीएमयू स्फिंक्स के तहत बहुत अधिक है, उनके पास प्रयोगों और संशोधनों का एक बहुत व्यापक लॉग है, इसलिए आप न केवल नवीनतम और महानतम के रूप में लागू किए गए कार्यों को देख सकते हैं, लेकिन आप उन सुविधाओं को भी देख सकते हैं जो वे सुविधाओं को खोजने की कोशिश में चल रहे हैं इष्टतम प्रदर्शन। http://sourceforge.net/projects/cmusphinx/forums/forum/5470 –
सुंदर चापलूसी। मैं इस परियोजना की प्रतीक्षा कर रहा हूं। धन्यवाद! – josiah