2012-11-30 22 views
5

मैं इस गाइड को speech recognition पर पढ़ रहा था, और यह उल्लेख किया गया कि मुझे भाषण मान्यता के लिए तीन वस्तुओं की आवश्यकता है: ध्वनिक मॉडल, भाषा मॉडल, फोनेटिक शब्दकोश।पॉकेटस्फिनक्स पायथन और ध्वनिक मॉडल की स्थापना?

मैं इस python demo के साथ खेलना शुरू करना चाहता था, जो mic से कैप्चर करने के लिए Gstreamer का उपयोग करता है और 8kHz, 16-बिट पीसीएम ऑडियो का अनुकरण करता है।

मुझे लगता है कि मैं भाषा मॉडल और ध्वन्यात्मक शब्दकोश निर्दिष्ट कर सकते हैं, और मैं एक [CMU द्वारा प्रदान की] का उपयोग करें:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/ 

लेकिन मैं उलझन में है, जहां मैं ध्वनिक मॉडल निर्दिष्ट करना चाहिए हूँ? क्या जीस्ट्रीमर का अपना ध्वनिक मॉडल है जिसका मैं उपयोग कर रहा हूं? मैं थोड़ा बेहतर परिणाम के लिए यहां प्रदान ध्वनिक मॉडल का उपयोग करने की उम्मीद कर रहा था:

http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/ 

(। क्षमा करें हाइपरलिंक के बारे में मैं 10 से कम प्रतिनिधि के साथ अधिक से अधिक 2 लिंक पोस्ट नहीं कर सकते)

उत्तर

3

लेकिन मैं उलझन में हूं जहां मुझे ध्वनिक मॉडल निर्दिष्ट करना चाहिए?

आप gstreamer तत्व की हम्म संपत्ति के साथ मॉडल निर्दिष्ट कर सकते हैं। वैसे ही जैसे यह ट्यूटोरियल

asr.set_property('lm', '/home/user/mylanguagemodel.lm') 

में शामिल होने पर आपको उपयोग कर सकते हैं

asr.set_property('hmm', '/home/user/acoustic_model_folder') 

gstreamer अपनी ही ध्वनिक मॉडल मैं परोक्ष उपयोग कर रहा हूँ है?

हाँ, डिफ़ॉल्ट रूप से यह अमेरिका अंग्रेजी मॉडल hub4wsj_sc_8k वितरण से उपयोग करता