मैं इस गाइड को speech recognition पर पढ़ रहा था, और यह उल्लेख किया गया कि मुझे भाषण मान्यता के लिए तीन वस्तुओं की आवश्यकता है: ध्वनिक मॉडल, भाषा मॉडल, फोनेटिक शब्दकोश।पॉकेटस्फिनक्स पायथन और ध्वनिक मॉडल की स्थापना?
मैं इस python demo के साथ खेलना शुरू करना चाहता था, जो mic से कैप्चर करने के लिए Gstreamer का उपयोग करता है और 8kHz, 16-बिट पीसीएम ऑडियो का अनुकरण करता है।
मुझे लगता है कि मैं भाषा मॉडल और ध्वन्यात्मक शब्दकोश निर्दिष्ट कर सकते हैं, और मैं एक [CMU द्वारा प्रदान की] का उपयोग करें:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/
लेकिन मैं उलझन में है, जहां मैं ध्वनिक मॉडल निर्दिष्ट करना चाहिए हूँ? क्या जीस्ट्रीमर का अपना ध्वनिक मॉडल है जिसका मैं उपयोग कर रहा हूं? मैं थोड़ा बेहतर परिणाम के लिए यहां प्रदान ध्वनिक मॉडल का उपयोग करने की उम्मीद कर रहा था:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/
(। क्षमा करें हाइपरलिंक के बारे में मैं 10 से कम प्रतिनिधि के साथ अधिक से अधिक 2 लिंक पोस्ट नहीं कर सकते)