के लिए सीएमयू स्फिंक्स मैं एक ज्ञात डेटा सेट से मेल खाने का एक तरीका ढूंढ रहा हूं, आइए एमपी 3 या वाव फाइलों की एक सूची कहें, प्रत्येक जो किसी के बोलने का नमूना है। इस बिंदु पर मुझे पता है कि फ़ाइल एबीसी व्यक्ति एक्स बोलने वाला है।वॉयस/स्पीकर पहचान
मैं फिर एक और नमूना लेना चाहूंगा, और यह दिखाने के लिए कुछ आवाज़ मिलान करूँगा कि यह आवाज किस ज्ञात डेटा सेट के बाद सबसे अधिक संभावना है।
इसके अलावा, मुझे जरूरी नहीं है कि व्यक्ति ने क्या कहा है, जब तक कि मैं एक मैच पा सकूं, यानी मुझे किसी भी ट्रांसक्रिप्शन या अन्यथा की आवश्यकता नहीं है।
मुझे पता है कि सीएमयू स्फिंक्स आवाज पहचान नहीं करता है, और इसका मुख्य रूप से वॉयस-टू-टेक्स्ट के लिए उपयोग किया जाता है, लेकिन मैंने अन्य प्रणालियों को देखा है, उदाहरण के लिए: LIUM स्पीकर डायराइजेशन (http: //cmusphinx.sourceforge। नेट/विकी/स्पीकरडाइराइजेशन) या वॉयसआईडी प्रोजेक्ट (https://code.google.com/p/voiceid/) जो इस प्रकार के काम के लिए आधार के रूप में सीएमयू का उपयोग करता है।
यदि मैं सीएमयू का उपयोग करना चाहता हूं, तो मैं ध्वनि मिलान कैसे कर सकता हूं?
इसके अलावा, अगर सीएमयू स्फिंक्स सबसे अच्छा ढांचा नहीं है, तो क्या कोई वैकल्पिक विकल्प है जो ओपन सोर्स है?
कोई भी अनुवर्ती? यह क्या किया? क्या आप सफल हुए? – Dariusz