वॉयस/स्पीकर पहचान

के लिए सीएमयू स्फिंक्स मैं एक ज्ञात डेटा सेट से मेल खाने का एक तरीका ढूंढ रहा हूं, आइए एमपी 3 या वाव फाइलों की एक सूची कहें, प्रत्येक जो किसी के बोलने का नमूना है। इस बिंदु पर मुझे पता है कि फ़ाइल एबीसी व्यक्ति एक्स बोलने वाला है।वॉयस/स्पीकर पहचान

मैं फिर एक और नमूना लेना चाहूंगा, और यह दिखाने के लिए कुछ आवाज़ मिलान करूँगा कि यह आवाज किस ज्ञात डेटा सेट के बाद सबसे अधिक संभावना है।

इसके अलावा, मुझे जरूरी नहीं है कि व्यक्ति ने क्या कहा है, जब तक कि मैं एक मैच पा सकूं, यानी मुझे किसी भी ट्रांसक्रिप्शन या अन्यथा की आवश्यकता नहीं है।

मुझे पता है कि सीएमयू स्फिंक्स आवाज पहचान नहीं करता है, और इसका मुख्य रूप से वॉयस-टू-टेक्स्ट के लिए उपयोग किया जाता है, लेकिन मैंने अन्य प्रणालियों को देखा है, उदाहरण के लिए: LIUM स्पीकर डायराइजेशन (http: //cmusphinx.sourceforge। नेट/विकी/स्पीकरडाइराइजेशन) या वॉयसआईडी प्रोजेक्ट (https://code.google.com/p/voiceid/) जो इस प्रकार के काम के लिए आधार के रूप में सीएमयू का उपयोग करता है।

यदि मैं सीएमयू का उपयोग करना चाहता हूं, तो मैं ध्वनि मिलान कैसे कर सकता हूं?

इसके अलावा, अगर सीएमयू स्फिंक्स सबसे अच्छा ढांचा नहीं है, तो क्या कोई वैकल्पिक विकल्प है जो ओपन सोर्स है?

स्रोत

2013-01-10 Dominic

कोई भी अनुवर्ती? यह क्या किया? क्या आप सफल हुए? – Dariusz

यह एक ऐसा विषय है जो पीएचडी थीसिस के लिए जटिलता में पर्याप्त होगा। अभी के रूप में कोई अच्छी और भरोसेमंद प्रणाली नहीं है।

जो कार्य आप के लिए तैयार हैं वह बहुत ही जटिल है। आपको इसका दृष्टिकोण कैसे लेना चाहिए आपकी स्थिति पर निर्भर करता है।

क्या आपके पास सीमित मात्रा में लोग हैं? कितने?
प्रत्येक व्यक्ति के लिए आपके पास कितना डेटा है?

आप पहचान करने के लिए बहुत कम लोगों को है, तो आप उन लोगों के formants प्राप्त करने के लिए और उन्हें एक नमूना की तुलना के रूप में सरल कुछ प्रयास कर सकते हैं।

अन्यथा - आपको इस विषय पर काम करने वाले कुछ अकादमिकों से संपर्क करना होगा या जूरी रिग स्वयं का समाधान होगा। जैसा कि मैंने कहा, किसी भी तरह से, यह एक मुश्किल समस्या है।

स्रोत

2013-02-11 09:03:07 Dariusz

मैं आपके बयान के बारे में उत्सुक हूं कि कोई अच्छी और विश्वसनीय प्रणाली नहीं है। [यह पेपर] (http://publications.idiap.ch/downloads/papers/2012/Vijayasenan_INTERSPEECH2012_2012.pdf) ओपी द्वारा वर्णित चार डायराइजेशन फ्रेमवर्क और लियूम टूल (200 9 से) का उल्लेख काफी अच्छी तरह से किया जाता है उदा। स्फिंक्स समुदाय द्वारा। क्या इन मौजूदा दृष्टिकोणों में विशिष्ट सीमाएं हैं? –

मुझे लिखा होगा "मुझे कोई नहीं पता"। फिर भी, क्या आपने इन परिणामों को देखा है? वे महान नहीं हैं। बॉयोमीट्रिक फीचर के रूप में आवाज का उपयोग करना अभी भी अविश्वसनीय है। – Dariusz

उत्तर

संबंधित मुद्दे