उन्होंने भाषण (टीटीएस) को टेक्स्ट कैसे कार्यान्वित किया? क्या टीटीएस संश्लेषण के लिए एक खुला, मुफ्त एपीआई है? मुझे Google अनुवाद के बारे में पता है, लेकिन लाइसेंस मुझे स्पष्ट नहीं है (एक और मुद्दा यह है कि यदि वे रेफरर होते हैं तो वे अनुरोध को अवरुद्ध करते हैं)। कोई उपाय?Quizlet.com पर भाषण के लिए पाठ
उत्तर
Majdron,
मैं Quizlet स्कोर में आगे डेवलपर हूं। हम अपनी खुद की तकनीक का संयोजन और कई अलग-अलग कंपनियों से लाइसेंसिंग/खरीद टीटीएस सॉफ्टवेयर का उपयोग कर रहे हैं।
कुछ खुला स्रोत हैं टीटीएस इंजन/आवाज:
- http://www.cstr.ed.ac.uk/projects/festival/
- http://www.babelfish.org/tts-free.htm
- http://espeak.sourceforge.net/
- http://freetts.sourceforge.net/docs/index.php
- http://mary.dfki.de/
शुभकामनाएँ!
Google ने अभी तक HTML5 के माध्यम से अपने भाषण इंजन में ब्राउज़र-आधारित पहुंच पेश की है।
http://slides.html5rocks.com/#speech-input
यह पेज काम करने के लिए पाने के लिए, Ubuntu में इस प्रकार मैं क्रोमियम ब्राउज़र का शुभारंभ:
$ chromium-browser --enable-speech-input
मुझे यकीन है कि नहीं कर रहा हूँ अगर यह अन्य ऑपरेटिंग सिस्टम में काम करता है।
एक और दिलचस्प परियोजना एमआईटी से वामी है:
आवाज वास्तव में ध्वनि http://www.neospeech.com के रूप में ही। साथ ही, उनकी भाषाओं की सूची बिल्कुल मेल खाती है।
यह मुफ़्त नहीं है, आपको इसे लाइसेंस देना होगा।
मुझे नहीं पता कि कौन सा विशिष्ट इंजन क्विज़लेट उपयोग कर रहा है, लेकिन मानते हैं कि वे एक मुफ्त सेवा का उपयोग कर रहे हैं तो यह टीटीएस-एपीआई (http://tts-api.com/) हो सकता है जिसे हाल ही में हैकर न्यूज़ पर दिखाया गया था।
जो मुझे पता है उससे ही एकमात्र "उपयोग में आसान" टीटीएस वेब-एपीआई है। अगर मैं गलत हूं तो कृपया नीचे टिप्पणी करें - मुझे मुफ्त सेवाओं को ढूंढना अच्छा लगेगा। वहां बहुत सारे भुगतान केवल सेवाएं हैं लेकिन बहुत कम वास्तव में मुफ्त हैं।
एचएन पर टीटीएस-एपीआई के बारे में पता लगाने के बाद से मैंने हाल ही में ऐप प्रोजेक्ट में इसका सफलतापूर्वक उपयोग किया है। चूंकि टीटीएस केवल एक HTTP fetch दूर है, इसलिए मैं इसे अपने ऐप के आईओएस और एंड्रॉइड संस्करणों में जल्दी से एकीकृत करने में सक्षम था। यह सेवा बहुत तेज प्रतीत होती है, इसलिए अब तक कोई शिकायत नहीं है :-)
किसी ने भी सही उत्तर नहीं दिया। उनके पास अपना स्वयं का टीटीएस इंजन है जो http://quizlet.com/tts/en.mp3 पर स्थित एक फ़ाइल से जुड़ा हुआ है, फ़ाइल इसके साथ तर्क लेती है ताकि यूआरएल http://quizlet.com/tts/en.mp3?v=14&b=QXJlYSBvZiBwYXJhbGxlbG9ncmFt&s=m5dx52Q हो। कहते हैं "समांतरोग्राम का क्षेत्र" बीएस लेबल की पहली बेस 64 स्ट्रिंग धन्यवाद। मुझे पता नहीं चला कि वी या एस का क्या उपयोग किया जाता है लेकिन मुझे पता है कि फ़ाइल बोलने के लिए वे आवश्यक हैं। मैं और अधिक शोध करूँगा और इस जवाब पर वापस आऊंगा।
जेजे बी सही है। क्विज़लेट की भाषण सुविधाओं का मुख्य इंजन नियोस्पेक है, और जहां तक मैं कह सकता हूं, नियोस्पेक की वीटीएमएल (वॉयसटेक्स्ट [टीएम] मार्कअप लैंग्वेज) का उपयोग करता है।
यह जे जे बी के मौजूदा उत्तर पर एक टिप्पणी के रूप में अधिक उपयुक्त होगा (या जैसा कि आप अभी तक उन उत्तरों पर टिप्पणी नहीं कर सकते हैं जो आपके नहीं हैं, एक साधारण * अपवॉट * उचित होगा)। – JonK
यह टीटीएस पक्ष की बजाय आवाज पहचान पक्ष में है जिसे ओपी पूछ रहा था। क्विज़लेट एमआईटी के वामी का भी उपयोग कर रहा है। – philfreo