2012-01-25 19 views
5

मैं वर्तमान में एक परियोजना पर काम कर रहा हूं जिसके लिए मुझे लगता है कि विभिन्न भाषाओं में शब्दों के ध्वन्यात्मक प्रस्तुतियों के साथ आने में सक्षम होना वास्तव में सहायक होगा। मुझे पता है कि एस्पेल यह बहुत अच्छा करता है, लेकिन मुझे नहीं लगता कि उनके ध्वन्यात्मक प्रस्तुतियों को प्राप्त करने का एक बहुत ही आसान तरीका है, इसलिए मैं पूछता हूं: शब्द और भाषा दिए गए शब्द के ध्वन्यात्मक प्रतिनिधित्व के लिए कुछ और अच्छा पैकेज है/बोली/उच्चारण/जो कुछ भी आ रहा है?विभिन्न मानव भाषाओं के लिए ध्वन्यात्मक प्रतिनिधित्व के लिए एक अच्छा पैकेज क्या है?

यह किसी भी विशेष भाषा में होने की आवश्यकता नहीं है, लेकिन यदि यह पर्ल था, तो यह सबसे अच्छा होगा।

मैंने पहले से ही Text::Phonetic में साउंडएक्स, मेटाफोन, डबलमैटफोन और अन्य सभी की कोशिश की है, और इनमें से कोई भी सामान बहुत अच्छा नहीं था - निश्चित रूप से कहीं भी Aspell में सामान के जितना अच्छा नहीं था।

+0

क्या phonetic उच्चारण अंतिम लक्ष्य या किसी अन्य साधन के साधन का उत्पादन कर रहा है? – Schwern

+0

दूसरे छोर के साधन। आखिरकार, लक्ष्य का उपयोग एक अस्पष्ट-स्वत: पूर्ण एल्गोरिदम के कार्यान्वयन में करना है। – Eli

+0

ओह प्रिय, यह मुश्किल है। जिनमें से कम से कम नहीं आंशिक शब्द बहुत अलग लग सकते हैं। "टी", "वें", "थ्रो", "थ्रू", "थ्रूग", "थ्रू"। मुझे संदेह है कि यह फोनेटिक्स का उपयोग करने की बजाय संभावनाओं के लिए एआई को बहुत प्रशिक्षण देगा। आप एक सेवा की तलाश करना चाहेंगे जो इसे प्रदान करता हो। – Schwern

उत्तर

1

पहली बात जो दिमाग में घूमती है Soundex है। बेशक, एक पर्ल मॉड्यूल Soundex भी है। हालांकि यह इनपुट से एक ध्वनि "कुंजी" उत्पन्न करने के लिए डिज़ाइन किया गया है, यह एक सामान्य कुंजी पर विभिन्न प्रकारों को मैप करने में उपयोगी हो सकता है।

+0

क्षमा करें, मुझे यह उल्लेख करना चाहिए था कि मैंने टेक्स्ट :: फोनेटिक में सबकुछ पहले से ही कोशिश की है, जिसमें साउंडएक्स इसमें से कोई भी बहुत अच्छा नहीं है। – Eli

+4

टेक्स्ट :: मेटाफोन के लेखक के रूप में, मैं कह सकता हूं कि यह चीजों के उच्चारण के बारे में बहुत अच्छा प्रतिनिधित्व नहीं है। साउंडएक्स भी बदतर है। वे दूसरी तरफ जाने के लिए और अधिक हैं, एक उच्चारण सुनने के लिए loo राजा क्या हो सकता है यह क्या हो सकता है। – Schwern

1

सीपीएएन में एक पैकेज टेक्स्ट :: Aspell है। उपयोगी हो सकता है।

+0

मैंने पहले देखा था, लेकिन मैं इसके माध्यम से एस्पेल के ध्वन्यात्मक प्रस्तुतियों के साथ सीधे इंटरफ़ेस करने का तरीका नहीं समझ सकता: - \ – Eli

0

मैं एक Google शैली सुझाव/सुधार प्रणाली बनाने की कोशिश कर रहा हूं, यह केवल ध्वन्यात्मक या एआई पर आधारित नहीं है, बल्कि बड़ी मात्रा में उपयोगकर्ता इनपुट पर आधारित है। जब कोई उपयोगकर्ता खोज करता है, और किसी भी लिंक में क्लिक नहीं करता है लेकिन फिर इनपुट और खोजों को सुधारता है, तो यह Google को फोनेटिक्स परीक्षण या शब्दकोश मिलान से "सही" लेखन के बारे में बहुत अधिक डेटा देता है। मुख्य समस्या मानव भाषा में ही है, ऐसा नहीं है कि लोग एक निश्चित तरीके से बोलते हैं या लिखते हैं, कई भाषाओं में अकेले रहने दें। बेशक, मैं गलत हो सकता है, लेकिन यदि आप एक पुस्तकालय है कि चलो की जरूरत है आप यह करते हैं: वास्तव में

getLanguage(string); 

मुझे लगता है कि काम कर देखना चाहते हैं,।

+0

Yup। बहुत सारे उपयोगकर्ता डेटा होने के साथ-साथ महत्वपूर्ण भी है। मेरे पास पहले से ही है, और यह सिस्टम का एक महत्वपूर्ण हिस्सा है। फोनेटिक प्रतिनिधित्व भी एक महत्वपूर्ण हिस्सा है, और यही वह हिस्सा है जो मेरे पास अभी नहीं है। – Eli

+0

ठीक है आप एक अच्छी शुरुआत के लिए सेट हैं, दूसरी तरफ जा रहा है बस दर्दनाक है। – AlfredoVR