2010-01-19 9 views
6

हाल ही में किए गए वेब एप्लिकेशन में, मैं सुखद आश्चर्यचकित था जब हमारे उपयोगकर्ताओं में से एक ने जापानी में पूरी तरह से कुछ बनाने के लिए इसका उपयोग करने का फैसला किया। हालांकि, पाठ अजीब और अजीब रूप से लपेटा गया था। स्पष्ट रूप से ब्राउज़र जापानी पाठ को बहुत अच्छी तरह से लपेटने का सामना नहीं करते हैं, शायद क्योंकि इसमें कुछ रिक्त स्थान हैं, क्योंकि प्रत्येक वर्ण एक संपूर्ण शब्द बनाता है। हालांकि, यह वास्तव में एक सुरक्षित धारणा नहीं है क्योंकि कुछ शब्द कई पात्रों के बने होते हैं, और कुछ वर्ण समूहों को अलग-अलग पंक्तियों में तोड़ना सुरक्षित नहीं है।जापानी के लिए वर्ड रैप एल्गोरिदम

चारों ओर गुगल करने से वास्तव में समस्या को समझने में मेरी मदद नहीं हुई है। ऐसा लगता है कि किसी को अटूट पैटर्न के शब्दकोश की आवश्यकता होगी, और मान लें कि हर जगह तोड़ने के लिए सुरक्षित है। लेकिन मुझे डर है कि मैं जापानी शब्दों के बारे में पूरी तरह से नहीं जानता कि वास्तव में उन सभी शब्दों को जान सकूं, जिन्हें मैं अपनी कुछ खोजों से समझता हूं, काफी जटिल हैं।

आप इस समस्या से कैसे संपर्क करेंगे? क्या कोई पुस्तकालय या एल्गोरिदम हैं जो आप जानते हैं कि पहले से मौजूद हैं जो इस संतोषजनक तरीके से निपटते हैं?

+1

सटीक डुप्लिकेट http://stackoverflow.com/questions/1605353/how-does-one-word-break-languages-without-spaces-between-words-like-asian-langua – Breton

+1

मुझे लगता है कि आप शब्द नहीं कर सकते जापानी शब्दों को समझने के बिना लपेटें ताकि आपको कम से कम एक जापानी शब्दकोश की आवश्यकता हो। मैं आपको यह नहीं बता सका कि कितना मुश्किल होगा या यदि कोई अस्पष्टता होगी (जिसका अर्थ है कि सही शब्द संदर्भ पर निर्भर करता है, जो इसे जटिल बना देगा)। – cletus

+2

वास्तव में डुप्लिकेट नहीं है - यह प्रश्न इंडेक्सिंग के उद्देश्य के लिए शब्दों में पाठ को तोड़ने के बारे में है। यह एक कठिन समस्या है। सौभाग्य से, लेआउट के लिए लपेटते समय इसे बड़े पैमाने पर अनदेखा किया जा सकता है। –

उत्तर

12

जापानी शब्द रैप नियम kinsoku shori कहा जाता है और आश्चर्यजनक रूप से सरल हैं। वे वास्तव में विराम चिह्नों के पात्रों से अधिक चिंतित हैं और शब्दों को अखंड रखने की कोशिश नहीं करते हैं।

मैंने अभी एक जापानी उपन्यास के साथ जांच की है और वास्तव में, सिलेबिक काना लिपि में दोनों शब्द और कई चीनी विचारधारा वाले शब्दों को मध्य-शब्द को दंड के साथ लपेटा गया है।

+0

मैंने अभी याहू जापान पर कोशिश की। ऐसा लगता है कि फ़ायरफ़ॉक्स किन्सोकू शोरी लागू करता है। मुझे एक बंद ब्रैकेट (जो मैंने चेक किया है) से शुरू करने के लिए एक लाइन नहीं मिल सका। सफारी के साथ, मैं कर सकता था। – Thilo

+0

टिप्पणी फॉर्म @ माइकल के अनुसार, मैंने पाया कि रैपिंग नियम जापानी भाषा के मामले में अलग हैं। चूंकि मुझे पीडीएफ में एचटीएमएल प्रस्तुत करते समय जापानी सामग्री को लपेटने पर कोई समस्या आ रही है, क्या सीएसएस या किसी अन्य तरीके से जापानी लपेटने का कोई तरीका है? – lambypie

+0

बस स्पष्ट करने के लिए, @ माइकल यह नहीं कह रहा है कि लाइन ब्रेकिंग एक मुफ़्त है। लाइन ब्रेक करने के तरीके के लिए विशिष्ट नियम हैं, और जिन मामलों में लाइन ब्रेक की अनुमति नहीं है। विकिपीडिया लेख जो वह लिंक करता है वह बहुत उपयोगी है। – mercurytw