मुझे http://www.unicode.org/Public/5.1.0/ucd/UCD.html#Alphabetic में परिभाषित संपत्ति Alphabetic
के साथ यूनिकोड वर्णों की श्रेणियों की सूची की आवश्यकता है। हालांकि, मैं उन्हें यूनिकोड कैरेक्टर डाटाबेस में नहीं ढूंढ सकता, इससे कोई फर्क नहीं पड़ता कि मैं उनके लिए कैसे खोज करता हूं। क्या कोई निर्दिष्ट यूनिकोड गुण वाले वर्णों के लिए उनकी सूची या सिर्फ एक खोज सुविधा प्रदान कर सकता है?यूनिकोड वर्णमाला वर्णों की सूची
उत्तर
व्युत्पन्न कोर गुणों को अन्य गुणों से गणना की जा सकती है। से उत्पन्न:
वर्णमाला संपत्ति के रूप में परिभाषित किया गया है लू + करूँगा + लेफ्टिनेंट + एल एम + लो + Nl + Other_Alphabetic
तो, आप लू, II, लेफ्टिनेंट, एल एम, लो के सभी पात्रों पर ले, एनएल, और अन्य_एल्फाबेटिक संपत्ति वाले सभी पात्रों में आपके पास वर्णमाला वर्ण होंगे। अपने स्रोत से
प्रशस्ति पत्र: Generated from: Lu + Ll + Lt + Lm + Lo + Nl + Other_Alphabetic
ये Abbrevations here समझाया जा लगते हैं।
यूनिकोड कैरेक्टर डेटाबेस में वितरण में सभी टेक्स्ट फ़ाइलें शामिल हैं। यह सिर्फ एक ही फाइल नहीं है क्योंकि यह एक बार बहुत पहले था।
वर्णमाला संपत्ति एक व्युत्पन्न संपत्ति है।
आप वास्तव में इसके लिए कोड बिंदु श्रेणियों का उपयोग नहीं करना चाहते हैं। आप संपत्ति ठीक से का उपयोग करना चाहते हैं। ऐसा इसलिए है क्योंकि उनमें से बहुत सारे हैं। unichars script का उपयोग करना, हम सीखते हैं वहाँ हजार दस से अधिक सिर्फ बेसिक बहुभाषी विमान में अकेले हैं कि नहीं गिनती हान या हंगुल:
$ unichars '\p{Alphabetic}' | wc -l
10052
अगर हम अन्य 16 सूक्ष्म विमानों में शामिल हैं, अब हम चौदह पर हैं हजार:
$ unichars -a '\p{Alphabetic}' | wc -l
14736
और यदि हम हान और हंगुल, जो वास्तव में वर्णमाला संपत्ति करता है, हम सिर्फ छत एक सौ हजारों कोड अंक के विस्फोट से उड़ा दिया शामिल हैं:
$ unichars -ua '\p{Alphabetic}' | wc -l
101539
मुझे आशा है कि आप देख सकते हैं कि आप कोड बिंदु श्रेणियों का उपयोग करके इन्हें विशेष रूप से गणना करना चाहते हैं। नीचे वह सड़क पागलपन है।
वैसे, यदि आप पाते हैं unichars script उपयोगी, आप हो सकता है भी और शायद uninames script की तरह।
मुझे आपकी स्क्रिप्ट पसंद है! वे [SO प्रश्न] को हल करने के लिए बहुत उपयोगी होंगे (http://stackoverflow.com/questions/6246651/generate-uri-friendly-unicode-code-points-from-integer-counter) मेरे पास था। उन्हें बनाने के लिए बहुत बहुत धन्यवाद। प्रश्न: जब मैंने उपरोक्त अंतिम आदेश ('unichars -ua '\ p {Alphabetic}' | wc -l') चलाया, तो मुझे 101539 की बजाय 94332 लाइनें मिलीं। ऐसा कोई कारण क्यों हो सकता है? –
@Abe: मूर्ख कारण आप अभी तक यूनिकोड 6.0.0 नहीं चला रहे हैं।पर्ल का क्या संस्करण आप चल रहे हैं? 'कोरलिस्ट -एक यूनिकोड' आपको यूनिकोड संस्करणों के साथ पर्ल संस्करणों की जोड़ी दिखाएगा। बीटीडब्लू, अब मेरे रास्ते में और अधिक के साथ, मेरे [यूनिकोड टूलचेस्ट] (http://training.perl.com/scripts/) में है। – tchrist
आह हाँ, मैं अभी भी पर्ल 5 चला रहा हूं। मैं निश्चित रूप से पर्ल को अपग्रेड करूँगा और अपने नए टूल्स देख सकता हूं। धन्यवाद! –
मुझे UniView वेब एप्लिकेशन मिला जो एक अच्छा खोज इंटरफ़ेस प्रदान करता है। पत्र संपत्ति (स्थानीय अनचेक के साथ) के लिए खोज 14723 परिणाम देता है ...
पत्र संपत्ति वर्णमाला संपत्ति के समान नहीं है !!!! यूनिकोड 6.0.0 में, वर्णमाला संपत्ति के साथ 101539 कोड बिंदु हैं लेकिन पत्र संपत्ति के साथ केवल 100520, एक हजार वर्णों का अंतर है। बीटीडब्ल्यू, आपका 14k उत्तर परिमाण के क्रम से बंद है। – tchrist
आप सही हैं। बीटीडब्लू, मुझे लगता है कि यूनीवीव उपकरण हान और हंगुल को खाते में नहीं लेता है। – thSoft
यदि आप मेरा जवाब देखते हैं, तो मेरे पास आपके अनुरोध के अनुसार आपको निर्दिष्ट यूनिकोड गुणों वाले वर्णों के लिए एक खोज सुविधा प्रदान की गई है [मेरी यूनिर्स स्क्रिप्ट ] (http://training.perl.com/scripts/unichars)। का आनंद लें! – tchrist