कम से कम 1,114,111 मान्य यूनिकोड कोड पॉइंट हैं। मेरा यूएस-मानक कीबोर्ड उन लोगों को बनाता है जो 1 और 127 (बेस 10) के बीच पहुंचने के लिए काफी आसान होते हैं।
जब आप उस सीमा से आगे निकलते हैं तो आप पुराने शैली के स्थानीय लोगों या अधिक आधुनिक यूटीएफ 8 (या अन्य यूनिकोड) कोड बिंदुओं में शामिल होना शुरू करते हैं। इनमें से कई कोड बिंदु दुनिया में कहीं भी कीबोर्ड से आसानी से पहुंचा जा सकते हैं। लेकिन अपने घर या कार्यालय के आराम से, आपको अपने कीबोर्ड से आसानी से सुलभ होने के लिए उन 1.1 मिलियन का एक छोटा सा सबसेट मिलेगा।
वहाँ एक यूनिकोड संपत्ति QMark
(लघु नाम) कहा जाता है, या Quotation_Mark
(लंबी नाम), कि 29 उद्धरण शैली कोड अंक भी शामिल है (UTF8, हेक्स में) है: 0x0022, 0x0027, 0x00ab, 0x00bb, 0x2018, 0x2019 , 0x201a, 0x201b, 0x201c, 0x201d, 0x201e, 0x201f, 0x2039, 0x203a, 0x300c, 0x300d, 0x300e, 0x300f, 0x301d, 0x301e, 0x301f, 0xfe41, 0xfe42, 0xfe43, 0xfe44, 0xff02, 0xff07, 0xff62, और 0xff63।
यहाँ देखो कि कैसे वे (अपने फोंट उन सब का समर्थन कल्पना करते हुए) है:
"'«»‘’‚‛“”„‟‹›「」『』〝〞〟﹁﹂﹃﹄"'「」
वहाँ एक यूनिकोड संपत्ति ASCII
है, जो न आश्चर्य की बात 0 और 127
के बीच 128 कोड बिंदु हैं होता है
मुझे एक यूनिकोड प्रॉपर्टी नहीं मिल रही है जो "सब कुछ जो ASCII नहीं है" निर्दिष्ट करता है, लेकिन आप इसे इस तथ्य के आधार पर जान लेंगे कि यह 0 .. 127 रेंज के बाहर आता है। 0x002d, 0x00ad, 0x058a, 0x1806, 0x2010, 0x2011, 0x2e17, 0x30fb, 0xfe63, 0xff0d, और 0xff65:
वहाँ भी एक Hyphen
यूनिकोड संपत्ति है कि ग्यारह कोड अंक होता है। मैं उन्हें यहां पेस्ट करने के लिए अनिच्छुक हूं, क्योंकि उनमें से कम से कम दो मेरे टर्मिनल में प्रस्तुत नहीं करते हैं। लेकिन यहाँ जाता है:
-֊᠆‐‑⸗・﹣-・
आप देख सकते हैं, कुछ अन्य लोगों से अप्रभेद्य हैं। जब मैं पर्ल 5.16 में Hyphen
प्रॉपर्टी का उपयोग करता हूं तो मुझे एक चेतावनी मिलती है कि विशेष यूनिकोड संपत्ति को बहिष्कृत किया जाता है। मुझे नहीं पता कि यह सिर्फ पर्ल के लिए है, या यदि यह सामान्य रूप से यूनिकोड के लिए है।
एक Dash
संपत्ति भी 27 कोड अंक युक्त है। मुझे लगता है कि आपको विचार मिलता है, इसलिए मैं उन्हें यहां समझाऊंगा। ... और एक अन्य नाम Dash_Punctuation
23 कोड अंक के साथ। ध्यान दें कि कई कोड बिंदुओं को एक से अधिक यूनिकोड संपत्ति द्वारा वर्गीकृत किया जा सकता है, इसलिए यह संभव है कि Hyphen
और Dash
के बीच ओवरलैप हो, और शायद Dash
और Dash_Punctuation
के बीच और भी ओवरलैप हो - मुझे नहीं पता और चेक नहीं किया गया है।
मुझे पता है कि यह किसी भी माध्यम से एक पर्ल-केंद्रित प्रश्न नहीं है, लेकिन मुझे पता चला है कि पर्ल के यहां यूनिकोड गुणों का बहुत अच्छा प्रलेखन है: perldoc perluniprops।
तो मुझे लगता है कि सवाल का संक्षिप्त जवाब है, "क्या और कुछ है?" हाँ है, लगभग 1.1 मिलियन अधिक हैं।
अद्यतन: इन अजीब पात्रों के बारे में क्या कहा जाता है इसके बारे में .... आपको कोड बिंदुओं और ग्लिफ के बीच अंतर करना होगा। एक कोड बिंदु एक यूनिकोड इकाई का स्पष्ट प्रतिनिधित्व है, जबकि ग्लिफ ऐसा दिखता है। अलग-अलग फोंट एक दूसरे से अलग दिए गए ग्लिफ को लागू कर सकते हैं। तो एक फ़ॉन्ट में वही दिखता है जो दूसरे में थोड़ा अलग दिख सकता है। यूनिकोड कोड पॉइंट्स, और उनके संबंधित पूर्ण नामों को अर्थपूर्ण अर्थ के रूप में सोचना शुरू करें, जबकि ग्लिफ सरल ग्राफिकल (अविश्वसनीय) प्रतिनिधित्व हैं।
क्या आप पूछ रहे हैं कि यूनिकोड संपत्ति सामान्य अक्षरों के साथ सुलभ सभी वर्णों का वर्णन करेगी और एएससीआईआई समकक्ष के लिए दृष्टिहीन रूप से गलत है? मुझे लगता है कि व्यक्तिपरक उत्तर पैदा करेगा, क्योंकि कीबोर्ड दुनिया भर में भिन्न होते हैं। मुझे लगता है कि मेरे पास शायद इस पर कोई गैर-ASCII कुंजी नहीं है। या आप विशेष रूप से पूछ रहे हैं कि यूनिकोड संपत्ति "वर्णों की तरह उद्धरण" की पहचान करेगी? – DavidO
मोरेसो यदि देव के बीच में इन peksy पात्रों के लिए एक शब्द है कि मुझे एक समाधान खोजने के लिए googling होना चाहिए जो पहले से ही इस फ़िल्टर को लागू किया है। – Mikey
वे वर्ण जो "सामान्य क्वर्टी कीबोर्ड के साथ सुलभ" हैं, इस पर निर्भर करते हैं कि आप किस एप्लिकेशन का उपयोग कर रहे हैं। एमएस वर्ड में, जब मैं डबल-कोट वर्ण टाइप करता हूं, तो उन्हें बाएं डबल कोटेशन मार्क (यू + 201 सी) और दाएं डबल कोटेशन मार्क (यू + 201 डी) में परिवर्तित कर दिया जाता है। जब मैं अपने वेब ब्राउज़र में बिल्कुल वही चीज़ टाइप करता हूं, तो वे केवल कोटेशन मार्क्स (यू +0022) हैं। –