2012-07-08 28 views
5

कई लोगों ने शायद वर्ड से कुछ वेबसाइट को किसी वेबसाइट फॉर्म या कुछ में कॉपी करने का अनुभव किया है, और सभी उद्धरण ('), डबल कोट्स ("), और डैश (-) गड़बड़ हो जाते हैं। मुझे विश्वास है कि उद्धरण को" स्मार्ट कोट्स "कहा जाता है। या "टाइपोग्राफर उद्धरण", लेकिन मुझे डैश का नाम पता नहीं है। क्या कोई श्रेणी है जिसमें इन पात्रों को शामिल किया गया है? क्या और अधिक हैं?क्या स्मार्ट कोट्स जैसे चरित्रों के लिए कोई श्रेणी या नाम है और वह डैश जो हमेशा टूटता है?

इस श्रेणी की विशेषताओं को डिस्क करना: सामान्य क्वर्टी कीबोर्ड के साथ सुलभ, और आसानी से नेत्रहीन अपने ASCII समकक्ष के लिए mistakable

यह सवाल एक ही मुद्दे से निपटने किया जा रहा है:।?, इसके अलावा How do I convert Word smart quotes and em dashes in a string? शायद वे "उन्हें डैश" कहा जाता है

+0

क्या आप पूछ रहे हैं कि यूनिकोड संपत्ति सामान्य अक्षरों के साथ सुलभ सभी वर्णों का वर्णन करेगी और एएससीआईआई समकक्ष के लिए दृष्टिहीन रूप से गलत है? मुझे लगता है कि व्यक्तिपरक उत्तर पैदा करेगा, क्योंकि कीबोर्ड दुनिया भर में भिन्न होते हैं। मुझे लगता है कि मेरे पास शायद इस पर कोई गैर-ASCII कुंजी नहीं है। या आप विशेष रूप से पूछ रहे हैं कि यूनिकोड संपत्ति "वर्णों की तरह उद्धरण" की पहचान करेगी? – DavidO

+0

मोरेसो यदि देव के बीच में इन peksy पात्रों के लिए एक शब्द है कि मुझे एक समाधान खोजने के लिए googling होना चाहिए जो पहले से ही इस फ़िल्टर को लागू किया है। – Mikey

+1

वे वर्ण जो "सामान्य क्वर्टी कीबोर्ड के साथ सुलभ" हैं, इस पर निर्भर करते हैं कि आप किस एप्लिकेशन का उपयोग कर रहे हैं। एमएस वर्ड में, जब मैं डबल-कोट वर्ण टाइप करता हूं, तो उन्हें बाएं डबल कोटेशन मार्क (यू + 201 सी) और दाएं डबल कोटेशन मार्क (यू + 201 डी) में परिवर्तित कर दिया जाता है। जब मैं अपने वेब ब्राउज़र में बिल्कुल वही चीज़ टाइप करता हूं, तो वे केवल कोटेशन मार्क्स (यू +0022) हैं। –

उत्तर

4

कम से कम 1,114,111 मान्य यूनिकोड कोड पॉइंट हैं। मेरा यूएस-मानक कीबोर्ड उन लोगों को बनाता है जो 1 और 127 (बेस 10) के बीच पहुंचने के लिए काफी आसान होते हैं।

जब आप उस सीमा से आगे निकलते हैं तो आप पुराने शैली के स्थानीय लोगों या अधिक आधुनिक यूटीएफ 8 (या अन्य यूनिकोड) कोड बिंदुओं में शामिल होना शुरू करते हैं। इनमें से कई कोड बिंदु दुनिया में कहीं भी कीबोर्ड से आसानी से पहुंचा जा सकते हैं। लेकिन अपने घर या कार्यालय के आराम से, आपको अपने कीबोर्ड से आसानी से सुलभ होने के लिए उन 1.1 मिलियन का एक छोटा सा सबसेट मिलेगा।

वहाँ एक यूनिकोड संपत्ति QMark (लघु नाम) कहा जाता है, या Quotation_Mark (लंबी नाम), कि 29 उद्धरण शैली कोड अंक भी शामिल है (UTF8, हेक्स में) है: 0x0022, 0x0027, 0x00ab, 0x00bb, 0x2018, 0x2019 , 0x201a, 0x201b, 0x201c, 0x201d, 0x201e, 0x201f, 0x2039, 0x203a, 0x300c, 0x300d, 0x300e, 0x300f, 0x301d, 0x301e, 0x301f, 0xfe41, 0xfe42, 0xfe43, 0xfe44, 0xff02, 0xff07, 0xff62, और 0xff63।

यहाँ देखो कि कैसे वे (अपने फोंट उन सब का समर्थन कल्पना करते हुए) है:

"'«»‘’‚‛“”„‟‹›「」『』〝〞〟﹁﹂﹃﹄"'「」

वहाँ एक यूनिकोड संपत्ति ASCII है, जो न आश्चर्य की बात 0 और 127

के बीच 128 कोड बिंदु हैं होता है

मुझे एक यूनिकोड प्रॉपर्टी नहीं मिल रही है जो "सब कुछ जो ASCII नहीं है" निर्दिष्ट करता है, लेकिन आप इसे इस तथ्य के आधार पर जान लेंगे कि यह 0 .. 127 रेंज के बाहर आता है। 0x002d, 0x00ad, 0x058a, 0x1806, 0x2010, 0x2011, 0x2e17, 0x30fb, 0xfe63, 0xff0d, और 0xff65:

वहाँ भी एक Hyphen यूनिकोड संपत्ति है कि ग्यारह कोड अंक होता है। मैं उन्हें यहां पेस्ट करने के लिए अनिच्छुक हूं, क्योंकि उनमें से कम से कम दो मेरे टर्मिनल में प्रस्तुत नहीं करते हैं। लेकिन यहाँ जाता है:

-­֊᠆‐‑⸗・﹣-・

आप देख सकते हैं, कुछ अन्य लोगों से अप्रभेद्य हैं। जब मैं पर्ल 5.16 में Hyphen प्रॉपर्टी का उपयोग करता हूं तो मुझे एक चेतावनी मिलती है कि विशेष यूनिकोड संपत्ति को बहिष्कृत किया जाता है। मुझे नहीं पता कि यह सिर्फ पर्ल के लिए है, या यदि यह सामान्य रूप से यूनिकोड के लिए है।

एक Dash संपत्ति भी 27 कोड अंक युक्त है। मुझे लगता है कि आपको विचार मिलता है, इसलिए मैं उन्हें यहां समझाऊंगा। ... और एक अन्य नाम Dash_Punctuation 23 कोड अंक के साथ। ध्यान दें कि कई कोड बिंदुओं को एक से अधिक यूनिकोड संपत्ति द्वारा वर्गीकृत किया जा सकता है, इसलिए यह संभव है कि Hyphen और Dash के बीच ओवरलैप हो, और शायद Dash और Dash_Punctuation के बीच और भी ओवरलैप हो - मुझे नहीं पता और चेक नहीं किया गया है।

मुझे पता है कि यह किसी भी माध्यम से एक पर्ल-केंद्रित प्रश्न नहीं है, लेकिन मुझे पता चला है कि पर्ल के यहां यूनिकोड गुणों का बहुत अच्छा प्रलेखन है: perldoc perluniprops

तो मुझे लगता है कि सवाल का संक्षिप्त जवाब है, "क्या और कुछ है?" हाँ है, लगभग 1.1 मिलियन अधिक हैं।

अद्यतन: इन अजीब पात्रों के बारे में क्या कहा जाता है इसके बारे में .... आपको कोड बिंदुओं और ग्लिफ के बीच अंतर करना होगा। एक कोड बिंदु एक यूनिकोड इकाई का स्पष्ट प्रतिनिधित्व है, जबकि ग्लिफ ऐसा दिखता है। अलग-अलग फोंट एक दूसरे से अलग दिए गए ग्लिफ को लागू कर सकते हैं। तो एक फ़ॉन्ट में वही दिखता है जो दूसरे में थोड़ा अलग दिख सकता है। यूनिकोड कोड पॉइंट्स, और उनके संबंधित पूर्ण नामों को अर्थपूर्ण अर्थ के रूप में सोचना शुरू करें, जबकि ग्लिफ सरल ग्राफिकल (अविश्वसनीय) प्रतिनिधित्व हैं।