2012-01-14 10 views
7

मुझे लगता है कि यूसीएस और यूनिकोड के कोडपॉइंट समान हैं, क्या मैं सही हूँ?हमें यूसीएस और यूनिकोड चरित्र सेट दोनों की आवश्यकता क्यों है?

उस मामले में, हमें दो मानकों (यूसीएस और यूनिकोड) की आवश्यकता क्यों है?

+2

मैं सवाल और उससे अधिक टिप्पणी "कारण है कि हम पत्र की जरूरत है" के बीच सादृश्य नहीं दिख रहा। IMO, सवाल एक अच्छा और उचित एक –

उत्तर

17

वे दो मानक नहीं हैं। यूनिवर्सल कैरेक्टर सेट (यूसीएस) एक मानक नहीं है, लेकिन मानक में परिभाषित कुछ, अर्थात् आईएसओ 10646। इसे एन्कोडिंग, जैसे यूसीएस -2 के साथ भ्रमित नहीं किया जाना चाहिए।

यह अनुमान लगाना मुश्किल है कि क्या आप वास्तव में अलग-अलग एन्कोडिंग या विभिन्न मानकों का मतलब रखते हैं। लेकिन बाद के संबंध में, यूनिकोड और आईएसओ 10646 मूल रूप से विभिन्न लक्ष्यों और रणनीतियों के साथ दो अलग मानकीकरण प्रयास थे। हालांकि, 1 99 0 के दशक में उन्हें दो अलग-अलग मानकों के परिणामस्वरूप सभी गड़बड़ी से बचने के लिए सामंजस्य बनाया गया था। उन्हें समन्वयित किया गया है ताकि कोड बिंदु वास्तव में समान हों।

वे अलग रखा गया था, हालांकि, क्योंकि आंशिक रूप से यूनिकोड एक उद्योग संघ द्वारा परिभाषित किया गया है कि लचीलेपन काम कर सकते हैं और सरल कोड बिंदु कार्य से परे चीजों के मानकीकरण में बहुत रुचि है। यूनिकोड मानक केवल पात्रों के बजाय सिद्धांतों और प्रसंस्करण नियमों की एक बड़ी संख्या को परिभाषित करता है। आईएसओ 10646 एक औपचारिक मानक है जिसे आईएसओ और उसके सदस्यों के मानकों और अन्य दस्तावेजों में संदर्भित किया जा सकता है।

9

कोडपॉइंट समान हैं लेकिन कुछ अंतर हैं। the Wikipedia entry about the differences between Unicode and ISO 10646 (i.e. UCS) से:

उन दोनों के बीच अंतर यह है कि यूनिकोड नियमों और विनिर्देशों है कि आईएसओ 10646 ISO 10646 के दायरे से बाहर कर रहे हैं एक साधारण चरित्र नक्शा, आईएसओ 8859. की तरह पिछले मानकों इसके विपरीत का एक विस्तार है कहते है, यूनिकोड मिलान के लिए नियम, रूपों को सामान्य, और हिब्रू और अरबी

तरह स्क्रिप्ट के लिए द्विदिश एल्गोरिथ्म आप को पढ़ने के लिए उपयोगी लग सकते कहते हैं the Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!)

मुझे लगता है कि जिस तरह से मतभेद कॉड से आते हैं ई अंक एन्कोडेड हैं। यूसीएस-एक्स कोड बिंदु को एन्कोड करने के लिए निश्चित बाइट्स का उपयोग करता है। उदाहरण के लिए, यूसीएस -2 दो बाइट्स का उपयोग करता है। हालांकि, यूसीएस -2 कोड कोड को एन्कोड नहीं कर सकता है जिसके लिए 2 बाइट्स की आवश्यकता होगी। दूसरी तरफ, यूटीएफ एन्कोडिंग के लिए बाइट्स की परिवर्तनीय मात्रा का उपयोग करता है। उदाहरण के लिए, UTF-8 (ASCII वर्ण के लिए) कम से कम एक बाइट का उपयोग करता है, लेकिन अधिक बाइट्स का उपयोग करता है, तो चरित्र ascii सीमा के बाहर है।

+2

+1 सॉफ्टवेयर * लेख पर * जोएल के लिए लिंक के लिए है। – DaveE