2012-10-29 37 views
10

जब एक सादे-पाठ संपादक (जैसे TextMate या उदात्त पाठ 2) एक आम समस्या में बाहरी स्रोतों से पाठ चिपकाने कि विशेष वर्ण अक्सर साथ ही में चिपकाया जाता है। इनमें से कुछ वर्ण ठीक प्रस्तुत करते हैं, लेकिन स्रोत के आधार पर, कुछ सही ढंग से प्रदर्शित नहीं हो सकते हैं (आमतौर पर इसके आस-पास के बॉक्स के साथ एक प्रश्न चिह्न के रूप में दिख रहे हैं)।मैं अपने टेक्स्ट एडिटर में एक विशेष चरित्र का कैरेक्टर कोड कैसे ढूंढ सकता हूं?

  1. विशेष वर्ण को देखते हुए (जैसे, 'या ♥) मैं UTF-8 वर्ण मेरी पाठ संपादक अंदर से उस चरित्र को प्रदर्शित करने के लिए प्रयोग किया जाता कोड निर्धारित कर सकते हैं, और:

    तो यह वास्तव में 2 सवाल है/या उन पात्रों को उनके चरित्र कोड में परिवर्तित करें?

  2. उन "अतिरिक्त विशेष" अक्षर है कि कचरा के रूप में आते हैं के लिए, वहाँ क्या एन्कोडिंग स्रोत पाठ में उस चरित्र को प्रदर्शित करने के लिए उपयोग किया गया यह पता लगाने की किसी भी तरह से है, और उन पात्रों किसी भी तरह बदला जा सकता है UTF-8 ?

+0

आपको इस [ऑनलाइन उपकरण] (https://www.soscisurvey.de/tools/view-chars.php) अज्ञात पात्रों के साथ तार पेस्ट और उनके यूनिकोड संख्या को देखने के लिए उपयोग कर सकते हैं। – BurninLeo

+0

एक बुनियादी सहायता के रूप में, मैं जो मैं अक्सर का उल्लेख रेंज विरासत 8 बिट अजगर, के लिए जाना जाता एनकोडिंग में 0x80-0xFF में सभी चरित्र कोड की एक टेबल बनाया है: https://cdn.rawgit.com/tripleee /8bit/master/encodings.html – tripleee

उत्तर

15

मेरे पात्रों को देख के लिए पसंदीदा साइट fileformat.info है। उनके पास एक महान यूनिकोड चरित्र खोज है जिसमें प्रत्येक चरित्र और इसके विभिन्न एन्कोडिंग के बारे में बहुत उपयोगी जानकारी शामिल है।

यदि आप बॉक्स के साथ प्रश्न चिह्न देखते हैं, तो इसका मतलब है कि आपने कुछ ऐसा चिपकाया जिसे व्याख्या नहीं किया जा सकता है, अक्सर क्योंकि यह कानूनी यूटीएफ -8 नहीं है (प्रत्येक बाइट अनुक्रम कानूनी यूटीएफ -8 नहीं है)। एक संभावना यह है कि यह एक एंडियन मोड के साथ यूटीएफ -16 है जिसे आपके संपादक की उम्मीद नहीं है। यदि आप फ़ाइल में पूर्ण मूल स्रोत प्राप्त कर सकते हैं, तो file कमांड एन्कोडिंग निर्धारित करने के लिए अक्सर सबसे अच्छा टूल होता है।

+0

यह लिंक उपयोगी था, और वहां से मैं http://www.i18nqa.com/debug/utf8-debug.html पर समाप्त हुआ जो कुछ सामान्य संदिग्धों वाली एक तालिका दिखाता है। – Michael

+0

@RobNapier यह अंतरिक्ष वर्णों के लिए काम नहीं करता है। – user2284570

7

&what मैं पात्रों के लिए खोज पर ध्यान केंद्रित करने के लिए एक उपकरण का निर्माण किया। यह अनुक्रमित सभी यूनिकोड और HTML इकाई टेबल, लेकिन यह भी हैकर शब्दकोशों और कीवर्ड्स मैं एकत्र किया है की एक डाटाबेस के साथ पूरा करता है, ताकि आप heart, quot, weather, umlaut, hash, cloverleaf जैसे शब्दों के लिए खोज और आप क्या चाहते हैं प्राप्त कर सकते हैं। खोज पर ध्यान केंद्रित करके, यह यूनिकोड पृष्ठों के आसपास शिकार करने से बचाता है, जो निराशाजनक हो सकता है। कोशिश करो।