मेरे सी # कोड में, मैं एक पीडीएफ दस्तावेज़ से पाठ निकालने जा रहा हूं। जब मैं ऐसा करता हूं, तो मुझे एक स्ट्रिंग मिलती है जो यूटीएफ -8 या यूनिकोड एन्कोडिंग में है (मुझे यकीन नहीं है)। जब मैं Encoding.UTF8.GetBytes(src);
का उपयोग यह एक बाइट सरणी में परिवर्तित करने के लिए, मैं नोटिस कि खाली स्थान के वास्तव में और 160व्हाइटस्पेस के लिए यूटीएफ एन्कोडिंग को कैसे ठीक किया जाए?
उदाहरण के लिए 194 की बाइट मूल्यों के साथ दो वर्ण है स्ट्रिंग "CLE कार्रवाई" लग रहा है
तरह[67, 76, 69, 194 ,160, 65 ,99, 116, 105, 111, 110]
एक बाइट सरणी में, जहां व्हाइटस्पेस 1 9 4 और 160 है ... और इस वजह से src.IndexOf("CLE action");
वापस लौटा रहा है -1 जब मुझे इसे वापस करने की आवश्यकता है 1.
मैं स्ट्रिंग के एन्कोडिंग को कैसे ठीक कर सकता हूं?
मैं एक सामान्य स्थान के साथ एक गैर-ब्रेकिंग स्पेस को कैसे बदल सकता हूं? – omega
@omega: src = src.Replace ('\ u00A0', ''); – RichieHindle