के साथ प्रसंस्करण मेरे पास एक फ़ाइल है, जो एक्सएमएल प्रारूप में है (केवल रूट स्टार्ट और एंड टैग, और रूट के बच्चे हैं)। बच्चों के टेक्स्ट तत्वों में एम्परसेंड प्रतीक & होता है। एक्सएमएल में दस्तावेज़ को वैध होने के लिए इस प्रतीक को रखने की अनुमति नहीं है, और जब मैंने जावा में डीओएम एपीआई और एक्सएमएल पार्सर का उपयोग करके फ़ाइल को संसाधित करने का प्रयास किया, तो मुझे पार्सिंग त्रुटियां मिलीं। इसलिए, मैंने & को &
के साथ बदल दिया है, और मैंने फ़ाइल को सफलतापूर्वक संसाधित किया: मुझे अलग-अलग सादा पाठ फ़ाइलों में टेक्स्ट तत्वों के मान निकालना पड़ा।एक्सएमएल फाइलों में विशेष पात्र - डीओएम एपीआई
जब मैंने इन नव निर्मित टेक्स्ट फ़ाइलों को खोला, तो मुझे &
देखने की उम्मीद थी, लेकिन इसके बजाय & था। ऐसा क्यों है? मैंने टेक्स्ट को बिना किसी एक्सटेंशन के टेक्स्ट टेक्स्ट में संग्रहीत किया है (XML प्रारूप के साथ मेरी मूल फ़ाइल में .xml एक्सटेंशन भी नहीं था), और मेरे पास नई फ़ाइल के टेक्स्ट में केवल & है, इससे कोई फर्क नहीं पड़ता कि मैं फ़ाइल कैसे खोलता हूं: txt या xml फ़ाइल के रूप में (ये मेरे XML संपादक में कुछ विकल्प हैं)। वास्तव में क्या होता है? क्या जावा (?) &
से & स्वचालित रूप से परिवर्तित करता है? या कुछ डिफ़ॉल्ट एन्कोडिंग है? खैर, &
& के लिए खड़ा है, और मुझे लगता है कि कुछ "अदृश्य" स्वचालित रूपांतरण है, लेकिन मैं उलझन में हूं कि यह कब और कैसे होता है। यहाँ के बाद मैं जावा के साथ मूल फ़ाइल संसाधित जो मैं प्राप्त मेरी मूल फ़ाइल और निकाले फ़ाइल के उदाहरण हैं:
यह XML स्वरूप में मेरे "negative.review" फ़ाइल है:
<review>
<review_text>
I will not wear it as it is too big & looks funny on me.
</review_text>
</review>
यह मेरा है निकाले फ़ाइल "negative_1":
I will not wear it as it is too big & looks funny on me.
मेरे लिए यह रूप में यह (किसी भी रूपांतरण/प्रतिस्थापन कर के बिना) है मूल डेटा के लिए महत्वपूर्ण है, इसलिए मैंने सोचा कि मैं निकाले फ़ाइल "negative_1" परिवर्तित करने की प्रक्रिया करने के लिए है कि वापस &
से &। जैसा कि आप देखते हैं, ऐसा लगता है कि मुझे ऐसा करने की ज़रूरत नहीं है। लेकिन मुझे समझ नहीं आता क्यों :(।
अग्रिम धन्यवाद!
बस एक टिप्पणी: "रूट प्रारंभ और अंत टैग, और रूट के बच्चे शामिल हैं"। एक्सएमएल की यह बहुत परिभाषा है (केवल एक मूल तत्व है)। – PhiLho
http://stackoverflow.com/questions/4341145/how-to-deal-with-special-characters-in-urls-inside-xml – sandeepKumar