5
मैं एक वेबपृष्ठ पार्स करने के लिए जेएसओपी का उपयोग कर रहा हूं। लेकिन कुछ अगर जानकारी जो मैं पार्स करना चाहता हूं वह एक सीडीएटीए टैग के अंदर है जो पार्सर को डेटा को निकालने से रोकती है। मैं सीडीएटीए टैग के भीतर से डेटा निकालने के बारे में कैसे जाउंगा? उदाहरण:Jsoup जावास्क्रिप्ट की सामग्री प्राप्त करता है जिसमें सीडीएटीए टैग हैं?
<script type='text/javascript'><!--// <![CDATA[
OA_show('300x250');
// ]]> --></script>
<script type='text/javascript'>alert("Hello");</script>
तो मैं Jsoup का उपयोग इस पेज को पार्स करने और साथ पेज में सभी था मिलान तत्वों का चयन "स्क्रिप्ट [type = पाठ/जावास्क्रिप्ट]" मैं पेज में अन्य लिपियों की सामग्री को लौटे मिल की कोशिश करना जिसमें सीडीएटीए टैग नहीं हैं लेकिन अलर्ट ("हैलो") नहीं; मूल्य। मैं Jsoup के साथ एक सीडीएटीए टैग के अंदर एक मूल्य प्राप्त करने के बारे में कैसे जाउंगा?
धन्यवाद!
मुझे नहीं लगता कि समस्या CDATA है, लेकिन यह आसपास के टिप्पणी। जेएसओपी पर वेबपृष्ठ टेक्स्ट भेजने से पहले क्या आप टिप्पणी और सीडीएटीए बकवास ('String.replace()' के साथ) को पट्टी नहीं कर सकते? इसे किसी भी चीज़ को प्रभावित नहीं करना चाहिए, एक सहिष्णु HTML पार्सर को पता होना चाहिए कि '