2008-08-25 14 views
12

में सलाह देते हैं मैं आदेश कुछ विशेषताओं/टैग आदिक्या एचटीएमएल पार्स पुस्तकालयों आप जावा

क्या एचटीएमएल पारसर्स आप की सिफारिश करते हैं के मूल्यों खोजने के लिए कुछ HTML पार्स करने के लिए करना चाहते हैं? कोई पेशेवर और विपक्ष?

उत्तर

12

NekoHTML, TagSoup, और JTidy आपको HTML को पार्स करने और XPath जैसे XML टूल के साथ प्रक्रिया करने की अनुमति देगा।

+0

XPath HTML पार्सिंग का तरीका है, यह खराब गठित HTML के मामले में भी मदद करता है जहां रेगेक्स विफल रहता है। –

7

मैंने HTML Parser को आजमाया है जो कि सरल है।

+0

मैंने एक प्रोजेक्ट पर एचटीएमएल पार्सर का उपयोग किया है और यह –

+1

के रूप में बिल्कुल काम करता है लेकिन वहां बहुत सारे ट्यूटोरियल उपलब्ध नहीं हैं ... – Lily

+0

मैंने देखा है कि बहुत सारे जावास्क्रिप्ट स्निपेट (और तत्व विशेषताओं) मेरे अनुमानित "टेक्स्ट नोड में रेंगते हैं "निष्कर्ष। ऐसे कुछ मामले भी हैं जहां विकृत एचटीएमएल ने पूरे पार्सिंग ऑपरेशन को विफल कर दिया। इसलिए मैं अपने स्वयं के प्रोजेक्ट में एचटीएमएल पार्सर लाइब्रेरी को थोड़ा बेहतर तरीके से बदलना चाहता हूं। – benjismith

1

क्या आपको HTML का पूर्ण विश्लेषण करने की आवश्यकता है? यदि आप केवल सामग्री (विशिष्ट टैग/पैरामीटर) के भीतर विशिष्ट मानों की तलाश में हैं, तो एक साधारण नियमित अभिव्यक्ति पर्याप्त हो सकती है, और बहुत तेज़ी से हो सकती है।