मैं tika-core और tika-parser पुस्तकालय डाउनलोड करता हूं, लेकिन मुझे स्ट्रिंग के लिए HTML दस्तावेज़ों को पार्स करने के लिए उदाहरण कोड नहीं मिल सका। मुझे एक वेब पेज के स्रोत के सभी एचटीएमएल टैग से छुटकारा पाना है। मैं क्या कर सकता हूँ? अपाचे टिका का उपयोग करके मैं कोड कैसे करूं?सभी एचटीएमएल टैग निकालने के लिए जावा में अपाचे टिका के साथ एचटीएमएल पार्सर का उपयोग कैसे कर सकता हूं?
7
A
उत्तर
19
क्या आप एक HTML फ़ाइल का सादा पाठ संस्करण चाहते हैं?
InputStream input = new FileInputStream("myfile.html");
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
new HtmlParser().parse(input, handler, metadata, new ParseContext());
String plainText = handler.toString();
BodyContentHandler, जब कोई निर्माता तर्क के साथ या एक अक्षरों की सीमा के साथ बनाया, एचटीएमएल के शरीर के (केवल) पाठ को पकड़ने और इसे आपको वापस लौटा देगा: यदि हां, तो आप सभी की जरूरत की तरह कुछ है ।
+0
यह शब्दकोष, धन्यवाद। –
1
आप एचटीएमएल जैसी किसी भी प्रकार की फाइलों को पार्स करने के लिए आप Tika AutoDetectParser भी कर सकते हैं। यहाँ इस बात का एक सरल उदाहरण है:
try {
InputStream input = new FileInputStream(new File(path));
ContentHandler textHandler = new BodyContentHandler();
Metadata metadata = new Metadata();
AutoDetectParser parser = new AutoDetectParser();
ParseContext context = new ParseContext();
parser.parse(input, textHandler, metadata, context);
System.out.println("Title: " + metadata.get(metadata.TITLE));
System.out.println("Body: " + textHandler.toString());
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
} catch (SAXException e) {
e.printStackTrace();
} catch (TikaException e) {
e.printStackTrace();
}
उदाहरण पर एक नज़र डालें तो यह आपको मदद मिल सकती है http://blog.jeroenreijn.com/2010/04/metadata-extraction-with-apache-tika.html – Lalchand