सभी एचटीएमएल टैग निकालने के लिए जावा में अपाचे टिका के साथ एचटीएमएल पार्सर का उपयोग कैसे कर सकता हूं?

मैं tika-core और tika-parser पुस्तकालय डाउनलोड करता हूं, लेकिन मुझे स्ट्रिंग के लिए HTML दस्तावेज़ों को पार्स करने के लिए उदाहरण कोड नहीं मिल सका। मुझे एक वेब पेज के स्रोत के सभी एचटीएमएल टैग से छुटकारा पाना है। मैं क्या कर सकता हूँ? अपाचे टिका का उपयोग करके मैं कोड कैसे करूं?सभी एचटीएमएल टैग निकालने के लिए जावा में अपाचे टिका के साथ एचटीएमएल पार्सर का उपयोग कैसे कर सकता हूं?

स्रोत

2011-03-25 lkalay

उदाहरण पर एक नज़र डालें तो यह आपको मदद मिल सकती है http://blog.jeroenreijn.com/2010/04/metadata-extraction-with-apache-tika.html – Lalchand

क्या आप एक HTML फ़ाइल का सादा पाठ संस्करण चाहते हैं?

 InputStream input = new FileInputStream("myfile.html"); 
     ContentHandler handler = new BodyContentHandler(); 
     Metadata metadata = new Metadata(); 
     new HtmlParser().parse(input, handler, metadata, new ParseContext()); 
     String plainText = handler.toString();

BodyContentHandler, जब कोई निर्माता तर्क के साथ या एक अक्षरों की सीमा के साथ बनाया, एचटीएमएल के शरीर के (केवल) पाठ को पकड़ने और इसे आपको वापस लौटा देगा: यदि हां, तो आप सभी की जरूरत की तरह कुछ है ।

स्रोत

2011-04-02 10:15:39 Gagravarr

यह शब्दकोष, धन्यवाद। –

आप एचटीएमएल जैसी किसी भी प्रकार की फाइलों को पार्स करने के लिए आप Tika AutoDetectParser भी कर सकते हैं। यहाँ इस बात का एक सरल उदाहरण है:

try { 
     InputStream input = new FileInputStream(new File(path)); 
     ContentHandler textHandler = new BodyContentHandler(); 
     Metadata metadata = new Metadata(); 
     AutoDetectParser parser = new AutoDetectParser(); 
     ParseContext context = new ParseContext(); 
     parser.parse(input, textHandler, metadata, context); 
     System.out.println("Title: " + metadata.get(metadata.TITLE)); 
     System.out.println("Body: " + textHandler.toString()); 
    } catch (FileNotFoundException e) { 
     e.printStackTrace(); 
    } catch (IOException e) { 
     e.printStackTrace(); 
    } catch (SAXException e) { 
     e.printStackTrace(); 
    } catch (TikaException e) { 
     e.printStackTrace(); 
    }

स्रोत

2014-08-12 22:51:17 UserNeD

सभी एचटीएमएल टैग निकालने के लिए जावा में अपाचे टिका के साथ एचटीएमएल पार्सर का उपयोग कैसे कर सकता हूं?

उत्तर

संबंधित मुद्दे