2011-10-23 7 views
9

के साथ वर्ड को HTML में कनवर्ट करें, मुझे लगता है कि WordToHtmlConverter नामक एक कनवर्टर है लेकिन प्रक्रिया विधि का खुलासा नहीं किया गया है। मुझे एक दस्तावेज़ फ़ाइल कैसे पास करनी चाहिए और HTML फ़ाइल (या OutputStream) प्राप्त करना चाहिए?अपाचे पीओआई

+0

क्या यह आपकी पूछताछ है? http://stackoverflow.com/questions/227236/convert-word-doc-to-html-programmatically-in-java – enrique2334

+0

यह नहीं है ... अपाचे पीओआई में उनके पास पैकेज में एक नई कक्षा है org.apache.poi .hwpf.converter को संभालने के लिए ... लेकिन उन्हें उपयोग करने के तरीके पर कोई ट्यूटोरियल नहीं मिला। – Ron

उत्तर

18

यह कोड अब मेरे लिए काम कर रहा है!

HWPFDocumentCore wordDocument = WordToHtmlUtils.loadDoc(new FileInputStream("D:\\temp\\seo\\1.doc")); 

    WordToHtmlConverter wordToHtmlConverter = new WordToHtmlConverter(
      DocumentBuilderFactory.newInstance().newDocumentBuilder() 
        .newDocument()); 
    wordToHtmlConverter.processDocument(wordDocument); 
    Document htmlDocument = wordToHtmlConverter.getDocument(); 
    ByteArrayOutputStream out = new ByteArrayOutputStream(); 
    DOMSource domSource = new DOMSource(htmlDocument); 
    StreamResult streamResult = new StreamResult(out); 

    TransformerFactory tf = TransformerFactory.newInstance(); 
    Transformer serializer = tf.newTransformer(); 
    serializer.setOutputProperty(OutputKeys.ENCODING, "UTF-8"); 
    serializer.setOutputProperty(OutputKeys.INDENT, "yes"); 
    serializer.setOutputProperty(OutputKeys.METHOD, "html"); 
    serializer.transform(domSource, streamResult); 
    out.close(); 

    String result = new String(out.toByteArray()); 
    System.out.println(result); 
+0

क्या मुझे इसके लिए पूरा कोड मिल सकता है ..? –

+0

धन्यवाद रॉन। आपके सुझाव ने मुझे बचाया। मैंने प्रदान किए गए नमूने की कोशिश की लेकिन यह आरेखों (जैसे बॉक्स) के अंदर छवियों, तालिकाओं और सामग्रियों को छोड़ देता है। क्या उसे निकालने का कोई तरीका है। मैंने अलग-अलग छवियों को अलग से निकालने के लिए कुछ उदाहरण देखे। क्या सभी एक साथ पाने का कोई तरीका है। अन्यथा हम उन छवियों, सारणी को मूल फ़ाइल की स्थिति में बिल्कुल वैसे ही रख सकते हैं। आवश्यकता को पूरा करने के लिए "एचटीएमएल सामग्री के रूप में दस्तावेज़ फ़ाइलों को प्रस्तुत करना" (छवियों, तालिकाओं, आरेख आदि को छोड़ना नहीं) –