मैं एक पीडीएफ लाइब्रेरी की तलाश में हूं जो मुझे पीडीएफ दस्तावेज से पाठ निकालने की अनुमति देगा। मैंने पीईपीडीएफ को देखा है, और यह टेक्स्ट को पीडीएफ दस्तावेज से बहुत अच्छी तरह से निकाल सकता है। इसके साथ समस्या यह है कि यदि दस्तावेज़ में टेबल हैं, तो तालिका में पाठ शेष दस्तावेज़ टेक्स्ट के साथ ऑनलाइन निकाला जाता है। यह समस्याग्रस्त हो सकता है क्योंकि यह पाठ के उन वर्गों का उत्पादन करता है जो उपयोगी नहीं हैं और खराब दिखते हैं (उदाहरण के लिए, कई संख्याएं एक साथ मैश किए गए हैं)।पाइथन का उपयोग कर उन्नत पीडीएफ पार्सिंग (टेबल के बिना पाठ निकालने आदि): सर्वश्रेष्ठ लाइब्रेरी क्या है?
मैं कुछ थोड़ा और अधिक उन्नत है कि के लिए देख रहा हूँ। मैं किसी पीडीएफ दस्तावेज़, से टेक्स्ट को निकालना चाहता हूं किसी भी टेबल और विशेष स्वरूपण को छोड़कर। क्या वहां कोई पुस्तकालय है जो यह करता है? या क्या मुझे इन वर्गों से छुटकारा पाने के लिए आउटपुट टेक्स्ट पर कुछ पोस्ट-प्रोसेसिंग करने के लिए मजबूर किया गया है?
PDFMiner दिलचस्प लग रहा है। मैं उससे एक्सएमएल आउटपुट का उपयोग करने में सक्षम हूं, और उसके बाद उस चीज़ को अनदेखा कर सकता हूं जो मैं नहीं चाहता हूं। इसके लिए अभी भी पर्याप्त पोस्ट-प्रोसेसिंग की आवश्यकता है, लेकिन अभी के लिए यह शायद सबसे अच्छा समाधान है। धन्यवाद। –
@Etienne, क्या इसका उपयोग तब किया जा सकता है जब पीडीएफ में अन्य भाषा के पात्र भी हों? –
इसे अन्य भाषा वर्णों के साथ काम करना चाहिए। डॉक्स का उल्लेख है: सीजेके भाषाएं और लंबवत लेखन स्क्रिप्ट समर्थन। सुनिश्चित करने का सबसे अच्छा तरीका, इसका परीक्षण करें! – Etienne