2009-12-04 21 views
66

मैं एक पीडीएफ लाइब्रेरी की तलाश में हूं जो मुझे पीडीएफ दस्तावेज से पाठ निकालने की अनुमति देगा। मैंने पीईपीडीएफ को देखा है, और यह टेक्स्ट को पीडीएफ दस्तावेज से बहुत अच्छी तरह से निकाल सकता है। इसके साथ समस्या यह है कि यदि दस्तावेज़ में टेबल हैं, तो तालिका में पाठ शेष दस्तावेज़ टेक्स्ट के साथ ऑनलाइन निकाला जाता है। यह समस्याग्रस्त हो सकता है क्योंकि यह पाठ के उन वर्गों का उत्पादन करता है जो उपयोगी नहीं हैं और खराब दिखते हैं (उदाहरण के लिए, कई संख्याएं एक साथ मैश किए गए हैं)।पाइथन का उपयोग कर उन्नत पीडीएफ पार्सिंग (टेबल के बिना पाठ निकालने आदि): सर्वश्रेष्ठ लाइब्रेरी क्या है?

मैं कुछ थोड़ा और अधिक उन्नत है कि के लिए देख रहा हूँ। मैं किसी पीडीएफ दस्तावेज़, से टेक्स्ट को निकालना चाहता हूं किसी भी टेबल और विशेष स्वरूपण को छोड़कर। क्या वहां कोई पुस्तकालय है जो यह करता है? या क्या मुझे इन वर्गों से छुटकारा पाने के लिए आउटपुट टेक्स्ट पर कुछ पोस्ट-प्रोसेसिंग करने के लिए मजबूर किया गया है?

उत्तर

53

तुम भी अजगर में एक अन्य पीडीएफ पार्सर PDFMiner पर एक नज़र ले जा सकते हैं,।

PDFMiner की ख़ासियत है कि आपकी रुचि कर सकते हैं आप नियंत्रित कर सकते हैं कि यह कैसे पाठ भागों फिर से इकट्ठा जब निकालने कर रही है। आप लाइनों, शब्दों, पात्रों इत्यादि के बीच की जगह निर्दिष्ट करके ऐसा करते हैं, इसलिए, शायद आप इसे ट्वीक करके आप जो चाहते हैं उसे प्राप्त कर सकें (जो आपके दस्तावेज़ों की विविधता पर निर्भर करता है)। पीडीएफमिनर आपको पृष्ठ में टेक्स्ट का स्थान भी दे सकता है, यह ऑब्जेक्ट आईडी और अन्य सामान द्वारा डेटा निकाल सकता है। तो पीडीएफमिनर में खुदाई करें और रचनात्मक बनें!

लेकिन आपकी समस्या वास्तव में हल करने में आसान नहीं है क्योंकि, पीडीएफ में, पाठ निरंतर नहीं है, लेकिन पृष्ठ में बिल्कुल वर्णित वर्णों के बहुत से छोटे समूहों से बना है। पीडीएफ का ध्यान रखना लेआउट को बरकरार रखना है। यह सामग्री उन्मुख नहीं है लेकिन प्रस्तुति उन्मुख है।

+1

PDFMiner दिलचस्प लग रहा है। मैं उससे एक्सएमएल आउटपुट का उपयोग करने में सक्षम हूं, और उसके बाद उस चीज़ को अनदेखा कर सकता हूं जो मैं नहीं चाहता हूं। इसके लिए अभी भी पर्याप्त पोस्ट-प्रोसेसिंग की आवश्यकता है, लेकिन अभी के लिए यह शायद सबसे अच्छा समाधान है। धन्यवाद। –

+0

@Etienne, क्या इसका उपयोग तब किया जा सकता है जब पीडीएफ में अन्य भाषा के पात्र भी हों? –

+0

इसे अन्य भाषा वर्णों के साथ काम करना चाहिए। डॉक्स का उल्लेख है: सीजेके भाषाएं और लंबवत लेखन स्क्रिप्ट समर्थन। सुनिश्चित करने का सबसे अच्छा तरीका, इसका परीक्षण करें! – Etienne

-1

कि के बाद से हल करने के लिए एक कठिन समस्या है देखने में एक जैसी पीडीएफ़ कि वे किस तरह का उत्पादन किया गया के आधार पर एक बेतहाशा भिन्न संरचना हो सकता है। सबसे बुरे मामले में पुस्तकालय को मूल रूप से ओसीआर की तरह कार्य करने की आवश्यकता होगी। दूसरी ओर, पीडीएफ में टेबल और आंकड़ों को आसानी से हटाने के लिए पर्याप्त संरचना और मेटाडेटा हो सकता है, जिसे लाइब्रेरी का लाभ उठाने के लिए बनाया जा सकता है।

मैं बहुत यकीन है कि वहाँ कोई खुले स्रोत उपकरण जो पीडीएफ़ की एक विस्तृत विविधता के लिए आपकी समस्या का समाधान कर रहे हैं, लेकिन मैं वास्तव में वाणिज्यिक सॉफ्टवेयर आप के लिए क्या पूछना करने के लिए दावा करने के बारे में सुना होने याद है। मुझे यकीन है कि आप googling के दौरान उनमें भाग लेंगे।