मैंने पीडीएफ फाइलों से पाठ निकालने के लिए दोनों pyPdf और pdfMiner के साथ प्रयोग किया है। मेरे पास कुछ असभ्य पीडीएफ हैं जो केवल पीडीएफएमनर सफलतापूर्वक निकालने में सक्षम है। मैं संपूर्ण फ़ाइल के लिए पाठ निकालने के लिए कोड here का उपयोग कर रहा हूं। हालांकि, मैं वास्तव में प्रति पृष्ठ आधार पर पाठ निकालना चाहता हूं जैसे कि getPage(i).extractText()
कार्यक्षमता pyPdf में। क्या किसी को पता है कि पीडीएफएमनर का उपयोग कर प्रति पेज टेक्स्ट निकालने का तरीका कैसे है?पायथन पीडीएफमिनर के साथ प्रति पेज टेक्स्ट निकालें?
5
A
उत्तर
6
for pageNumber, page in enumerate(PDFDocument.get_pages()):
if pageNumber == 42:
#do something with the page
एक बहुत अच्छा लेख here है।
क्या कोई इस पर विस्तार कर सकता है? मुझे अपने सिर को पीडीएफमिनेर के आसपास लाने में बड़ी परेशानी हो रही है क्योंकि इसमें कोई दस्तावेज नहीं है। – Jazcash
इस कोड के लिए 'pdfminer' का कौन सा संस्करण काम करता है? –
यह वर्तमान * पीडीएफमिनेर * (20140328 लिखने के लेखन के समय) के साथ टूटा हुआ प्रतीत होता है। –