के लिए आधारित पीडीएफ पाठ निष्कर्षण मैं चालान और बिल पीडीएफ फाइलोंनियम verious बिल और चालान
से पाठ निकाल करने के लिए फ़ाइलों लेआउट जटिल प्राप्त कर सकते हैं, हालांकि इसके ज्यादातर टेबल से भर दिया है।
मैंने पहले से ही पीडीएफ प्रारूप के बारे में कुछ दर्जन लेख पढ़े हैं, हमारे दिमाग को समझने के लिए यह कितना आसान है और मशीन को इसकी संरचना को समझना कितना मुश्किल है।
पाइथन के पीडीएफमिनेर और कुछ जावा टूल्स जैसे कुछ टूल्स भी डाउनलोड किए गए हैं, कुछ में नियम आधारित लेआउट निष्कर्षण भी है, जैसे कि LA-PDBtext ये सभी बेहतरीन पुस्तकालय हैं, जो आपको अंतिम चरण छोड़ देते हैं।
एडोब भी exportPdf कहा जाता है एक ऑनलाइन सेवा है, लेकिन यह अनुकूलित नहीं किया जा सकता
नीचे लाइन, मैं समझता हूँ कुछ है कि आदेश संरचित पीडीएफ फाइलों से पाठ निकाल और यह उदाहरण के लिए एक्सएमएल कन्वर्ट करने के लिए में, वहाँ होना चाहिए मैन्युअल काम का स्तर।
मुझे From Data Extractor भी मिला, जो नौकरी करने का दावा करने वाले निष्कर्षण नियमों को सेट करने की क्षमता के साथ एक गैर-मुक्त उपकरण है, हालांकि उचित मैनुअल ढूंढना मुश्किल है और यह केवल विंडोज़ पर चलता है।
मैंने सोचा कि मैं उन फ़ाइलों को छवियों में कनवर्ट करने का प्रयास भी कर सकता हूं और tesseract-ocr आज़मा सकता हूं लेकिन इससे पहले कि मैं अधिक समय बिताता हूं, सलाह देने का फैसला किया।
यदि मैं इस तरह के अनुभव वाले किसी व्यक्ति को संकेत देता हूं तो मैं बहुत आभारी रहूंगा।
जब तक ये पीडीएफ पीडीएफ/ए -1 ए अनुरूप नहीं होते हैं, तो आप बहुत सारे काम में हैं - आपको मूल रूप से ओसीआर करना होगा। पीडीएफ इसके लिए सही प्रारूप नहीं है; इनवॉइस और बिलों को उचित रूप से संरचित एक्सएमएल या इसके बजाय EDIFACT के रूप में प्राप्त करने का प्रयास करें। –
अरे मुझे पता है कि यह एक पुरानी पोस्ट है, लेकिन Tabula https://github.com/jazzido/tabula-extractor आज़माएं – blaze