2009-04-22 6 views
5
का उपयोग

किसी को भी एक पीडीएफ एक ओसीआर पुस्तकालय और जावा का उपयोग कर से पाठ निकाल करने का प्रयास किया गया है? पाठ निष्कर्षण के लिए आपको सबसे विश्वसनीय पुस्तकालय के रूप में क्या मिला। मैंने देखा है कि अधिकांश दृष्टिकोण (टेसेरैक्ट, जीओसीआर) सी पुस्तकालय हैं जिन्हें कुछ जेएनआई कोड लिखे जाने की आवश्यकता होगी।पीडीएफ पाठ निष्कर्षण दृष्टिकोण ओसीआर

मैं पीडीएफबॉक्स से परिचित हूं, जो अब संस्करण 0.8.x पर एक अपाचे इनक्यूबेटर प्रोजेक्ट है, लेकिन यह टेक्स्ट निष्कर्षण हमेशा सटीक नहीं है। मैं एक वैकल्पिक दृष्टिकोण की तलाश में हूं जो कुछ हद तक अधिक विश्वसनीय है।

मैंने कोशिश की प्रक्रिया में अभी तक Asprise JavaPDF को आजमाया नहीं है, लेकिन ओसीआर दृष्टिकोण (यदि यह संभव हो) के बारे में अधिक जानना चाहता था।

किसी भी मदद की सराहना की जाएगी।

+0

क्या आप एक संरचित पीडीएफ का उपयोग कर रहे हैं? यदि आपके पास पीडीएफ मेटाडेटा से पाठ को पकड़ने के लिए जावा में क्षमता है। – northpole

+1

नहीं, सभी पीडीएफ संरचित नहीं हैं। – Jon

उत्तर

1

आप पाठ आधारित पीडीएफ से ओसीआर निकालना चाहते हैं तो आप एक छवि के लिए यह पहली कन्वर्ट करने के लिए हो सकता है।

7

यदि आपके पास टेक्स्ट-आधारित पीडीएफ है, तो मैं दृढ़ता से PDFTextStream की अनुशंसा करता हूं। यह मुफ़्त नहीं है, लेकिन लाइसेंसिंग उचित है, और यह पीडीएफबॉक्स से काफी बेहतर है। पीडीएफबॉक्स कई पीडीएफ फाइलों पर चोक करता है जो नए उपकरणों द्वारा उत्पन्न होते हैं, और यह पीडीएफ के बारे में बहुत संगत नहीं है जो इसे संभाल सकता है। पीडीएफटेक्स्टस्ट्रीम किसी भी पीडीएफ को उस पर फेंक देता है, जिसमें एम्बेडेड पीएनजी छवियों वाले पीडीएफ शामिल हैं, जो पीडीएफबॉक्स नहीं कर सकता है।

यदि आप ओडीआर जोड़ने के लिए पीडीएफटेक्स्टस्ट्रीम लोगों को पकड़ते हैं, तो वे सुन सकते हैं।

+0

धन्यवाद, अच्छा लगता है, कीमत के बारे में दयालुता ... – Jon

+1

कई सालों बाद, लेकिन अब पीडीएफटेक्स्टस्ट्रीम में एक मुफ्त संस्करण है (एक 1 ट्रेड कैप के साथ) –

+0

यदि पीडीएफ पहले ही टेक्स्ट-आधारित है, तो ओसीआर पर चर्चा क्यों करें? बस पीडीएफबॉक्स, iText, PDFTextStream, या पाठ को पार्स करने के लिए जो कुछ भी उपयोग करें। जब पीडीएफ एक छवि है ओसीआर समय के लिए है, एक स्कैनर से कहते हैं। यदि पीडीएफ स्कैन की गई छवि है, न तो पीडीएफबॉक्स, आईटेक्स्ट, न ही पीडीएफटेक्स्टस्ट्रीम आपकी मदद करेगा। – mmcrae

1

आप Tesseract के जावा रैपर उपयोग कर सकते हैं - tesjeract या Tess4J - ओसीआर प्रदर्शन करने के लिए। हालांकि, पीडीएफ के लिए, आपको ओसीआर इंजन को खिलाने से पहले छवि (पीएनजी या टीआईएफएफ) में पहले कनवर्ट करना होगा।

VietOCR टेक्सटेक्ट टेक्स्ट निष्कर्षण निष्पादन योग्य निष्पादन योग्य कॉल करता है। यह पीडीएफ-टू-छवि रूपांतरण करने के लिए GhostScript का उपयोग करता है।

2

हम ABBYY FineReader इंजन 11. का उपयोग वे जावा आवरण है।

सकारात्मक:

  • यह सब भाषाओं (अंग्रेजी, रूसी, उज़्बेक आदि) और कर असली ओसीआर (भले ही आप ओसीआर वे पहली और OCRing पर रेंडरिंग निष्पादित बिना पीडीएफ है) के साथ महान काम करता है।

विपक्ष:

  • यह खर्च होता है। आपको डेवलपर लाइसेंस और एंड-यूजर लाइसेंस खरीदना होगा।

  • और यह बेहद धीमी है।

+0

उत्पाद के बारे में उत्तर देने और आपकी ईमानदारी के लिए धन्यवाद। कुछ सालों तक, उपकरण की सिफारिश करने के लिए पूछे जाने वाले प्रश्न ऑफ-विषय हैं, और उन्हें जवाब देने पर 'नहीं किया गया' माना जाता है। (वास्तव में, यदि प्रश्न का कोई उपयोग नहीं है तो सवाल हटा दिया जाना चाहिए) –