पीडीएफ पाठ निष्कर्षण दृष्टिकोण ओसीआर

का उपयोग

किसी को भी एक पीडीएफ एक ओसीआर पुस्तकालय और जावा का उपयोग कर से पाठ निकाल करने का प्रयास किया गया है? पाठ निष्कर्षण के लिए आपको सबसे विश्वसनीय पुस्तकालय के रूप में क्या मिला। मैंने देखा है कि अधिकांश दृष्टिकोण (टेसेरैक्ट, जीओसीआर) सी पुस्तकालय हैं जिन्हें कुछ जेएनआई कोड लिखे जाने की आवश्यकता होगी।पीडीएफ पाठ निष्कर्षण दृष्टिकोण ओसीआर

मैं पीडीएफबॉक्स से परिचित हूं, जो अब संस्करण 0.8.x पर एक अपाचे इनक्यूबेटर प्रोजेक्ट है, लेकिन यह टेक्स्ट निष्कर्षण हमेशा सटीक नहीं है। मैं एक वैकल्पिक दृष्टिकोण की तलाश में हूं जो कुछ हद तक अधिक विश्वसनीय है।

मैंने कोशिश की प्रक्रिया में अभी तक Asprise JavaPDF को आजमाया नहीं है, लेकिन ओसीआर दृष्टिकोण (यदि यह संभव हो) के बारे में अधिक जानना चाहता था।

किसी भी मदद की सराहना की जाएगी।

स्रोत

2009-04-22 Jon

क्या आप एक संरचित पीडीएफ का उपयोग कर रहे हैं? यदि आपके पास पीडीएफ मेटाडेटा से पाठ को पकड़ने के लिए जावा में क्षमता है। – northpole

नहीं, सभी पीडीएफ संरचित नहीं हैं। – Jon

आप पाठ आधारित पीडीएफ से ओसीआर निकालना चाहते हैं तो आप एक छवि के लिए यह पहली कन्वर्ट करने के लिए हो सकता है।

स्रोत

2009-04-22 16:53:47

यदि आपके पास टेक्स्ट-आधारित पीडीएफ है, तो मैं दृढ़ता से PDFTextStream की अनुशंसा करता हूं। यह मुफ़्त नहीं है, लेकिन लाइसेंसिंग उचित है, और यह पीडीएफबॉक्स से काफी बेहतर है। पीडीएफबॉक्स कई पीडीएफ फाइलों पर चोक करता है जो नए उपकरणों द्वारा उत्पन्न होते हैं, और यह पीडीएफ के बारे में बहुत संगत नहीं है जो इसे संभाल सकता है। पीडीएफटेक्स्टस्ट्रीम किसी भी पीडीएफ को उस पर फेंक देता है, जिसमें एम्बेडेड पीएनजी छवियों वाले पीडीएफ शामिल हैं, जो पीडीएफबॉक्स नहीं कर सकता है।

यदि आप ओडीआर जोड़ने के लिए पीडीएफटेक्स्टस्ट्रीम लोगों को पकड़ते हैं, तो वे सुन सकते हैं।

स्रोत

2009-04-22 18:58:28

धन्यवाद, अच्छा लगता है, कीमत के बारे में दयालुता ... – Jon

कई सालों बाद, लेकिन अब पीडीएफटेक्स्टस्ट्रीम में एक मुफ्त संस्करण है (एक 1 ट्रेड कैप के साथ) –

यदि पीडीएफ पहले ही टेक्स्ट-आधारित है, तो ओसीआर पर चर्चा क्यों करें? बस पीडीएफबॉक्स, iText, PDFTextStream, या पाठ को पार्स करने के लिए जो कुछ भी उपयोग करें। जब पीडीएफ एक छवि है ओसीआर समय के लिए है, एक स्कैनर से कहते हैं। यदि पीडीएफ स्कैन की गई छवि है, न तो पीडीएफबॉक्स, आईटेक्स्ट, न ही पीडीएफटेक्स्टस्ट्रीम आपकी मदद करेगा। – mmcrae

आप Tesseract के जावा रैपर उपयोग कर सकते हैं - tesjeract या Tess4J - ओसीआर प्रदर्शन करने के लिए। हालांकि, पीडीएफ के लिए, आपको ओसीआर इंजन को खिलाने से पहले छवि (पीएनजी या टीआईएफएफ) में पहले कनवर्ट करना होगा।

VietOCR टेक्सटेक्ट टेक्स्ट निष्कर्षण निष्पादन योग्य निष्पादन योग्य कॉल करता है। यह पीडीएफ-टू-छवि रूपांतरण करने के लिए GhostScript का उपयोग करता है।

स्रोत

2011-05-15 00:43:52 nguyenq

हम ABBYY FineReader इंजन 11. का उपयोग वे जावा आवरण है।

सकारात्मक:

यह सब भाषाओं (अंग्रेजी, रूसी, उज़्बेक आदि) और कर असली ओसीआर (भले ही आप ओसीआर वे पहली और OCRing पर रेंडरिंग निष्पादित बिना पीडीएफ है) के साथ महान काम करता है।

विपक्ष:

यह खर्च होता है। आपको डेवलपर लाइसेंस और एंड-यूजर लाइसेंस खरीदना होगा।
और यह बेहद धीमी है।

स्रोत

2015-04-08 09:14:15 Andrew

उत्पाद के बारे में उत्तर देने और आपकी ईमानदारी के लिए धन्यवाद। कुछ सालों तक, उपकरण की सिफारिश करने के लिए पूछे जाने वाले प्रश्न ऑफ-विषय हैं, और उन्हें जवाब देने पर 'नहीं किया गया' माना जाता है। (वास्तव में, यदि प्रश्न का कोई उपयोग नहीं है तो सवाल हटा दिया जाना चाहिए) –

पीडीएफ पाठ निष्कर्षण दृष्टिकोण ओसीआर

उत्तर

संबंधित मुद्दे