किसी को भी एक पीडीएफ एक ओसीआर पुस्तकालय और जावा का उपयोग कर से पाठ निकाल करने का प्रयास किया गया है? पाठ निष्कर्षण के लिए आपको सबसे विश्वसनीय पुस्तकालय के रूप में क्या मिला। मैंने देखा है कि अधिकांश दृष्टिकोण (टेसेरैक्ट, जीओसीआर) सी पुस्तकालय हैं जिन्हें कुछ जेएनआई कोड लिखे जाने की आवश्यकता होगी।पीडीएफ पाठ निष्कर्षण दृष्टिकोण ओसीआर
मैं पीडीएफबॉक्स से परिचित हूं, जो अब संस्करण 0.8.x पर एक अपाचे इनक्यूबेटर प्रोजेक्ट है, लेकिन यह टेक्स्ट निष्कर्षण हमेशा सटीक नहीं है। मैं एक वैकल्पिक दृष्टिकोण की तलाश में हूं जो कुछ हद तक अधिक विश्वसनीय है।
मैंने कोशिश की प्रक्रिया में अभी तक Asprise JavaPDF को आजमाया नहीं है, लेकिन ओसीआर दृष्टिकोण (यदि यह संभव हो) के बारे में अधिक जानना चाहता था।
किसी भी मदद की सराहना की जाएगी।
क्या आप एक संरचित पीडीएफ का उपयोग कर रहे हैं? यदि आपके पास पीडीएफ मेटाडेटा से पाठ को पकड़ने के लिए जावा में क्षमता है। – northpole
नहीं, सभी पीडीएफ संरचित नहीं हैं। – Jon