से निर्देशांक और आकार के साथ छवियों और शब्दों को निकालें मैंने पीडीएफ निष्कर्षणों और पुस्तकालयों (iText के रूप में) के बारे में बहुत कुछ पढ़ा है, लेकिन मुझे पीडीएफ से छवियों और पाठ (निर्देशांक के साथ) निकालने का कोई समाधान नहीं मिला है।पीडीएफ
कार्य पीडीएफ को उत्पादों की सूची के साथ स्कैन करना और प्रत्येक छवि निकालना है। छवि पर दिखाए गए उत्पादों के लिए छवि कोड प्रत्येक छवि के बगल में मुद्रित है और उत्पाद कोड की एक सूची भी है।
मुझे पता है कि इस तरह के पीडीएफ से संरचित जानकारी निकालने का कोई तरीका नहीं है लेकिन सभी छवियों और टेक्स्ट ऑब्जेक्ट्स के निर्देशांक के साथ मैं छवि से अपनी दूरी से लिंक किए गए टेक्स्ट की पहचान करने के लिए कोड लिख सकता हूं। तब मैं एक रेगुलर एक्सप्रेशन का उपयोग करके पाठ विभाजित है और पता लगाने के एक उत्पाद कोड है क्या कर सकता है, एक छवि कोड आदि
आप कार्य के लिए एक अच्छा और काम समाधान की अनुशंसा कर सके क्या है?
क्या आप एक निश्चित मंच/भाषा को लक्षित कर रहे हैं? जब आप कहते हैं कि "स्कैन" का मतलब है "देखो" या आप वास्तव में एक भौतिक वस्तु स्कैन कर रहे हैं और क्या ओसीआर क्षमताओं की आवश्यकता होगी? –
आपके उत्तर के लिए धन्यवाद! मैं .NET में प्रोग्राम करता हूं इसलिए कोई भी लाइब्रेरी जिसमें .NET पोर्टिंग है वह अच्छा है। लेकिन मुझे जावा भी पता है इसलिए चरमपंथियों में मैं जावा पुस्तकालय का उपयोग कर सकता हूं। वैसे भी मुझे ओसीआर की आवश्यकता नहीं है। मेरे पीडीएफ में पाठ और छवियां हैं। टेक्स्ट को पीडीएफ की सामग्री-स्ट्रीम में प्रस्तुत किया जाता है, इसलिए मैं किसी प्रकार का पार्सर/रेंडर करता हूं जो सिर्फ मुझे बताता है कि एक पृष्ठ पर स्ट्रिंग को कब प्रस्तुत किया जाना चाहिए। मुझे सिर्फ तारों की जरूरत है। – Alex