इस साइट के अनुसार http://www.searchable-pdf.com/content.php?lang=en&c=61, एक पाठ परत जोड़ने पर एक पीडीएफ खोजने योग्य हो सकता है।पीडीएफ और टेक्स्ट लेयर
मैं एक पीडीएफ के तकनीकी विनिर्देश की तलाश में था। मुझे लगता है कि पाठ को पीडीएफ में 2 तरीकों से संग्रहीत किया जा सकता है: ए) छवि परत (ऊपर दिए गए वेबपृष्ठ में वर्णित अनुसार) के ऊपर एक पाठ परत के रूप में बी) जब आप किसी वर्ड दस्तावेज़ (टेक्स्ट के साथ) से पीडीएफ बनाते हैं, तो मैं ऐसा नहीं लगता कि वर्ड टेक्स्ट लेयर में सभी टेक्स्ट स्टोर करेगा। मुझे लगता है कि यह इसे छवि परत में स्टोर करेगा? सही?
पीडीएफ 1.4 के बाद, एक्सएमपी जोड़ा गया है (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform)। लेकिन एक्सएमपी क्या है? क्या यह "टेक्स्ट लेयर" है जिस पर मैंने ऊपर चर्चा की थी?
यदि कोई स्कैनर छवि पर ओसीआर कर रहा है, तो क्या यह "टेक्स्ट लेयर" में टेक्स्ट संग्रहीत कर रहा है? या "एक्सएमपी" क्षेत्र? यह तब हो सकता है जब पीडीएफ संस्करण 1.4 का हो?
और मैं कैसे पता लगा सकता हूं कि पीडीएफ में पहले से ही टेक्स्ट डेटा है या नहीं? उदाहरण के लिए: पीडीएफ ए को ओसीआर के साथ स्कैन किया गया है और पीडीएफ बी नहीं है। मुझे कैसे पता चलेगा कि पीडीएफ बी को एक अलग ओसीआर इंजन में भेजा जाना चाहिए?
आमतौर पर, ओसीआर के बाद पाठ को 'अदृश्य' पाठ प्रतिपादन मोड में पीडीएफ की सामान्य * सामग्री (अतिरिक्त * परत * नहीं, जो अदृश्य बना दिया जाता है) में जोड़ा जाता है - जो पीडीएफ में तकनीकी संभावना भी है ; पीडीएफ विनिर्देश में * वैकल्पिक सामग्री * के लिए देखो)।---- हालांकि, वास्तविक दुनिया में पीडीएफ (दोनों, 'स्कैन किए गए' के साथ-साथ 'सामान्य' पीडीएफ), आप अक्सर पाएंगे कि आप टेक्स्ट का चयन कर सकते हैं और इसकी प्रतिलिपि बना सकते हैं - लेकिन पेस्ट करने के बाद, आपके पास केवल gobbledigook। या यदि आप ऐसी फ़ाइल पर 'pdftotext' का उपयोग करते हैं ... यदि ऐसा है, तो यह फ़ॉन्ट का उपयोग * एन्कोडिंग * के साथ एक समस्या है .... –