2012-07-10 21 views
7

इस साइट के अनुसार http://www.searchable-pdf.com/content.php?lang=en&c=61, एक पाठ परत जोड़ने पर एक पीडीएफ खोजने योग्य हो सकता है।पीडीएफ और टेक्स्ट लेयर

मैं एक पीडीएफ के तकनीकी विनिर्देश की तलाश में था। मुझे लगता है कि पाठ को पीडीएफ में 2 तरीकों से संग्रहीत किया जा सकता है: ए) छवि परत (ऊपर दिए गए वेबपृष्ठ में वर्णित अनुसार) के ऊपर एक पाठ परत के रूप में बी) जब आप किसी वर्ड दस्तावेज़ (टेक्स्ट के साथ) से पीडीएफ बनाते हैं, तो मैं ऐसा नहीं लगता कि वर्ड टेक्स्ट लेयर में सभी टेक्स्ट स्टोर करेगा। मुझे लगता है कि यह इसे छवि परत में स्टोर करेगा? सही?

पीडीएफ 1.4 के बाद, एक्सएमपी जोड़ा गया है (http://en.wikipedia.org/wiki/Extensible_Metadata_Platform)। लेकिन एक्सएमपी क्या है? क्या यह "टेक्स्ट लेयर" है जिस पर मैंने ऊपर चर्चा की थी?

यदि कोई स्कैनर छवि पर ओसीआर कर रहा है, तो क्या यह "टेक्स्ट लेयर" में टेक्स्ट संग्रहीत कर रहा है? या "एक्सएमपी" क्षेत्र? यह तब हो सकता है जब पीडीएफ संस्करण 1.4 का हो?

और मैं कैसे पता लगा सकता हूं कि पीडीएफ में पहले से ही टेक्स्ट डेटा है या नहीं? उदाहरण के लिए: पीडीएफ ए को ओसीआर के साथ स्कैन किया गया है और पीडीएफ बी नहीं है। मुझे कैसे पता चलेगा कि पीडीएफ बी को एक अलग ओसीआर इंजन में भेजा जाना चाहिए?

+0

आमतौर पर, ओसीआर के बाद पाठ को 'अदृश्य' पाठ प्रतिपादन मोड में पीडीएफ की सामान्य * सामग्री (अतिरिक्त * परत * नहीं, जो अदृश्य बना दिया जाता है) में जोड़ा जाता है - जो पीडीएफ में तकनीकी संभावना भी है ; पीडीएफ विनिर्देश में * वैकल्पिक सामग्री * के लिए देखो)।---- हालांकि, वास्तविक दुनिया में पीडीएफ (दोनों, 'स्कैन किए गए' के ​​साथ-साथ 'सामान्य' पीडीएफ), आप अक्सर पाएंगे कि आप टेक्स्ट का चयन कर सकते हैं और इसकी प्रतिलिपि बना सकते हैं - लेकिन पेस्ट करने के बाद, आपके पास केवल gobbledigook। या यदि आप ऐसी फ़ाइल पर 'pdftotext' का उपयोग करते हैं ... यदि ऐसा है, तो यह फ़ॉन्ट का उपयोग * एन्कोडिंग * के साथ एक समस्या है .... –

उत्तर

7

पीडीएफ विनिर्देश में 'टेक्स्ट लेयर' का कोई उल्लेख नहीं है। आम तौर पर, पाठ को 'स्टोर' करने का एक ही तरीका होता है: ऑपरेटरों को दिखाए जाने वाले पाठ के माध्यम से। ये ऑपरेटरों एक विशिष्ट रंग, फ़ॉन्ट, फ़ॉन्ट आकार और पाठ प्रतिपादन मोड का उपयोग कर, एक विशिष्ट स्थान पर पाठ खींचते हैं। कई पाठ प्रतिपादन मोड हैं। आपके प्रश्न का उत्तर देने के उद्देश्य से, टेक्स्ट दृश्यमान या अदृश्य हो सकता है।

ओसीआर करने वाला एक स्कैनर, पीडीएफ दस्तावेज़ में रास्टर छवि और पाठ दोनों प्रस्तुत करता है। पाठ अदृश्य पाठ प्रतिपादन मोड का उपयोग करके प्रस्तुत किया जाता है। नतीजा यह है कि आप माउस का उपयोग करके टेक्स्ट का चयन कर सकते हैं (हाइलाइट किया गया क्षेत्र छवि के शीर्ष पर अपेक्षित स्थान पर दिखाया जाएगा) और आप टेक्स्ट की खोज कर सकते हैं। फिर खोज परिणाम सही स्थान पर दिखाया जाएगा।

जब आप Word दस्तावेज़ से पीडीएफ उत्पन्न करते हैं तो क्या होता है उस सॉफ़्टवेयर पर निर्भर करता है जिसका उपयोग आप कनवर्ट करने के लिए करते हैं। मेरे ज्ञान के लिए, ये कनवर्टर्स एक छवि उत्पन्न नहीं करते हैं लेकिन वे दृश्यमान पाठ उत्पन्न करेंगे।

एक्सएमपी डेटा डेटा के विपरीत मेटा डेटा है।

आखिरकार, पीडीएफ में टेक्स्ट डेटा है या नहीं, यह जानने के बारे में आपके प्रश्न के संबंध में, यहां एक similar question है।

+0

धन्यवाद फ्रैंक। जवाब साफ़ करें! –

+0

मेरे पास कुछ अन्य प्रश्न हैं: * क्या प्रत्येक संस्करण (http://en.wikipedia.org/wiki/Portable_Document_Format#Adobe.27s_versions) में पीडीएफ के पाठ हो सकते हैं? क्या प्रारूप में कोई विनिर्देश है जो आपको बताता है कि पाठ को कैसे स्टोर किया जाए?
* यदि आपके पास एक पीडीएफ है जिसे ओसीआर किया गया है, लेकिन आप फिर से एक अन्य ओसीआर इंजन का उपयोग कर "पुनः ओसीआर" करते हैं, तो पिछले ओसीआर पाठ के साथ क्या होगा? –

+0

@JochenHebbrecht: मेरा जवाब देखें। यह spec के लिए एक लिंक भी प्रदान करता है। ** बेशक ** ग्रंथों को स्टोर करने के बारे में कल्पना में सटीक नियम हैं (लेकिन आप उन्हें विकिपीडिया में नहीं पाएंगे)। –

3

मैंने फ्रैंक रेम के जवाब को ऊपर उठाया, क्योंकि यह 'पूर्ण' है। ,

  1. पाठ की 'अदर्शन' Tr से आता है पीडीएफ में पाठ प्रतिपादन मोड 3 ऑपरेटर:

    मुझे हालांकि कुछ विवरण जोड़ें "न भरने और न ही स्ट्रोक पाठ"(PDF-1.7 spec, Chapter 9.3.6)

  2. इस सुपरयूसर प्रश्न पर एक नज़र डालें: "PDF has an extra blank in all words after running through Ghostscript" और तकनीकी विवरणों के बारे में कुछ और बातें सीखने के लिए वहां पर मेरे उत्तर (esp। शीर्षक के साथ एक को देखें "हम अदृश्य पाठ को कैसे दिख सकते हैं?")।
+0

धन्यवाद, 2) लिंक में लिंक यह मेरे लिए बहुत स्पष्ट बनाता है! आप एक समर्थक हैं! :-) –

 संबंधित मुद्दे

  • कोई संबंधित समस्या नहीं^_^