में पीडीएफ अनुलग्नकों को दिखाने के लिए Google किस एप्लिकेशन का उपयोग करता है, जब मैंने Google को एक नई विंडो में जीमेल में पीडीएफ अनुलग्नकों को प्रदर्शित किया तो ट्रैफिक देखा। प्रत्येक पीडीएफ पेज के लिए सामग्री पीएनजी छवियों के रूप में परोसा जाता है। और इसका पाठ चुना जा सकता है। किसी पीडीएफ फ़ाइल में किसी विशेष पृष्ठ के लिए पीएनजी फ़ाइल जेनरेट करने के लिए Google सर्वर पर Google का उपयोग क्या करता है? एक पीएनजी फ़ाइल पर पाठ का चयन कैसे काम करता है? कोई विचार?जीमेल
जीमेल
उत्तर
डिफ़ॉल्ट अनुलग्नकों को https://docs.google.com/gview का उपयोग करके सुरक्षित रूप से देखा जाता है, हालांकि यह पता चला है कि आपको सादे HTTP पर फ़ाइलों का अनुरोध करने की अनुमति है। यह Wireshark का उपयोग कर क्या हो रहा है यह जानने के लिए थोड़ा आसान बनाता है।
जैसा कि आपने संकेत दिया था कि यह पहले से ही स्पष्ट था कि पीडीएफ सर्वर पक्ष पर एक पीएनजी में परिवर्तित हो गया है (ImageMagick वास्तव में इस उद्देश्य के लिए एक उचित समाधान है), इसके लिए स्पष्ट कारण अभी भी सक्षम होने पर सटीक लेआउट को संरक्षित करना है पीडीएफ व्यूअर की आवश्यकता के बिना फ़ाइल देखने के लिए।
हालांकि, यातायात में देखने से मुझे पता चला जब बुला/GView? एक = जीटी कि पूरे पीडीएफ भी एक कस्टम XML स्वरूप में बदल जाती है & DocID = & चान = & thid = (यह रूप में जल्द ही किया जाता है आप दस्तावेज़ का अनुरोध करते हैं)। चूंकि मैं एक्सएमएल की प्रतिलिपि बनाने के लिए वायरशर्क का उपयोग नहीं कर सका, मैंने फ़ायरफ़ॉक्स एक्सटेंशन Live HTTP Headers पर पहुंचाया।
<pdf2xml>
<meta name="Author" content="Bruce van der Kooij"/>
<meta name="Creator" content="Writer"/>
<meta name="Producer" content="OpenOffice.org 3.0"/>
<meta name="CreationDate" content="20090218171300+01'00'"/>
<page t="0" l="0" w="595" h="842">
<text l="188" t="99" w="213" h="27" p="188,213">Programmabureau</text>
<text l="85" t="127" w="425" h="27" p="85,117,209,61,277,21,305,124,436,75">Nederland Open in Verbinding (NOiV)</text>
</page>
</pdf2xml>
मैं काफी यकीन नहीं है अभी तक क्या पाठ तत्व पर सभी विशेषताओं के लिए खड़े (डब्ल्यू और ज को छोड़कर) पर वे स्पष्ट रूप से पाठ और संभवतः लंबाई के निर्देशांक कर रहे हैं: यहाँ एक अंश है । the JavaScript Google uses is minimized (या संभवतया अस्पष्ट हो गया है, लेकिन यह संभव नहीं है) क्लाइंट-साइड चयन फ़ंक्शन कैसे काम करता है, यह बिल्कुल आसान नहीं है। लेकिन सबसे अधिक संभावना है कि यह इस एक्सएमएल फाइल का उपयोग यह पता लगाने के लिए करें कि उपयोगकर्ता किस पाठ को देख रहा है और उसके बाद उपयोगकर्ता के क्लिपबोर्ड पर प्रतिलिपि बनाता है।
ध्यान दें कि pdf2xml नामक एक ओपन सोर्स (जीपीएल लाइसेंस प्राप्त) उपकरण है जो समान है लेकिन काफी उत्पादन नहीं है।यहाँ अपने मुखपृष्ठ से उदाहरण है:
<?xml version="1.0" encoding="utf-8" ?>
<pdf2xml pages="3">
<title>My Title</title>
<page width="780" height="1152">
<font size="10" face="MHCJMH+FuturaT-Bold" color="#FF0000">
<text x="324" y="37" width="132" height="10">Friday, September 27, 2002</text>
<img x="324" y="232" width="277" height="340" src="text_pic0001.png"/>
<link x="324" y="232" width="277" height="340" dest_page="2" dest_x="141" dest_y="187"/>
</font>
<font size="12" face="AGaramond-Regular" italic="true" bold="true">
<text x="509" y="68" width="121" height="12">This is a test PDF file</text>
<link x="509" y="68" width="121" height="12" href="www.mobipocket.com"/>
</font>
</page>
</pdf2xml>
आशा इस जानकारी किसी भी तरह से उपयोगी है, अन्य पोस्टर में से एक है लेकिन जैसे ही रास्ता उल्लेख यकीन है कि क्या गूगल करता है उन्हें पूछकर है किया जाना है। यह एक शर्म की बात है कि Google के पास आधिकारिक आईआरसी चैनल नहीं है लेकिन उनके पास a forum for Google Docs support questions है।
शुभकामनाएं।
यदि आप पाठ है कि तुम क्या आप चाहते हैं कि उसे offcourse कर सकते हैं,
आप इस लिंक को आज़माना चाहिए और अधिक विशिष्ट: pdf to png using php
तो ImageMagick की आवश्यकता होगी imageMagic
संपादित करें: एक और interesting link ।
संपादित करें: मैं गूगल पर इस पाया, यह दिलचस्प लग रहा है ... आप Google API Google Document List Data Api इस्तेमाल कर सकते हैं और इस इसके बारे में एक ऐसे ब्लॉग पोस्ट Google API Now Lets You Get Documents in Many Formats
Offcourse यकीन है कि क्या गूगल का उपयोग करता है आप एक जवाब की जरूरत होने के लिए है, इसलिए उनसे ? :)
शुभकामनाएं!
हाय, आपके उत्तर के लिए धन्यवाद। लिंक निश्चित रूप से दिलचस्प हैं। मेरे पास इन प्रक्रियाओं में इनपुट के रूप में इन बड़े पीडीएफ (~ 50 एमबी) हैं और इन्हें धीमी कनेक्शन पर ग्राहकों को सेवा देने की आवश्यकता है। हालांकि, निर्णय लेने के लिए ग्राहकों को केवल कुछ पृष्ठों की आवश्यकता हो सकती है। इसलिए, हम Google की तरह ही एक पीडीएफ का स्नैपशॉट ले जाने के मामले में सोच रहे थे। हमें किसी प्रकार का एंटरप्राइज़ उत्पाद चाहिए जो हमें ऐसा करने में मदद कर सकता है। प्रायोगिक रूप से जावा। यह बिल्कुल ठीक नहीं है लेकिन सहायक है। मेरे पास कुछ और लीड हैं .. http://www.jpedal.org/, iText वरुण – varun
आप उन बड़ी पीडीएफ फाइलों को इंडेक्स करने के लिए उपयोग ल्यूसेंस की जांच भी कर सकते हैं और अपने उपयोगकर्ताओं को संबंधित पेजों की सेवा कर सकते हैं।
अधिक विचारों के लिए http://www.jguru.com/faq/view.jsp?EID=1074237 देखें।
Google घर में विकसित एक गैर-खुले-सोर्स किए गए पीडीएफ कनवर्टर ऐप का उपयोग करता है। तो आप अन्य उत्तरों द्वारा पोस्ट किए गए लिंक को देखकर बेहतर हो सकते हैं, क्योंकि आप Google संस्करण पर अपना हाथ नहीं ले सकते हैं। माफ़ कीजिये!
यह देखने के लिए कि पीडीएफ किस प्रकार बनाया गया है, उस पर राइट क्लिक करें और दस्तावेज़ गुण (एडोब रीडर में) पर जाएं। पीडीएफ निर्माता "पीडीएफ निर्माता" के रूप में दिखाई देगा। मुझे लगता है कि Google Prince और IText दोनों (पीडीएफ बनाने के लिए संयोजन में नहीं) का उपयोग करता है। Google ने उस अंतिम उत्पाद को बनाने के लिए उपरोक्त टूलकिट पर कुछ प्रमुख संशोधन किए हैं।
अच्छा .. यह सिर्फ पीडीएफ 2 एक्सएमएल उपकरण हो सकता है जो Google उपयोग कर रहा है। उन्होंने केवल उन्हें पूर्ण शब्द चौड़ाई, ऊंचाई इत्यादि बदल दी और उन्होंने पी विशेषता को जोड़ा ... जो कि रेखा के अंदर के शब्दों के लिए निर्देशांक युक्त विशेषता है। बस इसके साथ खेला और पता चला :) गूगल से इस पीडीएफ 2 एक्सएमएल का उपयोग करने के लिए जा रहे हैं: पी अपलोड करें, उन्हें परिवर्तित करने दें ... xml का उपयोग भी बदलने के लिए ... epub? : पी
मुझे लगता है कि आपको पहले प्रश्न को समझने की कोशिश करनी चाहिए। –
मुझे लगता है कि टी और एल शीर्ष और बाएं के लिए खड़े हैं। Google को फ़ॉन्ट डेटा की आवश्यकता नहीं है क्योंकि पीएनजी के अंदर फ़ॉन्ट प्रस्तुत किया जाता है। तो पीडीएफ 2 एक्सएमएल शायद जनरेटर है, लेकिन एक्सएमएल बाद में पार्स किया गया था और कुछ डेटा हटा दिया गया था। –