मैंने सीएसवी में पीडीएफ से सफलतापूर्वक स्ट्रिप करने के लिए pdftohtml का उपयोग किया है। यह Xpdf पर आधारित है, जो एक अधिक सामान्य उद्देश्य उपकरण है, जिसमें pdftotext शामिल है। मैं बस इसे एक प्रक्रिया के रूप में लपेटता हूं। सी # से प्रारंभ करें।
आप थोड़ा और DIY कुछ के लिए देख रहे हैं, वहाँ iTextSharp पुस्तकालय है - जावा के iText के एक बंदरगाह - और PDFBox (हाँ, यह जावा का कहना है - लेकिन वे IKVM.NET के माध्यम से एक .NET संस्करण है)। यहां C# से iTextSharp और PDFBox का उपयोग करने पर कुछ कोडप्रोजेक्ट आलेख दिए गए हैं।
और, यदि आप वास्तव में एक मासोचिस्ट हैं, तो आप COM इंटरऑप के साथ एडोब के PDF IFilter में कॉल कर सकते हैं। IFilter specs बहुत आसान है, लेकिन मुझे लगता है कि इंटरऑप ओवरहेड महत्वपूर्ण होगा।
संपादित करें: प्रश्न और बाद के उत्तरों को फिर से पढ़ने के बाद, यह स्पष्ट हो गया है कि ओपी अपने पीडीएफ में छवियों से निपट रहा है। उस स्थिति में, आपको छवियों को निकालने की आवश्यकता होगी (उपरोक्त पीडीएफ पुस्तकालय काफी आसानी से ऐसा करने में सक्षम हैं) और इसे ओसीआर इंजन के माध्यम से चलाएं।
मैंने सभ्य परिणामों के साथ पहले MODI इंटरैक्टिव रूप से उपयोग किया है।यह भी है doable और सुंदर simple तो इंटरॉप के माध्यम से सी # से बुला कॉम दिया गया है:
' lifted from http://en.wikipedia.org/wiki/Microsoft_Office_Document_Imaging
Dim inputFile As String = "C:\test\multipage.tif"
Dim strRecText As String = ""
Dim Doc1 As MODI.Document
Doc1 = New MODI.Document
Doc1.Create(inputFile)
Doc1.OCR() ' this will ocr all pages of a multi-page tiff file
Doc1.Save() ' this will save the deskewed reoriented images, and the OCR text, back to the inputFile
For imageCounter As Integer = 0 To (Doc1.Images.Count - 1) ' work your way through each page of results
strRecText &= Doc1.Images(imageCounter).Layout.Text ' this puts the ocr results into a string
Next
File.AppendAllText("C:\test\testmodi.txt", strRecText) ' write the OCR file out to disk
Doc1.Close() ' clean up
Doc1 = Nothing
दूसरों Tesseract की तरह है, लेकिन मैं इसके साथ प्रत्यक्ष अनुभव है। मैंने इसके बारे में अच्छी और बुरी चीजें दोनों सुनी हैं, इसलिए मुझे लगता है कि यह आपकी स्रोत गुणवत्ता पर निर्भर करता है।
स्रोत
2008-10-01 17:43:25
यह संसाधनों का एक उत्कृष्ट सूची था .. धन्यवाद – torial
अगर पीडीएफ, एक स्कैनर से है तो यह वास्तव में सिर्फ एक छवि हो जाएगा और PDFbox नहीं किया जाएगा इससे टेक्स्ट प्राप्त करने में सक्षम: [पीडीएफबॉक्स पाठ पीडीएफ से पाठ पार्स करने के बारे में] (http://pdfbox.apache.org/userguide/faq.html#notext)। इसके अलावा, @ jm4 – mmcrae