2012-07-26 16 views
9

मैं टेपेरैक्ट के साथ पाठ निकालने के लिए लेप्टनिका के साथ निम्न छवि को संसाधित करने की कोशिश कर रहा हूं।लेप्टनिका (उलटा रंग टेक्स्ट) के साथ ओसीआर के लिए छवि प्रसंस्करण

मूल छवि: original image

Tesseract मूल छवि पर इस पैदावार:

i s l 
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37 
Bottom linez 
With a little time! 
you can learn social media technology 
using free online resources- 
And if you donity 
youlll be at a significant disadvantage 
to 
other HOn-pFOiiTS- 

महान नहीं है, विशेष रूप से शीर्ष पृष्ठभूमि। तो leptionica (कलंक, अंतर, सीमा, की विपरीत) का उपयोग कर मैं एक पृष्ठभूमि हटाने एल्गोरिथ्म का उपयोग निम्न छवि प्राप्त करने के लिए: processed image

लेकिन Tesseract इसके साथ एक अच्छा काम करने नहीं करता है:

@@r-mair [email protected] [email protected] [email protected] [email protected] [email protected] [email protected]@ll 
mm Mime 
VWU1 a Mitt-Jle time- 
@1m [email protected]@Wn Om @@@lh1 
using free onhne resources- 
Andifyoudoni 
9110 ate a $0 D 
to other non-profrts 
I 

ऐसा लगता है कि मुख्य समस्या यह है कि अब सभी पाठ ठोस के बजाय उल्लिखित हैं। मैं अपने एल्गोरिदम को कैसे समायोजित कर सकता हूं या टेक्स्ट को ठोस बनाने के लिए मैं क्या जोड़ सकता हूं?

उत्तर

9

ऐसा लगता है कि इस पत्र एक binarization विधि है जो आपकी समस्या नहीं सुलझती का प्रस्ताव:

टी कसार, जम्मू कुमार और ए जी रामकृष्णन। Font and Background Color Independent Text Binarization। (2007)

Kasar etal method performance

+0

यह बढ़िया है। जवाब स्वीकार करने से पहले, आपको इस एल्गोरिदम के कार्यान्वयन के बारे में पता नहीं है? – jasonlfunk

+0

नहीं, दुर्भाग्य से मुझे नहीं पता कि एक कार्यान्वयन मौजूद है या नहीं। – sastanin

+5

मैंने पायथन और ओपनसीवी का उपयोग करके एक कार्यान्वयन किया। धन्यवाद! https://github.com/jasonlfunk/ocr-text-extraction – jasonlfunk