लेप्टनिका (उलटा रंग टेक्स्ट) के साथ ओसीआर के लिए छवि प्रसंस्करण

मैं टेपेरैक्ट के साथ पाठ निकालने के लिए लेप्टनिका के साथ निम्न छवि को संसाधित करने की कोशिश कर रहा हूं।लेप्टनिका (उलटा रंग टेक्स्ट) के साथ ओसीआर के लिए छवि प्रसंस्करण

मूल छवि: original image

Tesseract मूल छवि पर इस पैदावार:

i s l 
D2J1FiiE-l191x1iitmwii9 uhiaiislz-2 Q ~37 
Bottom linez 
With a little time! 
you can learn social media technology 
using free online resources- 
And if you donity 
youlll be at a significant disadvantage 
to 
other HOn-pFOiiTS-

महान नहीं है, विशेष रूप से शीर्ष पृष्ठभूमि। तो leptionica (कलंक, अंतर, सीमा, की विपरीत) का उपयोग कर मैं एक पृष्ठभूमि हटाने एल्गोरिथ्म का उपयोग निम्न छवि प्राप्त करने के लिए: processed image

लेकिन Tesseract इसके साथ एक अच्छा काम करने नहीं करता है:

@@r-mair [email protected] [email protected] [email protected] [email protected] [email protected] [email protected]@ll 
mm Mime 
VWU1 a Mitt-Jle time- 
@1m [email protected]@Wn Om @@@lh1 
using free onhne resources- 
Andifyoudoni 
9110 ate a $0 D 
to other non-profrts 
I

ऐसा लगता है कि मुख्य समस्या यह है कि अब सभी पाठ ठोस के बजाय उल्लिखित हैं। मैं अपने एल्गोरिदम को कैसे समायोजित कर सकता हूं या टेक्स्ट को ठोस बनाने के लिए मैं क्या जोड़ सकता हूं?

स्रोत

2012-07-26 jasonlfunk

ऐसा लगता है कि इस पत्र एक binarization विधि है जो आपकी समस्या नहीं सुलझती का प्रस्ताव:

टी कसार, जम्मू कुमार और ए जी रामकृष्णन। Font and Background Color Independent Text Binarization। (2007)

Kasar etal method performance

स्रोत

2012-07-27 22:17:57 sastanin

यह बढ़िया है। जवाब स्वीकार करने से पहले, आपको इस एल्गोरिदम के कार्यान्वयन के बारे में पता नहीं है? – jasonlfunk

नहीं, दुर्भाग्य से मुझे नहीं पता कि एक कार्यान्वयन मौजूद है या नहीं। – sastanin

मैंने पायथन और ओपनसीवी का उपयोग करके एक कार्यान्वयन किया। धन्यवाद! https://github.com/jasonlfunk/ocr-text-extraction – jasonlfunk

लेप्टनिका (उलटा रंग टेक्स्ट) के साथ ओसीआर के लिए छवि प्रसंस्करण

उत्तर

संबंधित मुद्दे