2011-12-16 6 views
6

मान लें कि मेरे पास कुछ सिस्टम है जो दस्तावेजों को स्कैन करता है, जहां सभी दस्तावेज एक ही फ़ॉन्ट और फ़ॉन्ट आकार का उपयोग करते हैं।"डब्ल्यू" की तरह, आटा परिवर्तन के साथ सटीक, पूर्वनिर्धारित आकार का पता कैसे लगाएं?

इन दस्तावेजों में, हमेशा वही दिखने वाला पत्र "डब्ल्यू" होगा। मान लें कि यह हमेशा 20 px बड़ा है। मैं अपने दस्तावेज़ों में 20 px पर इस पत्र "डब्ल्यू" को पहचानने के लिए आटा परिवर्तन कैसे स्थापित कर सकता हूं?

उत्तर

3

एक त्वरित गूगल खोज पैदावार ब्याज की निम्न जानकारी:

Generalizing the Hough Transform to Detect Arbitrary Shapes

और वह अपने स्रोत के रूप में ऊपर कागज का उपयोग कर एक lecture तरह दिखता है।

इसके अलावा, यदि यह वास्तविक "डब्ल्यू" है, तो क्या एक ओसीआर इंजन Tesseract आपकी आवश्यकताओं के लिए बेहतर होगा?

+0

टेस्सेरैक्ट सही नहीं है, लेकिन चरित्र पहचान के लिए किसी भी सुधारित समाधान से निश्चित रूप से बेहतर है। – Sam

+0

सच है! हालांकि परिदृश्य बहुत मनमाना है। मैं जो मोरसो हो रहा था वह यह तथ्य है कि यह कुछ सीधी रेखाएं हैं। मुझे लगता है कि हफ़ ट्रांसफॉर्म उन आकारों को संभालने में सक्षम होना चाहिए जो सरल सीधी रेखाएं बहुत आसानी से हैं। क्या यह मामला नहीं है? वोटिंग, टेसरेक्ट के लिए कूल लिंक। –

1

लाइनों के लिए हफ़ ट्रांसफॉर्म सर्वोत्तम फिट लाइन समीकरण पाता है। लाइन खंडों को खोजने के लिए आपको अतिरिक्त प्रसंस्करण करने की आवश्यकता होगी। यदि चरित्र मोटाई कई पिक्सल है, तो प्रभावी ढंग से लाइनों को खोजने के लिए आप मोटाई को एक पिक्सेल में कम करना चाहते हैं। ऐसा करने के लिए तकनीकें हैं, लेकिन विभिन्न एल्गोरिदमिक जाल भी हैं।

एक बार आपके लाइन सेगमेंट होने के बाद, आपको अभी भी लाइन सेगमेंट की सापेक्ष स्थिति और कोण के आधार पर वर्णों की पहचान करने के लिए एक एल्गोरिदम लिखना होगा। यह पहले दिखाई देने से कठिन है।

एक सामान्यीकृत क्रॉस-सहसंबंध (टेम्पलेट मिलान) काम कर सकता है यदि आप निश्चित हैं कि छवि हमेशा एक निश्चित रोटेशन में होगी, तो वर्ण हमेशा एक ही आकार के होंगे, लेकिन स्कैन के लिए भी आप देखेंगे कुछ घूर्णन और इसके विपरीत कुछ बदलाव।

यह सब एक तरफ, यह वाणिज्यिक ओसीआर पैकेज या उचित रूप से अच्छी ओपन सोर्स प्रोजेक्ट का उपयोग करने के लिए लंबे समय तक सस्ता है। यदि आप छवि प्रसंस्करण से पहले से परिचित नहीं हैं तो ओसीआर लागू करना मुश्किल है।

 संबंधित मुद्दे

  • कोई संबंधित समस्या नहीं^_^