भ्रमित करता है मैं एक छवि से संख्या स्कैन करने के लिए एक आवेदन लिख रहा हूं।टेसेरैक्ट दो नंबर
संख्याएं ओसीआर-बी फ़ॉन्ट का उपयोग कर रही हैं और इसमें +
और >
वर्ण भी हो सकते हैं।
Tesseract का उपयोग कर स्कैन भी जब चरित्र उल्लेख पात्रों के लिए सेट सीमित, बहुत अच्छा नहीं थे:
यह मेरा स्रोत छवि है। चूंकि मुझे टेस्सेक्ट के लिए कोई ओसीआरबी प्रशिक्षण फाइल नहीं मिली, इसलिए मैंने इसे स्वयं प्रशिक्षित करने का फैसला किया।
मैंने this training image बनाया और इससे एक बॉक्स फ़ाइल बनाई। बॉक्स फ़ाइल सही है, सभी अक्षरों का मिलान सही ढंग से किया जाता है।
फिर मैंने अन्य आवश्यक फ़ाइलों को बनाने के लिए described here सभी चरणों को किया।
इस नए प्रशिक्षित ओसीआर-बी टेस्डाटाटा सेट का उपयोग करके, मुझे एक छोटी सी बग के साथ स्रोत छवि पर बहुत अच्छे परिणाम मिलते हैं: सभी 1
एस 8
एस और इसके विपरीत के लिए गलत हैं। छवि पर कार्रवाई करने के लिए इस्तेमाल आदेश था
$ tesseract esr2c.tif ocrb-esr2c -l ocrb
और स्रोत छवि के लिए उत्पादन
0800000001456> 8 00000195731208 8 01050008 023+ 08 0301226> 20
था आप सभी 1
स्वैप हैं एस और 8
एस और इसे स्रोत छवि से तुलना करें, आउटपुट सही होगा (पिछले दो अक्षरों को छोड़कर जिन्हें मैं अनदेखा कर सकता हूं)।
यह कैसे हो सकता है? क्या मैंने प्रशिक्षण प्रक्रिया में कुछ गलती की? मेरे द्वारा यह कैसे किया जा सकता है?
उस डेटा को पोस्ट करने में कोई सुरक्षा निहितार्थ नहीं है? –
@andrew वास्तव में नहीं। संदर्भ आईडी में किसी भी व्यक्तिगत जानकारी के बिना बस एक पुराना, अमान्य बिल। –
@ डैनिलो बार्गेन: यदि संभव हो, तो क्या आप ओसीआरबी फ़ॉन्ट के लिए प्रशिक्षण डेटा साझा कर सकते हैं? –