टेसरेक्ट

के लिए कस्टम डिक्शनरी मैं वर्तमान में टेस्सेक्टक्ट ओसीआर का उपयोग करके एंड्रॉइड के लिए एक परियोजना पर काम कर रहा हूं। मैं एक शब्दकोश जोड़कर उपयोगकर्ता को दिए गए परिणामों को सुदृढ़ करने की उम्मीद कर रहा था। http://code.google.com/p/tesseract-ocr/wiki/FAQ के अनुसार, इस बारे में जाने के लिए सबसे अच्छा तरीका है करने के लिएटेसरेक्ट

अपने खुद के शब्द सूची के साथ बदलें tessdata/eng.user-शब्द, एक ही प्रारूप में -, UTF8 पाठ प्रत्येक पंक्ति में एक शब्द।

हालांकि कोई eng.user-शब्द tessdata फ़ोल्डर में फाइल, मुझे लगता है कि अगर मैं सिर्फ अपनी शब्दकोश उस में से एक पाठ फ़ाइल बनाने के लिए, यह प्रयोग किया जा कभी नहीं होगा ..

किसी को भी है एक समान अनुभव था और जानता है कि क्या करना है? कोई सलाह बहुत मददगार होगी।

स्रोत

2012-03-05 TomSelleck

यदि आप टेस्सेक्टैक्ट 3 का उपयोग कर रहे हैं (जो मुझे लगता है कि आप हैं)। आपको अपनी eng.trainddata फ़ाइल को पुनर्निर्माण करना होगा मेरा उद्देश्य शब्द-दाग फ़ाइल को पूरी तरह से बेहतर परिणाम प्राप्त करने के लिए प्रतिस्थापित करना है (यानी - जो शब्द मैं पहचान रहा हूं वे हमेशा समान होते हैं)।

जब आप टेस्सेक्ट को संकलित करते हैं तो आपको प्रशिक्षण निर्देशिका में combine_tessdata और wordlist2dawg निष्पादन योग्य की आवश्यकता होगी।

खोल सब कुछ (मैं ऐसा किया बस अपना eng.word-dawg बैकअप लेने के लिए, आप भी unicharset बाद में की आवश्यकता होगी)

./combine_tessdata -u eng.traineddata
(wordlistfile) अपने शब्द सूची का एक textfile बनाने
एक eng.word-dawg बनाने

./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset
शब्द-dawg फ़ाइल को बदलने के

./combine_tessdata -ओ eng.traineddata eng.word-dawg

यह होना चाहिए।

स्रोत

2012-11-26 00:01:54 roocell

मैं इस चरण 3 निष्पादित करने के लिए कोशिश कर रहा हूँ, लेकिन 'से' traineddat_backup/.unicharset ' से इस त्रुटि 'लोड हो रहा है unicharset unicharset लोड करने में असफल होने traineddat_backup/.unicharset'' कृपया मुझे मैं इस पर क्या करने के लिए कोशिश कर रहा हूँ मदद उबंटू 12.04 और टेस्सेक्टैक्ट 3.02। –

@ मुहम्मद अहमज: 'traindat_backup/.unicharset' 1 सेमी के आउटपुट के फ़ोल्डर का पथ है। यदि पहला cmd था ./combine_tessdata -u ita.traineddata/path/to/folder/tmp/ita.' तीसरा है ./wordlist2dawg wordlist ita.word-dawg/path/to/folder/tmp/ita। unicharset'। उम्मीद है कि यह मदद करता है, मैं उस पर 30 मिनट दूर फेंक देता हूं। – Tenaciousd93

उत्तर

संबंधित मुद्दे