2012-03-05 18 views
10

के लिए कस्टम डिक्शनरी मैं वर्तमान में टेस्सेक्टक्ट ओसीआर का उपयोग करके एंड्रॉइड के लिए एक परियोजना पर काम कर रहा हूं। मैं एक शब्दकोश जोड़कर उपयोगकर्ता को दिए गए परिणामों को सुदृढ़ करने की उम्मीद कर रहा था। http://code.google.com/p/tesseract-ocr/wiki/FAQ के अनुसार, इस बारे में जाने के लिए सबसे अच्छा तरीका है करने के लिएटेसरेक्ट

अपने खुद के शब्द सूची के साथ बदलें tessdata/eng.user-शब्द, एक ही प्रारूप में -, UTF8 पाठ प्रत्येक पंक्ति में एक शब्द।

हालांकि कोई eng.user-शब्द tessdata फ़ोल्डर में फाइल, मुझे लगता है कि अगर मैं सिर्फ अपनी शब्दकोश उस में से एक पाठ फ़ाइल बनाने के लिए, यह प्रयोग किया जा कभी नहीं होगा ..

किसी को भी है एक समान अनुभव था और जानता है कि क्या करना है? कोई सलाह बहुत मददगार होगी।

उत्तर

9

यदि आप टेस्सेक्टैक्ट 3 का उपयोग कर रहे हैं (जो मुझे लगता है कि आप हैं)। आपको अपनी eng.trainddata फ़ाइल को पुनर्निर्माण करना होगा मेरा उद्देश्य शब्द-दाग फ़ाइल को पूरी तरह से बेहतर परिणाम प्राप्त करने के लिए प्रतिस्थापित करना है (यानी - जो शब्द मैं पहचान रहा हूं वे हमेशा समान होते हैं)।

जब आप टेस्सेक्ट को संकलित करते हैं तो आपको प्रशिक्षण निर्देशिका में combine_tessdata और wordlist2dawg निष्पादन योग्य की आवश्यकता होगी।

  1. खोल सब कुछ (मैं ऐसा किया बस अपना eng.word-dawg बैकअप लेने के लिए, आप भी unicharset बाद में की आवश्यकता होगी)

    ./combine_tessdata -u eng.traineddata

  2. (wordlistfile) अपने शब्द सूची का एक textfile बनाने

  3. एक eng.word-dawg बनाने

    ./wordlist2dawg wordlistfile eng.word-dawg traineddat_backup/.unicharset

  4. शब्द-dawg फ़ाइल को बदलने के

    ./combine_tessdata -ओ eng.traineddata eng.word-dawg

यह होना चाहिए।

+1

मैं इस चरण 3 निष्पादित करने के लिए कोशिश कर रहा हूँ, लेकिन 'से' traineddat_backup/.unicharset ' से इस त्रुटि 'लोड हो रहा है unicharset unicharset लोड करने में असफल होने traineddat_backup/.unicharset'' कृपया मुझे मैं इस पर क्या करने के लिए कोशिश कर रहा हूँ मदद उबंटू 12.04 और टेस्सेक्टैक्ट 3.02। –

+0

@ मुहम्मद अहमज: 'traindat_backup/.unicharset' 1 सेमी के आउटपुट के फ़ोल्डर का पथ है। यदि पहला cmd था ./combine_tessdata -u ita.traineddata/path/to/folder/tmp/ita.' तीसरा है ./wordlist2dawg wordlist ita.word-dawg/path/to/folder/tmp/ita। unicharset'। उम्मीद है कि यह मदद करता है, मैं उस पर 30 मिनट दूर फेंक देता हूं। – Tenaciousd93