का उपयोग करके टोकनिंग यूनिकोड में मेरे पास टेक्स्टफाइल है जो utf-8 एन्कोडिंग का उपयोग करती है जिसमें 'ö', 'ü' आदि जैसे वर्ण होते हैं। मैं इन फ़ाइलों को टेक्स्ट फॉर्म को पार्स करना चाहता हूं, लेकिन मुझे टोकननाइज़र नहीं मिल सकता ठीक से काम करो।nltk
f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = nltk.word_tokenize(items)
आउटपुट::
f = open('C:\Python26\text.txt', 'r') # text = 'müsli pöök rääk'
text = f.read()
f.close
items = text.decode('utf8')
a = PunktWordTokenizer().tokenize(items)
उत्पादन: [u'\ufeffm\xfcsli', u'p\xf6\xf6k', u'r\xe4\xe4k']
है [u'\ufeff', u'm', u'\xfc', u'sli', u'p', u'\xf6', u'\xf6', u'k', u'r', u'\xe4', u'\xe4', u'k']
पंक्ट tokenizer बेहतर कर रहा है अगर मैं मानक nltk tokenizer का उपयोग फिर भी पहले टोकन से पहले '\ ufeff' जिसे मैं समझ नहीं सकता (नहीं कि मैं इसे हटा नहीं सकता)। मैं क्या गलत कर रहा हूं? बहुत सराहना में मदद करें।
धन्यवाद। आपका कोड \ uFEFF – root
@ user1199589 को हटाने का चाल है आपका स्वागत है। मैं खुशी से मदद कर सकता है। –
ने भी मेरी मदद की। बहुत धन्यवाद! – Pitarou