का उपयोग कर अरबी शब्दों का टोकनकरण मैं एनएलटीकेword_tokenizer
शब्दों में वाक्य को विभाजित करने के लिए उपयोग कर रहा हूं।एनएलटीके
في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء
कोड मैं लिख रहा हूँ है:
import re
import nltk
lex = u" في_بيتنا كل شي لما تحتاجه يضيع ...ادور على شاحن فجأة يختفي ..لدرجة اني اسوي نفسي ادور شيء"
wordsArray = nltk.word_tokenize(lex)
print " ".join(wordsArray)
समस्या यह है कि word_tokenize
समारोह शब्दों द्वारा विभाजित नहीं करता है
मैं इस वाक्य tokenize करना चाहते हैं। इसके बजाय, यह अक्षरों से विभाजित होता है ताकि आउटपुट हो:
"ف ي _ ب ي ت ن ا ك ل ش ي ل م ا ت ح ت ا ج ه ي ض ي ع ... ا د و ر ع ل ى ش ا ح ن ف ج أ ة ي خ ت ف ي .. ل د ر ج ة ا ن ي ا س و ي ن ف س ي ا د و ر ش ي ء"
कोई विचार?
मैं अब तक क्या पहुँच गए हैं:
here में पाठ की कोशिश कर रहा से, यह पत्र द्वारा tokenized जा करने के लिए दिखाई दिया। इसके अलावा, हालांकि, अन्य टोकननाइज़र ने इसे सही ढंग से टोकन किया। क्या इसका मतलब है कि word_tokenize
केवल अंग्रेज़ी के लिए है? क्या यह अधिकांश एनएलटीके कार्यों के लिए जाता है?
मदद http://stackoverflow.com/questions/7386856/python-arabic-nlp करता है? (और एक स्टेमर http://nltk.org/api/nltk.stem.html#module-nltk.stem.isri) –