मैं पाठ मैं tokenize करना चाहते हैं के ब्लॉक है, लेकिन मैं, खाली स्थान के और विराम चिह्न पर tokenize के रूप में NLTK जैसे उपकरणों के साथ मानक प्रतीत हो रहा है नहीं करना चाहती के साथ Tokenizing। नियमित वाक्यांशों के बजाय, विशेष वाक्यांश हैं जिन्हें मैं एकल टोकन के रूप में टोकननाइज़ करना चाहता हूं।पायथन: वाक्यांशों
उदाहरण के लिए, "वेस्ट विंग एक अमेरिकी टेलीविज़न धारावाहिक नाटक है जो हारून सोर्किन द्वारा बनाया गया था जिसे मूल रूप से 22 सितंबर, 1 999 से 14 मई 2006 तक एनबीसी पर प्रसारित किया गया था," और टोकननाइज़र को वाक्यांश जोड़ना " the west wing, "जिसके परिणामस्वरूप टोकन होगा:
- पश्चिम विंग
- एक
- अमेरिकी
- ... 0 है
सबसे अच्छा तरीका यह है, क्या है? मैं एनएलटीके जैसे उपकरणों की सीमाओं के भीतर रहना पसंद करूंगा।
'regex_tokenize' और' NLTK book' लिंक के 7 अध्याय एक लॉगिन और पासवर्ड की आवश्यकता है। – Murta