मैं कुछ क्लासिक ग्रंथों का विश्लेषण करने के लिए एनएलटीके का उपयोग कर रहा हूं और मैं वाक्य द्वारा पाठ को टोकन करने में परेशानी में हूं। उदाहरण के लिए, यहाँ है कि मैं क्या Moby Dick से एक टुकड़ा के लिए प्राप्त होते हैं:एनएलटीके वाक्य टोकनेज़र को कैसे ट्विक करें
import nltk
sent_tokenize = nltk.data.load('tokenizers/punkt/english.pickle')
'''
(Chapter 16)
A clam for supper? a cold clam; is THAT what you mean, Mrs. Hussey?" says I, "but
that's a rather cold and clammy reception in the winter time, ain't it, Mrs. Hussey?"
'''
sample = 'A clam for supper? a cold clam; is THAT what you mean, Mrs. Hussey?" says I, "but that\'s a rather cold and clammy reception in the winter time, ain\'t it, Mrs. Hussey?"'
print "\n-----\n".join(sent_tokenize.tokenize(sample))
'''
OUTPUT
"A clam for supper?
-----
a cold clam; is THAT what you mean, Mrs.
-----
Hussey?
-----
" says I, "but that\'s a rather cold and clammy reception in the winter time, ain\'t it, Mrs.
-----
Hussey?
-----
"
'''
मैं पूर्णता यहाँ उम्मीद नहीं है, यह देखते हुए कि मेलविल के वाक्य रचना थोड़ा दिनांकित है, लेकिन NLTK टर्मिनल दोहरे उद्धरण चिह्नों को संभालने के लिए सक्षम होना चाहिए और "श्रीमती" जैसे खिताब चूंकि टोकननाइज़र एक अप्रसन्न प्रशिक्षण अलगो का परिणाम है, हालांकि, मैं यह नहीं समझ सकता कि इसके साथ टिंकर कैसे करें।
किसी के पास बेहतर वाक्य टोकनेज़र के लिए सिफारिशें हैं? मैं एक साधारण ह्युरिस्टिक पसंद करूंगा कि मैं अपने खुद के पार्सर को प्रशिक्षित करने के बजाय हैक कर सकता हूं।
से ऊपर के साथ इस उत्तर का समेकित हिस्सा आह, जानना अच्छा है। आश्चर्यजनक रूप से, यह काम नहीं करता है अगर मैं आपके समाधान में अपने प्रश्न में पूरी वाक्य चलाता हूं। कोई विचार क्यों? –
बस उत्तर में कुछ और जानकारी जोड़ा गया। – vpekar
मैं आम तौर पर 'धन्यवाद' टिप्पणियों से बचता हूं, लेकिन यहां वास्तव में यह जगह है: धन्यवाद! – Private