मैं वर्तमान में एक सामान्य उद्देश्य (या व्यावहारिक के रूप में सामान्य) बनाने की कोशिश कर रहा हूं एनएलटीके के साथ पीओएस टैगर। मैंने प्रशिक्षण के लिए ब्राउन और ट्रीबैंक निगम के साथ डब किया है, लेकिन शायद पेड़बैंक कॉर्पस पर बस जाएगा।एमईजीएएम को एनएलटीके क्लासिफायरबेसबेसपोस्टागर के रूप में उपयोग करने का प्रयास कर रहा है?
जैसे ही मैं जाता हूं, मुझे लगता है कि क्लासिफायर पीओएस टैगर्स सबसे सटीक हैं। अधिकतम इकाई वर्गीकरण सबसे सटीक माना जाता है, लेकिन मुझे लगता है कि यह इतना स्मृति (और प्रसंस्करण समय) का उपयोग करता है कि मुझे प्रशिक्षण डेटासेट को काफी कम करना है, इसलिए अंतिम परिणाम डिफ़ॉल्ट बेवकूफ बेयस वर्गीकरण का उपयोग करने से कम सटीक है।
यह सुझाव दिया गया है कि मैं मेगाम का उपयोग करता हूं। एनएलटीके के पास मेगाम के लिए कुछ समर्थन है, लेकिन मेरे द्वारा प्राप्त किए गए सभी उदाहरण सामान्य क्लासिफायर (उदाहरण के लिए एक टेक्स्ट क्लासिफायरफायर जो शब्द सुविधाओं के वेक्टर का उपयोग करते हैं) के लिए अधिक विशिष्ट पीओएस टैगर के बजाय हैं। अपने स्वयं के पीओएस फीचर एक्स्ट्रेक्टर और कंपाइलर को फिर से बनाने के बिना (यानी मैं पहले से ही एनएलटीके में उपयोग करना पसंद करता हूं), मैं मेगाम मैक्सेंट क्लासिफायरफायर का उपयोग कैसे कर सकता हूं? अर्थात। मैं इसे कैसे कुछ मौजूदा MAXENT कोड है कि की तर्ज पर है में ड्रॉप कर सकते हैं:
maxent_tagger = ClassifierBasedPOSTagger(train=training_sentences,
classifier_builder=MaxentClassifier.train)
क्या आपने पढ़ा है: http://streamhacker.com/2008/11/03/part-of-speech-tagging-with-nltk-part-1/? यदि आप सभी चार लेख देखें तो यह सामान्य रूप से पीओएस टैगर्स पर एक बहुत अच्छी नजरिया है। – perimosocordiae
हां, मेरे पास उनकी पुस्तक है। ब्लॉग में कुछ रोचक दक्षता तुलना है, और मैं अभी तक वर्गीकरण के अंत में एक ब्रिल टैगर जोड़ सकता हूं (सुझाए गए अनुसार); लेकिन पद मेगाम का उल्लेख नहीं करते हैं? शायद मुझे एनएलटीके मैक्सेंट कोड और रिवर्स इंजीनियर को देखने या मेगाम का उपयोग करने के लिए डुप्लिकेट करने की आवश्यकता है। – winwaed