टेक्स्ट दस्तावेज़ों का वर्गीकरण simple task with scikit-learn है लेकिन एनएलटीके में इसका कोई साफ समर्थन नहीं है, ऐसे में this जैसे कठिन तरीके से ऐसा करने के नमूने भी हैं। मैं एनएलटीके के साथ प्रीप्रोसेस करना चाहता हूं और स्कीट-सीख के साथ वर्गीकृत करना चाहता हूं और मुझे एनएलटीके में स्केलेर्न क्लासिफायर मिला, लेकिन एक छोटी सी समस्या है।nltk के अंदर scikit-learn classifier का उपयोग करके, मल्टीक्लास केस
scikit सीखने सब कुछ ठीक है:
from sklearn.naive_bayes import MultinomialNB
from sklearn.multiclass import OneVsRestClassifier
X_train = [[0, 0], [0, 1], [1, 1]]
y_train = [('first',), ('second',), ('first', 'second')]
clf = OneVsRestClassifier(MultinomialNB())
clf.fit(X_train, y_train)
print clf.classes_
परिणाम ['first' 'second']
है और यह मेरे उम्मीद है। लेकिन जब मैं NLTK में एक ही कोड का उपयोग करने का प्रयास करें:
from nltk.classify import SklearnClassifier
X_train = [{'a': 1}, {'b': 1}, {'c': 1}]
y_train = [('first',), ('second',), ('first', 'second')]
clf = SklearnClassifier(OneVsRestClassifier(MultinomialNB()))
clf.train(zip(X_train, y_train))
print clf.labels()
परिणाम [('first',), ('second',), ('first', 'second')]
है और यह उचित नहीं है। क्या कोई समाधान है?