6

में संख्यात्मक सुविधा के रूप में शामिल करने के लिए शब्द शब्द अपने आप में उपयोग करने के लिए क्या सबसे अच्छा तरीका किसी भी मशीन सीखने एल्गोरिथ्म में सुविधाओं के रूप में?कैसे वर्गीकरण

समस्या मैं किसी खास पैराग्राफ से शब्द से संबंधित सुविधा को निकालने के लिए है

। क्या मुझे शब्दकोश में इंडेक्स का उपयोग संख्यात्मक सुविधा के रूप में करना चाहिए? यदि हां, तो मैं इन्हें कैसे सामान्य कर दूंगा?

सामान्य तौर पर, कैसे शब्द ही NLP में सुविधाओं के रूप में उपयोग किया जाता है?

उत्तर

8

कई परम्परागत तकनीकों जिसके द्वारा शब्द शिक्षण मॉडेल के लिए इनपुट के लिए सुविधाओं (एक 2D डेटा मैट्रिक्स जिसमें पंक्तियों अलग-अलग डेटा वैक्टर हैं में कॉलम) पर मैप किए जाते रहे हैं। classification:

  • एक बूलियन क्षेत्र है जो उपस्थिति या दिए गए दस्तावेज़ में उस शब्द के अभाव encodes;

  • एक आवृत्ति शब्दों का एक पूर्व निर्धारित सेट के हिस्टोग्राम, अक्सर एक्स सबसे अधिक प्रशिक्षण डेटा (इस उत्तर के अंतिम अनुच्छेद में यह एक के बारे में अधिक) शामिल सभी दस्तावेजों के बीच में से शब्द होने वाली;

  • निकटता दो या अधिक शब्दों का (जैसे 'विकल्प' और क्रमागत क्रम में 'जीवन शैली' है नहीं संबंधित या तो घटक शब्द एक अर्थ); इस जुड़ाव को या तो डेटा मॉडल में ही कब्जा कर लिया जा सकता है, उदाहरण के लिए, एक बूलियन सुविधा जो दस्तावेज़ में एक-दूसरे के निकट सीधे दो विशेष शब्दों की उपस्थिति या अनुपस्थिति का प्रतिनिधित्व करती है, या इस संबंध का उपयोग एमएल तकनीक में एक बेवकूफ के रूप में किया जा सकता है Bayesian क्लासिफायर इस उदाहरण में करेंगे पाठ पर जोर दिया; कच्चे डेटा रूप

  • शब्द अव्यक्त सुविधाओं, निकालने के लिए जैसे, LSA या अव्यक्त अर्थ विश्लेषण (भी कभी कभी अव्यक्त अर्थ अनुक्रमण के लिए LSI कहा जाता है)। एलएसए एक मैट्रिक्स अपघटन-आधारित तकनीक है जो टेक्स्ट से अव्यवस्थित चर को प्राप्त करती है जो पाठ के शब्दों से स्पष्ट नहीं होती है।

एक आम संदर्भ डेटा मशीन सीखने में सेट 50 की आवृत्तियों के शामिल है या सबसे आम शब्दों के हां, उर्फ ​​"शब्द रोक" (उदा, एक, एक,, और की , , वहाँ , अगर) शेक्सपियर, लंदन, ऑस्टेन, और मिल्टन की प्रकाशित काम करता है के लिए। एक छिपी परत के साथ एक मूल मल्टी-लेयर परसेप्ट्रॉन इस डेटा सेट को 100% सटीकता से अलग कर सकता है। इस डेटा सेट और विविधताएं एमएल डेटा रिपोजिटरीज में व्यापक रूप से उपलब्ध हैं और वर्गीकरण परिणामों को प्रस्तुत करने वाले academic papers समान हैं।

+0

"समृद्ध सुविधा" के लिए इसका क्या अर्थ है (मैं इस शब्द के लिए नया हूं)? – william007

6

स्टैंडर्ड दृष्टिकोण "बैग कई शब्द" प्रतिनिधित्व जहां प्रति शब्द एक सुविधा है, "1" अगर शब्द दस्तावेज़ में होता है और "0" अगर यह नहीं होती है दे रही है।

यह सुविधाओं के बहुत सारे देता है, लेकिन अगर आप अनुभवहीन Bayes की तरह एक साधारण शिक्षार्थी है, कि अभी भी ठीक है।

"सूचकांक शब्दकोश में" एक बेकार सुविधा है, मैं इसका इस्तेमाल नहीं होता।

1

tf-idf शब्दों को संख्यात्मक विशेषताओं में बदलने का एक सुंदर मानक तरीका है।

आपको सीखने वाले एल्गोरिदम का उपयोग करना याद रखना चाहिए जो SVM जैसे संख्यात्मक featuers का समर्थन करता है। बेवकूफ बेयस संख्यात्मक सुविधाओं का समर्थन नहीं करता है।