2010-10-13 5 views
37

मैं बहुत सारे लेख पढ़ रहा हूं जो एक भावनात्मक विश्लेषण प्रणाली से पहले 'सकारात्मक' या 'नकारात्मक' के रूप में वर्गीकृत ग्रंथों के प्रारंभिक सेट की आवश्यकता को समझाते हैं।अप्रशिक्षित भावना विश्लेषण

मेरा प्रश्न है: क्या किसी ने सकारात्मक 'विशेष' विशेषण 'नकारात्मक' विशेषण की प्राथमिक जांच करने का प्रयास किया है, किसी भी साधारण नकारात्मक को ध्यान में रखते हुए 'खुश नहीं' वर्ग से बचने से बचने के लिए? यदि हां, तो क्या कोई लेख है जो चर्चा करता है कि यह रणनीति यथार्थवादी क्यों नहीं है?

उत्तर

55

एक classic paper by Peter Turney (2002) के चलते किसी भावना विश्लेषण (सकारात्मक/नकारात्मक वर्गीकरण) करने के लिए एक विधि बताते केवल शब्दों का प्रयोग बीज सेट के रूप में उत्कृष्ट और खराब। 74% की सटीकता प्राप्त करने के लिए टर्नी इन दो विशेषणों के साथ mutual information अन्य शब्दों का उपयोग करता है।

+0

यह एक उत्तर टैग प्राप्त करता है। यह एक बहुत ही दिलचस्प लेख है। – Trindaz

15

मैंने अनचाहे भावनात्मक विश्लेषण करने की कोशिश नहीं की है जैसे कि आप वर्णन कर रहे हैं, लेकिन मेरे सिर के ऊपर से मैं कहूंगा कि आप समस्या को अधिक बढ़ा रहे हैं। विशेषण का विश्लेषण करना टेक्स्ट की भावना को समझने के लिए पर्याप्त नहीं है; उदाहरण के लिए, 'बेवकूफ' शब्द पर विचार करें। अकेले, आप इसे नकारात्मक मानेंगे, लेकिन यदि कोई उत्पाद समीक्षा '... [x] उत्पाद अपने प्रतिस्पर्धियों को पहले इस सुविधा के बारे में सोचने के लिए बेवकूफ़ दिखती है ...' तो वहां निश्चित रूप से सकारात्मक होगा । जितना अधिक संदर्भ जिसमें शब्द दिखाई देते हैं, इस तरह कुछ निश्चित रूप से मायने रखता है। यही कारण है कि एक अनियंत्रित बैग-ऑफ-शब्द अकेले दृष्टिकोण (अकेले एक और अधिक सीमित बैग-विशेषण) इस समस्या से निपटने के लिए पर्याप्त नहीं है।

पूर्व वर्गीकृत डेटा ('प्रशिक्षण डेटा') यह निर्धारित करने में मदद करता है कि समस्या यह निर्धारित करने की कोशिश करने से बदलती है कि पाठ सकारात्मक या नकारात्मक भावनाओं को स्क्रैच से है या नहीं, यह निर्धारित करने के लिए कि पाठ सकारात्मक ग्रंथों के समान है या नहीं या नकारात्मक ग्रंथ, और इसे इस तरह वर्गीकृत करें। दूसरा बड़ा मुद्दा यह है कि भावनात्मक विश्लेषण जैसे पाठ विश्लेषण अक्सर डोमेन के आधार पर ग्रंथों की विशेषताओं के अंतर से बहुत प्रभावित होते हैं। यही कारण है कि ट्रेन करने के लिए डेटा का एक अच्छा सेट (यानी, उस डोमेन के भीतर से सटीक डेटा जिसमें आप काम कर रहे हैं, और उम्मीद है कि ग्रंथों के प्रतिनिधि को वर्गीकृत करना होगा) एक अच्छा निर्माण के रूप में महत्वपूर्ण है वर्गीकृत करने के लिए प्रणाली।

बिल्कुल एक लेख नहीं है, लेकिन उम्मीद है कि मदद करता है।

+0

आपकी प्रतिक्रिया के लिए धन्यवाद waffle! मैं इस विषय पर प्राप्त होने वाले सभी इनपुट की सराहना करता हूं। – Trindaz

2

मैंने वाक्य स्तर पर भावना लेबल की भविष्यवाणी करने के लिए प्रभाव के शब्दकोश का उपयोग करके कीवर्ड खोजने का प्रयास किया। शब्दावली (गैर डोमेन आश्रित) की सामान्यता को देखते हुए, परिणाम लगभग 61% थे। पेपर मेरे होमपेज में उपलब्ध है।

कुछ हद तक बेहतर संस्करण में, अस्वीकृति क्रियाओं पर विचार किया गया था। पूरी व्यवस्था, EmoLib नाम है, डेमो के लिए उपलब्ध है:

http://dtminredis.housing.salle.url.edu:8080/EmoLib/

सादर,

+0

इस एट्रिला के लिए धन्यवाद। मैंने परीक्षण के लिए बहुत अच्छा प्रदर्शन किया। – Trindaz

2

डेविड,

मुझे यकीन है कि अगर यह मदद करता है, लेकिन आप भावना विश्लेषण के लिए NLTK के प्रयोग पर याकूब Perkin के blog post में देखना चाहते हो सकता है नहीं कर रहा हूँ।

+2

वह पर्यवेक्षित वर्गीकरण कर रहा है। – theharshest

0

भावना विश्लेषण में कोई जादू "शॉर्टकट" नहीं है, जैसा पाठ के एक हिस्से के अंतर्निहित "आसन्न" को खोजने के लिए किसी अन्य प्रकार के पाठ विश्लेषण के साथ है। सरलीकृत "विशेषण" जांच या इसी तरह के दृष्टिकोण के माध्यम से साबित पाठ विश्लेषण विधियों को कम करने का प्रयास करने से अस्पष्टता, गलत वर्गीकरण इत्यादि की ओर जाता है, जो दिन के अंत में आपको भावनाओं पर खराब सटीकता को पढ़ता है। अधिक स्रोत (उदा। ट्विटर), समस्या को और अधिक कठिन बनाते हैं।

3

लार्सन द्वारा वर्णित टर्नी (2002) का पेपर एक अच्छा मूल है। एक नए शोध में, Li and He [2009] एक ऐसे मॉडल को प्रशिक्षित करने के लिए Latent Dirichlet Allocation (एलडीए) का उपयोग करके एक दृष्टिकोण पेश करें जो एक लेख की समग्र भावना और विषय को एक साथ पूरी तरह से अप्रसन्न तरीके से वर्गीकृत कर सकता है। वे जो शुद्धता हासिल करते हैं वह 84.6% है।

+0

यह आशाजनक लग रहा है, मैं इसे पढ़ूंगा और –

+1

पर टिप्पणी करूंगा क्या आप वास्तव में इसे आजमा रहे हैं? मैं एनरॉन ईमेल अभिलेखागार पर भावनात्मक विश्लेषण करने की कोशिश कर रहे एक समान समस्या पर काम कर रहा हूं। – user1943079

+0

@TrungHuynh मैं जवाब पोस्ट करने के लगभग 4 साल बाद पोस्ट कर रहा हूं, लेकिन अब पेपर का लिंक बदल दिया गया है। क्या आप मुझे जर्नल पेपर का नाम बता सकते हैं ताकि मैं इसे ऑनलाइन खोज सकूं? – Krishh

2

मैंने समीक्षा में राय खनन के लिए भावना विश्लेषण के कई तरीकों की कोशिश की। लियू पुस्तक में वर्णित विधि यह है कि मेरे लिए सबसे अच्छा क्या काम है: http://www.cs.uic.edu/~liub/WebMiningBook.html इस पुस्तक में लियू और अन्य ने कई रणनीतियों की तुलना की और भावनात्मक विश्लेषण और राय खनन पर विभिन्न कागजात पर चर्चा की।

हालांकि मेरा मुख्य लक्ष्य राय में सुविधाओं को निकालना था, लेकिन मैंने इस विशेषताओं के सकारात्मक और नकारात्मक वर्गीकरण का पता लगाने के लिए एक भावना वर्गीकरण लागू किया।

मैंने पूर्व प्रसंस्करण (शब्द टोकननाइजेशन, पीओएस टैगिंग) और ट्रिग्राम निर्माण के लिए एनएलटीके का उपयोग किया। इसके बाद मैंने अन्य रणनीतियों लियू के साथ तुलना करने के लिए इस अधिग्रहण के अंदर बेयसियन क्लासिफायरों का उपयोग किया।

विधियों में से एक तरीका टैगिंग पर इस जानकारी को व्यक्त करने वाले प्रत्येक ट्रिग्राम के रूप में टैगिंग पर निर्भर करता है, और इस डेटा पर कुछ वर्गीकरण का उपयोग करता है। अन्य विधि मैंने कोशिश की, और बेहतर काम किया (मेरे डेटासेट में लगभग 85% सटीकता), वाक्य में प्रत्येक शब्द के लिए पीएमआई (समयबद्ध पारस्परिक जानकारी) के स्कोर की गणना और उत्कृष्ट/खराब पॉज़ के बीजों के रूप में शब्द की गणना कर रहा था/नकारात्मक वर्ग।

+0

हाय लूचक्स, मैं एक समान डोमेन पर काम कर रहा हूं, क्या आप अपना डेटासेट साझा कर सकते हैं, यह बहुत उपयोगी होगा। – turing