2012-11-21 8 views
17

पर प्वाइंट वार आपसी जानकारी मैं सोच रहा था कि पाठ वर्गीकरण के लिए बिंदुत्मक पारस्परिक जानकारी की गणना कैसे की जाएगी। अधिक सटीक होने के लिए, मैं श्रेणियों में ट्वीट्स वर्गीकृत करना चाहता हूं। मेरे पास ट्वीट्स का डेटासेट है (जो एनोटेटेड हैं), और मेरे पास उस श्रेणी से संबंधित शब्दों की एक श्रेणी है। इस जानकारी को देखते हुए, इन श्रेणियों में से किसी एक में ट्वीट को वर्गीकृत करने के लिए प्रति वर्ग प्रत्येक श्रेणी के लिए पीएमआई की गणना करना संभव है।टेक्स्ट

उत्तर

25

पीएमआई एक सुविधा (आपके मामले में एक शब्द) और एक वर्ग (श्रेणी) के बीच एक सहयोग है, दस्तावेज़ (ट्वीट) और एक श्रेणी के बीच नहीं। सूत्र Wikipedia पर उपलब्ध है:

    P(x, y) 
pmi(x ,y) = log ------------ 
        P(x)P(y) 

कि सूत्र में, X यादृच्छिक चर कि मॉडल एक शब्द की घटना, और Y मॉडल एक वर्ग की घटना है। दिए गए शब्द x और किसी दिए गए वर्ग y के लिए, आप पीएमआई का उपयोग यह तय करने के लिए कर सकते हैं कि कोई सुविधा जानकारीपूर्ण है या नहीं, और आप उस आधार पर सुविधा चयन कर सकते हैं। कम सुविधाओं के कारण अक्सर आपके वर्गीकरण एल्गोरिदम के प्रदर्शन में सुधार होता है और इसे काफी गति देता है। हालांकि, वर्गीकरण चरण अलग है- पीएमआई केवल आपको अपने सीखने वाले एल्गोरिदम में फ़ीड करने के लिए बेहतर सुविधाओं का चयन करने में मदद करता है।


संपादित करें: एक बात मैं मूल पोस्ट में उल्लेख नहीं था कि पीएमआई शब्द आवृत्तियों के प्रति संवेदनशील है। के

    P(x, y)    P(x|y) 
pmi(x ,y) = log ------------ = log ------------ 
        P(x)P(y)    P(x) 

जब x और y पूरी तरह से सहसंबद्ध होते हैं, P(x|y) = P(y|x) = 1 के रूप में सूत्र को फिर से लिखने, तो pmi(x,y) = 1/P(x) करते हैं। कम x -es (शब्दों) में x -es की तुलना में अधिक पीएमआई स्कोर होगा, भले ही दोनों y से पूरी तरह से संबद्ध हों।

+0

एक फॉलोअप प्रश्न। आप कहते हैं "एक्स यादृच्छिक चर है जो एक शब्द की घटना का मॉडल करता है"। क्या यह पूरे डेटासेट में शब्द कितनी बार होता है? जैसे मेरे पास 250,000 वाक्यों हैं, x यह है कि पूरे डेटासेट में शब्द कितनी बार होता है? और पी (एक्स, वाई) के बारे में क्या मुझे इसकी व्याख्या करने की आवश्यकता होगी? एक वाक्य में x और y की मात्रा एक साथ हो जाती है? – Ojtwist

+10

'पी (एक्स) 'शब्द' x' (लोअरकेस) होने की संभावना है, जो शब्द और दस्तावेजों की कुल संख्या वाले दस्तावेज़ों की संख्या के बीच अनुपात है। 'पी (वाई)' वर्ग (श्रेणी) 'वाई' की संभावना है, जिसकी गणना इसी तरह की होती है। 'पी (एक्स, वाई)' यदि लेबल 'y' के दोनों * दस्तावेजों की संख्या के बीच अनुपात और शब्द 'x' और दस्तावेजों की कुल संख्या शामिल है। – mbatchkarov

+0

क्या आपको वास्तव में दस्तावेजों की संख्या से विभाजित करके संभावनाओं में गणना को सामान्य करने की आवश्यकता है? मुझे पता है कि आपको एक अलग pmi() संख्या मिलती है, लेकिन सापेक्ष pmi() के विभिन्न जोड़े (एक्स, वाई) के बीच समान रहता है और pmi के वास्तविक मूल्य का मतलब कुछ भी सही नहीं है? यदि मैं विभिन्न दस्तावेज़ सेटों (विभिन्न दस्तावेज़ गणनाओं के साथ) की तुलना में पीएमआई की तुलना कर रहा हूं तो मैं केवल सामान्यीकरण को उपयोगी देख सकता हूं। – kane