टेक्स्ट

पर प्वाइंट वार आपसी जानकारी मैं सोच रहा था कि पाठ वर्गीकरण के लिए बिंदुत्मक पारस्परिक जानकारी की गणना कैसे की जाएगी। अधिक सटीक होने के लिए, मैं श्रेणियों में ट्वीट्स वर्गीकृत करना चाहता हूं। मेरे पास ट्वीट्स का डेटासेट है (जो एनोटेटेड हैं), और मेरे पास उस श्रेणी से संबंधित शब्दों की एक श्रेणी है। इस जानकारी को देखते हुए, इन श्रेणियों में से किसी एक में ट्वीट को वर्गीकृत करने के लिए प्रति वर्ग प्रत्येक श्रेणी के लिए पीएमआई की गणना करना संभव है।टेक्स्ट

स्रोत

2012-11-21 Ojtwist

पीएमआई एक सुविधा (आपके मामले में एक शब्द) और एक वर्ग (श्रेणी) के बीच एक सहयोग है, दस्तावेज़ (ट्वीट) और एक श्रेणी के बीच नहीं। सूत्र Wikipedia पर उपलब्ध है:

    P(x, y) 
pmi(x ,y) = log ------------ 
        P(x)P(y)

कि सूत्र में, X यादृच्छिक चर कि मॉडल एक शब्द की घटना, और Y मॉडल एक वर्ग की घटना है। दिए गए शब्द x और किसी दिए गए वर्ग y के लिए, आप पीएमआई का उपयोग यह तय करने के लिए कर सकते हैं कि कोई सुविधा जानकारीपूर्ण है या नहीं, और आप उस आधार पर सुविधा चयन कर सकते हैं। कम सुविधाओं के कारण अक्सर आपके वर्गीकरण एल्गोरिदम के प्रदर्शन में सुधार होता है और इसे काफी गति देता है। हालांकि, वर्गीकरण चरण अलग है- पीएमआई केवल आपको अपने सीखने वाले एल्गोरिदम में फ़ीड करने के लिए बेहतर सुविधाओं का चयन करने में मदद करता है।

संपादित करें: एक बात मैं मूल पोस्ट में उल्लेख नहीं था कि पीएमआई शब्द आवृत्तियों के प्रति संवेदनशील है। के

    P(x, y)    P(x|y) 
pmi(x ,y) = log ------------ = log ------------ 
        P(x)P(y)    P(x)

जब x और y पूरी तरह से सहसंबद्ध होते हैं, P(x|y) = P(y|x) = 1 के रूप में सूत्र को फिर से लिखने, तो pmi(x,y) = 1/P(x) करते हैं। कम x -es (शब्दों) में x -es की तुलना में अधिक पीएमआई स्कोर होगा, भले ही दोनों y से पूरी तरह से संबद्ध हों।

स्रोत

2012-11-21 12:02:04 mbatchkarov

एक फॉलोअप प्रश्न। आप कहते हैं "एक्स यादृच्छिक चर है जो एक शब्द की घटना का मॉडल करता है"। क्या यह पूरे डेटासेट में शब्द कितनी बार होता है? जैसे मेरे पास 250,000 वाक्यों हैं, x यह है कि पूरे डेटासेट में शब्द कितनी बार होता है? और पी (एक्स, वाई) के बारे में क्या मुझे इसकी व्याख्या करने की आवश्यकता होगी? एक वाक्य में x और y की मात्रा एक साथ हो जाती है? – Ojtwist

+10

'पी (एक्स) 'शब्द' x' (लोअरकेस) होने की संभावना है, जो शब्द और दस्तावेजों की कुल संख्या वाले दस्तावेज़ों की संख्या के बीच अनुपात है। 'पी (वाई)' वर्ग (श्रेणी) 'वाई' की संभावना है, जिसकी गणना इसी तरह की होती है। 'पी (एक्स, वाई)' यदि लेबल 'y' के दोनों * दस्तावेजों की संख्या के बीच अनुपात और शब्द 'x' और दस्तावेजों की कुल संख्या शामिल है। – mbatchkarov

क्या आपको वास्तव में दस्तावेजों की संख्या से विभाजित करके संभावनाओं में गणना को सामान्य करने की आवश्यकता है? मुझे पता है कि आपको एक अलग pmi() संख्या मिलती है, लेकिन सापेक्ष pmi() के विभिन्न जोड़े (एक्स, वाई) के बीच समान रहता है और pmi के वास्तविक मूल्य का मतलब कुछ भी सही नहीं है? यदि मैं विभिन्न दस्तावेज़ सेटों (विभिन्न दस्तावेज़ गणनाओं के साथ) की तुलना में पीएमआई की तुलना कर रहा हूं तो मैं केवल सामान्यीकरण को उपयोगी देख सकता हूं। – kane

उत्तर

संबंधित मुद्दे