2009-07-15 3 views
8

का उपयोग करके भारित निर्णय पेड़ मैं विभाजित समारोह के रूप में mutual information gain का उपयोग कर एक बाइनरी वर्गीकरण वृक्ष का निर्माण कर रहा हूं। लेकिन चूंकि प्रशिक्षण डेटा कुछ वर्गों की ओर झुका हुआ है, इसलिए सलाह दी जाती है कि प्रत्येक प्रशिक्षण उदाहरण को विपरीत वर्ग आवृत्ति द्वारा भारित किया जाए।एंट्रॉपी

मैं प्रशिक्षण डेटा कैसे भार करूं? एंट्रॉपी का अनुमान लगाने के लिए संभावनाओं की गणना करते समय, क्या मैं भारित औसत लेता हूं?

संपादित करें: मुझे वजन के साथ एन्ट्रॉपी के लिए एक अभिव्यक्ति चाहिए।

+0

क्या आपके भारोत्तोलन कारक व्यस्त वर्ग आवृत्ति नहीं है? –

+0

हां, जैसा कि प्रश्न में उल्लिखित है, "यह सलाह दी जाती है कि प्रत्येक प्रशिक्षण उदाहरण को विपरीत वर्ग आवृत्ति द्वारा भारित किया जाए।" – Jacob

+0

मुझे लगता है कि आप पहले से ही विकी जानकारी के बारे में जानते थे। तो आप किस समस्या को हल करने की कोशिश कर रहे हैं? –

उत्तर

4

आपके द्वारा उद्धृत विकिपीडिया लेख भार में जाता है। इसे कहते हैं:

भारित वेरिएंट
आपसी जानकारी के पारंपरिक तैयार करने में,

alt text

प्रत्येक घटना या (एक्स, वाई) द्वारा निर्दिष्ट वस्तु इसी संभावना पी के आधार पर भारित है (एक्स, वाई)। यह मानता है कि सभी वस्तुओं या घटनाएं घटना की उनकी संभावना से अलग हैं। हालांकि, कुछ अनुप्रयोगों में यह मामला हो सकता है कि कुछ वस्तुओं या घटनाएं दूसरों की तुलना में अधिक महत्वपूर्ण हैं, या एसोसिएशन के कुछ पैटर्न दूसरों की तुलना में अधिक अर्थात् महत्वपूर्ण हैं।

उदाहरण के लिए, निर्धारिती मैपिंग {(1,1), (2,2), (3,3)} को निर्धारक मैपिंग {(1,3) की तुलना में मजबूत (कुछ मानक द्वारा) के रूप में देखा जा सकता है, (2,1), (3,2)}, हालांकि ये रिश्ते एक ही आपसी जानकारी प्राप्त करेंगे। ऐसा इसलिए है क्योंकि पारस्परिक जानकारी वैरिएबल मानों (क्रोनबैक 1 9 54, कॉम्ब्स & डॉस 1 9 70, लॉकहेड 1 9 70) में किसी भी अंतर्निहित क्रम में संवेदनशील नहीं है, और इसलिए संबंधित चर के बीच संबंधपरक मैपिंग के रूप में बिल्कुल संवेदनशील नहीं है । यह वांछित है, तो यह है कि पूर्व संबंध - सभी चर मान पर समझौते दिखा - बाद में संबंध की तुलना में मजबूत न्याय किया है, तो यह संभव निम्नलिखित भारित आपसी जानकारी का उपयोग करने (Guiasu 1977)

alt text

जो स्थानों है प्रत्येक वैरिएबल वैल्यू सह-घटना की संभावना पर एक वजन डब्ल्यू (एक्स, वाई), पी (एक्स, वाई)। यह अनुमति देता है कि कुछ संभावनाएं दूसरों की तुलना में कम या ज्यादा महत्व ले सकती हैं, जिससे प्रासंगिक समग्र या प्राग्नान कारकों की मात्रा को अनुमति मिलती है। उपर्युक्त उदाहरण में, डब्ल्यू (1,1), डब्ल्यू (2,2), और डब्ल्यू (3,3) के लिए बड़े रिश्तेदार वजन का उपयोग संबंध {{1,1) के लिए अधिक जानकारीपूर्णता का आकलन करने का प्रभाव होगा, (2,2), (3,3)} संबंध {(1,3), (2,1), (3,2)} के मुकाबले, जो पैटर्न पहचान के कुछ मामलों में वांछनीय हो सकता है, और इसी तरह। निवेश जोखिम का एक उपाय के रूप में

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

+0

हां, मुझे यह एहसास हुआ। मैं एंट्रॉपी के भारित संस्करण की उम्मीद कर रहा था। मैं आपसी जानकारी के समान स्कोर की गणना करने के लिए विभिन्न एन्ट्रॉपी अनुमानों का उपयोग करता हूं। – Jacob