का अर्थ मैं मशीन सीखने में अभी शुरुआत कर रहा हूँ और निर्णय वृक्ष के साथ प्रयोग कर रहा हूँ। मैं निर्णय पेड़ http://scikit-learn.org/dev/_images/iris.svg के इस विज़ुअलाइज़ेशन को देख रहा हूं और सोच रहा हूं कि त्रुटि मान क्या दर्शाता है। क्या यह गिनी इंडेक्स है या सूचना लाभ या क्या? यह भी सराहना करता है कि इसका क्या अर्थ है।Scikit Decistion ट्री दृश्य: त्रुटि मान
उत्तर
इस ठोस उदाहरण में, एक नोड के "त्रुटि" सारे उदाहरण उस नोड में पहुँच की गिनी सूचकांक है।
सामान्य तौर पर, एक नोड के "त्रुटि" ठोस अशुद्धता कसौटी (जैसे गिनी या वर्गीकरण के लिए एन्ट्रापी और दुर्गति के लिए वर्ग त्रुटि मतलब) पर निर्भर करता है।
Intuitively तुम दोनों अशुद्धता मापदंड (गिनी और एन्ट्रापी) एक उपाय कैसे सजातीय एक बहु सेट है के रूप में के बारे में सोच सकते हैं। एक बहु सेट एकरूप है यदि इसमें ज्यादातर प्रकार के तत्व होते हैं (इसे "शुद्ध" भी कहा जाता है, इस प्रकार नाम "अशुद्धता मानदंड")। हमारे मामले में बहु सेट के तत्व कक्षा लेबल हैं जो संबंधित नोड तक पहुंचते हैं। जब हम एक नोड को विभाजित करते हैं, हम चाहते हैं कि परिणामस्वरूप विभाजन शुद्ध हैं - जिसका अर्थ है कि कक्षाएं अच्छी तरह से अलग होती हैं (एक विभाजन में ज्यादातर वर्ग होते हैं)।
criterion="entropy"
के मामले में और बाइनरी वर्गीकरण 1.0 की एक त्रुटि का अर्थ है कि नोड (सबसे अधिक सजातीय बहु सेट) में समान संख्या में सकारात्मक और नकारात्मक उदाहरण हैं।
आप पेड़ डेटा संरचना है कि एक DecisionTreeClassifier
या DecisionTreeRegressor
underlies अपने tree_
विशेषता है जो एक्सटेंशन प्रकार sklearn.tree._tree.Tree
की वस्तु पर एक रखती है के माध्यम से पहुँच सकते हैं। यह वस्तु पेड़ को समांतर numpy arrays की एक श्रृंखला के रूप में दर्शाती है। सरणी init_error
प्रत्येक नोड की प्रारंभिक त्रुटि को पकड़ें; best_error
नोड एक विभाजन नोड है, तो दो विभाजन की त्रुटियों का योग रखता है। अधिक जानकारी के लिए https://github.com/scikit-learn/scikit-learn/blob/master/sklearn/tree/_tree.pyx#L45 में कक्षा प्रलेखन देखें।
सहज अर्थ सरल है: यह सच वर्गीकरण त्रुटि के लिए एक प्रॉक्सी है कि अगर आपको लगता है कि नोड के लिए पेड़ पर पार, फिर भविष्यवाणी है कि यह सलाह देते हैं बनाने (जाहिरा तौर पर चित्र में नहीं दिखाया गया है ...)। –