निर्णय ट्री कार्यान्वयन मुख्य रूप से इन कुल्हाड़ियों साथ अलग:
बंटवारे कसौटी (यानी, कैसे "विचरण" गणना की जाती है)
चाहे वह के लिए मॉडल बनाता है रिग्रेशन (निरंतर चर, उदाहरण के लिए, स्कोर) और साथ ही वर्गीकरण (खंडित चर, जैसे, एक वर्ग लेबल)
तकनीक को खत्म करने/को कम से अधिक-फिटिंग
यह अधूरा डेटा संभाल कर सकते हैं कि क्या
प्रमुख निर्णय ट्री कार्यान्वयन हैं:
ID3, या Iterative Dichotomizer, तीन निर्णय ट्री कार्यान्वयन रॉस Quinlan (Quinlan, निर्णय पेड़ की जे.आर. 1986 प्रेरण द्वारा विकसित की पहली था। मच। जानें। 1, 1 (मार्च 1986), 81-106।)
कार्ट, या वर्गीकरण और प्रतिगमन पेड़ अक्सर अवधि निर्णय ट्री के लिए एक सामान्य परिवर्णी शब्द के रूप में प्रयोग किया जाता है, हालांकि यह जाहिरा तौर पर एक अधिक है विशिष्ट अर्थ संक्षेप में, कार्ट कार्यान्वयन सी 4.5 के समान है; एक उल्लेखनीय अंतर यह है कि कार्ट एक संख्यात्मक विभाजन मानदंड के आधार पर पेड़ का निर्माण करता है जो डेटा पर दोबारा लागू होता है, जबकि सी 4.5 में नियम सेट एस बनाने के मध्यवर्ती चरण शामिल हैं।
सी 4.5, क्विनान का अगला पुनरावृत्ति।नई विशेषताएं (बनाम आईडी 3) हैं: (i) निरंतर और अलग-अलग सुविधाओं को स्वीकार करता है; (ii) अपूर्ण डेटा बिंदु हैंडल करता है; (iii) ओवर-फिटिंग समस्या हल करता है (बहुत चालाक) नीचे-अप तकनीक आमतौर पर "छंटनी" के रूप में जाना जाता है; और (iv) विभिन्न वजन उन सुविधाओं को लागू किया जा सकता है जिनमें प्रशिक्षण डेटा शामिल है। इनमें से, पहले तीन बहुत महत्वपूर्ण हैं - और मैं सुझाव दूंगा कि आपके द्वारा चुने गए किसी भी डीटी कार्यान्वयन में तीनों हैं। चौथा (अंतर भारोत्तोलन) बहुत कम महत्वपूर्ण
सी 5.0, हालिया क्विनान पुनरावृत्ति। यह कार्यान्वयन पेटेंट द्वारा कवर किया गया है और संभवतः, परिणामस्वरूप, शायद ही कभी (वाणिज्यिक सॉफ़्टवेयर पैकेज के बाहर) लागू किया गया है। मैंने कभी सी 5.0 को कार्यान्वित नहीं किया है (मैंने कभी भी स्रोत कोड नहीं देखा है) इसलिए मैं सी 5.0 बनाम सी 4.5 की एक सूचित तुलना नहीं कर सकता। मेरे पास हमेशा अपने आविष्कारक (रॉस क्विनान) द्वारा दावा किए गए सुधारों के बारे में संदेहजनक रहा है - उदाहरण के लिए, उनका दावा है कि यह "परिमाण के कई आदेश" सी 4.5 से तेज़ है। अन्य दावे समान रूप से व्यापक हैं ("काफी अधिक मेमोरी कुशल") और बहुत आगे। मैं आपको studies पर इंगित करूंगा जो दो तकनीकों की तुलना के परिणाम की रिपोर्ट करता है और आप स्वयं के लिए निर्णय ले सकते हैं।
CHAID (ची-वर्ग स्वत: बातचीत डिटेक्टर) वास्तव में से पहले के बारे में छह साल से मूल ID3 कार्यान्वयन (गॉर्डन Kass द्वारा एक पीएच.डी. थीसिस में प्रकाशित 1980 में)। मैं जानता हूँ कि इस technique.The आर मंच के बारे में हर छोटी एक पैकेज CHAID कहा जाता है जो उत्कृष्ट प्रलेखन
मार्स (बहु अनुकूली प्रतिगमन splines) के भी शामिल है वास्तव में एक शब्द मंगल, सैलफोर्ड सिस्टम के मूल आविष्कारक द्वारा ट्रेडमार्क है । परिणाम के रूप में, साल्फोर्ड द्वारा बेचे जाने वाले पुस्तकालयों में एमएआरएस क्लोन का नाम एमएआरएस के अलावा कुछ नहीं है - उदाहरण के लिए, आर में, प्रासंगिक कार्य पॉली-स्पलीन लाइब्रेरी में पॉलिमर है। मैटलैब और STATISTICA भी मंगल ग्रह कार्यक्षमता के साथ कार्यान्वयन
मैं कार्ट या C4.5 (हालांकि फिर से, मैं, C5.0 के साथ या CHAID के साथ कोई प्रत्यक्ष अनुभव है, हालांकि मैं उनकी सुविधा से परिचित हूँ की सिफारिश करेंगे है सेट)।
सी 4.5 Orange में लागू निर्णय वृक्ष स्वाद है; कार्ट sklearn में स्वाद है - उत्कृष्ट एमएल पुस्तकालयों में उत्कृष्ट कार्यान्वयन।
C4.5 ID3 से परे एक बड़ा कदम है - दोनों रेंज के मामले (C4.5 एक दूर व्यापक उपयोग के मामले स्पेक्ट्रम क्योंकि यह प्रशिक्षण डेटा में सतत चर संभाल कर सकते हैं है) में और मॉडल के संदर्भ में गुणवत्ता।
शायद C5.0 C4.5 बनाम का सबसे महत्वपूर्ण दावा किया सुधार समर्थन बढ़ाया पेड़ के लिए है। डीटी के लिए समर्थन इकट्ठा करना - पेड़ और यादृच्छिक वनों को बढ़ावा देना - ऑरेंज में डीटी कार्यान्वयन में शामिल किया गया है; यहां, सी 4.5 एल्गोरिदम में एकत्रित समर्थन जोड़ा गया था। sklearn में यादृच्छिक जंगल और बूस्टिंग विधियों की एक श्रृंखला भी है।
इसे buzzwordish डेटा-खनन के बजाय वर्गीकरण, मशीन-लर्निंग के रूप में पुनः प्राप्त किया गया। –