27

मैं डेटा खनन और अधिक सटीक, निर्णय पेड़ों पर शोध कर रहा हूं।जटिलता या प्रदर्शन की तुलना में विभिन्न निर्णय पेड़ एल्गोरिदम

मुझे पता है कि अगर वहाँ एक निर्णय वृक्ष के निर्माण के लिए (या सिर्फ एक?) कई एल्गोरिदम हैं चाहते हैं, और जो जटिलता ऐसे

  • प्रदर्शन
  • के रूप में मापदंड
  • के आधार पर बेहतर है, निर्णय लेने में त्रुटियां
  • और अधिक।
+0

इसे buzzwordish डेटा-खनन के बजाय वर्गीकरण, मशीन-लर्निंग के रूप में पुनः प्राप्त किया गया। –

उत्तर

67

निर्णय ट्री कार्यान्वयन मुख्य रूप से इन कुल्हाड़ियों साथ अलग:

  • बंटवारे कसौटी (यानी, कैसे "विचरण" गणना की जाती है)

  • चाहे वह के लिए मॉडल बनाता है रिग्रेशन (निरंतर चर, उदाहरण के लिए, स्कोर) और साथ ही वर्गीकरण (खंडित चर, जैसे, एक वर्ग लेबल)

  • तकनीक को खत्म करने/को कम से अधिक-फिटिंग

  • यह अधूरा डेटा संभाल कर सकते हैं कि क्या


प्रमुख निर्णय ट्री कार्यान्वयन हैं:

  • ID3, या Iterative Dichotomizer, तीन निर्णय ट्री कार्यान्वयन रॉस Quinlan (Quinlan, निर्णय पेड़ की जे.आर. 1986 प्रेरण द्वारा विकसित की पहली था। मच। जानें। 1, 1 (मार्च 1986), 81-106।)

  • कार्ट, या वर्गीकरण और प्रतिगमन पेड़ अक्सर अवधि निर्णय ट्री के लिए एक सामान्य परिवर्णी शब्द के रूप में प्रयोग किया जाता है, हालांकि यह जाहिरा तौर पर एक अधिक है विशिष्ट अर्थ संक्षेप में, कार्ट कार्यान्वयन सी 4.5 के समान है; एक उल्लेखनीय अंतर यह है कि कार्ट एक संख्यात्मक विभाजन मानदंड के आधार पर पेड़ का निर्माण करता है जो डेटा पर दोबारा लागू होता है, जबकि सी 4.5 में नियम सेट एस बनाने के मध्यवर्ती चरण शामिल हैं।

  • सी 4.5, क्विनान का अगला पुनरावृत्ति।नई विशेषताएं (बनाम आईडी 3) हैं: (i) निरंतर और अलग-अलग सुविधाओं को स्वीकार करता है; (ii) अपूर्ण डेटा बिंदु हैंडल करता है; (iii) ओवर-फिटिंग समस्या हल करता है (बहुत चालाक) नीचे-अप तकनीक आमतौर पर "छंटनी" के रूप में जाना जाता है; और (iv) विभिन्न वजन उन सुविधाओं को लागू किया जा सकता है जिनमें प्रशिक्षण डेटा शामिल है। इनमें से, पहले तीन बहुत महत्वपूर्ण हैं - और मैं सुझाव दूंगा कि आपके द्वारा चुने गए किसी भी डीटी कार्यान्वयन में तीनों हैं। चौथा (अंतर भारोत्तोलन) बहुत कम महत्वपूर्ण

  • सी 5.0, हालिया क्विनान पुनरावृत्ति। यह कार्यान्वयन पेटेंट द्वारा कवर किया गया है और संभवतः, परिणामस्वरूप, शायद ही कभी (वाणिज्यिक सॉफ़्टवेयर पैकेज के बाहर) लागू किया गया है। मैंने कभी सी 5.0 को कार्यान्वित नहीं किया है (मैंने कभी भी स्रोत कोड नहीं देखा है) इसलिए मैं सी 5.0 बनाम सी 4.5 की एक सूचित तुलना नहीं कर सकता। मेरे पास हमेशा अपने आविष्कारक (रॉस क्विनान) द्वारा दावा किए गए सुधारों के बारे में संदेहजनक रहा है - उदाहरण के लिए, उनका दावा है कि यह "परिमाण के कई आदेश" सी 4.5 से तेज़ है। अन्य दावे समान रूप से व्यापक हैं ("काफी अधिक मेमोरी कुशल") और बहुत आगे। मैं आपको studies पर इंगित करूंगा जो दो तकनीकों की तुलना के परिणाम की रिपोर्ट करता है और आप स्वयं के लिए निर्णय ले सकते हैं।

  • CHAID (ची-वर्ग स्वत: बातचीत डिटेक्टर) वास्तव में से पहले के बारे में छह साल से मूल ID3 कार्यान्वयन (गॉर्डन Kass द्वारा एक पीएच.डी. थीसिस में प्रकाशित 1980 में)। मैं जानता हूँ कि इस technique.The आर मंच के बारे में हर छोटी एक पैकेज CHAID कहा जाता है जो उत्कृष्ट प्रलेखन

  • मार्स (बहु अनुकूली प्रतिगमन splines) के भी शामिल है वास्तव में एक शब्द मंगल, सैलफोर्ड सिस्टम के मूल आविष्कारक द्वारा ट्रेडमार्क है । परिणाम के रूप में, साल्फोर्ड द्वारा बेचे जाने वाले पुस्तकालयों में एमएआरएस क्लोन का नाम एमएआरएस के अलावा कुछ नहीं है - उदाहरण के लिए, आर में, प्रासंगिक कार्य पॉली-स्पलीन लाइब्रेरी में पॉलिमर है। मैटलैब और STATISTICA भी मंगल ग्रह कार्यक्षमता के साथ कार्यान्वयन

मैं कार्ट या C4.5 (हालांकि फिर से, मैं, C5.0 के साथ या CHAID के साथ कोई प्रत्यक्ष अनुभव है, हालांकि मैं उनकी सुविधा से परिचित हूँ की सिफारिश करेंगे है सेट)।

सी 4.5 Orange में लागू निर्णय वृक्ष स्वाद है; कार्ट sklearn में स्वाद है - उत्कृष्ट एमएल पुस्तकालयों में उत्कृष्ट कार्यान्वयन।

C4.5 ID3 से परे एक बड़ा कदम है - दोनों रेंज के मामले (C4.5 एक दूर व्यापक उपयोग के मामले स्पेक्ट्रम क्योंकि यह प्रशिक्षण डेटा में सतत चर संभाल कर सकते हैं है) में और मॉडल के संदर्भ में गुणवत्ता

शायद C5.0 C4.5 बनाम का सबसे महत्वपूर्ण दावा किया सुधार समर्थन बढ़ाया पेड़ के लिए है। डीटी के लिए समर्थन इकट्ठा करना - पेड़ और यादृच्छिक वनों को बढ़ावा देना - ऑरेंज में डीटी कार्यान्वयन में शामिल किया गया है; यहां, सी 4.5 एल्गोरिदम में एकत्रित समर्थन जोड़ा गया था। sklearn में यादृच्छिक जंगल और बूस्टिंग विधियों की एक श्रृंखला भी है।

+1

धन्यवाद बहुत दोस्त। स्पष्ट और सीधे बिंदु – Youssef

+0

@Youssef: कोई समस्या नहीं है। (कृपया ध्यान दें कि मेरे मूल उत्तर में स्लेलेर्न के कार्यान्वयन के बारे में एक गलत बयान था; मैंने पोस्टिंग के बाद इसे चेक किया और अभी इसे सही किया।) – doug

+6

कार्ट और आईडी 3, सी 4.5, सी 5.0 अलग-अलग तरीके से भिन्न होते हैं। कार्ट एक बाइनरी पेड़ है जहां अन्य नहीं हैं। इसका मतलब है कि कार्ट विभाजित करने के लिए कई अलग-अलग मूल्यों का चयन करेगा। उदाहरण के लिए, यदि कोई विशेषता {लाल, हरा, नीला} है, तो यह बाईं ओर {लाल, हरा} और दाईं ओर {नीली} या 3. के किसी भी संयोजन पर विभाजित हो सकती है। सीएआरटी भी अलग-अलग और साथ ही निरंतर मूल्यों को भी संभालती है । – chubbsondubs