जटिलता या प्रदर्शन की तुलना में विभिन्न निर्णय पेड़ एल्गोरिदम

मैं डेटा खनन और अधिक सटीक, निर्णय पेड़ों पर शोध कर रहा हूं।जटिलता या प्रदर्शन की तुलना में विभिन्न निर्णय पेड़ एल्गोरिदम

मुझे पता है कि अगर वहाँ एक निर्णय वृक्ष के निर्माण के लिए (या सिर्फ एक?) कई एल्गोरिदम हैं चाहते हैं, और जो जटिलता ऐसे

प्रदर्शन
के रूप में मापदंड
के आधार पर बेहतर है, निर्णय लेने में त्रुटियां
और अधिक।

स्रोत

2012-04-02 Youssef

इसे buzzwordish डेटा-खनन के बजाय वर्गीकरण, मशीन-लर्निंग के रूप में पुनः प्राप्त किया गया। –

निर्णय ट्री कार्यान्वयन मुख्य रूप से इन कुल्हाड़ियों साथ अलग:

बंटवारे कसौटी (यानी, कैसे "विचरण" गणना की जाती है)
चाहे वह के लिए मॉडल बनाता है रिग्रेशन (निरंतर चर, उदाहरण के लिए, स्कोर) और साथ ही वर्गीकरण (खंडित चर, जैसे, एक वर्ग लेबल)
तकनीक को खत्म करने/को कम से अधिक-फिटिंग
यह अधूरा डेटा संभाल कर सकते हैं कि क्या

प्रमुख निर्णय ट्री कार्यान्वयन हैं:

ID3, या Iterative Dichotomizer, तीन निर्णय ट्री कार्यान्वयन रॉस Quinlan (Quinlan, निर्णय पेड़ की जे.आर. 1986 प्रेरण द्वारा विकसित की पहली था। मच। जानें। 1, 1 (मार्च 1986), 81-106।)
कार्ट, या वर्गीकरण और प्रतिगमन पेड़ अक्सर अवधि निर्णय ट्री के लिए एक सामान्य परिवर्णी शब्द के रूप में प्रयोग किया जाता है, हालांकि यह जाहिरा तौर पर एक अधिक है विशिष्ट अर्थ संक्षेप में, कार्ट कार्यान्वयन सी 4.5 के समान है; एक उल्लेखनीय अंतर यह है कि कार्ट एक संख्यात्मक विभाजन मानदंड के आधार पर पेड़ का निर्माण करता है जो डेटा पर दोबारा लागू होता है, जबकि सी 4.5 में नियम सेट एस बनाने के मध्यवर्ती चरण शामिल हैं।
सी 4.5, क्विनान का अगला पुनरावृत्ति।नई विशेषताएं (बनाम आईडी 3) हैं: (i) निरंतर और अलग-अलग सुविधाओं को स्वीकार करता है; (ii) अपूर्ण डेटा बिंदु हैंडल करता है; (iii) ओवर-फिटिंग समस्या हल करता है (बहुत चालाक) नीचे-अप तकनीक आमतौर पर "छंटनी" के रूप में जाना जाता है; और (iv) विभिन्न वजन उन सुविधाओं को लागू किया जा सकता है जिनमें प्रशिक्षण डेटा शामिल है। इनमें से, पहले तीन बहुत महत्वपूर्ण हैं - और मैं सुझाव दूंगा कि आपके द्वारा चुने गए किसी भी डीटी कार्यान्वयन में तीनों हैं। चौथा (अंतर भारोत्तोलन) बहुत कम महत्वपूर्ण
सी 5.0, हालिया क्विनान पुनरावृत्ति। यह कार्यान्वयन पेटेंट द्वारा कवर किया गया है और संभवतः, परिणामस्वरूप, शायद ही कभी (वाणिज्यिक सॉफ़्टवेयर पैकेज के बाहर) लागू किया गया है। मैंने कभी सी 5.0 को कार्यान्वित नहीं किया है (मैंने कभी भी स्रोत कोड नहीं देखा है) इसलिए मैं सी 5.0 बनाम सी 4.5 की एक सूचित तुलना नहीं कर सकता। मेरे पास हमेशा अपने आविष्कारक (रॉस क्विनान) द्वारा दावा किए गए सुधारों के बारे में संदेहजनक रहा है - उदाहरण के लिए, उनका दावा है कि यह "परिमाण के कई आदेश" सी 4.5 से तेज़ है। अन्य दावे समान रूप से व्यापक हैं ("काफी अधिक मेमोरी कुशल") और बहुत आगे। मैं आपको studies पर इंगित करूंगा जो दो तकनीकों की तुलना के परिणाम की रिपोर्ट करता है और आप स्वयं के लिए निर्णय ले सकते हैं।
CHAID (ची-वर्ग स्वत: बातचीत डिटेक्टर) वास्तव में से पहले के बारे में छह साल से मूल ID3 कार्यान्वयन (गॉर्डन Kass द्वारा एक पीएच.डी. थीसिस में प्रकाशित 1980 में)। मैं जानता हूँ कि इस technique.The आर मंच के बारे में हर छोटी एक पैकेज CHAID कहा जाता है जो उत्कृष्ट प्रलेखन
मार्स (बहु अनुकूली प्रतिगमन splines) के भी शामिल है वास्तव में एक शब्द मंगल, सैलफोर्ड सिस्टम के मूल आविष्कारक द्वारा ट्रेडमार्क है । परिणाम के रूप में, साल्फोर्ड द्वारा बेचे जाने वाले पुस्तकालयों में एमएआरएस क्लोन का नाम एमएआरएस के अलावा कुछ नहीं है - उदाहरण के लिए, आर में, प्रासंगिक कार्य पॉली-स्पलीन लाइब्रेरी में पॉलिमर है। मैटलैब और STATISTICA भी मंगल ग्रह कार्यक्षमता के साथ कार्यान्वयन

मैं कार्ट या C4.5 (हालांकि फिर से, मैं, C5.0 के साथ या CHAID के साथ कोई प्रत्यक्ष अनुभव है, हालांकि मैं उनकी सुविधा से परिचित हूँ की सिफारिश करेंगे है सेट)।

सी 4.5 Orange में लागू निर्णय वृक्ष स्वाद है; कार्ट sklearn में स्वाद है - उत्कृष्ट एमएल पुस्तकालयों में उत्कृष्ट कार्यान्वयन।

C4.5 ID3 से परे एक बड़ा कदम है - दोनों रेंज के मामले (C4.5 एक दूर व्यापक उपयोग के मामले स्पेक्ट्रम क्योंकि यह प्रशिक्षण डेटा में सतत चर संभाल कर सकते हैं है) में और मॉडल के संदर्भ में गुणवत्ता।

शायद C5.0 C4.5 बनाम का सबसे महत्वपूर्ण दावा किया सुधार समर्थन बढ़ाया पेड़ के लिए है। डीटी के लिए समर्थन इकट्ठा करना - पेड़ और यादृच्छिक वनों को बढ़ावा देना - ऑरेंज में डीटी कार्यान्वयन में शामिल किया गया है; यहां, सी 4.5 एल्गोरिदम में एकत्रित समर्थन जोड़ा गया था। sklearn में यादृच्छिक जंगल और बूस्टिंग विधियों की एक श्रृंखला भी है।

स्रोत

2012-04-03 15:42:10 doug

धन्यवाद बहुत दोस्त। स्पष्ट और सीधे बिंदु – Youssef

@Youssef: कोई समस्या नहीं है। (कृपया ध्यान दें कि मेरे मूल उत्तर में स्लेलेर्न के कार्यान्वयन के बारे में एक गलत बयान था; मैंने पोस्टिंग के बाद इसे चेक किया और अभी इसे सही किया।) – doug

कार्ट और आईडी 3, सी 4.5, सी 5.0 अलग-अलग तरीके से भिन्न होते हैं। कार्ट एक बाइनरी पेड़ है जहां अन्य नहीं हैं। इसका मतलब है कि कार्ट विभाजित करने के लिए कई अलग-अलग मूल्यों का चयन करेगा। उदाहरण के लिए, यदि कोई विशेषता {लाल, हरा, नीला} है, तो यह बाईं ओर {लाल, हरा} और दाईं ओर {नीली} या 3. के किसी भी संयोजन पर विभाजित हो सकती है। सीएआरटी भी अलग-अलग और साथ ही निरंतर मूल्यों को भी संभालती है । – chubbsondubs

जटिलता या प्रदर्शन की तुलना में विभिन्न निर्णय पेड़ एल्गोरिदम

उत्तर

संबंधित मुद्दे