2012-06-02 14 views
10

मैंने इस मुद्दे के बारे में Google पर खोज की है और मुझे कुछ ऐसा नहीं मिल रहा है जो इस एल्गोरिदम को एक सरल लेकिन विस्तृत तरीके से समझाता है।सी 4.5 एल्गोरिदम निर्णय पेड़ को कम करने के लिए क्यों छंटनी का उपयोग करता है और कैसे pruning predicion सटीकता को प्रभावित करता है?

उदाहरण के लिए, मुझे पता है कि आईडी 3 एल्गोरिदम का उपयोग छंटनी का उपयोग नहीं करता है, इसलिए यदि आपके पास निरंतर विशेषता है, तो पूर्वानुमान सफलता दर बहुत कम होगी।

तो निरंतर विशेषताओं का समर्थन करने के लिए सी 4.5 यह छंटनी का उपयोग करता है, लेकिन क्या यह एकमात्र कारण है?

इसके अलावा मैं वास्तव में WEKA अनुप्रयोग में नहीं समझ सकता, वास्तव में आत्मविश्वास कारक भविष्यवाणियों की दक्षता को कैसे प्रभावित करता है। आत्मविश्वास कारक जितना छोटा होगा उतना अधिक एल्गोरिदम करेगा, हालांकि छंटनी और भविष्यवाणी की सटीकता के बीच सहसंबंध क्या है? जितना अधिक आप भविष्यवाणी करेंगे, बेहतर भविष्यवाणियां या बदतर?

धन्यवाद

उत्तर

18

छंटाई निर्णय वृक्ष के आकार को कम करने का एक तरीका है। यह प्रशिक्षण डेटा पर सटीकता को कम करेगा, लेकिन (सामान्य रूप से) अदृश्य डेटा पर सटीकता को बढ़ाएगा। इसका उपयोग overfitting को कम करने के लिए किया जाता है, जहां आप प्रशिक्षण डेटा पर सही सटीकता प्राप्त करेंगे, लेकिन मॉडल (यानी निर्णय पेड़) जो आप सीखते हैं वह इतना विशिष्ट है कि यह प्रशिक्षण डेटा के अलावा किसी भी चीज़ पर लागू नहीं होता है।

सामान्य रूप से, यदि आप काटने में वृद्धि करते हैं, तो प्रशिक्षण सेट पर सटीकता कम होगी। हालांकि, WEKA सटीकता को बेहतर ढंग से अनुमानित करने के लिए विभिन्न चीजों की पेशकश करता है, अर्थात् प्रशिक्षण/परीक्षण विभाजन या क्रॉस-सत्यापन। यदि आप उदाहरण के लिए क्रॉस-सत्यापन का उपयोग करते हैं, तो आप कहीं भी छेड़छाड़ करने वाले आत्मविश्वास कारक का "मीठा स्थान" खोज लेंगे जहां यह परीक्षण डेटा पर पर्याप्त रूप से सटीक सटीक निर्णय पेड़ बनाने के लिए पर्याप्त रूप से प्रजनन करता है, लेकिन यह बहुत अधिक सटीकता का त्याग नहीं करता है प्रशिक्षण जानकारी। जहां यह मीठा स्थान है, वह आपकी वास्तविक समस्या पर निर्भर करेगा और इसे विश्वसनीय रूप से निर्धारित करने का एकमात्र तरीका प्रयास करना है।