मैं निर्णय पेड़ और क्रॉस सत्यापन पर पढ़ रहा हूं, और मैं दोनों अवधारणाओं को समझता हूं। हालांकि, मुझे क्रॉस वैलिडेशन को समझने में परेशानी हो रही है क्योंकि यह निर्णय पेड़ से संबंधित है। अनिवार्य रूप से क्रॉस सत्यापन आपको प्रशिक्षण और परीक्षण के बीच वैकल्पिक करने की अनुमति देता है जब आपका डेटासेट आपके त्रुटि अनुमान को अधिकतम करने के लिए अपेक्षाकृत छोटा होता है।क्रॉस सत्यापन और निर्णय पेड़ को समझने में सहायता
- आप चाहते हैं परतों की संख्या (के)
- आपके डेटासेट पर उप-विभाजन में कश्मीर एक प्रशिक्षण एक का निर्माण करने के लिए सेट के लिए
- उपयोग k-1 परतों परतों निर्धारित करें: यह एक बहुत ही सरल एल्गोरिथ्म कुछ इस तरह चला जाता है पेड़।
- अपने पेड़ में त्रुटि के आंकड़ों का अनुमान लगाने के लिए परीक्षण सेट का उपयोग करें।
- बाद में
- अपने परीक्षण सेट के लिए अलग-अलग गुना छोड़ने के लिए चरण 3-6 दोहराएं।
- औसत अपने पुनरावृत्तियों भर में त्रुटियों कुल त्रुटि
भविष्यवाणी करने के लिए वैसे ही, आदि आप किस पेड़ को चुनते हैं? एक विचार जो मैंने किया था, वह न्यूनतम त्रुटियों वाला था (हालांकि यह इष्टतम नहीं बनाता है कि यह उस गुना पर सबसे अच्छा प्रदर्शन करता है - शायद स्तरीकरण का उपयोग करने से मदद मिलेगी लेकिन मैंने जो कुछ भी पढ़ा है, वह कहता है कि यह केवल थोड़ा सा मदद करता है)।
जैसा कि मैं क्रॉस सत्यापन को समझता हूं, बिंदु नोड आंकड़ों में गणना करना है जिसे बाद में छंटनी के लिए उपयोग किया जा सकता है। तो वास्तव में पेड़ में प्रत्येक नोड के लिए दिए गए परीक्षण सेट के आधार पर इसकी गणना की जाएगी। इन्हें नोड आंकड़ों में क्या महत्वपूर्ण है, लेकिन यदि आप अपनी त्रुटि औसत करते हैं। आप आदि कश्मीर पेड़ जब हर एक पेड़ है कि वे क्या पर विभाजित करने के लिए चुनें में भिन्न हो सकता है भर में प्रत्येक नोड के भीतर इन आँकड़ों,
प्रत्येक यात्रा भर में कुल त्रुटि की गणना का फ़ायदा क्या है कैसे मर्ज करते हैं? ऐसा कुछ नहीं है जिसका उपयोग छंटनी के दौरान किया जा सकता है।
इस छोटी सी झुर्रियों के साथ कोई भी मदद की सराहना की जाएगी।
ठीक है अगर मुझे लगता है कि इसका क्या अर्थ हो सकता है कि मैं डेटा सेट के अनुसार विभिन्न प्रकार के वर्गीकरण (निर्णय वृक्ष बनाम एसवीएम) की तुलना कर सकता हूं और कह सकता हूं कि कौन सा सही ढंग से भविष्यवाणी करने की संभावना अधिक होगी। मुझे लगता है कि पार सत्यापन वास्तव में छंटनी या आंकड़ों से छुटकारा पाने के लिए कुछ भी नहीं है। क्या पेड़ बनाने के लिए इस्तेमाल किया जाने वाला एक प्रशिक्षण सेट पर्याप्त है (यानी परीक्षण सेट) पर काटने के लिए एक और सेट? अधिकांश यूसीआई डेटा अलग प्रशिक्षण और परीक्षण सेट के साथ आता है इसलिए मैं पूछता हूं। – chubbsondubs