2010-02-22 9 views
22

मैं निर्णय पेड़ और क्रॉस सत्यापन पर पढ़ रहा हूं, और मैं दोनों अवधारणाओं को समझता हूं। हालांकि, मुझे क्रॉस वैलिडेशन को समझने में परेशानी हो रही है क्योंकि यह निर्णय पेड़ से संबंधित है। अनिवार्य रूप से क्रॉस सत्यापन आपको प्रशिक्षण और परीक्षण के बीच वैकल्पिक करने की अनुमति देता है जब आपका डेटासेट आपके त्रुटि अनुमान को अधिकतम करने के लिए अपेक्षाकृत छोटा होता है।क्रॉस सत्यापन और निर्णय पेड़ को समझने में सहायता

  1. आप चाहते हैं परतों की संख्या (के)
  2. आपके डेटासेट पर उप-विभाजन में कश्मीर एक प्रशिक्षण एक का निर्माण करने के लिए सेट के लिए
  3. उपयोग k-1 परतों परतों निर्धारित करें: यह एक बहुत ही सरल एल्गोरिथ्म कुछ इस तरह चला जाता है पेड़।
  4. अपने पेड़ में त्रुटि के आंकड़ों का अनुमान लगाने के लिए परीक्षण सेट का उपयोग करें।
  5. बाद में
  6. अपने परीक्षण सेट के लिए अलग-अलग गुना छोड़ने के लिए चरण 3-6 दोहराएं।
  7. औसत अपने पुनरावृत्तियों भर में त्रुटियों कुल त्रुटि
समस्या मैं समझ नहीं अंत आप कश्मीर निर्णय पेड़ है कि सभी थोड़ा अलग हो सकता है, क्योंकि वे विभाजित नहीं हो सकता है पर है

भविष्यवाणी करने के लिए वैसे ही, आदि आप किस पेड़ को चुनते हैं? एक विचार जो मैंने किया था, वह न्यूनतम त्रुटियों वाला था (हालांकि यह इष्टतम नहीं बनाता है कि यह उस गुना पर सबसे अच्छा प्रदर्शन करता है - शायद स्तरीकरण का उपयोग करने से मदद मिलेगी लेकिन मैंने जो कुछ भी पढ़ा है, वह कहता है कि यह केवल थोड़ा सा मदद करता है)।

जैसा कि मैं क्रॉस सत्यापन को समझता हूं, बिंदु नोड आंकड़ों में गणना करना है जिसे बाद में छंटनी के लिए उपयोग किया जा सकता है। तो वास्तव में पेड़ में प्रत्येक नोड के लिए दिए गए परीक्षण सेट के आधार पर इसकी गणना की जाएगी। इन्हें नोड आंकड़ों में क्या महत्वपूर्ण है, लेकिन यदि आप अपनी त्रुटि औसत करते हैं। आप आदि कश्मीर पेड़ जब हर एक पेड़ है कि वे क्या पर विभाजित करने के लिए चुनें में भिन्न हो सकता है भर में प्रत्येक नोड के भीतर इन आँकड़ों,

प्रत्येक यात्रा भर में कुल त्रुटि की गणना का फ़ायदा क्या है कैसे मर्ज करते हैं? ऐसा कुछ नहीं है जिसका उपयोग छंटनी के दौरान किया जा सकता है।

इस छोटी सी झुर्रियों के साथ कोई भी मदद की सराहना की जाएगी।

उत्तर

17

समस्या जो मैं समझ नहीं पा रहा हूं अंत में आप के निर्णय पेड़ होंगे जो सभी थोड़ा अलग हो सकते हैं क्योंकि वे एक ही तरीके से विभाजित नहीं हो सकते हैं, आदि। आप किस पेड़ को चुनते हैं?

पार सत्यापन के प्रयोजन के मदद करने के लिए नहीं एक विशेष उदाहरण वर्गीकारक की (या निर्णय वृक्ष, या जो कुछ भी स्वत: सीखने आवेदन) का चयन करें बल्कि मॉडल, यानि कि अर्हता प्राप्त करने के लिए हैऔसत त्रुटि अनुपात, इस औसत से संबंधित विचलन आदि जैसे मीट्रिक प्रदान करने के लिए जो परिशुद्धता के स्तर पर जोर देने में उपयोगी हो सकता है, एप्लिकेशन से अपेक्षा की जा सकती है। क्रॉस सत्यापन की चीजों में से एक यह कहने में मदद कर सकता है कि प्रशिक्षण डेटा काफी बड़ा है या नहीं।

एक विशेष पेड़ चुनने के संबंध में, आपको इसके बजाय उपलब्ध प्रशिक्षण डेटा के 100% पर एक और प्रशिक्षण चलाया जाना चाहिए, क्योंकि यह आमतौर पर एक बेहतर पेड़ का उत्पादन करेगा। (क्रॉस वैलिडेशन दृष्टिकोण का नकारात्मक पक्ष यह है कि हमें [आमतौर पर छोटी] प्रशिक्षण डेटा को "फ़ोल्डर्स" में विभाजित करने की आवश्यकता होती है और जैसा कि आप इस प्रश्न में संकेत देते हैं, इससे पेड़ हो सकते हैं जो विशेष डेटा उदाहरणों के लिए या तो संगठन या अंडरफिट हैं) ।

निर्णय पेड़ के मामले में, मुझे यकीन नहीं है कि नोड में एकत्रित आंकड़ों का आपका संदर्भ क्या है और पेड़ से छुटकारा पाने के लिए उपयोग किया जाता है। शायद क्रॉस-सत्यापन से संबंधित तकनीकों का एक विशेष उपयोग? ...

+0

ठीक है अगर मुझे लगता है कि इसका क्या अर्थ हो सकता है कि मैं डेटा सेट के अनुसार विभिन्न प्रकार के वर्गीकरण (निर्णय वृक्ष बनाम एसवीएम) की तुलना कर सकता हूं और कह सकता हूं कि कौन सा सही ढंग से भविष्यवाणी करने की संभावना अधिक होगी। मुझे लगता है कि पार सत्यापन वास्तव में छंटनी या आंकड़ों से छुटकारा पाने के लिए कुछ भी नहीं है। क्या पेड़ बनाने के लिए इस्तेमाल किया जाने वाला एक प्रशिक्षण सेट पर्याप्त है (यानी परीक्षण सेट) पर काटने के लिए एक और सेट? अधिकांश यूसीआई डेटा अलग प्रशिक्षण और परीक्षण सेट के साथ आता है इसलिए मैं पूछता हूं। – chubbsondubs

1

क्रॉस सत्यापन का उपयोग निर्णय पेड़ को बुलाई/छंटनी के लिए नहीं किया जाता है। यह अनुमान लगाने के लिए प्रयोग किया जाता है कि पेड़ (सभी डेटा पर बनाया गया) कितना अच्छा होगा, नए डेटा के आगमन को अनुकरण करके (जैसा कि आपने लिखा था, कुछ तत्वों के बिना पेड़ का निर्माण करके)। मैं वास्तव में इसके द्वारा उत्पन्न पेड़ों में से एक को चुनने के लिए समझ में नहीं आता क्योंकि मॉडल आपके पास मौजूद डेटा से बाधित है (और जब आप नए डेटा के लिए पेड़ का उपयोग करते हैं तो इसका उपयोग नहीं कर सकते हैं)।
पेड़ आपके द्वारा चुने गए डेटा पर बनाया गया है (सामान्यतः यह सब)। प्रुनिंग आमतौर पर कुछ ह्युरिस्टिक का उपयोग करके किया जाता है (यानी नोड में तत्वों का 9 0% वर्ग ए से संबंधित होता है, इसलिए हम आगे नहीं जाते हैं या सूचना लाभ बहुत छोटा होता है)।

2

क्रॉस-सत्यापन का मुख्य बिंदु यह है कि यह आपको विभिन्न डेटा पर उपयोग किए जाने पर आपके प्रशिक्षित मॉडल के प्रदर्शन का बेहतर अनुमान देता है।

आप कौन सा पेड़ चुनते हैं? एक विकल्प यह होगा कि आप प्रशिक्षण सेट के लिए अपने सभी डेटा का उपयोग करके एक नया पेड़ उबाल लेंगे।

5

पहले भाग के लिए, और दूसरों की तरह ही बताया है, हम आम तौर पर अंतिम मॉडल के निर्माण के लिए पूरे डाटासेट उपयोग करें, लेकिन हम प्रयोग पार सत्यापन (CV) पर सामान्यीकरण त्रुटि का एक बेहतर अनुमान प्राप्त करने के नया अदृश्य डेटा।

दूसरे भाग के लिए, मुझे लगता है कि आप सत्यापन के साथ सीवी भ्रमित कर रहे हैं निर्धारित करते हैं, overfitting एक नोड प्रूनिंग द्वारा पेड़ जब कुछ समारोह मूल्य सत्यापन सेट पर अभिकलन से पहले वृद्धि नहीं करता है/के बाद से बचने के लिए इस्तेमाल किया विभाजित करें।

3

यह पहले से ही उल्लेख किया गया है कि क्रॉस-सत्यापन का उद्देश्य मॉडल को अर्हता प्राप्त करना है। दूसरे शब्दों में क्रॉस-सत्यापन हमें उपयोग किए गए डेटा के बावजूद चयनित "पैरामीटर" के साथ जेनरेट किए गए मॉडल की त्रुटि/सटीकता अनुमान प्रदान करता है। जब तक हम प्रदर्शन से संतुष्ट नहीं होते हैं तब तक परावर्तक पैरामीटर का उपयोग करके कोर-सत्यापन प्रक्रिया को दोहराया जा सकता है। फिर हम पूरे डेटा पर सर्वोत्तम पैरामीटर के साथ मॉडल को प्रशिक्षित कर सकते हैं।