2012-05-03 19 views
24

में मैं हमेशा मैं क्या पढ़ा है कि पार सत्यापन इस तरह किया जाता है से सोचा है:क्रॉस मान्यता Weka

कश्मीर गुना पार सत्यापन में, मूल नमूना बेतरतीब ढंग से कश्मीर subsamples में विभाजित है। के उपसमूहों में से, एक एकल सबसमूह मॉडल का परीक्षण करने के लिए सत्यापन डेटा के रूप में बनाए रखा गया है, और शेष के -1 उपसमूह प्रशिक्षण डेटा के रूप में उपयोग किए जाते हैं। क्रॉस-सत्यापन प्रक्रिया को फिर से बार बार (गुना) दोहराया जाता है, के साथ प्रत्येक के उप-नमूने सत्यापन डेटा के रूप में बिल्कुल एक बार उपयोग किए जाते हैं। परतों से कश्मीर परिणाम फिर औसत जा सकता है (या अन्यथा संयुक्त) एक भी अनुमान का उत्पादन करने के

तो कश्मीर मॉडल निर्माण कर रहे हैं और अंतिम एक उन लोगों में से औसत है। वीका गाइड में लिखा गया है कि प्रत्येक मॉडल हमेशा सभी डेटा सेट का उपयोग करके बनाया जाता है। तो वेका काम में पार सत्यापन कैसे करता है? क्या सभी डेटा से निर्मित मॉडल और "क्रॉस-सत्यापन" का अर्थ है कि के गुना बनाया जाता है, तो प्रत्येक गुना का मूल्यांकन किया जाता है और अंतिम आउटपुट परिणाम केवल फोल्ड से औसत परिणाम होता है?

उत्तर

44

तो, यहाँ परिदृश्य फिर से है: आप 100 लेबल डेटा

है

उपयोग प्रशिक्षण सेट

  • Weka होगा 100 लेने लेबल डेटा
  • यह एक एल्गोरिथ्म लागू होगी एक वर्गीकारक निर्माण करने के लिए इन 100 डेटा
  • पर यह पर फिर से क्लासिफायर लागू होता है इन 100 डेटा
  • (जिसमें से यह विकसित किया गया था एक ही 100 डेटा पर लागू) वर्गीकारक के प्रदर्शन

उपयोग 10 गुना सीवी

  • Weka लेता 100 लेबल डेटा

  • प्रदान करता है
  • यह 10 बराबर आकार के सेट का उत्पादन करता है। प्रत्येक सेट को दो समूहों में विभाजित किया जाता है: 90 लेबल वाले डेटा का उपयोग प्रशिक्षण के लिए किया जाता है और परीक्षण के लिए 10 लेबल वाले डेटा का उपयोग किया जाता है।

  • यह 9 0 लेबल वाले डेटा से एल्गोरिदम के साथ वर्गीकृत बनाता है और सेट 1 के लिए 10 परीक्षण डेटा पर लागू होता है।

  • यह 9 अधिक classifiers

  • यह औसत 10 बराबर आकार (90 प्रशिक्षण और 10 परीक्षण) से उत्पादित 10 classifiers के प्रदर्शन सेट 10 सेट 2 के लिए एक ही बात करता है और उत्पादन

मुझे बताएं कि क्या यह आपके प्रश्न का उत्तर देता है।

+1

मुझे 2 प्रश्न हैं: 1) अगर ऐसा लगता है कि वीका गाइड में क्यों लिखा गया है कि प्रत्येक मामले में (प्रशिक्षण सेट और सीवी) मॉडल हमेशा सभी डेटा से बनाया जाता है? जैसा कि आपने सीवी में लिखा था, अंतिम मॉडल अन्य 10 मॉडल का औसत है, है ना?2) यदि "इस बिंदु पर आपको जो मॉडल मिलता है वह सभी 10 मॉडलों का औसत है" यह कैसे संभव है कि प्रशिक्षण सेट और सीवी का सत्यापन सत्यापन के रूप में मुझे समान मॉडल मिलते हैं? (आशा है कि ये प्रश्न बहुत मूर्ख नहीं दिखेंगे!) –

+0

1. इसका मतलब है कि प्रत्येक गुना पूर्ण डेटासेट माना जाता है। इस मानक सीवी के कुछ बदलाव हैं जहां अलग-अलग परीक्षण के लिए डेटासेट का हिस्सा आयोजित किया जाता है। 2. "समान मॉडल प्राप्त करने" से आपका क्या मतलब है? –

+0

"वही मॉडल" के लिए मेरा मतलब है कि आउटपुट में मुझे बिल्कुल वही पेड़ मिला है –

1

वीका यहां उल्लेखित पारंपरिक के-गुना क्रॉस सत्यापन का पालन करता है। आपके पास पूर्ण डेटा सेट है, फिर इसे ओवरलैप के बिना बराबर सेट (के 1, के 2, ..., के 10 के लिए उदाहरण के लिए 10 गुना सीवी) के के nos में विभाजित करें। फिर पहले भाग में, प्रशिक्षण सेट के रूप में के 1 से के 9 तक ले जाएं और एक मॉडल विकसित करें। प्रदर्शन प्राप्त करने के लिए उस मॉडल का उपयोग के 10 पर करें। अगला प्रशिक्षण सेट के रूप में k1 से k8 और k10 आता है। उनमें से एक मॉडल विकसित करें और प्रदर्शन प्राप्त करने के लिए इसे K9 पर लागू करें। इस तरह, उन सभी फ़ोल्डरों का उपयोग करें जहां प्रत्येक गुना में 1 गुना परीक्षण सेट के रूप में उपयोग किया जाता है।

फिर वेका औसत प्रदर्शन फलक पर प्रदर्शन और प्रस्तुत करता है।

+2

ठीक है लेकिन इस तरह से अंतिम मॉडल कैसे बनाया गया है? सीवी पर निर्मित 10 मॉडल का औसत है? यदि हां क्या मतलब है: हमेशा सभी डेटा सेट का उपयोग करके बनाया गया है? –

+0

यदि आप वेका एक्सप्लोरर में वर्गीकृत टैब पर 10 गुना क्रॉस सत्यापन का चयन करते हैं, तो आपको जो मॉडल मिलता है वह वह है जिसे आप 10 9 -1 विभाजन के साथ प्राप्त करते हैं। आपके पास 10 अलग-अलग मॉडल नहीं होंगे लेकिन 1 सिंगल मॉडल होगा। और हाँ, आप वेका से प्राप्त करते हैं (विशेष रूप से वेका नहीं, यह सामान्य 10 गुना सीवी सिद्धांत पर लागू होता है) क्योंकि यह पूरे डेटासेट के माध्यम से चलता है। –

+0

मुझे खेद है, लेकिन मैं बिल्कुल समझ नहीं पा रहा हूं ... तो मॉडल के तरीके के संदर्भ में "प्रशिक्षण सेट का उपयोग करें" और "क्रॉस सत्यापन" से चुनने के बीच क्या अंतर है? अंतिम मॉडल वही है! –

5

मुझे लगता है कि मैंने इसे समझ लिया। ले लो (उदाहरण के लिए) weka.classifiers.rules.OneR -x 10 -d outmodel.xxx। यह दो चीजें करता है:

  1. यह पूर्ण डेटासेट के आधार पर एक मॉडल बनाता है। यह वह मॉडल है जो outmodel.xxx पर लिखा गया है। यह मॉडल क्रॉस-सत्यापन के हिस्से के रूप में उपयोग किया जाता है।
  2. फिर क्रॉस-सत्यापन चलाया गया है। क्रॉस-सत्यापन में वर्णित डेटा के खंडों पर प्रशिक्षण और परीक्षण के साथ 10 नए मॉडल (इस मामले में) बनाने के लिए शामिल है। कुंजी क्रॉस-सत्यापन में उपयोग किए जाने वाले मॉडल अस्थायी हैं और केवल आंकड़े उत्पन्न करने के लिए उपयोग किए जाते हैं। वे उपयोगकर्ता को दिए गए मॉडल के बराबर या उपयोग नहीं किए जाते हैं।
+1

लेकिन क्रॉस-सत्यापन का उद्देश्य क्या है? यदि उपयोगकर्ता को दिया गया अंतिम मॉडल पूर्ण डेटासेट पर आधारित है, तो हमें क्रॉस-सत्यापन की आवश्यकता क्यों है? मुझे लगता है कि क्रॉस-सत्यापन सर्वोत्तम मॉडल – lenhhoxung

6

मैं एक टिप्पणी में जवाब दे दिया है, लेकिन मेरी प्रतिष्ठा अभी भी करने के लिए मुझे अनुमति नहीं देता:

Rushdi के स्वीकार किए जाते हैं जवाब देने के लिए इसके अलावा, मैं जोर देना चाहता हूँ कि जो मॉडल पार सत्यापन के लिए बनाई गई हैं प्रदर्शन माप किए जाने और औसत के बाद फोल्ड सेट सभी को छोड़ दिया जाता है।

परिणामस्वरूप मॉडल हमेशा पूर्ण परीक्षण सेट के आधार पर आपके परीक्षण विकल्पों के बावजूद है। चूंकि एम-टी-ए उद्धृत लिंक को अपडेट करने के लिए कह रहा था, यहां यह है: http://list.waikato.ac.nz/pipermail/wekalist/2009-December/046633.html। यह वेबका रखरखाव में से एक का जवाब है, जो मैंने लिखा है उसे इंगित करते हुए।

+0

ढूंढना है क्या आपको पता है कि क्रॉस सत्यापन के लिए बनाए गए मॉडल देखने का कोई तरीका है या नहीं? – drevicko

+0

हां: वीका मेलिंग सूची [यहां] पर पोस्ट देखें (http://list.waikato.ac.nz/pipermail/wekalist/2015-July/064572.html) और [यहां] (http: //list.waikato .ac.nz/pipermail/wekalist/2011-November/053965.html) – drevicko

+2

लेकिन क्रॉस-सत्यापन का उद्देश्य क्या है? यदि उपयोगकर्ता को दिया गया अंतिम मॉडल पूर्ण डेटासेट पर आधारित है, तो हमें क्रॉस-सत्यापन की आवश्यकता क्यों है? मुझे लगता है कि क्रॉस-सत्यापन सर्वोत्तम मॉडल – lenhhoxung