में मैं हमेशा मैं क्या पढ़ा है कि पार सत्यापन इस तरह किया जाता है से सोचा है:क्रॉस मान्यता Weka
कश्मीर गुना पार सत्यापन में, मूल नमूना बेतरतीब ढंग से कश्मीर subsamples में विभाजित है। के उपसमूहों में से, एक एकल सबसमूह मॉडल का परीक्षण करने के लिए सत्यापन डेटा के रूप में बनाए रखा गया है, और शेष के -1 उपसमूह प्रशिक्षण डेटा के रूप में उपयोग किए जाते हैं। क्रॉस-सत्यापन प्रक्रिया को फिर से बार बार (गुना) दोहराया जाता है, के साथ प्रत्येक के उप-नमूने सत्यापन डेटा के रूप में बिल्कुल एक बार उपयोग किए जाते हैं। परतों से कश्मीर परिणाम फिर औसत जा सकता है (या अन्यथा संयुक्त) एक भी अनुमान का उत्पादन करने के
तो कश्मीर मॉडल निर्माण कर रहे हैं और अंतिम एक उन लोगों में से औसत है। वीका गाइड में लिखा गया है कि प्रत्येक मॉडल हमेशा सभी डेटा सेट का उपयोग करके बनाया जाता है। तो वेका काम में पार सत्यापन कैसे करता है? क्या सभी डेटा से निर्मित मॉडल और "क्रॉस-सत्यापन" का अर्थ है कि के गुना बनाया जाता है, तो प्रत्येक गुना का मूल्यांकन किया जाता है और अंतिम आउटपुट परिणाम केवल फोल्ड से औसत परिणाम होता है?
मुझे 2 प्रश्न हैं: 1) अगर ऐसा लगता है कि वीका गाइड में क्यों लिखा गया है कि प्रत्येक मामले में (प्रशिक्षण सेट और सीवी) मॉडल हमेशा सभी डेटा से बनाया जाता है? जैसा कि आपने सीवी में लिखा था, अंतिम मॉडल अन्य 10 मॉडल का औसत है, है ना?2) यदि "इस बिंदु पर आपको जो मॉडल मिलता है वह सभी 10 मॉडलों का औसत है" यह कैसे संभव है कि प्रशिक्षण सेट और सीवी का सत्यापन सत्यापन के रूप में मुझे समान मॉडल मिलते हैं? (आशा है कि ये प्रश्न बहुत मूर्ख नहीं दिखेंगे!) –
1. इसका मतलब है कि प्रत्येक गुना पूर्ण डेटासेट माना जाता है। इस मानक सीवी के कुछ बदलाव हैं जहां अलग-अलग परीक्षण के लिए डेटासेट का हिस्सा आयोजित किया जाता है। 2. "समान मॉडल प्राप्त करने" से आपका क्या मतलब है? –
"वही मॉडल" के लिए मेरा मतलब है कि आउटपुट में मुझे बिल्कुल वही पेड़ मिला है –