सहसंबंधित विशेषताओं और वर्गीकरण सटीकता

मैं सभी को यह पूछना चाहता हूं कि सहसंबंधित विशेषताओं (चर) मशीन सीखने वाले एल्गोरिदम की वर्गीकरण सटीकता को कैसे प्रभावित करते हैं। सहसंबंधित विशेषताओं के साथ मेरा मतलब है कि उनके बीच एक सहसंबंध है, न कि लक्ष्य वर्ग (यानी परिधि और ज्यामितीय आकृति का क्षेत्र या शिक्षा का स्तर और औसत आय) के साथ। मेरी राय में सहसंबंधित विशेषताएं वर्गीकरण एल्गोरिदम की एएच सटीकता को नकारात्मक रूप से प्रभावित करती हैं, मैं कहूंगा क्योंकि सहसंबंध उनमें से एक को बेकार बनाता है। क्या यह वास्तव में ऐसा है? क्या वर्गीकरण एल्गोरिदम प्रकार के संबंध में समस्या बदलती है? कागजात और व्याख्यान पर कोई सुझाव वास्तव में स्वागत है! धन्यवादसहसंबंधित विशेषताओं और वर्गीकरण सटीकता

स्रोत

2013-02-11 Titus Pullo

लक्ष्य वर्ग के साथ सुविधाओं को सहसंबंधित करने के बारे में क्या? – Paniz

सामान्य रूप से, मैं कहूंगा कि अधिक असंबद्ध विशेषताएं हैं, बेहतर क्लासिफायर प्रदर्शन होने जा रहा है। अत्यधिक सहसंबंधित विशेषताओं के एक सेट को देखते हुए, पीसीए तकनीकों का उपयोग क्लासिफायर प्रदर्शन में सुधार के लिए जितना संभव हो सके ऑर्थोगोनल के रूप में करना संभव हो सकता है।

स्रोत

2013-02-11 14:43:20

यह सच नहीं है। चूंकि पीसीए अधिकतम भिन्नता वाले घटकों को चुनने का प्रयास करता है, इसलिए उच्च सहसंबंध से पीसीए घटकों के प्रभाव को फुलाएगा। – krthkskmr

सहसंबंधित विशेषताएं प्रति वर्गीकरण सटीकता को प्रभावित नहीं करती हैं। यथार्थवादी परिस्थितियों में समस्या यह है कि हमारे पास प्रशिक्षण उदाहरणों की एक सीमित संख्या है जिसके साथ वर्गीकरण को प्रशिक्षित किया जाता है। प्रशिक्षण उदाहरणों की एक निश्चित संख्या के लिए, विशेषताओं की संख्या में वृद्धि आमतौर पर वर्गीकरण सटीकता को एक बिंदु पर बढ़ाती है, लेकिन सुविधाओं की संख्या में वृद्धि जारी है, इसलिए वर्गीकरण सटीकता अंततः घट जाएगी क्योंकि हम अंडरसेम्प्लेड बड़ी संख्या में सुविधाओं के सापेक्ष हैं। इसके प्रभावों के बारे में और जानने के लिए, curse of dimensionality देखें।

यदि दो संख्यात्मक विशेषताएं पूरी तरह से सहसंबंधित हैं, तो कोई भी कोई अतिरिक्त जानकारी नहीं जोड़ता है (यह दूसरे द्वारा निर्धारित किया जाता है)। तो अगर सुविधाओं की संख्या बहुत अधिक (प्रशिक्षण नमूना आकार के सापेक्ष) है, तो यह एक feature extraction तकनीक (जैसे, principal components के माध्यम से)

सहसंबंध के प्रभाव पर निर्भर करता है के माध्यम से सुविधाओं की संख्या को कम करने के लिए फायदेमंद है वर्गीकरण का प्रकार। कुछ nonparametric वर्गीकृत चर के सहसंबंध के लिए कम संवेदनशील हैं (हालांकि सुविधाओं की संख्या में वृद्धि के साथ प्रशिक्षण समय में वृद्धि होगी)। गाऊशियन की अधिकतम संभावनाओं के लिए, प्रशिक्षण नमूना आकार के सापेक्ष बहुत अधिक सहसंबंधित विशेषताओं के कारण क्लासिकफायर मूल सुविधा स्थान में अनुपयोगी प्रस्तुत करेगा (नमूना डेटा का कॉन्वर्सिस मैट्रिक्स एकवचन बन जाता है)।

स्रोत

2013-02-11 14:45:40 bogatron

यह भी उल्लेख करना महत्वपूर्ण है कि मशीन लर्निंग एल्गोरिदम बहुत कम्प्यूटेशनल गहन हैं, और स्वतंत्र घटकों (या कम से कम प्रमुख घटकों) की सुविधाओं को कम करने से आवश्यक संसाधनों की मात्रा बहुत कम हो सकती है। –

मेरी प्रतिक्रिया केवल वर्गीकरण सटीकता के दिए गए प्रश्न पर केंद्रित है लेकिन आप एक अच्छा (और प्रासंगिक) बिंदु बनाते हैं। सिस्टम की आवश्यकताओं में वृद्धि के अलावा, प्रशिक्षण और वर्गीकरण के समय सुविधाओं की संख्या के साथ तेजी से बढ़ सकते हैं। – bogatron

यहां तक कि जो सुविधाएं अत्यधिक सहसंबंधित हैं वे वर्गीकरण के मामले में मूल्यवान और जानकारी प्रदान कर सकते हैं। –

सहसंबंधित विशेषताओं और वर्गीकरण सटीकता

उत्तर

संबंधित मुद्दे