मैं सभी को यह पूछना चाहता हूं कि सहसंबंधित विशेषताओं (चर) मशीन सीखने वाले एल्गोरिदम की वर्गीकरण सटीकता को कैसे प्रभावित करते हैं। सहसंबंधित विशेषताओं के साथ मेरा मतलब है कि उनके बीच एक सहसंबंध है, न कि लक्ष्य वर्ग (यानी परिधि और ज्यामितीय आकृति का क्षेत्र या शिक्षा का स्तर और औसत आय) के साथ। मेरी राय में सहसंबंधित विशेषताएं वर्गीकरण एल्गोरिदम की एएच सटीकता को नकारात्मक रूप से प्रभावित करती हैं, मैं कहूंगा क्योंकि सहसंबंध उनमें से एक को बेकार बनाता है। क्या यह वास्तव में ऐसा है? क्या वर्गीकरण एल्गोरिदम प्रकार के संबंध में समस्या बदलती है? कागजात और व्याख्यान पर कोई सुझाव वास्तव में स्वागत है! धन्यवादसहसंबंधित विशेषताओं और वर्गीकरण सटीकता
उत्तर
सामान्य रूप से, मैं कहूंगा कि अधिक असंबद्ध विशेषताएं हैं, बेहतर क्लासिफायर प्रदर्शन होने जा रहा है। अत्यधिक सहसंबंधित विशेषताओं के एक सेट को देखते हुए, पीसीए तकनीकों का उपयोग क्लासिफायर प्रदर्शन में सुधार के लिए जितना संभव हो सके ऑर्थोगोनल के रूप में करना संभव हो सकता है।
यह सच नहीं है। चूंकि पीसीए अधिकतम भिन्नता वाले घटकों को चुनने का प्रयास करता है, इसलिए उच्च सहसंबंध से पीसीए घटकों के प्रभाव को फुलाएगा। – krthkskmr
सहसंबंधित विशेषताएं प्रति वर्गीकरण सटीकता को प्रभावित नहीं करती हैं। यथार्थवादी परिस्थितियों में समस्या यह है कि हमारे पास प्रशिक्षण उदाहरणों की एक सीमित संख्या है जिसके साथ वर्गीकरण को प्रशिक्षित किया जाता है। प्रशिक्षण उदाहरणों की एक निश्चित संख्या के लिए, विशेषताओं की संख्या में वृद्धि आमतौर पर वर्गीकरण सटीकता को एक बिंदु पर बढ़ाती है, लेकिन सुविधाओं की संख्या में वृद्धि जारी है, इसलिए वर्गीकरण सटीकता अंततः घट जाएगी क्योंकि हम अंडरसेम्प्लेड बड़ी संख्या में सुविधाओं के सापेक्ष हैं। इसके प्रभावों के बारे में और जानने के लिए, curse of dimensionality देखें।
यदि दो संख्यात्मक विशेषताएं पूरी तरह से सहसंबंधित हैं, तो कोई भी कोई अतिरिक्त जानकारी नहीं जोड़ता है (यह दूसरे द्वारा निर्धारित किया जाता है)। तो अगर सुविधाओं की संख्या बहुत अधिक (प्रशिक्षण नमूना आकार के सापेक्ष) है, तो यह एक feature extraction तकनीक (जैसे, principal components के माध्यम से)
सहसंबंध के प्रभाव पर निर्भर करता है के माध्यम से सुविधाओं की संख्या को कम करने के लिए फायदेमंद है वर्गीकरण का प्रकार। कुछ nonparametric वर्गीकृत चर के सहसंबंध के लिए कम संवेदनशील हैं (हालांकि सुविधाओं की संख्या में वृद्धि के साथ प्रशिक्षण समय में वृद्धि होगी)। गाऊशियन की अधिकतम संभावनाओं के लिए, प्रशिक्षण नमूना आकार के सापेक्ष बहुत अधिक सहसंबंधित विशेषताओं के कारण क्लासिकफायर मूल सुविधा स्थान में अनुपयोगी प्रस्तुत करेगा (नमूना डेटा का कॉन्वर्सिस मैट्रिक्स एकवचन बन जाता है)।
यह भी उल्लेख करना महत्वपूर्ण है कि मशीन लर्निंग एल्गोरिदम बहुत कम्प्यूटेशनल गहन हैं, और स्वतंत्र घटकों (या कम से कम प्रमुख घटकों) की सुविधाओं को कम करने से आवश्यक संसाधनों की मात्रा बहुत कम हो सकती है। –
मेरी प्रतिक्रिया केवल वर्गीकरण सटीकता के दिए गए प्रश्न पर केंद्रित है लेकिन आप एक अच्छा (और प्रासंगिक) बिंदु बनाते हैं। सिस्टम की आवश्यकताओं में वृद्धि के अलावा, प्रशिक्षण और वर्गीकरण के समय सुविधाओं की संख्या के साथ तेजी से बढ़ सकते हैं। – bogatron
यहां तक कि जो सुविधाएं अत्यधिक सहसंबंधित हैं वे वर्गीकरण के मामले में मूल्यवान और जानकारी प्रदान कर सकते हैं। –
लक्ष्य वर्ग के साथ सुविधाओं को सहसंबंधित करने के बारे में क्या? – Paniz