30

मैं सभी को यह पूछना चाहता हूं कि सहसंबंधित विशेषताओं (चर) मशीन सीखने वाले एल्गोरिदम की वर्गीकरण सटीकता को कैसे प्रभावित करते हैं। सहसंबंधित विशेषताओं के साथ मेरा मतलब है कि उनके बीच एक सहसंबंध है, न कि लक्ष्य वर्ग (यानी परिधि और ज्यामितीय आकृति का क्षेत्र या शिक्षा का स्तर और औसत आय) के साथ। मेरी राय में सहसंबंधित विशेषताएं वर्गीकरण एल्गोरिदम की एएच सटीकता को नकारात्मक रूप से प्रभावित करती हैं, मैं कहूंगा क्योंकि सहसंबंध उनमें से एक को बेकार बनाता है। क्या यह वास्तव में ऐसा है? क्या वर्गीकरण एल्गोरिदम प्रकार के संबंध में समस्या बदलती है? कागजात और व्याख्यान पर कोई सुझाव वास्तव में स्वागत है! धन्यवादसहसंबंधित विशेषताओं और वर्गीकरण सटीकता

+0

लक्ष्य वर्ग के साथ सुविधाओं को सहसंबंधित करने के बारे में क्या? – Paniz

उत्तर

1

सामान्य रूप से, मैं कहूंगा कि अधिक असंबद्ध विशेषताएं हैं, बेहतर क्लासिफायर प्रदर्शन होने जा रहा है। अत्यधिक सहसंबंधित विशेषताओं के एक सेट को देखते हुए, पीसीए तकनीकों का उपयोग क्लासिफायर प्रदर्शन में सुधार के लिए जितना संभव हो सके ऑर्थोगोनल के रूप में करना संभव हो सकता है।

+0

यह सच नहीं है। चूंकि पीसीए अधिकतम भिन्नता वाले घटकों को चुनने का प्रयास करता है, इसलिए उच्च सहसंबंध से पीसीए घटकों के प्रभाव को फुलाएगा। – krthkskmr

22

सहसंबंधित विशेषताएं प्रति वर्गीकरण सटीकता को प्रभावित नहीं करती हैं। यथार्थवादी परिस्थितियों में समस्या यह है कि हमारे पास प्रशिक्षण उदाहरणों की एक सीमित संख्या है जिसके साथ वर्गीकरण को प्रशिक्षित किया जाता है। प्रशिक्षण उदाहरणों की एक निश्चित संख्या के लिए, विशेषताओं की संख्या में वृद्धि आमतौर पर वर्गीकरण सटीकता को एक बिंदु पर बढ़ाती है, लेकिन सुविधाओं की संख्या में वृद्धि जारी है, इसलिए वर्गीकरण सटीकता अंततः घट जाएगी क्योंकि हम अंडरसेम्प्लेड बड़ी संख्या में सुविधाओं के सापेक्ष हैं। इसके प्रभावों के बारे में और जानने के लिए, curse of dimensionality देखें।

यदि दो संख्यात्मक विशेषताएं पूरी तरह से सहसंबंधित हैं, तो कोई भी कोई अतिरिक्त जानकारी नहीं जोड़ता है (यह दूसरे द्वारा निर्धारित किया जाता है)। तो अगर सुविधाओं की संख्या बहुत अधिक (प्रशिक्षण नमूना आकार के सापेक्ष) है, तो यह एक feature extraction तकनीक (जैसे, principal components के माध्यम से)

सहसंबंध के प्रभाव पर निर्भर करता है के माध्यम से सुविधाओं की संख्या को कम करने के लिए फायदेमंद है वर्गीकरण का प्रकार। कुछ nonparametric वर्गीकृत चर के सहसंबंध के लिए कम संवेदनशील हैं (हालांकि सुविधाओं की संख्या में वृद्धि के साथ प्रशिक्षण समय में वृद्धि होगी)। गाऊशियन की अधिकतम संभावनाओं के लिए, प्रशिक्षण नमूना आकार के सापेक्ष बहुत अधिक सहसंबंधित विशेषताओं के कारण क्लासिकफायर मूल सुविधा स्थान में अनुपयोगी प्रस्तुत करेगा (नमूना डेटा का कॉन्वर्सिस मैट्रिक्स एकवचन बन जाता है)।

+1

यह भी उल्लेख करना महत्वपूर्ण है कि मशीन लर्निंग एल्गोरिदम बहुत कम्प्यूटेशनल गहन हैं, और स्वतंत्र घटकों (या कम से कम प्रमुख घटकों) की सुविधाओं को कम करने से आवश्यक संसाधनों की मात्रा बहुत कम हो सकती है। –

+0

मेरी प्रतिक्रिया केवल वर्गीकरण सटीकता के दिए गए प्रश्न पर केंद्रित है लेकिन आप एक अच्छा (और प्रासंगिक) बिंदु बनाते हैं। सिस्टम की आवश्यकताओं में वृद्धि के अलावा, प्रशिक्षण और वर्गीकरण के समय सुविधाओं की संख्या के साथ तेजी से बढ़ सकते हैं। – bogatron

+0

यहां तक ​​कि जो सुविधाएं अत्यधिक सहसंबंधित हैं वे वर्गीकरण के मामले में मूल्यवान और जानकारी प्रदान कर सकते हैं। –