मैं कुछ मशीन-लर्निंग ऑपरेशंस करने के लिए अपने पायथन कार्यक्रम में विज्ञान-सीखने का उपयोग कर रहा हूं। समस्या यह है कि मेरे डेटा सेट में असंतुलन के मुद्दे गंभीर हैं।विज्ञान में असंतुलन सीखें
क्या कोई भी विज्ञान-सीखने या सामान्य रूप से पाइथन में असंतुलन के समाधान से परिचित है? जावा में SMOTE mechanizm है। क्या अजगर में कुछ समानांतर है?
आप डेटासेट को संतुलित करने के लिए oversampling/undersampling को आजमा सकते हैं। बेशक यह एक सामान्य मशीन सीखने की विधि है और पायथन और विज्ञान-सीखने के लिए विशिष्ट नहीं है। वास्तव में, यह प्रश्न यहां विषय से दूर हो सकता है। शायद यह आंकड़ों पर एक बेहतर फिट है। उनके पास एक [असंतुलित-वर्ग टैग] भी है (http://stats.stackexchange.com/questions/tagged/unbalanced-classes)। – Junuxx
मुझे पता है कि विषय पुराना है लेकिन मैं सिर्फ सलाह का एक टुकड़ा जोड़ रहा हूं। असंतुलित डेटासेट के लिए, oversampling/undersampling के अलावा और class_weight पैरामीटर का उपयोग करके, आप अपने मामलों को वर्गीकृत करने के लिए थ्रेसहोल्ड भी कम कर सकते हैं। भविष्यवाणी की संभावनाएं (कक्षाओं के बजाए) और 0.5 से कम थ्रेसहोल्ड का उपयोग करने का प्रयास करें। बेशक, यह क्लासिफायर के प्रदर्शन में वृद्धि नहीं करेगा, यह केवल परिशुद्धता और याद के बीच एक व्यापार-बंद है। – Stergios
स्टेरजिओस, आप सीमा को कैसे समायोजित कर सकते हैं? पाइथन कोड का कोई संदर्भ जो करता है? – KubiK888