विज्ञान में असंतुलन सीखें

मैं कुछ मशीन-लर्निंग ऑपरेशंस करने के लिए अपने पायथन कार्यक्रम में विज्ञान-सीखने का उपयोग कर रहा हूं। समस्या यह है कि मेरे डेटा सेट में असंतुलन के मुद्दे गंभीर हैं।विज्ञान में असंतुलन सीखें

क्या कोई भी विज्ञान-सीखने या सामान्य रूप से पाइथन में असंतुलन के समाधान से परिचित है? जावा में SMOTE mechanizm है। क्या अजगर में कुछ समानांतर है?

स्रोत

2013-02-25 Maoritzio

आप डेटासेट को संतुलित करने के लिए oversampling/undersampling को आजमा सकते हैं। बेशक यह एक सामान्य मशीन सीखने की विधि है और पायथन और विज्ञान-सीखने के लिए विशिष्ट नहीं है। वास्तव में, यह प्रश्न यहां विषय से दूर हो सकता है। शायद यह आंकड़ों पर एक बेहतर फिट है। उनके पास एक [असंतुलित-वर्ग टैग] भी है (http://stats.stackexchange.com/questions/tagged/unbalanced-classes)। – Junuxx

मुझे पता है कि विषय पुराना है लेकिन मैं सिर्फ सलाह का एक टुकड़ा जोड़ रहा हूं। असंतुलित डेटासेट के लिए, oversampling/undersampling के अलावा और class_weight पैरामीटर का उपयोग करके, आप अपने मामलों को वर्गीकृत करने के लिए थ्रेसहोल्ड भी कम कर सकते हैं। भविष्यवाणी की संभावनाएं (कक्षाओं के बजाए) और 0.5 से कम थ्रेसहोल्ड का उपयोग करने का प्रयास करें। बेशक, यह क्लासिफायर के प्रदर्शन में वृद्धि नहीं करेगा, यह केवल परिशुद्धता और याद के बीच एक व्यापार-बंद है। – Stergios

स्टेरजिओस, आप सीमा को कैसे समायोजित कर सकते हैं? पाइथन कोड का कोई संदर्भ जो करता है? – KubiK888

SMOTE विज्ञान-सीखने में एक अंतर्निहित नहीं है, लेकिन फिर भी कार्यान्वयन ऑनलाइन उपलब्ध हैं। उदाहरण के लिए
Here।

स्रोत

2013-02-25 21:26:44 Junuxx

बस कोड को देखने से, इसमें 'TODO' है। क्या यह कार्यान्वयन सही है? – inspectorG4dget

कोड सही है, मैंने अभी परीक्षण किया है। 'TODO' एक विशेष मामला है और इस तरह कुछ याद करता है:' टी = टी [np.random.choice (रेंज (लेन (टी)), एन)] '। लेकिन लाइन 'एन = 100' रखें! –

विज्ञान में सीखें कुछ असंतुलन सुधार तकनीकें हैं, जो कि आप सीख रहे एल्गोरिदम के अनुसार भिन्न होते हैं।

उनमें से कुछ Svm या logistic regression की तरह, class_weight पैरामीटर है। यदि आप 'ऑटो' पर सेट इस पैरामीटर के साथ एक एसवीसी को तुरंत चालू करते हैं, तो यह प्रत्येक आवृत्ति के अनुपात को आनुपातिक रूप से इसके आवृत्ति के विपरीत वजन देगा।

दुर्भाग्य से, इस उद्देश्य के साथ एक प्रीप्रोसेसर उपकरण नहीं है।

स्रोत

2013-09-19 17:39:12

मैंने अपने बेहद असंतुलित डेटा में वर्ग वजन = 'ऑटो' का उपयोग करने का प्रयास किया है, लेकिन मुझे प्रदर्शन में बहुत अंतर नहीं दिख रहा है, क्या यह सामान्य है? – KubiK888

@ KubiK888 क्या आप एक ही एक्स का उपयोग करके परीक्षण और सत्यापन कर रहे हैं? आप किस माप का उपयोग कर रहे हैं? –

नहीं, परीक्षण और प्रशिक्षण सेट पूरी तरह से अलग हो गए हैं। – KubiK888

मैंने पाया एक अन्य पुस्तकालय यहाँ जो अवर और भी कई पीट-पीटकर कार्यान्वयन सहित कई oversampling तकनीकें लागू और एक अन्य जो SVM उपयोग करता है:

https://github.com/fmfn/UnbalancedDataset

स्रोत

2014-11-17 19:10:47 burgersmoke

एक नया एक यहाँ

https://github.com/scikit-learn-contrib/imbalanced-learn

नहीं है

इसमें निम्नलिखित श्रेणियों में कई एल्गोरिदम शामिल हैं, जिनमें SMOTE

शामिल है