मैं स्मृति समस्याओं में भाग लेने के बिना बड़े सीएसवी डेटा (~ 75 एमबी) पर मॉडल को प्रशिक्षित करने के लिए विज्ञान-सीखने का उपयोग कैसे करूं?विज्ञान और पांडा: फिटिंग बड़े डेटा
मैं प्रोग्रामिंग वातावरण के रूप में आईपीथॉन नोटबुक का उपयोग कर रहा हूं, और पांडा + स्केलर पैकेज को कागल के अंकों पहचानकर्ता ट्यूटोरियल से डेटा का विश्लेषण करने के लिए उपयोग कर रहा हूं।
डेटा webpage, my code के लिए लिंक पर उपलब्ध है, और यहाँ error message है:
KNeighborsClassifier
भविष्यवाणी के लिए प्रयोग किया जाता है।
समस्या:
"MemoryError" तब होता है जब बड़े डेटासेट लोड हो रहा है read_csv समारोह का उपयोग कर। अस्थायी रूप से इस समस्या को बाईपास करने के लिए, मुझे कर्नेल को पुनरारंभ करना होगा, जो तब read_csv फ़ंक्शन सफलतापूर्वक फ़ाइल लोड करता है, लेकिन वही त्रुटि तब होती है जब मैं एक ही सेल को फिर से चलाता हूं।
read_csv
समारोह फ़ाइल सफलतापूर्वक लोड करता है, dataframe
में परिवर्तन करने के बाद, मैं सुविधाओं और लेबल KNeighborsClassifier के फिट() फ़ंक्शन करने के लिए पारित कर सकते हैं। इस बिंदु पर, समान स्मृति त्रुटि होती है। मात्रा में CSV फ़ाइल के माध्यम से
दोहराएं, और उसके अनुसार डेटा फिट है, लेकिन समस्या यह है कि भविष्य कहनेवाला मॉडल डेटा का एक हिस्सा के लिए हर बार ओवरराइट है:
मैं निम्नलिखित की कोशिश की।
आपको क्या लगता है कि मैं मेमोरी समस्याओं में भाग दिए बिना अपने मॉडल को सफलतापूर्वक प्रशिक्षित करने के लिए क्या कर सकता हूं?
आपका कोड + डेटा अपने लैपटॉप पर ठीक चलाता है। इसके लिए लगभग 1.2 जीबी मेमोरी की आवश्यकता है। आपके सिस्टम में कितनी मेमोरी है? – Sicco
यह loadtxt का उपयोग कर काम कर रहा है। स्मृति त्रुटि की घटना के बावजूद, एल्गोरिदम पर केवल ~ 75 एमबी डेटा चलाना 1 जीबी से अधिक RAM लेता है ... मुझे यकीन नहीं है कि मैं अपने कोड में कुछ भी गलत कर रहा हूं। (http://pastie.org/4354911) (आईपीथॉन नोटबुक)। यदि यह केवल इतना एल्गोरिदम है जो इसे लंबे समय से ले रहा है, तो आप मॉडल बनाने के लिए इतने लंबे समय तक एल्गोरिदम पर डेटा के गीगाबाइट कैसे लोड करते हैं? –
आप एक एल्गोरिदम का उपयोग कर सकते हैं जिसे वृद्धिशील रूप से प्रशिक्षित किया जा सकता है, जिससे एक समय में डेटा के केवल (छोटे) भागों को संसाधित किया जा सकता है। Scikit-learn में एक अनुमानक ऐसा करने में सक्षम है अगर यह 'partial_fit' विधि लागू करता है। – Sicco