मैं एसएएस से दूर जाने की कोशिश कर आर के लिए एक नया उपयोगकर्ता हूं। मैं यहां इस सवाल से पूछ रहा हूं क्योंकि मैं आर के लिए उपलब्ध सभी संकुलों और स्रोतों से थोड़ा निराश महसूस कर रहा हूं, और मुझे लगता है कि मुख्य रूप से डेटा आकार के कारण यह काम नहीं कर रहा है।बड़े डेटाबेस का नमूना कैसे लें और आर में के-साधन और के-एनएन लागू करें?
एक तालिका 200 भविष्यवक्ता सुविधाओं और एक वर्ग चर के साथ एक स्थानीय MySQL डेटाबेस में स्रोत कहा जाता है:
मैं निम्नलिखित है। तालिका में 3 मिलियन रिकॉर्ड हैं और 3 जीबी बड़ा है। प्रति वर्ग के उदाहरणों की संख्या बराबर नहीं है।
- एक बेतरतीब ढंग से स्रोत डेटाबेस प्रति कक्षा उदाहरणों में से समान संख्या के साथ के एक छोटे डाटासेट बनाने के लिए नमूना:
मैं करना चाहता हूँ।
- प्रशिक्षण और परीक्षण सेट में नमूना विभाजित करें।
- प्रति वर्ग के सेंट्रॉइड निर्धारित करने के लिए प्रशिक्षण सेट पर प्रीफॉर्म के-साधन क्लस्टरिंग।
- सेंट्रॉइड के साथ परीक्षण डेटा के प्री-के-एनएन वर्गीकरण।
तो आपका स्वागत है! मैं आपको सुझाव देता हूं: ** RMysqlite ** नमूनाकरण के लिए अपना डेटा निकालने के लिए पैकेज * नमूना * फ़ंक्शन (** आधार ** पैकेज)! * kmeans * समारोह (** आधार ** पैकेज)! * knn * फ़ंक्शन (** कक्षा ** पैकेज) – agstudy
बड़े डेटा को कैसे संभालें? डेटाबेस के साथ समस्या, स्मृति में पूर्व नमूना रखा जा रहा है। केवल 4 जीबी रैम है। – erichfw
यादृच्छिक चयन करने के लिए डीबी इंजन का उपयोग करने का प्रयास करें: http://stackoverflow.com/q/580639/269476। – James