पर पढ़ने के बिना बड़ी xdf फ़ाइलों पर यादृच्छिक वन बड़े (लगभग 10 जीबी) xdf (क्रांति आर प्रारूप) फ़ाइलों पर यादृच्छिक वन चलाने का कोई तरीका है? जाहिर है, मैं rxReadXdf को आजमा सकता हूं और इसे डेटाफ्रेम पर ले जा सकता हूं ... लेकिन मेरी मशीन में केवल 8 जीबी रैम है और मैं भविष्य में भी बड़े डेटा सेट से निपट सकता हूं। उदाहरण के लिए, foreach पाश का उपयोग कर, मैं अपने क्वाड-कोर मशीन पर 1000 पेड़ों को चलाने के लिए पसंद करेंगे:डेटाफ्रेम
#'train.xdf" is a 10gb training data set
rf<- foreach(ntree=rep(250, 4), .combine=combine,
.packages='randomForest') %do%
randomForest(amount2~.,data="train", ntree=ntree, importance=TRUE,
na.action=na.omit, replace=FALSE)
लेकिन randomForest "प्रशिक्षित" (एक xdf) फ़ाइल में लेने में असमर्थ है। डेटाफ्रेम में पढ़ने के बिना सीधे xdf पर यादृच्छिक वन चलाने का कोई तरीका है?
चीयर्स,
agsub
मुझे नहीं लगता कि यह संभव है, लेकिन मैंने कभी भी एक्सडीएफ फाइलों के साथ काम नहीं किया है। मैं इसके बजाय डेटा को छोटे हिस्सों में विभाजित करने की कोशिश करता हूं, उन पर यादृच्छिक जंगलों को प्रशिक्षित करता हूं और सभी हिस्सों से जुड़ी सर्वोत्तम सुविधाओं पर अंतिम मॉडल बनाता हूं। हालांकि यह काफी बोझिल है। – Backlin
हां शायद मैं जिस तरह से जाऊंगा – thiakx
इसका उज्ज्वल पक्ष यह है कि यदि डेटा विश्लेषण आसान था तो मेरे पास नौकरी नहीं होगी :) – Backlin