bigdata

10गर्मी

2उत्तर

फेसबुक जैसी साइटें व्यक्तिगत प्रोफाइल के लिए डेटा स्टोर करने के लिए किस प्रारूप का उपयोग करती हैं?

मैंने हाल ही में एक्सएमएल फाइलों में संग्रहीत डेटा के बड़े सेट से निपटना शुरू कर दिया है। मैंने हमेशा सोचा है कि कैसे फेसबुक और अन्य नेटवर्किंग साइट व्यक्तिगत प्रोफाइल (नाम, प्रोफाइल चित्र, दीवार पोस्

6गर्मी

1उत्तर

बिग डेटा Arules पैकेज से "लेनदेन" में परिवर्तित

आर में arules पैकेज वर्ग 'लेनदेन' का उपयोग करता है। तो फ़ंक्शन apriori() का उपयोग करने के लिए मुझे अपने मौजूदा डेटा को कन्वर्ट करने की आवश्यकता है। मैं 2 कॉलम और मोटे तौर पर 1.6 मिमी पंक्तियों के साथ

8गर्मी

3उत्तर

आर: क्या 20 मिलियन से अधिक पंक्ति सीएसवी में आर को पढ़ने के लिए समानांतर/गति-अप करना संभव है?

एक बार सीएसवी read.csv के माध्यम से लोड हो जाने के बाद, सीएसवी में डेटा के साथ खेलने के लिए multicore, segue आदि का उपयोग करना काफी मुश्किल है। हालांकि, इसे पढ़ने में काफी समय लगता है। एहसास इसका इस्त

15गर्मी

5उत्तर

आर

में दो बड़े लॉजिकल वैक्टरों को पार करने के लिए सबसे तेज़ तरीका दो लॉजिकल वैक्टर, x और y, लंबाई> 1E8 के लिए, 2x2 क्रॉस सारणी की गणना करने का सबसे तेज़ तरीका क्या है? मुझे संदेह है कि इसका जवाब सी/सी ++

5गर्मी

1उत्तर

बेस्ट डाटा स्टोर रीड और राईट

मैं डेटाबेस पर रिकॉर्ड की करीब 100 लाखों स्टोर करने के लिए की जरूरत है। उनमें से लगभग 60-70% दैनिक हटा दिए जाएंगे और रिकॉर्ड की एक ही राशि प्रतिदिन डाली जाएगी। मुझे एक दस्तावेज़ डेटाबेस लगता है जैसे ह

8गर्मी

5उत्तर

भारी मात्रा में डेटा कैसे उत्पन्न करें?

मैं नच और हडूप के साथ कुछ परीक्षण कर रहा हूं और मुझे बड़ी मात्रा में डेटा चाहिए। मैं 20 जीबी के साथ शुरू करना चाहता हूं, 100 जीबी, 500 जीबी पर जाएं और अंततः 1-2 टीबी तक पहुंचें। समस्या यह है कि मेरे प

14गर्मी

2उत्तर

टुकड़ों में सीएसवी फाइलों में पढ़ने के लिए रणनीतियां?

मेरे पास एक कंप्यूटर पर एक मध्यम आकार की फ़ाइल (4 जीबी सीएसवी) है जिसमें इसे पढ़ने के लिए पर्याप्त रैम नहीं है (64-बिट विंडोज़ पर 8 जीबी)। अतीत में मैंने इसे क्लस्टर नोड पर लोड कर लिया होगा और इसे पढ़

6गर्मी

2उत्तर

यह जांचना कि क्या बफर को आर

में फ़्लश किया गया है, मेरे पास कुछ बड़ी, बड़ी फ़ाइलें हैं जिनके साथ मैं काम करता हूं और मैं उन्हें एक्सेस करने के लिए कई अलग-अलग I/O फ़ंक्शंस का उपयोग करता हूं। सबसे आम एक bigmemory पैकेज है। फ़ाइलों

7गर्मी

2उत्तर

जावा

में बड़ी स्ट्रिंग सूचियों को संभालना मेरे पास एक कार्य है, जहां मुझे कई अरब स्ट्रिंग लाइनों से गुजरना है और जांचना है कि उनमें से प्रत्येक अद्वितीय है या नहीं। सभी लाइनों को स्वयं पीसी की रैम मेमोरी म

8गर्मी

4उत्तर

बड़े टेक्स्ट डेटा को सॉर्ट करना

मेरे पास एक बड़ी फ़ाइल है (टैब के अलग-अलग मूल्यों की 100 मिलियन लाइनें - आकार में लगभग 1.5 जीबी)। खेतों में से किसी एक के आधार पर इसे हल करने का सबसे तेज़ तरीका क्या है? मैंने हाइव की कोशिश की है। मैं