जावा में एक स्टोकेस्टिक सिमुलेशन, जो डिस्क पर कुछ CSV फ़ाइलों से डेटा लोड (100 एमबी के बारे में कुल मात्रा) और एक अन्य आउटपुट फ़ाइल के लिए परिणाम लिखते हैं (ज्यादा नहीं डेटा, बस एक बूलियन और कुछ संख्या) लिखा है। एक पैरामीटर फ़ाइल भी है, और विभिन्न मानकों के लिए सिमुलेशन आउटपुट का वितरण बदलने की उम्मीद की जाएगी। सही/सर्वोत्तम इनपुट पैरामीटर निर्धारित करने के लिए मुझे एकाधिक सिमुलेशन चलाने की आवश्यकता है, एकाधिक इनपुट पैरामीटर कॉन्फ़िगरेशन में, और प्रत्येक समूह में आउटपुट के वितरण को देखें। पैरामीटर और यादृच्छिकता के आधार पर प्रत्येक सिमुलेशन 0.1-10 मिनट लेता है।हैडोप मेरे सिमुलेशन चलाने के लिए सही है?
मैं Hadoop के बारे में पढ़ रहा था और अगर यह मेरे सिमुलेशन के बहुत सारे चल मदद कर सकते हैं सोच रहा; मेरे पास निकट भविष्य में लगभग 8 नेटवर्क वाली डेस्कटॉप मशीनों तक पहुंच हो सकती है। अगर मैं सही ढंग से समझता हूं, तो नक्शा फ़ंक्शन मेरे अनुकरण को चला सकता है और परिणाम निकाल सकता है, और reducer पहचान हो सकती है।
जिस चीज के बारे में मुझे चिंता है वह एचडीएफएस है, जो कि बड़ी फाइलों के लिए प्रतीत होता है, छोटी सीएसवी फाइलों की चपेट में नहीं, (इनमें से कोई भी 64 एमबी के न्यूनतम अनुशंसित ब्लॉक आकार को भी बड़ा करने के लिए पर्याप्त नहीं होगा)। इसके अलावा, प्रत्येक सिमुलेशन को केवल प्रत्येक CSV फ़ाइलों की एक समान प्रति की आवश्यकता होगी।
क्या हैडोप मेरे लिए गलत उपकरण है?
मुझे लगता है कि यह अधिक पसंद है, आपको डेटाबेस के लिए स्प्रेडशीट का उपयोग नहीं करना चाहिए। निश्चित रूप से आप * एक डेटाबेस के रूप में एक स्प्रेडशीट का उपयोग कर सकते हैं, और कई लोग करते हैं, लेकिन यह आपके लिए क्या किया गया था और इसके लिए आप इसका उपयोग कर रहे हैं के बीच मेल नहीं खाते के कारण आपके लिए समस्याएं पेश कर सकते हैं (या नहीं)। उस ने कहा, कुछ लोगों के पास डेटाबेस तक पहुंच नहीं है इसलिए स्प्रेडशीट उनके लिए सबसे अच्छा विकल्प है। –
यह वास्तव में एक अच्छा सादृश्य एमिल है। बहुत अच्छा मुद्दा। लेकिन अगर सिमुलेशन के लिए हैडोप का उपयोग करना वास्तव में डेटाबेस में संख्याओं को संग्रहित करना है। कोई कह सकता है, "संख्याओं के कॉलम संग्रहित करना? यह एक स्प्रेडशीट समस्या है! स्प्रेडशीट का उद्देश्य संख्याओं के लिए बनाया गया था!" लेकिन फिर जब आपके पास 1000 मिमी संख्याएं हैं .. ओह ओह, यह एक डेटाबेस समस्या है। लेकिन 1000 मिमी नंबर संग्रहित करना डेटाबेस के लिए नहीं बनाया गया था। डीबी स्टोर टेक्स्ट, ब्लब्स इत्यादि। बस संख्याओं को संग्रहित करना उनके लिए उपयोग नहीं किया जाना चाहिए! ;) –
क्या आप वीडियो के लिंक को अपडेट कर सकते हैं यदि यह अभी भी कहीं भी उपलब्ध है? – Stefan