मैं हडूप के साथ खेलना शुरू कर रहा हूं (लेकिन अभी तक क्लस्टर तक पहुंच नहीं है इसलिए बस स्टैंडअलोन में खेलना)। मेरा सवाल यह है कि, एक बार क्लस्टर सेटअप में, कार्यों को कैसे वितरित किया जाता है और कोड बेस को नए नोड्स में स्थानांतरित किया जा सकता है?क्या हैडोप कार्य और कोड आधार वितरित कर सकता है?
आदर्श रूप से, मैं बड़ी बैच नौकरियां चलाने की इच्छा रखता हूं और यदि मुझे अधिक क्षमता की आवश्यकता है तो क्लस्टर में नए नोड्स जोड़ें, लेकिन मुझे यकीन नहीं है कि मुझे उसी कोड को कॉपी करना होगा जो स्थानीय रूप से चल रहा है या कुछ खास करता है जबकि बैच नौकरी चल रही है मैं क्षमता जोड़ सकता हूं। मैंने सोचा कि मैं अपने कोडबेस को एचडीएफएस पर स्टोर कर सकता हूं और इसे हर बार चलाने के लिए स्थानीय रूप से खींच लिया जाता है, लेकिन इसका मतलब है कि मुझे सर्वर पर किसी प्रकार की प्रारंभिक स्क्रिप्ट चाहिए और इसे मैन्युअल रूप से चलाने की आवश्यकता है।
यदि यह संभव है तो कोई सुझाव या सलाह बहुत अच्छी होगी!
धन्यवाद।
धन्यवाद, महान जवाब। यह जावा के साथ समझ में आता है लेकिन क्या यह पाइथन स्ट्रीमिंग का उपयोग करने के साथ भी सच है? – Lostsoul
http://hadoop.apache.org/common/docs/r0.15.2/streaming.html#Package+Files+With+Job+Submissions से: "आप किसी भी निष्पादन योग्य को मैपर और/या reducer के रूप में निर्दिष्ट कर सकते हैं। एक्जिक्यूटिव को क्लस्टर में मशीनों पर पूर्व-अस्तित्व की आवश्यकता नहीं है, हालांकि, यदि वे नहीं करते हैं, तो आपको जॉब सबमिशन के हिस्से के रूप में अपनी निष्पादन योग्य फ़ाइलों को पैक करने के लिए ढांचे को बताने के लिए "-फाइल" विकल्प का उपयोग करना होगा। " टास्कट्रैकर्स जोड़ने के बारे में सब कुछ ऊपर स्ट्रीमिंग के लिए भी सच है। –