मैं हाइव का उपयोग कर एक हडोप नौकरी चला रहा हूं वास्तव में uniq
कई टेक्स्ट फ़ाइलों में लाइनों को माना जाता है। कम चरण में, यह प्रत्येक कुंजी के लिए सबसे हाल ही में टाइमस्टैम्प रिकॉर्ड चुनता है।हैडोप का उपयोग करके, क्या मेरे रेड्यूसर एक ही कुंजी के साथ सभी रिकॉर्ड प्राप्त करने की गारंटी रखते हैं?
क्या हैडोप गारंटी देता है कि एक ही कुंजी के साथ प्रत्येक रिकॉर्ड, मानचित्र चरण द्वारा आउटपुट, एक एकल reducer पर जाएगा, भले ही कई reducers एक समूह में चल रहे हैं?
मुझे चिंता है कि एक ही कुंजी के साथ रिकॉर्ड के सेट के बीच में शफल होने के बाद मैपर आउटपुट को विभाजित किया जा सकता है।
वास्तव में मुझे इस बारे में निश्चित नहीं है। Http://stackoverflow.com/questions/26693034/hadoop-strange-behaviour-reduce-function-doesnt-get-all-values-for-a-key देखें। मैंने अपने कार्यक्रम में विभाजनकर्ता को संशोधित नहीं किया। – Madrugada