Hadoop काम काउंटरों में, के बीच का अंतर बनाम "उत्पादन बाइट्स के नक्शे" "मानचित्र उत्पादन materialized बाइट्स" क्या है? जब मैं नक्शा उत्पादन संपीड़न को अक्षम मैं पूर्व देख नहीं तो मुझे लगता है कि यह असली उत्पादन बाइट (संकुचित) है, जबकि दूसरा असम्पीडित बाइट्स है?"मानचित्र उत्पादन materialized बाइट्स" बनाम "उत्पादन बाइट्स के नक्शे"
उत्तर
मुझे लगता है कि आप सही कर रहे हैं। http://hadoop.apache.org/docs/r1.0.4/releasenotes.html से:
MAPREDUCE-2365। FileInputFormat (BYTES_READ) और FileOutputFormat (BYTES_WRITTEN) के लिए नए काउंटर। संपीड़ित MapOutputSize के लिए नया काउंटर MAP_OUTPUT_MATERIALIZED_BYTES। (सिद्धार्थ सेठ)
(परिवर्तन Hadoop 0.20.2 के बाद से)
.............................. .................................................. ..................................................
: .................
यहाँ टॉम व्हाइट "Hadoop निश्चित गाइड" से एक उद्धरण, 3 संस्करण (तालिका 8-2, पेज 261) है "मानचित्र आउटपुट भौतिक बाइट्स" - डिस्क आउटपुट के बाइट्स की संख्या वास्तव में डिस्क पर लिखी गई है। यदि मानचित्र आउटपुट संपीड़न सक्षम है, तो यह काउंटर वैल्यू में दिखाई देता है।
"मानचित्र उत्पादन बाइट्स" - असम्पीडित उत्पादन काम में सभी नक्शे द्वारा उत्पादित की बाइट की संख्या। हर बार collect()
विधि मानचित्र के OutputCollector
पर कहा जाता है बढ़ी हुईं।
मैं देखना मेरा काम विवरण पृष्ठ में "मानचित्र उत्पादन materialized बाइट्स" नहीं है। मैं हडोप 2.0.0-mr1-cdh4.2.1 का उपयोग कर रहा हूं। क्या मुझे कुछ सेटिंग बदलना है। –