2012-11-29 29 views
5

जब आप हाइव (Hadoop पर) एक अमेज़न S3 स्रोत स्थान के साथ में एक बाहरी तालिका बनाने के डेटा पर स्थानीय Hadoop HDFS में स्थानांतरित है:जब आप एक एस 3 स्थान के साथ हाइव में बाहरी तालिका बनाते हैं तो डेटा स्थानांतरित होता है?

  • बाहरी तालिका बनाने
  • जब quires (एमआर नौकरियों) कर रहे हैं बाहरी तालिका
  • कभी नहीं चलाएं (कोई डेटा कभी भी स्थानांतरित नहीं होता है) और एमआर नौकरियां एस 3 डेटा पढ़ती हैं।

एस 3 पढ़ने के लिए यहां क्या खर्च किया गया है? क्या एचडीएफएस में डेटा के हस्तांतरण के लिए कोई भी लागत है या क्या कोई डेटा ट्रांसफर लागत नहीं है, लेकिन जब इस बाहरी तालिका पर हाइव द्वारा बनाई गई मैपराइडस नौकरी पढ़ती है तो पढ़ने की लागत होती है।

एक उदाहरण बाहरी तालिका परिभाषा होगा:

CREATE EXTERNAL TABLE mydata (key STRING, value INT) 
ROW FORMAT DELIMITED FIELDS TERMINATED BY '=' 
LOCATION 's3n://mys3bucket/'; 
+0

(मान लीजिए कि आप वित्तीय लागत का मतलब है) मुझे नहीं लगता कि आपको उसी एडब्ल्यूएस क्षेत्र के भीतर एस 3 और ईसी 2 के बीच स्थानान्तरण के लिए शुल्क लिया जाता है http://aws.amazon.com/s3/pricing/ –

उत्तर

4

मानचित्र कार्य सीधे S3 से डेटा पढ़ेंगे। मानचित्र के बीच और चरणों को कम करें, डेटा स्थानीय फाइल सिस्टम में लिखा जाएगा, और मैप्रिडस नौकरियों के बीच (उन प्रश्नों में जो एकाधिक नौकरियों की आवश्यकता है) अस्थायी डेटा एचडीएफएस को लिखा जाएगा।

यदि आप एस 3 पढ़ने की लागत के बारे में चिंतित हैं, तो एचडीएफएस पर संग्रहीत एक और टेबल बनाने के लिए यह समझदारी हो सकती है, और एस 3 टेबल से एक बार की प्रतिलिपि एचडीएफएस तालिका में कर सकती है।

2

डेटा अपने Hadoop नोड्स को स्थानांतरित किया जाएगा जब प्रश्नों (एमआर नौकरियां) डेटा का उपयोग।
बाहरी तालिका बनाएं केवल हाइव मेटाडेटा बदलें और कभी भी वास्तविक डेटा को स्थानांतरित न करें।