2010-09-22 15 views
8

यदि मैं हैडोप पारिस्थितिकी तंत्र को सही ढंग से समझता हूं, तो मैं अपने मैड्रिडस नौकरियों को या तो एचडीएफएस या एचबीएस से डेटा सोर्स कर सकता हूं। पिछली धारणा मानना ​​सही है, मैं दूसरे पर एक क्यों चुनूँगा? क्या एमबी स्रोत के रूप में एचबीएएस का उपयोग करने के लिए प्रदर्शन, विश्वसनीयता, लागत या उपयोग में आसानी का लाभ है?हडोप एमआर स्रोत: एचडीएफएस बनाम एचबीएस। प्रत्येक के लाभ?

सबसे अच्छा मैं यह खोज करने में सक्षम हूं, "एचबीएएस हैडोप एप्लिकेशन का उपयोग करने के लिए है जब आपको रीयल-टाइम पढ़ने/लिखने के लिए बहुत बड़े डेटासेट में यादृच्छिक पहुंच की आवश्यकता होती है।" - टॉम व्हाइट (2009) Hadoop: यह निश्चित गाइड, 1 संस्करण

उत्तर

6

उपयोग करके आप सीधे-अप Hadoop मानचित्र/HDFS से अधिक कम करने, अपने इनपुट और आउटपुट आम तौर पर फ्लैट पाठ फ़ाइलों या Hadoop SequenceFiles, जो केवल क्रमांकित हैं जमा हो जाती है डिस्क पर स्ट्रीम ऑब्जेक्ट्स। ये डेटा स्टोर कम या ज्यादा अपरिवर्तनीय हैं। यह बैड प्रोसेसिंग कार्यों के लिए उपयुक्त हैडोप बनाता है।

एचबीएएस एक पूर्ण डेटाबेस है (हालांकि रिलेशनल नहीं है) जो एचडीएफएस को भंडारण के रूप में उपयोग करता है। इसका मतलब है कि आप अपने डेटासेट पर इंटरैक्टिव क्वेरीज और अपडेट चला सकते हैं।

एचबीएएस के बारे में अच्छा क्या है कि यह हैडोप पारिस्थितिक तंत्र के साथ अच्छी तरह से खेलता है, इसलिए यदि आपको बैच प्रोसेसिंग के साथ-साथ विशाल डेटासेट पर इंटरैक्टिव, दानेदार, रिकॉर्ड-स्तरीय संचालन करने की आवश्यकता है, तो एचबीएस दोनों अच्छी तरह से काम करेगा।

+0

धन्यवाद, मैं के लिए क्या देख रहा था क्या। – Andre

0

एचडीएफएस की कुछ प्रासंगिक सीमाएं (जो Google फ़ाइल सिस्टम के लिए ओपन-सोर्स ट्विन है) the original Google File System paper में पाई जाती हैं।

लक्ष्य उपयोग के मामलों के बारे में, हम पढ़ें:

तीसरा, सबसे फाइलों नए डेटा जोड़कर बजाय मौजूदा डेटा ओवरराइट करके उत्परिवर्तित कर रहे हैं। रैंडम के भीतर लिखता है एक फ़ाइल व्यावहारिक रूप से मौजूद नहीं है। [...]

[...] को देखते हुए बड़ी फाइलों पर इस का उपयोग पैटर्न, appending प्रदर्शन अनुकूलन और atomicity की गारंटी देता है, का ध्यान केंद्रित [...]

नतीजतन हो जाता है :

[...] हम GFS की स्थिरता मॉडल तक की छूट है बेहद आवेदनों पर कोई दुष्कर बोझ थोप बिना फाइल सिस्टम को आसान बनाने में। हमने परमाणु परिशिष्ट संचालन भी शुरू किया है ताकि एकाधिक ग्राहक को के बीच अतिरिक्त सिंक्रनाइज़ेशन के बिना एक फ़ाइल में समवर्ती रूप से जोड़ सकें।

एक रिकॉर्ड ("रिकॉर्ड"), संलग्न atomically कम से कम एक बार भी समवर्ती म्यूटेशन की उपस्थिति में होना करने के लिए [...]

कारणों डेटा संलग्न अगर मैं कागज पढ़ा सही ढंग से, प्रत्येक फ़ाइल (एचडीएफएस भावना में) की कई प्रतिकृतियां बिल्कुल वही नहीं होंगी। यदि ग्राहक केवल परमाणु संचालन का उपयोग करते हैं, तो प्रत्येक फ़ाइल को रिकॉर्ड्स (प्रत्येक ऑपरेशन में से प्रत्येक) के एक संयोजन के रूप में माना जा सकता है, लेकिन ये कुछ प्रतिकृतियों में डुप्लीकेट दिखाई दे सकते हैं, और उनका ऑर्डर प्रतिकृति से प्रतिलिपि से अलग हो सकता है। (हालांकि स्पष्ट रूप से कुछ पैडिंग भी डाली जा सकती है, इसलिए यह उतना ही साफ नहीं है - पेपर पढ़ें।) यह रिकॉर्ड सीमाओं, अद्वितीय पहचानकर्ताओं, चेकसम आदि का प्रबंधन करने के लिए उपयोगकर्ता पर निर्भर है

तो यह हमारे डेस्कटॉप मशीनों पर उपयोग की जाने वाली फाइल सिस्टम की तरह नहीं है।

ध्यान दें कि HDFS कई छोटे फ़ाइलों के लिए अच्छा नहीं है, क्योंकि:

  1. प्रत्येक आम तौर पर एक 64 एमबी हिस्सा (source) का आवंटन होगा। (: आइटम   1 में के रूप में एक ही स्रोत)

  2. इसकी वास्तुकलानाम फ़ाइल की एक बड़ी संख्या के प्रबंधन में अच्छा नहीं है। एक ही मास्टर है जो सभी फाइलनामों को बनाए रखता है (जो उम्मीद है कि इसकी रैम में फिट हो)।

+0

नोट वहाँ कुछ (https://www.quora.com/What-is-the-difference-between-the-Hadoop-file-distributed-system-and-the-Google- [GoogleFS और HDFS के बीच मतभेद] हैं कि फ़ाइल-सिस्टम/उत्तर/आदित्य-कुलकर्णी -2), लेकिन ऐसा लगता है कि मूल रूप से कुछ भी अलग नहीं है। –