2008-08-20 20 views
9

क्या आप में से कोई भी हैडोप की कोशिश की है? क्या इसका उपयोग वितरित फाइल सिस्टम के बिना किया जा सकता है जो इसके साथ जाता है, शेयर-कुछ भी आर्किटेक्चर में? क्या यह समझ में आता है?हडोप के साथ अनुभव?

मैं में किसी भी प्रदर्शन परिणाम आपके पास भी इसमें रुचि है ...

+0

हडूप का आपका प्रदर्शन पहलू आपकी रुचि का है? –

उत्तर

8

हाँ, आप Hadoop एक स्थानीय फाइल सिस्टम पर विभिन्न स्थानों में HDFS यूआरआई के बजाय फ़ाइल यूआरआई का उपयोग करके उपयोग कर सकते हैं। मुझे लगता है कि हडोप के साथ आने वाले कई उदाहरण ऐसा करते हैं।

यह शायद ठीक है अगर आप सीखना चाहते हैं कि हाडोप कैसे काम करता है और मूल मानचित्र-प्रतिमान को कम करता है, लेकिन आपको आर्किटेक्चर में अंतर्निहित स्केलेबिलिटी के वास्तविक लाभ प्राप्त करने के लिए कई मशीनों और वितरित फाइल सिस्टम की आवश्यकता होगी।

3

जैसा कि जो कहा, आप वास्तव में एचडीएफएस के बिना हैडोप का उपयोग कर सकते हैं। हालांकि, थ्रूपुट क्लस्टर की गणना पर निर्भर करता है जहां डेटा संग्रहीत किया जाता है। एचडीएफएस का उपयोग 2 मुख्य लाभ आईएमएचओ 1 है) गणना क्लस्टर में अधिक समान रूप से फैली हुई है (अंतर-नोड संचार की मात्रा को कम करना) और 2) संपूर्ण रूप से क्लस्टर डेटा अनुपलब्धता के कारण विफलता के लिए अधिक प्रतिरोधी है।

यदि आपका डेटा पहले से ही विभाजित या तुच्छ रूप से विभाजित है, तो आप अपने मानचित्र-कार्य को कम करने के लिए अपना स्वयं का विभाजन कार्य प्रदान करना चाहेंगे।

3

हैडोप के चारों ओर अपने सिर को लपेटने का सबसे अच्छा तरीका यह डाउनलोड करना और उदाहरणों को शामिल करना शुरू करना है। एक लिनक्स बॉक्स/वीएम का प्रयोग करें और आपका सेटअप मैक या विंडोज से कहीं अधिक आसान होगा। एक बार जब आप नमूने और अवधारणाओं के साथ सहज महसूस करते हैं, तो यह देखना शुरू करें कि आपकी समस्या स्थान ढांचे में कैसे मानचित्र हो सकता है।

एक जोड़े संसाधनों आप Hadoop बारे में अधिक जानकारी के लिए उपयोगी हो सकते हैं: - (? केवल)

Hadoop Summit Videos and Presentations

Hadoop: The Definitive Guide: Rough Cuts Version यह कुछ इस बिंदु पर Hadoop पर उपलब्ध पुस्तकों में से एक है। मैं कहूंगा कि इस बिंदु पर भी इलेक्ट्रॉनिक डाउनलोड विकल्प की कीमत के लायक है (पुस्तक ~ 40% पूर्ण है)।

Hadoop: The Definitive Guide: Rough Cuts Version http://oreilly.com/catalog/covers/9780596521998_cat.gif

4

Hadoop MapReduce फाइल सिस्टम के किसी भी संख्या या इस तरह के डेटाबेस के रूप में और भी अधिक सार डेटा स्रोतों के ontop चला सकते हैं। वास्तव में गैर-एचडीएफएस फाइल सिस्टम समर्थन के लिए कुछ अंतर्निर्मित कक्षाएं हैं, जैसे S3 और FTP। आप मूल InputFormat class को विस्तारित करके आसानी से अपना स्वयं का इनपुट प्रारूप बना सकते हैं।

एचडीएफएस का उपयोग कुछ फायदे लाता है, हालांकि। सबसे शक्तिशाली लाभ यह है कि MapReduce नौकरी शेड्यूलर नक्शा निष्पादित करने का प्रयास करेगा और उन भौतिक मशीनों को कम करेगा जो प्रसंस्करण की आवश्यकता में रिकॉर्ड संग्रहित कर रहे हैं। यह प्रदर्शन को बढ़ावा देता है क्योंकि डेटा को सीधे नेटवर्क पर स्थानांतरित करने के बजाय स्थानीय डिस्क से लोड किया जा सकता है, जो कनेक्शन के आधार पर परिमाण धीमा होने का आदेश हो सकता है।

0

समानांतर/वितरित कंप्यूटिंग = स्पीड < < Hadoop के बाद से आप सिर्फ वस्तु मशीनों का एक समूह का उपयोग कर सकते यह वास्तव में बहुत आसान और सस्ता बना देता है !!!

वर्षों में डिस्क स्टोरेज क्षमताओं में बड़े पैमाने पर वृद्धि हुई है, लेकिन जिस गति पर आपने डेटा पढ़ा है, वह नहीं रखा है। आपके पास एक डिस्क पर जितना अधिक डेटा है, धीमा चाहता है।

Hadoop विभाजन समस्या को हल करने के लिए एक जीत दृष्टिकोण के एक चतुर संस्करण है। आप अनिवार्य रूप से छोटे टुकड़ों में समस्या तोड़ने के लिए और प्रसंस्करण के बजाय एक मशीन अधिक भार से ऊपरगति चीजों के समानांतर में प्रदर्शन करने के लिए कई अलग अलग कंप्यूटर के लिए हिस्सा आवंटित। प्रत्येक मशीन डेटा के अपने सबसेट को संसाधित करती है और परिणाम अंत में संयुक्त होता है। एक नोड पर हैडोप आपको उस गति को नहीं दे रहा है जो मायने रखता है।

देखने के लिए Hadoop के लाभ, आप कम से कम 4 के साथ एक समूह होना चाहिए - 8 वस्तु मशीनों (अपने डेटा के आकार पर निर्भर करता है) एक ही रैक पर।

अब आप वितरित अभिकलन का लाभ लेने के लिए एक सुपर प्रतिभा समानांतर सिस्टम इंजीनियर की जरूरत है। बस हाइव के साथ हूपॉप और जाने के लिए आपका अच्छा पता है।

0

हां, एचडीएफएस के बिना हडूप का बहुत अच्छा उपयोग किया जा सकता है। एचडीएफएस हडोप के लिए सिर्फ एक डिफ़ॉल्ट भंडारण है। आप किसी भी अन्य स्टोरेज जैसे डेटाबेस के साथ एचडीएफएस को प्रतिस्थापित कर सकते हैं। हैडोपडीबी हैडऑप पर एक वृद्धि है जो डेटा स्रोत के रूप में एचडीएफएस के बजाय डेटाबेस का उपयोग करता है। Google इसे, आप इसे आसानी से प्राप्त करेंगे।

0

तुम सिर्फ अपने पैरों को गीला कर रहे हैं, CDH4 & को डाउनलोड करने में यह चलाकर बाहर शुरू। आप आसानी से स्थानीय वर्चुअल मशीन में स्थापित कर सकते हैं और "छद्म-वितरित मोड" में चला सकते हैं जो बारीकी से नकल करता है कि यह वास्तविक क्लस्टर में कैसे चलता है।

0

हाँ आप फ़ाइल फ़ाइल का उपयोग कर स्थानीय फ़ाइल सिस्टम का उपयोग कर सकते हैं // इनपुट फ़ाइल निर्दिष्ट करते समय // और यह छोटे डेटा सेट के साथ भी काम करेगा। लेकिन हडूप की वास्तविक शक्ति वितरित और साझा करने वाली तंत्र पर आधारित है। लेकिन हैडोप का उपयोग बड़ी मात्रा में डेटा संसाधित करने के लिए किया जाता है। डेटा की मात्रा को एक स्थानीय मशीन द्वारा संसाधित नहीं किया जा सकता है या यहां तक ​​कि अगर ऐसा होता है तो नौकरी खत्म करने में काफी समय लगेगा। चूंकि आपकी इनपुट फ़ाइल किसी साझा स्थान पर है (एचडीएफएस) एकाधिक मैपर इसे एक साथ पढ़ सकते हैं और नौकरी खत्म करने के लिए समय कम कर सकते हैं। संक्षेप में आप इसे स्थानीय फाइल सिस्टम के साथ उपयोग कर सकते हैं लेकिन व्यवसाय की आवश्यकता को पूरा करने के लिए आपको इसे साझा फ़ाइल सिस्टम के साथ उपयोग करना चाहिए।

0

ऊपर महान सैद्धांतिक उत्तर।

स्थानीय करने के लिए अपने Hadoop फाइल सिस्टम को बदलने के लिए, आप Hadoop संस्करणों के लिए नीचे की तरह "कोर-site.xml" विन्यास फाइल में इसे बदल सकते हैं 2.x.x.

<property> 
    <name>fs.defaultFS</name> 
    <value>file:///</value> 
    </property> 

हडूप संस्करण 1.x.x के लिए।

<property> 
    <name>fs.default.name</name> 
    <value>file:///</value> 
    </property>