इस सवाल से पहले पूछा जा सकता है लेकिन मुझे लगता है कि आज यह मानना अच्छा है कि ये तकनीकें परिपक्व हो गई हैं। हम स्ट्रीमिंग फेसबुक और ट्विटर प्रोफाइल जानकारी को बाद में विश्लेषण करने के लिए hbase में स्ट्रीम करने के लिए फ़्लूम, काफ्का, स्क्रिप्बे, या दूसरों में से एक का उपयोग करना चाहते हैं। हम इस उद्देश्य के लिए झुंड पर विचार कर रहे हैं लेकिन मैंने एक सूचित निर्णय लेने के लिए अन्य तकनीकों के साथ काम नहीं किया है। कोई भी जो कुछ प्रकाश डाल सकता है वह बहुत अच्छा होगा! बहुत बहुत धन्यवाद।फ्लम बनाम काफ्का बनाम अन्य
उत्तर
मीडियाविकी (विकिपीडिया) इस माध्यम से चला गया और उन्होंने एक अच्छा लेख प्रकाशित किया कि वे अपनी पसंद (कफका) बनाम स्क्रिप्ट, फ्ल्यूम और अन्य में कैसे पहुंचे।
http://www.mediawiki.org/wiki/Analytics/Kraken/Request_Logging
नई कड़ी:
https://wikitech.wikimedia.org/wiki/Analytics/Kraken/Logging_Solutions_Recommendation
भावी पीढ़ी के लिए सारांश:।
"हमारी सिफारिश अपाचे काफ्का, एक वितरित पब-उप संदेश प्रणाली throughput के लिए बनाया गया है हम के बारे में मूल्यांकन किया है एक दर्जन [1] वितरित लॉग संग्रह, सीईपी/स्ट्रीम प्रोसेसिंग, और रीयल-टाइम मैसेजिंग सिस्टम के डोमेन से खींची जाने वाली सर्वश्रेष्ठ प्रजनन प्रणाली। हालांकि ये सिस्टम आश्चर्यजनक पेशकश करते हैं वाई समान विशेषताएं, वे कार्यान्वयन में काफी भिन्न हैं, और प्रत्येक एक विशेष कार्य प्रोफ़ाइल के लिए विशिष्ट है (एक अधिक संपूर्ण तकनीकी चर्चा एक परिशिष्ट के रूप में उपलब्ध है)।
"काफ्का खड़ा है क्योंकि यह थ्रूपुट के लिए विशिष्ट है और इसकी वास्तुकला के सभी स्तरों में स्पष्ट रूप से वितरित किया गया है। दिलचस्प बात यह है कि संसाधन संरक्षण के साथ यह भी चिंतित है [2] समझदार ट्रेडऑफ प्रदान करने के लिए जो प्रदर्शन के बदले में गारंटी को कम करता है - कुछ जो फेसबुक या Google को उनके द्वारा डिज़ाइन किए गए सिस्टम में एक महत्वपूर्ण विशेषता के रूप में नहीं रोक सकता है। बाधाएं रचनात्मकता पैदा करती हैं।
"इसके अलावा, कफका में ऑपरेशंस पाठकों के लिए विशेष रुचि के कई लाभ हैं। जबकि यह स्कैला में लिखा गया है, यह मूल सी ++ निर्माता लाइब्रेरी के साथ जहाज करता है जिसे हमारे कैश सर्वर के लिए मॉड्यूल में एम्बेड किया जा सकता है, जो उन सर्वरों पर जेवीएम चलाने की आवश्यकता को रोकता है। दूसरा, उत्पादकों को नेटवर्क यातायात को अनुकूलित करने के लिए बैच अनुरोधों के लिए कॉन्फ़िगर किया जा सकता है, लेकिन एक सतत स्थानीय लॉग न बनाएं जिसके लिए अतिरिक्त रखरखाव की आवश्यकता होगी। काफ्का का I/O और स्मृति उपयोग JVM [3] की बजाय ओएस तक छोड़ा गया है।
"काफ्का लिंक्डइन द्वारा लिखा गया था और अब एक अपाचे प्रोजेक्ट है। लिंक्डइन में उत्पादन में लगभग 10,000 उत्पादक प्रति कैटाका सर्वर प्रति डेटासेंटर द्वारा संभाले जाते हैं। ये क्लस्टर अपनी धाराओं को एक एकल एनालिटिक्स डेटासेंटर में समेकित करते हैं, जिसे काफ्का का समर्थन करता है एक साधारण मिररिंग कॉन्फ़िगरेशन के माध्यम से बॉक्स।
"ये सुविधाएं हमारे इच्छित उपयोग मामलों के लिए उपयुक्त हैं; यहां तक कि उन हम उपयोग करने का इरादा नहीं है - इस तरह के "विषय" श्रेणियों के द्वारा sharding और रूटिंग जैसी - दिलचस्प हैं और के रूप में हम अपने लक्ष्यों को विस्तार भविष्य में उपयोगी साबित हो सकता है।
"इस दस्तावेज़ का शेष अधिक विस्तार में इन विषयों में dives ..."
लिंक अब टूटा हुआ प्रतीत होता है। – tehAon
जब तुम, Flume के बारे में बात शायद आप Flume-एनजी की बात कर रहे? क्योंकि पुरानी झुंड flume-ng से बहुत अलग है। – Shengjie