2010-10-09 34 views
7

मेरे काम के हिस्से के रूप में हमें सालाना लगभग 25TB लायक फाइलें मिलती हैं, वर्तमान में इसे एनएफएस आधारित फाइल सिस्टम पर सहेजा गया है। कुछ zipped/tar.gz में संग्रहित होते हैं जबकि अन्य शुद्ध टेक्स्ट प्रारूप में रहते हैं।लाखों लॉग फ़ाइलों को संग्रहीत करना - लगभग 25 टीबी एक वर्ष

मैं एक एनएफएस आधारित प्रणाली का उपयोग करने के विकल्पों की तलाश में हूं। मैंने मोंगो डीबी, कॉच डीबी को देखा। तथ्य यह है कि वे दस्तावेज़ उन्मुख डेटाबेस हैं, यह सही फिट बनाने के लिए लगता है। हालांकि डीबी में स्टोर करने के लिए लॉग फाइल सामग्री को जेएसओएन में बदलना होगा। कुछ मैं करने के लिए तैयार नहीं हूँ। मुझे लॉग फाइल सामग्री को बनाए रखने की आवश्यकता है।

उपयोग के लिए हम एक छोटा आरईएसटी एपीआई डालने का इरादा रखते हैं और लोगों को फ़ाइल लिस्टिंग, नवीनतम फाइलें और फ़ाइल प्राप्त करने की क्षमता प्राप्त करने की अनुमति देते हैं।

प्रस्तावित समाधान/विचारों को आवेदन स्तर पर वितरित डेटाबेस या फाइल सिस्टम का कुछ रूप होना चाहिए जहां कोई लॉग फाइल स्टोर कर सकता है और अधिक मशीनों को जोड़कर क्षैतिज रूप से प्रभावी ढंग से स्केल कर सकता है।

अंकुर

+1

बस गणित करने के लिए: यह 500GB/सप्ताह या 100GB प्रत्येक व्यावसायिक दिन है। – egrunin

+0

आप क्या लॉगिंग कर रहे हैं? गणित के लिए – ChaosPandion

+2

@egrunin धन्यवाद। हमारे पास पहले से ही एक साल का डेटा है। @chaos ये लॉग फ़ाइलें विश्व स्तर पर स्थापित स्टोरेज एरे से आती हैं। –

उत्तर

3

Vertica पर एक स्तंभ डेटाबेस समानांतर प्रसंस्करण और तेजी से प्रश्नों का समर्थन करना एक नजर डालें,। कॉमकास्ट ने इसे analyze about 15GB/day of SNMP data पर इस्तेमाल किया, जो पांच क्वाड कोर एचपी प्रोलियंट सर्वर का उपयोग करते हुए प्रति सेकेंड 46,000 नमूने की औसत दर से चल रहा था। मैंने कुछ कॉमकास्ट ऑपरेशन लोगों को कुछ हफ्ते पहले वर्टिका के बारे में सुना था; वे अभी भी वास्तव में इसे पसंद करते हैं। इसमें कुछ अच्छी डेटा संपीड़न तकनीकें और "के-सुरक्षा अनावश्यकता" है, इसलिए वे एक SAN के साथ बांट सकते हैं।

अद्यतन: स्केलेबल एनालिटिक्स डेटाबेस दृष्टिकोण के मुख्य लाभों में से एक यह है कि आप लॉग की कुछ सुंदर परिष्कृत, अर्ध-वास्तविक समय पूछताछ कर सकते हैं। यह आपकी ओप टीम के लिए वास्तव में मूल्यवान हो सकता है।

4

चूंकि आप queriying सुविधाओं को नहीं चाहते हैं, तो आप apache hadoop का उपयोग कर सकते हैं।

मैं HDFS और HBase विश्वास करता हूं इसके लिए उपयुक्त होगा।

आप अंदर Hadoop powered by पेज विशाल भंडारण कहानियों में से बहुत कुछ देख सकते हैं

+0

हडूप के लिए फ्लूम कनेक्टर को देखें। बड़ी मात्रा में डेटा प्रबंधित करने के लिए हैडोप में बहुत सारे प्लगइन हैं। – Amala

+0

@RameshVel क्या होगा यदि आप पूछताछ सुविधाओं चाहते हैं? –

3

आप gluster को देख करने की कोशिश की है? यह स्केलेबल है, प्रतिकृति और कई अन्य सुविधाएं प्रदान करता है। यह आपको मानक फ़ाइल संचालन भी देता है इसलिए किसी अन्य एपीआई परत को लागू करने की आवश्यकता नहीं है।

http://www.gluster.org/

+0

उल्लेख करना भूल गया कि यह भी खुला स्रोत है। – Nauman

3

मैं दृढ़ता से इस डेटा (मोंगो, कैसेंड्रा, आदि) के लिए एक कुंजी/मान या दस्तावेज़ आधारित दुकान का उपयोग कर disrecommend होगा। एक फाइल सिस्टम का प्रयोग करें। ऐसा इसलिए है क्योंकि फाइलें इतनी बड़ी हैं, और एक्सेस पैटर्न रैखिक स्कैन होने जा रहा है। एक चीज समस्या जिसे आप भाग लेंगे वह प्रतिधारण है। अधिकांश "नोएसक्यूएल" स्टोरेज सिस्टम लॉजिकल डिलीट का उपयोग करते हैं, जिसका मतलब है कि आपको हटाए गए पंक्तियों को हटाने के लिए अपने डेटाबेस को कॉम्पैक्ट करना होगा। यदि आपके व्यक्तिगत लॉग रिकॉर्ड छोटे हैं और आपको उनमें से प्रत्येक को इंडेक्स करना होगा तो आपको एक समस्या भी होगी - आपकी अनुक्रमणिका बहुत बड़ी होगी।

अपने डेटा को एचडीएफएस में 64 एमबी हिस्सों में 2-3 एमबी प्रतिकृतियों के साथ उसी प्रारूप में रखें जो अभी है।

0

आप किसी दस्तावेज़ डेटाबेस का चयन कर रहे हैं:

CouchDB पर आप फ़ाइल अनुलग्न करने के रूप में एक दस्तावेज है _attachement एपीआई का उपयोग कर सकते हैं, स्वयं दस्तावेज़ केवल मेटाडाटा (टाइमस्टैम्प, इलाके और आदि की तरह) हो सकता है अनुक्रमण के लिए। फिर आपके पास दस्तावेज़ों और अनुलग्नकों के लिए एक आरईएसटी एपीआई होगी।

मोंगो के ग्रिडएफ के साथ एक समान दृष्टिकोण संभव है, लेकिन आप स्वयं एपीआई का निर्माण करेंगे।

इसके अलावा एचडीएफएस एक बहुत अच्छी पसंद है।