2012-03-24 25 views
5

मैं प्रतिभूति व्यापार मूल्यों के संबंध में बड़ी मात्रा में वित्तीय डेटा का विश्लेषण करने के लिए सिस्टम का निर्माण कर रहा हूं। इसमें एक बड़ी चुनौती यह निर्धारित कर रही है कि डेटा के लिए किस स्टोरेज विधि का उपयोग करना है, यह देखते हुए कि डेटा 10 के टेराबाइट्स में होगा। आंकड़ों पर कई प्रश्न होंगे जैसे औसत लेना, मानक विचलन की गणना करना, और मूल्य, समय, मात्रा इत्यादि जैसे कई कॉलम द्वारा फ़िल्टर किए गए रकम। ब्योरे में शामिल होना जरूरी नहीं है, लेकिन यह अच्छा होगा।वित्तीय विश्लेषण के लिए डेटा भंडारण

अभी, मैं मूल्यांकन उद्देश्यों के लिए अविभाज्य समुदाय संस्करण, monetdb, और greenplum समुदाय संस्करण को देख रहा हूं। वे अब तक बहुत अच्छे लगते हैं, लेकिन अधिक उन्नत सुविधाओं के लिए, इनमें से कुछ आवश्यक हैं इनमें से कुछ संस्करणों में उपलब्ध नहीं हैं (एकाधिक सर्वरों का उपयोग करके, सम्मिलित/अपडेट स्टेटमेंट आदि)।

इस स्थिति के लिए आप किन समाधानों का उपयोग करेंगे, और लाभ यह विकल्पों पर प्रदान करते हैं? लागत प्रभावी होने के नाते एक प्रमुख प्लस है। अगर मुझे डेटा वेयरहाउसिंग समाधान के लिए भुगतान करना होगा, लेकिन मैं इसे अधिक से अधिक टालना चाहूंगा और यदि संभव हो तो ओपन-सोर्स/सामुदायिक संस्करण मार्ग लेगा।

+1

दरअसल (धारावाहिक) रकम, औसत, stddevs - फ़िल्टर किए जाने पर भी - डेटा खनन नहीं होते हैं। वे सिर्फ सादे ** सांख्यिकी ** हैं। –

+1

डेटा खनन डेटा के एक सेट से नई जानकारी की खोज है। सांख्यिकी इस प्रक्रिया में सहायता करने के लिए एक उपकरण है। मुझे नहीं लगता कि शब्दावली पर इतना जोर सहायक है, और यदि हम इसके बारे में बहस करते हैं, तो कुछ भी पूरा नहीं होगा।यह मेरे जैसा है कि मैं आपकी पोस्ट से असहमत हूं क्योंकि आपने सांख्यिकी को "सांख्यिकी" के रूप में गलत तरीके से गलत बताया है - यह तकनीकीता पर अनावश्यक जोर है। मेरा लक्ष्य नई जानकारी खोजने के लिए इस डेटाबेस का उपयोग करना है। इसके अतिरिक्त, डेटा वेयरहाउसिंग समाधान डेटा खनन के साथ दिमाग में बनाए जाते हैं। इसलिए, डेटा खनन की अवधारणा यहां लागू है। – user396404

+0

हालांकि, मैं आपसे सहमत हूं कि "डेटाबेस" शायद इस पोस्ट के लिए एक बेहतर टैग है। – user396404

उत्तर

1

इन्फोबरा कोई ट्यूनिंग, कोई अनुमान नहीं और बिना किसी त्वरित क्वेरी प्रदर्शन प्रदान करता है डेटा की बड़ी मात्रा में सूचकांक। डेटा लोडिंग पर, मैंने ऐसे उदाहरण देखे हैं जहां 80TB प्रति घंटे डेटा लोड हो सकता है, प्रति सेकेंड 12,000 से अधिक आवेषण।

यह कैसे काम करता है?

  1. कॉलम अभिविन्यास बनाम पंक्ति अभिविन्यास
  2. डाटा पैक प्लस 20 के संपीड़न औसत: 1
  3. ज्ञान ग्रिड - क्वेरी पर उप दूसरी प्रतिक्रिया
  4. दानेदार इंजन, mysql वास्तुकला के ऊपर एक बने

मैं अब भी सुझाव दूंगा कि आप एंटरप्राइज़ लाइसेंसिंग को देखने पर विचार करें, लेकिन आप निश्चित रूप से समुदाय संस्करण का मूल्यांकन कर सकते हैं और इसके प्रदर्शन और डेटा लोडिंग की ज़रूरतों का परीक्षण कर सकते हैं।

अस्वीकरण: लेखक इन्फोब्राइट से संबद्ध है।

1

मुझे लगता है कि आपके द्वारा निर्दिष्ट डेटाबेस में से कोई भी आपको आवश्यकतानुसार करेगा। यदि आप किसी एमपीपी क्लस्टर में चलाने के लिए एंटरप्राइज़ लाइसेंस प्राप्त करने वाले 10 के टीबी मूल्य के डेटा से निपट रहे हैं तो संभवत: प्रोसेसिंग समय को कम रखने के लिए धन का अच्छा उपयोग होगा। साथ ही, यदि यह डीडब्ल्यू आपके संगठन के लिए महत्वपूर्ण प्रसंस्करण कर रहा है, तो लाइसेंस होने का मतलब है कि आपको विक्रेता से समर्थन मिलता है, जो कि बहुत से व्यवसायों के लिए महत्वपूर्ण है। YMMV।

एक और महत्वपूर्ण सवाल यह होगा कि आपके डेटा इंजेस्ट दरों की तरह क्या दिख रहे हैं? एक वित्तीय प्रणाली के लिए मुझे लगता है कि समीकरण का एक बड़ा हिस्सा आपके सामान्य प्रसंस्करण को जारी रखते हुए ताजा डेटा को अपने सिस्टम में लोड करने की क्षमता होना चाहिए।

मैं केवल उम्मीदवारों की सूची में से ग्रीनप्लम से परिचित हूं लेकिन मुझे पता है कि यह थोड़े समय में बड़ी मात्रा में डेटा लोड करने में अच्छा है। जीपी में बहुत से अंतर्निहित सांख्यिकीय और विश्लेषणात्मक कार्य भी हैं जिन्हें आप डीबी के अंदर मूल रूप से चला सकते हैं जिसमें अंतर्निहित एसक्यूएल फ़ंक्शन, एमएडीएलआईबी, आर इत्यादि शामिल हैं