मैं प्रतिभूति व्यापार मूल्यों के संबंध में बड़ी मात्रा में वित्तीय डेटा का विश्लेषण करने के लिए सिस्टम का निर्माण कर रहा हूं। इसमें एक बड़ी चुनौती यह निर्धारित कर रही है कि डेटा के लिए किस स्टोरेज विधि का उपयोग करना है, यह देखते हुए कि डेटा 10 के टेराबाइट्स में होगा। आंकड़ों पर कई प्रश्न होंगे जैसे औसत लेना, मानक विचलन की गणना करना, और मूल्य, समय, मात्रा इत्यादि जैसे कई कॉलम द्वारा फ़िल्टर किए गए रकम। ब्योरे में शामिल होना जरूरी नहीं है, लेकिन यह अच्छा होगा।वित्तीय विश्लेषण के लिए डेटा भंडारण
अभी, मैं मूल्यांकन उद्देश्यों के लिए अविभाज्य समुदाय संस्करण, monetdb, और greenplum समुदाय संस्करण को देख रहा हूं। वे अब तक बहुत अच्छे लगते हैं, लेकिन अधिक उन्नत सुविधाओं के लिए, इनमें से कुछ आवश्यक हैं इनमें से कुछ संस्करणों में उपलब्ध नहीं हैं (एकाधिक सर्वरों का उपयोग करके, सम्मिलित/अपडेट स्टेटमेंट आदि)।
इस स्थिति के लिए आप किन समाधानों का उपयोग करेंगे, और लाभ यह विकल्पों पर प्रदान करते हैं? लागत प्रभावी होने के नाते एक प्रमुख प्लस है। अगर मुझे डेटा वेयरहाउसिंग समाधान के लिए भुगतान करना होगा, लेकिन मैं इसे अधिक से अधिक टालना चाहूंगा और यदि संभव हो तो ओपन-सोर्स/सामुदायिक संस्करण मार्ग लेगा।
दरअसल (धारावाहिक) रकम, औसत, stddevs - फ़िल्टर किए जाने पर भी - डेटा खनन नहीं होते हैं। वे सिर्फ सादे ** सांख्यिकी ** हैं। –
डेटा खनन डेटा के एक सेट से नई जानकारी की खोज है। सांख्यिकी इस प्रक्रिया में सहायता करने के लिए एक उपकरण है। मुझे नहीं लगता कि शब्दावली पर इतना जोर सहायक है, और यदि हम इसके बारे में बहस करते हैं, तो कुछ भी पूरा नहीं होगा।यह मेरे जैसा है कि मैं आपकी पोस्ट से असहमत हूं क्योंकि आपने सांख्यिकी को "सांख्यिकी" के रूप में गलत तरीके से गलत बताया है - यह तकनीकीता पर अनावश्यक जोर है। मेरा लक्ष्य नई जानकारी खोजने के लिए इस डेटाबेस का उपयोग करना है। इसके अतिरिक्त, डेटा वेयरहाउसिंग समाधान डेटा खनन के साथ दिमाग में बनाए जाते हैं। इसलिए, डेटा खनन की अवधारणा यहां लागू है। – user396404
हालांकि, मैं आपसे सहमत हूं कि "डेटाबेस" शायद इस पोस्ट के लिए एक बेहतर टैग है। – user396404