हमारे पास एक बीआई ग्राहक है जो हर महीने अपने बिक्री लेनदेन से उत्पन्न बिक्री डेटा बेस टेबल में 40 मिलियन पंक्तियां उत्पन्न करता है। वे 5 साल से अपने ऐतिहासिक डेटा के साथ एक बिक्री डेटा मार्ट बनाना चाहते हैं, जिसका अर्थ है कि इस तथ्य तालिका में लगभग 240 मिलियन पंक्तियां होंगी। (40 x 12 महीने x 5 साल)बिग डेटा डेटा मार्ट/फैक्ट टेबल से कैसे निपटें? (240 मिलियन पंक्तियां)
यह अच्छी तरह से संरचित डेटा है।
यह पहली बार आईएम ने इस डेटा के साथ सामना किया, और यह मुझे इन्फॉरब्रાઇટ और अन्य लोगों जैसे लंबवत डेटा बेस उपकरण का विश्लेषण करने के लिए लिया। लेकिन अभी भी इस तरह के सॉफ़्टवेयर के साथ एक साधारण क्वेरी को चलाने के लिए बहुत लंबा समय लगेगा।
यह मुझे हडोप पर एक नज़र डालने के लिए ले गया, लेकिन कुछ लेख पढ़ने के बाद, मैंने निष्कर्ष निकाला कि हडोप एक तथ्य तालिका बनाने के लिए सबसे अच्छा विकल्प नहीं है (यहां तक कि हाइव के साथ भी), क्योंकि मेरी समझ में असंगठित के साथ काम करना है डेटा।
तो, मेरा सवाल है: इस चुनौती को बनाने का सबसे अच्छा तरीका क्या होगा ?? , क्या मैं सही तकनीक की तलाश नहीं कर रहा हूं? ऐसी बड़ी तथ्य तालिका में मुझे सबसे अच्छा प्रश्न प्रतिक्रिया समय क्या मिलेगा? .. या क्या मैं यहां एक असली दीवार का सामना कर रहा हूं और समेकित टेबल बनाने का एकमात्र विकल्प है?
आपकी आवश्यकताओं क्या हैं? आप डेटा के साथ क्या करना चाहते हैं (विस्तार से!)? – usr
हम ओलाप को विश्लेषण की तरह करना चाहते हैं: उदाहरण के लिए: इस 5 वर्षों में शीर्ष 10 बेचे जाने वाले उत्पाद क्या हैं?, शीर्ष 10 ब्रांड, ... और निश्चित रूप से अधिक चर के साथ अधिक संरचित ... जैसे शीर्ष 5 संयुक्त राज्य अमेरिका में 20 -30 के बीच के ग्राहकों के बीच 5 वर्षों में बेचे गए ब्रांड ?? –
धन्यवाद, यह सहायक था। जीबी में डिस्क पर डेटा कितना बड़ा है? मुझे लगता है कि यह एक मानक स्टार स्कीमा है? और क्या क्वेरी अवधि की आवश्यकताएं मौजूद हैं (सेकंड, मिनट, घंटे)? – usr