apache-pig

    8गर्मी

    1उत्तर

    में प्रोजेक्टिंग समूहबद्ध टुपल्स मेरे पास फॉर्म (टी, ए, बी) के टुपल्स का संग्रह है जिसे मैं पी में बी द्वारा समूह करना चाहता हूं। एक बार समूहित होने के बाद, मैं प्रत्येक समूह में tuples से बी फ़िल्टर

    13गर्मी

    4उत्तर

    क्या कोई नक्शा में औसत/मात्राओं की गणना को कम कर सकता है? Datafu की औसत से मेरे समझ के साथ कि 'एन' मानचित्रकारों डेटा को सॉर्ट और करने के लिए "1" कम करने जो सभी n मानचित्रकारों से डेटा छंटाई और मंझला

    5गर्मी

    2उत्तर

    पर एक टैरबॉल लोड करने के लिए कैसे करें मेरे पास एक लॉग फ़ाइल है जो मेरे हैडूप क्लस्टर में लोड टैरबॉल (access.logs.tar.gz) में है। मैं सोच रहा था कि इसे सीधे छेड़छाड़ के साथ इसे लोड करने का तरीका है?

    6गर्मी

    3उत्तर

    मैं मानचित्र के लिए पिग या जावा का उपयोग कर रहा हूं, विशेष रूप से एक हडोप क्लस्टर के खिलाफ नौकरियां चलाने के लिए विशेष रूप से कम करें। मैंने हाल ही में हैडोप स्ट्रीमिंग के माध्यम से पाइथन मानचित्र को

    6गर्मी

    1उत्तर

    मैं कुछ दिनों के लिए हाइव के साथ खेल रहा हूं लेकिन मुझे अभी भी विभाजन के साथ कठिन समय है। मैं कुछ महीनों के लिए हैडोप में अपाचे लॉग (संयोजन प्रारूप) रिकॉर्ड कर रहा हूं। वे पंक्ति पाठ प्रारूप में जमा ह

    13गर्मी

    4उत्तर

    मैं फ़ाइलों के एक सेट से डेटा प्रोसेस कर रहा हूं जिसमें फ़ाइल नाम के हिस्से के रूप में दिनांक टिकट शामिल है। फ़ाइल के भीतर डेटा में दिनांक टिकट नहीं है। मैं फ़ाइल नाम को संसाधित करना चाहता हूं और इसे

    8गर्मी

    3उत्तर

    का अनुमान नहीं लगा सका मैं एक डेटासेट की गिनती खींचने के लिए एक सुअर लैटिन स्क्रिप्ट लिखने की कोशिश कर रहा हूं जिसे मैंने फ़िल्टर किया है। यहाँ स्क्रिप्ट अब तक बताया गया है: Could not infer the matchi

    6गर्मी

    1उत्तर

    से सभी पंक्तियों में किसी फ़ील्ड की गणना की गणना कैसे करें मैं उपनाम में सभी पंक्तियों में किसी फ़ील्ड के मानों को जोड़ना चाहता हूं। यह सरल होना चाहिए लेकिन किसी भी तरह से मुझे जवाब नहीं मिल रहा है। य

    46गर्मी

    7उत्तर

    में पंक्तियों की एक संख्या की गणना करना मैं सुअर में एक उपनाम में पंक्तियों की संख्या गिनती करने के लिए कुछ इस तरह किया: logs = LOAD 'log' logs_w_one = foreach logs generate 1 as one; logs_group = g

    14गर्मी

    2उत्तर

    वर्तमान में, जब मैं एचडीएफएस में स्टोर करता हूं, तो यह कई भाग फाइलें बनाता है। वहाँ एक भी CSV फ़ाइल के लिए बाहर स्टोर करने के लिए कोई तरीका है?