मैं डेटा विश्लेषण के लिए आर का उपयोग करता हूं और इसके साथ बहुत खुश हूं। हालांकि, डेटा साफ करना थोड़ा आसान हो सकता है। मैं इस कार्य के लिए उपयुक्त एक और भाषा सीखने के बारे में सोच रहा हूं। विशेष रूप से, मैं कच्चे डेटा को लेने, अनावश्यक चर या अवलोकनों को हटाने के लिए उपयोग करने के लिए एक उपकरण की तलाश में हूं, और आर में सामग्री को आसानी से लोड करने के लिए प्रारूपित करता हूं। बहु-पंक्ति पाठ के विपरीत सामग्री अधिकतर संख्यात्मक और स्ट्रिंग डेटा होगी।डेटा की सफाई के लिए पायथन या अजीब/sed
मैं पाइथन बनाम अजीब/sed संयोजन पर विचार कर रहा हूं। (मुझे पता है कि पर्ल एक और विकल्प होगा, लेकिन, अगर मैं एक और पूर्ण भाषा सीखने जा रहा था, तो पाइथन बेहतर, अधिक एक्स्टेंसिबल पसंद प्रतीत होता है।)
sed/awk का लाभ यह है कि यह तेज़ होगा सीखना। नुकसान यह है कि यह संयोजन पायथन के रूप में एक्स्टेंसिबल नहीं है। दरअसल, अगर मैं पाइथन सीखता हूं, तो मैं कुछ "मिशन रेंगने" की कल्पना कर सकता हूं, जो ठीक होगा, लेकिन मेरा लक्ष्य नहीं।
अन्य विचार जो मेरे पास था, बड़े डेटा सेट के लिए अनुप्रयोग है। जैसा कि मैं इसे समझता हूं, awk/sed लाइन-बाय-लाइन संचालित करता है, जबकि पायथन आम तौर पर सभी डेटा को स्मृति में खींच लेता है। यह sed/awk के लिए एक और फायदा हो सकता है।
क्या कोई अन्य समस्याएं हैं जो मुझे याद आ रही हैं? कोई भी सलाह जो आप पेश कर सकते हैं उसकी सराहना की जाएगी। (मैं आर उपयोगकर्ताओं को अपने सफाई सिफारिशें की पेशकश करने के लिए R टैग शामिल थे।)
"सफाई" द्वारा, आपका मतलब है क्लिपिंग आउटलाइजर्स या स्थिरता बहाल करना या कुछ और? "डेटा" द्वारा, आपका मतलब मुख्य रूप से संख्या या तार, या बस पाठ है? मेरे लिए वर्तमान प्रश्न का यह लक्ष्य बहुत सामान्य है। – nye17
@ nye17, अस्पष्टता के लिए खेद है। मैंने थोड़ा और विस्तार जोड़ा। – Charlie
मैं मुख्य रूप से अपने लिए पाइथन का उपयोग करता हूं, लेकिन अगर यह पूरी तरह से टेक्स्ट-आधारित डेटा सेट में हेरफेर था, आर के लिए डेटा इंटरफ़ेस के रूप में कार्य करता है, तो मैं दृढ़ता से सुझाव देता हूं कि टेक्स्ट की तुलना में इसकी शक्तिशाली नियमित अभिव्यक्ति और लचीलापन दिया जाए। – nye17