मैं वर्तमान में एक परियोजना है कि रेंगने और प्रसंस्करण डेटा (gigs के सैकड़ों) की भारी मात्रा में है, और भी उन्हें संरचित डेटा, वर्णित निकाय को मान्यता, डिडुप्लीकेशन, वर्गीकरण आदिबड़े पैमाने पर मशीन सीखने - पायथन या जावा?
मैं निकालने के लिए खनन शामिल होगी आरंभ करने कर रहा हूँ जावा और पायथन दोनों दुनिया से एमएल टूल्स से परिचित: लिंगपाइप, महौत, एनएलटीके इत्यादि। हालांकि, जब बड़ी मात्रा में समस्या के लिए प्लेटफॉर्म चुनने के लिए नीचे आता है - मुझे जावा या पायथन के बीच निर्णय लेने के लिए पर्याप्त अनुभव नहीं है।
मुझे पता है कि यह एक अस्पष्ट सवाल की तरह लगता है, और मैं जावा या पायथन चुनने पर सामान्य सलाह की तलाश में हूं। जेवीएम पाइथन पर बेहतर प्रदर्शन (?) प्रदान करता है, लेकिन पाइंडन इकोसिस्टम के साथ मिलकर लिंगपिप इत्यादि जैसे पुस्तकालय हैं? अगर मैं इस पायथन पर गया, तो यह कितना आसान होगा और इसे कई मशीनों आदि में प्रबंधित करना होगा।
मुझे किसके साथ जाना चाहिए और क्यों?
[ज्योथन] (http://www.jython.org/) :-) –
बड़े पैमाने पर एमएल कार्यों में भाषा की तुलना में उपयोग किए गए एल्गोरिदम महत्वपूर्ण (या अधिक) हैं; उदाहरण के लिए, बहुत सारे डेटा से निपटने के दौरान, ईजिनवेक्टर आधारित तकनीकें असुरक्षित हो सकती हैं। इसलिए जब बड़े पैमाने पर समस्याओं के लिए प्रत्येक भाषा के उपलब्ध औजारों के बारे में सोचने लायक है, तो एमएल एल्गोरिदम का प्रदर्शन प्रदर्शन पर हावी हो सकता है। – Junier
आपका प्रश्न बहुत रोचक है लेकिन बहुत व्यापक है, मुझे यह भी नहीं पता कि मैं जवाब में क्या डाल सकता हूं। सलाह का एक शब्द महाआउट (हडोप से परियोजना) का उपयोग करना होगा जो आपकी चिंता को सीधे संबोधित करता है। अपने प्रश्न को और अधिक स्पष्ट और विस्तृत बनाने का प्रयास करें, या संभवतः बंद होने पर भी इसे बंद कर दिया जाएगा। –