मेरे वर्तमान वेब एप्लिकेशन परियोजना एक छोटे से NLP के लिए कहता है: वाक्य मेंकॉफीस्क्रिप्ट या जावास्क्रिप्ट में मूल एनएलपी - Punkt टोकनज़ैटन, सरल प्रशिक्षित बेयस मॉडल - कहां से शुरू करें?
- Tokenizing पाठ, पंक्ट और इसी तरह के माध्यम से;
- अधीनस्थ खंड द्वारा लंबे समय तक वाक्य एक और भी लग रहा है, कोई अनाथ या विधवाओं और कम से कम अजीब विभाजन (शायद)
... यदि आपके पास NLTK है - जो मैं करता हूं, तो इसमें से अधिकतर बचपन में आसान काम है, जैसे: ऐप बैकएंड टोरनाडो पर डीजेगो है; आपको लगता है कि इन चीजों को करना एक गैर-मुद्दा होगा।
हालांकि, मुझे उपयोगकर्ता प्रतिक्रिया को अंतःक्रियात्मक रूप से प्रदान करना होगा जिसके लिए टोकननाइज़र आवश्यक हैं, इसलिए मुझे डेटा क्लाइंटसाइड को टोकननाइज़ करना होगा।
अभी मैं वास्तव में am एनएलटीके का उपयोग कर, एक आरओएसटी एपीआई कॉल के माध्यम से एक टर्ननाडो प्रक्रिया के माध्यम से जो एनएलटीके समारोह को लपेटता है और थोड़ा और। फिलहाल, विलंबता और समेकन जैसी चीजें स्पष्ट रूप से उप-विशिष्ट हैं, जो इस विज्ञापन-सेवा को विनम्रतापूर्वक रखने के लिए हैं। मुझे लगता है कि मुझे क्या करना चाहिए, मुझे लगता है कि इस समारोह के कॉफी/जावा संस्करणों पर मेरा हाथ मिल रहा है अगर इसे खुद को पुन: कार्यान्वित नहीं किया जाता है।
और इसलिए मैंने जो देखा है, उससे जावास्क्रिप्ट को लंबे समय तक नहीं माना गया है, न केवल वेब-विशिष्ट, सामान्य उद्देश्य लाइब्रेरी schmorgasbörd को सी या पायथन (या यहां तक कि एरलांग)। एनएलटीके निश्चित रूप से किसी भी उपाय से एक स्टैंडआउट परियोजना है, लेकिन मुझे केवल पैकिंग के कुछ प्रतिशत की आवश्यकता है।
लेकिन अब अब मैं एक चौराहे पर हूँ - मैं या तो पर डबल डाउन करने के लिए है:
- "सीखने वैज्ञानिक जावास्क्रिप्ट तकनीक एल्गोरिदम reimplementing के लिए फिट मैं सबसे अच्छे रूप में फेसबुक दोस्तों हूँ" योजना, या:
- कम दिलचस्प लेकिन अधिक निर्धारक रूप से करने योग्य "तार पर टोकनिंग के लिए व्यवस्थित है, लेकिन गति और प्रोग्रामिंग की रोचकता की कमी के लिए अतिसंवेदनशील है - वेब-स्तरीय सेवा आर्किटेक्चर के एक मजबूत प्रदर्शन करने वाले पैरागोन में फ़ंक्शन कॉल को बढ़ाकर समुद्र तट मुक्त यूएक्स सुनिश्चित करें , फेसबुक को Google+ की तरह दिखता है "विकल्प।
या पूरी तरह से कुछ और। मुझे क्या करना चाहिए? चीजों को शुरू करने की तरह। यह मेरा सवाल है। मैं एक अटूट दृष्टिकोण से जुड़े समाधानों के लिए खुला हूं - जब तक आपकी सिफारिश अशिष्ट नहीं होती है (उदाहरण के लिए "सिल्वरलाइट का उपयोग करें") और/या एक समय भंवर (उदा। "कम्प्यूटेशनल भाषाविज्ञान पीएचडी आपको ट्रोग्लोडीट प्राप्त करें") मैं गेम हूं। पहले ही, आपका बहुत धन्यवाद।
एक और बात जो मैं उल्लेख करना भूल गया था कि क्लाइंटसाइड जावास्क्रिप्ट समाधान के खिलाफ कारक हो सकता है: एनएलटीके, जैसा कि मैंने सामना किया है, अन्य सांख्यिकीय मॉडल की तरह, अक्सर काम करने के लिए प्रशिक्षण डेटा के विशाल ढेर के शीर्ष पर बैठने की आवश्यकता होती है (Punkt tokenizer I ' एम का उपयोग करने की आवश्यकता है) ... मैं इसके बारे में गलत हो सकता हूं (वास्तव में यह अच्छा होगा) लेकिन इसलिए ओबीवी एक समाधान जिसमें क्लाइंट को डी/ला कॉर्पस करना संभव नहीं है। – fish2000