मैं एक ऐसे एप्लिकेशन की योजना बना रहा हूं जो विषयों के आधार पर लघु संदेश/ट्वीट्स के क्लस्टर बनाएगा। विषयों की संख्या की तरह खेल [एनबीए, एनएफएल, क्रिकेट, फुटबाल], मनोरंजन [सिनेमा, संगीत] और इतने पर सीमित हो जाएगा ...विषय के आधार पर मैं छोटे संदेशों [ट्वीट्स] को कैसे क्लस्टर कर सकता हूं? [विषय आधारित क्लस्टरिंग]
मैं इस
- में दो तरीकों का सोच सकते हैं पूछें उपयोगकर्ताओं को Stackoverflow जैसे प्रश्न टैग करने के लिए करता है। उपयोगकर्ता टैग की पूर्वनिर्धारित सूची से टैग का चयन कर सकते हैं। फिर सर्वर की तरफ मैं टैग के आधार पर उन्हें क्लस्टर कर दूंगा। पेशेवर: - सरल डिजाइन। कोड में कम जटिलता। विपक्ष: - उपयोगकर्ताओं के लिए विकल्प प्रतिबंधित होंगे। क्लस्टर गतिशील नहीं होंगे। यदि कोई नई घटना होती है, तो पूर्वनिर्धारित टैग इसे याद करेंगे।
- संदेश लें, स्टॉपवर्ड [एक शब्दकोश में पूर्वनिर्धारित] को हटाएं, क्लस्टर बनाने के लिए स्टेम किए गए संदेश पर कुछ क्लस्टरिंग एल्गोरिदम लागू करें और इसकी लोकप्रियता के आधार पर क्लस्टर प्रदर्शित करें। जब तक यह लोकप्रिय रहता है तब तक क्लस्टर प्रदर्शित किया जाएगा [कई संदेश/मिनट]। नए संदेश स्किम किए जाएंगे और इसी क्लस्टर को आवंटित किए जाएंगे। पेशेवर: - घटना/दुर्घटना की लोकप्रियता के आधार पर गतिशील क्लस्टरिंग। विपक्ष: - जटिलता में वृद्धि हुई। अधिक सर्वर संसाधनों की आवश्यकता है।
मैं जानना चाहता हूं कि इस समस्या के कोई अन्य दृष्टिकोण हैं या नहीं। या उपर्युक्त विधियों में सुधार करने के कोई तरीके हैं?
कुछ अच्छे क्लस्टरिंग एल्गोरिदम भी सुझाते हैं। मुझे लगता है कि "के-निकटतम क्लस्टरिंग" एल्गोरिदम इस स्थिति के लिए उपयुक्त है।
उत्तर के लिए धन्यवाद ... असल में मैं इसे रखना चाहता हूं यह उपयोगकर्ताओं के लिए आसान हो सकता है। मुझे लगता है कि यह अच्छा होगा अगर उपयोगकर्ता कुछ संदेश दर्ज कर सकें और सर्वर यह पता लगाएगा कि इसे कहां रखा जाए। हालांकि सर्वर में उस खुफिया जानकारी डालना मुश्किल होगा। – Jagira
आपको फ़िल्टर के चल रहे प्रशिक्षण करने का कोई तरीका नहीं देना है; जो सिर्फ फ़िल्टर को बेहतर बनाता है। यदि आपके पास एक अच्छा कॉर्पस है, तो वर्गीकरण ट्यूनिंग के बिना स्वीकार्य होना चाहिए। –