2010-05-28 10 views
7

मैं एक ऐसे एप्लिकेशन की योजना बना रहा हूं जो विषयों के आधार पर लघु संदेश/ट्वीट्स के क्लस्टर बनाएगा। विषयों की संख्या की तरह खेल [एनबीए, एनएफएल, क्रिकेट, फुटबाल], मनोरंजन [सिनेमा, संगीत] और इतने पर सीमित हो जाएगा ...विषय के आधार पर मैं छोटे संदेशों [ट्वीट्स] को कैसे क्लस्टर कर सकता हूं? [विषय आधारित क्लस्टरिंग]

मैं इस

  • में दो तरीकों का सोच सकते हैं पूछें उपयोगकर्ताओं को Stackoverflow जैसे प्रश्न टैग करने के लिए करता है। उपयोगकर्ता टैग की पूर्वनिर्धारित सूची से टैग का चयन कर सकते हैं। फिर सर्वर की तरफ मैं टैग के आधार पर उन्हें क्लस्टर कर दूंगा। पेशेवर: - सरल डिजाइन। कोड में कम जटिलता। विपक्ष: - उपयोगकर्ताओं के लिए विकल्प प्रतिबंधित होंगे। क्लस्टर गतिशील नहीं होंगे। यदि कोई नई घटना होती है, तो पूर्वनिर्धारित टैग इसे याद करेंगे।
  • संदेश लें, स्टॉपवर्ड [एक शब्दकोश में पूर्वनिर्धारित] को हटाएं, क्लस्टर बनाने के लिए स्टेम किए गए संदेश पर कुछ क्लस्टरिंग एल्गोरिदम लागू करें और इसकी लोकप्रियता के आधार पर क्लस्टर प्रदर्शित करें। जब तक यह लोकप्रिय रहता है तब तक क्लस्टर प्रदर्शित किया जाएगा [कई संदेश/मिनट]। नए संदेश स्किम किए जाएंगे और इसी क्लस्टर को आवंटित किए जाएंगे। पेशेवर: - घटना/दुर्घटना की लोकप्रियता के आधार पर गतिशील क्लस्टरिंग। विपक्ष: - जटिलता में वृद्धि हुई। अधिक सर्वर संसाधनों की आवश्यकता है।

मैं जानना चाहता हूं कि इस समस्या के कोई अन्य दृष्टिकोण हैं या नहीं। या उपर्युक्त विधियों में सुधार करने के कोई तरीके हैं?

कुछ अच्छे क्लस्टरिंग एल्गोरिदम भी सुझाते हैं। मुझे लगता है कि "के-निकटतम क्लस्टरिंग" एल्गोरिदम इस स्थिति के लिए उपयुक्त है।

उत्तर

2

Bayesian classification का उपयोग करें। कुछ पूर्वनिर्धारित कॉर्पस के साथ फ़िल्टर को प्रशिक्षित करें, और (वैकल्पिक रूप से) उपयोगकर्ताओं को ग़लत ढंग से वर्गीकृत की गई चीज़ों को फ़्लैग करके इसे परिष्कृत करने का एक तरीका प्रदान करें।

NLTK में बेयसियन वर्गीकरण का उपयोग करने के लिए यहां कुछ examples है।

+0

उत्तर के लिए धन्यवाद ... असल में मैं इसे रखना चाहता हूं यह उपयोगकर्ताओं के लिए आसान हो सकता है। मुझे लगता है कि यह अच्छा होगा अगर उपयोगकर्ता कुछ संदेश दर्ज कर सकें और सर्वर यह पता लगाएगा कि इसे कहां रखा जाए। हालांकि सर्वर में उस खुफिया जानकारी डालना मुश्किल होगा। – Jagira

+0

आपको फ़िल्टर के चल रहे प्रशिक्षण करने का कोई तरीका नहीं देना है; जो सिर्फ फ़िल्टर को बेहतर बनाता है। यदि आपके पास एक अच्छा कॉर्पस है, तो वर्गीकरण ट्यूनिंग के बिना स्वीकार्य होना चाहिए। –

3

गाजर 2 देखें, यह टूल टेक्स्ट और क्लस्टर से टैग निकालता है। आप इसे here से डाउनलोड कर सकते हैं और एल्गोरिदम लागू कर सकते हैं (लिंगो, मुख्य रूप से) here

आशा है कि यह आपकी मदद करेगा।

0

मैं भी इसी तरह की चीज कर रहा हूं। मुझे लगता है कि हैशटैग एक अच्छा तरीका है यदि आप विशेष रूप से ट्विटर के बारे में बात कर रहे हैं। आप कुछ वर्गीकरण भी कर सकते हैं लेकिन इसे विकिपीडिया आदि जैसे कुछ बाहरी ज्ञान आधार से समृद्ध किया जाना चाहिए वैसे भी, यदि आपका समाधान बेहतर है, तो कृपया इसे यहां पोस्ट करें