2009-04-24 2 views
12

Google समाचार और टेकमेम क्लस्टर समाचार आइटम समान कैसे हैं? क्या कोई अच्छी तरह से पता एल्गोरिदम है जिसका उपयोग इसे प्राप्त करने के लिए किया जाता है?समाचार क्लस्टरिंग

आपकी सहायता की सराहना करें।

अग्रिम धन्यवाद।

उत्तर

9

सामग्री के आधार पर क्लस्टर टेक्स्ट का एक आम तरीका है वेक्टर शब्द पर Principle Component Analysis का उपयोग करना है (एन आयामों का एक वेक्टर जहां प्रत्येक संभावित शब्द प्रत्येक आयाम के लिए एक आयाम का प्रतिनिधित्व करता है और प्रत्येक दिशा में परिमाण, संख्या घटता है उस विशेष लेख में शब्द का), उसके बाद के-मीन्स जैसे साधारण क्लस्टरिंग के बाद।

+9

धन्यवाद एंडी। आपकी सहायता की सराहना। अपने उत्तर से इस विषय पर शोध करते समय मुझे कुछ उपयोगी लिंक मिले। मैं इसे यहां टिप्पणी के रूप में पोस्ट कर रहा हूं ताकि इस विषय में रुचि रखने वाले किसी भी व्यक्ति के पास प्रारंभिक बिंदु हो। श्रेणीबद्ध agglomerative क्लस्टरिंग http://nlp.stanford.edu/IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html एक ट्यूटोरियल पर क्लस्टरिंग एल्गोरिदम http: //home.dei.polimi .it/matteucc/क्लस्टरिंग/ट्यूटोरियल_एचटीएमएल/kmeans.html सूचना का परिचय पुनर्प्राप्ति http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html – niraj

+0

@niraj: लिंक के लिए धन्यवाद ट्यूटोरियल जो बहुत जानकारीपूर्ण है। – mins

5

एल्गोरिदमिक आधार agglomerative क्लस्टरिंग या कुछ समान है। लेकिन इसके शीर्ष पर कई ह्यूरिस्टिक्स हैं। उदाहरण के लिए, वेक्टर स्पेस निश्चित रूप से शब्दों और वाक्यांशों (शब्द एन-ग्राम) शामिल है। सख्त समय अवधि में खोज सीमित करना भी बहुत महत्वपूर्ण है। और नामों की पहचान, और अधिक शीर्षक और अनुच्छेद शीर्षलेख वजन भी महत्वपूर्ण भागों हैं।

एक स्पर्शिक रूप से संबंधित नोट पर। यदि आप निकट-डुप्लिकेट लेख ढूंढने में रुचि रखते हैं तो दृष्टिकोणों को लागू करने के लिए कई आसान हैं, जैसे here

0

ऐसा करने के कुछ अलग तरीके हैं। मानक "शब्दों का थैला" विश्लेषण (भारित टीएफ-आईडीएफ) करना है, और फिर कोसाइन समानता और के-साधन करते हैं।) 1 यह वृद्धिशील है, जो खबर के लिए अच्छा है: http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851

बड़ी बात यह कि इसके बारे में है:

मैं इस पत्र के साथ सफलता मिली है। मानक के-साधनों के साथ, आपको संपूर्ण डेटा सेट होना चाहिए। समाचार के साथ, आप आमतौर पर समय के साथ आने वाले लेख होते हैं। वृद्धिशील एल्गोरिदम इसे हल करते हैं। 2) यह वाक्यांश आधारित है। तो यह सिर्फ शब्दों के बजाय वाक्यांशों पर निर्भर करता है।

हाल ही में, ऐसी तकनीकें हैं जो शब्दों के बजाय अर्थपूर्ण अर्थ का उपयोग करती हैं (उदाहरण के लिए, प्रत्येक आलेख से विकिपीडिया या डीबीपीडिया अवधारणाओं को निकालने और केवल शब्दों के बजाय इसका उपयोग करके)।