Google समाचार और टेकमेम क्लस्टर समाचार आइटम समान कैसे हैं? क्या कोई अच्छी तरह से पता एल्गोरिदम है जिसका उपयोग इसे प्राप्त करने के लिए किया जाता है?समाचार क्लस्टरिंग
आपकी सहायता की सराहना करें।
अग्रिम धन्यवाद।
Google समाचार और टेकमेम क्लस्टर समाचार आइटम समान कैसे हैं? क्या कोई अच्छी तरह से पता एल्गोरिदम है जिसका उपयोग इसे प्राप्त करने के लिए किया जाता है?समाचार क्लस्टरिंग
आपकी सहायता की सराहना करें।
अग्रिम धन्यवाद।
सामग्री के आधार पर क्लस्टर टेक्स्ट का एक आम तरीका है वेक्टर शब्द पर Principle Component Analysis का उपयोग करना है (एन आयामों का एक वेक्टर जहां प्रत्येक संभावित शब्द प्रत्येक आयाम के लिए एक आयाम का प्रतिनिधित्व करता है और प्रत्येक दिशा में परिमाण, संख्या घटता है उस विशेष लेख में शब्द का), उसके बाद के-मीन्स जैसे साधारण क्लस्टरिंग के बाद।
एल्गोरिदमिक आधार agglomerative क्लस्टरिंग या कुछ समान है। लेकिन इसके शीर्ष पर कई ह्यूरिस्टिक्स हैं। उदाहरण के लिए, वेक्टर स्पेस निश्चित रूप से शब्दों और वाक्यांशों (शब्द एन-ग्राम) शामिल है। सख्त समय अवधि में खोज सीमित करना भी बहुत महत्वपूर्ण है। और नामों की पहचान, और अधिक शीर्षक और अनुच्छेद शीर्षलेख वजन भी महत्वपूर्ण भागों हैं।
एक स्पर्शिक रूप से संबंधित नोट पर। यदि आप निकट-डुप्लिकेट लेख ढूंढने में रुचि रखते हैं तो दृष्टिकोणों को लागू करने के लिए कई आसान हैं, जैसे here
ऐसा करने के कुछ अलग तरीके हैं। मानक "शब्दों का थैला" विश्लेषण (भारित टीएफ-आईडीएफ) करना है, और फिर कोसाइन समानता और के-साधन करते हैं।) 1 यह वृद्धिशील है, जो खबर के लिए अच्छा है: http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851
बड़ी बात यह कि इसके बारे में है:
मैं इस पत्र के साथ सफलता मिली है। मानक के-साधनों के साथ, आपको संपूर्ण डेटा सेट होना चाहिए। समाचार के साथ, आप आमतौर पर समय के साथ आने वाले लेख होते हैं। वृद्धिशील एल्गोरिदम इसे हल करते हैं। 2) यह वाक्यांश आधारित है। तो यह सिर्फ शब्दों के बजाय वाक्यांशों पर निर्भर करता है।
हाल ही में, ऐसी तकनीकें हैं जो शब्दों के बजाय अर्थपूर्ण अर्थ का उपयोग करती हैं (उदाहरण के लिए, प्रत्येक आलेख से विकिपीडिया या डीबीपीडिया अवधारणाओं को निकालने और केवल शब्दों के बजाय इसका उपयोग करके)।
धन्यवाद एंडी। आपकी सहायता की सराहना। अपने उत्तर से इस विषय पर शोध करते समय मुझे कुछ उपयोगी लिंक मिले। मैं इसे यहां टिप्पणी के रूप में पोस्ट कर रहा हूं ताकि इस विषय में रुचि रखने वाले किसी भी व्यक्ति के पास प्रारंभिक बिंदु हो। श्रेणीबद्ध agglomerative क्लस्टरिंग http://nlp.stanford.edu/IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html एक ट्यूटोरियल पर क्लस्टरिंग एल्गोरिदम http: //home.dei.polimi .it/matteucc/क्लस्टरिंग/ट्यूटोरियल_एचटीएमएल/kmeans.html सूचना का परिचय पुनर्प्राप्ति http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html – niraj
@niraj: लिंक के लिए धन्यवाद ट्यूटोरियल जो बहुत जानकारीपूर्ण है। – mins