मैं पढ़ रहा हूं कि मैं एक ल्यूसीन इंडेक्स से महॉट वैक्टर बना सकता हूं जिसका उपयोग महोत्सव क्लस्टरिंग एल्गोरिदम लागू करने के लिए किया जा सकता है। http://cwiki.apache.org/confluence/display/MAHOUT/Creating+Vectors+from+Textmahout लुसीन दस्तावेज़ क्लस्टरिंग कैसे?
मैं अपने Lucene सूचकांक में दस्तावेजों में एल्गोरिथ्म क्लस्टरिंग कश्मीर साधन लागू करना चाहते हैं, लेकिन मैं कैसे इस एल्गोरिथ्म (या पदानुक्रमित क्लस्टरिंग) इन दस्तावेजों के साथ सार्थक समूहों को निकालने के लिए आवेदन कर सकते हैं यह स्पष्ट नहीं है।
इस पृष्ठ में http://cwiki.apache.org/confluence/display/MAHOUT/k-Means कहता है कि एल्गोरिदम दो इनपुट निर्देशिका स्वीकार करता है: डेटा बिंदुओं के लिए एक और प्रारंभिक क्लस्टर के लिए एक। मेरे डेटा पॉइंट दस्तावेज हैं? मैं "घोषणा" कैसे कर सकता हूं कि ये मेरे दस्तावेज़ (या उनके वैक्टर) हैं, बस उन्हें ले जाएं और क्लस्टरिंग करें?
अग्रिम में खेद मेरी गरीब व्याकरण
के लिए धन्यवाद आप
हाँ है कि मैं नहीं कर सकते समझते हैं। आउटपुट क्या है? मैं आउटपुट में कैसे देख सकता हूं कि उदाहरण के लिए दस्तावेज़ 5 और 8 एक ही क्लस्टर पर हैं? – maiky