में पैरामीटर अनुमान मुझे अलग-अलग पूर्वस्थापन (जैसे एजेंटिव, वाद्ययंत्र, समय, स्थान इत्यादि) के साथ उनके वितरण के आधार पर संज्ञाओं के स्वाभाविक रूप से होने वाले वर्गों को खोजने की आवश्यकता है। मैंने के-साधन क्लस्टरिंग का उपयोग करने की कोशिश की लेकिन कम मदद की, यह अच्छी तरह से काम नहीं कर सका, कक्षाओं पर बहुत अधिक ओवरलैप था जो संभवतः कक्षाओं के गैर-गोलाकार आकार और के-साधनों में यादृच्छिक प्रारंभिकता के कारण था)।डीबीएससीएएन
अब मैं डीबीएससीएएन का उपयोग करने पर काम कर रहा हूं, लेकिन मुझे इस क्लस्टरिंग एल्गोरिदम में ईपीएसलॉन मान और मिनी-पॉइंट मान को समझने में परेशानी है। क्या मैं यादृच्छिक मानों का उपयोग कर सकता हूं या मुझे उनकी गणना करने की आवश्यकता है। क्या कोई मदद कर सकता है। विशेष रूप से ईपीएसलॉन के साथ, कम से कम अगर इसे करने की आवश्यकता है तो इसकी गणना कैसे करें।
मैं आपको पैरामीटर यहां बताने में सक्षम नहीं हूं। आपको * प्रयोग * की आवश्यकता है। लेकिन गंभीरता से, पहले समानता को मापने के तरीके को समझने का प्रयास करें। एक डीबीएससीएएन क्लस्टरिंग परिणाम हमेशा उतना ही अच्छा होगा जितना आपका समानता कार्य होता है। –
मैं अपने डेटा में 3 प्रमुख वर्गों के साथ एक पदानुक्रमिक संरचना मान रहा हूं। मेरे पास 15 आयामों के साथ लगभग 32 के अंक हैं। मेरा डेटा बिंदु: संज्ञा, गणना (prep1)/संज्ञा की कुल गणना, गणना (prep2)/कुल ....... गिनती (prep15)/कुल। मैं यूक्लिडियन दूरी समारोह का उपयोग कर रहा हूं, मैंने अभी तक दूसरों की कोशिश नहीं की है। सामान्यीकरण के आधार पर आपका क्या मतलब है, मुझे डेटा को सामान्यीकृत करने के लिए कैसे किया जाता है, मैंने पहले से दिए गए संज्ञा की कुल आवृत्ति द्वारा वितरण को सामान्यीकृत कर दिया है। एक और सवाल, इसके बारे में के-साधन, क्या मैं हाथ से पहले सेंट्रॉइड चुन सकता हूं, क्योंकि मैं अपने डोमेन ज्ञान के प्रत्येक वर्ग के प्रोटोटाइप का अनुमान लगा सकता हूं। – Riyaz