मैं के-निकटतम पड़ोसी प्रतिगमन से संबंधित एक परियोजना पर काम करने में व्यस्त हूं। मैंने मिश्रित संख्यात्मक और विशिष्ट क्षेत्रों को मिश्रित किया है। स्पष्ट मान सामान्य हैं (उदा। बैंक का नाम, खाता प्रकार)। संख्यात्मक प्रकार, उदाहरण के लिए हैं वेतन और आयु। कुछ बाइनरी प्रकार भी हैं (उदाहरण के लिए, नर, मादा)।स्पष्ट डेटा के साथ केएनएन वर्गीकरण
मैं केएनएन विश्लेषण में स्पष्ट मूल्यों को शामिल करने के बारे में कैसे जा सकता हूं?
जहां तक मुझे पता है, कोई भी प्रत्येक विशिष्ट फ़ील्ड को संख्या कुंजी (जैसे बैंक 1 = 1; बैंक 2 = 2, आदि) पर मैप नहीं कर सकता है, इसलिए मुझे विशिष्ट फ़ील्ड का उपयोग करने के लिए बेहतर दृष्टिकोण की आवश्यकता है। मैंने सुना है कि कोई बाइनरी संख्या का उपयोग कर सकता है - क्या यह एक व्यवहार्य विधि है? सलाह की सराहना की जाएगी।
आप सवाल बहुत अस्पष्ट है। कृपया इसे और अधिक ठोस बनाने के लिए कुछ उदाहरण जोड़ें: आप जिस डेटा से निपट रहे हैं वह वास्तव में क्या है? आप किस तरह के क्लस्टर प्राप्त करने की उम्मीद करते हैं? किस मानदंड के आधार पर? आप किस एल्गोरिदम का उपयोग कर रहे हैं? – Shai
स्पष्ट डेटा को बाइनरी मानों में परिवर्तित करने के संबंध में: सेकंड की शुरुआत http://arxiv.org/pdf/1210.7070v3.pdf देखें। 2 इस रूपांतरण का वर्णन करें। – Shai
मैं के-निकटतम पड़ोसी क्लस्टरिंग का उपयोग कर रहा हूं। मैं एकाधिक पैरामीटर/आयामों (आयु, लिंग, बैंक, वेतन, खाता प्रकार) का उपयोग कर परीक्षण बिंदु के आसपास के = 20 अंकों का समूह उत्पन्न करना चाहता हूं। खाता प्रकार के लिए, उदाहरण के लिए, आपके पास चालू खाता है, खाता और बचत खाता (स्पष्ट डेटा) देखें। वेतन, हालांकि, निरंतर (संख्यात्मक) है। केएनएन क्लस्टरिंग करने के लिए मैं निरंतर क्षेत्रों के साथ स्पष्ट क्षेत्रों का उपयोग कैसे करूं? – Graham