2011-12-20 10 views
5

यदि मेरे पास एक स्पैससेट डेटासेट है जहां प्रत्येक डेटा को 1000 तत्वों के वेक्टर द्वारा वर्णित किया गया है, तो इस वेक्टर का प्रत्येक तत्व या तो 0 या 1 (बहुत सारे 0 और कुछ 1) हो सकता है, आप किसी दूरस्थ दूरी को जानते हैं जो उन्हें क्लस्टर करने में मेरी मदद कर सकता है? इस मामले में यूक्लिडियन दूरी की तरह कुछ सुविधाजनक है? मैं जानना चाहता हूं कि मेरे डेटा पर प्रयास करने के लिए ऐसी स्थिति के लिए एक आसान सुविधाजनक दूरी मीट्रिक है या नहीं।बाइनरी वैक्टर के एक स्पैससेट डेटासेट को क्लस्टर करना

धन्यवाद

+0

के-मेलोइड्स में विरूपण विरूपण के बारे में कैसे? यह यूक्लिडियन दूरी से बहुत अलग नहीं है। – Neo

+0

@ सीआरके के-मेलोइड्स पी = 1 के साथ [मिन्कोव्स्की दूरी] (http://en.wikipedia.org/wiki/Minkowski_distance) का उपयोग करता है, जो यूक्लिडियन दूरी का एक सामान्य मामला है, है ना? – shn

उत्तर

3

(मैं व्यक्तिगत रूप से कोज्या की तरह। वहाँ भी KL-विचलन है, और उसके जेन्सेन दूरी समकक्ष।) दूरी कार्यों ऐसे कोसाइन दूरी और के रूप में विरल पाठ वैक्टर, के लिए इस्तेमाल किया पर एक नज़र डालें सेट की तुलना करने के लिए, जैसे जैककार्ड दूरी।

0

तो यह वास्तव में और 0 के बहुत कुछ 1 है, तो आप पहले या अंतिम 1 के लिए क्लस्टरिंग की कोशिश कर सकते - देख http://aggregate.org/MAGIC/#Least महत्वपूर्ण 1 बिट

+0

पहला या आखिरी वाला? इस मामले में परिभाषित दो वैक्टरों के बीच फ़ंक्शन मीट्रिक कैसा है? दूरी (वी 1, वी 2) – shn

10

आपका प्रश्न एक ही जवाब भी नहीं है। डोमेन के आधार पर सर्वोत्तम अभ्यास हैं।

एक बार जब आप समानता मीट्रिक पर निर्णय लेते हैं, क्लस्टरिंग आमतौर पर औसतन या मेडोडॉइड ढूंढकर किया जाता है।

  • कार्लोस ओरदोनेज़: एल्गोरिथ्म उदाहरण के लिए क्लस्टरिंग बाइनरी डेटा पर इन कागजों को देखें। के-साधन के साथ क्लिनर बाइनरी डेटा स्ट्रीम। PDF
  • ताओ ली। क्लस्टरिंग बाइनरी डेटा के लिए एक सामान्य मॉडल। PDF

समानता उपायों पर विचार के इस ऑनलाइन "tool for measuring similarity between binary strings" देखते हैं। वे उल्लेख करते हैं: सोकल-माइकनर, जैकार्ड, रसेल-राव, हैमन, सोरेनसेन, एंटीडाइस, स्नेथ-सोकाल, रॉजर-तनिमोतो, ओचियाई, यूल, एंडरबर्ग, कुलकज़िंस्की, पियरसन की फाई, और गॉवर 2, डॉट उत्पाद, कोसाइन गुणांक, हैमिंग दूरी। उन्होंने यह भी इन कागजों का हवाला देते हैं:

  • ल्यूक, बी टी, समूहन बाइनरी ऑब्जेक्ट्स
  • लिन, डी, समानता का एक जानकारी रिप्ले परिभाषा।
  • टोइट, डु एसएचसी ;; स्टेन, एजी डब्ल्यू .; स्टंपफ, आरएच; ग्राफिकल एक्सप्लोरेटरी डेटा विश्लेषण; अध्याय 3, पी। 77, 1 9 86; स्प्रिंगर-वर्लग।

+0

आपके उत्तर के लिए धन्यवाद, यह एक दिलचस्प लिंक है। लेकिन, हम हैमिंग (या कोसाइन या किसी अन्य दूरी) का उपयोग करते हैं, हम वैक्टर के प्रत्येक समूह के प्रतिनिधि को कैसे सीख सकते हैं।मेरा मतलब है, मान लीजिए कि हमारे पास v1 = 0100100001100 और v2 = 0001100001100 है, वे एक-दूसरे के करीब हैं क्योंकि वे केवल दो बिट्स (दूसरी और तीसरी स्थिति) में भिन्न होते हैं, उदाहरण के लिए हैमिंग दूरी 2 होगी (कोसाइन 0.7500 होगा), समस्या यह है कि v1 और v2 के प्रतिनिधि वेक्टर क्या होंगे? वेक्टर के मूल्यों को कैसे सीखें (सीखें) जो v1 और v2 और उनके आस-पास के सभी अन्य वैक्टरों का प्रतिनिधित्व करना चाहिए। – shn

+1

प्रतिनिधि वेक्टर औसत (* सेंट्रॉइड *, बाइनरी नहीं) या एक * medoid * है। उनको ढूंढने के उदाहरणों के लिए कागजात पढ़ें। बाइनरी स्ट्रिंग्स के बीच समानता को मापने के लिए – cyborg

+1

डेड लिंक "टूल" – Ahue