2009-04-01 113 views
5

में उपयोग के लिए पावर कानून वितरण के बाद एकाधिक चर मानकीकृत/स्केल/सामान्यीकृत करने का सही तरीका मैं सोशल नेटवर्क ग्राफ़ में नोड्स के कुछ मानों को गठबंधन के क्रम में रैंक के लिए एक मान में जोड़ना चाहता हूं:रैखिक संयोजन

in_degree + betweenness_centrality = informal_power_index

समस्या है कि in_degree और betweenness_centrality अलग पैमानों पर मापा जाता है, का कहना है कि 0-15 बनाम 0-35,000 और एक बिजली कानून वितरण (कम से कम निश्चित रूप से नहीं सामान्य वितरण)

का पालन है वहाँ एक चर को पुन: सहेजने का अच्छा तरीका ताकि एक डब्ल्यू informal_power_index निर्धारित करने में दूसरे पर हावी नहीं है?

तीन स्पष्ट दृष्टिकोण हैं:

  • चर (घटाना mean और stddev द्वारा विभाजित) का मानकीकरण। ऐसा लगता है कि यह वितरण को बहुत अधिक स्क्वैश करेगा, लंबी पूंछ में एक मूल्य और चोटी के पास एक के बीच भारी अंतर छुपाएगा।
  • min(variable) घटाकर max(variable) को विभाजित करके सीमा [0,1] में पुन: स्केलिंग चर। यह समस्या को ठीक करने के करीब लगता है क्योंकि यह वितरण के आकार को नहीं बदलेगा, लेकिन हो सकता है कि यह वास्तव में इस मुद्दे को संबोधित नहीं करेगा? विशेष रूप से साधन अलग होंगे।
  • प्रत्येक मान को mean(variable) द्वारा विभाजित करके साधनों को बराबर करें। यह तराजू में अंतर को संबोधित नहीं करेगा, लेकिन तुलना के लिए शायद औसत मूल्य अधिक महत्वपूर्ण हैं?

कोई अन्य विचार?

उत्तर

1

आप प्रत्येक को प्रतिशत में अनुवाद कर सकते हैं और फिर प्रत्येक को ज्ञात मात्रा में लागू कर सकते हैं। फिर नए मूल्य के योग का उपयोग करें।

((1 - (in_degee/15) * 2000) + ((1 -। (Betweenness_centrality/35000) * 2000) =

+0

क्या इस दृष्टिकोण को मानकीकरण विधि के समान समस्या नहीं होगी, यह वितरण को स्क्वैश करेगा ताकि प्रतिशत 95 और 99 बहुत करीब दिखें, भले ही वे दुनिया अलग हों (लगता है कि बिल गेट का बैंक खाता बनाम ... मेरा!) –

+0

यह विधि सब कुछ एक प्रतिशत के भीतर रखती है। यह इस बात पर आधारित नहीं है कि संख्या माध्य से कैसे विचलित हो जाती है। लेकिन, मैं आप पर कार्यप्रणाली पर स्पष्ट नहीं हो सकता है। 2000 arbitary था। जितना बड़ा होगा उतना ही अद्वितीय मूल्य बनाया जा सकता है। – Thad

4

आप अंतर्निहित वितरण के एक मजबूत भावना है लगता है एक प्राकृतिक rescaling प्रत्येक भिन्नता को इसकी संभावना के साथ प्रतिस्थापित करना है। या, यदि आपका मॉडल अधूरा है, तो उस परिवर्तन को चुनें जो लगभग उसे प्राप्त करता है। यह विफल होने पर, यहां एक संबंधित दृष्टिकोण है: यदि आपके पास एक बहुत ही अनौपचारिक डेटा है जिससे हिस्टोग्राम (प्रत्येक का निर्माण) भिन्न), आप प्रत्येक को 10-10 स्केल में परिवर्तित कर सकते हैं कि यह 0-10% प्रतिशत या 10-20% -परेंटाइल ... 90-100% प्रतिशत है। इन परिवर्तनित भिन्नताओं में निर्माण, एक वर्दी है 1,2, ..., 10 पर वितरण, और आप उन्हें जोड़ सकते हैं हालांकि आप चाहें।

+0

यह एक बहुत अच्छा विचार है। मैं इसे आजमाऊंगा! –

0

[0,1] के लिए सामान्यीकरण 2 मानों को गठबंधन करने के लिए मेरी छोटी उत्तर सिफारिश होगी क्योंकि यह आपके द्वारा वर्णित वितरण आकार को बनाए रखेगा और मूल्यों को संयोजित करने की समस्या को हल करना चाहिए।

यदि 2 चरों का वितरण अलग है तो यह संभवतः आपको यह नहीं देगा कि मैं आपको बाद में क्या सोचता हूं, जो एक संयुक्त उपाय है जहां प्रत्येक चर अपने वितरण के भीतर है। आपको एक मीट्रिक के साथ आना होगा जो निर्धारित करता है कि दिए गए वितरण में मूल्य कहां है, यह कई तरीकों से किया जा सकता है, जिसमें से एक यह निर्धारित करना होगा कि दिए गए मूल्य से कितने मानक विचलन दूर हैं, तब आप अपनी अनुक्रमणिका प्राप्त करने के लिए इन 2 मानों को किसी तरह से संयोजित करें। (अतिरिक्त अब पर्याप्त नहीं हो सकता है)

आपको यह देखना होगा कि आपके डेटा को देखने के लिए सबसे अधिक समझदारी क्या है।मानक विचलन आपके आवेदन के लिए अर्थहीन हो सकता है, लेकिन आपको वितरण से संबंधित सांख्यिकीय उपायों को देखने और उनको गठबंधन करने की आवश्यकता है, पूर्ण मूल्यों को सामान्य करने या सामान्य करने के बजाय।

+0

आपका दूसरा पैराग्राफ मानकीकरण दृष्टिकोण का वर्णन करता प्रतीत होता है, जहां आप कच्चे मीट्रिक मान से मानक विचलन की संख्या तक जाते हैं, मान औसत से होता है। यह सब सामान्य वितरण के साथ सबसे अच्छा काम करता है, और अन्य डिस्प्ले –

+0

के साथ कम अच्छी तरह से सहमत है, जैसा कि मैंने तीसरे अनुच्छेद में इंगित किया है, आपको अपने डेटा सेट से संबंधित सांख्यिकीय मापों को देखने की आवश्यकता है, यदि वे बिजली वितरण हैं तो ये भिन्न हैं, क्षण , skewness, और संभवतः कुर्टोसिस –

1

बहुत ही रोचक सवाल। सकता है यह काम की तरह कुछ:

चलें मान लेते हैं कि हम [-1,1] की एक श्रृंखला के दोनों चर पैमाने पर करने के 0-35000

  1. की एक श्रृंखला है कि betweeness_centrality का उदाहरण लें चाहते चर की सीमा के क्रम में एक बड़ी संख्या चुनें। एक उदाहरण के रूप में 25,000
  2. नई रेंज में [0-35000] और 25,000 डिब्बे में 25,000 डिब्बे बनाएं [-1,1]
  3. प्रत्येक नंबर के लिए xi बिन # यह पता चलता है मूल बिन इसे बी-आई
  4. सीमा में बी-आई की सीमा खोजें [-1,1]।
  5. एक्स -1 के स्केल किए गए संस्करण के रूप में [-1,1] में बी-आई की सीमा के अधिकतम/मिनट का उपयोग करें।

यह बिजली कानून वितरण को संरक्षित करता है जबकि इसे [-1,1] तक स्केल करता है और इसमें समस्या नहीं होती है (x-mean)/sd।