2010-05-20 16 views
36

कोई व्यक्ति सांख्यिकीय रूप से बेवकूफ़ों को समझा सकता है कि Multiple R-squared और Adjusted R-squared के बीच क्या अंतर है?एकाधिक-स्क्वायर और एडजस्टेड आर-स्क्वायर के बीच एक अंतर-भिन्नतम वर्ग रिग्रेशन में अंतर क्या है?

v.lm <- lm(epm ~ n_days, data=v) 
print(summary(v.lm)) 

परिणाम:: इस प्रकार मैं एक एकल variate प्रतिगमन विश्लेषण कर रहा हूँ

Call: 
lm(formula = epm ~ n_days, data = v) 

Residuals: 
    Min  1Q Median  3Q  Max 
-693.59 -325.79 53.34 302.46 964.95 

Coefficients: 
      Estimate Std. Error t value Pr(>|t|)  
(Intercept) 2550.39  92.15 27.677 <2e-16 *** 
n_days  -13.12  5.39 -2.433 0.0216 * 
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom 
Multiple R-squared: 0.1746,  Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216 
+5

आंकड़े ओवरव्लो एक उत्कृष्ट विचार है। मुझे उम्मीद है कि किसी ने इसे एक नई स्टैक एक्सचेंज साइट के रूप में सुझाव दिया है। – neilfws

+2

जाओ और इसके लिए वोट दें: http://meta.stackexchange.com/questions/5547/proposal-for-statistics-data-mining-stackexchange-site – fmark

+4

आपका मतलब है http://www.crossvalidated.com (उर्फ http : //stats.stackexchange.com)? –

उत्तर

57

"समायोजन" में समायोजित R-squared चर की संख्या और टिप्पणियों की संख्या से संबंधित है।

यदि आप अपने मॉडल में चर (predictors) जोड़ते रहते हैं, तो आर-स्क्वायर में सुधार होगा - यानी भविष्यवाणियों में भिन्नता की व्याख्या होगी - लेकिन उनमें से कुछ सुधार अकेले मौके के कारण हो सकते हैं। इसलिए समायोजित आर-स्क्वायर इस अनुपात को सही करने के लिए प्रयास करता है, अनुपात (एन -1)/(एन-के -1) को ध्यान में रखते हुए, जहां एन = अवलोकनों की संख्या और के = चर के संख्या (भविष्यवाणियों)।

यह शायद आपके मामले में कोई चिंता नहीं है, क्योंकि आपके पास एक ही भिन्नता है।

कुछ संदर्भों:

  1. How high, R-squared?
  2. Goodness of fit statistics
  3. Multiple regression
  4. Re: What is "Adjusted R^2" in Multiple Regression
6

R-squared मॉडल में चर की संख्या पर निर्भर नहीं है। समायोजित आर-वर्ग है।

समायोजित आर-स्क्वायर उस मॉडल में चर जोड़ने के लिए जुर्माना जोड़ता है जो आपके द्वारा व्याख्या करने की कोशिश करने वाले चर के साथ असंबद्ध है। आप यह जांचने के लिए इसका उपयोग कर सकते हैं कि कोई वैरिएबल उस चीज़ से प्रासंगिक है जो आप समझाने की कोशिश कर रहे हैं।

एडजस्टेड आर-स्क्वायर आर-स्क्वायर है जो कुछ डिवीजनों के साथ मॉडल में चर की संख्या पर निर्भर करता है।

+0

नोट: एक प्रतिगमन के लिए भविष्यवाणियों को जोड़ना लगभग हमेशा आर-स्क्वायर बढ़ाएगा, भले ही यादृच्छिक नमूनाकरण के कारण केवल थोड़ी देर तक। –

+0

टाइ जेरोमी, मेरा मतलब है कि ऊपर जाने के बजाय "नीचे जाना" कहना है। मॉडल में एक नया चर जोड़ने के परिणामस्वरूप आर-स्क्वायर कभी नहीं गिर जाएगा। यदि कोई नया चर जोड़ा जाता है तो समायोजित आर-स्क्वायर ऊपर या नीचे जा सकता है। यह एक बुरा उदाहरण था, इसलिए मैंने इसे हटा दिया। – Jay

8

समायोजित आर-स्क्वायर आर 2 के मूल्य के करीब है, लेकिन इससे अलग है। वर्ग एसएसआर के समेकित योग और एसएसवाई के कुल योग के आधार पर होने के बजाय, यह समग्र भिन्नता (एक मात्रा जिसे हम आम तौर पर गणना नहीं करते हैं) पर आधारित है, एस 2 टी = एसएसवाई/(एन -1) और त्रुटि भिन्नता एमएसई (एनोवा टेबल से) और इस तरह से काम किया जाता है: समायोजित आर-स्क्वायर = (एस 2 टी - एमएसई)/एस 2 टी।

यह दृष्टिकोण स्पष्टीकरण चर जोड़ने के कारण फिट में सुधार का न्याय करने के लिए एक बेहतर आधार प्रदान करता है, लेकिन इसमें आर 2 के सरल संक्षेप में व्याख्या नहीं है।

अगर मैं एक गलती नहीं की है, तो आप इस प्रकार समायोजित R-squared और आर-वर्ग के मूल्यों को सत्यापित करना चाहिए:

s2T <- sum(anova(v.lm)[[2]])/sum(anova(v.lm)[[1]]) 
MSE <- anova(v.lm)[[3]][2] 
adj.R2 <- (s2T - MSE)/s2T 

दूसरी ओर, आर 2 है: एसएसआर/SSY, जहां एसएसआर = SSY - SSE

attach(v) 
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2) 
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2) 
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2) 
R2 <- SSR/SSY 
+0

अंतिम कोड बॉक्स में एक टाइपो है: 'deviance (v.lm) 'कॉल वास्तव में मॉडल' एसएसआर 'आउटपुट करेगा, जिसका अर्थ है कि' एसएसई <- (एसएसवाई - एसएसआर)'। 'एसएसवाई' के लिए, मॉडल को दोबारा किए बिना इसे पुनर्प्राप्त करने का एक आसान तरीका होगा: 'एसएसवाई <- योग (एनोवा (वीएलएम) $ "योग वर्ग") '। – landroni

+0

वास्तव में मेरा मतलब यह था कि समझाया गया एसएस के लिए 'एसएसआर' का उपयोग करना counterintuitive था, और' एसएसआर' अवशिष्ट एसएस को अधिक आसानी से दर्शाता है, जबकि एसएसई 'समझाया गया एसएस ... – landroni

+0

एसएसआर रिग्रेशन के कारण वर्गों का योग है। Rquares के अवशिष्ट रम "आरएसएस" है https://en.wikipedia.org/wiki/Explained_sum_of_squares –

2

ध्यान दें कि, भविष्य कहनेवाला चर की संख्या के अलावा, ऊपर समायोजित R-squared सूत्र भी नमूना आकार के लिए समायोजित करता है। एक छोटा नमूना एक भ्रामक रूप से बड़े आर-स्क्वायर देगा।

पिंग यिन & Xitao फैन, प्रायोगिक जे शिक्षा 69 (2): 203-224, "कई प्रतिगमन में आर-वर्ग संकोचन का आकलन", आर-वर्ग को एडजस्ट करने के लिए विभिन्न तरीकों तुलना करता है और निष्कर्ष निकाला है कि सामान्य रूप से प्रयुक्त ऊपर उद्धृत वाले लोग अच्छे नहीं हैं। वे ओल्किन & प्रैट फॉर्मूला की सलाह देते हैं।

हालांकि, मैंने कुछ संकेत देखा है कि इन सूत्रों में से किसी भी तुलना में आबादी का आकार बहुत बड़ा प्रभाव पड़ता है। मुझे विश्वास नहीं है कि इनमें से कोई भी सूत्र पर्याप्त पर्याप्त नमूना आकारों के साथ किए गए प्रतिगमन की तुलना करने के लिए पर्याप्त है (उदाहरण के लिए, 2,000 बनाम 200,000 नमूने; मानक सूत्र लगभग नमूना-आकार-आधारित समायोजन नहीं करेंगे)। मैं प्रत्येक नमूने पर आर-स्क्वायर की जांच करने के लिए कुछ क्रॉस-सत्यापन करता हूं।