2013-01-07 18 views
6

मेरे पास एक डेटा सेट है जहां नमूनों को कॉलम द्वारा समूहीकृत किया जाता है। निम्न नमूना डाटासेट अपने डेटा के प्रारूप के समान है:कॉलम द्वारा आयोजित नमूनों के साथ आर में एकल कारक ANOVA कैसे करें?

a = c(1,3,4,6,8) 
b = c(3,6,8,3,6) 
c = c(2,1,4,3,6) 
d = c(2,2,3,3,4) 

mydata = data.frame(cbind(a,b,c,d)) 

जब मैं एक एकल कारक Excel में एनोवा ऊपर डेटासेट का उपयोग करके करते हैं, मैं निम्नलिखित परिणाम प्राप्त:

enter image description here

मैं एक पता

group measurement 
a  1 
a  3 
a  4 
.  . 
.  . 
.  . 
d  4 

और आदेश आर में एनोवा प्रदर्शन करने के लिए aov(group~measurement, data = mydata) उपयोग करने के लिए किया जाएगा: आर में विशिष्ट प्रारूप इस प्रकार है। मैं पंक्ति में बजाए कॉलम द्वारा व्यवस्थित नमूनों के साथ आर में एकल कारक एनोवा कैसे कर सकता हूं? दूसरे शब्दों में, मैं आर का उपयोग कर एक्सेल परिणामों को कैसे डुप्लिकेट करूं? सहायता के लिए बहुत धन्यवाद।

+1

डेटा दोबारा दोहराएं! – mnel

+2

आपको एनोवा कमांड गलत मिला है ... 'एओवी (मापन ~ समूह ...' – John

उत्तर

11

आप उन्हें लंबे प्रारूप में ढेर:

mdat <- stack(mydata) 
mdat 
    values ind 
1  1 a 
2  3 a 
3  4 a 
4  6 a 
5  8 a 
6  3 b 
7  6 b 
snipped output 

> aov(values ~ ind, mdat) 
Call: 
    aov(formula = values ~ ind, data = mdat) 

Terms: 
       ind Residuals 
Sum of Squares 18.2  65.6 
Deg. of Freedom 3  16 

Residual standard error: 2.024846 
Estimated effects may be unbalanced 

को देखते हुए चेतावनी यह सुरक्षित हो सकता है lm उपयोग करने के लिए:

> anova(lm(values ~ ind, mdat)) 
Analysis of Variance Table 

Response: values 
      Df Sum Sq Mean Sq F value Pr(>F) 
ind  3 18.2 6.0667 1.4797 0.2578 
Residuals 16 65.6 4.1000    
> summary(lm(values~ind, mdat)) 

Call: 
lm(formula = values ~ ind, data = mdat) 

Residuals: 
    Min  1Q Median  3Q Max 
-3.40 -1.25 0.00 0.90 3.60 

Coefficients: 
      Estimate Std. Error t value Pr(>|t|)  
(Intercept) 4.4000  0.9055 4.859 0.000174 *** 
indb   0.8000  1.2806 0.625 0.540978  
indc   -1.2000  1.2806 -0.937 0.362666  
indd   -1.6000  1.2806 -1.249 0.229491  
--- 
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 2.025 on 16 degrees of freedom 
Multiple R-squared: 0.2172, Adjusted R-squared: 0.07041 
F-statistic: 1.48 on 3 and 16 DF, p-value: 0.2578 

और मुझसे पूछते नहीं करते कृपया क्यों एक्सेल एक अलग जवाब देता है । जब आंकड़ों की बात आती है तो एक्सेल को आम तौर पर अत्यधिक अविश्वसनीय दिखाया गया है। ऑनस एक्सेल पर यह बताने के लिए है कि यह आर

टिप्पणियों के जवाब में संपादित करें: एक्सेल डेटा विश्लेषण पैक ANOVA प्रक्रिया आउटपुट बनाता है लेकिन यह उस प्रक्रिया के लिए Excel फ़ंक्शन का उपयोग नहीं करता है, इसलिए जब आप डेटा कक्षों में डेटा को बदलते हैं, जहां से इसे व्युत्पन्न किया गया था, और फिर F9, या समकक्ष मेनू पुनर्मूल्यांकन आदेश दबाएं, तो आउटपुट सेक्शन में कोई बदलाव नहीं होगा। यह और उपयोगकर्ता और संख्यात्मक समस्याओं के अन्य स्रोतों को सांख्यिकीय गणनाओं के साथ एक्सेल की समस्याओं का आकलन करने के लिए डेविड हेइज़र के प्रयासों के विभिन्न पृष्ठों में दस्तावेज किया गया है: http://www.daheiser.info/excel/frontpage.html हेइसर ने अपने प्रयासों को शुरू किया जो अब कम से कम एक दशक लंबा है, उम्मीद है कि माइक्रोसॉफ्ट जिम्मेदारी लेगा इन त्रुटियों के लिए, लेकिन उन्होंने लगातार त्रुटियों की पहचान करने और बेहतर प्रक्रियाओं का सुझाव देने के लिए अपने और दूसरों के प्रयासों को अनदेखा कर दिया है। बीडी मैककुलो द्वारा संपादित June 2008 issue of "Computational Statistics & Data Analysis" में 6 अनुभाग विशेष रिपोर्ट भी थी जिसमें एक्सेल के साथ विभिन्न सांख्यिकीय चिंताओं को शामिल किया गया था।

+0

सामान्य रूप से जब आप इतनी बड़ी गलतियों के लिए सॉफ्टवेयर खराब करते हैं, तो यह आपकी गलती है :-) परिणाम अलग हैं क्योंकि आप बेवकूफ डिफ़ॉल्ट उपचार का उपयोग करते हैं विपरीत है। उन्हें सारांश (एलएम (मान ~ 0 + इंड, एमडीएटी) द्वारा बंद करें) ' – TMS

+0

मैं एफ-आंकड़े का जिक्र कर रहा था। यह सच है कि विभिन्न विरोधाभासों के साथ अनुमान अलग-अलग दिखाई दे सकते हैं। और जब मैं सूत्र को बदलता हूं जैसा कि आप सुझाव देते हैं, तब भी मुझे एक्सेल के लिए पोस्ट किए गए एक से अलग जवाब मिलता है जैसा कि सिर 4.4 +8 में साधनों की गणना करके भविष्यवाणी की जा सकती है, 'समूह बी' के औसत के लिए एक्सेल अनुमान के बराबर नहीं है '। –

+1

ऐसा इसलिए है क्योंकि उसने संभवतः एक टाइपो बनाया है, यदि आप इसे 'बी = सी (3,6,8,3,8)' में बदलते हैं और यह 5.6 को औसत के रूप में और 6.3 को भिन्नता के रूप में देता है, और एफ आंकड़े और पी- मूल्य भी अचानक फिट होगा। – TMS