版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、基于R的根本統(tǒng)計分析內(nèi)容提要描畫統(tǒng)計頻數(shù)表分析方差分析t檢驗卡方檢驗線性回歸相關(guān)分析描畫分析(Descriptive statistics)描畫統(tǒng)計就是把數(shù)據(jù)集所包含的信息加以簡要地概略,如計算數(shù)據(jù)的數(shù)字特征、制造頻數(shù)表和頻數(shù)圖等等,用所獲得的統(tǒng)計量和圖表來描畫數(shù)據(jù)集所反映的特征和規(guī)律,使得研討的問題更加簡單、直觀。 描畫性統(tǒng)計主要包括反映數(shù)據(jù)集中趨勢的特征值(比如平均數(shù)、中位數(shù)、眾數(shù)、分位數(shù))、數(shù)據(jù)離散程度的特征值(比如方差、規(guī)范差、值域、變異系數(shù))和數(shù)據(jù)分布形狀的特征值(比如偏度、峰度)。 規(guī)范差std.dev和規(guī)范誤SE.mean規(guī)范差std.dev真實均值SE樣本均值當樣本含量 n 足
2、夠大時,規(guī)范差趨向穩(wěn)定;而規(guī)范誤隨n的增大而減小,甚至趨于0 。 規(guī)范差std.dev和規(guī)范誤SE.mean 比如,某學校共有500名學生,如今要經(jīng)過抽取樣本量為30的一個樣本,來推斷學生的身高。這時可以根據(jù)抽取的樣本信息,計算出樣本的均值與規(guī)范差。假設(shè)我們抽取的不是一個樣本,而是10個樣本,每個樣本30人,那么每個樣本都可以計算出均值,這樣就會有10個均值。也就是構(gòu)成了一個10個數(shù)字的數(shù)列,然后計算這10個數(shù)字的規(guī)范差,此時的規(guī)范差就是規(guī)范誤。但是,在實踐抽樣中我們不能夠抽取10個樣本。所以,規(guī)范誤就由樣本規(guī)范差除以樣本量來表示。當然,這樣的結(jié)論也不是隨心所欲,而是經(jīng)過了統(tǒng)計學家的嚴密證明的
3、。 SE.mean= std.dev / n1/2在實踐的運用中,規(guī)范差主要有兩點作用,一是統(tǒng)計量樣本離散程度的表征;二是用來對樣本進展規(guī)范化處置,即樣本察看值減去樣本均值,然后除以規(guī)范差,這樣就變成了規(guī)范正態(tài)分布。規(guī)范誤的作用主要是用來做區(qū)間估計,常用的估計區(qū)間是均值加減n倍的規(guī)范誤例如95%的置信區(qū)間是:均值+1.96*SE規(guī)范差std.dev和規(guī)范誤SE.mean95% CI:假設(shè)上面這個隨機抽樣估計學生身高的例子,抽樣100次,每次抽10個學生丈量身高,均值估計值及規(guī)范誤為 152cm12cm。但有時需求表示為估計量的95%的置信區(qū)間152cm-1.96*12cm,152cm+1.96
4、*12cm??梢越忉尀?,假設(shè)從再從總體中抽樣100次每次抽樣10個,產(chǎn)生100個平均值,這100個平均值將有95次落在152cm-1.96*12cm,152cm+1.96*12cm這個范圍內(nèi),5次落在這個范圍外,假設(shè)抽樣次數(shù)越多,這個推斷越準確。這個來源于中心極限定理的運用:任何分布(總體)抽樣n次,每次抽樣的和符合正態(tài)分布。通俗一點說, 不論是學校的學生身高是怎樣分布, 每次隨機抽取10個求和, 抽取n次,這n個身高總和是符合正態(tài)分布的。平均身高為身高總和除于10,所以平均身高也是正態(tài)分布的。正態(tài)分布雙尾95%的分界點所對應(yīng)的值剛好是1.96。峰度Kurtosis峰度Kurtosis是描畫某
5、變量一切取值分布形狀陡緩程度的統(tǒng)計量。 它是和正態(tài)分布相比較的。Kurtosis=0 與正態(tài)分布的陡緩程度一樣。Kurtosis0 比正態(tài)分布的頂峰更加峻峭尖頂Kurtosis0 正偏向數(shù)值較大,為正偏或右偏。長尾巴拖在右邊Skewness0 負偏向數(shù)值較大,為負偏或左偏。長尾巴拖在左邊計算公式:Skewness 越大,分布形狀偏移程度越大頻數(shù)表(Frequency table)分析 頻數(shù)表分析是對數(shù)據(jù)集按數(shù)據(jù)范圍分成假設(shè)干區(qū)間,即分成假設(shè)干組,求出每組組中值,各組數(shù)據(jù)用組中值替代,計算各組數(shù)據(jù)的頻數(shù),并作出頻數(shù)表。 頻數(shù)表分析例子summary(oats$yield)# 計算頻數(shù)A - ta
6、ble(cut(oats$yield, breaks = 40 + 20 * (0:7) round(prop.table(A) * 100,2) # 計算頻數(shù)比例# 畫頻數(shù)表hist(oats$yield, # breaks = 7, xlim = c(40,180), xlab = yield, main = Frequency chart of yield)方差分析ANOVA方差分析是一種在假設(shè)干組能相互比較的實驗數(shù)據(jù)中,把產(chǎn)生變異的緣由加以區(qū)分的方法與技術(shù),其主要用途是研討外界要素或?qū)嶒灄l件的改動對實驗結(jié)果影響能否顯著。類型:單要素方差分析(One-way ANOVA)、雙要素方差分析
7、(Two-way ANOVA) 。方差分析的根本模型是線性模型,并假設(shè)隨機變量是獨立、正態(tài)和等方差的。方差分析是根據(jù)平方和的加和原理,利用 F 檢驗,進而判別實驗要素對實驗結(jié)果的影響能否顯著。單要素方差分析# Tukey HSD 方法 #install.packages(multcomp)library(multcomp)tuk - glht(fit, linfct = mcp(Treat = Tukey)summary(tuk) # standard displaytuk.cld - cld(tuk) # letter-based displayopar chisq.test(freq,p=
8、probs) Chi-squared test for given probabilitiesdata: freqX-squared = 6.7, df = 5, p-value = 0.2423卡方檢驗28x = c(100,110,80,55,14)probs = c(29, 21, 17, 17, 16)/100 chisq.test(x,p=probs) chisq.test(x,p=probs) Chi-squared test for given probabilitiesdata: xX-squared = 55, df = 4, p-value = 2.685e-11卡方檢驗列
9、聯(lián)表29yesbelt = c(12813,647,359,42)nobelt = c(65963,4000,2642,303)chisq.test(data.frame(yesbelt,nobelt) chisq.test(data.frame(yesbelt,nobelt) Pearsons Chi-squared testdata: data.frame(yesbelt, nobelt)X-squared = 59, df = 3, p-value = 8.61e-13練習四以數(shù)據(jù)stu.data.csv為例,試對體重做頻數(shù)分析。請分析身高能否符合正態(tài)分布?試分析性別對體重有無影響。問題
10、4:請檢驗總體平均體重與60kg有無顯著差別?男生和女生的平均體重有無顯著差別?問題5:男女生比例能否符合 1.2 : 1.0?練習四 答案df-read.csv(file=stu.data.csv,header=T)#問題1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 計算頻數(shù)比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#問題2sh
11、apiro.test(df$height)#問題3fit-aov(weight Sex,data=df)summary(fit)library(agricolae)duncan.test(fit, Sex, alpha=0.05)$groups#問題4t.test(df$weight, mu = 60, alternative = two.sided)wt.m-subset(df$weight,df$Sex=男)wt.f-subset(df$weight,df$Sex=女)var.test(wt.m,wt.f) #等方差檢驗t.test(wt.m,wt.f, paired=F) #問題5sum
12、mary(df$Sex)ct-c(87, 33)pt 0,公式是有效的。多項式回歸fit - lm( weight N + I(N2), data = df ) # 二次項回歸模型 summary( fit ) # 回歸分析結(jié)果 plot( df$N, df$weight ) # 繪制散點圖 lines( df$N, fitted(fit) ) # 添加回歸線 添加光滑曲線require(graphics)plot(cars, main = lowess(cars)lines(cars)lines(lowess(cars), col = 2)多元線性逐漸回歸最優(yōu)線性回歸方程為: y= -649
13、.779 + 14.592x1 + 6.841x2 + 9.329x3 回歸方程闡明:對于川農(nóng) 16 號小麥而言,當 x2 和 x3 固定時,穗數(shù) x1 每添加 1萬/畝,產(chǎn)量 y 將平均添加 14.592Kg/畝;當 x1 和 x3 固定時,每穗粒數(shù) x2 每添加 1粒,產(chǎn)量 y 將平均添加 6.841Kg/畝;當 x1 和 x2 固定時,千粒重 x3 每添加 1g,產(chǎn)量y 將平均添加 9.329 Kg/畝。自變量的作用主次第一種方法:計算通徑系數(shù)(path coefficient, p)。df.2 - as.data.frame( scale(df) ) #對數(shù)據(jù)集做規(guī)范化處置 lmfit
14、 round(coef(lmfit),3) (Intercept) x1 x2 x3 0.000 0.777 0.410 0.609 第二種方法:根據(jù) x1、x2、x3 回歸系數(shù)的 t 值大小,也可判別自變量 x 的主次順序,凡是 t 值較大者就是較重要的因子。結(jié)論:自變量 x 的主次順序為:穗數(shù) x1 千粒重 x3 每穗粒數(shù) x2。交互作用多元線性回歸練習四以數(shù)據(jù)stu.data.csv為例,試對體重做頻數(shù)分析。請分析身高能否符合正態(tài)分布?試分析性別對體重有無影響。問題4:請檢驗總體平均體重與60kg有無顯著差別?男生和女生的平均體重有無顯著差別?問題5:男女生比例能否符合 1.2 : 1.
15、0?練習四 答案df-read.csv(file=stu.data.csv,header=T)#問題1A - table(cut(df$weight, breaks = 40 + 15 * (0:7) round(prop.table(A) * 100,2) # 計算頻數(shù)比例hist(df$weight, breaks = 7, xlim = c(40,140), xlab = weight, main = Frequency chart of weight)#問題2shapiro.test(df$height)#問題3fit-aov(weight Sex,data=df)summary(fi
16、t)library(agricolae)duncan.test(fit, Sex, alpha=0.05)$groups#問題4t.test(df$weight, mu = 60, alternative = two.sided)wt.m-subset(df$weight,df$Sex2=1)wt.f-subset(df$weight,df$Sex2=2)var.test(wt.m,wt.f) #等方差檢驗t.test(wt.m,wt.f, paired=F) #問題5summary(df$Sex)ct-c(87, 33)pt corr.test(df, use = complete)Call
17、:corr.test(x = df, use = complete)Correlation matrix h dbh v cpro wd wpro tl tw lrth 1.00 0.86 0.90 -0.43 -0.29 0.32 -0.20 -0.04 -0.17dbh 0.86 1.00 0.98 -0.41 -0.35 0.39 -0.18 -0.15 -0.07v 0.90 0.98 1.00 -0.43 -0.38 0.43 -0.20 -0.11 -0.12cpro -0.43 -0.41 -0.43 1.00 0.22 -0.25 0.18 -0.08 0.20wd -0.29
18、 -0.35 -0.38 0.22 1.00 -0.98 -0.09 -0.08 0.00wpro 0.32 0.39 0.43 -0.25 -0.98 1.00 0.02 -0.02 0.01tl -0.20 -0.18 -0.20 0.18 -0.09 0.02 1.00 0.16 0.79tw -0.04 -0.15 -0.11 -0.08 -0.08 -0.02 0.16 1.00 -0.47lrt -0.17 -0.07 -0.12 0.20 0.00 0.01 0.79 -0.47 1.00Sample Size 1 30Probability values (Entries ab
19、ove the diagonal are adjusted for multiple tests.) h dbh v cpro wd wpro tl tw lrth 0.00 0.00 0.00 0.53 1.00 1.00 1.00 1.00 1.00dbh 0.00 0.00 0.00 0.63 1.00 0.85 1.00 1.00 1.00v 0.00 0.00 0.00 0.53 0.92 0.53 1.00 1.00 1.00cpro 0.02 0.02 0.02 0.00 1.00 1.00 1.00 1.00 1.00wd 0.12 0.06 0.04 0.24 0.00 0.00 1.00 1.00 1.00wpro 0.08 0.03 0.02 0.18 0.00 0.00 1.00
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年溫室大棚施工與智能化溫室設(shè)施維護保養(yǎng)合同3篇
- 二零二五版朝陽區(qū)校園保安服務(wù)與校園食品安全合同3篇
- 2025年度高端健身器材租賃服務(wù)合同3篇
- 2025年度消防報警系統(tǒng)安裝及調(diào)試服務(wù)合同范本6篇
- 2025年度新型環(huán)保材料銷售代理合作協(xié)議4篇
- 二零二五年度抹灰工程施工安全防護合同4篇
- 工程保證金合同(2篇)
- 土工施工方案
- 2025年度新能源汽車電池殼體模具研發(fā)制造合同4篇
- 2025年上海市閔行區(qū)中考數(shù)學一模試卷
- 2025中國人民保險集團校園招聘高頻重點提升(共500題)附帶答案詳解
- 重癥患者家屬溝通管理制度
- 法規(guī)解讀丨2024新版《突發(fā)事件應(yīng)對法》及其應(yīng)用案例
- 銷售提成對賭協(xié)議書范本 3篇
- 勞務(wù)派遣招標文件范本
- 信息安全意識培訓課件
- Python試題庫(附參考答案)
- 碳排放管理員 (碳排放核查員) 理論知識考核要素細目表三級
- 小學二年級數(shù)學口算練習題1000道
- 納布啡在產(chǎn)科及分娩鎮(zhèn)痛的應(yīng)用
評論
0/150
提交評論