數(shù)據(jù)統(tǒng)計(jì)分析初級(jí)統(tǒng)計(jì)及回歸分析顧世梁1.ppt_第1頁
數(shù)據(jù)統(tǒng)計(jì)分析初級(jí)統(tǒng)計(jì)及回歸分析顧世梁1.ppt_第2頁
數(shù)據(jù)統(tǒng)計(jì)分析初級(jí)統(tǒng)計(jì)及回歸分析顧世梁1.ppt_第3頁
數(shù)據(jù)統(tǒng)計(jì)分析初級(jí)統(tǒng)計(jì)及回歸分析顧世梁1.ppt_第4頁
數(shù)據(jù)統(tǒng)計(jì)分析初級(jí)統(tǒng)計(jì)及回歸分析顧世梁1.ppt_第5頁
已閱讀5頁,還剩60頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)統(tǒng)計(jì)分析 初級(jí)統(tǒng)計(jì)及回歸分析 顧世梁 2008.09,生物統(tǒng)計(jì)是關(guān)于試驗(yàn)的設(shè)計(jì)、實(shí)施,數(shù)據(jù)的收集、整理、分析和結(jié)果推論的科學(xué)。 從事試驗(yàn)研究,需要對(duì)處理(措施、技術(shù))的效應(yīng)給出一個(gè)明確的結(jié)論(顯著與否)。 推論是先對(duì)研究對(duì)象的總體提出一種假設(shè)(hypothesis),再對(duì)該假設(shè)進(jìn)行測驗(yàn)(test)以計(jì)算在假設(shè)總體中抽得實(shí)際樣本(統(tǒng)計(jì)數(shù))的概率來判斷。,1.1 二項(xiàng)總體分布 (0,1 分布) 若一個(gè)總體由0,1兩種元素組成,這樣的總體稱0,1總體。若取1的概率為p,記為P(1)=p,則P(0)=1-p=q,p+q=1.,1 幾種常見的分布 概率計(jì)算比較復(fù)雜,生物統(tǒng)計(jì)中所用的概率計(jì)算主要利用變數(shù)分布進(jìn)行。,1.2 二項(xiàng)分布(binomial distribution) 二項(xiàng)分布是指在=p的二項(xiàng)總體中,以樣本容量n進(jìn)行抽樣,樣本總和數(shù) k (0kn)的概率分布。,1.3 普松分布(poisson distribution) 若n很大,p很小,其np=m,二項(xiàng)概率分布趨于普松分布。,1.4 正態(tài)分布(normal distribution) 若p接近0.5,n很大,二項(xiàng)概率分布趨于正態(tài)分布。,正態(tài)分布是最重要的連續(xù)性變數(shù)的分布,原因有3: 1、試驗(yàn)研究中很多變數(shù)(性狀)服從正態(tài)分布; 2、一些間斷性變數(shù)在一定條件下趨于正態(tài)分布; 3、一些變數(shù)本身不服從正態(tài),但其統(tǒng)計(jì)數(shù)(如平均數(shù))在一定條件下(樣本容量增大時(shí))趨于正態(tài)分布。 這第3點(diǎn)是一個(gè)很重要的性質(zhì),因?yàn)槲覀儗韺?duì)處理效應(yīng)的推斷,往往是以平均數(shù)(或其它統(tǒng)計(jì)數(shù))進(jìn)行的。在對(duì)樣本容量較大的統(tǒng)計(jì)數(shù)進(jìn)行統(tǒng)計(jì)推斷時(shí),可不必考慮原變數(shù)服從何種分布,統(tǒng)計(jì)假設(shè)測驗(yàn)均可在正態(tài)分布的基礎(chǔ)上進(jìn)行。,了解一個(gè)變數(shù)(或一個(gè)統(tǒng)計(jì)數(shù))服從某種分布,其目標(biāo)是為了計(jì)算該變數(shù)(統(tǒng)計(jì)數(shù))落在某一區(qū)間的概率。P(axb)=?,1.5 學(xué)生氏 t 分布( t distribution),標(biāo)準(zhǔn)正態(tài)離差,服從正態(tài)分布。,上述u分布在實(shí)際應(yīng)用中存在問題,最主要的是無法得到,人們自然想到用樣本標(biāo)準(zhǔn)差 s 代替 計(jì)算u值,進(jìn)而計(jì)算概率(假設(shè)測驗(yàn))。但經(jīng)抽樣試驗(yàn)發(fā)現(xiàn),這種替代是有問題的,尤其是在小樣本情況下,s 的變異度較大(而是常量)。它直接的效果是由此算出的值比 u 的變異度大。后經(jīng)WS Gosset (1908)導(dǎo)出了該統(tǒng)計(jì)數(shù)(t)的概率密度函數(shù) f(t)。,1.6 卡方分布(2 distribution),1.7 F分布( F distribution, RA Fisher, 1923),2 統(tǒng)計(jì)假設(shè)測驗(yàn) 2.1 概念和基本步驟 我們?cè)谠囼?yàn)過程中獲得了一個(gè)或多個(gè)樣本(統(tǒng)計(jì)數(shù)),其目的在于推斷由此代表的總體(參數(shù))。得出處理效應(yīng)存在與否的定性結(jié)論。基本過程有4步: 1)對(duì)未知總體(參數(shù))提出假設(shè) H0:=0, HA: 0; H0: = 0, HA: 0 ; 2)設(shè)定一個(gè)否定H0假設(shè)的小概率標(biāo)準(zhǔn)(顯著水平) ( =0.05, =0.01 ); 3)計(jì)算在假設(shè)條件下比實(shí)得樣本(統(tǒng)計(jì)數(shù))還偏的概率p。 4)根據(jù)p與值的大小,接受或否定H0假設(shè)。,2.2 幾種常用的假設(shè)測驗(yàn),指的是該統(tǒng)計(jì)數(shù)的標(biāo)準(zhǔn)誤,亦即該統(tǒng)計(jì)數(shù)分布的標(biāo)準(zhǔn)差。,ttest(x, m0) ttest2(x1, x1),2.3 假設(shè)測驗(yàn)的本質(zhì) 1)顯著性,的大小是決定統(tǒng)計(jì)數(shù)與假設(shè)參數(shù)間、統(tǒng)計(jì)數(shù)間差異顯著性的主要因素。試驗(yàn)研究中應(yīng)盡量減小統(tǒng)計(jì)數(shù)的標(biāo)準(zhǔn)誤。一是減小試驗(yàn)誤差(s);二是增大樣本容量(n)。,2)假設(shè)測驗(yàn)的錯(cuò)誤 利用概率進(jìn)行測驗(yàn),有些情況下會(huì)犯錯(cuò)誤。當(dāng)正確的假設(shè)被否定時(shí),就犯了棄真錯(cuò)誤(I型錯(cuò)誤, 錯(cuò)誤);當(dāng)錯(cuò)誤的假設(shè)被接受時(shí),就犯了取偽錯(cuò)誤(II型錯(cuò)誤, 錯(cuò)誤)。犯兩類錯(cuò)誤的概率不同。,3 方差分析 方差分析是將多個(gè)樣本作為一個(gè)整體,將總變異分解成相應(yīng)變異來源的平方和和自由度,得到各變異來源方差的數(shù)量估計(jì),用F測驗(yàn)鑒別樣本間的差異顯著性。分三個(gè)內(nèi)容: 1)分解平方和自由度,計(jì)算各變異來源的方差;其中MSe(或se)比較重要,它是測驗(yàn)組間效應(yīng)存在與否的標(biāo)準(zhǔn); 2)F測驗(yàn), F=MSt/MSe; 3)多重比較,當(dāng)F測驗(yàn)顯著,應(yīng)對(duì)處理平均數(shù)的差異顯著性作進(jìn)一步說明。,3.1 單向分組資料的方差分析,xij為第i個(gè)處理的第j個(gè)觀察值,i=1,2,k, j=1,2,n.,Data structure,方差分析結(jié)果盡量以方差分析表表示。anova1(x),3.2 兩向分組資料的方差分析,xij為A因素第i個(gè)水平和B因素第j個(gè)水平組合(處理)的反應(yīng)量,i=1,2,k; j=1,2,n.,Data structure,Anova2(x),或anova2(x,n)。,3.3 系統(tǒng)分組資料的方差分析,xijk為第i組、第j亞組、第k個(gè)反應(yīng)量,i=1, 2, , l; j=1,2,m;k=1, 2, , n.,Data structure,xijk,較復(fù)雜的系統(tǒng)分組資料還可能在亞組中繼續(xù)再分成小亞組(小小亞組);每一組具有不同的亞組數(shù)(mi不全相同),每一亞組具有不完全相同的觀察值數(shù)目(nij不全相同)。,xijk為第i 組,第j亞組,第k個(gè)(處理)的反應(yīng)量,i=1, 2, , l; j=1,2,mi;k=1, 2, , nij.,3.4 單因素完全隨機(jī)試驗(yàn)資料的分析 即單向分組資料的方差分析。 3.5 單因素隨機(jī)區(qū)組試驗(yàn)資料的分析 即兩向分組資料的方差分析。 3.6 二因素隨機(jī)區(qū)組試驗(yàn)資料的分析 A因素有a個(gè)水平,B因素有b個(gè)水平,均衡搭配時(shí)有ab個(gè)處理;r個(gè)重復(fù)(r個(gè)區(qū)組),abr個(gè)觀察值。方差分析分兩步:,1)構(gòu)建處理區(qū)組兩向表,按處理區(qū)組兩向分組數(shù)據(jù)模型分解平方和、自由度:,2)構(gòu)建AB兩向表,按AB因素兩向分解平方和、自由度。,二因素、多因素完全隨機(jī)試驗(yàn)、隨機(jī)區(qū)組試驗(yàn)資料的方差分析均可用anovan的命令實(shí)現(xiàn)。 格式:anovan(x, group, model),Anovan (多因素資料的方差分析) Anovan(x, group, model) 三因素 model=1 2 3 4 5 6 7 (三因素方差分析編碼表),四因素方差分析編碼表(model),3.7 一些處理效應(yīng)再分解的方差分析 1)單一自由度比較; 2)其他分解的一些實(shí)例。 Lsh.m; cg.m.,如例8.1(水稻N肥試驗(yàn)),5個(gè)處理(ABCDE)具有SSt=301.2,dft=4,可將其進(jìn)一步分解:,ABCD vs E df1=1, SS1=198.45;AB vs CD df2=1, SS2=72.25 A vs B df3=1, SS3=12.5; C vs D df4=1, SS4=18.0,4 回歸和相關(guān)分析 4.1 一元線性回歸分析 對(duì)于雙變數(shù)資料的回歸分析,主要有三項(xiàng)任務(wù): 1)建立 Y 依 X 的量化關(guān)系,即估計(jì)回歸統(tǒng)計(jì)數(shù)和回歸方程; 2)估計(jì)離回歸誤差,對(duì)回歸方程和回歸統(tǒng)計(jì)數(shù)進(jìn)行統(tǒng)計(jì)假設(shè)測驗(yàn); 3)回歸方程的進(jìn)一步利用。,模型:,據(jù):,對(duì)Q分別對(duì)a、b求偏導(dǎo)并 使其為0,得正規(guī)方程組:,解得:,4.2 回歸分析的矩陣方法,回歸分析是用最小二乘法(least squares method)估計(jì)回歸統(tǒng)計(jì)數(shù)B=(a, b),使離回歸平方和(Q, RSS)最?。?實(shí)例和matlab命令集 clear; clc x=1.58, 9.98, 9.42, 1.25, .30, 2.41, 11.01, 1.85, 6.04, 5.92 y=180, 28, 25, 117, 165, 175, 40, 160, 120, 80 x=x(:); y=y(:); n=size(y,1); SSy=var(y)*(n-1); SSx=var(x)*(n-1); xbar=mean(x); ybar=mean(y); X=ones(n,1),x; A=X*X; K=X*y; SumX=A(1,2); SumY=K(1); SumX2=A(2,2); SumXY=K(2); SP=SumXY-SumX*SumY/n C=inv(A), B=AK, B=C*K, B=X*XX*y, b=Xy Q=y*y-B*K, U=SSy-Q, MSQ=Q/(n-2), syx=sqrt(MSQ) F=U/MSQ; p=1-fcdf(F,1,n-2); disp(F=,num2str(F), p=,num2str(p) sa=syx*sqrt(C(1,1), sb=syx*sqrt(C(2,2) ta=b(1)/sa; pa=2*tcdf(-abs(ta),n-2); disp(ta=,num2str(ta), p=,num2str(pa) tb=b(2)/sb; pb=2*tcdf(-abs(tb),n-2); disp(tb=,num2str(tb), p=,num2str(pb) r=corr(x,y), r2=SP2/SSx/SSy sr=sqrt(1-r2)/(n-2), tr=r/sr,4.3 多元線性回歸分析,當(dāng)其中的自變數(shù)不顯著時(shí),應(yīng)將其剔除。剔除的過程應(yīng)采用逐步回歸的方法,即每次剔除一個(gè)偏回歸平方和最小且不顯著的自變數(shù),直至所有的自變數(shù)均顯著(下同)。,實(shí)例和matlab命令集 clear;clc,alpha=.05; x1=10, 9, 10, 13, 10, 10, 8, 10, 10, 10, 10, 8, 6, 8, 9; x2=23, 20, 22, 21, 22, 23, 23, 24, 20, 21, 23, 21, 23, 21, 22; x3=3.6,3.6,3.7,3.7,3.6,3.5,3.3,3.4,3.4,3.4,3.9,3.5,3.2,3.7,3.6; x4=113, 106,111,109,110,103,100,114,104,110,104,109,114,113,105; y=15.7,14.5,17.5,22.5,15.5,16.9,8.6,17,13.7,13.4,20.3,10.2,7.4,11.6,12.3; x=x1,x2,x3,x4; load regm %x=rand(100,40);y=rand(100,1); %data=xlsread(regm); y=data(:,end);data(:,end)=;x=data;data=; %data=load(regm.csv); y=data(:,end);data(:,end)=;x=data;data=; n,m=size(x);SSy=var(y)*(n-1); X=ones(n,1),x; A=X*X;K=X*y;C=inv(A) b=AK,%b=C*K,b=X*XX*y,b=Xy Q=y*y-b*K,U=SSy-Q,MSQ=Q/(n-m-1),syx=sqrt(MSQ) Fm=U/m/MSQ; p=1-fcdf(Fm,m,n-m-1);disp(Fm=,num2str(Fm), p=,num2str(p) Up=b.*b./diag(C);Up(1)=; F=Up/MSQ, pr=1-fcdf(F,1,n-m-1),for i=1:m if i=alpha qi=find(F=min(F); pr=1-fcdf(min(F),1,n-m-1); if pr=alpha disp(num2str(qi), ,num2str(min(F), del ,tr(qi,:) tr(qi,:)=; X(:,qi+1)=; m=m-1; end A=X*X; K=X*y; b=Xy; Q=y*y-b*K; MSQ=Q/(n-m-1); C=inv(A); Up=b.*b./diag(C);Up(1)=; F=Up/MSQ; pr=1-fcdf(F,1,n-m-1); end,disp(Last Results:) disp( Xi bi Upi Fi pFi) disp(X0 ,num2str(b(1) for i=1:m disp(tr(i,:), ,num2str(b(i+1), ,num2str(Up(i), , num2str(F(i), ,num2str(pr(i) end disp(Error ,num2str(n-m-1), ,num2str(Q), ,num2str(MSQ) disp(Total ,num2str(n-1), num2str(SSy) r2=(SSy-Q)/SSy,多元線性回歸分析的有關(guān)假定與注意事項(xiàng): 假定1:誤差是正態(tài)分布的; 假定2:每一自變數(shù)對(duì)依變數(shù)的作用僅為線性。 假定2不滿足對(duì)回歸結(jié)果影響較大。 注意1:自變數(shù)個(gè)數(shù)(m)必須少于觀察值組數(shù)(n); 注意2:避免自變數(shù)共線性情形,共線性指變數(shù)間高度相關(guān)或一個(gè)變數(shù)是其他變數(shù)的線性組合。 若結(jié)構(gòu)陣不滿秩,信息陣是奇異或病態(tài)的,逆陣不存在或有很大偏差,無法求解回歸系數(shù)或有很大誤差,難于對(duì)回歸模型及回歸統(tǒng)計(jì)數(shù)進(jìn)行客觀真實(shí)的假設(shè)測驗(yàn)?;貧w分析無法進(jìn)行,或所得結(jié)果不可信。,4.4 一元線性相關(guān)分析 計(jì)算X、Y相關(guān)性質(zhì)和程度的統(tǒng)計(jì)數(shù)相關(guān)系數(shù)r,4.5 多元線性相關(guān)分析 計(jì)算m個(gè)變數(shù)X(Y)的(簡單)相關(guān)系數(shù)rij:,4.6 多元偏相關(guān)分析 m個(gè)變數(shù)X(Y)在其它變數(shù)皆固定在某一水平時(shí),余下兩個(gè)變數(shù)間的相關(guān)稱為偏相關(guān)。,4.7 通徑分析 計(jì)算m個(gè)自變數(shù) Xj 與 Y 關(guān)系的相對(duì)重要性,可用直接通徑系數(shù)pj表示。,4.8 一元多項(xiàng)式回歸分析 計(jì)算1個(gè)自變數(shù) X與 Y 的多項(xiàng)式回歸也很常見。,m為模型中Xj冪的項(xiàng)數(shù)。,Up1, Up2, Up3, Up4 分別為線性(linear), 二次(Quadratic), 三次(cubic), 四次(4th degree)響應(yīng)(response).,一元多項(xiàng)式回歸分析的幾點(diǎn)注意: 1) 隨著k的增加,回歸平方和增加,離回歸平方和減小,k不應(yīng)超過n-2。當(dāng)k=n-1時(shí),離回歸平方和等于0(即所有的點(diǎn)都在線上)。但這并非很好,若用此方程進(jìn)行預(yù)測(中間插值或外推)可能會(huì)相差很遠(yuǎn)。因此,合適的高次冪應(yīng)由適當(dāng)?shù)呐袛嗪蜏y驗(yàn)所決定。從數(shù)學(xué)關(guān)系可知,2次式?jīng)]有拐點(diǎn);3次式有一個(gè)拐點(diǎn);4次式有兩個(gè)拐點(diǎn);及此類推。 2)多項(xiàng)式方程的假設(shè)測驗(yàn)一般先對(duì)最高次冪進(jìn)行,若不顯著時(shí)順次向下測驗(yàn);在最高次冪確定保留的前提下,再對(duì)其他項(xiàng)的保留(或刪除)進(jìn)行鑒別。,上述一元線性、多元線性、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論