




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、密度函數(shù)和分布函數(shù)2、分布函數(shù)的一般計算方法3、標準正態(tài)分布的計算方法4、統(tǒng)計工具箱的各種分布計算5、統(tǒng)計推斷原理6、非參數(shù)統(tǒng)計分析7、習題第三章分布函數(shù)的計算
1、密度函數(shù)和分布函數(shù)第三章分布函數(shù)的計算
1分布函數(shù)的計算在整個信息統(tǒng)計分析應用中起著基礎性的作用,當我們建立了某個統(tǒng)計模型后,會產(chǎn)生很多的統(tǒng)計量,用它們對某個假設進行檢驗。這時必須知道這些統(tǒng)計量的分布,某一點的概率、某概率的分位點。在學習概率論時我們已經(jīng)知道用查表的方法進行計算。本章介紹分布函數(shù)的計算方法,以及如何用MATLAB的統(tǒng)計工具箱計算各種分布的概率與分位點的計算。
分布函數(shù)的計算在整個信息統(tǒng)計分析應用中起著基礎21、密度函數(shù)和分布函數(shù)
密度函數(shù)和分布函數(shù)是反映隨機變量的總體規(guī)律的函數(shù),當一個變量X在沒有抽樣之前不知會有什么結果,但結果的范圍是知道的,這樣的變量稱為隨機變量。隨機變量可以分為:(1)連續(xù)型隨機變量(2)離散型隨機變量(1)連續(xù)型隨機變量隨機變量的結果空間是實數(shù),例如服從(0,1)上的均勻分布隨機數(shù)、人體身高隨機數(shù)等。例3.1.1續(xù)型隨機變量的例子:大學生男性身高X、隨機抽一個大學生量其身高得隨機變量的一個實現(xiàn),例如x=1.75米。則X是一個連續(xù)型的隨機變量。這種隨機變量服從正態(tài)分布。正態(tài)分布是統(tǒng)計分析中極其重要的分布。1、密度函數(shù)和分布函數(shù)密度函數(shù)和分布函數(shù)是反映3(2)離散型隨機變量當一個隨機變量X的結果空間有有限個元素或可列個元素時,稱該隨機變量為離散型隨機變量。例3.1.2離散型隨機變量的例設某汽車站7點到7點05分等車的人數(shù)為一變量X,顯然X可取值0,1,2,3,…。則X是一個離散型的隨機變量。事實上這種隨機變量稱為服從泊松分布規(guī)律的隨機變量。投一硬幣,正面為1,反面為0。記該隨機變量為X,則其結果空間為{0,1}。也是一個離散隨機變量。(一)密度函數(shù)和分布律隨機變量X在沒有發(fā)生時我們不知到,也不能預測其結果,看似隨機變量沒有規(guī)律。但是我們進行大量抽樣或實驗時,卻可以看見明顯的規(guī)律。(2)離散型隨機變量例3.1.2離散型隨機變量的例(一)4例3.1.3:對男性大學生隨機抽檢,共抽400名大學生測量其身高。將身高區(qū)間(1.50,2.1)分劃分成若干段,計算每段學生身高的數(shù)量,并作直方圖。%第三章,例3.1.3R=normrnd(1.7,0.1,400,1);%產(chǎn)生正態(tài)分布的隨機數(shù)histfit(R,12)%作直方圖并建立擬合曲線例3.1.3:對男性大學生隨機抽檢,共抽400名大學生測量5從例3.1.3可以看出,大學生身高的一些特點。1)首先身高在平均值附近的人數(shù)特別多。2)從直方圖中我們可以看出身高的趨勢具有對稱性。3)離平均值越遠數(shù)量越少。這是典型的正態(tài)分布的特點。可以想象當我們抽樣量增大應該有一個理論函數(shù)作為極限。密度函數(shù)(inv)稱這個理論函數(shù)為連續(xù)型隨機變量的密度函數(shù),上圖中的紅線所顯示的就是密度函數(shù)的圖形。在MATLAB這密度函數(shù)用inv來表示。正態(tài)分布的密度函數(shù)p表達式為:從例3.1.3可以看出,大學生身高的一些特點。正態(tài)分布的密度6其中參數(shù)::為平均值。是隨機變量中心趨勢的描述。:為標準差。是隨機變量離散程度的描述。分布律(inv)對于離散型隨機變量,分布律相當于連續(xù)型隨機變量的密度函數(shù)。例3.1.4:作泊松分布隨機變量的分布律圖形。這里為參數(shù),表示隨機變量的平均值和方差。其中參數(shù)::為標準差。是隨機變量離散程度的描述。分布律(7設平均值為5,算出0到10的分布律X=0:10;Y=poissinv(X,5);%計算泊松分布每點的概率stem(X,Y)%作分布律圖形設平均值為5,算出0到10的分布律X=0:10;8(二)分布函數(shù)cdf分布函數(shù)是對密度函數(shù)進行積分,其表達式為:分布函數(shù)函數(shù)具有以下性質(zhì):1)對任意x有2)單調(diào)不降,利用分布函數(shù)我們可以計算隨機變量X落在某一范圍的概率,或者說我們掌握了該隨機變量的規(guī)律了。連續(xù)型離散型(二)分布函數(shù)cdf分布函數(shù)是對密度函數(shù)進行積分,9例3.1.5:分別作出連續(xù)型和離散型隨機變量的inv和cdf(1)設男性大學生的身高X的平均值為1.7米,標準差為0.1米。作密度函數(shù)和分布函數(shù)。利用MATLAB中的正態(tài)分布norminv和normcdf命令進行計算X=linspace(1.4,2.1,100);P=normcdf(X,1.7,0.1);p=norminv(X,1.7,0.1);subplot(1,2,1),plot(X,p),title('身高密度函數(shù)')subplot(1,2,2),plot(X,P),title('身高分布函數(shù)')例3.1.5:分別作出連續(xù)型和離散型隨機變量的inv和10(2)設X服從均值為5的泊松分布,作分布律和分布函數(shù)圖形。X=0:10;Y=poissinv(X,5);Y1=poisscdf(X,5)subplot(1,2,1),stem(X,Y),title('泊松分布律')subplot(1,2,2),stairs(X,Y1),title('泊松分布函數(shù)')(2)設X服從均值為5的泊松分布,作分布律和分布函數(shù)圖形。X11(三)下側概率、上側概率和分位點
下側概率的定義:上側概率的定義:(三)下側概率、上側概率和分位點下側概率的定義:上側概率的定12利用分布函數(shù)我們可以計算隨機變量X落在某一范圍的概率,或者說我們掌握了該隨機變量的規(guī)律了。例如隨機變量X小于分位點的概率即下側概率,大于分位點的概率即上側概率。而隨機變量落入x1和x2之間的概率可用以下公式計算。利用分布函數(shù)我們可以計算隨機變量X落在某一范圍13例3.1.6:男性大學生身高X的平均值為1.7米,標準差為0.1米。1)計算身高小于1.8米大于1.6米發(fā)生的概率,即隨機變量X落入?yún)^(qū)間(1.6,1.8)的概率。2)求下側概率為0.95的分位點。解:本題利用分布函數(shù)進行計算P(1.6<X<1.8)=F(1.8)-F(1.6)%例3.1.6計算身高小于1.8米大于1.6米發(fā)生的概率P=normcdf(1.8,1.7,0.1)-normcdf(1.6,1.7,0.1)計算結果為:P=0.6827X=norminv(0.95,1.70,0.1)%計算下側概率的分位點計算結果為:X=1.8645,即有95%的人身高在1.86以下。例3.1.6:男性大學生身高X的平均值為1.7米,標準差為014例3.1.7:設某車站7:00到7:05分等車人數(shù)為服從泊松分布的隨機變量X,均值為5。求1)人數(shù)小于等于12發(fā)生的概率。2)人數(shù)大于等于8發(fā)生的概率。3)計算上側概率為0.05的分位點。解:本題利用分布函數(shù)進行計算1)小于12的計算公式為:P=poisscdf(12,5)%小于12的概率計算結果為:P=0.9982)大于8的計算公式為:1-F(8)P=poisscdf(12,5)%小于12的概率例3.1.7:設某車站7:00到7:05分等車人數(shù)為服從泊松15按題義命令為:x=poissinv(0.95,5)計算結果為:x=9按題義命令為:計算結果為:x=916(一)
積分計算的一般方法
分布函數(shù)的一般形式為:問題實際歸為求積分,
當密度函數(shù)非常復雜或用解析方法不能積分時,我們常常使用數(shù)值積分的方法來處理。
(3.2.1)2、分布函數(shù)的一般計算方法(一)
積分計算的一般方法問題實際歸為求積分,17其基本思想是,用簡單函數(shù)來代替復雜的被積函數(shù)。例如在被積函數(shù)的定義域內(nèi)選一系列的點。然后求在該點處的函數(shù)值定義插值多項式如下:
(3.1.2)其中其基本思想是,用簡單函數(shù)來代替復雜的被積函數(shù)。例如在被然后求18這里稱為拉格朗日插值多項式,其具有以下性質(zhì):1)。2)
在上點與點之間為線性函數(shù)。顯然有以下關系式成立:(3.1.3)其中是誤差函數(shù)。
這里稱為拉格朗日插值多項式,其具有以下性質(zhì):1)19可以證明,當
有n+1階有界導數(shù)時,
(3.1.4)當時,,即當是不高于n階的多項式時,有對(3.1.3)兩邊積分,我們有
(3.1.5)可以證明,當有n+1階有界導數(shù)時,(3.1.4)當時,,20從而我們可以得到積分的一般近似公式:(3.1.7)其中,(3.1.7)稱為Newton—Cotes型積分公式,而Ai為Cotes系數(shù),其誤差為
這樣我們就將一個復雜的積分問題,近似地用代數(shù)和的形式來代替了。關于計算的精度我們可以通過E來估計。目前一些數(shù)學軟件如Mathematica等,可以方便地獲取Cotes系數(shù),
從而我們可以得到積分的一般近似公式:(3.1.7)其中,21x0x1x2x3x4f(x2)f(x4)紅色折線為拉格朗日插值多項式x0x1x2x3x4f(x2)f(x4)紅色折線為拉格朗日插22l
代數(shù)精度概念
定義3.1.1若某個求積公式對于小于等于n的多項式均能準確地成立,但對n+1次多項式則不能。則稱該求積公式具有n次代數(shù)精度。例3.1.1梯形求積公式
當時,左邊=右邊。準確地成立。
當時,也準確成立。l
代數(shù)精度概念例3.1.1梯形求積公式23當時,而所以梯形求積公式具有一次代數(shù)精度。例3.1.2
利用梯形、拋物線及Newton—Cotes求積公式(n=7)計算解:(1)梯形求積公式Cotes系數(shù)為1/2,1/2,當時,而所以梯形求積公式具有一次代數(shù)精度。24(2)拋物線求積公式Cotes系數(shù)為1/6,4/6,1/6(3)取7個點Cotes系數(shù)為41/840,9/35,9/280,34/105,9/280,9/35,/41/840(2)拋物線求積公式25
復合求積公式對于一個求積公式,我們要求它們的算法穩(wěn)定并收斂,但不幸的是Newton—Cotes求積公式并不穩(wěn)定,在某些情況下計算不收斂。例3.1.3
討論函數(shù)在區(qū)間[-1,1],用Cotes系數(shù)計算的收斂問題。如用Newton-Cotes求積公式,則在該區(qū)間不收斂。請見以下結果
n=1時NC=0.07692n=2時NC=1.35897n=10時NC=0.93466n=40時NC=-4912.42復合求積公式如用Newton-Cotes求積公式,則在26顯然Newton—Cotes求積公式有致命的弱點。為改善求積公式,我們使用復合求積公式。其基本思想是把積分區(qū)間分成若干小區(qū)間,每個小區(qū)間中用次數(shù)不高的插值多項式近似逼近。1)復合梯形求積公式對區(qū)間[a,b]n等份,基點對每個小區(qū)間用梯形求積公式,則顯然Newton—Cotes求積公式有致命的弱點。27
Tn稱為復合梯形公式。為便于按迭代計算,在原有的分劃基礎上把區(qū)間分為2n等分,每個小區(qū)使用梯形公式,則有這里2)復合拋物線求積公式復合拋物線求積公式具有比復合梯形求積公式更快的收斂速度。拋物線公式用到了區(qū)間的中點,所以對區(qū)間[a,b]進行劃分時應該分成偶數(shù)個小區(qū)間。Tn稱為復合梯形公式。為便于按迭代計算,在原有的分28令n=2m,m為正整數(shù),在每個小區(qū)間上用拋物線公式
從而令n=2m,m為正整數(shù),在每個小區(qū)間從而293)步長的自動選擇與停止準則
在實際計算中,往往是先給出誤差精度,在保證精度的前提下,沒有必要將區(qū)間無限的分下去。假設給出的誤差精度為,若則對區(qū)間劃分到2n等分即告停止。
例3.1.3
對于誤差為0.000001,我們來看用復合梯形積分公式和復合拋物線求積公式計算結果
3)步長的自動選擇與停止準則則對區(qū)間劃分到2n等分即告30復合梯形求積公式的結果
結果為:n=12t=0.5496878eps=0.0004596結果為:n=24t=0.54927516eps=0.0004126結果為:n=48t=0.54933891eps=0.0000638結果為:n=96t=0.54935496eps=0.0001604結果為:n=192t=0.54936892eps=4.012×10-6結果為:n=384t=0.54935997eps=1.0032×10-6結果為:n=768t=0.54936022eps=2.508×10-7復合拋物線求積公式的結果
結果為:n=12t=0.54036028eps=0.1036734結果為:n=24t=0.54913762eps=0.0087778結果為:n=48t=0.549360162eps=0.0002225結果為:n=96t=0.54936031eps=1.429×10-7復合梯形求積公式的結果31l
高斯(Gauss)型求積公式我們已經(jīng)知道用Nowton—Cotes系數(shù)來進行近似積分,其一般公式為:
其基點是等距離的,且代數(shù)精度最多僅為n+1,并且對于某些積分步收斂。能否通過改變基點的距離來提高計算的精度和穩(wěn)定性呢?回答是肯定的。定義3.1.2如果區(qū)間[a,b]的一組基點能夠使得插值求積公式具有2n+1次代數(shù)精度,則稱其為高斯型插值求積公式,其基點稱為高斯點,而系數(shù)Ai則稱為高斯系數(shù)。l高斯(Gauss)型求積公式其基點32高斯點與正交多項式的關系定理3.1.3
是區(qū)間[a,b]上的高斯點的充分必要條件為多項式是區(qū)間[a,b]上的n+1次正交多項式。例3.1.6我們?nèi)匀粊砜辞懊娴睦?,對積分
利用高斯插值公式進行近似計算。解:這里我們?nèi)?5個高斯點進行計算,其結果為I=0.549362高斯點與正交多項式的關系利用高斯插值公式進行近似計算。333、標準正態(tài)分布的數(shù)值計算
任何正態(tài)分布的隨機變量X通過標準化即
U=(X-μ)/S其中
μ=E(X)
S=V(X)從而得到一個標準正態(tài)分布隨機變量U。因此我們僅考慮標準正態(tài)分布函數(shù)的計算,隨機變量U以3、標準正態(tài)分布的數(shù)值計算
任何正態(tài)分布的隨機變量X通34為u的概率密度函數(shù),記為U~N(0,1)。對于標準正態(tài)分布隨機變量U有E(U)=0V(U)=1(一)
標準正態(tài)分布與誤差函數(shù)
標準正態(tài)分布的下側概率(即分布函數(shù))為上側概率為
為u的概率密度函數(shù),記為U~N(0,1)。對于標準正態(tài)分35上側概率α分位點標準正態(tài)分布的上側概率與分位點:上側概率α分位點標準正態(tài)分布的上側概率與分位點:36用于計算上側概率的誤差函數(shù),定義為:
(0≤X<x)通過變換有則分布函數(shù)的計算公式為:用于計算上側概率的誤差函數(shù),定義為:(0≤X<x37
(二)標準正態(tài)分布函數(shù)的數(shù)值計算
計算標準正態(tài)分布函數(shù)的近似公式很多,在此僅舉一例。
其中
a1=0.196854a2=0.115194a3=0.000344a4=0.019527其最大絕對誤差是2.5×10-4,這是一個簡單實用的近似公式,在精度要求不高時用起來很方便。
其中a1=0.19685438其中的一種近似公式為
這里其中的一種近似公式為這里39其中c0=2.515517d1=1.432788c1=0.802853d2=0.189269c2=0.010328d3=0.001308
上述近似公式的最大絕對誤差為0.00044。其它隨機變量的分布函數(shù)也是按照某種近似公式計算的。其中405、統(tǒng)計工具箱的各種分布計算(一)各種分布的概率計算MATLAB給出了各種分布的隨機數(shù)的計算,部分列表如下:命令含義chi2cdf(X,V)卡方分布,v是自由度
fcdf(X,V1,V2)F分布,v1,v2,為自由度expcdf(X,MU)指數(shù)分布,MU為參數(shù)
poisscdf(X,LMD)泊松分布,LMD為參數(shù)normcdf(X,MU,SIGMA)正態(tài)分布tcdf(X,V)學生分布,v是自由度
unifcdf(X,A,B)區(qū)間[A,B]上的均勻分布5、統(tǒng)計工具箱的各種分布計算(一)各種分布的概率計算MATL41命令含義chi2pdf(X,V)卡方分布,v是自由度
fpdf(X,V1,V2)F分布,v1,v2,為自由度exppdf(X,MU)指數(shù)分布,MU為參數(shù)
poisspdf(X,LMD)泊松分布,LMD為參數(shù)normpdf(X,MU,SIGMA)正態(tài)分布tpdf(X,V)學生分布,v是自由度
unifpdf(X,A,B)區(qū)間[A,B]上的均勻分布部分隨機變量的密度函數(shù)pdf命令含義chi2pdf(X,V)卡方分布,v是自由度fpd42部分隨機變量的分位點計算inv命令含義chi2inv(P,V)卡方分布,v是自由度
finv(P,V1,V2)F分布,v1,v2,為自由度expinv(P,MU)指數(shù)分布,MU為參數(shù)
poissinv(P,LMD)泊松分布,LMD為參數(shù)norminv(P,MU,SIGMA)正態(tài)分布tinv(P,V)學生分布,v是自由度
unifinv(P,A,B)區(qū)間[A,B]上的均勻分布部分隨機變量的分位點計算inv命令含義chi2inv(P,V43(二)分布函數(shù)各種計算命令的命名規(guī)則分布計算命令分為三部分,即分布名、計算名和參數(shù)。例如:分布名計算名norminv
(a1,a2,…,ak)參數(shù)部分例如:計算正態(tài)分布的分位點命令語法為:X=norminv(P,MU,SIGMA)這里:P:給定的正態(tài)分布下側概率MU:為均值SIGMA:為方差(二)分布函數(shù)各種計算命令的命名規(guī)則分布計算命令分為三部分,44(三)卡方分布:如果隨機變量X的密度函數(shù)為:則稱隨機變量X服從自由度為v的卡方分布,卡方分布在統(tǒng)計推斷中具有十分重要的作用,特別是在分布的擬合優(yōu)度檢驗時。例3.5.1關于卡方分布和正態(tài)分布的關系(1)作出自由度為4的卡方分布的密度和分布圖形x=linspace(0,20,100);p=chi2inv(x,4);P=chi2cdf(x,4);subplot(1,2,1),plot(x,p),title('chi2inv')subplot(1,2,2),plot(x,P),title('chi2cdf')(三)卡方分布:如果隨機變量X的密度函數(shù)為:45從密度圖中可以看出卡方隨機變量X的取值均大于0,自由度v就是該隨機變量的均值,方差為2v。從密度圖中可以看出卡方隨機變量X的取值均大于0,自由度v就是46(2)產(chǎn)生1000個自由度為4的卡方隨機數(shù),并估計均值和方差。R=chi2rnd(4,1,1000);%產(chǎn)生自由度為4的卡方分布隨機數(shù)ER=mean(R)%估計1000個樣本的均值Var=var(R)%估計1000個樣本的方差結果為:ER=4.0362Var=8.2509而理論值為:均值即為自由度v,方差為2v。(3)設X為服從標準正態(tài)分布隨機數(shù)。問統(tǒng)計量KA服從何分布?解題思路:對統(tǒng)計量KA抽1000次樣,每次計算是抽4個標準正態(tài)分布隨機數(shù),并按上面的公式計算出一個統(tǒng)計量的值。對1000個樣本作直方圖,看其趨勢。再調(diào)用分布檢驗命令來確定屬于那一分布。(2)產(chǎn)生1000個自由度為4的卡方隨機數(shù),并估計均值和方差47%對(3)進行實驗fori=1:1000R=normrnd(0,1,4,1);KA(i)=R'*R;End%以上抽1000個按公式計算的樣本hist(KA,20)%調(diào)用直方圖命令作圖kstest(KA‘,[KA’chi2cdf(KA‘,4)])%檢驗數(shù)據(jù)是否來自卡方分布ans=0接受原假設來自自由度為4的卡方分布。%對(3)進行實驗ans=048(4)計算卡方下側概率為0.05和0.95的分位點。q1=chi2inv(0.05,4)q2=chi2inv(0.95,4)計算結果為:q1=0.7107q2=9.4877(4)計算卡方下側概率為0.05和0.95的分位點。q1=c49(四)F分布:如果隨機變量X的密度函數(shù)為:例3.5.2作出第一自由度為7,第二自由度為4的F分布的密度和分布圖形x=linspace(0,20,100);v1=7;v2=4P=fcdf(x,v1,v2);p=fpdf(x,v1,v2);subplot(1,2,1),plot(x,p),title('fpdf')subplot(1,2,2),plot(x,P),title('fcdf')(四)F分布:如果隨機變量X的密度函數(shù)為:例50二年級美術上冊第15課淘氣堡PPT課件3浙美版51(五)隨機變量的數(shù)字特征計算DescriptiveStatistics命令含義mean(X)求樣本的平均值median(X)求樣本的中位數(shù)var(X)求樣本的方差std(X)求樣本的標準差skewness(X)求樣本的偏度kurtosis(X)求樣本的峰度corrcoef(X)求多變量樣本的相關系數(shù)隨機變量X的數(shù)字特征,也是隨機變量性質(zhì)的一種描述。它們反映了諸如隨機變量的中心趨勢(如均值、中位數(shù)、模等),和離差程度(如方差、標準差、極差等),還描述隨機變量的分布特性(如偏度和峰度等)
(五)隨機變量的數(shù)字特征計算DescriptiveSta52(1)樣本均值的計算mean計算公式為:中心趨勢度量的數(shù)字特征設一組樣本為:X1,X2,…,Xn(2)樣本的50%中位數(shù)計算median計算公式為:(3)樣本的幾何均值計算geomean計算公式為:(1)樣本均值的計算mean計算公式為:中心趨勢度量的數(shù)53(1)樣本方差的計算var計算公式為:離散程度度量的數(shù)字特征設一組樣本為:X1,X2,…,Xn(2)樣本的標準差的計算std計算公式為:(3)樣本的極差range計算公式為:(1)樣本方差的計算var計算公式為:離散程度度量的數(shù)字54例3.5.3計算200個服從正態(tài)分布的樣本的方差、標準差和極差。X=normrnd(0,1,1,200)VAR=var(X)STD=std(X)RANG=range(X)計算結果為:VAR=0.9519STD=0.9757RANG=4.8217例3.5.3計算200個服從正態(tài)分布的樣本的方差、標準差和55描述該樣本分布形態(tài)的數(shù)字特征統(tǒng)計量有(1)樣本偏度的計算skewness計算公式為:描述該樣本分布形態(tài)的數(shù)字特征統(tǒng)計量有(1)樣本偏度的計算s56(2)樣本峰度的計算kurtosis計算公式為:(2)樣本峰度的計算kurtosis計算公式為:57(1)樣本矩陣協(xié)方差的計算cov計算公式為:多變量之間相關程度的度量(2)樣本矩陣的相關系數(shù)計算corrcoef計算公式為:設二維數(shù)據(jù)為(1)樣本矩陣協(xié)方差的計算cov計算公式為:多變量之間相58例3.5.4計算6×4矩陣的協(xié)方差陣和相關矩陣。X=rand(6,4)C=cov(X)R=corrcoef(X)計算結果為:X=0.13890.01530.84620.68130.20280.74680.52520.37950.19870.44510.20260.83180.60380.93180.67210.50280.27220.46600.83810.70950.19880.41860.01960.4289例3.5.4計算6×4矩陣的協(xié)方差陣和相關矩陣。X=ran59C=0.02870.04010.0133-0.00650.04010.0986-0.0088-0.02760.0133-0.00880.11640.0115-0.0065-0.02760.01150.0318R=1.00000.75530.2306-0.21490.75531.0000-0.0818-0.49320.2306-0.08181.00000.1884-0.2149-0.49320.18841.0000C=605、統(tǒng)計推斷基本原理有了隨機變量分布的概念以后,我們就可以利用隨機變量或者構造出的統(tǒng)計量的分布特性來進行假設檢驗了。統(tǒng)計推斷或稱假設檢驗是統(tǒng)計方法中最為重要的手段之一,可以應用于參數(shù)統(tǒng)計推斷,非參數(shù)統(tǒng)計推斷等領域。在統(tǒng)計分析的各種模型中,最后判別模型的好壞,我們都要在一定的假設下構造各種統(tǒng)計量然后進行統(tǒng)計推斷。在各類商用統(tǒng)計軟件中都輸出各種統(tǒng)計量的推斷結果,因此只有掌握了推斷的結果才能很好地使用商用統(tǒng)計軟件。5、統(tǒng)計推斷基本原理有了隨機變量分布的概念以后61(一)實際統(tǒng)計推斷原理:小概率事件實際不可能發(fā)生。即事件發(fā)生可能性很小時,實際上我們認為不可能發(fā)生。例如:1)設姚明在罰球線投籃進與不進是一隨機變量X,進的可能性是95%,不進的可能性是5%。則在一次投籃時不進這一事件是一個小概率事件,則我們認為他投籃不會不進。2)設每個人上街發(fā)生交通事故的可能性為0.01%,這是一個小概率事件。但實際我們認為不可能發(fā)生,周末我們照樣逛街購物。事實上我們并不知道,姚明的命中率。我們是用統(tǒng)計推斷的方法來決定的。按以下步驟進行推斷:1)H0:進球的概率為95%2)對X進行抽樣,即觀測投籃結果。3)如果進了接受原假設H0,進球的概率為95%。如果沒有進,按小概率事件實際不可能發(fā)生原理,認為不進球不是小概率事件。因此推翻原假設。(一)實際統(tǒng)計推斷原理:小概率事件實際不可能發(fā)生。即事件發(fā)生62例3.4.1中國大學生男性身高的平均值是1.70米嗎?對某大學男生抽20個樣,數(shù)據(jù)為:1.661.531.711.731.591.821.821.691.731.721.681.771.6411.921.691.711.801.711.691.62答:現(xiàn)在進行統(tǒng)計推斷程序:1)H0:假定中國男性大學生身高為1.70米2)計算統(tǒng)計量按假定該統(tǒng)計量服從均值為1.70,標準差為的T分布3)按顯著性水平為計算該統(tǒng)計量的拒絕域例3.4.1中國大學生男性身高的平均值是1.70米嗎?對63R=[1.661.531.711.731.591.821.821.691.731.72...1.681.771.6411.921.691.711.801.711.691.62]ex=mean(R)%計算平均值[h,p,ci]=ttest(R,1.70)%進行均值檢驗結果為:ex=1.7116%平均值落在接受域[1.6706,1.7525]h=0%這個結果表示接受原假設,1表示拒絕p=0.5615%概率大于0.025,表示落在接受域ci=1.67061.7525%該結果是接受域對平均值進行T檢驗命令的語法:h=ttest(x,m)h=ttest(x,m,alpha)h=ttest(x,m,alpha,tail)[h,p,ci]=ttest(...)這里x:表示樣本m:在0假設下的平均值alpha:顯著性水平h:0接受,1拒絕。p:計算出的概率ci:平均值的置信區(qū)間。R=[1.661.531.711.731.591.64接受域拒絕域統(tǒng)計量計算結果顯著性水平0.05下接受域拒絕域統(tǒng)計量計算結果顯著性水平0.05下65(二)統(tǒng)計推斷中的一些術語置信水平:拒絕域的概率。置信區(qū)間:接受域顯然接受域和置信水平有關,越小則接受域越大,反之奕然!H0:0假設,或稱初始假設,如:H0:x=1.70H1:備擇假設,1)雙側假設2)右側假設3)左側假設前面,例3.1.4就是備擇假設是雙側的情況,對同樣的問題進行右側和左側檢驗,作為習題進行計算和推斷。(二)統(tǒng)計推斷中的一些術語置信水平:拒絕域的概率。置信區(qū)66(三)統(tǒng)計推斷分類統(tǒng)計推斷方法可以分為三類,參數(shù)統(tǒng)計推斷、分布的擬合優(yōu)度統(tǒng)計推斷和非參數(shù)統(tǒng)計推斷。當已知分布的情況下,對分布的各種參數(shù)進行推斷稱為參數(shù)統(tǒng)計推斷。對樣本服從某種分布進行假設,并進行檢驗稱分布進行分布的擬合優(yōu)度統(tǒng)計推斷。當對某個參數(shù)進行統(tǒng)計推斷而事先不知其分布時稱為非參數(shù)統(tǒng)計推斷。(1)參數(shù)的統(tǒng)計推斷
一個服從某種分布的隨機數(shù),其參數(shù)是多種多樣的。例如均值、方差、偏度、峰度、最大值和最小值等等。在大樣本的情況下,根據(jù)中心極限定理我們可以統(tǒng)一構造標準正態(tài)分布統(tǒng)計量進行統(tǒng)計推斷,在下一章中將詳細介紹這種構造方法。(三)統(tǒng)計推斷分類統(tǒng)計推斷方法可以分為三類,參67MATLAB提供的T檢驗和Z檢驗。命令見下表【例3.5.1】設有兩組樣本X,Y。假定來自正態(tài)分布,標準差未知,抽檢驗它們的均值是否一樣。產(chǎn)生X為均值為0,標準差為1的30個樣本和Y均值為0.5,標準差為1的40個樣本。我們可以構造一個T-統(tǒng)計量MATLAB提供的T檢驗和Z檢驗。命令見下表【例3.5.1】68命令語法為:[h,significance,ci,stats]=ttest2(x,y,alpha,tail)這里:alpha:輸入變量,給定的顯著性水平,如果沒有這一項,內(nèi)定alpha=0.05。tail:輸入變量,假設類型。當:tail=’both’,為雙尾檢驗,即備擇假設。當沒有tail項時系統(tǒng)內(nèi)定此選擇tail=’right’,為右單尾檢驗,即備擇假設。tail=’left’,為左單尾檢驗,即備擇假設。h:輸出變量,統(tǒng)計推斷最后結果,h=0接受原假設,h=1拒絕原假設。Significance:輸出變量,統(tǒng)計量的拒絕域概率。ci:計算出統(tǒng)計量的上下限。stats:有關的其他統(tǒng)計量。命令語法為:69我們的程序如下:%產(chǎn)生X均值為0,標準差為1的30個樣本,%產(chǎn)生Y均值為0.5,標準差為1的40個樣本,檢驗均值。X=normrnd(0,1,30,1);Y=normrnd(0.5,1,40,1);[h,significance,ci]=ttest2(X,Y)計算結果為:h=1significance=8.9577e-005ci=-1.4686-0.5173結果告訴我們拒絕原假設,即來自均值不同的正態(tài)分布。對服從其他分布的隨機數(shù),進行參數(shù)檢驗時,在大樣本的情況下,利用中心極限定理我們可以構造一個服從標準正態(tài)分布的統(tǒng)計量進行檢驗。我們的程序如下:70(2)分布的擬合優(yōu)度檢驗一組樣本我們關心的是它們來自那一種分布,這時首先假定是服從某一分布,然后用樣本構造其分布特性,并和假設的理論分布擬合的好壞進行檢驗,這就是分布的擬合優(yōu)度檢驗。描述隨機變量的分布特性有兩種方法,一是隨機變量的分布函數(shù),另一個是隨機變量的密度函數(shù),我們可以分別構造不同的統(tǒng)計量進行檢驗??茽柲裰Z夫-斯米爾諾夫檢驗Kolmogorov-Smirnovtest這是一個著名的檢驗方法,可對服從任何分布的隨機數(shù)進行分布的擬合優(yōu)度檢驗。設樣本的經(jīng)驗分布函數(shù)為,樣本的理論分布為F(x)。我們可以構造K-S統(tǒng)計量
(2)分布的擬合優(yōu)度檢驗一組樣本71顯然D0越小表示經(jīng)驗分布和理論分布擬合的較好,利用D0很我們可以構造Kolmogorov-Smirnov統(tǒng)計量KS,KS大則表示經(jīng)驗分布和理論分布相差很遠,即樣本不是來自原假設的理論分布,示意見圖。二年級美術上冊第15課淘氣堡PPT課件3浙美版72【例3.5.1】對一組來自由度為5的卡方分布隨機數(shù)進行分布的擬合優(yōu)度檢驗,用同樣的數(shù)據(jù)進行參數(shù)為5的指數(shù)分布檢驗。利用科爾莫格諾夫-斯米爾諾夫檢驗命令kstest,其語法為:H=kstest(X)%進行正態(tài)分布檢驗H=kstest(X,cdf)%進行給定分布函數(shù)cdf的擬合優(yōu)度檢驗H=kstest(X,cdf,alpha,tail)%進行給定顯著性水平、分布cdf及備擇假設的擬合優(yōu)度檢驗[H,P,KSSTAT,CV]=kstest(X,cdf,alpha,tail)%同上,并多輸出拒絕域概率,KS統(tǒng)計量等這里:X:為原始數(shù)據(jù),注意為列向量。cdf:原假設的分布。H:檢驗結果,H=0接受樣本來自假設的分布,H=1拒絕原假設。P:KS統(tǒng)計量的上側概率。KSSTAT:計算出的格諾夫-斯米爾諾夫統(tǒng)計量的值?!纠?.5.1】對一組來自由度為5的卡方分布隨機數(shù)進行分布的73程序如下:%例3.5.1,抽200個服從自由度為5的卡方分布,檢驗:%1)是否服從自由度為5的卡方分布%2)是否服從參數(shù)為5的指數(shù)分布x=chi2rnd(5,200,1);%抽200個自由度為5的卡方分布h1=kstest(x,[xchi2cdf(x,5)])%卡方檢驗h2=kstest(x,[xexpcdf(x,5)])%指數(shù)分布檢驗最后的結果為: h1=0接受原假設,樣本來自自由度為5的卡方分布。h2=1拒絕原假設,樣本不是來自參數(shù)為5的指數(shù)分布。程序如下:74統(tǒng)計量檢驗隨機數(shù)的密度函數(shù)擬合優(yōu)度檢驗將樣本定義域分為k個相等的區(qū)間,記i區(qū)間的觀測頻數(shù)為ni(i=1,…,k),若隨機變量X落于第i區(qū)間的概率為Pi,則得理論頻數(shù)mi=N×Pi,由ni,mi構造統(tǒng)計量。=漸近服從自由度為k-1的卡方分布,簡記為。一般要求樣本數(shù)N>30。統(tǒng)計量檢驗隨機數(shù)的密度函數(shù)擬合優(yōu)度檢驗將樣本75【例3.5.3】對參數(shù)為4的指數(shù)分布抽200個樣,假設樣本來自參數(shù)為4的指數(shù)密度函數(shù),構造自由度為7卡方統(tǒng)計量進行假設檢驗。思路,將隨機數(shù)的定義域分為8個等區(qū)間,計算落入每個區(qū)間的頻數(shù)ni(i=1,…,8),再根據(jù)落入每個區(qū)間的理論概率計算出理論頻數(shù)mi=N×Pi,(i=1,…,8),按公式(3.6.2)計算出自由度為7的卡方分布統(tǒng)計量,判斷該統(tǒng)計量是否落入拒絕域,最終判斷檢驗結果。%例3.6.5抽標準正態(tài)分布機數(shù)200個,對密度函數(shù)進行統(tǒng)計推斷X=normrnd(0,1,200,1)%抽200個正態(tài)分布隨機數(shù)histfit(X,8);%作示意圖%構造卡方統(tǒng)計量k=8;kk=linspace(-3,3,k+1);%對區(qū)間分成8個等區(qū)間P=normcdf(kk,0,1);%計算每個區(qū)間的概率n=(P(2:k+1)-P(1:k))*200%計算每個區(qū)間的理論頻數(shù)m=hist(X,k)%計算每個區(qū)間的觀測頻數(shù)kf_7=sum(((n-m).^2)./m)%計算卡方統(tǒng)計量【例3.5.3】對參數(shù)為4的指數(shù)分布抽200個樣,假設樣本來76%進行統(tǒng)計推斷chi2_p=chi2cdf(kf_8,k-1)%計算下側概率ifchi2_p<0.95chi2_str='接受';elsechi2_str='拒絕';endchi2_str結果為接受原假設%進行統(tǒng)計推斷結果為接受原假設77我們計算出的理論頻率與樣本頻率見表3-6-3表3-6-3理論頻率與樣本頻率計算結果自由度為7的卡方統(tǒng)計量結果為:kf_7=9.8806最后的檢驗結果為接受原假設,樣本來自標準正態(tài)密度函數(shù)。我們計算出的理論頻率與樣本頻率見表3-6-3786、非參數(shù)統(tǒng)計推斷
在參數(shù)統(tǒng)計推斷中,我們是在知道樣本服從某分布的前提下進行的,例如在知道總體為正態(tài)分布的情況下,構造T統(tǒng)計量具有良好的估計性質(zhì)。高但在很多實際問題中我們得到的樣本并不知道其分布特性,而是只利用樣本本身進行統(tǒng)計推斷,這樣的參數(shù)推斷稱為非參數(shù)統(tǒng)計推斷。由于非參數(shù)統(tǒng)計推斷不需要預先知道樣本的分布,雖不能達到最優(yōu)的統(tǒng)計性質(zhì),方法卻具有簡單、穩(wěn)定的特點,因此廣泛使用于生物、化學、醫(yī)學和社會科學各領域。MATLAB提供的非參數(shù)檢驗命令見表3-6-16、非參數(shù)統(tǒng)計推斷
在參數(shù)統(tǒng)計推斷中,我們是在79兩種處理方法好壞比較的Wilcoxon秩和檢驗秩的定義為:設有兩種樣本,,,將它們放在一起進行排序,得由小到大的順序序列:
(3.6.1)如果xi位于數(shù)據(jù)(3.6.1)的第五個位置,則稱它的秩為5,這樣數(shù)據(jù),中的每一個元素都對應一個秩。秩和的定義為:將第一組數(shù)據(jù)的每個元素的秩相加得R1,將第二組數(shù)據(jù)每個元素的秩相加得R2,R1和R2就分別是各組的秩和,顯然它們是統(tǒng)計量。如果兩組數(shù)據(jù)來自一個總體,那么我們計算出的秩和統(tǒng)計量和就不應該相差太大。我們可以構造統(tǒng)計量T。兩種處理方法好壞比較的Wilcoxon秩和檢驗將它們放在一起80T與平均秩和應相差不大,在大樣本的情況下根據(jù)中心極限定理可以構造標準正態(tài)分布統(tǒng)計量。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育機構二零二五年度兼職教師聘用含知識產(chǎn)權保護合同
- 二零二五年度智慧城市項目經(jīng)理職位聘用合同
- 語文文學鑒賞能力考核題
- 新能源汽車充電樁網(wǎng)絡規(guī)劃方案書
- 新興消費市場消費者行為分析與營銷策略研究
- 企業(yè)績效評估咨詢服務協(xié)議
- 農(nóng)村資源環(huán)境保護及修復協(xié)議書
- 農(nóng)業(yè)市場推廣策略實戰(zhàn)案例分析
- 社區(qū)團購電商平臺合作合同
- 農(nóng)業(yè)合作組織規(guī)范化管理手冊
- 2024版《中醫(yī)基礎理論經(jīng)絡》課件完整版
- 期權入門基礎知識單選題100道及答案解析
- 2024光伏發(fā)電施工工程機械設備安全技術操作規(guī)程
- 中國華電校園招聘在線測評題
- 中建企業(yè)建筑工程項目管理目標責任書(范本)
- 三年級全一冊《勞動與技術》第二單元 活動1《包書皮》課件
- 2024-2025學年湖南省長沙市雅禮教育集團八年級(上)創(chuàng)新素養(yǎng)數(shù)學試卷(含答案)
- 中醫(yī)藥膳專題講座培訓課件
- 2022版義務教育藝術課程標準美術新課標學習解讀課件
- 辦公樓建筑結構設計(畢業(yè)設計)
- 軸對稱圖形(課件)-2023-2024學年二年級下冊數(shù)學人教版-1
評論
0/150
提交評論