概率統(tǒng)計(jì)建模講義_第1頁
概率統(tǒng)計(jì)建模講義_第2頁
概率統(tǒng)計(jì)建模講義_第3頁
概率統(tǒng)計(jì)建模講義_第4頁
概率統(tǒng)計(jì)建模講義_第5頁
已閱讀5頁,還剩74頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

主要內(nèi)容HYPERLINK隨機(jī)變量及其分布HYPERLINK經(jīng)驗(yàn)分布函數(shù)和頻率直方圖HYPERLINK參數(shù)估計(jì)HYPERLINK假設(shè)檢驗(yàn)HYPERLINK相關(guān)分析與回歸分析簡(jiǎn)介HYPERLINKMATLAB例題HYPERLINK例4指數(shù)分布HYPERLINK例5多元隨機(jī)變量HYPERLINK例6經(jīng)驗(yàn)分布函數(shù)HYPERLINK例7超市問題HYPERLINK例9擬合檢驗(yàn)1HYPERLINK例10擬合檢驗(yàn)2HYPERLINK例11概率紙檢驗(yàn)法HYPERLINK例12道德HYPERLINK例13腸癌HYPERLINK例14J效應(yīng)HYPERLINKBackHYPERLINK隨機(jī)變量及其分布HYPERLINKBackHYPERLINKNext其次,要根據(jù)經(jīng)驗(yàn)來估計(jì)出,p值是多少?例如,一個(gè)工人在一個(gè)小時(shí)里有12分鐘在使用電力,那么應(yīng)該有。最后,利用公式我們求出隨機(jī)變量X的概率分布表如下:X012345678910P0.1073740.2684350.301990.2013270.088080.0264240.0055050.0007860.0000740.0000040.000000累積概率0.1073740.375810.67780.8791260.9672070.9936310.9991360.9999220.99999611為直觀計(jì),我們給出如下概率分布圖:HYPERLINKBackHYPERLINKBackHYPERLINKBackHYPERLINKNextHYPERLINK粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547HYPERLINKBackHYPERLINK最后一行,與列在第3行的實(shí)際頻率比較,比較的圖示在下圖中。(Excel)可以看出,認(rèn)為X服從參數(shù)為3.87的Poisson分布還是非常合理的。在后面統(tǒng)計(jì)部分,我們會(huì)用Pearson-擬合檢驗(yàn)法來證明這種合理性。HYPERLINKBackHYPERLINKNext在給定的觀測(cè)范圍內(nèi)(例如給定時(shí)間內(nèi),給定區(qū)域內(nèi),等等),事件會(huì)發(fā)生多少次?把觀測(cè)范圍分成n個(gè)小范圍:給定事件在每個(gè)小范圍內(nèi)可能發(fā)生,也可能不發(fā)生,發(fā)生多少次取決于小范圍的大??;在不同的小范圍內(nèi)發(fā)生多少事件相互獨(dú)立;在小范圍里發(fā)生的事件數(shù)多于一個(gè)的概率,和小范圍的大小相比可以忽略不計(jì),用表示在小范圍內(nèi)事件發(fā)生一次的概率。那么在給定范圍內(nèi)發(fā)生的總事件數(shù)X近似服從,為給定范圍內(nèi)事件發(fā)生次數(shù)的近似平均值。令,則為給定范圍內(nèi)事件發(fā)生次數(shù)的準(zhǔn)確平均值,這時(shí)這正是Poisson分布,其中參數(shù)。HYPERLINKNextHYPERLINKBackHYPERLINKNextb=0的指數(shù)分布的密度函數(shù)圖像如下所示(指數(shù)密度):可見,隨著的減小,隨機(jī)變量取到較大值的概率增加。事實(shí)上,是隨機(jī)變量的數(shù)學(xué)期望。指數(shù)隨機(jī)變量經(jīng)常用來刻畫壽命。HYPERLINKNextHYPERLINKBackHYPERLINKNext邊際分布與獨(dú)立性相互獨(dú)立當(dāng)且僅當(dāng)相關(guān)系數(shù)兩個(gè)隨機(jī)變量之間的相關(guān)系數(shù)定義為其中相關(guān)系數(shù)刻畫了隨機(jī)變量之間的線性相關(guān)程度,越接近于0,線性相關(guān)關(guān)系越弱。HYPERLINKNextHYPERLINKNext 條件分布在已知其中某些隨機(jī)變量的取值的情況下,可以進(jìn)一步確定其他隨機(jī)變量的條件分布。例如,在有密度函數(shù)的情況下,我們還可以求條件密度函數(shù),甚至利用Bayes定理,解決許多重要問題。HYPERLINKNext綜上所述,我們知道在概率論里學(xué)過許多分布,當(dāng)然,還有許多分布我們沒有學(xué)過。但是,在實(shí)踐中我們可能會(huì)遇到各種各樣的分布,甚至還有沒被發(fā)現(xiàn)的分布。在處理數(shù)據(jù)的時(shí)候,我們要搞清楚:數(shù)據(jù)是哪個(gè)或哪些指標(biāo)的取值?這個(gè)或這些指標(biāo)是不是隨機(jī)變量或隨機(jī)向量?如果是,那么它服從什么分布?用統(tǒng)計(jì)方法確定分布;分布確定后,用概率方法求出問題的解。下面我們就討論用統(tǒng)計(jì)方法確定分布的問題。HYPERLINK經(jīng)驗(yàn)分布函數(shù)和頻率直方圖當(dāng)我們確定討論的指標(biāo)的確是隨機(jī)變量后,剩下的關(guān)鍵任務(wù)就是確定它的分布。那么它的觀測(cè)數(shù)據(jù)就是我們賴以解決問題的基本資料,叫做樣本,而這個(gè)隨機(jī)變量就叫做總體。這些數(shù)據(jù)反映了該隨機(jī)變量分布的基本特征。我們可以利用這些數(shù)據(jù)構(gòu)造一個(gè)分布函數(shù),理論上可以證明它很接近于那個(gè)未知分布。這個(gè)分布函數(shù)就叫做經(jīng)驗(yàn)分布函數(shù)。HYPERLINKNextHYPERLINK粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135概率p0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547這個(gè)函數(shù)的圖像如下(Poisson2):如果熟悉Poisson分布的分布函數(shù)圖像的話,就可以從這個(gè)圖像判斷出,X可能服從參數(shù)為3.87的Poisson分布。從這個(gè)經(jīng)驗(yàn)分布函數(shù)容易解決概率計(jì)算問題:HYPERLINKNext用X表示顧客的購買金額,那么它應(yīng)該是一個(gè)連續(xù)型的隨機(jī)變量。對(duì)于連續(xù)型的隨機(jī)變量,我們一般就不作它的經(jīng)驗(yàn)分布函數(shù)了,而是改作它的頻率直方圖。一般認(rèn)為,X應(yīng)該服從正態(tài)分布,數(shù)學(xué)期望為。其實(shí)不然,其頻率直方圖如下圖所示:(超市)HYPERLINKNext它很像參數(shù)為的指數(shù)分布密度函數(shù),如圖中HYPERLINK紅色曲線所示。所以我們就認(rèn)為X的分布是這樣的一個(gè)指數(shù)分布。例如,給定,可以求出表明該店顧客一次消費(fèi)金額在20元以下的人數(shù)占到近七成。這是什么原因呢?原來這是一家小型社區(qū)超市,人們只來買日用品,不在這里買大件。這對(duì)超市的經(jīng)營(yíng)管理是一個(gè)重要信息。對(duì)于連續(xù)型隨機(jī)變量,要繪制頻率直方圖!作業(yè):1、用Excel完成本例;2、經(jīng)驗(yàn)分布函數(shù)。HYPERLINKNext經(jīng)驗(yàn)分布函數(shù)、頻率分布圖和頻率直方圖可以幫助我們了解隨機(jī)變量的類型。當(dāng)我們已經(jīng)了解到隨機(jī)變量的分布類型后,該隨機(jī)變量的分布一般就取決于一個(gè)或幾個(gè)參數(shù)了。如果知道了這些參數(shù),就可以把分布完全確定下來。那么,如何確定這未知參數(shù)呢?數(shù)字特征計(jì)算:+stat:計(jì)算均值和方差HYPERLINK參數(shù)估計(jì)設(shè)隨機(jī)變量X的分布形式已經(jīng)知道,而其中的一個(gè)或幾個(gè)參數(shù)未知,我們記這個(gè)分布為。注意,在應(yīng)用中,X可能是離散型隨機(jī)變量,也可能是連續(xù)型隨機(jī)變量,未知參數(shù)是具體的,要寫出分布的具體形式,例如寫出概率分布列或密度函數(shù),而不要抽象地記為。我們有樣本,這就是大家在實(shí)際問題中拿到的數(shù)據(jù)。(相對(duì)于這個(gè)樣本,我們一般把X叫做總體)。怎樣利用樣本估計(jì)參數(shù)呢?有兩套理論,即HYPERLINK點(diǎn)估計(jì)理論和HYPERLINK區(qū)間估計(jì)理論。HYPERLINKNext在例2中,根據(jù)例6的結(jié)果看,應(yīng)該用Poisson分布,而這時(shí),所以我們用作為的估計(jì),得到具體的一個(gè)Poisson分布。為什么恰好取3.87而非其它的值?這個(gè)為什么的問題是一個(gè)物理問題,我們無能為力。但是,從統(tǒng)計(jì)角度看,我們選用Poisson分布合理嗎?后面我們?cè)俳鉀Q這個(gè)問題。再如例7,我們利用頻率直方圖得到X應(yīng)該服從指數(shù)分布的判斷,而對(duì)于參數(shù)為的指數(shù)分布,因?yàn)?,是無偏估計(jì),所以在那里取。那么,用這個(gè)指數(shù)分布從統(tǒng)計(jì)角度來說合理嗎?這個(gè)問題也留到后面解決。HYPERLINKNext現(xiàn)在大家應(yīng)該理解點(diǎn)估計(jì)的重要意義了吧,可以看出來,沒有一個(gè)好的點(diǎn)估計(jì)量,就不可能得到一個(gè)至少是直觀上合理的分布。下面我們?cè)俳o出另一個(gè)重要的點(diǎn)估計(jì)量。修正樣本方差是總體方差的無偏估計(jì)量,所以當(dāng)總體方差D(X)未知時(shí),我們一般用作為D(X)的估計(jì)量。例如在很多情況下,我們會(huì)用到正態(tài)分布,那時(shí)我們不但要用來估計(jì),而且還要用來估計(jì),從而得到一個(gè)具體的正態(tài)分布。(注意,當(dāng)樣本容量n較大時(shí),與沒有多大區(qū)別,所以在應(yīng)用中有時(shí)會(huì)直接使用。)Matlab里計(jì)算樣本統(tǒng)計(jì)量的函數(shù):geomean幾何平均,harmmean調(diào)和平均,iqr四分位間距,mean均值,median中位數(shù),std標(biāo)準(zhǔn)差,var無偏樣本方差HYPERLINKNextHYPERLINKNext我們知道利用關(guān)于二項(xiàng)分布的中心極限定理,當(dāng)n較大時(shí),近似地有從而近似地有由此不難求出p的置信區(qū)間:由,給定,,可得p的置信度為的置信區(qū)間約為。HYPERLINKNext一般情況下,我們總會(huì)想到正態(tài)總體的區(qū)間估計(jì)方法。但是,對(duì)于非正態(tài)總體,如果需要,我們也要設(shè)法作區(qū)間估計(jì),方法有兩類:象正態(tài)總體那樣,構(gòu)造樞軸變?cè)?,利用已知分布求區(qū)間估計(jì),可參見教材中P265第16題的方法(作為習(xí)題,請(qǐng)同學(xué)們做這道題);另一類方法就是在大樣本情況下用正態(tài)分布的方法求近似區(qū)間估計(jì),如本例所示。綜上所述,點(diǎn)估計(jì)和區(qū)間估計(jì)的理論與方法在實(shí)踐中有重要應(yīng)用,而我們?cè)跀?shù)理統(tǒng)計(jì)中也學(xué)過這些方法,所以在建模時(shí),要在需要的時(shí)候充分利用。這些內(nèi)容在數(shù)理統(tǒng)計(jì)的任何一本教材中都可以容易地查到,所以在建模的時(shí)候,這些問題不應(yīng)該成為大家的攔路虎。Matlab函數(shù):normfit(r):樣本r下正態(tài)總體參數(shù)的點(diǎn)估計(jì)和區(qū)間估計(jì)。例如先產(chǎn)生兩列(每列100個(gè))正態(tài)隨機(jī)數(shù)(均值10,方差2*2=4):r=normrnd(10,2,100,2)。然后[a,b,c,d]=normfit(r,alpha)產(chǎn)生均值、標(biāo)準(zhǔn)差的點(diǎn)估計(jì)、區(qū)間估計(jì),其中a,b放的是點(diǎn)估計(jì),c,d放的是區(qū)間估計(jì)。HYPERLINK假設(shè)檢驗(yàn)當(dāng)然我們不會(huì)在這里講數(shù)理統(tǒng)計(jì)課堂上作為重點(diǎn)學(xué)習(xí)過的那些正態(tài)總體未知參數(shù)的假設(shè)檢驗(yàn)方法,這些應(yīng)該是大家必須熟練掌握的基本內(nèi)容。在這里,我們要介紹兩個(gè)很有用的非參數(shù)檢驗(yàn)方法,HYPERLINK一個(gè)方法用來解決前面提到的“總體服從某個(gè)分布是否合理”的問題,如例2及例6中認(rèn)為X服從參數(shù)為3.87的Poisson分布,例7中認(rèn)為X服從參數(shù)為的指數(shù)分布,這樣作從統(tǒng)計(jì)角度看合理嗎?也就是要檢驗(yàn)總體分布是否為某給定分布。HYPERLINK另一個(gè)方法是用來檢驗(yàn)兩個(gè)隨機(jī)變量是否獨(dú)立的所謂獨(dú)立性檢驗(yàn)方法。注意要掌握思想,揣摩何時(shí)需要做這些檢驗(yàn),需要的時(shí)候,可以在任何一本統(tǒng)計(jì)學(xué)的教材中找到具體步驟。所以我不要求大家記住具體步驟,而要理解其重要性。HYPERLINKNext檢驗(yàn)的第一步要解決的問題是,如果H0成立,那么它服從參數(shù)為多少的Poisson分布?要先估計(jì)未知參數(shù)。因?yàn)檫@時(shí),所以用點(diǎn)估計(jì)法有,。可知如果H0成立,那么。檢驗(yàn)的第二步要解決的問題是,觀測(cè)數(shù)據(jù)是否支持原假設(shè)?如果原假設(shè)成立,,那么X的分布如表中1、4行所示,我們可以計(jì)算出在總共N=2608次觀測(cè)中X取每個(gè)值的理論頻數(shù)Npk:粒子數(shù)X012345678910頻數(shù)n57203383525532408273139452716頻率f0.0218560.0778370.1468560.2013040.2039880.1564420.1046780.0532980.0172550.0103530.006135理論概率pk0.0208580.0807220.1561970.2014940.1949450.1508880.0973230.0538050.0260280.0111920.006547理論頻數(shù)Npk54.39863210.5227407.3614525.4962508.4176393.5152253.8173140.324767.8820829.1892917.07489HYPERLINKNext直觀上看,表中的理論頻數(shù)和實(shí)際頻數(shù)之間相差不大,但是我們必須構(gòu)造統(tǒng)計(jì)量來刻畫這個(gè)差別,而且要利用統(tǒng)計(jì)量的分布給出小概率事件,用實(shí)際推斷原理來嚴(yán)格檢驗(yàn)原假設(shè)。構(gòu)造統(tǒng)計(jì)量如下:。其中k表示X的取值情況數(shù),我們更喜歡稱之為X的取值的分組個(gè)數(shù)。本例中k=11。這里要用到一個(gè)著名的定理,叫Pearson-Fisher定理:若H0成立,不論總體服從什么分布,當(dāng)樣本容量時(shí),由上式定義的統(tǒng)計(jì)量的極限分布為。其中的r為計(jì)算理論頻數(shù)時(shí)所估計(jì)的未知參數(shù)的個(gè)數(shù)。HYPERLINKNext所以,當(dāng)樣本容量較大時(shí),近似地有.顯然,H0成立時(shí),值不應(yīng)該太大。所以,取為HYPERLINK否定域,給定檢驗(yàn)水平α,H0成立時(shí),。很小時(shí),是一個(gè)小概率事件。如果,則否定原假設(shè),否則說明數(shù)據(jù)與原假設(shè)沒有矛盾,接受原假設(shè)。HYPERLINKNext檢驗(yàn)的第三步,具體計(jì)算。本例中,N=2608很大,k=11,r=1,可計(jì)算得。我們?nèi)z驗(yàn)水平,可查表求得,,所以不否定原假設(shè),認(rèn)為X服從Poisson分布.事實(shí)上,H0成立時(shí)可以求得(利用MATLAB,=1-chi2cdf(12.8849381,9)),這個(gè)概率還是相當(dāng)大的,一般來說遠(yuǎn)遠(yuǎn)大于所要求的檢驗(yàn)水平。可以看出來,只要檢驗(yàn)水平?jīng)]有超過0.1679,就可以接受原假設(shè)。換句話說,除非檢驗(yàn)水平大于0.1679,否則接受原假設(shè)。這是所謂p值判斷法。作業(yè):用MATLAB完成本例計(jì)算。HYPERLINKNext這個(gè)例子講述了離散總體情況下的總體分布的χ2擬合檢驗(yàn)。那么,對(duì)于連續(xù)(注意沒有要求是連續(xù)型的)總體該如何處理?我們還是用例子來說明。HYPERLINKNextHYPERLINKNext我們要借用離散型的思想,將這X的無窮多個(gè)取值分成k個(gè)不同的情況(k不能太大也不能太小,一般在4~20之間),即將全體正實(shí)數(shù)分解成k個(gè)區(qū)間。怎樣分?保證樣本中的觀測(cè)值在每個(gè)區(qū)間中的個(gè)數(shù)一般不少于5個(gè)(大部分區(qū)間上這樣就可以了,在數(shù)據(jù)的最大最小值附近的區(qū)間上一般不一定要這樣)。這樣就可以統(tǒng)計(jì)每個(gè)區(qū)間中的觀測(cè)值的個(gè)數(shù),同時(shí),在原假設(shè)成立的情況下計(jì)算每個(gè)區(qū)間中的理論頻數(shù)。這樣就把問題簡(jiǎn)化為離散型的數(shù)據(jù)結(jié)構(gòu),那里用到的統(tǒng)計(jì)量仍可以使用,那里的定理還成立,所有后面的步驟不再變化。HYPERLINKNext現(xiàn)在解決本例中的問題。原假設(shè)為.注意這里的原假設(shè)與上一個(gè)例子不同,參數(shù)認(rèn)為是已知的,不要再去估計(jì)了。如果認(rèn)為參數(shù)未知,則如上一題那樣還要在下面估計(jì),這涉及到用到的自由度問題。HYPERLINKNext為了計(jì)算簡(jiǎn)便,再考慮到所有數(shù)據(jù)在0~100之間,我們把區(qū)間[0,72)分成9等分,把[72,100)作為一個(gè)區(qū)間,依次得到10個(gè)區(qū)間。統(tǒng)計(jì)各個(gè)區(qū)間上觀測(cè)值的頻數(shù),填入下表。區(qū)間分割[0,8)[8,16)[16,24)[24,32)[32,40)[40,48)[48,56)[56,64)[64,72)[72,100)頻數(shù)nk51292114862321理論概率pk0.3716210.2335190.1467380.0922070.0579410.0364090.0228790.0143760.0090340.012271理論頻數(shù)Npk50.9120531.9920720.1031512.63247.9379394.9880353.1343771.9695781.2376411.68113在原假設(shè)成立的情況下,,計(jì)算如下概率:將計(jì)算結(jié)果也列在同一表中。利用所得概率可以計(jì)算出N=137次觀測(cè)中各個(gè)區(qū)間上觀測(cè)值的理論頻數(shù),計(jì)算結(jié)果也列在表中。HYPERLINKNext原假設(shè)成立時(shí),。這里k=10,r=0。給定檢驗(yàn)水平,可查表求得,否定域?yàn)?。?jì)算統(tǒng)計(jì)量的值,,所以不否定原假設(shè),認(rèn)為.通過這兩個(gè)例子大家應(yīng)該清楚總體分布的Pearson-擬合檢驗(yàn)法了。這是一個(gè)幾乎可以解決所有問題的通用方法。作業(yè):還是自己完成計(jì)算。另一種檢驗(yàn)方法:K-S檢驗(yàn)法:H=kstest(x,cdf,alpha)其中x是樣本列向量,cdf=(x,x的原假設(shè)分布函數(shù)值)是n行兩列的矩陣。例如cdf=[y',expcdf(y',17.22)],y是超市數(shù)據(jù)。h=kstest(y,cdf)得到h=0,不否定原假設(shè)。HYPERLINKNextHYPERLINKNext用概率紙法檢驗(yàn)例7中的數(shù)據(jù),看總體是否服從正態(tài)分布。用MATLAB完成:h=normplot(x)可以看出總體顯然不是正態(tài)分布的。HYPERLINKNext再看看其Weibull分布概率圖:h=weibplot(x)從此圖看,用Weibull分布比較合理。HYPERLINKNext實(shí)際上指數(shù)分布是威布爾分布的一個(gè)特例,威布爾分布有兩個(gè)參數(shù),記為W(m,η),其分布函數(shù)如下:其中m>0叫形狀參數(shù),η>0叫刻度參數(shù)。更一般的形式:將上面的x改為x-r,r叫位置參數(shù)。m=1時(shí)即為指數(shù)分布。參見現(xiàn)代數(shù)學(xué)手冊(cè)隨機(jī)數(shù)學(xué)卷。HYPERLINKNext我們?cè)谶@個(gè)例子里要為大家介紹獨(dú)立性檢驗(yàn)的概念。如果用X表示學(xué)習(xí)成績(jī),Y表示道德認(rèn)識(shí)水平,都是量化的數(shù)量指標(biāo),那么(X,Y)是二元隨機(jī)變量。我們要檢驗(yàn)的是X與Y是否獨(dú)立。所以原假設(shè)是。那么怎樣檢驗(yàn)?zāi)兀课覀儼裍的取值范圍分成四個(gè)部分,即所謂的優(yōu)、良、中、差四個(gè)等級(jí),分別用表示;將Y的取值范圍也分為四個(gè)部分,即好、中上、中下、差四檔,分別用表示。則原假設(shè)“”成立時(shí),我們必有那么,表中調(diào)查數(shù)據(jù)支持上面的這些等式嗎?HYPERLINKNext我們用表中數(shù)據(jù)將HYPERLINK上面等式中的各個(gè)概率一一估計(jì)出來,原假設(shè)成立的時(shí)候,HYPERLINKNext至少在樣本容量n較大的時(shí)候,我們可以近似地認(rèn)為,從而構(gòu)造否定域。事實(shí)上,當(dāng)H0成立時(shí),不應(yīng)該太大,所以給定檢驗(yàn)水平,否定域?yàn)椤T诒纠?,r=s=4,我們?nèi)?,查表得。統(tǒng)計(jì)量的觀測(cè)值為因?yàn)樗苑穸ㄔ僭O(shè),認(rèn)為道德認(rèn)識(shí)水平與學(xué)習(xí)成績(jī)有之間不獨(dú)立,有顯著的關(guān)系。作業(yè):還是自己完成計(jì)算。HYPERLINK相關(guān)分析與回歸分析簡(jiǎn)介在前面討論了兩個(gè)隨機(jī)變量X與Y之間的獨(dú)立性檢驗(yàn)問題。我們要清楚,研究的對(duì)象是二元隨機(jī)變量(X,Y),利用的是成對(duì)觀測(cè)數(shù)據(jù)。如果數(shù)據(jù)否定了獨(dú)立性假設(shè),那么X與Y之間的關(guān)系應(yīng)該怎樣描述呢?這是一個(gè)非常復(fù)雜的問題。下面我們通過實(shí)例介紹一點(diǎn)處理這類問題思路。HYPERLINKNextHYPERLINKNext分別用X和Y表示男性與女性得腸癌的病例數(shù)。我們簡(jiǎn)單地用上面的數(shù)據(jù)繪制一張散點(diǎn)圖,可以看出來X與Y之間有密切關(guān)系,二者顯然不獨(dú)立。它們是什么樣的關(guān)系呢?回顧一下概率論里學(xué)過的一個(gè)重要概念——HYPERLINKNext首先引入如下樣本相關(guān)系數(shù)的概念:對(duì)二元總體(X,Y)的樣本,定義樣本相關(guān)系數(shù)為其中分別為X和Y的樣本方差,叫X與Y之間的樣本協(xié)方差。這是第三個(gè)重要統(tǒng)計(jì)量,與總體相關(guān)系數(shù)相對(duì)應(yīng)。例如,利用本例中的數(shù)據(jù)可求得樣本相關(guān)系數(shù)為。那么,怎樣充分發(fā)揮這個(gè)統(tǒng)計(jì)量的作用呢?下面我們講講如何利用它對(duì)總體相關(guān)系數(shù)作假設(shè)檢驗(yàn)和區(qū)間估計(jì)。HYPERLINKNext1、原假設(shè)為對(duì)立假設(shè)為在原假設(shè)成立的情況下,可以證明下面的統(tǒng)計(jì)量服從自由度為n-2的t分布:.所以給定檢驗(yàn)水平,可得原假設(shè)的否定域。(HYPERLINK圖)本例中我們?nèi)〔楸淼?,而,否定原假設(shè),認(rèn)為男女患腸癌人數(shù)之間存在高顯著相關(guān)性,而且是正相關(guān)。HYPERLINKNext 2、原假設(shè)為對(duì)立假設(shè)為英國(guó)統(tǒng)計(jì)學(xué)家Fisher提出了如下統(tǒng)計(jì)量,其中如果原假設(shè)成立,那么當(dāng)n充分大時(shí),Z近似服從N(0,1)分布。所以給定檢驗(yàn)水平,原假設(shè)的否定域?yàn)?。本例中n=41比較大,可用此統(tǒng)計(jì)量。我們檢驗(yàn)一下原假設(shè)。計(jì)算統(tǒng)計(jì)量的值:HYPERLINKNext查標(biāo)準(zhǔn)正態(tài)分布表易知,對(duì)于任給的一個(gè)檢驗(yàn)水平,一般都有,所以否定原假設(shè),認(rèn)為。這個(gè)結(jié)果還提示我們,應(yīng)該有那么是否會(huì)有呢?我們提出如下原假設(shè),再做單邊檢驗(yàn)HYPERLINKNext3、一般地,可以證明在成立的情況下,所以,成立時(shí),給定檢驗(yàn)水平,有,所以,還是用上面給的統(tǒng)計(jì)量Z,可得否定域本例中我們?nèi)〔楸淼?,而,否定原假設(shè),認(rèn)為男女患腸癌人數(shù)之間的相關(guān)系數(shù)比0.95還要大。那么,這個(gè)相關(guān)系數(shù)到底有多大呢?我們下面做一個(gè)區(qū)間估計(jì)。HYPERLINKNext區(qū)間估計(jì)我們要對(duì)相關(guān)系數(shù)作區(qū)間估計(jì),就要找一個(gè)樞軸變量。在n較大的時(shí)候,選用即可,這時(shí)近似地。所以給定置信水平,有HYPERLINKNext所以的置信水平為的置信區(qū)間為.本例中,我們?nèi)。傻脧亩闹眯潘綖?.95的置信區(qū)間為[0.9898,0.9971],可見男女患腸癌人數(shù)之間的相關(guān)系數(shù)是非常高的。作業(yè):完成計(jì)算!HYPERLINKNext但是要注意,這不說明兩者之間有因果關(guān)系。我們也不會(huì)找一個(gè)由X計(jì)算Y或由Y計(jì)算X的公式,因?yàn)橐话闱闆r下這兩個(gè)數(shù)總是同時(shí)觀測(cè)到的。此例表明,相關(guān)系數(shù)可以刻畫兩個(gè)量之間的線性關(guān)系的強(qiáng)弱,但是為什么有這種關(guān)系,則不是統(tǒng)計(jì)學(xué)可以解決的問題。注:上面用到的Z,只有當(dāng)樣本容量n較大時(shí)才近似服從標(biāo)準(zhǔn)正態(tài)分布。一般當(dāng)時(shí)我們用它。當(dāng)時(shí),統(tǒng)計(jì)學(xué)家建議用用如下的HYPERLINKHotelling統(tǒng)計(jì)量代替Z:其中。在進(jìn)行區(qū)間估計(jì)時(shí),其中的換成即可。它還是近似服從標(biāo)準(zhǔn)正態(tài)分布。HYPERLINKNextHYPERLINK\

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論