關于Poisson分布的檢驗講解_第1頁
關于Poisson分布的檢驗講解_第2頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、承諾保證書I1引言11.1 研究背景11.2 研究方法及目的12Poisson分布檢驗的步驟和基本理論22.1 檢驗步驟22.2 檢驗的基本原理33關于Poisson分布檢驗的三個案例及實際研究73.1 案例分析73.2 對單位時間到來顧客數的實際研究13參考文獻18英文摘要19II關于Poisson分布的檢驗肖秋光摘要:Poisson分布是概率論中的一種重要離散分布,在許多實際問題中都有著廣泛應用本文概括了檢驗樣本數據是否服從泊松分布的一般方法,主要是對隨機數據進行圖像模擬估計和利用假設檢驗原理對給定的臨界值進行估計其中x2檢驗是眾所周知的擬合優(yōu)度檢驗,它能適用于任意的備擇假設.另外,通過三

2、個例子進行說明,最后用該方法對實測數據進行了分析和檢驗,并得出了結論.關鍵詞:Poisson分布假設檢驗獨立變量x2統(tǒng)計量1引言1.1研究背景改革開放三十年來隨著社會的發(fā)展、經濟的增長,科學技術日新月異、人民擁有的物質日益豐富、感受到的文化也更加多元、社會的各種法規(guī)制度日臻成熟,無論是住房、保險、交通、旅游、高質量產品還是教育、飲食等.其結果是構成了大量的隨機數據,而這些數據有沒有什么規(guī)律可循呢?就需要我們對它進行研究.在現實生活中的許多數據經過人們大量的研究是服從泊松分布的.若通過觀察記錄得到了一組數據,它是否服從泊松分布,則需要我們對其進行檢驗.泊松分布是1837年由法國數學家泊松(Poi

3、ssonS.D.17811840)首次提出的.它是概率論中的一種重要的離散型隨機變量的概率分布,在理論上和實踐中都有廣泛的應用.如110報警臺24小時接到的報警次數、一定時間內發(fā)生的意外事件次數或災害次數、布匹上的疵點數目、放射性物質放射出的粒子數目等.1.2研究方法及目的由于向110報警臺的報警是一次次到來的;自然災害是一次次發(fā)生的;放射性粒子是一個個射出的;進入商場的人是一個個到來的它們都可以看成是一種于隨機時刻到來的“質點流”.要對其進行研究,首先,必須收集到有效的數據.其次,由于得到的樣本數據通常是實驗或統(tǒng)計而來,因此它不能完全的反映事物的本質.我們主要對部分數據進行抽取分析,根據部分

4、數據對全體數據做出推斷及判斷.因此,研究單位時間內產生的諸多隨機變量有助于當事者們對各種新措施、新技術作出更為科學合理的決策.例如,商場每個時段到達的人數不一,通過調查可以確定哪個時段是人流的高峰期,可以在這個時段做一些宣傳或促銷產生的效益就會比其他時段高,并有效控制成本,使其用最小的投入換來最大的收益.2Poisson分布檢驗的步驟及基本理論2.1檢驗步驟2.1.1數據整理進行Poisson分布的檢驗時,首先要對收集到的數據進行整理.假設收集到單位時間的量為x,x,xx,然后把這些量按從小到大順序排列起來,并查123n出其頻數稍加整理制成表格如下:表1單位時間的量xi012xi頻數pip0p

5、1p2pi其中滿足:x+x+x=0xp+1xp+xxp12n01ii2.1.2 用圖像對樣本數據進行模擬由于圖形比較直觀,而且樣本數據在一定程度上能有效反映總體的分布規(guī)律,故可以用樣本數據的圖像模擬通過對比,對該分布進行初步判斷.泊松分布的圖形一般為左偏,但隨九數值的增大,圖形趨于對稱.F<Jtt4)0,080,05CM0.02f0泊松分(A-12)圖12.1.3 檢驗得出結論2.2檢驗的基本理論2.2.1 假設檢驗假設檢驗是對總體的分布函數形式或分布的某些參數作出某些可能的假設,然后根據所得的樣本數據,對假設的正確性作出判斷.假設檢驗的步驟: 根據問題建立原假設和備擇假設原假設是設總體

6、參數等于某一數值,而備則假設是根據研究的目的來確定:可采用雙側檢驗,也可采用單側檢驗.確定單、雙側檢驗的同時,也就確定了接受域和拒絕域的位置. 選擇適當的樣本統(tǒng)計量,并確定以H°為真時的抽樣分布這一步是假設檢驗的關鍵,需要根據已知條件找到一個包含待檢驗總體參數和樣本數據的已知分布,并計算出統(tǒng)計量的數值. 選定顯著性水平a,確定臨界值a應在抽樣之前就確定下來,根據單、雙側檢驗的情況,將a放置一側或雙側.然后根據第二步驟中所選擇統(tǒng)計量服從的分布,查相應分布表,確定臨界值. 進行判別,得出結論將第二步計算的數值與第三步得到的臨界值進行比較,根據判別原則,作出結論.2.2.2 最大似然估計及

7、擬合優(yōu)度x2檢驗3最大似然估計中采樣需滿足一個很重要的假設,就是所有的采樣都是獨立同分布的下面我們具體描述一下最大似然估計:為模型參數,f為我們所使首先,假設x,x,x為獨立同分布的樣本,012n用的模型,遵循我們上述的獨立同分布假設參數為0的模型f產生上述樣本可20表示為f(x,x,,x19)=f(x19)xf(x19)xxf(x19)12n12n在上面的假定模型且參數是未知的基礎上,這時,我們已知的有X1,3,I,未知的有0,所以似然函數定義為:L(9)=f(x,x,x19)=nf(x19)12nii=1L()稱為樣本的似然函數倘若存在一個值,使得在9時有L(x,x,,x19)=maxL(

8、x,x,,x19)12n9國12n則稱9是9的一個極大似然估計值,簡記為MLE.在實際應用中通常采用的是兩邊取對數,得到公式如下:InL(9)=1LInf(x19)ii=1由于ln(x)是x的單調增函數,因此,使對數似然函數InL(9)達到最大與L(9)達到最大是等價的.令二InL(9)=0,即可解出9的極大似然估計值9d9若總體X是具有參數九0的泊松分布,X,X,,X為來自總體X的一個樣12n本,則似然函數為:l(x)=ni=1尢x.-e-九x!=(n“=e-滋x!i=1iInL(九)=一工Inx!n九+ii=1(工x)ln九ii=1dinL(X)匸di=一"+U得如下方程:Xxi

9、n+-i=i=0,九1n從中解得:i1Xx,nii=1又d2lnL(九)|dA/2X=Xn乙xii=1于是參數九的最大似然估計為:x.X2擬合優(yōu)度的檢驗,是通過X2統(tǒng)計量來檢驗變量的實際分布是否與理論分布相同所謂擬合優(yōu)度,是指實際觀察的頻數與期望(理論)頻數相似的程度.X2檢驗可以對各種假設的分布進行檢驗.在對各種分布進行檢驗時,應將各變量值做適當分類,使每一類別的期望頻數大于等于5在選定類別時,如果變量值是有限個,則可以將其每一個取值作為一個類別;如果變量值可以取無限個,則通過適當合并,將其變?yōu)橛邢迋€區(qū)間,把每一個區(qū)間視為一類.2.2.3P值檢驗所謂P值,是指在一個假設檢驗問題中,利用觀測值

10、能夠做出拒絕原假設選擇的最小顯著性水平,如果p值小于顯著性水平«,則相應的檢驗統(tǒng)計量的值落入拒絕域中.其檢驗規(guī)則為:若a>p值,則拒絕原假設H;0若a<p值,則接受原假設H.02.2.4Poisson分布檢驗設總體X服從具有參數為i>0的泊松分布,X,X,X,,X為其樣本.123n考慮檢驗問題:H:九=九;H:九H九,現有0i=1p(x;i)=liei=e-"入九刀%x!i=1i1n(x!)ii=101x)ln九i1n(x!)ii=1其中T(x,x,,x)=工x,b(九)=In九12nii=11h(x,x,x)=,c(")=en九12nn打(x!

11、)ii=11,T<c&>c12b,T=c,j=1,2ij0,c<T<c12aE工X-=Ei"0i=1a=(尢l0,九)=0則申(x,x,,x)工x12niEtp(x,x,,x"012n當H為真時,統(tǒng)計量T=2X服從參數為n九的泊松分布,E(T)=n九,則0i00i=1£(n九)j>+b(")>+b(-)0en"0+(n九)qen"0+(n九)c2en"0j!c!0c!012-叫+j=c2+1藝加)丿j!nM=£)(叫je叫+0j=0j!j=c2+1bcbcen"

12、0+-(n九en"0+22(n九)c2en"0c!0c!012在一般情況下上述方程不易求解,但當九不接近于零而n又不很小時,統(tǒng)計量0£X一n九i0U=4的漸進分布為正態(tài)分布N(0,1),則v;nX0P工Xn九<u=P工Xn九>u嘰.=1°0J"o,=1i0b,b,c,c1212對一切實數u都漸近地成立(這是因為正態(tài)分布具有對稱性)因此,由下式確定:a另(n九)jb(7)£(n九)j2j!0c!'0八0j!j=011j=c2+1+b2(nX)cc02e一叫)3關于Poisson分布檢驗的三個案例及實際研究3.1 案例

13、分析3.1.1 論反腐敗與泊松分布腐敗現象作為當今社會的一種非常態(tài),它的發(fā)生、出現引起了廣大群眾的關注.調查顯示最近幾年科級腐敗正在加劇,小官受賄成隱患.據悉,某檢察院工作人員對某經濟較落后省的320個底層官員在一年時間內的受賄金額調查紀錄如下表所示.根據這些數據(金額0表示未受賄,金額1表示受賄金額大于0小于等于1,其余類同)檢驗受賄金額是否服從泊送分布.表21年內320個官員受賄金額(萬元)統(tǒng)計表金額0123456789>10合計人數154770815225169410320來源于參考文獻6用折線圖像模擬數據如下:官員受賄頻數圖系列11234567891011受賄金額圖2從圖形走勢看

14、,為左偏凸值分布,與泊松分布較為相似,可初步判定為泊松分布.在理論上,這里我們需要檢驗的是在一年的時間段內受賄官員的受賄金額是否服從泊送分布,所以可以假設H0:一年的時間內受賄官員的受賄金額服從泊送分布;H1:一年的時間內受賄官員的受賄金額不服從泊送分布x!我們知道泊送分布的概率密度函數為f(X=x)x°Z,式中::是未知參數.如果假設為真時,可以根據本數據估計九.由上表的數據可以的到在320個底層官員中,平均每一官員受賄的金額(萬元),即八0x15+lx47+9x1+10x0九=3.0320因此,可以用X作為九的估計值,即得到為真時的概率密度函數f(X3xe-3x!根據該密度函數,

15、就可以計算出在每一個官員的受賄金額為各個類別出現的概率,這些概率值可通過泊送分布表查得.例如,在一年內受賄金額為0萬元的官員人數的概率是f(X=0)=0.498,受賄金額為1萬元的概率是f(X=1)=0.1494等然后用查出的概率分別乘以樣本容量n(n=320),就可以得到各類別期望的頻數例如,在320個官員中受賄金額為0萬元的期望頻數是0.0498x320二15.936下表列出了X2統(tǒng)計量的計算過程.表3X2統(tǒng)計量的計算過程受賄金額xi為真時的f(X二x)i實際頻數ni期望頻數e=n-f(X=x)ii(ne)2iiei00.04981515.9360.055010.14944747.8080

16、.013720.22407071.680.039430.22408171.681.211840.16805253.760.057650.10082532.2561.632260.05041616.1281.015970.021696.91280.008142.5920.981290.002710.86410萬元以上0.001200.384合計1.00003203205.0068我們注意到表中,受賄金額為8,9和10萬元次及以上金額的期望頻數都小于5,所以將這三類歸于受賄金額為7萬元的合并為一類,所以合并之后的類別數k二8.這時咒2統(tǒng)計量為x2-丈(niei)2-5.0068ei-1i需要注意的

17、是:根據Pearson定理,上式的咒2統(tǒng)計量服從自由度為k-r-1的咒2分布,其中k時類別的個數,r是估計的總體參數的個數在這里k=&r=1(只估計了一個參數九),所以自由度為k-r-1二8-1-1二6.于是,當0.05時,查表可得x2(6)二12.592.對于樣本的X2值,因為咒2</2(6)落在接受域中所0.050.05以接受H0,拒絕H,即在一年的時間中該地區(qū)官員的受賄金額是服從泊松分布的.大家熟知當n很大,p很小時的二項分布趨于泊松分布.按照泊松分布的規(guī)律,一項非正常態(tài)現象的出現除了在總體中的概率很小外,其最明顯的特征則是常常集中分布.通過上面檢驗和大量案例表明,腐敗現象

18、作為社會現象中的一種非正常態(tài),其發(fā)生和發(fā)展呈泊松分布規(guī)律,特點是總體上的稀有性和局部的密集性加偶然性,具體表現有“前腐后繼案”、“串案”、“窩案”等形式.因此治理腐?。阂皇且M早發(fā)現,盡快懲前毖后;二是不能搞擴大化;三是要綜合治理.其次表明,泊松分布密集出現的概率跟社會體制有關,尤其是在經濟轉型、社會發(fā)生變革的時期容易出現。比如我國正處于向社會主義市場經濟的過渡時期,法制不健全,各項改革和管理措施還跟不上形勢發(fā)展的需要,所以腐敗現象就表現得比較明顯和集中。若從歷史長河中看,這種過程還是短暫的,從全局來看它也只集中在某些特定的行業(yè)和領域,而大部分時間和大部分領域都是正常的,都是非腐敗的。3.1.

19、2 盧瑟福散射實驗盧瑟福散射是近代物理科學發(fā)展史中最具影響力的重要實驗之一。1909年盧瑟福(L.E.Rutherford)和其合作者蓋革(H.Geiger)與馬斯(E.Marsden)進行的a粒子散射實驗,為原子的核式模型奠定了實驗基礎。他們在云霧實驗室觀察鐳所發(fā)射出的a粒子數目.記錄了2608個相等時間間隔(他們以7.5秒為一個時間段)內觀測了一放射性物質鐳放射的a粒子數x,表4X二i012345678910>11ni572033835255324082731394527106來源于參考文獻7在上表中的n是觀測到i個粒子的時間間隔數(最后一項已經合并)若要i檢驗觀測的數據服從泊松分布

20、這一假設(“0.05),貝V:因為對參數為九的泊松分布是:P(X=k)=±e-X,k=0,1,2k!根據上表原始數據可以算得X最大似然估計X二X二3.870而X二3.870的泊松分布通過計算機計算及查表(泊松分布函數表)可得下表:表5inipinp.(nnp)2iinpi0570.20954.50.114712030.0807210.50267223830.1562407.41.461435250.2015525.50.000545320.1950508.61.076654080.1509393.50.534362730.0973253.81.452571390.0538140.30

21、.01208450.026067.87.66739270.011229.20.165810100.005311.20.1286>1160.00225.70.0158總和26081.0000260812.8967因此x2二12.8967,其自由度為12-1-1=10,對0.05查(咒2分布分位數X2(n)表)得X2(10)二18.307,所以我們接受H,認為觀測數據服從泊松分布.p0.050盧瑟福等人經過兩年時間綜合多方面因素的分析,在1911年提出原子的核式模型,原子中的正電荷集中在原子中心很小的區(qū)域內,而且原子的全部質量也集中在這個區(qū)域內.原子核的半徑近似為10,約為原子半徑的千萬分之

22、一.盧瑟福散射實驗確立了原子的核式結構,為現代物理的發(fā)展奠定了基石.這充分表明研究泊松分布具有重大意義.3.1.3 對印刷錯誤個數的檢驗一個檢驗員檢查了一本書的100頁,并仔細記錄各頁中印刷錯誤的個數,其結果為:表6錯誤個數fi0123456>7含f個錯誤的頁數i36401920210其頻數模擬如下圖:圖4若要檢驗一頁的印刷錯誤個數是否服從泊松分布.(取0.05)則:假設H:總體X服從泊松分布;H:總體X不服從泊松分布0136x0+40x1+19x2+2x3+0x4+2x5+lx6+0x7從表中數據可得:x=1100當H成立時,九的最大似然估計為九=x=1,檢驗的拒絕域為:0f2X2=E

23、L-n>x2(k-r-1)npi由給出的條件可知n二100二p(X=0)=卷=03679,=p(X=1)=0.367912e-1二p(x=2)=-2T=0J8397,13e-1二p(x=3)=-3T=0.0613p=p(X=4)=414e-1-4廠=0.01533,15e-1=p(X=5)=5-=0.00306616e-1p=p(X=6)=0.000511,66!p二p(X>7)二1-fp二0.0000237ii=0而對于j>3,有np.<5,j將其合并得£np=8.023,合并后k=4,查x2分布jj=3分位數x2(n)表可得:X2(4-1-1)=5.991

24、p0.05x2362402+36.7936.79+52-100=1.44418.3978.023由1.444<5.991,故在a=0.05下,我們接受H°,即可認為一頁的印刷錯誤個數服從泊松分布.通過對印刷錯誤的研究,我們可知每頁印刷錯誤在一個左右時是正常的,所以在使用書刊時發(fā)現錯誤不用大驚小怪.3.2對單位時間到來顧客數的實際研究在2011-3-11日星期五,通過實際采樣,記錄了上午10:5512:05的70分鐘內每分鐘到達聯合書城的人數,記錄如下:4875011594216574078551914130375210532517459113494611101212443968

25、8138304578通過整理可以得到下表:表7每分鐘進入的人數012345678910111213實際頻數51146101036651111顯然,可以初步認為進入書城的顧客流是相互獨立的隨機數.首先用圖像初步模擬一下,其散點圖如下:每分鐘到達人數的頻數分布數系列1圖5上圖和普通的泊松分布圖相比差別比較大,有兩處凹陷的地方,初步判斷不是泊松分布.基于以上內容,下面用假設檢驗原理對其檢驗.首先,假設顧客數是服從Poisson分布的.即H:每分鐘進入的人數服從泊松分布;0H1:每分鐘進入的人數不服從泊松分布.根據前文內容可知,Poisson分布的最大似然估計九=無,則計算平均數八0-5+lx11+2

26、x4+3x6+4x10+5x10+6x3+7x6+8x6+9x5+10x1+llx1I=7012x1+13x170沁4.6571由于泊松分布表提供的九整數位后只有一位小數,而無介于4.6到4.7之間所以可以:用無=4.6作為九的估計值用無=4.7作為九的估計值,因此,用無作為九的估計值,即得到H為真時的概率密度函數03.4.1當取九二4.6時,有f(X=x)=4.6x°e",查泊松分布表計算得下表,其x!中X2統(tǒng)計量按四舍五入取小數點后四位.表8進入人數xi為真時的f(X二x)i實際頻數ni期望頻數(n-e)2e=nif(X二x)iiiei00.01015-0.707>

27、;10.046211A203.234»11.3826.525220.10634-7.44130.1631611.4172.570240.18751013.1250.744050.17251012.0750.356560.132339.2614.232870.0869S6.083、80.050063.50090.025551.785100.011810.826110.00491(210.3436.52532.1112120.001910.133130.000710.049大于130.00030丿0.021丿合計1707046.5399從表中觀察進入人數為0,1,8及其以上的期望頻數都小

28、于5,所以將進入人數為0,1的與進入2個的合并為一類,進入8個及以上與進入7的合并為一類,那么合并后的類別數k二6,其X2統(tǒng)計量為:X2仝®二£=46.5399e1i根據Pearson定理,X2統(tǒng)計量服從自由度為k-r-1的x2分布,在這里k=6,r=1,所以自由度為4于是,當0.05時,查X2分布表得X2(4)=9.4880.05對于樣本的X2值,有X2>X2(4)落在拒絕域內所以拒絕H,接受H,即每分0.0501鐘進入書城的人數不服從泊松分布,與用圖像模擬得到的初步結論一致.3.4.2當取九二4.7時,有f(X=x)=°”°"4&qu

29、ot;,查泊松分布表計算得下表表9進入人數xi為真時的f(X二x)i實際頻數ni期望頻數(n-e)2e=nif(X二x)iei00.00915j0.637、10.042711L202.989”10.6618.180920.10054J7.035<30.1574611.0182.885440.18491012.9430.669250.17381012.1660.385660.136239.5344.478070.09146、6.39880.053763.75990.028051.960100.01321l0.924I110.00561210.392f13.6643.9386120.0022

30、10.154130.000810.056大于130.00030丿0.021,合計1.00007069.98620.5377其余同上,當«二0.05時,查咒2分布表得咒2(4)=9.488對于樣本的咒2值,仍然0.05有咒2咒2(4)落在拒絕域內,結論也一致.0.05按照眾多學者研究,在一般情況下對于這種隨機變量的檢驗應該服從Poisson分布.在這里為什么得到了相反的結論?我認為可能有兩點原因:一是所采集到的樣本數據可能具有特殊性,不能完全反映總體的分布,若多測幾組數據進行檢驗結果可能會改變;二是我們假設的前提是每個人相互獨立,而實際情況有許多人是有關聯的,例如一個家庭四個人同時進入、兩個好朋友陪同一個朋友買書等諸多情況,這個因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論