![數(shù)據(jù)科學統(tǒng)計基礎課件_第1頁](http://file4.renrendoc.com/view10/M03/3D/32/wKhkGWXN6EeAcOduAAHL3XWP6D4788.jpg)
![數(shù)據(jù)科學統(tǒng)計基礎課件_第2頁](http://file4.renrendoc.com/view10/M03/3D/32/wKhkGWXN6EeAcOduAAHL3XWP6D47882.jpg)
![數(shù)據(jù)科學統(tǒng)計基礎課件_第3頁](http://file4.renrendoc.com/view10/M03/3D/32/wKhkGWXN6EeAcOduAAHL3XWP6D47883.jpg)
![數(shù)據(jù)科學統(tǒng)計基礎課件_第4頁](http://file4.renrendoc.com/view10/M03/3D/32/wKhkGWXN6EeAcOduAAHL3XWP6D47884.jpg)
![數(shù)據(jù)科學統(tǒng)計基礎課件_第5頁](http://file4.renrendoc.com/view10/M03/3D/32/wKhkGWXN6EeAcOduAAHL3XWP6D47885.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)及其描述:統(tǒng)計量1.1數(shù)據(jù)和變數(shù)1.2總體、樣本和統(tǒng)計量1.3從樣本認識總體的圖表方法1.4次序統(tǒng)計量1.5抽樣分佈1.6充分統(tǒng)計量1.7常用的概率分佈族1.8與本章相關(guān)的R語言操作
第1章數(shù)據(jù)及其描述:統(tǒng)計量
統(tǒng)計學是探討隨機現(xiàn)象統(tǒng)計規(guī)律性的一門學科,它以概率論為理論基礎,研究如何以有效的方式收集、整理和分析受到隨機因素影響的數(shù)據(jù),從而對研究對象的某些特徵做出判斷。
數(shù)據(jù)和變數(shù)PART1.11.1數(shù)據(jù)和變數(shù)1.1.1數(shù)據(jù)的例子數(shù)據(jù)的記錄手段具有明顯的時代特徵。數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)按照收集方法可以分為觀測數(shù)據(jù)和試驗數(shù)據(jù)。凡是可以電子化記錄的其實都是數(shù)據(jù)。這裏所說的記錄不是靠自然人的大腦,而是通過必要的資訊化技術(shù)和電子化手段。1.1數(shù)據(jù)和變數(shù)1.1.2變數(shù)的類型這些特徵在不同研究個體的取值是不同的,因此稱為隨機變數(shù)(或簡稱變數(shù),一維情況)或隨機向量(二維及以上)。變數(shù)有很多類型,主要分為兩種。往往我們要研究的並不是一個問題的所有方面,而是某些感興趣的維度(或稱為特徵),比如某地區(qū)居民的收入水準,某疾病的發(fā)病率與飲食習慣的關(guān)係等。一種是定量變數(shù)或數(shù)量變數(shù),比如五年級男生身高,某款汽車的速度,某種疾病的患病人數(shù);另外一種變數(shù)類型稱為分類變數(shù)或定性變數(shù)、示性變數(shù)、屬性變數(shù)、因數(shù)型變數(shù),比如性別、職業(yè)、地區(qū)等。分類變數(shù)有些是有序的,比如信用等級、工資收入等級等,稱為定序變數(shù)。1.1數(shù)據(jù)和變數(shù)1.1.2變數(shù)的類型連續(xù)型變數(shù)(區(qū)間變數(shù)、實數(shù)型變數(shù)):取值範圍是某區(qū)間中的任何值離散型變數(shù):取整數(shù)值或可數(shù)數(shù)量集合值的變數(shù)。年齡一般來說,應該是連續(xù)型的;但往往取整數(shù),成了離散型;而在問卷調(diào)查中,往往在年齡的若干選項(比如”幼年“、”青年“、
”中年“,”老年”)中選擇一個,這就是分類變數(shù)或者定序變數(shù)了。變數(shù)類型並不是絕對的1.1數(shù)據(jù)和變數(shù)1.1.2變數(shù)的類型變數(shù)的種類實際上是由人們對變數(shù)的約束而定的比如顏色(紅、黃、藍、紫等),最原始的變數(shù)是定性變數(shù)。定性變數(shù)包含最少的約束。定序變數(shù)是把定性變數(shù)加了大小的約束,
比如按照波長的大小排列順序,
則有紅>黃>藍>紫。如果按照頻率排列,這個順序則相反。定量變數(shù)則不僅僅排序,而且有數(shù)目,每一個顏色都由特定的頻率或波長定義,這就稱為連續(xù)變數(shù)或者區(qū)間變數(shù)。1.1數(shù)據(jù)和變數(shù)1.1.2變數(shù)的類型表1.1.1顏色的頻率和波長1.1數(shù)據(jù)和變數(shù)1.1.2變數(shù)的類型對數(shù)據(jù)的人為約束越多,
數(shù)據(jù)在模型中所起的作用越小。
或者說“自由度”越小。比如,把年齡排序成(或者用歲數(shù)這樣的整數(shù)):老>中>青>幼,看上去似乎更合理。實際上,這意味著老年和幼年是兩個極端的現(xiàn)象。但在體力上和心理上,老年和幼年卻呈現(xiàn)了一些類似,這種資訊容易被排序(或數(shù)量化)所埋沒但也可通過模型選擇學習出這種非線性的影響。如果按照體力或智力排序,則會有不同的結(jié)果。第1章數(shù)據(jù)及其描述:統(tǒng)計量總體、樣本和統(tǒng)計量PART1.21.2總體、樣本和統(tǒng)計量1.2.1總體和分佈在一個統(tǒng)計問題中,我們把研究對象的全體稱為總體,其中每個成員稱為個體。在實際問題中,總體是客觀存在的人群或物類。這是對總體這個概念在研究問題的對象這個層面的理解。總體可以用一個概率分佈來描述,其數(shù)量指標X就是服從這個分佈的隨機變數(shù)。因此,常常用隨機變數(shù)的符號或分佈的符號表示總體。因此,常常用隨機變數(shù)的符號或分佈的符號表示總體。以後我們說“從某總體中抽樣”和“從某分佈中抽樣”是同一個意思。1.2總體、樣本和統(tǒng)計量1.2.1總體和分佈如果我們要研究的問題不只是一個維度,而是二維或更高維度。比如研究兒童血色素(X1)同其性別(X2)、年齡(X3)之間的關(guān)係。那麼總體仍然是一堆數(shù),只不過每個元素不是一個數(shù)字,而是一個向量。這個總體仍然可以用一個概率分佈來描述,就是(X1,X2,X3)的聯(lián)合分佈。更進一步的,數(shù)據(jù)的維度可能會很高,幾千、上萬,甚至更高,我們可以假設這些變數(shù)之間有某種相互關(guān)係,從而假定一些條件分佈的形式,使用統(tǒng)計模型或演算法進行數(shù)據(jù)分析,這是後續(xù)專業(yè)課的具體內(nèi)容,本書只有少量涉及。但本書所介紹的思想和原則是後續(xù)所有專業(yè)課的基礎。1.2總體、樣本和統(tǒng)計量例1.2.1為了解某地區(qū)居民在某網(wǎng)站購物情況,回答以下三個問題:網(wǎng)上購物居民占所有居民的比例:二項分佈過去一年內(nèi)網(wǎng)購居民的購物次數(shù):離散分佈過去一年內(nèi)網(wǎng)購居民的購物金額:連續(xù)分佈1231.2總體、樣本和統(tǒng)計量例1.2.2彩色濃度是彩電品質(zhì)好壞的一個重要指標。20世紀70年代在美國銷售的SONY牌彩電有兩個產(chǎn)地:美國和日本。其彩色濃度的標準值為??,允許範圍是[???5,??+5],否則為不合格品。在70年代後期,美國消費者購買日產(chǎn)SONY彩電的熱情明顯高於購買美產(chǎn)SONY彩電,這是為什麼呢?等級ⅠⅡⅢⅣ美產(chǎn)33.333.333.30日產(chǎn)68.327.14.30.3表1.2.1各等級彩電的比例(%)1.2總體、樣本和統(tǒng)計量例1.2.3
1.2總體、樣本和統(tǒng)計量例1.2.4在文本數(shù)據(jù)分析中,我們要研究的個體是一篇篇文章。在轉(zhuǎn)換成數(shù)量指標之後,每篇文章可以對應成一個P1維向量。表示該文章在P1個詞語上的詞頻。我們認為這個P1維向量服從一定的概率分佈。在圖像分析中,個體是一張張圖片,對應的數(shù)量指標是P2維向量,表示圖片在P2個像素點的像素值,服從一個P2維的概率分佈。1.2總體、樣本和統(tǒng)計量1.2.2樣本普查,又稱全數(shù)檢查,即對總體中每個個體都進行檢查或觀察。抽樣,即從總體抽取若干個體進行檢查或觀察,用所獲得的數(shù)據(jù)對總體進行統(tǒng)計推斷,這一過程可用圖1.2.4示意。圖1.2.4總體及其樣本1.2總體、樣本和統(tǒng)計量1.2.2樣本從總體中抽出的部分(多數(shù)場合是小部分,即使現(xiàn)在的大數(shù)據(jù),也只是總體的一部分)個體組成的集合稱為樣本,樣本中所含的個體稱為樣品,樣本中樣品個數(shù)稱為樣本量或樣本容量。由於抽樣前不知道哪個個體被抽中,也不知道被抽中的個體的測量或試驗結(jié)果,所以容量為n的樣本可看做n維隨機向量,用大寫字母X1,X2,…,Xn表示。用小寫字母x1,x2,…,xn表示其觀測值(實現(xiàn)值),這就是我們常說的數(shù)據(jù)。如果進行多次重複抽樣,樣本的觀測值會不同。一切可能觀測值的全體稱為n維樣本空間。1.2總體、樣本和統(tǒng)計量例1.2.3樣本的例子某公園的一次性門票為200元,一年內(nèi)可以無限次入場的年票價格為595元。為檢驗該票價制度的合理性,隨機抽取1000位年票持有者,記錄了他們某年入園遊覽的次數(shù)。見表1.2.2.這是一個容量為1000的樣本。1.2.2樣本遊覽次數(shù)012345+人數(shù)45219210213148165表1.2.21000位年票持有者某年入園遊覽的次數(shù)11.2總體、樣本和統(tǒng)計量例1.2.3樣本的例子某學院學生的體測數(shù)據(jù),包含體重(斤)、腰圍(碼)、1分鐘脈搏(次)、引體向上次數(shù)、5分鐘仰臥起坐次數(shù)和1分鐘跳繩次數(shù),隨機抽取20人,如表1.2.3所示。這是一個容量為20的多維樣本。1.2.2樣本表1.2.320名學生的體測數(shù)據(jù)21.2總體、樣本和統(tǒng)計量1.2.2樣本樣本來自總體,樣本包含總體資訊。 為了使所抽取的樣本能很好地反映總體,抽樣方法的確定很重要。最理想的抽樣方法是簡單隨機抽樣,它滿足如下兩個要求:隨機性:即要求總體中每個個體都有同等的機會被選到樣本中。這說明樣本中每個X??的分佈相同,均與總體X同分佈。獨立性:樣本中每個個體的選取並不影響其他個體的選取。這意味著樣本中每個個體X??是相互獨立的。1.2總體、樣本和統(tǒng)計量1.2.2樣本由簡單隨機抽樣得到的樣本稱為簡單隨機樣本,簡稱樣本。此時(??1,??2,...,????)可以看成是相互獨立且服從同一分佈(independentandidenticaldistribution,iid)的隨機變數(shù),簡稱獨立同分佈樣本。如無特別說明,本書所指的樣本均為簡單隨機樣本。1.2總體、樣本和統(tǒng)計量1.2.2樣本例1.2.6樣本的例子有一批燈泡600只,現(xiàn)要從中抽取6只做壽命試驗,如何從600只燈泡中抽取這6只燈泡,使所得樣本為簡單隨機樣本?1.2總體、樣本和統(tǒng)計量1.2.3統(tǒng)計量定義
1.2.1不含任何未知參數(shù)的樣本函數(shù)稱為統(tǒng)計量。
1.2總體、樣本和統(tǒng)計量1.2.3統(tǒng)計量
11.2總體、樣本和統(tǒng)計量1.2.3統(tǒng)計量
21.2總體、樣本和統(tǒng)計量1.2.3統(tǒng)計量
31.2總體、樣本和統(tǒng)計量1.2.3統(tǒng)計量
41.2總體、樣本和統(tǒng)計量1.2.3統(tǒng)計量
51.2總體、樣本和統(tǒng)計量1.2.3統(tǒng)計量
5改進:1.2總體、樣本和統(tǒng)計量1.2.3統(tǒng)計量
61.3從樣本認識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖例1.3.11.頻數(shù)分佈表對於取值連續(xù)型的變數(shù),當樣本量n較大時,把樣本整理為分組樣本可得頻數(shù)頻率表,它可按觀察值大小顯示出樣本中數(shù)據(jù)的分佈狀況。光通量是燈泡亮度的品質(zhì)特徵?,F(xiàn)有一批220伏25瓦白熾燈泡要測其光通量的分佈,為此從中隨機抽取120只,測得其光通量如表1.3.1所示。1.3從樣本認識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖1.3從樣本認識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖為從這組數(shù)據(jù)中挖掘出有用資訊,常對數(shù)據(jù)進行分組,獲得頻數(shù)頻率表,即分組樣本。具體操作如下:
1.3從樣本認識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖
1.3從樣本認識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖表1.3.3120個光通量的頻數(shù)頻率表1.3從樣本認識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖
1.3從樣本認識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖直方圖的優(yōu)點是能把樣本中的數(shù)據(jù)用圖形表示出來。直方圖是直接對總體密度函數(shù)形狀的一種估計。在樣本量較大的場合,直方圖常是總體分佈的影子。如圖1.3.1上的直方圖中間高,兩邊低,左右基本對稱。這很可能是”白熾燈泡光通量常是正態(tài)分佈”的影子。又如圖1.3.2上的兩個直方圖是不對稱的,是有偏的,其相應的總體可能是偏態(tài)的。各種統(tǒng)計軟體都有畫直方圖的功能。1.3從樣本認識總體的圖表方法1.3.1頻數(shù)頻率表與直方圖圖1.3.2非對稱直方圖1.3從樣本認識總體的圖表方法對於分類型變數(shù)或者離散型變數(shù)(取值是整數(shù),但較少,按分類型變數(shù)處理)所對應的總體分佈(概率分佈列,各類別的取值概率)的估計可以使用條形圖或者餅圖。條形圖使用寬度相同的條形來表示各類別頻數(shù)多少的圖形。繪製條形圖時,各類別可以放在縱軸,也可以放在橫軸,條形的長短表示各類別的頻數(shù)或頻率。餅圖是用圓形及圓內(nèi)扇形的角度來表示數(shù)值大小的圖形。它主要用於表示一個樣本中各類別的頻數(shù)占全部頻數(shù)的百分比。例1.3.2對消費者喜歡的飲料類別進行數(shù)據(jù)調(diào)查,隨機訪問了200名用戶,其中喜歡“茶類飲品”、“碳酸飲料”、“果汁”、“礦泉水”、“其他”的人數(shù)分別是45、52、37、28和38。繪製的餅圖和條形圖如圖1.3.3。1.3.2餅圖與條形圖1.3從樣本認識總體的圖表方法圖1.3.3飲料調(diào)查數(shù)據(jù)的條形圖和餅圖0
10
20
30
40
50
茶類飲品碳酸飲料果汁礦泉水其他飲料類別消費者喜歡類別的條形圖頻數(shù)礦泉水14%果汁18.5%其他19%茶類飲品22.5%碳酸飲料26%消費者喜歡飲料類別的餅圖1.3.2餅圖與條形圖1.3從樣本認識總體的圖表方法1.3.3樣本的經(jīng)驗分佈函數(shù)1.經(jīng)驗分佈函數(shù)設總體X的概率密度函數(shù)為f(x),累積分佈函數(shù)為F(x)。從中抽取容量為n的簡單隨機樣本,對其觀測值X1,X2,...,Xn偏愛哪一個都沒有理由,故可把這n個值看做某個離散隨機變數(shù)(暫時記為X’等可能取的值;這就得到如下離散分佈:
X’X1X2…XnP1/n1/n…1/n1.3從樣本認識總體的圖表方法1.3.3樣本的經(jīng)驗分佈函數(shù)1.經(jīng)驗分佈函數(shù)
1.3從樣本認識總體的圖表方法1.3.3樣本的經(jīng)驗分佈函數(shù)例1.3.3為比較兩地區(qū)居民的收入差異,現(xiàn)隨機調(diào)查了每個地區(qū)10位居民的收入情況,數(shù)據(jù)如下:兩個地區(qū)居民收入的經(jīng)驗分佈函數(shù)如圖1.3.4所示??梢钥闯龃嬖诿黠@的差異,這表明兩個地區(qū)收入的總體分佈存在較大差異。1.3從樣本認識總體的圖表方法1.3.3樣本的經(jīng)驗分佈函數(shù)圖1.3.4兩個地區(qū)居民收入的經(jīng)驗分佈函數(shù)1.3從樣本認識總體的圖表方法1.3.3樣本的經(jīng)驗分佈函數(shù)1.經(jīng)驗分佈函數(shù)
1.3從樣本認識總體的圖表方法1.3.3樣本的經(jīng)驗分佈函數(shù)2.樣本矩
1.3從樣本認識總體的圖表方法1.3.3樣本的經(jīng)驗分佈函數(shù)2.樣本矩
1.3從樣本認識總體的圖表方法1.3.4高維數(shù)據(jù)的圖表展示方法在處理高維數(shù)據(jù)時,我們首先進行單變數(shù)分析,再進行兩兩間的相互分析。對於一維連續(xù)型變數(shù),我們可以繪製直方圖(總體密度函數(shù)的離散化估計);核密度估計曲線(使用非參數(shù)方法對密度曲線的估計,與直方圖相比,這是一條平滑的曲線);經(jīng)驗分佈圖(總體分佈函數(shù)的估計);對於一維離散變數(shù),我們可以繪製條形圖(分佈列的估計);餅形圖(分佈列的估計);1.3從樣本認識總體的圖表方法1.3.4高維數(shù)據(jù)的圖表展示方法對於兩個連續(xù)變數(shù)(??,??),我們可以繪製
對於兩個離散變數(shù),可以繪製分組條形圖(給定一個變數(shù)後,另一個變數(shù)取值的條件分佈);交叉列聯(lián)表;對於一個離散變數(shù)和一個連續(xù)變數(shù),可以繪製分組箱線圖。1.3從樣本認識總體的圖表方法1.3.4高維數(shù)據(jù)的圖表展示方法例1.3.4可展示的圖表包括:散點圖、密度曲線、箱線圖、直方圖、等高線圖等。下麵我們以例1.2.5(2)為例進行展示。1.3從樣本認識總體的圖表方法1.3.5數(shù)據(jù)變換例1.3.5某年級兩個班的概率論期末考試成績?nèi)缦拢?.3從樣本認識總體的圖表方法1.3.5數(shù)據(jù)變換圖1.3.5兩個班級概率論考試成績原始數(shù)據(jù)及標準化數(shù)據(jù)的盒形圖1.3從樣本認識總體的圖表方法1.3.5數(shù)據(jù)變換例1.3.6某款手機APP用戶每次登陸的使用時長(單位:秒)的隨機抽樣數(shù)據(jù)(n=50)如下:1.3從樣本認識總體的圖表方法1.3.5數(shù)據(jù)變換圖1.3.6某款手機APP用戶每次登陸的使用時長及其對數(shù)變換的直方圖1.4次序統(tǒng)計量1.4.1次序統(tǒng)計量的概念1.4.2樣本極差1.4.3樣本中位數(shù)與樣本p分位數(shù)1.4.4箱線圖和QQ圖1.4次序統(tǒng)計量1.4.1次序統(tǒng)計量的概念定義1.4.1
1.4次序統(tǒng)計量1.4.1次序統(tǒng)計量的概念例1.4.1設總體X的分佈為僅取0,1,2的離散均勻分佈,即現(xiàn)從中隨機抽取容量為3的樣本,該樣本一切可能取值有3^{3}=27種,現(xiàn)將它們都列在表1.4.1的左側(cè),而相應的次序統(tǒng)計量的取值列在表1.4.1的右側(cè)。1.4次序統(tǒng)計量1.4.1次序統(tǒng)計量的概念表1.4.1樣本X1X2X3及其次序統(tǒng)計量X(1)X(2)X(3)的取值1.4次序統(tǒng)計量1.4.1次序統(tǒng)計量的概念由表1.4.1可見,次序統(tǒng)計量(X(1)X(2)X(3))與樣本(X1X2X3)的分佈不相同,具體表現(xiàn)在以下幾個方面。(1)X(1)X(2)X(3)
的分佈不同。(2)任何兩個次序統(tǒng)計量的聯(lián)合分佈也是不同的。(3)任意兩個次序統(tǒng)計量是不獨立的,例如:
1.4次序統(tǒng)計量1.4.2樣本極差定義1.4.2
(1)極差含有總體標準差的資訊。(2)極差受樣本量影響較大。圖1.4.1樣本(用x表示)極差反映總體分散程度1.4次序統(tǒng)計量1.4.2樣本極差例1.4.2
1.4次序統(tǒng)計量1.4.3樣本中位數(shù)與樣本p分位數(shù)定義1.4.3
n為奇數(shù)n為偶數(shù)1.4次序統(tǒng)計量1.4.2樣本極差例1.4.3一批磚在交付客戶之前要抽檢其抗壓強度(單位:Mpa),現(xiàn)從中隨機抽取10塊磚,測得其抗壓強度為(已排序):
1.4次序統(tǒng)計量1.4.3樣本中位數(shù)與樣本p分位數(shù)定義1.4.3
np是整數(shù)np不是整數(shù)
1.4次序統(tǒng)計量1.4.3樣本中位數(shù)與樣本p分位數(shù)例1.4.4
1.4次序統(tǒng)計量1.4.4箱線圖和QQ圖
圖1.4.2箱線圖示意圖1.4次序統(tǒng)計量1.4.4箱線圖和QQ圖箱線圖可用來對總體的分佈形狀進行大致的判斷。圖1.4.3給出了三種常見的箱線圖,分別對應左偏分佈、對稱分佈和右偏分佈。圖1.4.3三種常見的箱線圖及其對應的分佈輪廓1.4次序統(tǒng)計量1.4.4箱線圖和QQ圖例1.4.4圖1.4.5給出了例1.3.5中兩個班級概率論成績與正態(tài)分佈的QQ圖??梢钥闯鰯?shù)據(jù)基本成一條直線,但1班在左下方,2班在右上方偏差較大。圖1.4.51班(左)和2班(右)概率論成績與正態(tài)分佈的QQ圖1.5抽樣分佈1.5.1樣本均值的抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈1.5.3次序統(tǒng)計量的分佈1.5.4用隨機模擬法尋找統(tǒng)計量的近似分佈1.5抽樣分佈定義1.5.11.2.3節(jié)介紹了統(tǒng)計量的概念,我們知道統(tǒng)計量是隨機變數(shù)(向量),因此抽樣分佈的定義如下。統(tǒng)計量的概率分佈稱為抽樣分佈。1.5抽樣分佈1.5.1樣本均值的抽樣分佈定理1.5.1
1.5抽樣分佈1.5.1樣本均值的抽樣分佈例1.5.1圖1.5.1左側(cè)有一個由20個數(shù)組成的總體X,該總體分佈為:圖1.5.1總體及其4個樣本的樣本均值1.5抽樣分佈1.5.1樣本均值的抽樣分佈
圖1.5.2500個樣本均值形成的直方圖1.5抽樣分佈1.5.1樣本均值的抽樣分佈
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈定義1.5.21.樣本方差的抽樣分佈
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈定理1.5.2
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈為了定理1.5.2的證明,特給出多維隨機向量的期望與方差的矩陣表示。
於是Y的期望向量為:
...這就證明了第一個等式。1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈
至於第二個等式,亦可由線性變換導出:1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈接下來證明定理1.5.2.
…………
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈
這就證明了結(jié)論(2)。
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈定義1.5.32.樣本均值與樣本標準差之比的抽樣分佈
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈定理
1.5.3
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈定理1.5.4
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈t分佈的密度函數(shù)圖像是一個關(guān)於縱軸對稱的分佈(見圖1.5.4),與標準正態(tài)分佈的密度函數(shù)十分類似,只是峰比標準正態(tài)分佈低一些,尾部的概率比標準正態(tài)分佈大一些。圖1.5.4
t(5)分佈與N(0,1)的密度函數(shù)1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈t
分佈有以下性質(zhì):
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈定理1.5.53.兩個獨立正態(tài)樣本方差比的F分佈
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈證:我們分兩步來證明這個定理。
最後的定積分為伽瑪函數(shù),所以
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈
證畢。
1.5抽樣分佈1.5.2正態(tài)總體各統(tǒng)計量的分佈F分佈的密度函數(shù)圖形:當分子的自由度為1或2時,其密度函數(shù)是單調(diào)遞減函數(shù)(見圖1.5.5a),其他情況下密度函數(shù)呈單峰的右偏分佈(見圖1.5.5b)。圖1.5.5F分佈的密度函數(shù)F分佈有以下性質(zhì):
1.5抽樣分佈1.5.3次序統(tǒng)計量的分佈定理
1.5.61.第k個次序統(tǒng)計量的抽樣分佈
1.5抽樣分佈1.5.3次序統(tǒng)計量的分佈定理
1.5.6
其分佈函數(shù)為:
其分佈函數(shù)為:
1.5抽樣分佈1.5.3次序統(tǒng)計量的分佈
1.5抽樣分佈1.5.3次序統(tǒng)計量的分佈例1.5.2
從而
故
1.5抽樣分佈1.5.3次序統(tǒng)計量的分佈2.任意兩個次序統(tǒng)計量的分佈以及n個次序統(tǒng)計量的聯(lián)合分佈
1.5抽樣分佈例1.5.3
1.5.4用隨機模擬法尋找統(tǒng)計量的近似分佈1.5抽樣分佈1.5.4用隨機模擬法尋找統(tǒng)計量的近似分佈
1.5抽樣分佈1.5.4用隨機模擬法尋找統(tǒng)計量的近似分佈
1.5抽樣分佈1.5.4用隨機模擬法尋找統(tǒng)計量的近似分佈
1.5抽樣分佈1.5.4用隨機模擬法尋找統(tǒng)計量的近似分佈
1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念1.6.2因數(shù)分解定理1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念例1.6.1某廠要瞭解某產(chǎn)品的不合格品率p,按常規(guī),檢驗員隨機抽檢了10件產(chǎn)品,檢驗結(jié)果如下(0表示合格品,1表示不合格品):
(1)第1件不合格,第2件合格,第3件合格,…,第10件合格;(2)10件中共有2件不合格;(3)頭2件中有1件不合格。1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念例1.6.2
這個例子實際上就是例1.6.1的一般化敘述。首先指出該樣本的聯(lián)合分佈是
1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念
1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念
1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念
1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念
1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念
由此可得聯(lián)合分佈
最後可得
這就證明了此引理。1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念例1.6.3
1.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念例1.6.3
例1.6.41.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念
例1.6.41.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念
例1.6.41.6充分統(tǒng)計量1.6.1充分統(tǒng)計量的概念在給定T=a下,樣本X取值為b時,條件概率
定理1.6.21.6充分統(tǒng)計量1.6.2因數(shù)分解定理
1.6充分統(tǒng)計量1.6.2因數(shù)分解定理
1.6充分統(tǒng)計量1.6.2因數(shù)分解定理
1.6充分統(tǒng)計量1.6.2因數(shù)分解定理
1.7常用的概率分佈族1.7.1常用概率分佈族表1.7.2伽瑪分佈族1.7.3貝塔分佈族1.7.4指數(shù)型分佈族1.7常用的概率分佈族1.7.1常用概率分佈族表1.7常用的概率分佈族1.7.1常用概率分佈族表1.7常用的概率分佈族1.7.2伽瑪分佈族
1.7常用的概率分佈族1.7.2伽瑪分佈族2.伽瑪分佈若隨機變數(shù)X的密度函數(shù)為:則稱??服從伽瑪分佈,記作??~????(??,??),其中??>0為形狀參數(shù),??>0為尺度參數(shù),伽瑪分佈族記為????(??,??);??>0,??>0。圖1.7.1給出了若干條??固定、??不同的伽瑪密度函數(shù)曲線,從圖中可以看出:0<??<1時,??(??)是嚴格下降函數(shù),且在??=0處有奇異點;??=1時,??(??)是嚴格下降函數(shù),且在??=0處??(0)=??;1<??≤2時,??(??)是單峰函數(shù),先上凸、後下凸;??>2時,??(??)是單峰函數(shù),先下凸、中間上凸、後下凸。且??越大,??(??)越近似於正態(tài)密度函數(shù)。
0,X≥0X≤01.7常用的概率分佈族1.7.2伽瑪分佈族
1.7常用的概率分佈族1.7.2伽瑪分佈族
0,X≥0X≤01.7常用的概率分佈族1.7.2伽瑪分佈族4.伽瑪分佈的性質(zhì)
1.7常用的概率分佈族1.7.2伽瑪分佈族例1.7.1電子產(chǎn)品的失效常由於外界的“衝擊”引起。若在(0,??)內(nèi)發(fā)生衝擊的次數(shù)??(??)服從參數(shù)為????的泊松分佈,試證第n次衝擊來到的時間????服從伽瑪分佈????(??,??)。
證
因為事件“第n次衝擊來到的時間Sn小於等於t”等價於事件“(0,t)內(nèi)發(fā)生衝擊的次數(shù)N(t)大於等於n”,即於是,Sn的分佈函數(shù)為:1.7常用的概率分佈族1.7.2伽瑪分佈族例1.7.1
用分佈積分法可以驗證下列等式:所以這就表明Sn~Ga(n,λ)。證畢。1.7常用的概率分佈族1.7.3貝塔分佈族
(1)??(??,??)=??(??,??)。(2)貝塔函數(shù)與伽瑪函數(shù)間有如下關(guān)係:??(??,??)=(??(??)??(??))/(??(??+??))1.7常用的概率分佈族1.7.3貝塔分佈族2..貝塔分佈若隨機變數(shù)X的密度函數(shù)為:則稱X服從貝塔分佈,記做??~????(??,??),其中??>0,??>0都是形狀參數(shù),故貝塔分佈族可表示為{????(??,??);??>0,??>0}。下圖給出了幾種典型的貝塔密度函數(shù)曲線。
0,0<x<1其他1.7常用的概率分佈族1.7.3貝塔分佈族
1.7常用的概率分佈族1.7.4指數(shù)型分佈族定義1.7.1
1.7常用的概率分佈族1.7.4指數(shù)型分佈族例1.7.2
1.7常用的概率分佈族1.7.4指數(shù)型分佈族例1.7.2
1.7常用的概率分佈族1.7.4指數(shù)型分佈族例1.7.2
1.7常用的概率分佈族1.7.4指數(shù)型分佈族例1.7.2
1.7常用的概率分佈族1.7.4指數(shù)型分佈族例1.7.2
1.7常用的概率分佈族1.7.4指數(shù)型分佈族例1.7.3
1.7常用的概率分佈族1.7.4指數(shù)型分佈族例1.7.3
1.7常用的概率分佈族1.7.4指數(shù)型分佈族
1.7常用的概率分佈族1.7.4指數(shù)型分佈族例1.7.4
參數(shù)估計
點估計與無偏性PART2.12.1點估計與無偏性定義2.1.1
2.1點估計與無偏性定義2.1.1參數(shù)通常指如下幾種,它們都可以表示為總體概率分佈的函數(shù),記為??=??(??)或??=??(??)。分佈中所含的未知常數(shù);分佈中的期望、方差、標準差、分位數(shù)等特徵數(shù);某事件的概率等。一個參數(shù)的估計量常不止一個,如何評價其優(yōu)劣性呢?常用的評價標準有多個,如無偏性、有效性、均方誤差最小與相合性。本節(jié)先講無偏性,其他幾個評價標準以後再作介紹。2.1點估計與無偏性定義2.1.2
2.1點估計與無偏性定義2.1.2圖2.1.12.1點估計與無偏性定義2.1.2
2.1點估計與無偏性例2.1.1
2.1點估計與無偏性例2.1.1
2.1點估計與無偏性
2.1點估計與無偏性表2.1.1正態(tài)標準差的修偏係數(shù)表第2章參數(shù)估計矩估計與相合性PART2.22.2矩估計與相合性2.2.1矩估計矩估計是一種具體的尋找點估計的方法,它的基本思想是“替代”,具體是:用樣本矩(即矩統(tǒng)計量)估計總體矩。用樣本矩的函數(shù)估計總體矩的相應函數(shù)。2.2矩估計與相合性2.2.1矩估計這裏的矩可以是各階原點矩,也可以是各階中心矩。這一思想是英國統(tǒng)計學家皮爾遜
(K.Pearson)在1900年提出的。該思想合理,方法簡單,使用方便,只要總體矩存在的場合都可使用。該思想後人稱為矩法,
所得估計稱為矩估計。2.2矩估計與相合性例2.2.1
2.2矩估計與相合性例2.2.1
2.2矩估計與相合性例2.2.2
2.2矩估計與相合性例2.2.3設樣本X1,X2,···,Xn來自正態(tài)總體N(μ,σ2),μ與σ未知,求p=P(X<1)的估計。2.2矩估計與相合性解
2.2矩估計與相合性
2.2矩估計與相合性2.2.2相合性2.2矩估計與相合性定義2.2.1
2.2矩估計與相合性定義2.2.1
2.2矩估計與相合性
2.2矩估計與相合性定理2.2.1(辛欽大數(shù)定律)
2.2矩估計與相合性定理2.2.2
2.2矩估計與相合性定理2.2.2證
2.2矩估計與相合性
2.2矩估計與相合性故有由τ的任意性,定理得證。
2.2矩估計與相合性例2.2.4
2.2矩估計與相合性例2.2.4
最大似然估計與漸近正態(tài)性PART2.32.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計定義2.3.1
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計例2.3.1
設X=(X1,X2,···,Xn)是來自二點分佈??(1,??)的一個樣本,其中諸Xi非0即1,??∈[0,1]是成功概率,該樣本的聯(lián)合分佈為:2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計圖2.3.1成功概率??的似然函數(shù)2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計
對其求導,並令導函數(shù)為零可得對數(shù)似然方程,在本例中
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計例2.3.2設某機床加工的軸的直徑與圖紙規(guī)定的尺寸的偏差服從N(μ,σ2),
其中μ,σ2未知。為估計μ與σ2,
從中隨機抽取n=100根軸,測得其偏差為X1,X2,···,X100。試求μ,σ2的最大似然估計。2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計
解
2.寫出對數(shù)似然函數(shù):
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計3.分別對
μ與
σ2求偏導,並令它們都為0,得到對數(shù)似然方程為:解
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計例2.3.3設X=(X1,X2,···,Xn)是來自均勻分佈U(0,θ)的一個樣本,求
θ的MLE2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計
解其中X(n)是樣本的最大次序統(tǒng)計量。圖2.3.2均勻分佈U(0,θ)中θ的似然函數(shù)2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計這裏並不能使用一階條件求函數(shù)極值,因此使用MLE的定義求θ的MLE。
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計
為了說明這一點,我們可求得最大次序統(tǒng)計量X(n)的密度函數(shù):2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計
可見,同一參數(shù)的無偏估計不止一個,它們的進一步比較將在下一節(jié)討論。2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計例2.3.4設X=(X1,X2,···,Xn)是來自均勻分佈U(θ,θ+1)的一個樣本,其中θ可為任意實數(shù),現(xiàn)要尋求θ
的MLE。2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計
解該似然函數(shù)在其不為零的區(qū)域上是常數(shù),只要??不超過X(1)
或??+1不小於X(n)都可使??(??)達到極大,即
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計例2.3.5它有兩個參數(shù),μ可取任意實數(shù),稱為位置參數(shù);σ>0稱為尺度參數(shù)。
現(xiàn)要求μ與σ的MLE。設X=(X1,X2,···,Xn)是來自雙參數(shù)指數(shù)分佈exp(μ,σ)的一個樣本,該分佈的密度函數(shù)為:
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計先寫出μ與σ的似然函數(shù),在非零區(qū)域上有解
這雖是在固定σ下尋求μ的最大值,但沒有具體規(guī)定σ的值。
即σ為任意值時μ的MLE都為X(1)。
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計
解此對數(shù)似然方程,可得σ的MLE為:這是因為對任意的μ與σ,有
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計例2.3.6
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計由二元正態(tài)密度函數(shù)可以寫出σ2與ρ的似然函數(shù):解
2.3最大似然估計與漸近正態(tài)性2.3.1最大似然估計經(jīng)驗證,它們確實使似然函數(shù)L(σ2,ρ)達到最大值,
故它們分別是σ2與ρ的MLE。解之可得
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理定理2.3.1(不變原理)
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理例2.3.7某產(chǎn)品生產(chǎn)現(xiàn)場有多臺設備,設備故障的維修時間T服從對數(shù)正態(tài)分佈LN(μ,σ2)。現(xiàn)在一周內(nèi)共發(fā)生24次故障,其維修時間t(單位:
分)為:平均維修時間μT
與維修時間的標準差σT
的MLE。可完成95%故障的維修時間t0.95(0.95分位數(shù))的MLE。1228125475853368851110407564115485260728710555826665求2.3最大似然估計與漸近正態(tài)性這個問題的一般提法是:設t1,t2,···,tn是來自對數(shù)正態(tài)分佈LN(μ,σ2)的一個樣本,現(xiàn)要對其均值μT、標準差σT
和0.95分位數(shù)t0.95分別給出MLE。解2.3.2最大似然估計的不變原理(1)對數(shù)正態(tài)分佈LN(μ,σ2)的均值和方差分別為:若能獲得μ與σ2的MLE,由不變原理立即可得μT與σT的MLE。
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理當T~LN(μ,σ2)時,有X=lnT~N(μ,σ2)。
由此可知,
lnt1,lnt2,···,lntn是來自正態(tài)分佈
N(μ,σ2)的一個樣本,由此可得μ與σ2的MLE分別為(見例2.3.2):
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理從而可得對數(shù)正態(tài)分佈的均值μT與方差σT2的MLE分別為:這表明,該生產(chǎn)現(xiàn)場設備的平均維修時間約為68分鐘,維修時間的標準差約為26分鐘。
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理(2)為了給出t0.95的MLE,我們先對對數(shù)正態(tài)分佈LN(μ,
σ2)
的p
分位數(shù)tp
給出一般運算式,記維修時間T的
的分佈函數(shù)為F(t),則有
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理例2.3.8設某電子設備的壽命(從開始工作到首次發(fā)生故障的連續(xù)工作時間,單位:小時)服從指數(shù)分佈exp(λ)。現(xiàn)任取15臺進行壽命試驗,按規(guī)定到第7臺發(fā)生故障時試驗停止,所得7個壽命數(shù)據(jù)為:500 1350 2130 2500 3120 3500 3800這是一個不完全樣本,常稱為定數(shù)截尾樣本,現(xiàn)要對其尋求平均壽命θ=1/λ的MLE。2.3最大似然估計與漸近正態(tài)性
解2.3.2最大似然估計的不變原理
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理其中,p
與F
分別為指數(shù)分佈的密度函數(shù)與分佈函數(shù)代入後,略去與參數(shù)無關(guān)的量,即得λ的似然函數(shù)
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理
用微分法可得對數(shù)似然方程
2.3最大似然估計與漸近正態(tài)性2.3.2最大似然估計的不變原理在本例中,n=15,r=7,t(r)=3800,首先算得總試驗時間由此可得平均壽命(單位:小時)的MLE
為:
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性定義2.3.2
或依分佈收斂符號L
記為:
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性例2.3.9
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性或
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性例2.3.10
前面已經(jīng)指出:
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性則由中心極限定理知
或
考慮到n/(n?1)→1,又有有
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性這表明
S2
是σ2的漸近正態(tài)估計,其漸近方差為2σ4/n。綜上所述,有
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性定理2.3.2設p(x;θ)是某密度函,其參數(shù)空間Θ={θ}是直線上的非退化區(qū)間,假如:(1)對一切θ∈Θ,p=p(x;θ)對θ的如下偏導數(shù)都存在(2)對一切θ∈Θ,有成立,其中F1(x)與F2(x)在實數(shù)軸上可積,而H(x)滿足這裏M與θ無關(guān)。
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性定理2.3.2(3)對一切θ∈Θ,有
其中,I(θ)稱為費希爾資訊量,有時還簡稱資訊量。
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性定義2.3.3
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性例2.3.11求二點分佈b(1,θ)參數(shù)
θ的費希爾資訊量,其分佈列為:
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性解可以驗證,二點分佈屬於Cramer-Rao正則族。為求其費希爾資訊量,要進行如下運算:
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性例2.3.12設X1,X2,···,Xn是來自正態(tài)總體N(μ,σ2)的一個樣本,可以驗證,正態(tài)分佈屬於Cramer-Rao正則族。
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性
從而
2.3最大似然估計與漸近正態(tài)性2.3.3最大似然估計的漸近正態(tài)性在已知μ的條件下,σ的MLE是
而??的費希爾資訊量的計算如下:
從而
2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法MLE是一種非常有效的參數(shù)估計方法,但當分佈中有多餘參數(shù)或數(shù)據(jù)為截尾或缺失時,其MLE的求取是比較困難的。於是Dempster等於1977年提出了EM演算法,其出發(fā)點是把求MLE的過程分兩步走。第一步求期望,以便把多餘的部分去掉;第二步求最大值。2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法例2.3.13設一次試驗可能有4個結(jié)果,發(fā)生的概率分別為1/2?θ/4,(1?θ)/4,(1+θ)/4,θ/4,θ∈(0,1)?,F(xiàn)進行了197次試驗,四種結(jié)果的發(fā)生次數(shù)分別為75,18,70,34,試求θ的MLE。2.3最大似然估計與漸近正態(tài)性以y1,y2,y3,y4
表示四種結(jié)果發(fā)生的次數(shù),此時總體分佈為多項分佈,
其似然函數(shù)為我們可以通過最大化對數(shù)似然函數(shù)的方式求解θ的MLE。
2.3.4EM演算法2.3最大似然估計與漸近正態(tài)性EM演算法通過引入兩個潛在變數(shù)
z1,z2後,通過迭代計算方式求解。假設第一種結(jié)果可以分成兩個部分,發(fā)生的概率分別為(1?θ)/4和?,令z1和y1?z1分別表示落入這兩部分的次數(shù);再假設第三種結(jié)果也分成兩部分,發(fā)生的概率分別為θ/4和1/4,令z2和y3?z2分別表示落入這兩部分的次數(shù),z1,z2是不可觀測的。也稱(y,z)是完全數(shù)據(jù),而只有觀測數(shù)據(jù)y時稱為不完全數(shù)據(jù)。此時完全數(shù)據(jù)的似然函數(shù)用Lc表示:2.3.4EM演算法2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法
其對數(shù)似然為
然而此時由於z1
和z2
未知,上式無法直接求解,但我們注意到,當給定y,θ已知時,
2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法於是Dempster等人建議如下分兩步進行迭代求解首先,人為設一個θ的初值
θ(0)第一步(也稱E-步),在已知觀測數(shù)據(jù)y和第i步估計值θ(i)條件下,求基於完全數(shù)據(jù)的對數(shù)似然函數(shù)(關(guān)於潛在變數(shù)z)的期望,稱為Q函數(shù):
第二步(也稱M-步),求Q(θ|y,θ(i))關(guān)於θ的最大值,記錄對應的θ值進行更新:
??重複以上兩步,直到收斂即可得到θ的MLE。2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法對於本例,可得到
所以
又知
所以
取θ(0)=0.5,則13次迭代後可求得θ
的MLE為0.6067。2.3最大似然估計與漸近正態(tài)性定理2.3.3
2.3.4EM演算法2.3最大似然估計與漸近正態(tài)性證
2.3.4EM演算法2.3最大似然估計與漸近正態(tài)性上式兩邊求z在(Y,θ=θ(i))已知條件下的期望有2.3.4EM演算法
(2.3.2)(2.3.2)式分別取θ=θ(i)和θ(i+1),得
(2.3.3)(2.3.4)2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法(2.3.4)–(2.3.3)得
2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法例2.3.14給定數(shù)據(jù)X是n行p列的矩陣,每一行是一個樣本點,每一列是一個變數(shù),我們的目標是根據(jù)列變數(shù)的取值對樣本點進行聚類,假定一共有K類。
在EM聚類方法中假定每一行觀測有一個潛在的(未觀測到的)指標向量Zi=(Zi1,Zi2,···,ZiK),其中Zik=0或1,並且K個中只有一個等於1。如果Zik=1,那麼表明第i個樣本點屬於第k類。向量Zi
服從多項分佈,概率分佈列為(π1,π2,···,πK)。2.3最大似然估計與漸近正態(tài)性
2.3.4EM演算法2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法本例所要估計的參數(shù)為(μk,Σk,πk),k=1,...,K.EM演算法步驟如下:首先,數(shù)據(jù)(X,Z)的完全似然函數(shù)可以寫成:完全對數(shù)似然函數(shù)為:(2.3.5)
2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法為了得到該問題的Q函數(shù),需要計算給定Xi時Zi的期望,也就是要得到如下概率值P(Zik=1|Xi)。根據(jù)全概率公式,有所以將(2.3.5)式Zik替換為γ(Zik),即為Q函數(shù)。
(2.3.6)2.3最大似然估計與漸近正態(tài)性2.3.4EM演算法
EM演算法的參數(shù)估計步驟如下:最小方差無偏估計PART2.42.4最小方差無偏估計2.4.1無偏估計的有效性
圖2.4.1θ的兩個無偏估計的密度函數(shù)示意圖2.4最小方差無偏估計2.4.1無偏估計的有效性因而,我們可以用估計量的方差去衡量兩個無偏估計的好壞,從而引入無偏估計有效性的標準。2.4最小方差無偏估計2.4.1無偏估計的有效性定義2.4.1
例2.4.1
2.4最小方差無偏估計2.4.1無偏估計的有效性2.4最小方差無偏估計2.4.1無偏估計的有效性例2.4.2
2.4最小方差無偏估計2.4.2有偏估計的均方誤差準則定義2.4.2
2.4最小方差無偏估計2.4.2有偏估計的均方誤差準則
例2.4.3
2.4最小方差無偏估計2.4.2有偏估計的均方誤差準則n
2.4最小方差無偏估計2.4.2有偏估計的均方誤差準則
2.4最小方差無偏估計2.4.2有偏估計的均方誤差準則以下數(shù)據(jù)是在n=10時算得的:表2.4.1三個估計的偏差平方、方差與均方誤差
00.22220.22220.010.18000.19000.03300.14880.18182.4最小方差無偏估計
2.4.2有偏估計的均方誤差準則表2.4.1可以對三個估計的優(yōu)劣作出評價2.4最小方差無偏估計2.4.3一致最小方差無偏估計例2.4.4
2.4最小方差無偏估計定義2.4.3假如參數(shù)的無偏估計存在,則稱此參數(shù)為可估參數(shù)??晒绤?shù)g(θ)
的無偏估計可能只有一個,也可能有多個。
在有多個無偏估計的場合,常用其方差作為進一步選擇的指標。2.4.3一致最小方差無偏估計2.4最小方差無偏估計定義2.4.4
2.4.3一致最小方差無偏估計2.4最小方差無偏估計定理2.4.1
2.4.3一致最小方差無偏估計證2.4.3一致最小方差無偏估計
2.4最小方差無偏估計證2.4.3一致最小方差無偏估計
2.4最小方差無偏估計2.4最小方差無偏估計2.4.3一致最小方差無偏估計例2.4.5
2.4最小方差無偏估計2.4.3一致最小方差無偏估計例2.4.5
2.4最小方差無偏估計定理2.4.2
2.4.3一致最小方差無偏估計之前的定理是驗證性的,加下來介紹構(gòu)造UMVUE的方法
證2.4.3一致最小方差無偏估計
所以2.4最小方差無偏估計
證2.4.3一致最小方差無偏估計故得
2.4最小方差無偏估計2.4最小方差無偏估計例2.4.6
2.4.3一致最小方差無偏估計2.4最小方差無偏估計例2.4.62.4.3一致最小方差無偏估計
2.4最小方差無偏估計定義2.4.5
2.4.4完備性及其應用2.4最小方差無偏估計例2.4.7
2.4.4完備性及其應用2.4最小方差無偏估計
2.4.4完備性及其應用
2.4最小方差無偏估計
2.4.4完備性及其應用2.4最小方差無偏估計
2.4.4完備性及其應用2.4最小方差無偏估計一些結(jié)論簡單隨機樣本的聯(lián)合分佈族總是不完備的指數(shù)型分佈族,其充分統(tǒng)計量都是完備的次序統(tǒng)計量是完備的2.4.4完備性及其應用2.4最小方差無偏估計定理2.4.3
2.4.4完備性及其應用
證2.4.4完備性及其應用2.4最小方差無偏估計2.4最小方差無偏估計
2.4.4完備性及其應用證2.4最小方差無偏估計例2.4.8
2.4.4完備性及其應用
解2.4.4完備性及其應用2.4最小方差無偏估計
解2.4.4完備性及其應用2.4最小方差無偏估計考慮到諸X1,X2,···,Xn是相互獨立的,且X2+X3+···+Xn服從參數(shù)為(n?1)λ的泊松分佈,所以2.4.4完備性及其應用2.4最小方差無偏估計
2.4.4完備性及其應用2.4最小方差無偏估計
2.4最小方差無偏估計例2.4.9某廠生產(chǎn)一種產(chǎn)品,這種產(chǎn)品包裝好後按一定數(shù)量放在盒子裏。在檢驗產(chǎn)品時,檢驗員從每個盒子裏隨機選出一個容量為n的樣本,並逐個檢查每個樣品的品質(zhì)。假如樣本中有2個或更多個不合格品,那麼這一盒被認為是不合格品,退回工廠,而工廠要求質(zhì)檢員把每盒查出的廢品通報廠方。2.4.4完備性及其應用2.4最小方差無偏估計例2.4.9
2.4.4完備性及其應用2.4最小方差無偏估計例2.4.9
2.4.4完備性及其應用2.4最小方差無偏估計例2.4.9
2.4.4完備性及其應用2.4最小方差無偏估計例2.4.9
2.4.4完備性及其應用2.4最小方差無偏估計例2.4.9
2.4.4完備性及其應用2.4最小方差無偏估計例2.4.9
2.4.4完備性及其應用例2.4.102.4最小方差無偏估計尋求二點分佈b(1,p)的可估參數(shù)p(1?p)的UMVUE。2.4.4完備性及其應用使用求解方程的方法直接尋找UMVUE
解2.4.4完備性及其應用2.4最小方差無偏估計nt=0nt=0t=0n-1t=1n
比較左右兩端的係數(shù)可得p(1?p)的UMVUE為:2.4最小方差無偏估計2.4.4完備性及其應用解
例2.4.112.4最小方差無偏估計
2.4.4完備性及其應用
解2.4.4完備性及其應用2.4最小方差無偏估計
2.4.4完備性及其應用2.4最小方差無偏估計C-R不等式PART2.52.5C-R不等式定理2.5.1
(2.5.1)2.5C-R不等式定理2.5.1證因為樣本是簡單樣本,又記
由於
2.5C-R不等式定理2.5.1證所以
2.5C-R不等式定理2.5.1再利用協(xié)方差性質(zhì)(即施瓦茲不等式)
將上述結(jié)果代回原式,即得C-R不等式。2.5C-R不等式定義2.5.1
2.5C-R不等式例2.5.1
2.5C-R不等式例2.5.2設X1,X2,···,Xn
是取自正態(tài)總體N(0,σ2)的一個樣本,可以驗證,正態(tài)分佈族{N(0,σ2):σ>0}是C-R正則分佈族。下麵來求參數(shù)g(σ2)=σ2的C-R下界,由於
2.5C-R不等式利用E(x2k)=σ2k(2k?1)(2k?3)···1,可算得費希爾資訊量
2.5C-R不等式
,都是σ2
的無偏估計,其方差分別為:,
2.5C-R不等式
2.5C-R不等式例2.5.3
2.5C-R不等式
置信區(qū)間PART2.62.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.1
1.區(qū)間估計及其置信度與置信係數(shù)2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.1注1:從上述定義可知,構(gòu)造一個未知參數(shù)的區(qū)間估計並不難。
一個參數(shù)的區(qū)間估計可以給出多種,但要給出一個好的區(qū)間估計需要有豐富的統(tǒng)計思想和熟練的統(tǒng)計技巧。注2:當置信度所示概率與參數(shù)θ無關(guān)時,置信度就是置信係數(shù),以後我們將努力尋求置信度與θ無關(guān)的區(qū)間估計。注3:上述定義中區(qū)間估計用閉區(qū)間給出,也可用開區(qū)間或半開區(qū)間給出,由實際需要而定。1.區(qū)間估計及其置信度與置信係數(shù)2.6置信區(qū)間2.6.1置信區(qū)間概念例2.6.1它的置信度可用t分佈算得,具體如下:
1.區(qū)間估計及其置信度與置信係數(shù)2.6置信區(qū)間2.6.1置信區(qū)間概念
例2.6.1由於t分佈只依賴於其自由度n?1,而不依賴於未知參數(shù)μ與σ,所以用
t分佈算得的置信度就是置信係數(shù)。在n=20,對k=1,2,3可算出其置信係數(shù)如下:其中:
1.區(qū)間估計及其置信度與置信係數(shù)例2.6.12.6置信區(qū)間2.6.1置信區(qū)間概念正態(tài)均值μ的三個區(qū)間估計的置信係數(shù)一個比一個高,第三個區(qū)間的置信係數(shù)達到0.99。
1.區(qū)間估計及其置信度與置信係數(shù)
2.6置信區(qū)間2.6.1置信區(qū)間概念例2.6.1其中:現(xiàn)轉(zhuǎn)入考察這三個區(qū)間估計的平均長度由式(2.6.1)可知,
其平均長度為:
1.區(qū)間估計及其置信度與置信係數(shù)
2.6置信區(qū)間2.6.1置信區(qū)間概念例2.6.1由此可得平均長度為:
利用伽瑪分佈可算得
1.區(qū)間估計及其置信度與置信係數(shù)在保證置信係數(shù)的前提下,儘量縮短置信區(qū)間平均長度。2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.2
2.置信區(qū)間2.6置信區(qū)間2.6.1置信區(qū)間概念
2.置信區(qū)間2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.3在定義2.6.2的記號下,如對給定的α(0<α<1)恒有
3.同等置信區(qū)間2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.4
4.置信限2.6置信區(qū)間2.6.1置信區(qū)間概念定義2.6.4
4.置信限定義2.6.52.6置信區(qū)間2.6.1置信區(qū)間概念設X=(X1,X2,···,Xn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年海運出口貨物代理合同模板
- 2025年化工中間體倉庫租賃合同范本
- 2025年度會議室租賃合同范本涵蓋場地布置與安全保障
- 2025年度智能倉儲物流系統(tǒng)建設合同格式
- 二零二五年度養(yǎng)老產(chǎn)業(yè)園區(qū)設施租賃與承包經(jīng)營合同4篇
- 二零二五年電商企業(yè)運營團隊激勵方案合同3篇
- 2025年度物流運輸公司司機雇傭勞動合同
- 2025年度智能花木租賃與養(yǎng)護管理服務合同
- 2025年度國際能源資源開發(fā)與利用服務合同模板
- 2025年度新能源產(chǎn)業(yè)股權(quán)并購及回購合同
- 2025年人教五四新版八年級物理上冊階段測試試卷含答案
- 2025年春季1530安全教育記錄主題
- 礦山2025年安全工作計劃
- 2025年包裝印刷項目可行性研究報告
- 企業(yè)融資報告特斯拉成功案例分享
- 給客戶的福利合同(2篇)
- 銷售調(diào)味品工作總結(jié)5篇
- 2024年江蘇省勞動合同條例
- 供電企業(yè)輿情的預防及處置
- 【高中語文】《氓》課件++統(tǒng)編版+高中語文選擇性必修下冊
- T-WAPIA 052.3-2023 無線局域網(wǎng)設備技術(shù)規(guī)范 第3部分:接入點和控制器
評論
0/150
提交評論