版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第1章緒論1.1
統(tǒng)計數(shù)據(jù)與統(tǒng)計學(xué)1.2統(tǒng)計學(xué)的產(chǎn)生和發(fā)展1.3統(tǒng)計學(xué)的分科1.4統(tǒng)計學(xué)的基本概念
本章小結(jié)學(xué)習(xí)目標(biāo)理解統(tǒng)計學(xué)的含義理解統(tǒng)計學(xué)與統(tǒng)計數(shù)據(jù)的關(guān)系了解統(tǒng)計學(xué)的分科了解統(tǒng)計學(xué)的發(fā)展過程理解統(tǒng)計中的幾個基本概念1.1統(tǒng)計數(shù)據(jù)與統(tǒng)計學(xué)什么是統(tǒng)計學(xué)?1.數(shù)據(jù)搜集:取得數(shù)據(jù)2.數(shù)據(jù)分析:分析數(shù)據(jù)3.數(shù)據(jù)表述:圖表展示數(shù)據(jù)數(shù)據(jù)解釋:結(jié)果的說明收集、整理、顯示和分析數(shù)據(jù)的科學(xué)統(tǒng)計研究的過程收集數(shù)據(jù)(取得數(shù)據(jù))整理數(shù)據(jù)(處理數(shù)據(jù))解釋數(shù)據(jù)(結(jié)果說明)分析數(shù)據(jù)(研究數(shù)據(jù))實際問題統(tǒng)計規(guī)律
(一些例子)正常條件下新生嬰兒的男女性別比為107:100投擲一枚質(zhì)地均勻的硬幣,出現(xiàn)正面和反面的頻率各為1/2;投擲一枚骰子出現(xiàn)1~6點的頻率各為1/6農(nóng)作物的產(chǎn)量與施肥量之間存在相關(guān)關(guān)系1.2統(tǒng)計學(xué)的產(chǎn)生和發(fā)展歷史上著名的統(tǒng)計學(xué)家JacobBernoulli(伯努利)(1654—1705)EdmondHalley(哈雷)(1656—1742)DeMoivre(棣莫弗)(1667—1754)ThomasBayes(貝葉斯)(1702—1761)LeonhardEuler(歐拉)(1707—1783)PierreSimonLaplace(拉普拉斯)(1749—1827)AdrienMarieLegendre(勒讓德)(1752—1833)ThomasRobertMalthus(馬爾薩斯)(1766—1834)ThomasRobertMalthus(馬爾薩斯)PierreSimonLaplace(拉普拉斯)LeonhardEuler(歐拉)歷史上著名的統(tǒng)計學(xué)家FriedrichGauss(高斯)(1777—1855)JohannGregorMendel(孟德爾)(1822—1884)KarlPearson(皮爾遜)(1857—1936)RonaldAylmerFisher(費希爾)(1890—1962)JerzyNeyman(奈曼)(1894—1981)EgonSharpePearson(皮爾遜)(1895—1980)WilliamFeller(費勒)(1906—1970).FriedrichGauss(高斯)JohannGregorMendel(孟德爾)1.3統(tǒng)計學(xué)的分科統(tǒng)計方法統(tǒng)計方法描述統(tǒng)計推斷統(tǒng)計參數(shù)估計假設(shè)檢驗描述統(tǒng)計
(descriptivestatistics)研究數(shù)據(jù)收集、整理和描述的統(tǒng)計學(xué)分支內(nèi)容搜集數(shù)據(jù)整理數(shù)據(jù)展示數(shù)據(jù)描述性分析目的描述數(shù)據(jù)特征找出數(shù)據(jù)的基本規(guī)律02550Q1Q2Q3Q4¥x=30s2=105推斷統(tǒng)計
(inferentialstatistics)研究如何利用樣本數(shù)據(jù)來推斷總體特征的統(tǒng)計學(xué)分支內(nèi)容參數(shù)估計假設(shè)檢驗?zāi)康膶傮w特征作出推斷樣本總體描述統(tǒng)計與推斷統(tǒng)計的關(guān)系反映客觀現(xiàn)象的數(shù)據(jù)總體內(nèi)在的數(shù)量規(guī)律性推斷統(tǒng)計(利用樣本信息和概率論對總體的數(shù)量特征進(jìn)行估計和檢驗等)概率論(包括分布理論、大數(shù)定律和中心極限定理等)描述統(tǒng)計(統(tǒng)計數(shù)據(jù)的搜集、整理、顯示和分析等)總體數(shù)據(jù)樣本數(shù)據(jù)理論統(tǒng)計與應(yīng)用統(tǒng)計理論統(tǒng)計研究統(tǒng)計學(xué)的一般理論研究統(tǒng)計方法的數(shù)學(xué)原理應(yīng)用統(tǒng)計研究統(tǒng)計學(xué)在各領(lǐng)域的具體應(yīng)用1.4統(tǒng)計學(xué)的基本概念總體和樣本總體(population)所研究的全部個體(數(shù)據(jù))的集合,其中的每一個元素稱為個體分為有限總體和無限總體有限總體的范圍能夠明確確定,且元素的數(shù)目是有限的無限總體所包括的元素是無限的,不可數(shù)的樣本(sample)從總體中抽取的一部分元素的集合構(gòu)成樣本的元素的數(shù)目稱為樣本容量參數(shù)和統(tǒng)計量參數(shù)(parameter)描述總體特征的概括性數(shù)字度量,是研究者想要了解的總體的某種特征值所關(guān)心的參數(shù)主要有總體均值()、標(biāo)準(zhǔn)差()、總體比例()等總體參數(shù)通常用希臘字母表示統(tǒng)計量(statistic)用來描述樣本特征的概括性數(shù)字度量,它是根據(jù)樣本數(shù)據(jù)計算出來的一些量,是樣本的函數(shù)所關(guān)心的樣本統(tǒng)計量有樣本均值(x)、樣本標(biāo)準(zhǔn)差(s)、樣本比例(p)等樣本統(tǒng)計量通常用小寫英文字母表示統(tǒng)計中的幾個基本概念平均數(shù)標(biāo)準(zhǔn)差比例參數(shù)統(tǒng)計量xsp總體樣本幾種常用的統(tǒng)計軟件
(Software)典型的統(tǒng)計軟件SASSPSSMINITABSTATISTICAExcelMINITABSTATISTICAExcelSASSPSS本章小結(jié)統(tǒng)計數(shù)據(jù)與統(tǒng)計學(xué)統(tǒng)計學(xué)的產(chǎn)生和發(fā)展統(tǒng)計學(xué)的分科統(tǒng)計學(xué)與其他學(xué)科的關(guān)系統(tǒng)計學(xué)的基本概念第2章統(tǒng)計數(shù)據(jù)的描述2.1
數(shù)據(jù)的計量尺度2.2統(tǒng)計數(shù)據(jù)的來源2.3統(tǒng)計數(shù)據(jù)的質(zhì)量2.4統(tǒng)計數(shù)據(jù)的整理2.5分布集中趨勢的測度2.6分布離散程度的測度2.7莖葉圖與箱線圖本章小結(jié)學(xué)習(xí)目標(biāo)了解數(shù)據(jù)的計量尺度了解統(tǒng)計數(shù)據(jù)的來源和數(shù)據(jù)的質(zhì)量要求掌握數(shù)值型數(shù)據(jù)的整理方法掌握數(shù)據(jù)集中趨勢和離散程度的測度方法掌握莖葉圖和箱線圖的制作方法掌握分布偏態(tài)與峰度的測度方法掌握統(tǒng)計表和統(tǒng)計圖的使用2.1數(shù)據(jù)的計量尺度一、列名尺度二、順序尺度三、間隔尺度四、比率尺度四種計量尺度定類尺度定序尺度定距尺度定比尺度數(shù)據(jù)的計量尺度列名尺度
(Nominalscale)也稱名義尺度或分類尺度計量層次最低對事物進(jìn)行平行的分類各類別可以指定數(shù)字代碼表示使用時必須符合類別窮盡和互斥的要求數(shù)據(jù)表現(xiàn)為“類別”具有=或的數(shù)學(xué)特性順序尺度
(Ordinalscale)也稱定序尺度對事物分類的同時給出各類別的順序比定類尺度精確未測量出類別之間的準(zhǔn)確差值數(shù)據(jù)表現(xiàn)為“類別”,但有序具有>或<的數(shù)學(xué)特性間隔尺度
(Intervalscale)也稱間隔尺度對事物的準(zhǔn)確測度2. 比定序尺度精確3. 數(shù)據(jù)表現(xiàn)為“數(shù)值”4.沒有絕對零點5. 具有+或-的數(shù)學(xué)特性比率尺度
(Ratioscale)也稱比率尺度對事物的準(zhǔn)確測度2. 與定距尺度處于同一層次3. 數(shù)據(jù)表現(xiàn)為“數(shù)值”4.有絕對零點5. 具有或
的數(shù)學(xué)特性四種計量尺度的比較四種計量尺度的比較定類尺度定序尺度定距尺度定比尺度
分類(=,≠)
排序(<,>)
間距(+,-)
比值(×,÷)√√√√√√√√√√計量尺度數(shù)學(xué)特性“√”表示該尺度所具有的特性2.2統(tǒng)計數(shù)據(jù)的來源一、間接獲取的數(shù)據(jù)
二、直接獲取的數(shù)據(jù)
間接取得的數(shù)據(jù)間接取得的數(shù)據(jù)統(tǒng)計部門和政府部門公布的有關(guān)資料,如各類統(tǒng)計年鑒各類經(jīng)濟(jì)信息中心、信息咨詢機(jī)構(gòu)、專業(yè)調(diào)查機(jī)構(gòu)等提供的數(shù)據(jù)各類專業(yè)期刊、報紙、書籍所提供的資料各種會議,如博覽會、展銷會、交易會及專業(yè)性、學(xué)術(shù)性研討會上交流的有關(guān)資料從互聯(lián)網(wǎng)或圖書館查閱到的相關(guān)資料Internethttp//WWW.中國統(tǒng)計年鑒2001中國人口統(tǒng)計年鑒中國市場統(tǒng)計年鑒世界發(fā)展報告世界經(jīng)濟(jì)年檢工業(yè)普查數(shù)據(jù)中國統(tǒng)計出版社提供統(tǒng)計數(shù)據(jù)的部分政府網(wǎng)站中國政府及相關(guān)機(jī)構(gòu)
網(wǎng)址數(shù)據(jù)內(nèi)容國家統(tǒng)計局統(tǒng)計年鑒、統(tǒng)計月報等國務(wù)院發(fā)展研究中心信息網(wǎng)宏觀經(jīng)濟(jì)、財經(jīng)、貨幣金融等中國經(jīng)濟(jì)信息網(wǎng)經(jīng)濟(jì)信息及各類網(wǎng)站華通數(shù)據(jù)中心國家統(tǒng)計局授權(quán)的數(shù)據(jù)中心中國決策信息網(wǎng)決策知識及案例三農(nóng)數(shù)據(jù)網(wǎng)三農(nóng)信息、論壇及相關(guān)網(wǎng)站提供統(tǒng)計數(shù)據(jù)的部分政府網(wǎng)站美國政府機(jī)構(gòu)
網(wǎng)址數(shù)據(jù)內(nèi)容人口普查局人口和家庭等聯(lián)邦儲備局http://www.bog.frb.fed.us貨幣供應(yīng)、信譽、匯率等預(yù)算編制辦公室/omb財政收入、支出、債券等商務(wù)部商業(yè)、工業(yè)等直接取得的數(shù)據(jù)普查
(census)
為特定目的專門組織的非經(jīng)常性全面調(diào)查2. 通常是一次性或周期性的3. 一般需要規(guī)定統(tǒng)一的標(biāo)準(zhǔn)調(diào)查時間4. 數(shù)據(jù)的規(guī)范化程度較高5. 應(yīng)用范圍比較狹窄總體抽樣調(diào)查
(samplingsurvey)
1. 從總體中隨機(jī)抽取一部分單位作為樣本進(jìn)行調(diào)查,并根據(jù)樣本調(diào)查結(jié)果來推斷總體特征的數(shù)據(jù)收集方法總體隨機(jī)樣本2.具有經(jīng)濟(jì)性、時效性強(qiáng)、適應(yīng)面廣、準(zhǔn)確性高等特點2.3統(tǒng)計數(shù)據(jù)的質(zhì)量數(shù)據(jù)的誤差抽樣誤差
(samplingerror)由于抽樣的隨機(jī)性所帶來的誤差所有樣本可能的結(jié)果與總體真值之間的平均性差異影響抽樣誤差大小的因素樣本量的大小總體的變異性非抽樣誤差
(non-samplingerror)相對于抽樣誤差而言除抽樣誤差之外的,由于其他原因造成的樣本觀察結(jié)果與總體真值之間的差異存在于所有的調(diào)查之中概率抽樣,非概率抽樣,全面性調(diào)查有抽樣框誤差、回答誤差、無回答誤差、調(diào)查員誤差、測量誤差誤差的控制抽樣誤差可計算和控制非抽樣誤差的控制調(diào)查員的挑選調(diào)查員的培訓(xùn)督導(dǎo)員的調(diào)查專業(yè)水平調(diào)查過程控制調(diào)查結(jié)果進(jìn)行檢驗、評估現(xiàn)場調(diào)查人員進(jìn)行獎懲的制度2.4統(tǒng)計數(shù)據(jù)的整理一、統(tǒng)計數(shù)據(jù)的分組
二、次數(shù)分配三、次數(shù)分配直方圖四、洛倫茨曲線統(tǒng)計數(shù)據(jù)的分組組距分組
(要點)將變量值的一個區(qū)間作為一組適合于連續(xù)變量適合于變量值較多的情況需要遵循“不重不漏”的原則可采用等距分組,也可采用不等距分組~~~~~組距分組
(步驟)確定組數(shù):組數(shù)的確定應(yīng)以能夠顯示數(shù)據(jù)的分布特征和規(guī)律為目的確定組距:組距(classwidth)是一個組的上限與下限之差,可根據(jù)全部數(shù)據(jù)的最大值和最小值及所分的組數(shù)來確定,即
組距=(最大值-最小值)÷組數(shù)統(tǒng)計出各組的頻數(shù)并整理成頻數(shù)分布表組距分組
(幾個概念)1.下限(lowlimit)
:一個組的最小值2.上限(upperlimit)
:一個組的最大值3.組距(classwidth)
:上限與下限之差4.組中值(classmidpoint)
:下限與上限之間的中點值下限值+上限值2組中值=次數(shù)分配表的編制
(例題分析)【例】某車間30名工人每周加工某種零件件數(shù)如右表試對數(shù)據(jù)進(jìn)行分組。
次數(shù)分配表使用Excel頻數(shù)函數(shù)(FREQUENCY)Excel的“直方圖”工具的缺陷是:頻數(shù)分布和直方圖沒有與數(shù)據(jù)聯(lián)系起來,這樣,如果你改變?nèi)魏我粋€數(shù)據(jù),頻數(shù)分布表和直方圖不會跟著改變使用Excel中的統(tǒng)計函數(shù)“FREQUENCY”來創(chuàng)建頻數(shù)分布表和直方圖,可解決這一問題。創(chuàng)建頻數(shù)分布表的步驟是選擇與接受區(qū)域相臨近的單元格區(qū)域,作為頻數(shù)分布表輸出的區(qū)域選擇統(tǒng)計函數(shù)中的“FREQUENCY”函數(shù)在對話框Date-array后輸入數(shù)據(jù)區(qū)域,在Bins-array后輸入接受區(qū)域同時按下ctrl-shift-Enter組合鍵,即得到頻數(shù)分布統(tǒng)計函數(shù)—FREQUENCY次數(shù)分配直方圖Excel直方圖
(histogram)用矩形的寬度和高度來表示頻數(shù)分布的圖形,實際上是用矩形的面積來表示各組的頻數(shù)分布在直角坐標(biāo)中,用橫軸表示數(shù)據(jù)分組,縱軸表示頻數(shù)或頻率,各組與相應(yīng)的頻數(shù)就形成了一個矩形,即直方圖直方圖下的總面積等于1分組數(shù)據(jù)的圖示
(直方圖的繪制)某車間工人周加工零件直方圖
我一眼就看出來了,周加工零件在100~110之間的人數(shù)最多!折線圖
(frequencypolygon)折線圖也稱頻數(shù)多邊形圖是在直方圖的基礎(chǔ)上,把直方圖頂部的中點(組中值)用直線連接起來,再把原來的直方圖抹掉折線圖的兩個終點要與橫軸相交,具體的做法是第一個矩形的頂部中點通過豎邊中點(即該組頻數(shù)一半的位置)連接到橫軸,最后一個矩形頂部中點與其豎邊中點連接到橫軸折線圖下所圍成的面積與直方圖的面積相等,二者所表示的頻數(shù)分布是一致的分組數(shù)據(jù)的圖示
(折線圖的繪制)折線圖與直方圖下的面積相等!某車間工人周加工零件折線圖
次數(shù)分配的類型對稱分布右偏分布左偏分布正J型分布反J型分布U型分布幾種常見的頻數(shù)分布洛倫茨曲線洛倫茨曲線20世紀(jì)初美國經(jīng)濟(jì)學(xué)家、統(tǒng)計學(xué)家洛倫茨(M.E.Lorentz)根據(jù)意大利經(jīng)濟(jì)學(xué)家巴雷特(V.Pareto)提出的收入分配公式繪制而成描述收入和財富分配性質(zhì)的曲線分析該國家或地區(qū)分配的平均程度
AB累積的人口百分比累積的收入百分比絕對公平線基尼系數(shù)20世紀(jì)初意大利經(jīng)濟(jì)學(xué)家基尼(G.Gini)根據(jù)洛倫茨曲線給出了衡收入分配平均程度的指標(biāo)
A表示實際收入曲線與絕對平均線之間的面積B表示實際收入曲線與絕對不平均線之間的面積如果A=0,則基尼系數(shù)=0,表示收入絕對平均如果B=0,則基尼系數(shù)=1,表示收入絕對不平均基尼系數(shù)在0和1之間取值一般認(rèn)為,基尼系數(shù)若小于0.2,表明分配平均;基尼系數(shù)在0.2至0.4之間是比較適當(dāng)?shù)?,即一個社會既有效率又沒有造成極大的分配不公;基尼系數(shù)在0.4被認(rèn)為是收入分配不公平的警戒線,超過了0.4應(yīng)該采取措施縮小這一差距。AB2.5分布集中趨勢的測度一、眾數(shù)二、中位數(shù)三、四分位數(shù)四、均值五、幾何均值六、切尾均值七、眾數(shù)、中位數(shù)和均值的比較眾數(shù)眾數(shù)
(mode)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值適合于數(shù)據(jù)量較多時使用不受極端值的影響一組數(shù)據(jù)可能沒有眾數(shù)或有幾個眾數(shù)主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)眾數(shù)
(不惟一性)無眾數(shù)
原始數(shù)據(jù):10591268一個眾數(shù)
原始數(shù)據(jù):65
9855多于一個眾數(shù)
原始數(shù)據(jù):252828
364242中位數(shù)中位數(shù)
(median)排序后處于中間位置上的值Me50%50%不受極端值的影響主要用于順序數(shù)據(jù),也可用數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)各變量值與中位數(shù)的離差絕對值之和最小,即中位數(shù)
(位置的確定)原始數(shù)據(jù):順序數(shù)據(jù):數(shù)值型數(shù)據(jù)的中位數(shù)
(9個數(shù)據(jù)的算例)【例】9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:7507808509601080
1250150016302000位置:123456789中位數(shù)1080數(shù)值型數(shù)據(jù)的中位數(shù)
(10個數(shù)據(jù)的算例)【例】:10個家庭的人均月收入數(shù)據(jù)排序:
660
75078085096010801250150016302000位置:1234
5678910四分位數(shù)四分位數(shù)
(quartile)排序后處于25%和75%位置上的值不受極端值的影響主要用于順序數(shù)據(jù),也可用于數(shù)值型數(shù)據(jù),但不能用于分類數(shù)據(jù)QLQMQU25%25%25%25%四分位數(shù)
(位置的確定)原始數(shù)據(jù):分組數(shù)據(jù):數(shù)值型數(shù)據(jù)的四分位數(shù)
(9個數(shù)據(jù)的算例)【例】:9個家庭的人均月收入數(shù)據(jù)原始數(shù)據(jù):15007507801080850960200012501630排序:75078085096010801250150016302000位置:123456789數(shù)值型數(shù)據(jù)的四分位數(shù)
(10個數(shù)據(jù)的算例)【例】:10個家庭的人均月收入數(shù)據(jù)排序:
660
75078085096010801250150016302000位置:1234
5678910統(tǒng)計函數(shù)—QUARTILE均值均值
(mean)集中趨勢的最常用測度值一組數(shù)據(jù)的均衡點所在體現(xiàn)了數(shù)據(jù)的必然性特征易受極端值的影響用于數(shù)值型數(shù)據(jù),不能用于分類數(shù)據(jù)和順序數(shù)據(jù)簡單均值
(simplemean)設(shè)一組數(shù)據(jù)為:x1,x2,…,xn總體均值樣本均值加權(quán)均值
(weightedmean)設(shè)一組數(shù)據(jù)為:x1,x2,…,xn相應(yīng)的頻數(shù)為:f1,f2,…,fk總體均值樣本均值加權(quán)均值
(例題分析)
均值
(數(shù)學(xué)性質(zhì))1. 各變量值與均值的離差之和等于零2.各變量值與均值的離差平方和最小幾何均值幾何均值
(geometricmean)
n個變量值乘積的
n次方根適用于對比率數(shù)據(jù)的平均主要用于計算平均增長率計算公式為5.可看作是均值的一種變形幾何均值
(例題分析)
【例】一位投資者購持有一種股票,在2000年、2001年、2002年和2003年收益率分別為4.5%、2.1%、25.5%、1.9%。計算該投資者在這四年內(nèi)的平均收益率算術(shù)平均:
幾何平均:切尾均值切尾均值
(trimmedMean)
去掉大小兩端的若干數(shù)值后計算中間數(shù)據(jù)的均值在電視大獎賽、體育比賽及需要人們進(jìn)行綜合評價的比賽項目中已得到廣泛應(yīng)用計算公式為n
表示觀察值的個數(shù);α表示切尾系數(shù),
切尾均值
(例題分析)
【例】謀次比賽共有11名評委,對某位歌手的給分分別是:經(jīng)整理得到順序統(tǒng)計量值為去掉一個最高分和一個最低分,取1/11
眾數(shù)、中位數(shù)和均值的比較眾數(shù)、中位數(shù)和均值的關(guān)系左偏分布均值
中位數(shù)
眾數(shù)對稱分布
均值=中位數(shù)=
眾數(shù)右偏分布眾數(shù)
中位數(shù)均值眾數(shù)、中位數(shù)、均值的特點和應(yīng)用眾數(shù)不受極端值影響具有不惟一性數(shù)據(jù)分布偏斜程度較大時應(yīng)用中位數(shù)不受極端值影響數(shù)據(jù)分布偏斜程度較大時應(yīng)用均值易受極端值影響數(shù)學(xué)性質(zhì)優(yōu)良數(shù)據(jù)對稱分布或接近對稱分布時應(yīng)用2.6分布離散程度的測度一、極差二、內(nèi)距三、方差和標(biāo)準(zhǔn)差四、離散系數(shù)極差
(range)一組數(shù)據(jù)的最大值與最小值之差離散程度的最簡單測度值易受極端值影響未考慮數(shù)據(jù)的分布7891078910R
=max(xi)-min(xi)計算公式為內(nèi)距
(Inter-QuartileRange,IQR)
也稱四分位差上四分位數(shù)與下四分位數(shù)之差
內(nèi)距=Q3
–Q1反映了中間50%數(shù)據(jù)的離散程度不受極端值的影響可用于衡量中位數(shù)的代表性方差和標(biāo)準(zhǔn)差方差和標(biāo)準(zhǔn)差
(VarianceandStandarddeviation)1. 離散程度的測度值之一2. 最常用的測度值3. 反映了數(shù)據(jù)的分布反映了各變量值與均值的平均差異根據(jù)總體數(shù)據(jù)計算的,稱為總體方差或標(biāo)準(zhǔn)差;根據(jù)樣本數(shù)據(jù)計算的,稱為樣本方差或標(biāo)準(zhǔn)差4681012x=8.3總體方差和標(biāo)準(zhǔn)差
(PopulationvarianceandStandarddeviation)未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計算公式標(biāo)準(zhǔn)差的計算公式樣本方差和標(biāo)準(zhǔn)差
(simplevarianceandstandarddeviation)未分組數(shù)據(jù):組距分組數(shù)據(jù):未分組數(shù)據(jù):組距分組數(shù)據(jù):方差的計算公式標(biāo)準(zhǔn)差的計算公式注意:樣本方差用自由度n-1去除!樣本方差
自由度(degreeoffreedom)一組數(shù)據(jù)中可以自由取值的數(shù)據(jù)的個數(shù)當(dāng)樣本數(shù)據(jù)的個數(shù)為
n
時,若樣本均值x
確定后,只有n-1個數(shù)據(jù)可以自由取值,其中必有一個數(shù)據(jù)則不能自由取值例如,樣本有3個數(shù)值,即x1=2,x2=4,x3=9,則x
=5。當(dāng)x
=5
確定后,x1,x2和x3有兩個數(shù)據(jù)可以自由取值,另一個則不能自由取值,比如x1=6,x2=7,那么x3則必然取2,而不能取其他值樣本方差用自由度去除,其原因可從多方面解釋,從實際應(yīng)用角度看,在抽樣估計中,當(dāng)用樣本方差去估計總體方差σ2時,它是σ2的無偏估計量離散系數(shù)離散系數(shù)
(coefficientofvariation)1. 標(biāo)準(zhǔn)差與其相應(yīng)的均值之比對數(shù)據(jù)相對離散程度的測度消除了數(shù)據(jù)水平高低和計量單位的影響4. 用于對不同組別數(shù)據(jù)離散程度的比較5.計算公式為離散系數(shù)
(例題分析)某管理局所屬8家企業(yè)的產(chǎn)品銷售數(shù)據(jù)企業(yè)編號產(chǎn)品銷售額(萬元)x1銷售利潤(萬元)x21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例】某管理局抽查了所屬的8家企業(yè),其產(chǎn)品銷售數(shù)據(jù)如表。試比較產(chǎn)品銷售額與銷售利潤的離散程度離散系數(shù)
(例題分析)結(jié)論:計算結(jié)果表明,v1<v2,說明產(chǎn)品銷售額的離散程度小于銷售利潤的離散程度v1=536.25309.19=0.577v2=32.521523.09=0.7102.7莖葉圖與箱線圖一、莖葉圖二、箱線圖莖葉圖
(stem-and-leafdisplay)用于顯示未分組的原始數(shù)據(jù)的分布由“莖”和“葉”兩部分構(gòu)成,其圖形是由數(shù)字組成的以該組數(shù)據(jù)的高位數(shù)值作樹莖,低位數(shù)字作樹葉樹葉上只保留一位數(shù)字莖葉圖類似于橫置的直方圖,但又有區(qū)別直方圖可觀察一組數(shù)據(jù)的分布狀況,但沒有給出具體的數(shù)值莖葉圖既能給出數(shù)據(jù)的分布狀況,又能給出每一個原始數(shù)值,保留了原始數(shù)據(jù)的信息莖葉圖
(例題分析)莖葉圖
(擴(kuò)展的莖葉圖)箱線圖
(boxplot)用于顯示未分組的原始數(shù)據(jù)的分布箱線圖由一組數(shù)據(jù)的5個特征值繪制而成,它由一個箱子和兩條線段組成箱線圖的繪制方法首先找出一組數(shù)據(jù)的5個特征值,即最大值、最小值、中位數(shù)Me和兩個四分位數(shù)(下四分位數(shù)QL和上四分位數(shù)QU)連接兩個四分(位)數(shù)畫出箱子,再將兩個極值點與箱子相連接箱線圖
(箱線圖的構(gòu)成)中位數(shù)4681012QUQLX最大值X最小值簡單箱線圖箱線圖
(例題分析)最小值84最大值128中位數(shù)105下四分位數(shù)96上四分位數(shù)10980859095100105110150120125130周加工零件數(shù)的箱線圖分布的形狀與箱線圖
對稱分布QL中位數(shù)
QU左偏分布QL中位數(shù)
QU右偏分布QL
中位數(shù)
QU不同分布的箱線圖未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖
(例題分析)【例】
從某大學(xué)經(jīng)濟(jì)管理專業(yè)二年級學(xué)生中隨機(jī)抽取11人,對8門主要課程的考試成績進(jìn)行調(diào)查,所得結(jié)果如表。試?yán)L制各科考試成績的批比較箱線圖,并分析各科考試成績的分布特征11名學(xué)生各科的考試成績數(shù)據(jù)課程名稱學(xué)生編號1234567891011英語經(jīng)濟(jì)數(shù)學(xué)西方經(jīng)濟(jì)學(xué)市場營銷學(xué)財務(wù)管理基礎(chǔ)會計學(xué)統(tǒng)計學(xué)計算機(jī)應(yīng)用基礎(chǔ)76659374687055859095818775739178975176857092688171748869846573957078669073788470936379806087816786918377769070828382928481706972787578918866948085718674687962818155787075687177未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖
(例題分析)8門課程考試成績的箱線圖11名學(xué)生8門課程考試成績的箱線圖min-max25%-75%medianvalue455565758595105學(xué)生1學(xué)生2學(xué)生3學(xué)生4學(xué)生5學(xué)生6學(xué)生7學(xué)生8學(xué)生9學(xué)生10學(xué)生11未分組數(shù)據(jù)—多批數(shù)據(jù)箱線圖
(例題分析)本章小結(jié)數(shù)據(jù)的計量尺度統(tǒng)計數(shù)據(jù)的來源統(tǒng)計數(shù)據(jù)的質(zhì)量統(tǒng)計數(shù)據(jù)的整理分布集中趨勢的測度分布離散程度的測度莖葉圖與箱線圖第3章概率與概率分布
3.1隨機(jī)事件及其概率
3.2隨機(jī)變量及其概率分布
3.3大數(shù)定律與中心極限定理學(xué)習(xí)目標(biāo)理解隨機(jī)事件的概念、了解事件之間的關(guān)系理解概率的三種定義,掌握概率運算的法則理解隨機(jī)變量及其概率分布的概念掌握二項分布、泊松分布和超幾何分布的背景、均值和方差及其應(yīng)用掌握正態(tài)分布的主要特征和應(yīng)用,了解均勻分布的應(yīng)用理解大數(shù)定律和中心極限定理的重要意義3.1隨機(jī)事件及其概率
一、隨機(jī)試驗與隨機(jī)事件二、隨機(jī)事件的概率三、概率的運算法則一、隨機(jī)試驗與隨機(jī)事件3.1隨機(jī)事件及其概率必然現(xiàn)象與隨機(jī)現(xiàn)象必然現(xiàn)象(確定性現(xiàn)象)變化結(jié)果是事先可以確定的,一定的條件必然導(dǎo)致某一結(jié)果這種關(guān)系通常可以用公式或定律來表示隨機(jī)現(xiàn)象(偶然現(xiàn)象、不確定現(xiàn)象)在一定條件下可能發(fā)生也可能不發(fā)生的現(xiàn)象個別觀察的結(jié)果完全是偶然的、隨機(jī)會而定大量觀察的結(jié)果會呈現(xiàn)出某種規(guī)律性(隨機(jī)性中寓含著規(guī)律性)——統(tǒng)計規(guī)律性十五的夜晚能看見月亮?十五的月亮比初十圓!隨機(jī)試驗嚴(yán)格意義上的隨機(jī)試驗滿足三個條件:試驗可以在系統(tǒng)條件下重復(fù)進(jìn)行;試驗的所有可能結(jié)果是明確可知的;每次試驗前不能肯定哪一個結(jié)果會出現(xiàn)。廣義的隨機(jī)試驗是指對隨機(jī)現(xiàn)象的觀察(或?qū)嶒灒?。實際應(yīng)用中多數(shù)試驗不能同時滿足上述條件,常常從廣義角度來理解。隨機(jī)事件(事件)隨機(jī)事件(簡稱事件)隨機(jī)試驗的每一個可能結(jié)果常用大寫英文字母A、B、……、來表示基本事件(樣本點)不可能再分成為兩個或更多事件的事件樣本空間(Ω)基本事件的全體(全集)隨機(jī)事件(續(xù))復(fù)合事件由某些基本事件組合而成的事件樣本空間中的子集隨機(jī)事件的兩種特例必然事件在一定條件下,每次試驗都必然發(fā)生的事件只有樣本空間才是必然事件不可能事件在一定條件下,每次試驗都必然不會發(fā)生的事件不可能事件是一個空集(Φ)二、隨機(jī)事件的概率1.古典概率
2.統(tǒng)計概率
3.主觀概率
4.概率的基本性質(zhì)3.1隨機(jī)事件及其概率隨機(jī)事件的概率概率用來度量隨機(jī)事件發(fā)生的可能性大小的數(shù)值必然事件的概率為1,表示為P(
)=1不可能事件發(fā)生的可能性是零,P(
)=0隨機(jī)事件A的概率介于0和1之間,0<P(A)<1概率的三種定義,給出了確定隨機(jī)事件概率的三條途經(jīng)。概率的古典定義古典概型(等可能概型)——具有以下兩特點每次試驗的可能結(jié)果有限(即樣本空間中基本事件總數(shù)有限)每個試驗結(jié)果出現(xiàn)的可能性相同——它是概率論的發(fā)展過程中人們最早研究的對象概率的古典定義概率的古典定義前提:古典概型定義(公式)計算古典概率常用到排列組合知識【例3-1】設(shè)有50件產(chǎn)品,其中有5件次品,現(xiàn)從這50件中任取2件,求抽到的兩件產(chǎn)品均為合格品的概率是多少?抽到的兩件產(chǎn)品均為次品的概率又是多少?解:任一件被抽到的機(jī)會均等,而且從50件產(chǎn)品中抽出2件相當(dāng)于從50個元素中取2個進(jìn)行組合,共有C502種可能,所以這是一個古典概型。概率的統(tǒng)計定義當(dāng)試驗次數(shù)n
很大時,事件A發(fā)生頻率m/n穩(wěn)定地在某一常數(shù)p上下波動,而且這種波動的幅度一般會隨著試驗次數(shù)增加而縮小,則定義p為事件A發(fā)生的概率當(dāng)n相當(dāng)大時,可用事件發(fā)生的頻率m/n作為其概率的一個近似值——計算概率的統(tǒng)計方法(頻率方法)例(補(bǔ)充)根據(jù)古典概率定義可算出,拋一枚質(zhì)地均勻的硬幣,出現(xiàn)正面與出現(xiàn)反面的概率都是0.5。歷史上有很多人都曾經(jīng)做過拋硬幣試驗。試驗者試驗次數(shù)正面出現(xiàn)的頻率蒲豐40400.5069K.皮爾遜120000.5016K.皮爾遜240000.5005羅曼諾夫斯基806400.4979【例3-2】某地區(qū)幾年來新生兒性別的統(tǒng)計資料如下表所示,由此可判斷該地區(qū)新生兒為男嬰的概率是多少?觀察年份新生兒數(shù)(個)男嬰數(shù)(個)男嬰比例(%)200016248270.509200112056220.516200215127740.512200314077150.5083.主觀概率有些隨機(jī)事件發(fā)生的可能性,既不能通過等可能事件個數(shù)來計算,也不能根據(jù)大量重復(fù)試驗的頻率來近似主觀概率——依據(jù)人們的主觀判斷而估計的隨機(jī)事件發(fā)生的可能性大小例如某經(jīng)理認(rèn)為新產(chǎn)品暢銷的可能性是80%人們的經(jīng)驗、專業(yè)知識、對事件發(fā)生的眾多條件或影響因素的分析等等,都是確定主觀概率的依據(jù)4.概率的基本性質(zhì)非負(fù)性:對任意事件A,有0
P(A)1。規(guī)范性:必然事件的概率為1,即:P()=1不可能事件的概率為0,即:P()=0。可加性:若A與B互斥,則:P(A∪B)=P(A)+P(B)對于多個兩兩互斥事件A1,A2,…,An,則有:
P(A1∪A2
∪…
∪An)=P(A1
)+P(A2
)+…+P(An
)上述三條基本性質(zhì),也稱為概率的三條公理。(補(bǔ)充)關(guān)于概率的公理化定義概率的以上三種定義,各有其特定的應(yīng)用范圍,也存在局限性,都缺乏嚴(yán)密性。古典定義要求試驗的基本事件有限且具有等可能性統(tǒng)計定義要求試驗次數(shù)充分大,但試驗次數(shù)究竟應(yīng)該取多大、頻率與概率有多么接近都沒有確切說明主觀概率的確定又具有主觀隨意性蘇聯(lián)數(shù)學(xué)家柯爾莫哥洛夫于1933年提出了概率的公理化定義——通過規(guī)定應(yīng)具備的基本性質(zhì)來定義概率公理化定義為概率論嚴(yán)謹(jǐn)?shù)倪壿嬐评泶蛳铝藞詫嵉幕A(chǔ)。三、概率的運算法則
1.加法公式
2.乘法公式
3.全概率公式和貝葉斯公式3.1隨機(jī)事件及其概率1.加法公式用于求P(A∪B)——“A發(fā)生或B發(fā)生”的概率互斥事件(互不相容事件)不可能同時發(fā)生的事件沒有公共樣本點P(A∪B)=P(A)+P(B)互斥事件的加法公式
?ABP(A1∪A2
∪…∪An)=P(A1
)+P(A2
)+…+P(An
)【例3-3】設(shè)有50件產(chǎn)品,其中有5件次品,現(xiàn)從這50件中任取2件,若問至少抽到一件次品的概率?解:“至少抽到一件次品”這一事件實質(zhì)上就是“抽取的2件產(chǎn)品中有一件次品”(記為A)與“抽取的兩件產(chǎn)品均為次品”(記為B)這兩個事件的和。由于A與B是兩個互斥事件,故計算“至少抽到一件次品”的概率采用公式:
P(A∪B)=P(A)+P(B)互補(bǔ)事件互補(bǔ)事件不可能同時發(fā)生而又必然有一個會發(fā)生的兩個事件互補(bǔ)事件的概率之和等于1AA例如:擲一個骰子,“出現(xiàn)2點”的概率是1/6,則“不出現(xiàn)2點”的概率就是5/6。相容事件的加法公式相容事件兩個事件有可能同時發(fā)生沒有公共樣本點相容事件的加法公式(廣義加法公式)AB?P(A∪B)=P(A)+P(B)-P(AB)AB?AB
事件的積(交)AB
事件的和(并)【例3-4】將分別寫有0至9這十個號碼的小球裝入一容器中,反復(fù)攪拌之后任意搖出一個小球,觀察其號碼。試求出現(xiàn)“奇數(shù)或大于等于4的數(shù)”的概率。解:所求事件=奇數(shù)(A)+大于等于4的數(shù)(B)
={0,1,2,3,…,9},A={1,3,5,7,9},B={4,5,6,7,8,9}由于等可能性,P(A)=5/10,P(B)=6/10。P(A)+P(B)>1,顯然P(A∪B)≠P(A)+P(B)
因為A和B存在共同部分AB={5,7,9},P(AB)=3/10。在P(A)+P(B)
中P(AB)被重復(fù)計算了。正確計算是:
P(A∪B)=5/10+6/10-3/10=8/10=0.82.乘法公式用于計算兩個事件同時發(fā)生的概率?!布础癆發(fā)生且B發(fā)生”的概率
P(AB)先關(guān)注事件是否相互獨立(1)條件概率條件概率—在某些附加條件下計算的概率在已知事件B已經(jīng)發(fā)生的條件下A發(fā)生的條件概率——P(A|B)條件概率的一般公式:其中P(B)>0
【例3-5】某公司甲乙兩廠生產(chǎn)同種產(chǎn)品。甲廠生產(chǎn)400件,其中一級品為280件;乙廠生產(chǎn)600件,其中一級品有360件。若要從該廠的全部產(chǎn)品中任意抽取一件,試求:①已知抽出產(chǎn)品為一級品的條件下該產(chǎn)品出自甲廠的概率;②已知抽出產(chǎn)品出自甲廠的條件下該產(chǎn)品為一級品的概率。解:設(shè)A=“甲廠產(chǎn)品”,B=“一級品”,則:
P(A)=0.4,
P(B)
=0.64,P(AB)=0.28①所求概率為事件B發(fā)生條件下A發(fā)生的條件概率
P(A|B)=0.28/0.64②所求概率為事件A發(fā)生條件下B發(fā)生的條件概率
P(B|A)=0.28/0.4(1)條件概率(續(xù))P(A|B)=在B發(fā)生的所有可能結(jié)果中AB發(fā)生的概率即在樣本空間?中考慮的條件概率P(A|B),就變成在新的樣本空間B中計算事件AB的概率問題了一旦事件B已發(fā)生AB?ABBAB乘法公式的一般形式:P(AB)=P(A)·P(B|A)
或
P(AB)
=P(B)·P(A|B)
【例3-6】對例3-1中的問題(從這50件中任取2件產(chǎn)品,可以看成是分兩次抽取,每次只抽取一件,不放回抽樣)解:A1=第一次抽到合格品,A2=第二次抽到合格品,A1A2=抽到兩件產(chǎn)品均為合格品P(A1
A2)=P(A1)·P(A2|A1)=
事件的獨立性兩個事件獨立一個事件的發(fā)生與否并不影響另一個事件發(fā)生的概率P(A|B)=P(A),或P(B|A)=P(B)獨立事件的乘法公式:P(AB)=P(A)·P(B)推廣到n個獨立事件,有:P(A1…An)=P(A1)P(A2)…P(An)
3.全概率公式完備事件組事件A1、A2、…、An互不相容,A∪A2∪…∪An=?且P(Ai)>0(i=1、2、...、n)對任一事件B,它總是與完備事件組A1、A2、…、An之一同時發(fā)生,則有求P(B)的全概率公式:例3-7假設(shè)有一道四選一的選擇題,某學(xué)生知道正確答案的可能性為2/3,他不知道正確答案時猜對的概率是1/4。試問該生作出作答的概率?解:設(shè)A=知道正確答案,B=選擇正確?!斑x擇正確”包括:“知道正確答案而選擇正確”(即AB)“不知道正確答案但選擇正確”(即)P(B)=(2/3)×1+(1/3)×(1/4)=3/4全概率公式——貝葉斯公式全概率公式的直觀意義:每一個Ai的發(fā)生都可能導(dǎo)致B出現(xiàn),每一個Ai導(dǎo)致B發(fā)生的概率為,因此作為結(jié)果的事件B發(fā)生的概率是各個“原因”Ai引發(fā)的概率的總和相反,在觀察到事件B已經(jīng)發(fā)生的條件下,確定導(dǎo)致B發(fā)生的各個原因Ai的概率——貝葉斯公式(逆概率公式)(后驗概率公式)貝葉斯公式若A1、A2、…、An為完備事件組,則對于任意隨機(jī)事件B,有:計算事件Ai在給定B條件下的條件概率公式。公式中,P(Ai)稱為事件Ai的先驗概率P(Ai|B)稱為事件Ai的后驗概率3.2隨機(jī)變量及其概率分布
一、隨機(jī)變量的概念二、隨機(jī)變量的概率分布三、隨機(jī)變量的數(shù)字特征四、常見的離散型概率分布五、常見的連續(xù)型概率分布一、隨機(jī)變量的概念3.2隨機(jī)變量及其概率分布一、隨機(jī)變量的概念隨機(jī)變量——表示隨機(jī)試驗結(jié)果的變量取值是隨機(jī)的,事先不能確定取哪一個值一個取值對應(yīng)隨機(jī)試驗的一個可能結(jié)果用大寫字母如X、Y、Z...來表示,具體取值則用相應(yīng)的小寫字母如x、y、z…來表示根據(jù)取值特點的不同,可分為:離散型隨機(jī)變量——取值可以一一列舉連續(xù)型隨機(jī)變量——取值不能一一列舉二、隨機(jī)變量的概率分布1.離散型隨機(jī)變量的概率分布
2.連續(xù)型隨機(jī)變量的概率密度
3.分布函數(shù)3.2隨機(jī)變量及其概率分布1.離散型隨機(jī)變量的概率分布X的概率分布——X的有限個可能取值為xi與其概率pi(i=1,2,3,…,n)之間的對應(yīng)關(guān)系。概率分布具有如下兩個基本性質(zhì):(1)pi≥0,i=1,2,…,n;(2)離散型概率分布的表示:概率函數(shù):P(X=xi)=pi分布列:分布圖X=xix1x2…xnP(X=xi)=pip1p2…pn0.60.30012xP(x)圖3-5例3-9的概率分布2.連續(xù)型隨機(jī)變量的概率密度連續(xù)型隨機(jī)變量的概率分布只能表示為:數(shù)學(xué)函數(shù)——概率密度函數(shù)f(x)和分布函數(shù)F(x)
圖形——概率密度曲線和分布函數(shù)曲線概率密度函數(shù)f(x)的函數(shù)值不是概率。連續(xù)型隨機(jī)變量取某個特定值的概率等于0只能計算隨機(jī)變量落在一定區(qū)間內(nèi)的概率——由x軸以上、概率密度曲線下方面積來表示概率密度f(x)的性質(zhì)(1)f(x)≥0。概率密度是非負(fù)函數(shù)。(2)所有區(qū)域上取值的概率總和為1。
隨機(jī)變量X在一定區(qū)間(a,b)上的概率:
f(x)xab3.分布函數(shù)適用于兩類隨機(jī)變量概率分布的描述分布函數(shù)的定義:F(x)=P{X≤x}連續(xù)型隨機(jī)變量的分布函數(shù)離散型隨機(jī)變量的分布函數(shù)
F(x)=f(x)xx0F(x0
)分布函數(shù)與概率密度三、隨機(jī)變量的數(shù)字特征1.隨機(jī)變量的數(shù)學(xué)期望
2.隨機(jī)變量的方差和標(biāo)準(zhǔn)差
3.兩個隨機(jī)變量的協(xié)方差和相關(guān)系數(shù)3.2隨機(jī)變量及其概率分布1.隨機(jī)變量的數(shù)學(xué)期望又稱均值描述一個隨機(jī)變量的概率分布的中心位置離散型隨機(jī)變量X的數(shù)學(xué)期望:相當(dāng)于所有可能取值以概率為權(quán)數(shù)的平均值連續(xù)型隨機(jī)變量X的數(shù)學(xué)期望:數(shù)學(xué)期望的主要數(shù)學(xué)性質(zhì)若k是一常數(shù),則
E(kX)=kE(X)對于任意兩個隨機(jī)變量X、Y,有
E(X+Y)=E(X)+E(Y)若兩個隨機(jī)變量X、Y相互獨立,則
E(XY)=E(X)E(Y)
2.隨機(jī)變量的方差方差是它的各個可能取值偏離其均值的離差平方的均值,記為D(x)或σ2公式:離散型隨機(jī)變量的方差:連續(xù)型隨機(jī)變量的方差:方差和標(biāo)準(zhǔn)差(續(xù))標(biāo)準(zhǔn)差=方差的平方根方差和標(biāo)準(zhǔn)差都反映隨機(jī)變量取值的分散程度。它們的值越大,說明離散程度越大,其概率分布曲線越扁平。方差的主要數(shù)學(xué)性質(zhì):若k是一常數(shù),則D(k)=0;D(kX)=k2D(X)
若兩個隨機(jī)變量X、Y相互獨立,則
D(X+Y)=D(X)+D(Y)
【例3-10】試求優(yōu)質(zhì)品件數(shù)的數(shù)學(xué)期望、方差和標(biāo)準(zhǔn)差。解:σ=0.6xi012pi3.兩個隨機(jī)變量的協(xié)方差和相關(guān)系數(shù)協(xié)方差的定義
如果X,Y獨立(不相關(guān)),則
Cov(X,Y)=0即E(XY)=E(X)E(Y)
協(xié)方差在一定程度上反映了X、Y之間的相關(guān)性協(xié)方差受兩個變量本身量綱的影響。相關(guān)系數(shù)相關(guān)系數(shù)ρ具有如下的性質(zhì):相關(guān)系數(shù)ρ是一個無量綱的值
0≤|ρ|≤0當(dāng)ρ=0,兩個變量不相關(guān)(不存在線性相關(guān))當(dāng)|ρ|=1,兩個變量完全線性相關(guān)
四、常見離散型隨機(jī)變量的概率分布1.二項分布
2.泊松分布
3.超幾何分布3.2隨機(jī)變量及其概率分布1.二項分布(背景)(背景)——n重貝努里試驗:一次試驗只有兩種可能結(jié)果用“成功”代表所關(guān)心的結(jié)果,相反的結(jié)果為“失敗”每次試驗中“成功”的概率都是pn次試驗相互獨立。1.二項分布在n重貝努里試驗中,“成功”的次數(shù)X服從參數(shù)為n、p的二項分布,記為X~B(n,p)二項分布的概率函數(shù):二項分布的數(shù)學(xué)期望和方差:n=1時,二項分布就成了二點分布(0-1分布)二項分布圖形p=0.5時,二項分布是以均值為中心對稱p≠0.5時,二項分布總是非對稱的p<0.5時峰值在中心的左側(cè)p>0.5時峰值在中心的右側(cè)隨著n無限增大,二項分布趨近于正態(tài)分布p=0.3p=0.5p=0.7二項分布圖示【例3-11】某單位有4輛汽車,假設(shè)每輛車在一年中至多只發(fā)生一次損失且損失的概率為0.1。試求在一年內(nèi)該單位:(1)沒有汽車發(fā)生損失的概率;(2)有1輛汽車發(fā)生損失的概率;(3)發(fā)生損失的汽車不超過2輛的概率。解:每輛汽車是否發(fā)生損失相互獨立的,且損失的概率相同,因此,據(jù)題意,在4輛汽車中發(fā)生損失的汽車數(shù)X~B(4,0.1)。利用Excel計算二項分布概率進(jìn)入Excel表格界面,點擊任一空白單元格(作為輸出單元格)點擊表格界面上的
fx
命令在“選擇類別”中點擊“統(tǒng)計”,在“選擇函數(shù)”中點擊“BINOMDIST”在Number_s后填入試驗成功次數(shù)x(本例為2);在Trials后填入總試驗次數(shù)
n(本例為4);在Probability_s后填入成功概率p(本例為0.1);在Cumulative后填入0(或FALSE),表示計算成功次數(shù)等于指定值的概率“=BINOMDIST(2,4,0.1,0)”用EXCEL計算二項分布的概率2.泊松分布X服從泊松分布,記為X~P(λ):E(X)=D(X)=λ當(dāng)λ很小時,泊松分布呈偏態(tài),并隨著λ增大而趨于對稱當(dāng)λ為整數(shù)時,λ和(λ-1)是最可能值泊松分布(應(yīng)用背景)通常是作為稀有事件發(fā)生次數(shù)X的概率分布模型。一段時間內(nèi)某繁忙十字路口發(fā)生交通事故的次數(shù)一定時間段內(nèi)某電話交換臺接到的電話呼叫次數(shù)…服從泊松分布的現(xiàn)象的共同特征在任意兩個很小的時間或空間區(qū)間內(nèi)事件發(fā)生次數(shù)是相互獨立的;各區(qū)間內(nèi)事件發(fā)生次數(shù)只與區(qū)間長度成比例,與區(qū)間起點無關(guān);在一段充分小的區(qū)間內(nèi)事件發(fā)生兩次或兩次以上的概率可以忽略不計【例3-12】
設(shè)某種報刊的每版上錯別字個數(shù)服從
λ=2的泊松分布。隨機(jī)翻看一版,求:(1)沒有錯別字的概率;(2)至多有5個錯別字的概率。解:設(shè)X=每版上錯別字個數(shù),則所求概率為:利用EXCEL計算泊松分布的概率二項分布的泊松近似【前提】當(dāng)n很大而p又很小時,二項分布可用參數(shù)λ=np的泊松分布近似【例3-13】一工廠有某種設(shè)備80臺,配備了3個維修工。假設(shè)每臺設(shè)備的維修只需要一個維修工,設(shè)備發(fā)生故障是相互獨立的,且每臺設(shè)備發(fā)生故障的概率都是0.01。求設(shè)備發(fā)生故障而不能及時維修的概率是多少?解:X~B(n=80,p=0.01),由于np=0.8很小,可以用λ=0.8的泊松分布來近似計算其概率:3.超幾何分布
N個單位的有限總體中有M個單位具有某特征。用不重復(fù)抽樣方法從總體中抽取n個單位,樣本中具有某種特征的單位數(shù)X服從超幾何分布,記為X~H(n,N,M)數(shù)學(xué)期望和方差:N很大而n相對很小時,趨于二項分布(p=M/N)五、常見的連續(xù)型概率分布1.均勻分布X只在一有限區(qū)間[a,b]上取值且概率密度是一個常數(shù)其概率密度為:X落在子區(qū)間[c,d]
內(nèi)的概率與該子區(qū)間的長度成正比,與具體位置無關(guān)f(x)ac
dbxP(c≤X≤d)2.正態(tài)分布X~N(μ、σ2
),其概率密度為:正態(tài)分布的均值和標(biāo)準(zhǔn)差均值E(X)=μ
方差D(X)=σ2
-∞<x<∞
2.正態(tài)曲線σ相同而μ不同的正態(tài)曲線
2xf(x)μ相同而σ不同的正態(tài)曲線f(x)σ較小σ較大x正態(tài)曲線的主要特性關(guān)于x=μ對稱的鐘形曲線參數(shù)μ決定正態(tài)曲線的中心位置參數(shù)σ決定正態(tài)曲線的陡峭或扁平程度以X軸為漸近線,即當(dāng)x→±∞時,f(x)→0標(biāo)準(zhǔn)正態(tài)分布μ=0、σ=1的正態(tài)分布,記為N(0,1)其概率密度φ(x),分布函數(shù)Ф(x)X~N(μ、σ2),則:Z~N(0,1
)若Z~N(0,1
),則有:
P(|Z|≤a)=2Ф(a)-1Ф(-a)=1-Ф(a)標(biāo)準(zhǔn)化標(biāo)準(zhǔn)正態(tài)曲線
-a
0aφ(z)zΦ(a)【例3-14】某廠生產(chǎn)的某種節(jié)能燈管的使用壽命服從正態(tài)分布,對某批產(chǎn)品測試的結(jié)果,平均使用壽命為1050小時,標(biāo)準(zhǔn)差為200小時。試求:(a)使用壽命在500小時以下的燈管占多大比例?(b)使用壽命在850~1450小時的燈管占多大比例?(c)以均值為中心,95%的燈管的使用壽命在什么范圍內(nèi)?解
X=使用壽命,X~N(1050,2002
)=Ф(2)-Ф(-1)=0.97725-0.15865=0.818695%的燈管壽命在均值左右392(即658~1442)小時=1-Ф(2.75)=1-0.99702=0.002983σ
原則|X-μ|>3σ的概率很小,因此可認(rèn)為正態(tài)隨機(jī)變量的取值幾乎全部集中在[μ-3σ,μ+3σ]區(qū)間內(nèi)廣泛應(yīng)用:產(chǎn)品質(zhì)量控制判斷異常情況……圖3-12常用的正態(tài)概率值(在一般正態(tài)分布及標(biāo)準(zhǔn)正態(tài)分布中)-3
-2
-10
+1+2+3z-3σ-2σ-σ
+σ
+2σ+3σx99.73%95.45%68.27%正態(tài)分布最常用、最重要大千世界中許多常見的隨機(jī)現(xiàn)象服從或近似服從正態(tài)分布例如,測量誤差,同齡人的身高、體重,一批棉紗的抗拉強(qiáng)度,一種設(shè)備的使用壽命,農(nóng)作物的產(chǎn)量…特點是“中間多兩頭少”由于正態(tài)分布特有的數(shù)學(xué)性質(zhì),正態(tài)分布在很多統(tǒng)計理論中都占有十分重要的地位正態(tài)分布是許多概率分布的極限分布統(tǒng)計推斷中許多重要的分布(如χ2分布、t分布、F分布)都是在正態(tài)分布的基礎(chǔ)上推導(dǎo)出來的。用正態(tài)分布近似二項分布X~B(n,p),當(dāng)n充分大時,
X~N(np,np(1-p))【例3-15】假設(shè)有一批種子的發(fā)芽率為0.7?,F(xiàn)有這種種子1000顆,試求其中有720顆以上發(fā)芽的概率。解:設(shè)X=發(fā)芽種子顆數(shù),X~B(1000,0.7)。近似地X~N(700,210)。
P(X>720)=P(Z>1.38)=1-P(Z≤1.38)
=1-0.9162=0.0838用正態(tài)分布近似二項分布用正態(tài)分布近似二項分布的前提n很大,p不能太接近0或1(否則二項分布太偏)一般要求np和np(1-p)都要大于5如果np或np(1-p)小于5,二項分布可以用泊松分布來近似計算正態(tài)分布的概率值方法一:先標(biāo)準(zhǔn)化——查標(biāo)準(zhǔn)正態(tài)分布函數(shù)值表方法二:利用Excel來計算(不必標(biāo)準(zhǔn)化)插入函數(shù)fx——選擇“統(tǒng)計”-“NORMDIST”,進(jìn)入“函數(shù)參數(shù)”對話框中,在X后填入正態(tài)隨機(jī)變量的取值區(qū)間點;在Mean后填入正態(tài)分布的均值;在Standard_dev后填入正態(tài)分布的標(biāo)準(zhǔn)差;在Cumulative后填入1(或TRUE),表示計算隨機(jī)變量取值小于等于指定值x的累積概率值。計算正態(tài)分布的概率值也可在選定的輸出單元格中,順次輸入函數(shù)名和參數(shù)值即可如輸入“=NORMDIST(500,1050,200,1)”,確定后即可得到所求概率值0.0029798。根據(jù)概率值F(X≤x)求隨機(jī)變量取值的區(qū)間點x,選擇函數(shù)“NORMINV”。如輸入“=NORMINV(0.0029798,1050,200)”,顯示計算結(jié)果為500。3.3大數(shù)定律與中心極限定理
一、大數(shù)定律二、中心極限定理一、大數(shù)定律1.獨立同分布大數(shù)定律
2.貝努里大數(shù)定律3.3大數(shù)定律與中心極限定理獨立同分布大數(shù)定律大數(shù)定律是闡述大量同類隨機(jī)現(xiàn)象的平均結(jié)果的穩(wěn)定性的一系列定理的總稱。獨立同分布大數(shù)定律——設(shè)X1,X2,…是獨立同分布的隨機(jī)變量序列,且存在有限的數(shù)學(xué)期望E(Xi)=μ和方差D(Xi
)=σ2(i=1,2,…),則對任意小的正數(shù)ε,有:
大數(shù)定律(續(xù))該大數(shù)定律表明:當(dāng)n充分大時,相互獨立且服從同一分布的一系列隨機(jī)變量取值的算術(shù)平均數(shù),與其數(shù)學(xué)期望μ的偏差任意小的概率接近于1。該定理給出了平均值具有穩(wěn)定性的科學(xué)描述,從而為使用樣本均值去估計總體均值(數(shù)學(xué)期望)提供了理論依據(jù)。貝努里大數(shù)定律設(shè)m是n次獨立重復(fù)試驗中事件A發(fā)生的次數(shù),p是每次試驗中事件A發(fā)生的概率,則對任意的ε>0,有:它表明,當(dāng)重復(fù)試驗次數(shù)n充分大時,事件A發(fā)生的頻率m/n依概率收斂于事件A發(fā)生的概率闡明了頻率具有穩(wěn)定性,提供了用頻率估計概率的理論依據(jù)。二、中心極限定理1.獨立同分布大數(shù)定律
2.棣莫佛-拉普拉斯中心極限定理3.3大數(shù)定律與中心極限定理獨立同分布的中心極限定理(也稱列維一林德伯格定理)設(shè)X1,X2,…是獨立同分布的隨機(jī)變量序列,且存在有限的μ和方差σ2(i=1,2,…),當(dāng)n→∞時,或就趨于正態(tài)分布。
上述定理表明獨立同分布的隨機(jī)變量序列不管服從什么分布,其n項總和的分布趨近于正態(tài)分布。可得出如下結(jié)論:不論總體服從何種分布,只要其數(shù)學(xué)期望和方差存在,對這一總體進(jìn)行重復(fù)抽樣時,當(dāng)樣本量n充分大,就趨于正態(tài)分布。該定理為均值的抽樣推斷奠定了理論基礎(chǔ)?!纠?-16】有一測繪小組對甲乙兩地之間的距離采用分段測量的方法進(jìn)行了測量,將甲乙之間的距離分成為100段。設(shè)每段測量值的誤差(單位:cm)服從區(qū)間(-1,1)上的均勻分布。試問:對甲乙兩地之間距離的測量值的總誤差絕對值超過10cm的概率是多少?解:設(shè)Xi=第i段測量誤差(i=1,2,…),由于Xi服從均勻分布,E(Xi)=μ=0,D(Xi
)=σ2=[1-(-1)]2/12=1/3。根據(jù)上述中心極限定理,可得,總誤差Y=ΣXi~N(0,100/3)。
棣莫佛-拉普拉斯中心極限定理設(shè)隨機(jī)變量X服從二項分布B(n,p)的,那么當(dāng)n→∞時,X服從均值為np、方差為np(1-p)的正態(tài)分布,即:或:上述定理表明:
n很大,np
和
np(1-p)也都不太小時,二項分布可以用正態(tài)分布去近似。為什么很多隨機(jī)現(xiàn)象呈正態(tài)分布自然界和社會經(jīng)濟(jì)現(xiàn)象中,這類現(xiàn)象很普遍,許許多多的隨機(jī)變量都可以視為眾多獨立隨機(jī)變量之總和。例如:一個城市的居民生活用電總量是大量相互獨立居民戶用電量的總和;炮彈射擊的誤差,也可以看作是很多因素引起的小誤差之總和。由中心極限定理可知,即使各單個隨機(jī)變量的分布并不明確,但只要它們存在有限均值和方差,這個眾多獨立的隨機(jī)變量之總和的分布就趨近于正態(tài)分布。正態(tài)分布也稱為常態(tài)分布本章小結(jié)隨機(jī)現(xiàn)象、隨機(jī)試驗、事件的概念概率的定義、基本性質(zhì)和運算法則隨機(jī)變量的概念、概率分布的表示隨機(jī)變量的主要數(shù)字特征三種常見的離散型概率分布二項分布、泊松分布和超幾何分布兩種連續(xù)型概率分布均勻分布、正態(tài)分布的主要特征和應(yīng)用大數(shù)定律和中心極限定理常用概率分布及其均值、方差σ2μN(μ,σ2)NORMDIST正態(tài)分布(a+b)/2均勻分布np(p=M/N)H(n,N,M)HYPGEOM-DIST超幾何分布λλP(λ)POISSON泊松分布p(1-p)pB(1,p)二點分布np(1-p)npB(n,p)BINOMDIST二項分布方差均值記號名稱第4章抽樣與抽樣分布4.1
常用的抽樣方法4.2抽樣分布4.3
中心極限定理的應(yīng)用學(xué)習(xí)目標(biāo)了解抽樣的概率抽樣方法理解抽樣分布的意義了解抽樣分布的形成過程理解中心極限定理理解抽樣分布的性質(zhì)4.1常用的抽樣方法一、簡單隨機(jī)抽樣二、分層抽樣三、系統(tǒng)抽樣四、整群抽樣抽樣方法概率抽樣
(probabilitysampling)根據(jù)一個已知的概率來抽取樣本單位,也稱隨機(jī)抽樣特點按一定的概率以隨機(jī)原則抽取樣本抽取樣本時使每個單位都有一定的機(jī)會被抽中每個單位被抽中的概率是已知的,或是可以計算出來的當(dāng)用樣本對總體目標(biāo)量進(jìn)行估計時,要考慮到每個樣本單位被抽中的概率簡單隨機(jī)抽樣
(simplerandomsampling)從總體N個單位中隨機(jī)地抽取n個單位作為樣本,使得每一個容量為樣本都有相同的機(jī)會(概率)被抽中抽取元素的具體方法有重復(fù)抽樣和不重復(fù)抽樣特點簡單、直觀,在抽樣框完整時,可直接從中抽取樣本用樣本統(tǒng)計量對目標(biāo)量進(jìn)行估計比較方便局限性當(dāng)N很大時,不易構(gòu)造抽樣框抽出的單位很分散,給實施調(diào)查增加了困難沒有利用其他輔助信息以提高估計的效率分層抽樣
(stratifiedsampling)將總體單位按某種特征或某種規(guī)則劃分為不同的層,然后從不同的層中獨立、隨機(jī)地抽取樣本優(yōu)點保證樣本的結(jié)構(gòu)與總體的結(jié)構(gòu)比較相近,從而提高估計的精度組織實施調(diào)查方便既可以對總體參數(shù)進(jìn)行估計,也可以對各層的目標(biāo)量進(jìn)行估計系統(tǒng)抽樣
(systematicsampling)將總體中的所有單位(抽樣單位)按一定順序排列,在規(guī)定的范圍內(nèi)隨機(jī)地抽取一個單位作為初始單位,然后按事先規(guī)定好的規(guī)則確定其他樣本單位先從數(shù)字1到k之間隨機(jī)抽取一個數(shù)字r作為初始單位,以后依次取r+k,r+2k…等單位優(yōu)點:操作簡便,可提高估計的精度缺點:對估計量方差的估計比較困難整群抽樣
(clustersampling)將總體中若干個單位合并為組(群),抽樣時直接抽取
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度綠色環(huán)保型托管班教師聘用合同協(xié)議書3篇
- 人教版七年級數(shù)學(xué)上冊《整式的加減整 理與復(fù)習(xí)》示范公開課教學(xué)課件
- 2024年新款圓管涵訂購合同3篇
- 主題班會課:疫情期間致努力的自己x課件
- 2024年商業(yè)綜合體停車場服務(wù)外包及收益分成合同3篇
- 2025透水磚植草磚購銷合同
- 2024年度冬季公共交通樞紐積雪清除與乘客服務(wù)合同下載3篇
- 2025物業(yè)管理委托合同范本
- 2024年智能家居系統(tǒng)技術(shù)開發(fā)合同
- 金融合同執(zhí)行風(fēng)險控制
- 兒科腹瀉課件
- 2023年電力營銷人員試題庫
- 當(dāng)代國際政治與經(jīng)濟(jì) 期末復(fù)習(xí)課件高中政治統(tǒng)編版選擇性必修一
- 第三單元《天氣》-2024-2025學(xué)年三年級上冊科學(xué)單元測試卷(教科版)
- 靜脈炎的預(yù)防與處理(讀書報告)
- 潮濕相關(guān)性皮炎的護(hù)理
- 中國舞臺機(jī)械行業(yè)市場現(xiàn)狀、前景分析研究報告(智研咨詢發(fā)布)
- 奠基儀式策劃方案
- 顏色科學(xué)與技術(shù)智慧樹知到答案2024年西安理工大學(xué)
- 《線性代數(shù)》全套教學(xué)課件
- 消防應(yīng)急預(yù)案電子版
評論
0/150
提交評論