第1章 概率分布_第1頁
第1章 概率分布_第2頁
第1章 概率分布_第3頁
第1章 概率分布_第4頁
第1章 概率分布_第5頁
已閱讀5頁,還剩92頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統計學第1章概率分布

數學定律不能百分之百確切地用在現實生活里;能百分之百確切地用數學定律描述的,就不是現實生活。

——AlberEinstein統計名言第1章概率分布1.1度量事件發(fā)生的可能性1.2隨機變量概率分布1.3由正態(tài)分布導出的幾個重要分布1.4樣本統計量的概率分布學習目標度量事件發(fā)生的可能性—概率離散型概率分布二項分布,泊松分布,超幾何分布連續(xù)型概率分布正態(tài)分布由正態(tài)分布導出的幾個重要分布c2-分布,t-分布,F-分布樣本統計量的概率分布中獎的可能性有多大?很多想在彩票市場上賺大錢,這可以理解,但贏得大獎的人總是少數。山東的一打工者為了碰運氣,半個小時花去了1000元錢,買了500張即開型福利彩票,結果也沒撞上大獎。有人曾做過統計,最賺錢的彩票,中彩的概率最高是500萬分之一,有的達到1000萬分之一甚至更低。假定每張彩票面值是2元,大獎的獎金額是500萬元,中將概率是500萬分之一,你花掉1000萬元購買500萬張彩票,即使中了500萬的大獎,你仍然虧損500萬。況且,從概率的意義上看,即使你購買500萬張彩票,也不能肯定就中大獎。法國人就有這樣的俗語:“中彩的機會比空難還少?!睂τ诙鄶等藖碚f,彩票只是一種數字游戲,是社會籌集閑散資金的一種方式,而不是一種投資,更不是賭博。相信有了本章介紹的概率方面的知識,你就不會再跟彩票較勁。1.1度量事件發(fā)生的可能性概率是什么?怎樣獲得概率?怎樣理解概率?第1章概率分布什么是概率?

(probability)概率是對事件發(fā)生的可能性大小的度量明天降水的概率是80%。這里的80%就是對降水這一事件發(fā)生的可能性大小的一種數值度量。你購買一只股票明天上漲的可能性是30%,這也是一個概率。一個介于0和1之間的一個值事件A的概率記為P(A)怎樣獲得概率?重復試驗獲得概率試驗當試驗的次數很多時,概率P(A)可以由所觀察到的事件A發(fā)生次數(頻數)的比例來逼近在相同條件下,重復進行n次試驗,事件A發(fā)生了m次,則事件A發(fā)生的概率可以寫為

用類似的比例來逼近調查一家餐館將會生存5年的概率,可以用已經生存了5年的類似餐館所占的比例作為所求概率一個近似值。主觀概率

根據對某事件是否發(fā)生的個人觀點取一個0~1之間的數值來描述事件發(fā)生的可能性。拍腦袋1.2.1隨機變量及其概括性度量

1.2.2離散型概率分布

1.2.3連續(xù)型概率分布1.2隨機變量的概率分布1.2.1隨機變量及其概括性度量什么是隨機變量?

(randomvariables)事先不知道會出現什么結果投擲兩枚硬幣出現正面的數量一座寫字樓,每平方米的出租價格一個消費者對某一特定品牌飲料的偏好一般用X,Y,Z來表示根據取值情況的不同分為離散型隨機變量和連續(xù)型隨機變量離散型隨機變量

(discreterandomvariables)隨機變量X

取有限個值或所有取值都可以逐個列舉出來x1,x2,…以確定的概率取這些不同的值離散型隨機變量的一些例子試驗隨機變量可能的取值抽檢100家公司污水達標春暉湖中每天的野鴨數每ml自來水細菌數每次課最先到教室的學生達標的家數野鴨數細菌數學生性別0,1,2,…,1000,1,2,…0,1,2,…男性為0,女性為1重復多次連續(xù)型隨機變量

(continuousrandomvariables)可以取一個或多個區(qū)間中任何值所有可能取值不可以逐個列舉出來,而是取數軸上某一區(qū)間內的任意點連續(xù)型隨機變量的一些例子試驗隨機變量可能的取值抽查一批環(huán)保設備新建一座污水處理廠測量一條河的的長度使用壽命(小時)半年后完工的百分比測量誤差(m)X

00

X100X

0重復多次離散型隨機變量的期望值

(expectedvalue)描述離散型隨機變量取值的集中程度;離散型隨機變量X的所有可能取值xi與其取相對應的概率pi乘積之和;記為

或E(X),計算公式為離散型隨機變量的方差

(variance)隨機變量X的每一個取值與期望值的離差平方和的數學期望,記為

2

或D(X)描述離散型隨機變量取值的分散程度計算公式為方差的平方根稱為標準差,記為

D(X)離散型數學期望和方差

(例題分析)

【例】某環(huán)保設備供應商聲稱,他所提供的設備100個中擁有次品的個數及概率如下表。求該供應商次品數的數學期望和標準差次品數X=xi0123概率P(X=xi)

pi0.750.120.080.05連續(xù)型隨機變量的期望和方差連續(xù)型隨機變量的期望值方差1.2.2離散型概率分布離散型隨機變量的概率分布列出離散型隨機變量X的所有可能取值列出隨機變量取這些值的概率通常用下面的表格來表示X=xix1,x2

,…

,xnP(X=xi)=pip1,p2

,…

,pn

P(X=xi)=pi稱為離散型隨機變量的概率函數pi0;常用的有二項分布、泊松分布、超幾何分布等離散型隨機變量的概率分布

(例題分析)

【例】一設備在一周內發(fā)生故障的次數X及相應的概率如下表故障次數X=xi0123概率P(X=xi)

pi0.100.250.35

(1)確定

的值

(2)求正好發(fā)生兩次故障的概率

(3)求故障次數多于一次的概率

(4)最多發(fā)生一次故障的概率離散型隨機變量的概率分布

(例題分析)

解:(1)由于0.10+0.25+0.35+

=1

所以,

=0.30

(2)P(X=2)=0.35(3)P(X2)=0.10+0.25+0.35=0.70(4)P(X

1)=0.35+0.30=0.65二項試驗

(Bernoulli試驗)

二項分布建立在Bernoulli試驗基礎上貝努里試驗滿足下列條件一次試驗只有兩個可能結果,即“成功”和“失敗”;“成功”是指我們感興趣的某種特征;一次試驗“成功”的概率為p,失敗的概率為q=1-p,且概率p對每次試驗都是相同的;試驗是相互獨立的,并可以重復進行n次;在n次試驗中,“成功”的次數對應一個離散型隨機變量X

。二項分布

(Binomialdistribution)重復進行

n

次試驗,出現“成功”的次數的概率分布稱為二項分布,記為X~B(n,p);設X為n次重復試驗中出現成功的次數,X取x

的概率為:二項分布

(例題分析)【例】已知一批產品的次品率為4%,從中任意有放回地抽取5個。求5個產品中

(1)沒有次品的概率是多少?概率密度函數

(2)恰好有1個次品的概率是多少?

(3)有3個以下次品的概率是多少?累計概率二項分布

(用SPSS計算概率)1、某一點的概率為P(x=k)概率密度

SPSS中函數形式為:

PDF.BINOM(k,n,p)2、最多有XXX的概率p(x≤k)

統計學上稱為概率分布函數cdf(cum-ulativedistributionfunction),SPSS中函數形式為CDF.BINOM(k,n,p)3、最少有XXX的概率p(x≥k)

SPSS中函數形式為:

1-CDF.BINOM(k-1,n,p)任輸一字母單擊再雙擊Knp課堂練習SPSS計算

已知一批產品的次品率為4%,從中任意有放回地抽取5個。求5個產品中

(1)沒有次品的概率是多少?

(2)恰好有1個次品的概率是多少?

(3)有3個以下次品的概率是多少?

(4)有3個以上次品的概率是多少?

泊松分布

(Poissondistribution)1837年法國數學家泊松(D.Poisson,1781—1840)首次提出;用于描述在一指定時間范圍內或在一定的長度、面積、體積之內每一事件出現次數的分布;泊松分布的例子一定時間段內,某航空公司接到的訂票電話數一定時間內,到車站等候公共汽車的人數一定路段內,路面出現大損壞的次數一定時間段內,放射性物質放射的粒子數一匹布上發(fā)現的疵點個數春暉湖每坪野鴨的只數泊松分布

(概率分布函數)

—給定的時間間隔、長度、面積、體積內“成功”的平均數e=2.71828x—給定的時間間隔、長度、面積、體積內“成功”的次數泊松分布

(例題分析)【例】假定某航空公司預訂票處平均每小時接到42次訂票電話,那么10分鐘內恰好接到6次電話的概率是多少?解:設X=10分鐘內航空公司預訂票處接到的電話次數

泊松分布

(用SPSS計算概率)課堂練習

假定某航空公司預訂票處平均每小時接到42次訂票電話,問:1)10分鐘內恰好接到3次電話的概率是多少?2)10分鐘內接到不超過3次電話的概率是多少?3)10分鐘內接到超過5次電話的概率是多少?超幾何分布

(hypergeometricdistribution)采用不重復抽樣,各次試驗并不獨立,成功的概率也互不相等總體元素的數目N很小,或樣本容量n相對于N來說較大時,樣本中“成功”的次數則服從超幾何概率分布概率分布函數為超幾何分布

(例題分析)【例】假定有10支股票,其中有3支購買后可以獲利,另外7支購買后將會虧損。如果你打算從10支股票中選擇4支購買,但你并不知道哪3支是獲利的,哪7支是虧損的。求

(1)有3支能獲利的股票都被你選中的概率有多大?

(2)3支可獲利的股票中有2支被你選中的概率有多大?解:設N=10,M=3,n=4超幾何分布

(用Excel計算概率,SPSS中沒發(fā)現此模塊!)第1步:在Excel表格界面,直接點擊【fx】(插入函數)命令

第2步:在【選擇類別】中點擊【統計】,并在【選擇函數】

中點擊【HYPGEOMDIST】,然后單擊【確定】第3步:在【Sample_s】后填入樣本中成功的次數x(本例為3)

在【Number_sample】后填入樣本容量n(本例為4)

在【Population_s】后填入總體中成功的次數M(本例為3)

在【Number_pop】后填入總體中的個體總數N

(本例為10)

用Excel計算超幾何分布的概率1.2.3連續(xù)型概率分布連續(xù)型隨機變量的概率分布連續(xù)型隨機變量可以取某一區(qū)間或整個實數軸上的任意一個值;它取任何一個特定的值的概率都等于0;不能列出每一個值及其相應的概率;通常研究它取某一區(qū)間值的概率;用概率密度函數的形式和分布函數的形式來描述。常用連續(xù)型概率分布正態(tài)分布

(normaldistribution)由C.F.高斯(CarlFriedrichGauss,1777—1855)作為描述誤差相對頻數分布的模型而提出;描述連續(xù)型隨機變量的最重要的分布;許多現象都可以由正態(tài)分布來描述;可用于近似離散型隨機變量的分布;例如:二項分布經典統計推斷的基礎;xf(x)概率密度函數f(x)=隨機變量X的頻數

=正態(tài)隨機變量X的均值

=正態(tài)隨機變量X的方差

=3.1415926;e=2.71828x=隨機變量的取值(-

<x<+

)正態(tài)分布函數的性質圖形是關于x=

對稱鐘形曲線,且峰值在x=

處;均值

和標準差

一旦確定,分布的具體形式也惟一確定,不同參數正態(tài)分布構成一個完整的“正態(tài)分布族”;均值

可取實數軸上的任意數值,決定正態(tài)曲線的具體位置;標準差決定曲線的“陡峭”或“扁平”程度。

越大,正態(tài)曲線扁平;

越小,正態(tài)曲線越高陡峭;當X的取值向橫軸左右兩個方向無限延伸時,曲線的兩個尾端也無限漸近橫軸,理論上永遠不會與之相交;正態(tài)隨機變量在特定區(qū)間上的取值概率由正態(tài)曲線下的面積給出,而且其曲線下的總面積等于1

。

對正態(tài)曲線的影響xf(x)CAB

=1/2

1

2

=1標準正態(tài)分布

(standardizenormaldistribution)

標準正態(tài)分布的概率密度函數隨機變量具有均值為0,標準差為1的正態(tài)分布;任何一個一般的正態(tài)分布,可通過下面的線性變換轉化為標準正態(tài)分布;

標準正態(tài)分布的分布函數正態(tài)分布

(用SPSS計算正態(tài)分布的概率)課堂練習20株小麥株高(cm)為82,79,85,84,86,84,83,82,83,83,84,81,80,81,82,81,82,82,82,80其平均值為82.3cm,標準差為1.7502cm。問:x≥85(cm)的概率?P3例1.2數據正態(tài)性的評估對數據畫出頻數分布的直方圖或莖葉圖若數據近似服從正態(tài)分布,則圖形的形狀與上面給出的正態(tài)曲線應該相似莖葉圖

2.繪制正態(tài)概率圖。有時也稱為分位數—分位數圖或稱Q-Q圖或稱為P-P圖用于考察觀測數據是否符合某一理論分布,如正態(tài)分布、指數分布、t分布等等P-P圖是根據觀測數據的累積概率與理論分布(如正態(tài)分布)的累積概率的符合程度繪制的Q-Q圖則是根據觀測值的實際分位數與理論分布(如正態(tài)分布)的分位數繪制的3.使用非參數檢驗中的Kolmogorov-Smirnov檢驗(K-S檢驗)

1.3.1

2

分布

1.3.2t

分布

1.3.3F

分布

1.3由正態(tài)分布導出的幾個重要分布1.3.1

2

分布由阿貝(Abbe)

于1863年首先給出,后來由海爾墨特(Hermert)和卡·皮爾遜(K·Pearson)

分別于1875年和1900年推導出來設,則令,則y服從自由度為1的

2分布,即對于n個正態(tài)隨機變量y1

,y2

,yn,則隨機變量稱為具有n個自由度的

2分布,記為c2-分布

(

2-distribution)分布的變量值始終為正;分布的形狀取決于其自由度n的大小,通常為不對稱的正偏分布,但隨著自由度的增大逐漸趨于對稱;期望為:E(

2)=n,方差為:D(

2)=2n(n為自由度);可加性:若U和V為兩個獨立的

2分布隨機變量,U~

2(n1),V~

2(n2),則U+V這一隨機變量服從自由度為n1+n2的

2分布;c2-分布

(性質和特點)不同自由度的c2-分布c2n=1n=4n=10n=20c2-分布

(用SPSS計算c2分布的概率)

用SPSS計算c2

分布的概率1.3.2t

分布1.3由正態(tài)分布導出的幾個重要分布t-分布

(t-distribution)提出者是WilliamGosset,也被稱為學生分布(student’st)

t分布是類似正態(tài)分布的一種對稱分布,通常要比正態(tài)分布平坦和分散。一個特定的分布依賴于稱之為自由度的參數。隨著自由度的增大,分布也逐漸趨于正態(tài)分布xt

分布與標準正態(tài)分布的比較t分布標準正態(tài)分布t不同自由度的t分布標準正態(tài)分布t(df=13)t(df=5)zt-分布

(用Excel計算t分布的概率和臨界值)

用SPSS計算t分布的臨界值1.3.3F

分布為紀念統計學家費希爾(R.A.Fisher)

以其姓氏的第一個字母來命名則設若U為服從自由度為n1的

2分布,即U~

2(n1),V為服從自由度為n2的

2分布,即V~

2(n2),且U和V相互獨立,則稱F為服從自由度n1和n2的F分布,記為F-分布

(F

distribution)不同自由度的F分布F(1,10)(5,10)(10,10)F-分布

(用SPSS計算F分布的概率和臨街值)1.4.1統計量及其分布

1.4.2樣本均值的分布

1.4.3其他統計量的分布

1.4.4統計量的標準誤差1.4樣本統計量的概率分布1.4.1統計量及其分布參數和統計量參數(parameter)描述總體特征的概括性數字度量,是研究者想要了解的總體的某種特征值;一個總體的參數:總體均值(

)、標準差(

)、總體比例(

);兩個總體參數:(

1-2)、(

1-2)、(

1/2);總體參數通常用希臘字母表示;統計量(statistic)用來描述樣本特征的概括性數字度量,它是根據樣本數據計算出來的一些量,是樣本的函數;一個總體參數推斷時的統計量:樣本均值(

x)、樣本標準差(s)、樣本比例(p)等兩個總體參數推斷時的統計量:(

x1-

x2)、(p1-p2)、(s1/s2);樣本統計量通常用小寫英文字母來表示;樣本統計量的概率分布,是一種理論分布;在重復選取容量為n的樣本時,由該統計量的所有可能取值形成的相對頻數分布;隨機變量是樣本統計量樣本均值,樣本比例,樣本方差等;結果來自容量相同的所有可能樣本;提供了樣本統計量長遠而穩(wěn)定的信息,是進行推斷的理論基礎,也是抽樣推斷科學性的重要依據。 抽樣分布

(samplingdistribution)1.4.2樣本均值的分布在重復選取容量為n的樣本時,由樣本均值的所有可能取值形成的相對頻數分布;一種理論概率分布;推斷總體均值

的理論基礎; 樣本均值的分布樣本均值的分布

(例題分析)【例】設一個總體,含有4個元素(個體)

,即總體單位數N=4。4

個個體分別為x1=1,x2=2,x3=3,x4=4

??傮w的均值、方差及分布如下總體分布14230.1.2.3均值和方差樣本均值的分布

(例題分析)

現從總體中抽取n=2的簡單隨機樣本,在重復抽樣條件下,共有42=16個樣本。所有樣本的結果為3,43,33,23,132,42,32,22,124,44,34,24,141,441,33211,21,11第二個觀察值第一個觀察值所有可能的n=2的樣本(共16個)樣本均值的分布

(例題分析)

計算出各樣本的均值,如下表。并給出樣本均值的抽樣分布3.53.02.52.033.02.52.01.521.03.53.02.542.542.03211.51.01第二個觀察值第一個觀察值16個樣本的均值(x)x樣本均值的抽樣分布1.000.10.20.3P

(x)1.53.01.03.52.02.5樣本均值的分布與總體分布的比較

(例題分析)

=2.5σ2=1.25總體分布樣本均值分布樣本均值的分布

與中心極限定理

=50

=10X總體分布n=4抽樣分布xn=16當總體服從正態(tài)分布N(μ,σ2)時,來自該總體的所有容量為n的樣本的均值

x也服從正態(tài)分布,

x

的期望值為μ,方差為σ2/n。即

x~N(μ,σ2/n)。中心極限定理

(centrallimittheorem)當樣本容量足夠大時(n

30),樣本均值的抽樣分布逐漸趨于正態(tài)分布從均值為

,方差為

2的一個任意總體中抽取容量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ2/n的正態(tài)分布。一個任意分布的總體x中心極限定理

(centrallimittheorem)

x的分布趨于正態(tài)分布的過程抽樣分布與總體分布的關系總體分布正態(tài)分布非正態(tài)分布大樣本小樣本樣本均值正態(tài)分布樣本均值正態(tài)分布樣本均值非正態(tài)分布樣本均值的分布樣本均值的期望值和方差樣本均值的分布

(數學期望與方差)

1.4.3其他統計量的分布總體(或樣本)中具有某種屬性的單位與全部單位總數之比;不同性別的人與全部人數之比;合格品(或不合格品)與全部產品總數之比;總體比例可表示為樣本比例可表示為

樣本比例的分布

(proportion)在重復選取容量為n的樣本時,由樣本比例的所有可能取值形成的相對頻數分布。一種理論概率分布。當樣本容量很大時,樣本比例的抽樣分布可用正態(tài)分布近似,即

樣本比例的分布樣本方差的分布在重復選取容量為n的樣本時,由樣本方差的所有可能取值形成的相對頻數分布;對于來自正態(tài)總體的簡單隨機樣本,則比值的抽樣分布服從自由度為(n-1)的

2分布,即樣本方差的分布在重復選取容量為n的樣本時,由樣本方差的所有可能取值形成的相對頻數分布對于來自正態(tài)總體的簡單隨機樣本,則比值的抽樣分布服從自由度為(n-1)的

2分布,即1.4.4統計量的標準誤差統計量的標準誤差

(standarderror)樣本統計量的抽樣分布的標準差,稱為統計量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論