




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
板塊一.隨機(jī)抽樣
mate知識(shí)內(nèi)容
隨機(jī)抽樣
i.隨機(jī)抽樣:滿足每個(gè)個(gè)體被抽到的機(jī)會(huì)是均等的抽樣,共有三種經(jīng)常采用的隨機(jī)抽樣方
法:
⑴簡(jiǎn)單隨機(jī)抽樣:從元素個(gè)數(shù)為N的總體中不放回地抽取容量為〃的樣本,如果每一次抽
取時(shí)總體中的各個(gè)個(gè)體有相同的可能性被抽到,這種抽樣方法叫做簡(jiǎn)單隨機(jī)抽樣.
抽出辦法:①抽簽法:用紙片或小球分別標(biāo)號(hào)后抽簽的方法.
②隨機(jī)數(shù)表法:隨機(jī)數(shù)表是使用計(jì)算器或計(jì)算機(jī)的應(yīng)用程序生成隨機(jī)數(shù)的功能生成的一張
數(shù)表.表中每一位置出現(xiàn)各個(gè)數(shù)字的可能性相同.
隨機(jī)數(shù)表法是對(duì)樣本進(jìn)行編號(hào)后,按照一定的規(guī)律從隨機(jī)數(shù)表中讀數(shù),并取出相應(yīng)的樣本的
方法.
簡(jiǎn)單隨機(jī)抽樣是最簡(jiǎn)單、最基本的抽樣方法.
⑵系統(tǒng)抽樣:將總體分成均衡的若干部分,然后按照預(yù)先制定的規(guī)則,從每一部分抽取一個(gè)
個(gè)體,得到所需要的樣本的抽樣方法.
抽出辦法:從元素個(gè)數(shù)為N的總體中抽取容量為〃的樣本,如果總體容量能被樣本容量整
除,設(shè)憶=老,先對(duì)總體進(jìn)行編號(hào),號(hào)碼從1到N,再?gòu)臄?shù)字1到人中隨機(jī)抽取一個(gè)數(shù)s作
為起始數(shù),然后順次抽取第s+k,6+23…,s+5-l4個(gè)數(shù),這樣就得到容量為〃的樣
本.如果總體容量不能被樣本容量整除,可隨機(jī)地從總體中剔除余數(shù),然后再按系統(tǒng)抽樣
方法進(jìn)行抽樣.
系統(tǒng)抽樣適用于大規(guī)模的抽樣調(diào)查,由于抽樣間隔相等,又被稱為等距抽樣.
⑶分層抽樣:當(dāng)總體有明顯差別的幾部分組成時(shí),要反映總體情況,常采用分層抽樣,使
總體中各個(gè)個(gè)體按某種特征分成若干個(gè)互不重疊的幾部分,每一部分叫做層,在各層中按
層在總體中所占比例進(jìn)行簡(jiǎn)單隨機(jī)抽樣,這種抽樣方法叫做分層抽樣.
分層抽樣的樣本具有較強(qiáng)的代表性,而且各層抽樣時(shí),可靈活選用不同的抽樣方法,
應(yīng)用廣泛.
2.簡(jiǎn)單隨機(jī)抽樣必須具備下列特點(diǎn):
⑴簡(jiǎn)單隨機(jī)抽樣要求被抽取的樣本的總體個(gè)數(shù)N是有限的.
⑵簡(jiǎn)單隨機(jī)樣本數(shù)n小于等于樣本總體的個(gè)數(shù)N.
⑶簡(jiǎn)單隨機(jī)樣本是從總體中逐個(gè)抽取的.
⑷簡(jiǎn)單隨機(jī)抽樣是一種不放回的抽樣.
⑸簡(jiǎn)單隨機(jī)抽樣的每個(gè)個(gè)體入樣的可能性均為4.
N
3.系統(tǒng)抽樣時(shí),當(dāng)總體個(gè)數(shù)N恰好是樣本容量〃的整數(shù)倍時(shí),取k=J
若豈不是整數(shù)時(shí),先從總體中隨機(jī)地剔除幾個(gè)個(gè)體,使得總體中剩余的個(gè)體數(shù)能被樣本容
量〃整除.因?yàn)槊總€(gè)個(gè)體被剔除的機(jī)會(huì)相等,因而整個(gè)抽樣過(guò)程中每個(gè)個(gè)體被抽取的機(jī)會(huì)仍
然相等,為上N.
n
—.頻率直方圖
列出樣本數(shù)據(jù)的頻率分布表和頻率分布直方圖的步驟:
①計(jì)算極差:找出數(shù)據(jù)的最大值與最小值,計(jì)算它們的差;
極差
②決定組距與組數(shù):取組距,用決定組數(shù);
③決定分點(diǎn):決定起點(diǎn),進(jìn)行分組;
④列頻率分布直方圖:對(duì)落入各小組的數(shù)據(jù)累計(jì),算出各小數(shù)的頻數(shù),除以樣本容量,得
到各小組的頻率.
⑤繪制頻率分布直方圖:以數(shù)據(jù)的值為橫坐標(biāo),以黑的值為縱坐標(biāo)繪制直方圖,
組距
頻率
知小長(zhǎng)方形的面積=組距X=頻率.
頻率分布折線圖:將頻率分布直方圖各個(gè)長(zhǎng)方形上邊的中點(diǎn)用線段連接起來(lái),就得到頻率分
布折線圖,一般把折線圖畫(huà)成與橫軸相連,所以橫軸左右兩端點(diǎn)沒(méi)有實(shí)際意義.
總體密度曲線:樣本容量不斷增大時(shí),所分組數(shù)不斷增加,分組的組距不斷縮小,頻率分布
直方圖可以用一條光滑曲線y=/(x)來(lái)描繪,這條光滑曲線就叫做總體密度曲線.總體密度
曲線精確地反映了一個(gè)總體在各個(gè)區(qū)域內(nèi)取值的規(guī)律.
三.莖葉圖
制作莖葉圖的步驟:
①將數(shù)據(jù)分為“莖”、“葉”兩部分;
②將最大莖與最小莖之間的數(shù)字按大小順序排成一列,并畫(huà)上豎線作為分隔線;
4)將各個(gè)數(shù)據(jù)的“葉”在分界線的一側(cè)對(duì)應(yīng)莖處同行列出.
四.統(tǒng)計(jì)數(shù)據(jù)的數(shù)字特征
用樣本平均數(shù)估計(jì)總體平均數(shù);用樣本標(biāo)準(zhǔn)差估計(jì)總體標(biāo)準(zhǔn)差.
數(shù)據(jù)的離散程序可以用極差、方差或標(biāo)準(zhǔn)差來(lái)描述.
極差又叫全距,是一組數(shù)據(jù)的最大值和最小值之差,反映一組數(shù)據(jù)的變動(dòng)幅度;
樣本方差描述了一組數(shù)據(jù)平均數(shù)波動(dòng)的大小,樣本的標(biāo)準(zhǔn)差是方差的算術(shù)平方根.
一般地,設(shè)樣本的元素為不,々,…,毛樣本的平均數(shù)為了,
定義樣本方差為$2=?一反2+區(qū)■■君2+…+(X“一豆,
樣本標(biāo)準(zhǔn)差s=卜&一丁尸+(%一</+???+
Vn
簡(jiǎn)化公式:S?=匕(與2+考+…+片)一就2].
n
五.獨(dú)立性檢驗(yàn)
1.兩個(gè)變量之間的關(guān)系;
常見(jiàn)的有兩類:一類是確定性的函數(shù)關(guān)系;另一類是變量間存在關(guān)系,但又不具備函數(shù)關(guān)系
所要求的確定性,它們的關(guān)系是帶有一定隨機(jī)性的.當(dāng)一個(gè)變量取值一定時(shí),另一個(gè)變量的
取值帶有一定隨機(jī)性的兩個(gè)變量之間的關(guān)系叫做相關(guān)關(guān)系.
2.散點(diǎn)圖:將樣本中的〃個(gè)數(shù)據(jù)點(diǎn)(七,y)(i=1,2,…,〃)描在平面直角坐標(biāo)系中,就得到
了散點(diǎn)圖.
散點(diǎn)窗形象地反映了各個(gè)數(shù)據(jù)的密切程度,根據(jù)散點(diǎn)圖的分布趨勢(shì)可以直觀地判斷分析兩個(gè)
變量的關(guān)系.
3.如果當(dāng)一個(gè)變量的值變大時(shí),另一個(gè)變量的值也在變大,則這種相關(guān)稱為正相關(guān);此時(shí),
散點(diǎn)圖中的點(diǎn)在從左下角到右上角的區(qū)域.
反之,一個(gè)變量的值變大時(shí),另一個(gè)變量的值由大變小,這種相關(guān)稱為負(fù)相關(guān).止匕時(shí),散點(diǎn)
圖中的點(diǎn)在從左上角到右下角的區(qū)域.
散點(diǎn)圖可以判斷兩個(gè)變量之間有沒(méi)有相關(guān)關(guān)系.
4.統(tǒng)計(jì)假設(shè):如果事件A與B獨(dú)立,這時(shí)應(yīng)該有尸(AB)=P(A)P(8),用字母4表示此式,
即Ho:P(AB)=P(A)P(B),稱之為統(tǒng)計(jì)假設(shè).
5.%"(讀作“卡方”)統(tǒng)計(jì)量:
統(tǒng)計(jì)學(xué)中有一個(gè)非常有用的統(tǒng)計(jì)量,它的表達(dá)式為個(gè)叫)一,用它的大小可以
〃l+〃2+"+l”+2
用來(lái)決定是否拒絕原來(lái)的統(tǒng)計(jì)假設(shè)“0.如果/的值較大,就拒絕“°,即認(rèn)為A與B是有
關(guān)的.
/統(tǒng)計(jì)量的兩個(gè)臨界值:3.841、6.635;當(dāng)/>3.841時(shí),有95%的把握說(shuō)事件A與8有
關(guān);當(dāng)/>6.635時(shí),有99%的把握說(shuō)事件A與5有關(guān);當(dāng)/W3.841時(shí),認(rèn)為事件A與8
是無(wú)關(guān)的.
獨(dú)立性檢驗(yàn)的基本思想與反證法類似,由結(jié)論不成立時(shí)推出有利于結(jié)論成立的小概率事件發(fā)
生,而小概率事件在一次試驗(yàn)中通常是不會(huì)發(fā)生的,所以認(rèn)為結(jié)論在很大程度上是成立的.
1.獨(dú)立性檢驗(yàn)的步驟:統(tǒng)計(jì)假設(shè):Hn;列出2x2聯(lián)表;計(jì)算/統(tǒng)計(jì)量:查對(duì)臨界值表,
作出判斷.
2.幾個(gè)臨界值:P(/>2.706)=0.10,P(*》3.841)=0.05,P(*26.635)=0.01.
2x2聯(lián)表的獨(dú)立性檢驗(yàn):
如果對(duì)于某個(gè)群體有兩種狀態(tài),對(duì)于每種狀態(tài)又有兩個(gè)情況,這樣排成一張2x2的表,如
下:
狀態(tài)B狀態(tài)》合計(jì)
狀態(tài)A勺+
狀態(tài)A%+
%%2n
如果有調(diào)查得來(lái)的四個(gè)數(shù)據(jù)勺,與,%,n22,并希望根據(jù)這樣的4個(gè)數(shù)據(jù)來(lái)檢驗(yàn)上述的兩種
狀態(tài)A與8是否有關(guān),就稱之為2x2聯(lián)表向獨(dú)立性檢驗(yàn).
六.回歸分析
I.回歸分析:對(duì)于具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析的方法叫做回歸分析,即回歸分
析就是尋找相關(guān)關(guān)系中這種非確定關(guān)系的某種確定性.
回歸直線:如果散點(diǎn)圖中的各點(diǎn)都大致分布在一條直線附近,就稱這兩個(gè)變量之間具有線性
相關(guān)關(guān)系,這條直線叫做回歸直線.
2.最小二乘法:
記回歸直線方程為:y=a+bx,稱為變量丫對(duì)變量x的回歸直線方程,其中叫做回歸
系數(shù).
9是為了區(qū)分丫的實(shí)際值y,當(dāng)x取值茗時(shí),變量V的相應(yīng)觀察值為y,而直線上對(duì)應(yīng)于蒼
的縱坐標(biāo)是力="+bxi.
設(shè)x,丫的一組觀察值為(先,y),i=1,2,…,且回歸直線方程為^=。+公,
當(dāng)x取值答時(shí),K的相應(yīng)觀察值為%,差必-力(i=1,2,…,〃)刻畫(huà)了實(shí)際觀察值y與回歸
直線上相應(yīng)點(diǎn)的縱坐標(biāo)之間的偏離程度,稱這些值為離差.
我們希望這〃個(gè)離差構(gòu)成的總離差越小越好,這樣才能使所找的直線很貼近已知點(diǎn).
記。=,回歸直線就是所有直線中。取最小值的那條?
/=!
這種使“離差平方和為最小”的方法,叫做最小二乘法.
用最小二乘法求回歸系數(shù)4,人有如下的公式:
2%切_時(shí)
5=三---------a=y-bx,其中a"上方加“人”,表示是由觀察值按最小二乘法求得的
i=l
回歸系數(shù).
3.線性回歸模型:將用于估計(jì)y值的線性函數(shù)4+所作為確定性函數(shù);y的實(shí)際值與估計(jì)
值之間的誤差記為£,稱之為隨機(jī)誤差;將),=a+bx+£稱為線性回歸模型.
產(chǎn)生隨機(jī)誤差的主要原因有:
①所用的確定性函數(shù)不恰當(dāng)即模型近似引起的誤差;
②忽略了某些因素的影響,通常這些影響都比較?。?/p>
③由于測(cè)量工具等原因,存在觀測(cè)誤差.
4.線性回歸系數(shù)的最佳估計(jì)值:
利用最小二乘法可以得到4,3的計(jì)算公式為
__
3=-^,----------=得-------->a^y-bx,其中x=丫=一卻,
之(X,.-JC)2'X;一心>"I"t
/=|1=1
由此得到的直線?=&+%就稱為回歸直線,此直線方程即為線性回歸方程.其中4,5分
別為a,b的估計(jì)值,育稱為回歸截距,5稱為回歸系數(shù),9稱為回歸值.
5.相關(guān)系數(shù):
__
2(七一x)(x-y)?-nxy
i=l_i=l
、忙(七-;)2。(必一?。?-〃G)2)
Vi=1i=lVf=l/=!
6.相關(guān)系數(shù)r的性質(zhì):
⑴|r|Wl;
⑵|r|越接近于1,x,y的線性相關(guān)程度越強(qiáng);
(3)|川越接近于0,x,y的線性相關(guān)程度越弱.
可見(jiàn),一條回歸直線有多大的預(yù)測(cè)功能,和變量間的相關(guān)系數(shù)密切相關(guān).
7,轉(zhuǎn)化思想:
根據(jù)專業(yè)矢贏或散點(diǎn)圖,對(duì)某些特殊的非線性關(guān)系,選擇適當(dāng)?shù)淖兞看鷵Q,把非線性方程轉(zhuǎn)
化為線性回歸方程,從而確定未知參數(shù).
8.一些備案
①回歸(regression)一詞的來(lái)歷:“回歸”這個(gè)詞英國(guó)統(tǒng)計(jì)學(xué)家FrancilsGalton提出來(lái)的.1889
年,他在研究祖先與后代的身高之間的關(guān)系時(shí)發(fā)現(xiàn),身材較高的父母,他們的孩子也較高,
但這些孩子的平均身高并沒(méi)有他們父母的平均身高高;身材較矮的父母,他們的孩子也較矮,
但這些孩子的平均身高卻比他們父母的平均身高高.Galton把這種后代的身高向中間值靠近
的趨勢(shì)稱為''回歸現(xiàn)象后來(lái),人們把由一個(gè)變量的變化去推測(cè)另一個(gè)變量的變化的方法稱
為回歸分析.
②回歸系數(shù)的推導(dǎo)過(guò)程:
Q=ZKy-a)-如『=Zy:-2@%+na2-2bz+2abz占+^x;
=na2+2a(心毛-£%)+從£xj-2b£x,%+,y;,
把上式看成a的二次函數(shù),"的系數(shù)”>o,
因此當(dāng)叫_2(m>)=—£時(shí)取最小值.
2〃n
同理,把。的展開(kāi)式按6的降基排列,看成6的二次函數(shù),當(dāng)6=2士設(shè);工出時(shí)取最小值.
Lx"
一〃
Z茗y,--時(shí)
Z。一君(%一田
解得:b=R--------a=y-bx,
Z(%-君2
/=!
其中y=』ZM,5=1?>,是樣本平均數(shù).
nn
9.對(duì)相關(guān)系數(shù)/"進(jìn)行相關(guān)性檢驗(yàn)的步驟:
①提出統(tǒng)計(jì)假設(shè)H。:變量x,y不具有線性相關(guān)關(guān)系;
②如果以95%的把握作出推斷,那么可以根據(jù)1-0.95=0.05與〃-2(〃是樣本容量)在相
關(guān)性檢驗(yàn)的臨界值表中查出一個(gè)r的臨界值Qo,(其中1-0.95=0.05稱為檢驗(yàn)水平);
③計(jì)算樣本相關(guān)系數(shù)r;
④作出統(tǒng)計(jì)推斷:若則否定“。,表明有95%的把握認(rèn)為變量y與x之間具有線
性相關(guān)關(guān)系;若"氏a5,則沒(méi)有理由拒絕”。,即就目前數(shù)據(jù)而言,沒(méi)有充分理由認(rèn)為變
量y與x之間具有線性相關(guān)關(guān)系.
說(shuō)明:
⑴對(duì)相關(guān)系數(shù)r進(jìn)行顯著性檢驗(yàn),一般取檢驗(yàn)水平a=0.05,即可靠程度為95%.
⑵這里的/?指的是線性相關(guān)系數(shù),r的絕對(duì)值很小,只是說(shuō)明線性相關(guān)程度低,不一定不相
關(guān),可能是非線性相關(guān)的某種關(guān)系.
⑶這里的r是對(duì)抽樣數(shù)據(jù)而言的.有時(shí)即使|r|=1,兩者也不一定是線性相關(guān)的.故在統(tǒng)計(jì)
分析時(shí),不能就數(shù)據(jù)論數(shù)據(jù),要結(jié)合實(shí)際情況進(jìn)行合理解釋.
mte典例分析
題型一系統(tǒng)抽樣
【例1】已知某商場(chǎng)新進(jìn)3000袋奶粉,為檢查其三聚氟胺是否超標(biāo),現(xiàn)采用系統(tǒng)抽樣
的方法從中抽取150袋檢查,若第一組抽出的號(hào)碼是11,則第六十一組抽出的
號(hào)碼為.
【例2】某校高三年級(jí)195名學(xué)生已編號(hào)為1,2,3,...195,為了解高三學(xué)生的飲食情
況,要按1:5的比例抽取一個(gè)樣本,若采用系統(tǒng)抽樣方法進(jìn)行抽取,其中抽取3
名學(xué)生的編號(hào)可能是()
A.3,24,33B.31,47,147C.133,153,193D.102,
132,159
【例3】從編號(hào)為1~5。的50枚最新研制的某種型號(hào)的導(dǎo)彈中隨機(jī)抽取5枚來(lái)進(jìn)行發(fā)射
實(shí)驗(yàn),若采用每部分選取的號(hào)碼間隔一樣的系統(tǒng)抽樣方法,則所選取5枚導(dǎo)彈
的編號(hào)可能是()
A.5,10,15,20,25B.3,13,23,33,43C.1,2,3,4,5
D.2,4,6,16,32
【例4】有40件產(chǎn)品,編號(hào)從1至40,現(xiàn)在從中抽取4件檢驗(yàn),用系統(tǒng)抽樣法所抽的編
號(hào)可能為()
A.5,10,15,20B.2,12,22,32
C.2,14,26,38D.5,8,31,36
【例5】采用系統(tǒng)抽樣法,從121人中抽取一個(gè)容量為12人的樣本,寫(xiě)出抽樣的步驟,
并求每人被抽取的機(jī)率.
【例6】用系統(tǒng)抽樣法要從160名學(xué)生中抽取容量為20的樣本,將160名學(xué)生隨機(jī)地
從1?160編號(hào),按編號(hào)順序平均分成20組(1~8號(hào),9~16號(hào),…,153~160
號(hào)),若第16組抽出的號(hào)碼為126,則第1組中用抽簽的方法確定的號(hào)碼是
【例7】某單位有工程師6人,技術(shù)員12人,技工18人,要從這些人中抽取一個(gè)容量為
〃的樣本;如果采用系統(tǒng)抽樣和分層抽樣方法抽取,不用剔除個(gè)體;如果樣本
容量增加1個(gè),則在采用系統(tǒng)抽樣時(shí),需要在總體中先剔除1個(gè)個(gè)體,則樣本容
量為.
【例8】一個(gè)總體中有100個(gè)個(gè)體,隨機(jī)編號(hào)0,1,2,99,依編號(hào)順序平均分成
10個(gè)小組,組號(hào)依次為1,2,3,10.現(xiàn)用系統(tǒng)抽樣方法抽取一個(gè)容量
為10的樣本,規(guī)定如果在第1組隨機(jī)抽取的號(hào)碼為機(jī),那么在第k組中抽取的
號(hào)碼個(gè)位數(shù)字與加+%的個(gè)位數(shù)字相同,若加=6,則在第7組中抽取的號(hào)碼
是?
題型二分層抽樣
【例9】(2010朝陽(yáng)二模)
某校共有學(xué)生2000名,各年級(jí)男、女學(xué)生人數(shù)如下表,已知在全校學(xué)生中隨機(jī)抽
取1名,抽到二年級(jí)女生的概率是0.19,現(xiàn)用分層抽樣的方法在全校學(xué)生中抽取
64人,則應(yīng)在三年級(jí)抽取的學(xué)生人數(shù)為()
一年級(jí)二年級(jí)三年級(jí)
女生385ab
男生375360C
A.24B.18C.16D.12
【例10】(2010湖北高考)
將參加夏令營(yíng)的600名學(xué)生編號(hào)為:001,002,...,600.采用系統(tǒng)抽樣療法抽取一個(gè)容量
為50的樣本,且隨機(jī)抽得的號(hào)碼為003.這600名學(xué)生分住在三個(gè)營(yíng)區(qū),從001到300
在第1營(yíng)區(qū),從301到495在第H營(yíng)區(qū),從496到600在第HI營(yíng)區(qū).三個(gè)營(yíng)區(qū)被抽中的
人數(shù)依次為
A.26,16,8B.25,17,8C.25,16,9D.24,17,9
【例11】某城市有學(xué)校500所,其中大學(xué)10所,中學(xué)200所.現(xiàn)在取50所學(xué)校作為一個(gè)
樣本進(jìn)行一項(xiàng)調(diào)查,用分層抽樣進(jìn)行抽樣,應(yīng)該選取大學(xué)所.
【例12】某商場(chǎng)有四類食品,其中糧食類、植物油類、動(dòng)物性食品類及果蔬類分別有40
種、10種、30種、20種,現(xiàn)從中抽取一個(gè)容量為20的樣本進(jìn)行食品安全檢測(cè).若
采用分層抽樣的方法抽取樣本,則抽取的植物油類與果蔬類食品種數(shù)之和是
()
A.4B.5C.6D.7
【例13](北京市西城區(qū)2009年4月高三一模抽樣測(cè)試)
某單位有27名老年人,54名中年人,81名青年人.為了調(diào)查他們的身體情況,
用分層抽樣的方法從他們中抽取了”個(gè)人進(jìn)行體檢,其中有6名老年人,那么
n=.
【例14】某中學(xué)高中部有三個(gè)年級(jí),其中高一有學(xué)生400人,采用分層抽樣抽取一個(gè)容
量為45的樣本,高二年級(jí)抽取15人,高三年級(jí)抽取10人,問(wèn)高中部共有多少
學(xué)生?
【例15】某學(xué)校共有師生2400人,現(xiàn)用分層抽樣的方法,從所有師生中抽取一個(gè)容量為
160的樣本,已知從學(xué)生中抽取的人數(shù)為150,那么該學(xué)校的教師人數(shù)
是
【例16】(2(X)9天津文)
為了了解某市工廠開(kāi)展群眾體育活動(dòng)的情況,擬采用分層抽樣的方法從A,B,C
三個(gè)區(qū)中抽取7個(gè)工廠進(jìn)行調(diào)查.已知A,8,C區(qū)中分別有18,27,18個(gè)工廠.求
從A,B,C區(qū)中應(yīng)分別抽取的工廠個(gè)數(shù);
【例17】某校高三年級(jí)一共有900個(gè)學(xué)生,其中女生400人.為了解該年級(jí)學(xué)生的健康
情況,使用分層抽樣法進(jìn)行抽樣調(diào)查.已知從男生中任意抽取了25人,則需要
從女生中任意抽取人進(jìn)行調(diào)查.
【例18】某工廠生產(chǎn)A、B、C三種不同型號(hào)的產(chǎn)品,產(chǎn)品數(shù)量之比依次為2:3:5.現(xiàn)用
分層抽樣方法抽出一個(gè)容量為〃的樣本,樣本中A種型號(hào)產(chǎn)品有16件.那么此樣
本的容量n=.
【例19】某校有500名學(xué)生,A型血的有125人,B型血的有125人,A3型血的有50人,
為了研究血型與色弱的關(guān)系,要從中抽取一個(gè)20人的樣本,按分層抽樣,。型
血應(yīng)抽取的人數(shù)為人.
【例20】某校1000名學(xué)生中,。型血有400人,A型血有250人,3型血有250人,AB
型血有100人,為了研究血型與性格的關(guān)系,按照分層抽樣的方法從中抽取樣
本.如果從A型血中抽取了10人,則從AB型血中應(yīng)當(dāng)抽取的人數(shù)
為.
【例21】某單位業(yè)務(wù)人員、管理人員、后勤服務(wù)人員人數(shù)之比依次為15:3:2.為了了解
該單位職員的某種情況,采用分層抽樣方法抽出一個(gè)容量為〃的樣本,樣本中
業(yè)務(wù)人員人數(shù)為30,則此樣本的容量〃為()
A.20B.30C.40D.80
【例22】某工廠生產(chǎn)A、B、C三種不同型號(hào)的產(chǎn)品,產(chǎn)品數(shù)量之比依次為2:3:5.現(xiàn)
用分層抽樣方法抽出一個(gè)容量為〃的樣本,樣本中A種型號(hào)產(chǎn)品有16件.那么
此樣本的容量〃=.
【例23】(2009湖南)
一個(gè)總體分為A,8兩層,其個(gè)體數(shù)之比為4:1,用分層抽樣方法從總體中抽取
一個(gè)容量為10的樣本,已知8層中甲、乙都被抽到的概率為,,則總體中的
28
個(gè)體數(shù)為.
【例24】(05年湖南)某工廠生產(chǎn)了某種產(chǎn)品16800件,它們來(lái)自甲、乙、丙三條生產(chǎn)
線.為檢查產(chǎn)品的質(zhì)量,決定采用分層抽樣法進(jìn)行抽樣.已知甲'乙、丙三條
生產(chǎn)線抽取的個(gè)數(shù)成等差數(shù)列,則乙生產(chǎn)了件產(chǎn)品.
【例25】某單位有工程師6人,技術(shù)員12人,技工18人,要從這些人中抽取一個(gè)容量為
〃的樣本;如果采用系統(tǒng)抽樣和分層抽樣方法抽取,不用剔除個(gè)體;如果樣本
容量增加1個(gè),則在采用系統(tǒng)抽樣時(shí),需要在總體中先剔除1個(gè)個(gè)體,則樣本容
量為.
【例26】(2009廣東12)
某單位200名職工的年齡分布情況如圖,現(xiàn)要從中抽取40名職工作樣本,用系統(tǒng)
抽樣法,將全體職工隨機(jī)按1~200編號(hào),并按編號(hào)順序平均分為40組(1~5號(hào),
6~10號(hào),...,196~200號(hào)).若第5組抽出的號(hào)碼為22,則第8組抽出的號(hào)碼應(yīng)
是.若用分層抽樣方法,則40歲以下年齡段應(yīng)抽取人.
40歲以下
【例27】(北京市朝陽(yáng)區(qū)2009年4月高三一模理)
從6名女生,4名男生中,按性別采用分層抽樣的方法抽取5名學(xué)生組成課外小組,
則不同的抽取方法種數(shù)為.
A-B.C〉C:C.C:。D.
【例28】(2008廣東19)
某初級(jí)中學(xué)共有學(xué)生2000名,各年級(jí)男、女生人數(shù)如下表:
初一年級(jí)初二年級(jí)初三年級(jí)
女生373Xy
男生377370Z
已知在全校學(xué)生中隨機(jī)抽取1名,抽到初二年級(jí)女生的概率是0.19.
⑴求x的值;
⑵現(xiàn)用分層抽樣的方法在全校抽取48名學(xué)生,問(wèn)應(yīng)在初三年級(jí)抽取多少名?
⑶已知.V2245,z2245,求初三年級(jí)中女生比男生多的概率.
【例29】(2009山東文)
一汽車(chē)廠生產(chǎn)A,B,C三類轎車(chē),每類轎車(chē)均有舒適型和標(biāo)準(zhǔn)型兩種型號(hào),某月的
產(chǎn)量如下表(單位:輛):
轎車(chē)A轎車(chē)B轎車(chē)C
舒適型100150Z
標(biāo)準(zhǔn)型300450600
按類型分層抽樣的方法在這個(gè)月生產(chǎn)的轎車(chē)中抽取50輛,其中有A類轎車(chē)10輛.
⑴求z的值.
⑵用分層抽樣的方法在C類轎車(chē)中抽取一個(gè)容量為5的樣本.將該樣本看成一個(gè)總
體,從中任取2輛,求至少有1輛舒適型轎車(chē)的概率;
⑶用隨機(jī)抽樣的方法從B類舒適型轎車(chē)中抽取8輛,經(jīng)檢測(cè)它們的得分如下:9.4,
8.6,9.2,9.6,8.7,9.3,9.0,8.2.把這8輛轎車(chē)的得分看作一個(gè)總體,從中
任取一個(gè)數(shù),求該數(shù)與樣本平均數(shù)之差的絕對(duì)值不超過(guò)0.5的概率.
題型三抽樣方法選擇及其他
【例30】(04湖南)某公司在甲、乙、丙、丁四個(gè)地區(qū)分別有150個(gè)、120個(gè)、180個(gè)、
150個(gè)銷售點(diǎn),公司為了調(diào)查產(chǎn)品銷售的情況,需從這600個(gè)銷售點(diǎn)中抽取一個(gè)
容量為100的樣本,記這項(xiàng)調(diào)查為①;在丙地區(qū)中有20個(gè)特大型銷售點(diǎn),要從
中抽取7個(gè)調(diào)查其銷售收入和銷后服務(wù)等情況,記這項(xiàng)調(diào)查為②.則完成①、
②這兩項(xiàng)調(diào)查采用的抽樣方法依次是.
【例31]⑴某社區(qū)有400戶家庭,其中高收入家庭25戶,中收入家庭280戶,低收入
家庭95戶,為了了解社會(huì)購(gòu)買(mǎi)力的某項(xiàng)指標(biāo),要從中抽取一個(gè)容量為100的樣
本;
⑵從10名職工中抽取3名參加座談會(huì);
⑶一個(gè)年級(jí)有10個(gè)班,每個(gè)班有50名同學(xué),隨機(jī)編為1至50號(hào),為了了解他
們的學(xué)習(xí)情況,要求每個(gè)班的30號(hào)同學(xué)留下來(lái)進(jìn)行問(wèn)卷調(diào)查.
以上問(wèn)題各對(duì)應(yīng)哪種隨機(jī)抽樣方法?
【例32】下列抽樣問(wèn)題中最適合用系統(tǒng)抽樣方法抽樣的是()
A.從全班48名學(xué)生中隨機(jī)抽取8人參加一項(xiàng)活動(dòng).
B.一個(gè)城市有210家百貨商店,其中大型商店20家,中型商店40家,小型商店150
家,為了掌握各商店的營(yíng)業(yè)情況,要從中抽取一個(gè)容量為21的樣本.
C.從參加模擬考試的1200名考生中隨機(jī)抽取100人分析試題作答情況.
D.從參加模擬考試的1200名考生中隨機(jī)抽取10人了解某些情況.
【例33】某學(xué)校有職工140人,其中教師91人,教輔行政人員28人,總務(wù)后勤人員21
人.為了解職工的某種情況,要從中抽取一個(gè)容量為20的樣本.以下的抽樣方
法中,依簡(jiǎn)單隨機(jī)抽樣、系統(tǒng)抽樣、分層抽樣順序的是
方法1:將140人從1~140編號(hào),然后制作出有編號(hào)1~1人的140個(gè)形狀、大小
相同的號(hào)簽,并將號(hào)簽放入同一箱子里進(jìn)行均勻攪拌,然后從中抽取20
個(gè)號(hào)簽,編號(hào)與簽號(hào)相同的20個(gè)人被選出.
方法2:將140人分成20組,每組7人,并將每組7人按1~7編號(hào),在第一組
采用抽簽法抽出上號(hào)(1W上W7),則其余各組上號(hào)也被抽到,20個(gè)人被
選出.
方法3:按20:140=1:7的比例,從教師中抽取13人,從教輔行政人員中抽取4
人,從總務(wù)后勤人員中抽取3人,從各類人員中抽取所需人員時(shí),均采
用隨機(jī)數(shù)表法,可抽到20個(gè)人.
A.方法2,方法1,方法3B.方法2,方法3,方法1
C.方法1,方法2,方法3D.方法3,方法1,方法2
【例34】某工廠有工人1021人,其中高級(jí)工程師20人,現(xiàn)抽取普通工人40人,高級(jí)工
程師4人組成代表隊(duì)參加某項(xiàng)活動(dòng),怎樣抽取較好?
【例35】現(xiàn)有以下兩項(xiàng)調(diào)查:①某裝訂廠平均每小時(shí)大約裝訂圖書(shū)361冊(cè),要求檢驗(yàn)員
每小時(shí)抽取40冊(cè)圖書(shū),檢查其裝訂質(zhì)量狀況;②某市有大型、中型與小型的商
店共1500家,三者數(shù)量之比為1:5:9.為了調(diào)查全市商店每日零售額情況,抽
取其中15家進(jìn)行調(diào)查.
完成①、②這兩項(xiàng)調(diào)查宜采用的抽樣方法依次是()
A.簡(jiǎn)單隨機(jī)抽樣法,分層抽樣法B.分層抽樣法,簡(jiǎn)單隨機(jī)抽樣法
C.分層抽樣法,系統(tǒng)抽樣法D.系統(tǒng)抽樣法,分層抽樣法
【例36】某校有40個(gè)班,每班有50人,每班選派3人參加“學(xué)代會(huì)”,在這個(gè)問(wèn)題中樣
本容量是()
A.40B.50C.120D.150
【例37】為了了解參加運(yùn)動(dòng)會(huì)的2000名運(yùn)動(dòng)員的年齡情況,從中抽取100名運(yùn)動(dòng)員;就
這個(gè)問(wèn)題,下列說(shuō)法中正確的有()個(gè)
①2000名運(yùn)動(dòng)員是總體;
②每個(gè)運(yùn)動(dòng)員是個(gè)體;
③所抽取的100名運(yùn)動(dòng)員是一個(gè)樣本;
④樣本容量為100;
⑤這個(gè)抽樣方法可采用按年齡進(jìn)行分層抽樣;
⑥每個(gè)運(yùn)動(dòng)員被抽到的概率相等
A.1B.2C.3D.4
【例38】(2008湖南12)
從某地區(qū)15000位老人中隨機(jī)抽取500人,其生活能否自理的情況如下表所示:
人別
男女
生活"—能否自''理''二------
能178278
不能2321
則該地區(qū)生活不能自理的老人中男性比女性約多人.
【例39】一個(gè)總體含有100個(gè)個(gè)體,以簡(jiǎn)單隨機(jī)抽樣方式從該總體中抽取一個(gè)容量為5
的樣本,則指定的某個(gè)個(gè)體被抽到的概率為.
板塊二.頻率直方圖
mte知識(shí)內(nèi)容
一.隨機(jī)抽樣
i.隨機(jī)抽樣:滿足每個(gè)個(gè)體被抽到的機(jī)會(huì)是均等的抽樣,共有三種經(jīng)常采用的隨機(jī)抽樣方
法:
⑴簡(jiǎn)單隨機(jī)抽樣:從元素個(gè)數(shù)為N的總體中不放回地抽取容量為〃的樣本,如果每一次抽
取時(shí)總體中的各個(gè)個(gè)體有相同的可能性被抽到,這種抽樣方法叫做簡(jiǎn)單隨機(jī)抽樣.
抽出辦法:①抽簽法:用紙片或小球分別標(biāo)號(hào)后抽簽的方法.
②隨機(jī)數(shù)表法:隨機(jī)數(shù)表是使用計(jì)算器或計(jì)算機(jī)的應(yīng)用程序生成隨機(jī)數(shù)的功能生成的一張
數(shù)表.表中每一位置出現(xiàn)各個(gè)數(shù)字的可能性相同.
隨機(jī)數(shù)表法是對(duì)樣本進(jìn)行編號(hào)后,按照一定的規(guī)律從隨機(jī)數(shù)表中讀數(shù),并取出相應(yīng)的樣本的
方法.
簡(jiǎn)單隨機(jī)抽樣是最簡(jiǎn)單、最基本的抽樣方法.
⑵系統(tǒng)抽樣:將總體分成均衡的若干部分,然后按照預(yù)先制定的規(guī)則,從每一部分抽取一個(gè)
個(gè)體,得到所需要的樣本的抽樣方法.
抽出辦法:從元素個(gè)數(shù)為N的總體中抽取容量為”的樣本,如果總體容量能被樣本容量整
除,設(shè)女=包,先對(duì)總體進(jìn)行編號(hào),號(hào)碼從1到N,再?gòu)臄?shù)字1到4中隨機(jī)抽取一個(gè)數(shù)s作
n
為起始數(shù),然后順次抽取第s+A,s+23…,s+(〃-l)無(wú)個(gè)數(shù),這樣就得到容量為"的樣
本.如果總體容量不能被樣本容量整除,可隨機(jī)地從總體中剔除余數(shù),然后再按系統(tǒng)抽樣
方法進(jìn)行抽樣.
系統(tǒng)抽樣適用于大規(guī)模的抽樣調(diào)查,由于抽樣間隔相等,又被稱為等距抽樣.
⑶分層抽樣:當(dāng)總體有明顯差別的幾部分組成時(shí),要反映總體情況,常采用分層抽樣,使
總體中各個(gè)個(gè)體按某種特征分成若干個(gè)互不重疊的幾部分,每一部分叫做層,在各層中按
層在總體中所占比例進(jìn)行簡(jiǎn)單隨機(jī)抽樣,這種抽樣方法叫做分層抽樣.
分層抽樣的樣本具有較強(qiáng)的代表性,而且各層抽樣時(shí),可靈活選用不同的抽樣方法,
應(yīng)用廣泛.
2.簡(jiǎn)單隨機(jī)抽樣必須具備下列特點(diǎn):
⑴簡(jiǎn)單隨機(jī)抽樣要求被抽取的樣本的總體個(gè)數(shù)N是有限的.
⑵簡(jiǎn)單隨機(jī)樣本數(shù)〃小于等于樣本總體的個(gè)數(shù)N.
⑶簡(jiǎn)單隨機(jī)樣本是從總體中逐個(gè)抽取的.
⑷簡(jiǎn)單隨機(jī)抽樣是一種不放回的抽樣.
⑸簡(jiǎn)單隨機(jī)抽樣的每個(gè)個(gè)體入樣的可能性均為烏.
N
3.系統(tǒng)抽樣時(shí),當(dāng)總體個(gè)數(shù)N恰好是樣本容量〃的整數(shù)倍時(shí),取女=包;
n
若d不是整數(shù)時(shí),先從總體中隨機(jī)地剔除幾個(gè)個(gè)體,使得總體中剩余的個(gè)體數(shù)能被樣本容
n
量〃整除.因?yàn)槊總€(gè)個(gè)體被剔除的機(jī)會(huì)相等,因而整個(gè)抽樣過(guò)程中每個(gè)個(gè)體被抽取的機(jī)會(huì)仍
然相等,為紇
n
—.頻率直方圖
列出樣本數(shù)據(jù)的頻率分布表和頻率分布直方圖的步驟:
①計(jì)算極差:找出數(shù)據(jù)的最大值與最小值,計(jì)算它們的差;
②決定組距與組數(shù):取組距,用餐決定組數(shù);
組距
G)決定分點(diǎn):決定起點(diǎn),進(jìn)行分組:
列頻率與布直方圖;對(duì)落入各小組的數(shù)據(jù)累計(jì),算出各小數(shù)的頻數(shù),除以樣本容量,得
到各小組的頻率.
⑤繪制頻率分布直方圖:以數(shù)據(jù)的值為橫坐標(biāo),以禁的值為縱坐標(biāo)繪制直方圖,
組距
頻率
知小長(zhǎng)方形的面積=組距X=頻率.
頻率分布折線圖:將頻率分布直方圖各個(gè)長(zhǎng)方形上邊的中點(diǎn)用線段連接起來(lái),就得到頻率分
布折線圖,一般把折線圖畫(huà)成與橫軸相連,所以橫軸左右兩端點(diǎn)沒(méi)有實(shí)際意義.
總體密度曲線:樣本容量不斷增大時(shí),所分組數(shù)不斷增加,分組的組距不斷縮小,頻率分布
直方圖可以用一條光滑曲線y=/(x)來(lái)描繪,這條光滑曲線就叫做總體密度曲線.總體密度
曲線精確地反映了一個(gè)總體在各個(gè)區(qū)域內(nèi)取值的規(guī)律.
三.莖葉圖
制作莖葉圖的步驟:
①將數(shù)據(jù)分為“莖”、“葉”兩部分;
②將最大莖與最小莖之間的數(shù)字按大小順序排成一列,并畫(huà)上豎線作為分隔線;
國(guó)將各個(gè)數(shù)據(jù)的“葉”在分界線的一側(cè)對(duì)應(yīng)莖處同行列出.
四.統(tǒng)計(jì)數(shù)據(jù)的數(shù)字特征
用樣本平均數(shù)估計(jì)總體平均數(shù);用樣本標(biāo)準(zhǔn)差估計(jì)總體標(biāo)準(zhǔn)差.
數(shù)據(jù)的離散程序可以用極差、方差或標(biāo)準(zhǔn)差來(lái)描述.
極差又叫全距,是一組數(shù)據(jù)的最大值和最小值之差,反映一組數(shù)據(jù)的變動(dòng)幅度;
樣本方差描述了一組數(shù)據(jù)平均數(shù)波動(dòng)的大小,樣本的標(biāo)準(zhǔn)差是方差的算術(shù)平方根.
一般地,設(shè)樣本的元素為玉,々,…,馬樣本的平均數(shù)為5,
定義樣本方差為S?=g二4I+區(qū)一君+…+(%—宜,
n
樣本標(biāo)準(zhǔn)差s=卜「丁『+(占一丁y+…+區(qū)-立
Vn
簡(jiǎn)化公式:S1=,[(k+X;+…+*)-成2].
n
五.獨(dú)立性檢驗(yàn)
1.兩個(gè)變量之間的關(guān)系;
常見(jiàn)的有兩類:一類是確定性的函數(shù)關(guān)系;另一類是變量間存在關(guān)系,但又不具備函數(shù)關(guān)系
所要求的確定性,它們的關(guān)系是帶有一定隨機(jī)性的.當(dāng)一個(gè)變量取值一定時(shí),另一個(gè)變量的
取值帶有一定隨機(jī)性的兩個(gè)變量之間的關(guān)系叫做相關(guān)關(guān)系.
2.散點(diǎn)圖:將樣本中的〃個(gè)數(shù)據(jù)點(diǎn)(七,y)(i=l,2,…,〃)描在平面直角坐標(biāo)系中,就得到
了散點(diǎn)圖.
散點(diǎn)窗形象地反映了各個(gè)數(shù)據(jù)的密切程度,根據(jù)散點(diǎn)圖的分布趨勢(shì)可以直觀地判斷分析兩個(gè)
變量的關(guān)系.
3.如果當(dāng)一個(gè)變量的值變大時(shí),另一個(gè)變量的值也在變大,則這種相關(guān)稱為正相關(guān);此時(shí),
散點(diǎn)圖中的點(diǎn)在從左下角到右上角的區(qū)域.
反之,一個(gè)變量的值變大時(shí),另一個(gè)變量的值由大變小,這種相關(guān)稱為負(fù)相關(guān).此時(shí),散點(diǎn)
圖中的點(diǎn)在從左上角到右下角的區(qū)域.
散點(diǎn)圖可以判斷兩個(gè)變量之間有沒(méi)有相關(guān)關(guān)系.
4.統(tǒng)計(jì)假設(shè):如果事件4與B獨(dú)立,這時(shí)應(yīng)該有P(AB)=P(A)P(8),用字母兒表示此式,
即Ho:P(4B)=P(4)P(8),稱之為統(tǒng)計(jì)假設(shè).
5.力2(讀作,,卡方,,)統(tǒng)計(jì)量:
統(tǒng)計(jì)學(xué)中有一個(gè)非常有用的統(tǒng)計(jì)量,它的表達(dá)式為個(gè)=〃5也2一八%)]用它的大小可以
nl+n2+n+ln+2
用來(lái)決定是否拒絕原來(lái)的統(tǒng)計(jì)假設(shè)如果/的值較大,就拒絕“”,即認(rèn)為A與B是有
關(guān)的.
/統(tǒng)計(jì)量的兩個(gè)臨界值:3.841、6.635;當(dāng)%?>3.841時(shí),有95%的把握說(shuō)事件4與8有
關(guān);當(dāng)/>6.635時(shí),有99%的把握說(shuō)事件A與8有關(guān);當(dāng)/W3.841時(shí),認(rèn)為事件A與B
是無(wú)關(guān)的.
獨(dú)立性檢驗(yàn)的基本思想與反證法類似,由結(jié)論不成立時(shí)推出有利于結(jié)論成立的小概率事件發(fā)
生,而小概率事件在一次試驗(yàn)中通常是不會(huì)發(fā)生的,所以認(rèn)為結(jié)論在很大程度上是成立的.
1.獨(dú)立性檢驗(yàn)的步驟:統(tǒng)計(jì)假設(shè):出,;列出2x2聯(lián)表;計(jì)算/統(tǒng)計(jì)量:查對(duì)臨界值表,
作出判斷.
2.幾個(gè)臨界值:2(.222.706)=0.10,P(力223.841)=0.05,P(力226.635)=0.01.
2x2聯(lián)表的獨(dú)立性檢驗(yàn):
如果對(duì)于某個(gè)群體有兩種狀態(tài),對(duì)于每種狀態(tài)又有兩個(gè)情況,這樣排成一張2x2的表,如
狀態(tài)B狀態(tài)萬(wàn)合計(jì)
狀態(tài)A勺年4+
狀態(tài)入%〃22%+
%n
如果有調(diào)查得來(lái)的四個(gè)數(shù)據(jù)勺,勺,%,”22,并希望根據(jù)這樣的4個(gè)數(shù)據(jù)來(lái)檢驗(yàn)上述的兩種
狀態(tài)A與8是否有關(guān),就稱之為2x2族表向獨(dú)立性檢驗(yàn).
六.回歸分析
1.回歸分析:對(duì)于具有相關(guān)關(guān)系的兩個(gè)變量進(jìn)行統(tǒng)計(jì)分析的方法叫做回歸分析,即回歸分
析就是尋找相關(guān)關(guān)系中這種非確定關(guān)系的某種確定性.
回歸直線:如果散點(diǎn)圖中的各點(diǎn)都大致分布在一條直線附近,就稱這兩個(gè)變量之間具有線性
相關(guān)關(guān)系,這條直線叫做回歸直線.
2.最小二乘法:
記回歸直線方程為:y=a+bx,稱為變量丫對(duì)變量x的回歸直線方程,其中a,h叫做回歸
系數(shù).
9是為了區(qū)分V的實(shí)際值y,當(dāng)x取值%時(shí),變量丫的相應(yīng)觀察值為天,而直線上對(duì)應(yīng)于七
的縱坐標(biāo)是1=a+bXj.
設(shè)x,丫的一組觀察值為(%,%),i=l,2,…,",且回歸直線方程為9=a+,
當(dāng)x取值七時(shí),丫的相應(yīng)觀察值為%,差%-力4=1,2,…,〃)刻畫(huà)了實(shí)際觀察值y與回歸
直線上相應(yīng)點(diǎn)的縱坐標(biāo)之間的偏離程度,稱這些值為離差.
我們希望這,7個(gè)離差構(gòu)成的總離差越小越好,這樣才能使所找的直線很貼近已知點(diǎn).
記。='(》-。-6七)2,回歸直線就是所有直線中。取最小值的那條.
/=1
這種使“離差平方和為最小”的方法,叫做最小二乘法.
用最小二乘法求回歸系數(shù)a,匕有如下的公式:
〉:x.y—nxy
3=上」------a^y-bx,其中a,6上方加“八”,表示是由觀察值按最小二乘法求得的
Z->—2
X;-X
1=1
回歸系數(shù).
3.線性回歸模型:將用于估計(jì)y值的線性函數(shù)4+法作為確定性函數(shù);),的實(shí)際值與估計(jì)
值之間的誤差記為£,稱之為隨機(jī)誤差;將丫=。+云+£稱為線性回歸模型.
產(chǎn)生隨機(jī)誤差的主要原因有:
①所用的確定性函數(shù)不恰當(dāng)即模型近似引起的誤差;
②忽略了某些因素的影響,通常這些影響都比較?。?/p>
③由于測(cè)量工具等原因,存在觀測(cè)誤差.
4.線性回歸系數(shù)的最佳估計(jì)值:
利用最小二乘法可以得到a,h的計(jì)算公式為
〃__n__
.=且不----------=々--------.a=y-bx,其中犬=一£%,y=-^jyi
豆吠-稱£片-疝了n<=>NM
1=11=1
由此得到的直線嬴就稱為回歸直線,此直線方程即為線性回歸方程.其中a,g分
別為“,方的估計(jì)值,a稱為回歸截距,/稱為回歸系數(shù),》稱為回歸值.
5.相關(guān)系數(shù):
__
Z(若-x)(x-y)nxy
.二j=l一i=l
.£(必一亍)2-〃(])(£¥
Vi=]7=1V1=1/=1
6.相關(guān)系數(shù);?的性質(zhì):
⑴|r|Wl;
⑵IrI越接近于1,x,y的線性相關(guān)程度越強(qiáng);
⑶|r|越接近于0,x,y的線性相關(guān)程度越弱.
可見(jiàn),一條回歸直線有多大的預(yù)測(cè)功能,和變量間的相關(guān)系數(shù)密切相關(guān).
7.轉(zhuǎn)化思想:
根據(jù)專業(yè)矢贏或散點(diǎn)圖,對(duì)某些特殊的非線性關(guān)系,選擇適當(dāng)?shù)淖兞看鷵Q,把非線性方程轉(zhuǎn)
化為線性回歸方程,從而確定未知參數(shù).
8.一些備案
①回歸(regression)一詞的來(lái)歷:“回歸”這個(gè)詞英國(guó)統(tǒng)計(jì)學(xué)家FrancilsGalton提出來(lái)的.1889
年,他在研究祖先與后代的身高之間的關(guān)系時(shí)發(fā)現(xiàn),身材較高的父母,他們的孩子也較高,
但這些孩子的平均身高并沒(méi)有他們父母的平均身高高;身材較矮的父母,他們的孩子也較矮,
但這些孩子的平均身高卻比他們父母的平均身高高.Gallon把這種后代的身高向中間值靠近
的趨勢(shì)稱為“回歸現(xiàn)象”.后來(lái),人們把由一個(gè)變量的變化去推測(cè)另一個(gè)變量的變化的方法稱
為回歸分析.
②回歸系數(shù)的推導(dǎo)過(guò)程:
Q=Z。一“)一如『=Zyj-2匯y+na2-2bz應(yīng)%+2a必x.+b1^x;
=na2+2a(心七-Z%)+〃gxf-2b£x*+Z#,
把上式看成a的二次函數(shù),a?的系數(shù)〃>o,
因此當(dāng)a=-2(£N%)=Z);一£時(shí)取最小值.
2nn
同理,把。的展開(kāi)式按6的降基排列,看成b的二次函數(shù),當(dāng)6=》票在小時(shí)取最小值.
Z石
解得:6=初二=斗曰"2,八"反,
Z(x,-君
i=l
其中工=lz七是樣本平均數(shù).
9.對(duì)相關(guān)系數(shù)/"進(jìn)行相關(guān)性檢驗(yàn)的步驟:
①提出統(tǒng)計(jì)假設(shè)/:變量x,y不具有線性相關(guān)關(guān)系;
②如果以95%的把握作出推斷,那么可以根據(jù)1-0.95=0.05與〃-2(〃是樣本容量)在相
關(guān)性檢驗(yàn)的臨界值表中查出一個(gè)/?的臨界值%.%(其中1-0.95=0.05稱為檢驗(yàn)水平);
③計(jì)算樣本相關(guān)系數(shù)r;
④作出統(tǒng)計(jì)推斷:若|網(wǎng)>領(lǐng)5,則否定表明有95%的把握認(rèn)為變量y與x之間具有線
性相關(guān)關(guān)系;若IrWQg,則沒(méi)有理由拒絕”。,即就目前數(shù)據(jù)而言,沒(méi)有充分理由認(rèn)為變
量>與x之間具有線性相關(guān)關(guān)系.
說(shuō)明:
⑴對(duì)相關(guān)系數(shù)/■進(jìn)行顯著性檢驗(yàn),一般取檢驗(yàn)水平a=0.05,即可靠程度為95%.
⑵這里的/?指的是線性相關(guān)系數(shù),r的絕對(duì)值很小,只是說(shuō)明線性相關(guān)程度低,不一定不相
關(guān),可能是非線性相關(guān)的某種關(guān)系.
⑶這里的r是對(duì)抽樣數(shù)據(jù)而言的.有時(shí)即使|r|=l,兩者也不一定是線性相關(guān)的.故在統(tǒng)計(jì)
分析時(shí),不能就數(shù)據(jù)論數(shù)據(jù),要結(jié)合實(shí)際情況進(jìn)行合理解釋.
典例分析
題型一頻率分布直方圖
【例1】(2010西城二模)
某區(qū)高二年級(jí)的一次數(shù)學(xué)統(tǒng)考中,隨機(jī)抽取200名同學(xué)的成績(jī),成績(jī)?nèi)吭?0分
至100分之間,將成績(jī)按如下方式分成5組:第一組,成績(jī)大于等于50分且小于60
分;第二組,成績(jī)大于等于60分且小于70分;……第五組,成績(jī)大于等于90分且
小于等于100分,據(jù)此繪制了如圖所示的頻率分布直方圖.
則這200名同學(xué)中成績(jī)大于等于80分且小于90分的學(xué)生有名.
【例2】(2010東城二模)
已知一個(gè)樣本容量為100的樣本數(shù)據(jù)的頻率分布直方圖如圖所示,樣本數(shù)據(jù)落在
[6,10)內(nèi)的樣本頻數(shù)為,樣本數(shù)據(jù)落在[2,10)內(nèi)的頻率為.
率
距
o?
n
-9
二
82£.
c
s.
0
oS.1
.3.1一
2
O..O丁
0\2610141822樣本藪據(jù)
【例3】(2010北京)
從某小學(xué)隨機(jī)抽取100名同學(xué),將他們的身高(單位:厘米)數(shù)據(jù)繪制成頻率分
布直方圖(如圖).由圖中數(shù)據(jù)可知“=.若要從身高在[120,130),
[130,140),[140,150]三組內(nèi)的學(xué)生中,用分層抽樣的方法選取18人參加一項(xiàng)活
動(dòng),則從身高在[140,150]內(nèi)的學(xué)生中選取的人數(shù)應(yīng)為.
【例4】(2010江蘇高考)
某棉紡廠為了了解一批棉花的質(zhì)量,從中隨機(jī)抽取了
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 粘土磚瓦生產(chǎn)過(guò)程中的環(huán)境保護(hù)與污染治理考核試卷
- 疫苗接種在促進(jìn)全球兒童健康發(fā)展中的作用考核試卷
- 安全員培訓(xùn)課件
- 養(yǎng)老中心老年心理護(hù)理指南
- 幼兒園情緒管理課程故事:我的情緒我做主
- 九年級(jí)心理健康課件
- 2025年小學(xué)學(xué)生食堂工人聘用合同
- 高中校園安全教育主題班會(huì)
- 數(shù)據(jù)中臺(tái)設(shè)計(jì)建設(shè)方案
- 2025家庭裝修合同樣本xy
- 川劇 身段知到智慧樹(shù)章節(jié)測(cè)試課后答案2024年秋四川藝術(shù)職業(yè)學(xué)院
- 【公開(kāi)課】跨學(xué)科實(shí)踐:制作簡(jiǎn)易桿秤(課件)-人教版八年級(jí)物理下冊(cè)
- 2025年保密知識(shí)試題庫(kù)附參考答案(精練)
- 2024年12月7日浙江省機(jī)關(guān)單位遴選筆試真題及解析(A卷)
- 2024年公司政工專業(yè)技術(shù)工作總結(jié)范例(3篇)
- 石油石化硫化氫培訓(xùn)
- 新生兒貧血的護(hù)理查房
- CQI-9 第四版 熱處理系統(tǒng)審核表中文完整版-
- 小紅書(shū)食用農(nóng)產(chǎn)品承諾書(shū)示例
- 水果店投資項(xiàng)目可行性分析報(bào)告
- CQI-23模塑系統(tǒng)評(píng)估審核表-中英文
評(píng)論
0/150
提交評(píng)論