變量間的相互關系與統(tǒng)計案例解析教師版_第1頁
變量間的相互關系與統(tǒng)計案例解析教師版_第2頁
變量間的相互關系與統(tǒng)計案例解析教師版_第3頁
變量間的相互關系與統(tǒng)計案例解析教師版_第4頁
變量間的相互關系與統(tǒng)計案例解析教師版_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、-/變量間的相關關系與統(tǒng)計案例【知識要點】1 .相關關系的判斷X和y具有線性(1)如果散點圖中點的分布從整體上看大致在一條直線的附近,我們說變量相關關系.(2)樣本數據(Xi,yi)(i=1,2,,n)的相關系數rn(xix)(yiy)i1n(xix)2i1當r0時,n(yiy)2i1兩變量正相關,當r0時,兩變量負相關,當|r|1且|r|越接近于1,相關程度越高,當|r|1且|r|越接近于0,相關程度越低.2 .回歸方程的求法求回歸方程的方法是最小二乘法,即使得樣本數據的點到回歸直線的距離的平方和最小.若變量x與y具有線性相關關系,有n個樣本數據(為,丫/(i=1,2,,n),則回歸方程yb

2、xa中斜率和截距的最小二乘估計公式分別為:n_i1(xx)(yi飛n(xi1x)2nxynxy_i1,aybxnxn2xi1【重點】回歸直線ybx小,(x,y)稱為樣本點的中心.a必過樣本點的中心(x,y),這個結論既是檢驗所求回歸直線方程是否準確的依據,也是求參數的一個依據.3.獨立性檢驗設X,Y為兩個變量,它們的取值分別為x1,X2和y1,y2,其樣本頻數列聯表(2)2y1y2總計xiaba+bx2cdc+d總計a+cb+da+b+c+d列聯表)如下:P(K2k)0.0500.0100.001k3.8416.63510.8282利用隨機變量K2n(adbc)(ab)(cd)(ac)(bd)

3、(其中nabcd為樣本容量)來判斷兩個變量有關系”的方法稱為獨立性檢驗.【例題解析】題型一變量間的相關關系-/【例1】對四組數據進行統(tǒng)計,獲得如圖所示的散點圖,關于其相關系數的比較,正確的是()4<2<0<r3vriD.r2vr40vrivr3A.2<4<0<3<門B.4<2<0<ri<3C.解析:選A易知題中圖(1)與圖(3)是正相關,圖(2)與圖(4)是負相關,且圖(1)與圖(2)中的樣本點集中分布在一條直線附近,則r2<r4<0<r3<ri.【變式1】四名同學根據各自的樣本數據研究變量x,y之間的相

4、關關系,并求得回歸直線方程,分別得到以下四個結論:y與x負相關且y=2.347x6.423;y與x負相關且y=3.476x+5.648;y與x正相關且y=5.437x+8.493;y與x正相關且y=4.326x4.578.其中一定不正確的結論的序號是()A.B.C.D.解析:選D正相關指的是y隨x的增大而增大,負相關指的是y隨x的增大而減小,故不正確的為,故選D.相關關系的直觀判斷方法就是作出散點圖,若散點圖呈帶狀且區(qū)域較窄,說明兩個變量若呈圖形區(qū)域且分布較亂則不具備相關性.解析:選B由表中數據畫出散點圖,如圖,a<0,b<0有一定的線性相關性,若呈曲線型也是有相關性,由散點圖可知

5、b<0,a>0,選B.【例3】對于下列表格所示五個散點,已知求得的線性回歸方程為y=0.8x-155,貝U實數m-/的值為()x196197200203204y1367mA.8B,8.2C,8.4D,8.5解析:選AT=196+197+200+203+204=200,7=1+3+6+7+rn'V±m555.樣本中心點為200,171m,將樣本中心點200,171m代入£=0.8x155,可得m=,5,58.故A正確.題型二回歸方程的求法【例4】某城市理論預測2011年到2015年人口總數與年份的關系如下表所示年份2O1H1f年)01234人口故y卜萬)5

6、71119(1)請根據上表提供的數據,求最小二乘法求出關于的線性回歸方程;(2)據此估計2016年該城市人口總數nxynxy參考公式:$,$;bx22xnxi1解:Qx2,y10,52八22八2八22xi=0123430i15xiyi=0為+1>7+2X8+3X1+4X19=132,i1nxiyinxy_I?JL4-=3.2,J?ybx3,6故y關于x的線性回歸方程為?=3.2x+3.6n22xnxi1(2)當x=5時,?=3.2*5+3.6即?=19,6據此估計2016年該城市人口總數約為196萬.【例5】某保險公司有一款保險產品的歷史戶獲益率(獲益率=獲益T呆費收入)的頻率分布直方圖

7、如圖所示:(I)試估計平均獲益率;(n)根據經驗若每份保單的保費在20元的基礎上每增加x元,對應的銷量y(萬份)與x(元)有較強線性相關關系,從歷史銷售記錄中抽樣得到如下5組x與y的對應數據:-/頻率加3.02.52.01. 51.00.5x(元)2535404555銷量y(萬份)7.36.36.05.94.300?10T20-30?40-5016獲益率第19題圖(i)根據數據計算出銷量y(萬份)與x(元)的回歸方程為(ii)若把回歸方程vbx均當作y與X的線性關系,用(I)中求出的平均獲益率估計yxa此產品的獲益率,每份保單的保費定為多少元時此產品可獲得最大獲益,并求出該最大獲益nn_(Xi

8、x)(yy)xy1nxy_參考公不:bUJn,aybx22-2(xx)為nxi1i1解析:(I)區(qū)間中值依次為:0.05,0.15,0.25,0.35,0.45,0.55,取值概率依次為:0.1,0.2,0.25,0.3,0.1,0.05,平均獲益率為x2535404555小7.56.36.05.94.3xi40-15-50515yi6.01.50.30-0.1-1.7(xi40)(yi6.0)-22.5-1.50-0.5-25.5(為40)225525025255x40=0,yi56.0=0,(x40)(yii156.0)=-50,i12(xi40)5000.050.100.150.200.

9、250.250.350.300.450.100.550.050.275(n)(i)-/nxiynxyi122一2xnxi1500.10,aybx05006.00.10(x40)即y0.10x10.0(ii)設每份保單的保費為20x元,則銷量為y0.10x10.0,則保費獲益為f(x)(20x)(0.10x10.0)萬元,f(x)0.1x28x2000.1(x40)2360當x40元時,保費收入最大為360萬元,保險公司預計獲益為3600.275=99萬元.題型三獨立性檢驗【例6】為考察棉花種子經過處理跟生病之間的關系得到下表數據:種子處理種子未處理總計得病32101133不得病61213274

10、總計93314407根據以上數據,則種子經過處理與是否生病(填有”或無”關.“0.16解析:在假設無關的情況下,根據題意K2=a+bn+:b:+;可以得到無關的概率大于50%,所以種子經過處理跟是否生病有關的概率小于50%,所以可以認為種子經過處理與是否生病無關.答案:無【例7】某高校為調查學生喜歡應用統(tǒng)計”課程是否與性別有關,隨機抽取了選修課程的55名學生,得到數據如下表:喜歡應用統(tǒng)計”課程不喜歡應用統(tǒng)計”課程總計男生20525女生102030總計302555(1)判斷是否有99.5%的把握認為喜歡應用統(tǒng)計”課程與性別有關?(2)用分層抽樣的方法從喜歡統(tǒng)計課程的學生中抽取6名學生做進一步調查

11、,將這6名學生作為一個樣本,從中任選2人,求恰有1個男生和1個女生的概率.卜面的臨界值表供參考:P(K2球)0.150.100.050.250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828【變式U經過對計量K2的研究,得到了若干個臨界值如下:P0.150.1000500250.01(1.%2的士5.024-/2(參考公式:K2=a+bn+:;+cb+d,其中n=a+b+C+d)有小八.°55X20X20i0X52解:(i)由公式K2=cc、cc"ii.978>7.87930>25X25M0所以有99.5%的

12、把握認為喜歡應用統(tǒng)計”課程與性別有關.(2)設所抽樣本中有m個男生,則*=未,得m=4,所以樣本中有4個男生,2個女生,3020分別記作Bi,B2,B3,B4,Gi,G2.從中任選2人的基本事件有(Bi,B2),(Bi,Ba),(Bi,B4),(Bi,Gi),(Bi,G2),(B2,B3),(B2,B4),(B2,Gi),(B2,G2),(Ba,B4),(B3,Gi),(B3,G2),(B4,Gi),(B4,G2),(Gi,G2),共i5個,其中恰有i個男生和i個女生的事件有(Bi,Gi),(Bi,G2),(B2,Gi),(B2,G2),(B3,Gi),(B3,G2),(B4,Gi),(B4,

13、G2),共8個.所以恰有i個男生和i個女生的概率為*i5A.在犯錯誤的概率不超過0.05的前提可認為A與B有關B.在犯錯誤的概率不超過0.05的前提可認為A與B無關C.在犯錯誤的概率不超過0.0i的前提可認為A與B有關D.沒有充分理由說明事件A與B有關系K2的觀測值K3.84i時,我們(A【變式2】某校高三子啊一次模擬考試后,為了解數學成績是否與班級有關,對甲乙兩個班數學成績(滿分i50分)進行分析,按照不小于i20分為優(yōu)秀,i20分以下為非優(yōu)秀的標準3統(tǒng)計成績,已知從全班i00人中隨機抽取i人數學成績優(yōu)秀的概率為三,調查結果如下表i0所示.(1)(2)(3)請完成上面的列聯表;根據列聯表的數

14、據,問是否有95%的把握認為數學成績與班級有關系若按下面的方法從甲班數學成績優(yōu)秀的學生中抽取”;i人:把甲班數學成績優(yōu)秀的優(yōu)秀非優(yōu)秀總計甲世川乙咫合計i0名學生從2到ii進行編號,先后兩次拋擲一枚均勻的骰子,出現的點數和被記為抽取人的編號,求抽到的編號為6或i0的概率.rrfari-br)0.G50.01k1811&635-/俎I命題意圖】本艘以實際生活內育晶強空能學模電主專營了統(tǒng)計案例中的拄正性樓瞬時知識點,理將古典概率知蛆濁透于其中看查學生處理數據、分析數據的能力.I試題牌折1門i相據騰中所給條件.可計里出兩機就學成細fr語的的人數為3。.從而確定乙班教學成繳t優(yōu)秀的人數,進而招到

15、中班數學成轅等it卷的人數:再根據小的計算公W*算出內值對比震中數據.判斷苴美聯性.(3)利用列舉法界蛭入者曲概皇概率介&,即可求解(4分)優(yōu)將總計甲班104050乙班203050合計3070100根據列聯表中的數據,得到小=吧;區(qū)4.762工841,/U蘆fkrAE因此有9元的把握認為L成績與班級肓關系,.糖分)(3)記事件,抽到6號或】0號*為里件人則所有的基本事件仃1,1)、(1,2),1.3k(6,6).共36個,(2毋其中事件A包含的基本事件有0,同,色4)/3潭).0.2)J5,DJ4£),5),(6Z,共8個,所以P(2分)【變式3】為了解人們對新頒布的生育二孩

16、放開”政策的熱度,現在某市進行調查.X5,65歲的人群隨機抽取了人,得到如下統(tǒng)計表和各年齡段抽取人數的頻率分布直方圖:(I)求,p的值,并由頻率分布直方圖估計被調查人群的平均年齡;(II)根據以上統(tǒng)計數據填下面2X2列聯表,并根據列聯表的獨立性檢驗,判斷能否有99%的把握認為以45歲為分界點的不同人群對生育二孩放開”政策的支持度有關系?年齡不低于45歲的人數年齡低于45歲的人數合計支持不支持合計-/參考數據:P(K2k)0.0500.0100.001k3.8416.63510.828K2n(adbc)2(ab)(cd)(ac)(bd)解:(I)從5,15)歲這一年齡組中抽取的人數為5,且頻率為

17、0.010100.1,0.85一八n50;2分0.1,一,一、,一.5又第二組的頻率為0.2,則第二組人數為10人,.p0.54分10平均數X0.1100.2200.3300.2400.1500.16033(歲)6分22517177225K232181152沒有99%的把握認為以6.276.635,45歲為分界點的不同人群對生育二孩放開”政策的支持度有(II)22列聯表如下:年齡不低于45歲的人數年齡彳氐于45歲的人數合計支持32932不支持71118合計104050關系?!纠?】為研究患肺癌與是否吸煙有關,做了一次相關調查,其中部分數據丟失,但可以確、,一,一,一,,,一一,,一4定的是不吸

18、煙人數與吸煙人數相同,吸煙患肺癌人數占吸煙總人數的-;不吸煙的人數中,5患肺癌與不患肺癌的比為1:4.(1)若吸煙不患肺癌的有4人,現從患肺癌的人中用分層抽樣的方法抽取5人,再從這5人中隨機抽取2人進行調查,求這兩人都是吸煙患肺癌的概率;(2)若研究得到在犯錯誤概率不超過0.001的前提下,認為患肺癌與吸煙有關,則吸煙的人數至少有多少?2附:K2,其中nabcd.(ab)(cd)(ac)(bd)P(K>k0)0.1000.0500.0100.001k02.7063.8416.63510.8281解:(1)設吸煙人數為x,依題思有-x4,所以吸煙的人有20人,故有吸煙患肺癌的有55人,則應

19、抽取吸煙患肺癌的4人,記為人,記為A.從5人中隨機抽取2人,16人,不患肺癌的有4人.用分層抽樣的方法抽取a,b,c,d.不吸煙患月市癌的1-/所有可能的結果有(a,b),(a,c),(a,d),(a,A),(b,c),(b,d),(b,A),(c,d),(c,A),,、一-一,一r63r、,一(d,A),共10種,則這兩人都是吸煙患肺癌的情形共有6種,.P,即這兩人都是105一、,3"吸煙患肺癌的概率為36分5(2)方法一:設吸煙人數為5x,由題意可得列聯表如下:患肺癌不患肺癌合計吸煙4xx5x不吸煙x4x5x總計5x5x10x22、2210x(16xx)由表得,K43.6x,由題

20、意3.6x>10.828,z.x>3.008,(5x)由表得,K21/1621222x(xx)2525(x)4x為整數,.x的最小值為4.則5x20,即吸煙人數至少為20人.方法二:設吸煙人數為x,由題意可得列聯表如下:患肺癌不患肺癌合計吸煙4x51x5x不吸煙1x54-x5x總計xx2x1818x,由題息x>10.828.x15.04,.x為整2525數且為5的倍數,,x的最小值為20即吸煙人數至少為20人.【高考真題】12017課標1,文19為了監(jiān)控某種零件的一條生產線的生產過程,檢驗員每隔30min從該生產線上隨機抽取一個零件,并測量其尺寸(單位:次抽取的16個零件的尺

21、寸:cm).下面是檢驗員在一天內依-/抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序910111213141516零件尺寸10.269.9110.1310.029.2210.0410.059.9516經計算得x-16Xi9.97,s16i1(XiX)2i1(X216X2)0.212,16i1,16(i8.5)2i11618.439,(xX)(i8.5)i12.78,其中Xi為抽取的第i個零件的尺寸,i1,2,16.(1)求(為川(12,16)的相關系數r,并回答是否可以認為這一天生產的零件尺寸不隨生產過程的進行而系統(tǒng)地變大或變小(

22、若|r|0.25,則可以認為零件的尺寸不隨生產過程的進行而系統(tǒng)地變大或變小).(2)一天內抽檢零件中,如果出現了尺寸在(X3s,X3s)之外的零件,就認為這條生產線在這一天的生產過程可能出現了異常情況,需對當天的生產過程進行檢查.(i)從這一天抽檢的結果看,是否需對當天的生產過程進行檢查?(ii)在(X3s,x3s)之外的數據稱,為離群值,試剔除離群值,估計這條生產線當天生產的零件尺寸的均值與標準差.(精確到0.01)n(x1)(yy)i1附:樣本(Xi,%)(i1,2,n)的相關系數r1n(n,L("X)2L(yy)2J0.0080.09【答案】(1)r0.18,可以;(2)(i)

23、需要;(ii)均值與標準差估計值分別為10.02,0.09.【解析】試題分析:(1)依公式求r;(2)(i)由X9.97,s0.212,得抽取的第13個零件的尺寸在(X3s,x3s)以外,因此需對當天的生產過程進行檢查;(ii)剔除第13個數據,則均值的估計值為10.02,方差為0.09.-/試題解析:(D由樣本數據得G初聯系數為fa及一也Ar=-01*.;虐中0.212xx18439Vf-axm由于Ir|<0,25;因此可l認認為這一天生產的零件尺寸不隨生產過程的西亍而系統(tǒng)地變大或變小.由于元=9.97尸=0.212,由樣本數據可以看出抽取的第13個零件的尺寸在門兔息一坊以外,因此需對

24、當天的生產過程進行檢查.(ii)剔除離群值,即第13個數據,剩下數據的平均數為(16997922)1002,這15條生產線當天生產的零件尺寸的均值的估計值為10.02.162_2_2-Xi2160.2122169.9721591.134,i1122剔除第13個數據,剩下數據的樣本萬差為一(1591.1349.221510.02)0.008,15這條生產線當天生產的零件尺寸的標準差的估計值為瘋麗80.09.【2】【2017課標II,文19】海水養(yǎng)殖場進行某水產品的新、舊網箱養(yǎng)殖方法的產量對比,收獲時各隨機抽取了100個網箱,測量各箱水產品的產量(單位:kg),其頻率分布直方圖如下:(2)填寫下面

25、列聯表,并根據列聯表判斷是否有99%的把握認為箱產量與養(yǎng)殖方法有關:箱產量v50kg箱產量>50kg舊養(yǎng)殖法新力廣殖法(3)根據箱產量的頻率分布直方圖,對兩種養(yǎng)殖方法的優(yōu)劣進行較。P(產>A)0.0500.0100.001k3.8416.63510.828附:-/K2n(adbc)2(ab)(cd)(ac)(bd)【答案】(1)0.62.(2)有把握(3)新養(yǎng)殖法優(yōu)于舊養(yǎng)殖法【解析】試題分析:3)*M3頰聿/齊宜方度中小長方界面粗等于則應碓率.計算人的概率將數克值人對立表格.卡方心式,計日長2117()$,對肥等考嫻居可利將有野先的:內星,3希M均值比俄丈小,左此k越好,再從勘據分

26、布情況看模定性,越集中越好,綜上可得新芥殖法優(yōu)于舊養(yǎng)殖法試題機折:(i舊據必去的箱產量低于四均的班率為£。一。;型江。14+0一024*311口卻,x5=C.e2因此,主什八的假率伯計值為。心工(2)根據箱產量的頻率分布直方圖得列聯表箱產量v50kg箱產量50kg舊養(yǎng)殖法6238新/廣殖法3466h200(62除3438:15.70510010096104由于15.7056.635,故有99%的把握認為箱產量與養(yǎng)殖方法有關箱產量的頻率分布直方圖平均值(或中位數)在45kg到50kg之間,且新養(yǎng)殖法的箱產量分布集中程度較舊養(yǎng)殖法的箱產量分布集中程度高,因此,可以認為新養(yǎng)殖法的箱產量較高

27、且穩(wěn)定,從而新養(yǎng)殖法優(yōu)于舊養(yǎng)殖法【3】(2016年全國III卷高考)下圖是我國2008年至2014年生活垃圾無害化處理量(單位:億噸)的折線圖工群左7一建k巽NSRH-港務檢代理17分磯葉希牛管網以1。14(I)由折線圖看出,可用線性回歸模型擬合y與t的關系,請用相關系數加以說明;y關于t的回歸方程(系數精確到0.01),預測2016年我國生活垃圾無害-/化處理量.附注:7yii19.32,7tiyi40.17,17(yiy)20.55,/=2.646.i1n參考公式:相關系數(ti)(yiy)回歸方程ybt中斜率和截距的最小二乘估計公式分別為:n)(tiD(yb(tit)2i1試題解析:(I

28、)由折線圖中數據和附注中學考數據岸f=4,2&£).=然i-l工&7及-卜)=工4):fr40174丈9-3且9p289r年-用0.99.0,55x2x2.646因為p與E的相關系數近彳腦0.的,說明與工的線性相關程度相當高,從而可以用線性回歸模型擬合y與的關系.&分932-1.331及(I)得?77_(tit)(yiy)i172(tit)2i12.89280.103,1.3310.10340.92所以,y關于t的回歸方程為:?0.920.10t.10分將2016年對應的t9代入回歸方程得:0.920.1091.82.12分所以預測2016年我國生活垃圾無害化

29、處理量將約1.82億噸.-/【4】12015高考新課標1,文19】某公司為確定下一年度投入某種產品的宣傳費,需了解年宣傳費x(單位:千元)對年銷售量y(單位:t)和年利潤z(單位:千元)的影響,對近8年的宣傳費xi和年銷售量Vi1,2,L,8數據作了初步處理,得到下面的散點圖及一些統(tǒng)計量的值.rxiryirw8-2(xix)i18/一、2(Wiw)i18(xix)(yiy)i18(Wiw)(yiy)i146.656.36.8289.81.61469108.8M18表中Wi=<x,w=二Wi8i1(I)根據散點圖判斷,yabx與ycdWX,哪一個適宜作為年銷售量y關于年宣傳費x的回歸方程類

30、型(給出判斷即可,不必說明理由);(II)根據(I)的判斷結果及表中數據,建立y關于x的回歸方程;(III)已知這種產品的年利潤z與x,y的關系為z0.2yx,根據(II)的結果回答下列問題:(i)當年宣傳費x90時,年銷售量及年利潤的預報值時多少?(ii)當年宣傳費x為何值時,年利潤的預報值最大?附:對于一組數據(u1M),(u2,v2),,(un,vn),其回J13線vu的斜率和截距的最小二乘估計分別為:n(Uiu)(Viv)=11,3vun(uu)2i1【答案】(i)ycdjx適合作為年銷售y關于年宣傳費用x的回歸方程類型(n)-/y100.668jX(m)46.24【解析】(i)由散點圖可以判斷,ycd<x適合作為年銷售y關于年宣傳費用x的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論