8.1成對數(shù)據(jù)的統(tǒng)計相關性課件高二下學期數(shù)學人教A版選擇性_第1頁
8.1成對數(shù)據(jù)的統(tǒng)計相關性課件高二下學期數(shù)學人教A版選擇性_第2頁
8.1成對數(shù)據(jù)的統(tǒng)計相關性課件高二下學期數(shù)學人教A版選擇性_第3頁
8.1成對數(shù)據(jù)的統(tǒng)計相關性課件高二下學期數(shù)學人教A版選擇性_第4頁
8.1成對數(shù)據(jù)的統(tǒng)計相關性課件高二下學期數(shù)學人教A版選擇性_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

在現(xiàn)實中,我們還經常需要了解兩個或兩個以上變量之間的關系.例如,教育部門為掌握學生身體健康狀況,需要了解身高變量和體重變量之間的關系;醫(yī)療衛(wèi)生部門要制定預防青少年近視的措施,需要了解有哪些因素會影響視力,以及這些因素是如何影響視力的;商家要根據(jù)顧客的意見改進服務水平,希望了解哪些因素影響服務水平,以及這些因素是如何起作用的;等等.為此,我們需要進一步學習通過樣本推斷變量之間關系的知識和方法.本章的學習內容有成對數(shù)據(jù)的統(tǒng)計相關性、一元線性回歸模型和列聯(lián)表等,這些知識與方法在解決實際問題中非常有用.可以發(fā)現(xiàn),兩個隨機變量的相關性可以通過成對樣本數(shù)據(jù)進行分析;利用一元線性回歸模型可以研究變量之間的隨機關系,進行預測;利用列聯(lián)表可以檢驗兩個隨機變量的獨立性.本章的學習對于提高我們解決實際問題的能力,提升數(shù)據(jù)分析、數(shù)學建模等素養(yǎng)都是非常有幫助的.8.1成對數(shù)據(jù)的統(tǒng)計相關性8.1.1變量的相關關系一、課前回顧答案:AB一、學習目標1.理解兩個變量的相關關系的概念;2.會作散點圖,并利用散點圖判斷兩個變量之間是否具有相關關系;3.了解樣本相關系數(shù)的含義,會用樣本相關系數(shù)的公式判斷兩個變量相關性的強弱.我們知道,一個人的體重與他的身高有關系.一般而言,個子高的人往往體重值較大,個子矮的人往往體重值較小.但身高并不是決定體重的唯一因素,例如生活中的飲食習慣、體育鍛煉、睡眠時間以及遺傳因素等也是影響體重的重要因素.像這樣,兩個變量有關系,但又沒有確切到可由其中的一個去精確地決定另一個的程度,這種關系稱為相關關系(correlation).兩個變量具有相關關系的事例在現(xiàn)實中大量存在.例如:1.子女身高y與父親身高x之間的關系.一般來說,父親的個子高,其子女的個子也會比較高;父親個子矮,其子女的個子也會比較矮.但影響子女身高的因素,除父親身高外還有其他因素,例如母親身高、飲食結構、體育鍛煉等,因此父親身高又不能完全決定子女身高.2.商品銷售收入y與廣告支出x之間的關系.一般來說,廣告支出越多,商品銷售收入越高.但廣告支出并不是決定商品銷售收入的唯一因素,商品銷售收入還與商品質量、居民收入等因素有關.3.空氣污染指數(shù)y與汽車保有量x之間的關系.一般來說,汽車保有量增加,空氣污染指數(shù)會上升.但汽車保有量并不是造成空氣污染的唯一因素,氣象條件、工業(yè)生產排放、居民生活和取暖、垃圾焚燒等都是影響空氣污染指數(shù)的因素.4.糧食畝產量y與施肥量x之間的關系.在一定范圍內,施肥量越大,糧食畝產就越高.但施肥量并不是決定糧食畝產量的唯一因素,糧食畝產量還要受到土壤質量、降水量、田間管理水平等因素的影響.做一做:下列變量之間的關系是相關關系的是(

)A.正方體的表面積與體積B.光照時間與果樹的產量C.勻速行駛車輛的行駛距離與時間D.某運動會中某代表團的足球隊的比賽成績與乒乓球隊的比賽成績解析:A,C是函數(shù)關系,D無相關關系.答案:B探究在對人體的脂肪含量和年齡之間關系的研究中,科研人員獲得了一些年齡和脂肪含量的簡單隨機樣本數(shù)據(jù),如表8.1-1所示.表中每個編號下的年齡和脂肪含量數(shù)據(jù)都是對同一個體的觀測結果,它們構成了成對數(shù)據(jù)編號1234567年齡/歲23273941454950脂肪含量/%9.517.821.225.927.526.328.2編號891011121314年齡/歲53545657586061脂肪含量/%29.630.231.430.833.535.234.6根據(jù)以上數(shù)據(jù),你能推斷人體的脂肪含量與年齡之間存在怎樣的關系嗎?年齡/歲為了更加直觀地描述上述成對樣本數(shù)據(jù)中脂肪含量與年齡之間的關系,類似于用直方圖描述單個變量樣本數(shù)據(jù)的分布特征,我們用圖形展示成對樣本數(shù)據(jù)的變化特征.用橫軸表示年齡,縱軸表示脂肪含量,則表8.1-1中每個編號下的成對樣本數(shù)據(jù)都可用直角坐標系中的點表示出來,由這些點組成了如圖8.1-1所示的統(tǒng)計圖.我們把這樣的統(tǒng)計圖叫做散點圖(scatterplot).年齡/歲觀察圖8.1—1可以發(fā)現(xiàn),這些散點大致落在一條從左下角到右上角的直線附近,表明隨年齡值的增加,相應的脂肪含量值呈現(xiàn)增高的趨勢.這樣,由成對樣本數(shù)據(jù)的分布規(guī)律,我們可以推斷脂肪含量變量和年齡變量之間存在著相關關系.如果從整體上看,當一個變量的值增加時,另一個變量的相應值也呈現(xiàn)增加的趨勢,我們就稱這兩個變量正相關(positivecorrelation);如果當一個變量的值增加時,另一個變量的相應值呈現(xiàn)減少的趨勢,則稱這兩個變量負相關(negativecorrelation).由圖8.1—1,能夠推斷脂肪含量與年齡這兩個變量正相關.(1)兩個變量負相關時,成對樣本數(shù)據(jù)的散點圖有什么特點?(2)你能舉出生活中兩個變量正相關或負相關的一些例子嗎?散點圖是描述成對數(shù)據(jù)之間關系的一種直觀方法.觀察散點圖8.1-1,從中我們不僅可以大致看出脂肪含量和年齡呈現(xiàn)正相關性,而且從整體上可以看出散點落在某條直線附近.一般地,如果兩個變量的取值呈現(xiàn)正相關或負相關,而且散點落在一條直線附近,我們就稱這兩個變量線性相關(linearcorrelation).年齡/歲脂肪含量/%觀察散點圖8.1-2,我們發(fā)現(xiàn):圖(1)中的散點落在某條曲線附近,而不是落在一條直線附近,說明這兩個變量具有相關性,但不是線性相關;類似地,圖(2)中的散點落在一條折線附近,這兩個變量也具有相關性,但它們既不是正相關,也不是負相關;圖(3)中的散點雜亂無章,無規(guī)律可言,看不出兩個變量有什么相關性.一般地,如果兩個變量具有相關性,但不是線性相關,那么我們就稱這兩個變量非線性相關或曲線相關.填一填:(1)每一個序號下的成對樣本數(shù)據(jù)都可用直角坐標系中的點表示出來,由這些點組成了統(tǒng)計圖.我們把這樣的統(tǒng)計圖叫做散點圖.(2)如果從整體上看,當一個變量的值增加時,另一個變量的相應值也呈現(xiàn)增加的趨勢,我們就稱這兩個變量正相關;如果當一個變量的值增加時,另一個變量的相應值呈現(xiàn)減少的趨勢,則稱這兩個變量負相關.(3)一般地,如果兩個變量的取值呈現(xiàn)正相關或負相關.而且散點落在一條直線

附近,我們就稱這兩個變量線性相關.一般地,如果兩個變量具有相關性,但不是線性相關,那么我們就稱這兩個變量非線性相關或

曲線

相關.例1.在一次對人體脂肪含量和年齡關系的研究中,研究人員獲得了一組樣本數(shù)據(jù),并制作成如圖所示的散點圖,根據(jù)該圖,下列結論中正確的是(

)A.人體脂肪含量與年齡正相關,且脂肪含量的中位數(shù)等于20%B.人體脂肪含量與年齡正相關,且脂肪含量的中位數(shù)小于20%C.人體脂肪含量與年齡負相關,且脂肪含量的中位數(shù)等于20%D.人體脂肪含量與年齡負相關,且脂肪含量的中位數(shù)小于20%解析:由散點圖可知點的分布都集中在一條直線附近,由此可以判斷兩個變量具有相關關系,點分布在從左下角到右上角的區(qū)城,因此是正相關.由散點圖可知共有10個點,則中位數(shù)為最中間兩點的縱坐標的平均數(shù),因為兩數(shù)均小于20%,所以脂肪含量的中位數(shù)小于20%.答案:B課本96頁2.根據(jù)下面的散點圖,判斷圖中的兩個變量是否存在相關關系.負相關非線性相關不相關正相關8.1.2樣本相關系數(shù)通過觀察散點圖中成對樣本數(shù)據(jù)的分布規(guī)律,我們可以大致推斷兩個變量是否存在相關關系、是正相關還是負相關、是線性相關還是非線性相關等.散點圖雖然直觀,但無法確切地反映成對樣本數(shù)據(jù)的相關程度,也就無法量化兩個變量之間相關程度的大小.能否像引入平均值、方差等數(shù)字特征對單個變量數(shù)據(jù)進行分析那樣,引入一個適當?shù)摹皵?shù)字特征”,對成對樣本數(shù)據(jù)的相關程度進行定量分析呢?xy利用上述方法處理表8.1-1中的數(shù)據(jù),得到圖8.1-3.我們發(fā)現(xiàn),這時的散點大多數(shù)分布在第一象限、第三象限,大多數(shù)散點的橫、縱坐標同號.顯然,這樣的規(guī)律是由人體脂肪含量與年齡正相關所決定的.編號1234567年齡/歲23273941454950脂肪含量/%9.517.821.225.927.526.328.2編號891011121314年齡/歲53545657586061脂肪含量/%29.630.231.430.833.535.234.2O(1)O(2)圖8.1-4一般地,如果變量x和y正相關,那么關于均值平移后的大多數(shù)散點將分布在第一象限、第三象限,對應的成對數(shù)據(jù)同號的居多,如圖8.1-4(1)所示;如果變量x和y負相關,那么關于均值平移后的大多數(shù)散點將分布在第二象限、第四象限,對應的成對數(shù)據(jù)異號的居多,如圖8.1-4(2)所示.根據(jù)上述分析.你能利用正相關變量和負相關變量的成對樣本數(shù)據(jù)平移后呈現(xiàn)的規(guī)律,構造一個度量成對樣本數(shù)據(jù)是正相關還是負相關的數(shù)字特征嗎?因為Lxy的大小與數(shù)據(jù)的度量單位有關,所以不宜直接用它度量成對樣本數(shù)據(jù)相關程度的大?。?,在研究體重與身高之間的相關程度時,如果體重的單位不變,把身高的單位由米改為厘米,則相應的Lxy將變?yōu)樵瓉淼?00倍,但單位的改變并不會導致體重與身高之間相關程度的改變.我們稱r為變量x和變量y的樣本相關系數(shù)(samplecorrelationcoefficient).這樣,我們利用成對樣本數(shù)據(jù)構造了樣本相關系數(shù)r.樣本相關系數(shù)r是一個描述成對樣本數(shù)據(jù)的數(shù)字特征,它的正負性和絕對值的大小可以反映成對樣本數(shù)據(jù)的變化特征:當r>0時,稱成對樣本數(shù)據(jù)正相關.這時,當其中一個數(shù)據(jù)的值變小時,另一個數(shù)據(jù)的值通常也變??;當其中一個數(shù)據(jù)的值變大時,另一個數(shù)據(jù)的值通常也變大.當r<0時,稱成對樣本數(shù)據(jù)負相關.這時,當其中一個數(shù)據(jù)的值變小時,另一個數(shù)據(jù)的值通常會變大;當其中一個數(shù)據(jù)的值變大時,另一個數(shù)據(jù)的值通常會變小.那么,樣本相關系數(shù)r的大小與成對樣本數(shù)據(jù)的相關程度有什么內在聯(lián)系呢?為此,我們先考察一下r的取值范圍.由此可見,樣本相關系數(shù)r的取值范圍為[-1,1].樣本相關系數(shù)的絕對值大小可以反映成對樣本數(shù)據(jù)之間線性相關的程度:當|r|越接近1時,成對樣本數(shù)據(jù)的線性相關程度越強;當|r|越接近0時,成對樣本數(shù)據(jù)的線性相關程度越弱.圖8.1-5是不同成對樣本數(shù)據(jù)的散點圖和相應的樣本相關系數(shù).圖(1)中的散點有明顯的從左下角到右上角沿直線分布的趨勢,說明成對樣本數(shù)據(jù)呈現(xiàn)出線性相關關系;樣本相關系數(shù)r=0.97,表明成對樣本數(shù)據(jù)的正線性相關程度很強.圖(2)中的散點有明顯的從左上角到右下角沿直線分布的趨勢,說明成對樣本數(shù)據(jù)也呈現(xiàn)出線性相關關系;樣本相關系數(shù)r=-0.85,表明成對樣本數(shù)據(jù)的負線性相關程度比較強.從樣本相關系數(shù)來看,圖(1)中成對樣本數(shù)據(jù)的線性相關程度要比圖(2)中強一些;圖(3)和圖(4)中的成對樣本數(shù)據(jù)的線性相關程度很弱,其中圖(4)中成對樣本數(shù)據(jù)的線性相關程度極弱.綜上可知,兩個隨機變量的相關性可以通過成對樣本數(shù)據(jù)進行分析,而樣本相關系數(shù)r可以反映兩個隨機變量之間的線性相關程度:r的符號反映了相關關系的正負性;|r|的大小反映了兩個變量線性相關的程度,即散點集中于一條直線的程度.在實際中,獲得總體中所有的成對數(shù)據(jù)往往是不容易的.因此,我們還是要用樣本估計總體的思想來解決問題.也就是說,我們先要通過抽樣獲取兩個變量的一些成對樣本數(shù)據(jù),再計算出樣本相關系數(shù),通過樣本相關系數(shù)去估計總體相關系數(shù),從而了解兩個變量之間的相關程度.對于簡單隨機樣本而言,樣本具有隨機性,因此樣本相關系數(shù)r也具有隨機性.一般地,樣本容量越大,用樣本相關系數(shù)估計兩個變量的相關系數(shù)的效果越好.當r>0時,稱成對樣本數(shù)據(jù)正相關.這時,當其中一個數(shù)據(jù)的值變小時,另一個數(shù)據(jù)的值通常也變小;當其中一個數(shù)據(jù)的值變大時,另一個數(shù)據(jù)的值通常也變大.當r<0時,稱成對樣本數(shù)據(jù)負相關.這時,當其中一個數(shù)據(jù)的值變小時,另一個數(shù)據(jù)的值通常會變大;當其中一個數(shù)據(jù)的值變大時,另一個數(shù)據(jù)的值通常會變小.(3)樣本相關系數(shù)r的取值范圍為

[-1,1].樣本相關系數(shù)r的絕對值大小可以反映成對數(shù)據(jù)之間線性相關的程度:當|r|越接近1時,成對樣本數(shù)據(jù)的線性相關程度

越強

;當|r|越接近0時,成對樣本數(shù)據(jù)的線性相關程度

越弱

.例2.用線性回歸模型求得甲、乙、丙三組不同樣本數(shù)據(jù)的樣本相關系數(shù)分別為0.81,-0.98,0.63,其中

(填甲、乙、丙中的一個)組樣本數(shù)據(jù)的線性相關性最強.

答案:乙樣本相關系數(shù)大小對相關程度大小的影響:|r|≤1,|r|越接近1,相關程度越大;|r|越接近0,相關程度越小.【變式2】

對兩個變量x,y進行線性相關檢驗,得樣本相關系數(shù)r1=0.7859,對兩個變量u,v進行線性相關檢驗,得樣本相關系數(shù)r2=-0.9568,則下列判斷正確的是(

)A.變量x與y正相關,變量u與v負相關,變量x與y的線性相關性較強B.變量x與y負相關,變量u與v正相關,變量x與y的線性相關性較強C.變量x與y正相關,變量u與v負相關,變量u與v的線性相關性較強D.變量x與y負相關,變量u與v正相關,變量u與v的線性相關性較強解析:由樣本相關系數(shù)r1=0.785

9>0知x與y正相關,由樣本相關系數(shù)r2=-0.956

8<0知u與v負相關,又|r1|<|r2|,故變量u與v的線性相關性較強.答案:C例3根據(jù)表8.1-1中脂肪含量和年齡的樣本數(shù)據(jù),推斷兩個變量是否線性相關,計算樣本相關系數(shù),并推斷它們的相關程度.編號1234567年齡/歲23273941454950脂肪含量/%9.517.821.225.927.526.328.2編號891011121314年齡/歲53545657586061脂肪含量/%29.630.231.430.833.535.234.2年齡/歲解:先畫出散點圖,如圖8.1-1所示.觀察散點圖,可以看出樣本點都集中在一條直線附近,由此推斷脂肪含量和年齡線性相關.利用統(tǒng)計軟件計算樣本相關系數(shù),Excel軟件用函數(shù)CORREL;R軟件用函數(shù)cor.【變式3】

為分析肥胖程度對總膽固醇與空腹血糖的影響,在肥胖人群中隨機抽出8人,他們的肥胖指數(shù)BMI值、總膽固醇TC指標值(單位:mmol/L)、空腹血糖CLU指標值(單位:mmol/L)如表所示.人員編號12345678BMI值x2527303233354042TC指標值y5.35.45.55.65.76.56.97.1CLU指標值z6.77.27.38.08.18.69.09.1用變量y與x,z與x的樣本相關系數(shù),分別說明TC指標值與BMI值、CLU指標值與BMI值的相關程度.例4

在某校高一年級中隨機抽取25名男生,測得他們的身高、體重、臂展等數(shù)據(jù),如表8.1-3所示.體重與身高、臂展與身高分別具有怎樣的相關性?編號身高/cm體重/kg臂展/cm編號身高/cm體重/kg臂展/cm1173551691416666161217971170151766116631755217216176491654179621771717560173518282174181694816261736316619184861897180551742016958164817081169211825417091695416622171581641017754176231776117311177591702417358165121786717425173511691317456170解:根據(jù)樣本數(shù)據(jù)畫出體重與身高、臂展與身高的散點圖,分別如圖8.1-7(1)和(2)所示,兩個散點圖都呈現(xiàn)出線性相關的特征.身高/cm體重/cm身高/cm臂展/cm解:根據(jù)樣本數(shù)據(jù)畫出體重與身高、臂展與身高的散點圖,分別如圖8.1-7(1)和(2)所示,兩個散點圖都呈現(xiàn)出線性相關的特征.通過計算得到體重與身高、臂展與身高的樣本相關系數(shù)分別約為0.34和0.78,都為正線性相關.其中,臂展與身高的相關程度更高.當堂檢測1.在下列各變量之間的關系中,是相關關系的有(

)①汽車的質量和百公里耗油量;②正n邊形的邊數(shù)與內角度數(shù)之和;③在一定范圍內,一塊農田的小麥產量與施肥量;④家庭的經濟條件與學生的學習成績.A.①②

B.①③ C.②③

D.③④解析:汽車的質量越大,百公里耗油量會越多.在一定范圍內,農田的施肥量越大,小麥產量一般會越多.①③是相關關系.②是函數(shù)關系.④中家庭經濟條件與學生的學習成績之間既不是相關關系,也不是函數(shù)關系.答案:B2.在一組樣本數(shù)據(jù)(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散點圖中,若所有樣本點(xi,yi)(i=1,2,3,…,n)都在直線2x+y-1=0上,則這組樣本數(shù)據(jù)的樣本相關系數(shù)r為

.

解析:因為直線2x+y-1=0的斜率k=-2,且所有樣本點(xi,yi)(i=1,2,3,…,n)都在直線2x+y-1=0上,所以說明這組樣本數(shù)據(jù)完全負相關,則樣本相關系數(shù)達到最小值-1.答案:-1解析:對于A,|r|越大,相關程度越大,正確;對于B,|r|越小,相關程度越小,錯誤;對于C,|r|趨近于0時,線性相關關系較弱,錯誤;對于D,|r|越接近于1時,線性相關程度越強,正確.綜上,正確的是AD.答案:AD4.一組通過隨機抽樣得到的7名兒童的智力測驗成績和閱讀能力測驗成績如下:智力測驗成績:110

120

90

100

140

95

105閱讀能力測驗成績:80

85

75

80

90

85

78求兒童的智力與閱讀能力的樣本相關系數(shù).答案:0.781.由簡單隨機抽樣得到的成對樣本數(shù)據(jù)的樣本相關系數(shù)是否一定能確切地反映變量之間的相關關系?為什么?樣本相關系數(shù)可以反映變量之間相關的正負性及線性相關的程度,但由于樣本數(shù)據(jù)的隨機性,樣本相關系數(shù)往往不能確切地反映變量之間的相關關系.一般來說,樣本量越大,根據(jù)樣本相關系數(shù)推斷變量之間相關的正負性及線性相關的程度越可靠,而樣本量越小則越不可靠.一個極端的情況是,無論兩個變量之間是什么關系,如果樣本量取2,則計算可得樣本相關系數(shù)的絕對值都是1(在樣本相關系數(shù)存在的情況下),顯然據(jù)此推斷兩個變量完全線性相關是不合理的.課后作業(yè)雖然樣本相關系數(shù)為-1,三個樣本點在一條直線上,但是由于樣本量太小,據(jù)此推斷兩個變量完全線性相關并不可靠.解法二:235102-1-7-64-3-35-34492538414954i123求和xiyixiyixi2yi23.畫出下列成對數(shù)據(jù)的散點圖,并計算樣本相關系數(shù).據(jù)此,請你談談樣本相關系數(shù)在刻畫兩個變量間相關關系上的特點.i123456求和xiyixiyixi2yi2-2-101233-3-11357126103102141410149199119254994i12345求和xiyixiyixi2yi2012341001491630018276410001491630011681256354i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論