相關(guān)分析與回歸分析法_第1頁
相關(guān)分析與回歸分析法_第2頁
相關(guān)分析與回歸分析法_第3頁
相關(guān)分析與回歸分析法_第4頁
相關(guān)分析與回歸分析法_第5頁
已閱讀5頁,還剩126頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、A相關(guān)分析相關(guān)分析A回歸分析回歸分析定量分析方法(二)定量分析方法(二)1 中南大學(xué)信息安全與大數(shù)據(jù)研究院中南大學(xué)信息安全與大數(shù)據(jù)研究院文庭孝文庭孝Telel-mail:E-mail:2 I相關(guān)關(guān)系 一、問題的提出一、問題的提出 二、相關(guān)關(guān)系的概念二、相關(guān)關(guān)系的概念 三、相關(guān)關(guān)系的種類三、相關(guān)關(guān)系的種類 四、相關(guān)關(guān)系的主要內(nèi)容四、相關(guān)關(guān)系的主要內(nèi)容 3 相相關(guān)關(guān)F唯物辯證法唯物辯證法F世界是普遍聯(lián)系的世界是普遍聯(lián)系的F沒有孤立存在的事物和現(xiàn)象沒有孤立存在的事物和現(xiàn)象 F小世界理論小世界理論F相似性原理相似性原理4 5 6 二、相關(guān)關(guān)系的概念二

2、、相關(guān)關(guān)系的概念A(yù)客觀現(xiàn)象之間的數(shù)量關(guān)系存在兩種類型:客觀現(xiàn)象之間的數(shù)量關(guān)系存在兩種類型: 函數(shù)關(guān)系函數(shù)關(guān)系相關(guān)關(guān)系相關(guān)關(guān)系 F函數(shù)關(guān)系:函數(shù)關(guān)系:即當一個即當一個(或一組或一組)變量每取一個值變量每取一個值時,相應(yīng)的另一個變量必然有一個確定值與之時,相應(yīng)的另一個變量必然有一個確定值與之相對應(yīng)相對應(yīng) 。F相關(guān)關(guān)系:相關(guān)關(guān)系:變量之間存在依存關(guān)系,但這是不變量之間存在依存關(guān)系,但這是不完全確定的隨機關(guān)系,即當一個完全確定的隨機關(guān)系,即當一個(或一組或一組)變量變量每取一個值時,相應(yīng)的另一個變量可能有多個每取一個值時,相應(yīng)的另一個變量可能有多個不同值與之對應(yīng)不同值與之對應(yīng) 。二、相關(guān)關(guān)系的概念二、

3、相關(guān)關(guān)系的概念8 函數(shù)關(guān)系函數(shù)關(guān)系(1)是一一對應(yīng)的確定關(guān)系)是一一對應(yīng)的確定關(guān)系 (2)設(shè)有兩個變量)設(shè)有兩個變量 x 和和 y ,變量變量 y 隨變量隨變量 x 一起變化,并一起變化,并完全依賴于完全依賴于 x ,當變量,當變量 x 取取某個數(shù)值時,某個數(shù)值時, y 依確定的關(guān)系依確定的關(guān)系取相應(yīng)的值,則稱取相應(yīng)的值,則稱 y 是是 x 的的函數(shù),記為函數(shù),記為 y = f (x),其中,其中 x 稱為自變量,稱為自變量,y 稱為因變量稱為因變量 (3)各觀測點落在一條線上)各觀測點落在一條線上 9 自變量與因變量自變量與因變量如果變量之間有因果關(guān)系,那么原因變量就叫如果變量之間有因果關(guān)系

4、,那么原因變量就叫作自變量,而受自變量影響的變量作自變量,而受自變量影響的變量(結(jié)果變量結(jié)果變量)稱因變量。自變量通常發(fā)生在因變量之前。稱因變量。自變量通常發(fā)生在因變量之前。不是所有先發(fā)生的變量都是自變量。不是所有先發(fā)生的變量都是自變量。一般自變量記為一般自變量記為X,因變量記為,因變量記為Y。10 (1 1) 某種商品的銷售額某種商品的銷售額( (y y) )與銷售量與銷售量( (x x) )之間的關(guān)之間的關(guān)系可表示為系可表示為 y y = = p p* *x x ( (p p 為單價為單價) ) (2 2)圓的面積)圓的面積(S)(S)與半徑之間的關(guān)系可表示為與半徑之間的關(guān)系可表示為 S

5、S = = * *R R2 2 (3 3)企業(yè)的原材料消耗額)企業(yè)的原材料消耗額( (y y) )與產(chǎn)量與產(chǎn)量( (x x1 1) ) 、單位產(chǎn)、單位產(chǎn)量消耗量消耗( (x x2 2) ) 、原材料價格、原材料價格( (x x3 3) )之間的關(guān)系可表示之間的關(guān)系可表示為為y y = = x x1 1* *x x2 2* *x x3 311 停下來停下來 想一想?想一想?s自變量與因變量判斷自變量與因變量判斷 1. 1. 產(chǎn)品產(chǎn)量與總成本。產(chǎn)品產(chǎn)量與總成本。 2. 2. 銷售稅的總量與商品總成本。銷售稅的總量與商品總成本。 3. 3. 電影院里爆米花的銷售量與垃圾袋的使用量。電影院里爆米花的銷

6、售量與垃圾袋的使用量。 4. 4. 太陽能發(fā)電量與熱天的天數(shù)。太陽能發(fā)電量與熱天的天數(shù)。12 相關(guān)關(guān)系相關(guān)關(guān)系1.變量間關(guān)系不能用函數(shù)關(guān)變量間關(guān)系不能用函數(shù)關(guān)系精確表達系精確表達2.一個變量的取值不能由另一個變量的取值不能由另一個變量唯一確定一個變量唯一確定 3.當變量當變量 x 取某個值時,變?nèi)∧硞€值時,變量量 y 的取值可能有幾個的取值可能有幾個4.各觀測點分布在直線周圍各觀測點分布在直線周圍13 商品的消費量商品的消費量(y)(y)與居民收入與居民收入(x)(x)之間的關(guān)系之間的關(guān)系 商品銷售額商品銷售額(y)(y)與廣告費支出與廣告費支出(x)(x)之間的關(guān)系之間的關(guān)系 糧食畝產(chǎn)量糧食

7、畝產(chǎn)量(y)(y)與施肥量與施肥量(x(x1 1) ) 、降雨量、降雨量(x(x2 2) ) 、溫度溫度(x(x3 3) )之間的關(guān)系之間的關(guān)系 收入水平收入水平(y)(y)與受教育程度與受教育程度(x)(x)之間的關(guān)系之間的關(guān)系 父母親身高父母親身高(y)(y)與子女身高與子女身高(x)(x)之間的關(guān)系之間的關(guān)系 身高與體重的關(guān)系身高與體重的關(guān)系14 s下列變量之間存在相關(guān)關(guān)系嗎?下列變量之間存在相關(guān)關(guān)系嗎? 1.抽煙與肺癌之間的關(guān)系 2.懷孕期婦女的飲酒量與嬰兒出生體重之間的關(guān)系 3.納稅者年齡和他們交納稅款的數(shù)量之間的關(guān)系 4.采光量與植物的生產(chǎn)量之間的關(guān)系 5.一個人的投票傾向性與其年

8、齡之間的關(guān)系15 H在一定的條件下互相轉(zhuǎn)化在一定的條件下互相轉(zhuǎn)化 F具有函數(shù)關(guān)系的變量具有函數(shù)關(guān)系的變量, ,當存在觀測誤差和隨機因素影當存在觀測誤差和隨機因素影響時響時, , 往往以相關(guān)的形式表現(xiàn)出來;往往以相關(guān)的形式表現(xiàn)出來;F具有相關(guān)關(guān)系的變量之間的聯(lián)系具有相關(guān)關(guān)系的變量之間的聯(lián)系, ,如果對它們有了深如果對它們有了深刻的規(guī)律性認識刻的規(guī)律性認識, ,并且能夠把影響因變量變動的因素并且能夠把影響因變量變動的因素全部納入方程全部納入方程, ,這時相關(guān)關(guān)系可轉(zhuǎn)化為函數(shù)關(guān)系;這時相關(guān)關(guān)系可轉(zhuǎn)化為函數(shù)關(guān)系;F相關(guān)關(guān)系也具有某種變動規(guī)律,所以,相關(guān)關(guān)系也相關(guān)關(guān)系也具有某種變動規(guī)律,所以,相關(guān)關(guān)系也

9、經(jīng)??梢杂靡欢ǖ暮瘮?shù)形式經(jīng)??梢杂靡欢ǖ暮瘮?shù)形式近似地近似地描述。描述。函數(shù)關(guān)系與相關(guān)關(guān)系的關(guān)系函數(shù)關(guān)系與相關(guān)關(guān)系的關(guān)系16 因果關(guān)系因果關(guān)系相關(guān)關(guān)系相關(guān)關(guān)系互為因果關(guān)系互為因果關(guān)系共變關(guān)系共變關(guān)系隨機性依存關(guān)系隨機性依存關(guān)系確定性依存關(guān)系確定性依存關(guān)系函數(shù)關(guān)系函數(shù)關(guān)系變量之變量之 間關(guān)系間關(guān)系變量之間關(guān)系的總結(jié)變量之間關(guān)系的總結(jié)17 三、相關(guān)關(guān)系的種類三、相關(guān)關(guān)系的種類1.按相關(guān)的程度分:按相關(guān)的程度分:完全相關(guān)完全相關(guān)不完全相關(guān)不完全相關(guān) 不相關(guān)不相關(guān)(或零相關(guān)或零相關(guān))完全相關(guān)完全相關(guān):在價格在價格P P不變的情況下,銷售收入不變的情況下,銷售收入Y Y與與銷售量銷售量X X的關(guān)系。的關(guān)

10、系。 不相關(guān)不相關(guān):股票價格的高低與氣溫的高低不相關(guān)。股票價格的高低與氣溫的高低不相關(guān)。18 2.按相關(guān)的方向分:按相關(guān)的方向分:正相關(guān)正相關(guān)負相關(guān)負相關(guān)B正相關(guān):正相關(guān):兩個變量之間的變化方向一致,都是增長趨勢或兩個變量之間的變化方向一致,都是增長趨勢或下降趨勢。下降趨勢。收入與消費的關(guān)系收入與消費的關(guān)系:工人的工資隨勞動生產(chǎn)率的提高而提工人的工資隨勞動生產(chǎn)率的提高而提高。高。B負相關(guān)負相關(guān):兩個變量變化趨勢相反,一個下降而另一個上升,兩個變量變化趨勢相反,一個下降而另一個上升,或一個上升而另一個下降?;蛞粋€上升而另一個下降。 物價與消費的關(guān)系物價與消費的關(guān)系:商品流轉(zhuǎn)的規(guī)模愈大商品流轉(zhuǎn)的規(guī)

11、模愈大, ,流通費用水平則流通費用水平則越低。越低。三、相關(guān)關(guān)系的種類三、相關(guān)關(guān)系的種類19 3.按相關(guān)的形式分按相關(guān)的形式分:線性相關(guān)線性相關(guān)非線性相關(guān)非線性相關(guān)v線性相關(guān)(直線相關(guān)):線性相關(guān)(直線相關(guān)):當一個變量每變動一個單位當一個變量每變動一個單位時,另一個變量按一個大致固定的增時,另一個變量按一個大致固定的增( (減減) )量變動。量變動。v例例: :人均消費水平與人均收入水平。人均消費水平與人均收入水平。v非線性相關(guān)(曲線相關(guān)):非線性相關(guān)(曲線相關(guān)):當一個變量變動時,當一個變量變動時, 另另一個變量也相應(yīng)發(fā)生變動,但這種變動是不均等的。一個變量也相應(yīng)發(fā)生變動,但這種變動是不均

12、等的。v例例: 產(chǎn)品的平均成本與總產(chǎn)量產(chǎn)品的平均成本與總產(chǎn)量; 農(nóng)產(chǎn)量與施肥量。農(nóng)產(chǎn)量與施肥量。三、相關(guān)關(guān)系的種類三、相關(guān)關(guān)系的種類20 4 .按相關(guān)的影響因素多少分:按相關(guān)的影響因素多少分:單相關(guān)單相關(guān)復(fù)相關(guān)復(fù)相關(guān)偏相關(guān)偏相關(guān)F單相關(guān)單相關(guān)(一元相關(guān)一元相關(guān)):只有一個自變量。只有一個自變量。F如如: 居民的收入與儲蓄額居民的收入與儲蓄額; 成本與產(chǎn)量。成本與產(chǎn)量。F復(fù)相關(guān)復(fù)相關(guān)(多元相關(guān)多元相關(guān)):有兩個及兩個以上的自變量。有兩個及兩個以上的自變量。F如如: 某種商品的需求與其價格水平以及收入水平之間的相關(guān)關(guān)系。某種商品的需求與其價格水平以及收入水平之間的相關(guān)關(guān)系。三、相關(guān)關(guān)系的種類三、相

13、關(guān)關(guān)系的種類F偏相關(guān)偏相關(guān):在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,假定其他變量不變,專門考在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場合,假定其他變量不變,專門考察其中兩個變量的相關(guān)關(guān)系稱為偏相關(guān)。察其中兩個變量的相關(guān)關(guān)系稱為偏相關(guān)。F如如: 在假定人們的收入水平不變的條件下,某種商品的需求與其價格水平在假定人們的收入水平不變的條件下,某種商品的需求與其價格水平的關(guān)系就是一種偏相關(guān)。的關(guān)系就是一種偏相關(guān)。21 5.5.按相關(guān)的性質(zhì)分:按相關(guān)的性質(zhì)分:真實相關(guān)真實相關(guān)虛假相關(guān)虛假相關(guān)Z真實相關(guān):真實相關(guān):由現(xiàn)象的內(nèi)在聯(lián)系所決定。由現(xiàn)象的內(nèi)在聯(lián)系所決定。Z虛假相關(guān)虛假相關(guān): :如某人曾觀察過某如某人曾觀察過某一國家歷年

14、的國內(nèi)生產(chǎn)總值與一國家歷年的國內(nèi)生產(chǎn)總值與精神病患者人數(shù)的關(guān)系精神病患者人數(shù)的關(guān)系, ,呈相當呈相當高的正相關(guān)。(偶然或巧合)高的正相關(guān)。(偶然或巧合)三、相關(guān)關(guān)系的種類三、相關(guān)關(guān)系的種類22 1. 冰淇淋的銷量與兒童出事故次數(shù)之間冰淇淋的銷量與兒童出事故次數(shù)之間 2. 街上警察數(shù)量與犯罪數(shù)量之間街上警察數(shù)量與犯罪數(shù)量之間 3. 歷史上,婦女裙子的長度與經(jīng)濟的好壞有關(guān)系:歷史上,婦女裙子的長度與經(jīng)濟的好壞有關(guān)系: 裙子越短,經(jīng)濟越景氣。裙子越短,經(jīng)濟越景氣。 4. 鸛的數(shù)量與丹麥鄉(xiāng)間嬰兒出生率的關(guān)系鸛的數(shù)量與丹麥鄉(xiāng)間嬰兒出生率的關(guān)系三、相關(guān)關(guān)系的種類三、相關(guān)關(guān)系的種類23 三、相關(guān)關(guān)系的種類三

15、、相關(guān)關(guān)系的種類24 定性分析定性分析定量分析定量分析相關(guān)關(guān)系的判斷相關(guān)關(guān)系的判斷25 四、相關(guān)分析的主要內(nèi)容根據(jù)研究目的搜集有關(guān)資料根據(jù)研究目的搜集有關(guān)資料 編制相關(guān)圖表編制相關(guān)圖表 計算相關(guān)系數(shù)計算相關(guān)系數(shù) 建立回歸方程建立回歸方程 進行統(tǒng)計檢驗進行統(tǒng)計檢驗26 相關(guān)分析相關(guān)分析: 就是用一個就是用一個指標來表明現(xiàn)象間相互指標來表明現(xiàn)象間相互依存關(guān)系的密切程度。依存關(guān)系的密切程度。廣義的相關(guān)分析包括相廣義的相關(guān)分析包括相關(guān)關(guān)系分析(狹義的相關(guān)關(guān)系分析(狹義的相關(guān)分析)和回歸分析。關(guān)分析)和回歸分析。 相關(guān)分析的概念相關(guān)分析的概念27 相關(guān)圖表相關(guān)圖表相關(guān)圖表相關(guān)圖表相關(guān)表和相關(guān)圖相關(guān)表和相

16、關(guān)圖是研究相關(guān)關(guān)系的直觀工是研究相關(guān)關(guān)系的直觀工具,在進行詳細的定量分析之前,具,在進行詳細的定量分析之前, 可以先可以先利用它們對現(xiàn)象之間存在的相關(guān)關(guān)系的利用它們對現(xiàn)象之間存在的相關(guān)關(guān)系的方方向、形式和密切程度向、形式和密切程度作大致判斷。作大致判斷。 簡單相關(guān)表簡單相關(guān)表:將自變量將自變量x的數(shù)值按照從小到大的順序,的數(shù)值按照從小到大的順序,并配合因變量并配合因變量y的數(shù)值一一對應(yīng)而平行排列的表。的數(shù)值一一對應(yīng)而平行排列的表。 消費支出消費支出 y15203040425360657870可支配收可支配收入入x18254560627588929899居民消費和收入的相關(guān)表居民消費和收入的相關(guān)

17、表單位:百元單位:百元簡單相關(guān)表簡單相關(guān)表29 相關(guān)圖相關(guān)圖:又稱散點圖,將又稱散點圖,將x置于橫軸上,置于橫軸上,y置于縱軸上,置于縱軸上,將(將(x,y)繪于坐標圖上,用來反映兩個變量之間相關(guān))繪于坐標圖上,用來反映兩個變量之間相關(guān)關(guān)系的圖形。關(guān)系的圖形。 簡單相關(guān)圖簡單相關(guān)圖30 簡單相關(guān)系數(shù)簡單相關(guān)系數(shù)相關(guān)系數(shù)相關(guān)系數(shù) 度量兩個變量之間線性相關(guān)密切程度和相關(guān)方向度量兩個變量之間線性相關(guān)密切程度和相關(guān)方向的統(tǒng)計指標。的統(tǒng)計指標。包括簡單相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)、偏相關(guān)系數(shù)、包括簡單相關(guān)系數(shù)、復(fù)相關(guān)系數(shù)、偏相關(guān)系數(shù)、曲線相關(guān)系數(shù)曲線相關(guān)系數(shù)(相關(guān)指數(shù)相關(guān)指數(shù))。 簡單相關(guān)系數(shù)又稱皮爾遜簡單相關(guān)

18、系數(shù)又稱皮爾遜(1890年,英國年,英國)相關(guān)系相關(guān)系數(shù),或積矩相關(guān)系數(shù)或動差相關(guān)系數(shù)數(shù),或積矩相關(guān)系數(shù)或動差相關(guān)系數(shù)。相關(guān)系數(shù)若是根據(jù)總體數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù)若是根據(jù)總體數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為(相關(guān)系數(shù),記為(方差占總差的比例方差占總差的比例) 相關(guān)系數(shù)若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣相關(guān)系數(shù)若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為本相關(guān)系數(shù),記為 r。樣本相關(guān)系數(shù)是總體相。樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一致估計量。關(guān)系數(shù)的一致估計量。YXXY簡單相關(guān)系數(shù)簡單相關(guān)系數(shù)32 樣本簡單相關(guān)系數(shù)的計算公式樣本簡單相關(guān)系數(shù)的計算公式(積差法積差法)yyxxxySSSyyxx

19、yyxxr22)()()(yxnxyyyxxynyyyxnxxx111222222式中:式中:(1)B用計算器計算相關(guān)系數(shù)用計算器計算相關(guān)系數(shù)33 2222yynxxnyxxynr2222111 ynyxnxyxnxyr或:或:(2)34 1. r 的取值范圍是的取值范圍是 -1,1 |r|=1,為完全相關(guān)為完全相關(guān) r =1,為完全正相關(guān),為完全正相關(guān) r =-1,為完全負相關(guān),為完全負相關(guān) 2. r = 0,不存在不存在線性相關(guān)線性相關(guān)關(guān)系關(guān)系 3. -1 r0,為負相關(guān)為負相關(guān) 4. 0=17.94t t (10-2)=2.306(10-2)=2.306,拒絕,拒絕H H0 0,總體人均

20、消,總體人均消費支出與人均可支配收入之間的線性相關(guān)關(guān)系顯著。費支出與人均可支配收入之間的線性相關(guān)關(guān)系顯著。 2. 計算檢驗的統(tǒng)計量計算檢驗的統(tǒng)計量44 t檢驗表檢驗表為了簡化檢驗的過程,有人根據(jù)為了簡化檢驗的過程,有人根據(jù)t統(tǒng)計量和統(tǒng)計量和r的的關(guān)系,編成關(guān)系,編成相關(guān)系數(shù)臨界值表相關(guān)系數(shù)臨界值表,相關(guān)系數(shù),相關(guān)系數(shù)的顯著性檢驗可直接查表進行。的顯著性檢驗可直接查表進行。 檢驗方法:檢驗方法: 對于給定的顯著性水平對于給定的顯著性水平 若若r r (n-2),變量,變量x與與y之間之間有顯著有顯著的線的線性相關(guān)關(guān)系。性相關(guān)關(guān)系。 若若 r r (n-2),變量,變量x與與y之間之間不存在不存在

21、線線性相關(guān)關(guān)系。性相關(guān)關(guān)系。 46 相關(guān)系數(shù)顯著性檢驗的簡化方法相關(guān)系數(shù)顯著性檢驗的簡化方法相關(guān)系數(shù)臨界值表相關(guān)系數(shù)臨界值表 給定的顯著性水平給定的顯著性水平n-2為自由度為自由度48 相關(guān)系數(shù)檢驗表的使用 若若r 大于表上的大于表上的 =0.05相應(yīng)的值,小相應(yīng)的值,小于表上于表上 0.1相應(yīng)的值,稱變量相應(yīng)的值,稱變量x與與y之間之間有有顯著顯著的線性關(guān)系的線性關(guān)系 若若r 大于表上大于表上 =0.1相應(yīng)的值,相應(yīng)的值,稱變量稱變量x與與y之間有之間有十分顯著十分顯著的線性關(guān)系的線性關(guān)系 若若r 小于表上小于表上 =0.05相應(yīng)的值,相應(yīng)的值,稱變稱變量量x與與y之間沒有之間沒有明顯明顯的

22、線性關(guān)系的線性關(guān)系 例例1: r =0.9987 =0.05 (13-2)=0.553 人均消費金額與人均國民收入之間有十分人均消費金額與人均國民收入之間有十分顯著的線性相關(guān)關(guān)系。顯著的線性相關(guān)關(guān)系。例例2: r =0.9878 =0.05 (10-2)=0.632相關(guān)系數(shù)檢驗表的使用 49 H 回歸分析50 回歸分析的概念(Regression)用樣本數(shù)據(jù)確定變量的用樣本數(shù)據(jù)確定變量的;對關(guān)系式的可信程度進行統(tǒng)計檢驗,對關(guān)系式的可信程度進行統(tǒng)計檢驗,找到影響某一特定變量的找到影響某一特定變量的;根據(jù)變量的取值來根據(jù)變量的取值來另一個另一個特定變量的取值,并給出這種預(yù)測或特定變量的取值,并給出

23、這種預(yù)測或控制的精確程度??刂频木_程度。51 回歸模型(數(shù)學(xué)模型)回歸模型(數(shù)學(xué)模型)回答變量之間是什么關(guān)系?回答變量之間是什么關(guān)系?方程中運用方程中運用1 個因變量個因變量(響應(yīng)變量、被解釋變量響應(yīng)變量、被解釋變量)被預(yù)測的變量被預(yù)測的變量1 個或多個自變量個或多個自變量 (解釋變量解釋變量)用于預(yù)測的變量用于預(yù)測的變量3. 主要用于預(yù)測和估計主要用于預(yù)測和估計52 回歸模型的類型回歸模型回歸模型多元回歸多元回歸一元回歸一元回歸線性線性回歸回歸非線性非線性回歸回歸線性線性回歸回歸非線性非線性回歸回歸53 回歸分析的一般步驟回歸分析的一般步驟主要內(nèi)容F1.一元線性回歸一元線性回歸F2. 多元

24、線性回歸多元線性回歸55 56 57 一元線性回歸分析的步驟一元線性回歸分析的步驟58 一元線性回歸一元線性回歸涉及一個自變量的回歸涉及一個自變量的回歸稱為稱為一元回歸一元回歸;因因變量變量y與自變量與自變量x之間為線性關(guān)系之間為線性關(guān)系稱為稱為一元線性回歸一元線性回歸;:被預(yù)被預(yù)測或被解釋的變量,用測或被解釋的變量,用y表示。表示。:預(yù)預(yù)測或解釋因變量的一個或多個變量,測或解釋因變量的一個或多個變量,用用x表示表示 。59 60 一元線性回歸模型一元線性回歸模型描述因變量描述因變量 y 如何依賴于自變量如何依賴于自變量 x 和和誤差項誤差項 的方的方程稱為程稱為回歸模型回歸模型;一元線性一元

25、線性回歸模型:回歸模型: y = b b + + b b1 1 x + + 或或 y = a+ + b x + + y 是是 x 的線性函數(shù)的線性函數(shù)(部分部分)加上誤差項加上誤差項線性部分反映了由于線性部分反映了由于 x 的變化引起的的變化引起的 y 的變化的變化誤差項誤差項 是隨機變量是隨機變量反映了除反映了除 x 和和 y 之間線性關(guān)系之外的隨機因素對之間線性關(guān)系之外的隨機因素對 y 的影響的影響是不能由是不能由 x 和和 y 之間的線性關(guān)系所解釋的變異之間的線性關(guān)系所解釋的變異61 一元線性回歸模型(基本假定) 誤差誤差項項是期望值為是期望值為0的隨機變量,即的隨機變量,即E()=0。

26、對于一個給定的對于一個給定的 x 值,值,y 的期望值為的期望值為 E ( y ) =b b 0+ b b 1 x 或或 E ( y ) = a+ + b x 對對于所有的于所有的 x 值,值,的方差的方差2 都相同都相同誤差項協(xié)方差等于零,即誤差項協(xié)方差等于零,即i和和j相互獨立(相互獨立(ij);誤差誤差項項是服從正態(tài)分布的隨機變量。即是服從正態(tài)分布的隨機變量。即N( 0 ,2 )62 回歸方程(regression equation)如何依賴于 x 的方程稱為回歸方程;回歸方程;一元線性回歸方程的形式如下: E( y ) = b b0+ b b1 x 或或 E ( y ) = a+ +

27、b x 方程表示一條直線,也稱為直線回歸方程;,是當 x=0 時 y 的期望值;表示當 x 每變動一個單位時,y 的平均變動值;63 估計的回歸方程(estimated regression equation)n一元線性回歸中估計的回歸方程為:n用樣本統(tǒng)計量 和 代替回歸方程中的未知參數(shù) 和 ,就得到了估計的回歸方程;估計的回歸方程;0b1b0b1bn總體回歸參數(shù) 和 是未知的,必須利用樣本數(shù)據(jù)去估計;0b1b01 yxbb+其中: 是估計的回歸直線在 y 軸上的截距, 是直線的斜率,它表示對于一個給定的 x 的值, 是 y 的估計值,也表示 x 每變動一個單位時, y 的平均變動值 。0b1

28、b y64 建立回歸方程的關(guān)鍵在于如何確定參數(shù)建立回歸方程的關(guān)鍵在于如何確定參數(shù) 與與 的值;的值; 一般采用最小二乘法來求一般采用最小二乘法來求 與與 的值。的值。0b65 1b建立回歸方程的關(guān)鍵0b1b最小二乘法(OLS:Ordinary Least Square)? min)() (121012niiiniixyyyQbbn使因變量的觀察值與估計值之間的離差平方和達到最小來求得 和 的方法。即n用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實際數(shù)據(jù)的誤差比其他任何直線都小0b1b66 最小二乘估計(圖示) 01 yxbb+67 根據(jù)微積分的極值定理,根據(jù)微積分的極值定理,Q最小的必要條件

29、為:最小的必要條件為:02100 xyQbbb 02101xxyQbbb最小二乘法(OLS:Ordinary Least Square)68 整理后所得方程稱最小二乘法的標準方程:整理后所得方程稱最小二乘法的標準方程:+xny10bb+210 xxxybb解方程得解方程得221xxnyxxynbxyxyn1101bbb最小二乘法(OLS:Ordinary Least Square)69 最小二乘法 ( 和 的計算公式)xyxxnyxyxnniniiiniiniiniii1012121111bbb1b0b0b1b70 例:例:擬合生產(chǎn)費用對產(chǎn)量的一元回歸直線方程擬合生產(chǎn)費用對產(chǎn)量的一元回歸直線方

30、程企業(yè)編號企業(yè)編號產(chǎn)量產(chǎn)量x生產(chǎn)費用生產(chǎn)費用y123456789101112404250556578841001161251301401301501551401501541561701671801751851 6001 7642 5003 0254 2256 0847 05610 00013 45615 62516 90019 60016 90022 50024 02519 60022 50023 71627 22528 90027 88932 40030 62534 2255 2006 3007 7507 7009 75012 01213 86017 00019 37222 50022 75

31、025 900合計合計1 0251 921101 835310 505170 0942x2yxy將表中數(shù)據(jù)代入公式中:將表中數(shù)據(jù)代入公式中:4207.0)1025(1018351219211025170094122221xxnyxxynb15.1241210254207.01219211110 xyxynbbb72 最小二乘法 ( 和 的計算實例)1b0b生產(chǎn)費用對產(chǎn)量的直線回歸方程為生產(chǎn)費用對產(chǎn)量的直線回歸方程為:xy4207. 015.124+A其中其中0124.15(千克)的含義為生產(chǎn)費用的(千克)的含義為生產(chǎn)費用的起點值;起點值; 10.4027表示產(chǎn)品產(chǎn)量每增加表示產(chǎn)品產(chǎn)量每增加1千

32、件,千件,生產(chǎn)費用平均增加生產(chǎn)費用平均增加0.4027千元。千元。1b0b最小二乘法 ( 和 的計算實例)73 74 一元回歸方程統(tǒng)計檢驗的主要內(nèi)容75 76 總離差平方和的分解因變量 y 的取值是不同的,y 取值的這種波動稱為變差變差。變差來源于兩個方面:由于自變量 x 的取值不同造成的;除 x 以外的其他因素(如x對y的非線性影響、測量誤差等)的影響。對一個具體的觀測值來說,變差的大小可以通過該實際觀測值與其均值之差 來表示。77 yy離差平方和的分解(圖示)yxy10bb+yyyyyy ),(iiyx離差分解圖離差分解圖78 離差平方和的分解 (三個平方和的關(guān)系)2. 兩端平方后求和有兩

33、端平方后求和有 yyyyyy+SST = SSR + SSE或或S總總=S回回+S殘殘+niyyniyiyniyiy121212總變差平方和總變差平方和(SST)回歸平方和回歸平方和(SSR)殘差平方和殘差平方和(SSE)79 判定系數(shù)R2 (coefficient of determination)80 niyiyniyyniyiyniyiySSTSSRR1212112122?判定系數(shù)判定系數(shù)R2 (coefficient of determination)81 82 線性關(guān)系的檢驗檢驗檢驗所有自變量所有自變量與因變量之間線性關(guān)系是否顯著;與因變量之間線性關(guān)系是否顯著;將均方回歸將均方回歸

34、(MSR)同均方殘差同均方殘差 (MSE)加以比較,用加以比較,用F檢驗來分析二者之間的差別是否顯著;檢驗來分析二者之間的差別是否顯著;均方回歸:回歸平方和均方回歸:回歸平方和SSR除以相應(yīng)的自由度除以相應(yīng)的自由度(自變量的自變量的個數(shù)個數(shù)K) ;均方殘差:殘差平方和均方殘差:殘差平方和SSE除以相應(yīng)的自由度除以相應(yīng)的自由度(n-k-1)。83 線性關(guān)系的檢驗 (檢驗的步驟) 提出提出假設(shè)假設(shè)H0:b b1=0 所有回歸系數(shù)與零無顯著差異,所有回歸系數(shù)與零無顯著差異,y與全體與全體x的的線性關(guān)系不顯著。線性關(guān)系不顯著。1 (1,2)2SSRMSRFFnSSE nMSE84 線性關(guān)系的檢驗 (檢

35、驗的步驟) 線性關(guān)系的簡單斷定線性關(guān)系的簡單斷定F與與R存在以下關(guān)系:存在以下關(guān)系:221)2(RRnFn為樣本個數(shù)為樣本個數(shù)R為判斷系數(shù)為判斷系數(shù)85 確定顯著性水平確定顯著性水平 ,并根據(jù)分子自由,并根據(jù)分子自由度度1和分母自由度和分母自由度n-2找出臨界值找出臨界值F 作出決策:若作出決策:若FF ,拒絕,拒絕H0;若若FF0.05(1,5)建立的一元線性回歸模型成立建立的一元線性回歸模型成立99 (5)計算預(yù)測值如果不考慮對觀測區(qū)間的控制,應(yīng)用預(yù)測模型如果不考慮對觀測區(qū)間的控制,應(yīng)用預(yù)測模型 預(yù)測預(yù)測2010年和年和2012年的銷售額年的銷售額2010年,年,xi=5;2012年,年,

36、 xi=72010年的銷售額為年的銷售額為7600.012012年的銷售額為年的銷售額為8685.73100 B 多元線性回歸101 多元回歸模型 (multiple regression model)一個因變量與的回歸;描述因變量 y 如何依賴于自變量 x1 , x2 , xk 和誤差項 的方程,稱為多元回歸模型;涉及 k 個自變量的多元回歸模型可表示為b b0 0 ,b b1 1,b b2 2 ,b bk k是參數(shù)是參數(shù) 是被稱為誤差項的隨機變量是被稱為誤差項的隨機變量 y y 是是x x1,1,,x x2 2 , ,x xk k 的線性函數(shù)加上誤差項的線性函數(shù)加上誤差項 是是y y不能被

37、不能被k k個自變量的線性關(guān)系所解釋的變異性個自變量的線性關(guān)系所解釋的變異性102 多元回歸模型(基本假定) 誤差項是一個期望值為0的隨機變量,即E()=0;對于自變量x1,x2,xk的所有值,的方差2都相同;誤差項是一個服從正態(tài)分布的隨機變量,即N(0, 2),且相互獨立;103 多元回歸方程 (multiple regression equation)描述因變量 y 的平均值或期望值如何依賴于自變量 x1, x2 ,xk的方程多元線性回歸方程的形式為 E( y ) = b0+ b1 x1 + b2 x2 + bk xk b b1 1,b b2 2,b bk k稱為偏回歸系數(shù),系數(shù)求解同一稱

38、為偏回歸系數(shù),系數(shù)求解同一元回歸(最小二乘法)元回歸(最小二乘法) b bk k 表示假定其他變量不變,當表示假定其他變量不變,當 x xk k 每變動一個每變動一個單位時,單位時,y y 的平均變動值的平均變動值104 105 調(diào)整的多重判定系數(shù)(adjusted multiple coefficient of determination) 用樣本容量n和自變量的個數(shù)k去修正R2得到 計算公式為避免增加自變量而高估 R2意義與 R2類似數(shù)值小于R2221111anRRn k 106 107 線性關(guān)系檢驗提出假設(shè)H0:b1b2bk=0 線性關(guān)系不顯著H1:b1,b2,bk至少有一個不等于0n計

39、算檢驗統(tǒng)計量Fn確定顯著性水平和分子自由度k、分母自由度n-k-1找出臨界值F n作出決策:若FF ,拒絕H0( ,1)1SSR kMSRFF k nkSSE nkMSE 108 109 回歸系數(shù)的檢驗(步驟)提出假設(shè)H0: bi = 0 (自變量 xi 與 因變量 y 沒有線性關(guān)系) H1: bi 0 (自變量 xi 與 因變量 y有線性關(guān)系) 計算檢驗的統(tǒng)計量 tn 確定顯著性水平,并進行決策 tt,拒絕H0; t F,F檢驗通過。35.18) 1310(4593. 133884.1311/2)(1/2)(nikniyiynikyiyFv F檢驗檢驗119 v F檢驗相關(guān)系數(shù)表檢驗相關(guān)系數(shù)表 (3)確定預(yù)測值。根據(jù)所得的回歸分析模型,若2009年消費人口為570萬,蔬菜年平均價格為14.5角,副食年人均消費量為52.5千克,則2009年的蔬菜消費量的預(yù)測值為:v 利用回歸模型預(yù)測利用回歸模型預(yù)測?8523.125 .522726. 05 .14917. 0571829. 0412. 12009+y可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論