




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第13章相關(guān)與回歸
(定距變量與定距變量)13.1
相關(guān)關(guān)系的度量13.2一元線性回歸13.3利用回歸方程進(jìn)行估計和預(yù)測13.1相關(guān)關(guān)系的度量13.1.1變量間的關(guān)系13.1.2相關(guān)關(guān)系的描述與測度13.1.3相關(guān)系數(shù)的顯著性檢驗13.1.1變量間的關(guān)系一、函數(shù)關(guān)系設(shè)有兩個變量x和y,變量y隨變量x一起變化,并完全依賴于x
,當(dāng)變量x取某個數(shù)值時,
y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為y=f(x),其中x稱為自變量,y稱為因變量。是一一對應(yīng)的確定關(guān)系,由一個變量可以完全的確定另一個變量。各觀測點落在一條線上。
xy函數(shù)關(guān)系
(幾個例子)
函數(shù)關(guān)系的例子某種商品的銷售額y與銷售量x之間的關(guān)系可表示為y=px(p為常數(shù):單價);圓的面積S與半徑之間的關(guān)系可表示為S=
R2
(
=3.14)。
二、相關(guān)關(guān)系
(correlation)變量間存在著關(guān)系,但這種關(guān)系是非確定性的。當(dāng)變量
x取某個值時,變量y的取值可能有幾個。各觀測點分布在直線周圍。
xy(一)什么叫相關(guān)關(guān)系?1、任何一個現(xiàn)象的產(chǎn)生,究其原因都是多方面的。2、一個變量的取值不能由另一個變量唯一確定。3、當(dāng)我們只研究其中某一個原因,而對其他因素未予控制時,變量間的關(guān)系就表現(xiàn)為非確定的相關(guān)關(guān)系而非確定的函數(shù)關(guān)系。相關(guān)關(guān)系
(幾個例子)
相關(guān)關(guān)系的例子子女身高y與父親身高x之間的關(guān)系;收入水平y(tǒng)與受教育程度x之間的關(guān)系;商品的消費量y與居民收入x之間的關(guān)系;商品銷售額y與廣告費支出x之間的關(guān)系。(二)相關(guān)研究的對象相關(guān)關(guān)系(correlation)往往是伴隨、共存的關(guān)系,兩個變量的地位是平等的。當(dāng)然也不排斥以一方為主的情況,但作為相關(guān)關(guān)系,一般不再追究孰因孰果。下列幾種情況都可以作為相關(guān)研究的對象:
w(x,y間的關(guān)系,是由于共同的因素w所造成的,)xy例:x—女性消費意識,y—女性離婚,w—女性經(jīng)濟(jì)地位例:x—家長教育期望,y—子女的教育期望13.1.2相關(guān)關(guān)系的描述與測度
一、散布圖(散點圖)
(scatterdiagram)
不相關(guān)
負(fù)線性相關(guān)
正線性相關(guān)
非線性相關(guān)
完全負(fù)線性相關(guān)完全正線性相關(guān)
二、相關(guān)系數(shù)
(correlationcoefficient)對變量之間關(guān)系密切程度的度量。對兩個變量之間線性相關(guān)程度的度量稱為線性相關(guān)系數(shù),簡稱相關(guān)系數(shù)。若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的,稱為總體相關(guān)系數(shù),記為。若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關(guān)系數(shù),記為r。相關(guān)系數(shù)的計算(一)協(xié)方差(covariance)
協(xié)方差表示x和y兩變量觀測值相對其各自均值所造成的共同平均偏差。缺點:協(xié)方差的數(shù)值與單位有關(guān),因此不同單位的變量無法進(jìn)行比較。(二)相關(guān)系數(shù)
相關(guān)系數(shù)的計算公式可見,相關(guān)系數(shù)是標(biāo)準(zhǔn)化了的協(xié)方差。或簡化為:例見page363【例5】相關(guān)系數(shù)
(取值及其意義)
r
的取值范圍是[-1,1]
|r|=1,為完全相關(guān)r=1,為完全正相關(guān)r=-1,為完全負(fù)正相關(guān)
r=0,不存在線性相關(guān)關(guān)系
-1
r<0,為負(fù)相關(guān)
0<r
1,為正相關(guān)
|r|越趨于1表示關(guān)系越密切;|r|越趨于0表示關(guān)系越不密切相關(guān)系數(shù)
(取值及其意義)-1.0+1.00-0.5+0.5完全負(fù)相關(guān)無線性相關(guān)完全正相關(guān)r相關(guān)系數(shù)只是用來表示變量間相關(guān)程度的指標(biāo),而不是相關(guān)數(shù)值的等單位度量。例如:不能說相關(guān)系數(shù)0.6是0.3的2倍,只能說相關(guān)系數(shù)0.6的兩個變量的關(guān)系比相關(guān)系數(shù)0.3的兩個變量關(guān)系更強(qiáng)。三、相關(guān)系數(shù)的顯著性檢驗相關(guān)系數(shù)的顯著性檢驗
(檢驗的步驟)1. 檢驗兩個變量之間是否存在線性相關(guān)關(guān)系采用
t檢驗檢驗的步驟為提出假設(shè):H0:
;H1:
0
計算檢驗的統(tǒng)計量:
確定顯著性水平,并作出決策若t>t
,拒絕H0
若t<t
,不能拒絕H0相關(guān)系數(shù)的顯著性檢驗
(簡化方法,現(xiàn)在常用的)計算r值r與相比較(k=n-2),見附表8拒絕域注:相關(guān)系數(shù)受變量取值范圍的影響很大。因此在給出相關(guān)系數(shù)的同時,還應(yīng)給出變量的取值范圍(p360圖12-15,圖12-16)。例見page363【例5】13.2一元線性回歸13.2.1一元線性回歸13.2.2回歸直線方程的建立與最小二乘法13.2.3回歸直線的擬合優(yōu)度13.2.4顯著性檢驗“回歸”的來源“回歸”一詞,最早來源于生物學(xué)。英國生物統(tǒng)計學(xué)家高爾頓,根據(jù)1078對父、子身高的散布圖發(fā)現(xiàn),雖然身材高的父母比身材矮的父母傾向于有高的孩子,但平均而言,身材高大的其子要矮些,而身材矮小的其子要高些?;蛘哒f,無論高個子還是矮個子的后代,都有向均值方向拉回的傾向。這種遺傳上身高趨于一般、“退化到平庸”的現(xiàn)象,高爾頓稱之為回歸?;貧w分析與相關(guān)分析的區(qū)別1、相關(guān)關(guān)系往往是伴隨、共存的關(guān)系。一般不再追究孰因孰果;回歸分析中,變量y稱為因變量,處在被解釋的地位,x稱為自變量,用于預(yù)測因變量的變化。2、相關(guān)分析中所涉及的變量x和y都是隨機(jī)變量;回歸分析中,因變量y是隨機(jī)變量,自變量x
可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量;3、相關(guān)分析主要是描述兩個變量之間線性關(guān)系的密切程度;回歸分析不僅可以揭示變量x對變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測和控制。4.相關(guān)關(guān)系是因果關(guān)系的必要非充分條件。若變量x和y之間相關(guān),要得出因果關(guān)系,必須同時滿足3個條件:①x和y不對稱;②x和y有先后;③x和y的變化不受第三個變量的影響,即不存在偽相關(guān)。選擇回歸分析?還是選擇相關(guān)分析?☆到底該用回歸還是相關(guān),在于你的研究目的是什么?!钊魞H僅為了了解兩變量之間呈直線關(guān)系的密切程度和方向,則選用線性相關(guān)分析;若為了建立由自變量推算因變量的直線回歸方程,則選用直線回歸分析。☆從資料所具備的條件來說,作相關(guān)分析時要求兩變量都是隨機(jī)變量;作回歸分析時要求因變量是隨機(jī)變量,自變量可以是隨機(jī)的,也可以是一般變量。一個自變量,一因一果多個自變量多因一果一般來說,統(tǒng)計可以根據(jù)目前所擁有的信息(數(shù)據(jù))來建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系。這種關(guān)系一般稱為模型(model)?!镌诙鄶?shù)情況下,多個變量的關(guān)系又可以分解為若干個二變量之間的關(guān)系,即多變量之間的關(guān)系可以通過若干二變量間的關(guān)系來描述?!镫m然在自然界和社會生活中,曲線相關(guān)現(xiàn)象遠(yuǎn)比直線相關(guān)多,但由于數(shù)學(xué)手段的局限,社會研究中多以闡述線性相關(guān)為主。文化程度平等就業(yè)機(jī)會女性就業(yè)女性社會地位13.2.1一元線性回歸一元線性回歸方程涉及一個自變量(也叫解釋變量或協(xié)變量)。因變量(也叫響應(yīng)變量)y與自變量x之間為線性關(guān)系。被預(yù)測或被解釋的變量稱為因變量(dependentvariable),用y表示。用來預(yù)測或用來解釋因變量的變量稱為自變量(independentvariable),用x表示。因變量與自變量之間的關(guān)系用一個線性方程來表示。
1、自變量取某一值時,因變量對應(yīng)于一概率分布,又稱條件分布。如果對于所有的x,條件分布都相同,說明x與y是沒有關(guān)系的,反之x與y是有關(guān)系。2、分布的比較是復(fù)雜的,因此簡化為在x不同取值下,y數(shù)字特征的比較。其中最簡單的就是均值的比較。一元線性回歸方程
(regressionequation)描述y的平均值如何依賴于x的方程稱為回歸方程。一元線性回歸方程的形式如下
E(y)=+
x方程的圖示是一條直線,也稱為直線回歸方程。
是回歸直線在y軸上的截距,稱為回歸常數(shù)。
是直線的斜率,稱為回歸系數(shù),表示當(dāng)x每變動一個單位時,y的平均變動值。誤差項e是隨機(jī)變量:
e反映了除x和y之間的線性關(guān)系之外的隨機(jī)因素對y的影,是不能由x和y之間的線性關(guān)系所解釋的變異性。
估計的回歸方程
(estimatedregressionequation)一元線性回歸中估計的回歸方程為用樣本統(tǒng)計量和代替回歸方程中的未知參數(shù)和,就得到了估計的回歸方程總體回歸參數(shù)和
是未知的,必須利用樣本數(shù)據(jù)去估計其中:是估計的回歸直線在y
軸上的截距,是直線的斜率,它表示對于一個給定的x
的值,是y
的估計值,也表示x
每變動一個單位時,y的平均變動值
a,b的值如何確定?13.2.2回歸直線方程的建立與最小二乘法最小二乘法☆1801年1月,意大利天文學(xué)家皮亞齊發(fā)現(xiàn)了第一顆小行星谷神星?!罱?jīng)過40天的跟蹤觀測后,由于谷神星運行至太陽背后,使得皮亞齊失去了谷神星的位置。隨后全世界的科學(xué)家利用皮亞齊的觀測數(shù)據(jù)開始尋找谷神星,都沒有結(jié)果。谷神星☆1801年9月,當(dāng)時24歲的高斯也計算了谷神星的軌道,這幫助奧地利天文學(xué)家奧爾伯斯根據(jù)高斯計算出來的軌道重新發(fā)現(xiàn)了谷神星?!罡咚故褂玫淖钚《朔ǖ姆椒òl(fā)表于1809年他的著作《天體運動論》中。使因變量的觀察值與估計值之間的離差平方和達(dá)到最小來求得a和b的方法。即用最小二乘法擬合的直線來代表x與y之間的關(guān)系與實際數(shù)據(jù)的誤差比其他任何直線都小。最小二乘估計
(圖示)xy(xn,yn)(x1,y1)
(x2,y2)(xi,yi)}ei=yi-yi^最小二乘法
(a和b的計算公式)
根據(jù)最小二乘法的要求,可得求解a和b的公式如下例見page345【例1】13.2.3回歸直線的擬合優(yōu)度擬合優(yōu)度:指回歸直線對觀測值的擬合程度。若觀測點離回歸直線近,則擬合程度好;反之則擬合程度差。變差
因變量
y的取值是不同的,y取值的這種波動稱為變差。變差來源于兩個方面由于自變量x的取值不同造成的。除x以外的其他因素(如x對y的非線性影響、測量誤差等)的影響。變差的分解
(圖示)xyy{}}
TSSRSSRSSRE1E2E1-E2離差平方和的分解
(三個平方和的關(guān)系)TSS=RSS+RSSR總平方和(TSS){回歸平方和(RSSR)剩余平方和(RSS){{離差平方和的分解
(三個平方和的意義)總平方和(TSS)反映不知道x與y有關(guān)系,估計y的總誤差E1剩余平方和(RSS)反映知道x與y有關(guān)系,估計y的總誤差E2,是通過回歸直線進(jìn)行估計的誤差,3.回歸平方和(RSSR)反映通過回歸直線被解釋掉的誤差,也稱為可解釋的平方和判定系數(shù)r2
(coefficientofdetermination)回歸平方和占總離差平方和的比例反映回歸直線的擬合程度取值范圍在[0,1]之間
R2
1,說明回歸方程擬合的越好;R2
0,說明回歸方程擬合的越差判定系數(shù)等于相關(guān)系數(shù)的平方,r2判定系數(shù)r2
(coefficientofdetermination)6.判定系數(shù)的意義它表示當(dāng)知道x和y有線性的相關(guān)關(guān)系后,可以改善的預(yù)測程度,或可以用x解釋掉y的誤差.例如:r2=0.75,表示當(dāng)知道x和y有線性關(guān)系后,可以改善預(yù)測程度的75%或可以用x解釋掉y的75%的誤差.13.2.4回歸方程的顯著性檢驗線性回歸模型的假定條件
(對總體線性相關(guān)、同方差和獨立的假定)1、線性要求x和y之間是線性相關(guān)。(見p348【例2】)2、同方差由于x和y之間存在相關(guān)關(guān)系,對于x的每一個取值x=xi,y的取值yi是隨機(jī)變量,或稱y的子總體。要求y的所有子總體yi,其方差都相等。(見p349【例3】)3、獨立要求yi是獨立的,即y1的數(shù)值不影響y2的數(shù)值,各y值之間沒有關(guān)系?;貧w方程的檢驗
(檢驗的步驟)提出假設(shè)H0:
=0H1:
02.計算檢驗統(tǒng)計量F確定顯著性水平
,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F
作出決策:若F>F
,拒絕H0;若F<F
,不拒絕H0見page353例見p354【例4】回歸系數(shù)與相關(guān)系數(shù)相關(guān)系數(shù)與回歸系數(shù)的檢驗:如果r通過了檢驗,也必然會導(dǎo)致
通過檢驗(p364)。2.相關(guān)系數(shù)與回歸系數(shù)的意義不同
r表示真實數(shù)據(jù)與回歸直線靠攏的程度;
表示回歸直線的傾斜程度,表示自變量對因變量的影響的大小和方向,且無法反應(yīng)真實數(shù)據(jù)與回歸直線的關(guān)系,反應(yīng)的是y的均值的變動情況。(p366,圖12-18和圖12-19)3.相關(guān)系數(shù)是雙向的,回歸系數(shù)是單向的。(p366)4.相關(guān)系數(shù)的取值范圍是【-1,+1】,回歸系數(shù)的大小不限于【-1,+1】,它的大小取決于變量的單位。如果希望b~【-1,+1】,須使其標(biāo)準(zhǔn)化。(p367)婦女教育年限x(年)家務(wù)勞動時間y(小時)ABCDEFGHI223344468544311000如果教育年限單位由“年”改為“月”或“天”,則b值會相當(dāng)小。練習(xí)判斷:1、協(xié)方差可以用來度量線性相關(guān)強(qiáng)度,并且是一個標(biāo)準(zhǔn)化的度量。2、x和y之間高度相關(guān)證明x引起了y。3、如果知道了r的值接近0,可以估計回歸系數(shù)b的值也接近0。13.3利用回歸方程進(jìn)行估計和預(yù)測13.3.1點估計13.3.2區(qū)間估計利用回歸方程進(jìn)行估計和預(yù)測根據(jù)自變量x
的取值估計或預(yù)測因變量y的取值估計或預(yù)測的類型點估計區(qū)間估計點估計
點估計指的是利用估計的回歸方程,對于自變量x的一個給定值x0
,求出因變量y
的一個個別值
由于真實的,其中誤差項是未知的,而回歸方程中,,因此其作為y的點估計值。區(qū)間估計點估計不能給出估計的精度,點估計值與實際值之間是有誤差的,因此需要進(jìn)行區(qū)間估計。區(qū)間估計指的是對于自變量
x的一個給定值x0,根據(jù)回歸方程得到因變量y的一個估計區(qū)間。預(yù)測區(qū)間估計假定條件:
其中,預(yù)測隨機(jī)變量y的標(biāo)準(zhǔn)差。y0在1-
置信水平下的預(yù)測區(qū)間為
其中,例見page369【例7】總結(jié)1、比較相關(guān)與回歸。(1)從變量關(guān)系類型來看,相關(guān)關(guān)系往往是伴隨、共存的關(guān)系。X和y的地位是平等的,一般不再追究孰因孰果;回歸分析中,變量y為因變量,處在被解釋的地位,x為自變量,用于預(yù)測因變量的變化。(2)從變量類型來看,相關(guān)分析中所涉及的變量x和y都是隨機(jī)變量(例如研究人的身高與體重的關(guān)系);回歸分析中,因變量y是隨機(jī)變量,自變量x
可以是隨機(jī)變量,也可以是非隨機(jī)的確定變量(即可以事先指定變量的取值,如收入的多少);(3)從功能上來看,相關(guān)分析主要是描述兩個變量之間線性關(guān)系的密切程度;回歸分析是描述兩個變量關(guān)系的具體形式,不僅可以解釋變量x對變量y的影響大小,還可以由回歸方程進(jìn)行預(yù)測和控制。控制可以看成是預(yù)測的反問題,即要求y落在一定范圍內(nèi),應(yīng)如何控制x?(不講,社會研究很少涉及。)2、比較相關(guān)系數(shù)、判定系數(shù)和回歸系數(shù)。(1)相關(guān)系數(shù)☆是對變量之間關(guān)系密切程度的度量。☆表示真實數(shù)據(jù)與回歸直線靠攏的程度?!钊≈捣秶?1,+1】(2)判定系數(shù)☆數(shù)量上等于相關(guān)系數(shù)的平方?!钊≈捣秶?,1】,R2
1,說明回歸方程擬合的越好;R20,說明回歸方程擬合的越差?!钆卸ㄏ禂?shù)的意義:它表示當(dāng)知道x和y有線性的相關(guān)關(guān)系后,可以改善的預(yù)測程度,或可以用x解釋掉y的誤差。(3)回歸系數(shù)☆一元線性回歸方程
E(y)=+
x,其中
是直線的斜率,稱為回歸系數(shù)?!钏硎净貧w直線的傾斜程度,表示自變量對因變量的影響的大小和方向。它無法反應(yīng)真實數(shù)據(jù)與回歸直線的關(guān)系,反應(yīng)的是當(dāng)x每變動一個單位時,y
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度工地施工安全培訓(xùn)責(zé)任免除協(xié)議
- 2025年度城市綠化景觀土地使用權(quán)轉(zhuǎn)讓與維護(hù)合同
- 2025年度大學(xué)實習(xí)生實習(xí)期間權(quán)益保護(hù)與職業(yè)規(guī)劃合同
- 2025年度婚嫁婚前財產(chǎn)繼承與分配協(xié)議
- 健身房裝修合同標(biāo)準(zhǔn)
- 2025年度礦山地質(zhì)災(zāi)害防治投資合作協(xié)議
- 2025年度宅基地使用權(quán)轉(zhuǎn)讓與農(nóng)村旅游基礎(chǔ)設(shè)施建設(shè)合同
- 2025年度山林林業(yè)生態(tài)補(bǔ)償租賃合同
- 2025年度家具加工廠轉(zhuǎn)讓協(xié)議
- 2025年湖北生態(tài)工程職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案1套
- 2025年官方策劃完整個人離婚協(xié)議書模板
- 2025年度跨境電商平臺股權(quán)合同轉(zhuǎn)讓協(xié)議
- 2025年益陽醫(yī)學(xué)高等??茖W(xué)校高職單招數(shù)學(xué)歷年(2016-2024)頻考點試題含答案解析
- 餐飲業(yè)的供應(yīng)鏈管理與優(yōu)化
- 2025年紹興市上虞大眾勞動事務(wù)代理(所)有限公司招聘筆試參考題庫附帶答案詳解
- 酒店會議接待服務(wù)方案
- 心律失常介入并發(fā)癥及預(yù)防
- 《分娩機(jī)轉(zhuǎn)》課件
- 口腔醫(yī)院市場營銷新入職員工培訓(xùn)
- 軍隊文職備考(面試)近年考試真題(參考300題)
- 金融業(yè)稅收優(yōu)惠政策指引
評論
0/150
提交評論