spss-07相關(guān)與回歸分析-課件_第1頁(yè)
spss-07相關(guān)與回歸分析-課件_第2頁(yè)
spss-07相關(guān)與回歸分析-課件_第3頁(yè)
spss-07相關(guān)與回歸分析-課件_第4頁(yè)
spss-07相關(guān)與回歸分析-課件_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、統(tǒng)計(jì)學(xué)從數(shù)據(jù)到結(jié)論第七章 相關(guān)和回歸分析7.1 問(wèn)題的提出對(duì)于現(xiàn)實(shí)世界,不僅要知其然,而且要知其所以然。顧客對(duì)商品和服務(wù)的反映對(duì)于企業(yè)是至關(guān)重要的,但是僅僅有滿意顧客的比例是不夠的;商家希望了解什么是影響顧客觀點(diǎn)的因素,及這些因素如何起作用。類似地,醫(yī)療衛(wèi)生部門(mén)不能僅僅知道某流行病的發(fā)病率,而且想知道什么變量影響發(fā)病率,以及如何影響。7.1 問(wèn)題的提出發(fā)現(xiàn)變量之間的統(tǒng)計(jì)關(guān)系,并且用此規(guī)律來(lái)幫助我們進(jìn)行決策才是統(tǒng)計(jì)實(shí)踐的最終目的。一般來(lái)說(shuō),統(tǒng)計(jì)可以根據(jù)目前所擁有的信息(數(shù)據(jù))來(lái)建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系。這種關(guān)系一般稱為模型(model)。7.1 問(wèn)題的提出假如用Y表示感興趣的變量

2、,用X表示其他可能與Y有關(guān)的變量(X也可能是若干變量組成的向量)。則所需要的是建立一個(gè)函數(shù)關(guān)系Y=f(X)。這里Y稱為因變量或響應(yīng)變量(dependent variable, response variable),而X稱為自變量,也稱為解釋變量或協(xié)變量(independent variable, explanatory variable, covariate)。建立這種關(guān)系的過(guò)程就叫做回歸(regression)。7.1 問(wèn)題的提出一旦建立了回歸模型,除了對(duì)變量的關(guān)系有了進(jìn)一步的定量理解之外,還可以利用該模型(函數(shù))通過(guò)自變量對(duì)因變量做預(yù)測(cè)(prediction)。這里所說(shuō)的預(yù)測(cè),是用已知的自

3、變量的值通過(guò)模型對(duì)未知的因變量值進(jìn)行估計(jì);它并不一定涉及時(shí)間先后。先看幾個(gè)后面還要討論的數(shù)值例子。7.1 問(wèn)題的提出例7.1 有50個(gè)從初中升到高中的學(xué)生。為了比較初三的成績(jī)是否和高中的成績(jī)相關(guān),得到了他們?cè)诔跞透咭坏母骺破骄煽?jī)(數(shù)據(jù)在highschool.txt)。這兩個(gè)成績(jī)的散點(diǎn)圖展示在圖7.1中。有個(gè)上升趨勢(shì);即初三時(shí)成績(jī)相對(duì)較高的學(xué)生,在高一時(shí)的成績(jī)也較高。但對(duì)于具體個(gè)人來(lái)說(shuō),大約有一半的學(xué)生的高一平均成績(jī)比初三時(shí)下降,而另一半沒(méi)有變化或有進(jìn)步7.1 問(wèn)題的提出目前的問(wèn)題是怎么判斷這兩個(gè)變量是否相關(guān)、如何相關(guān)及如何度量相關(guān)?能否以初三成績(jī)?yōu)樽宰兞浚咭怀煽?jī)?yōu)橐蜃兞縼?lái)建立一個(gè)回歸模型

4、以描述這樣的關(guān)系,或用于預(yù)測(cè)。7.1 問(wèn)題的提出該數(shù)據(jù)中,除了初三和高一的成績(jī)之外,還有一個(gè)定性變量(沒(méi)有出現(xiàn)在上面的散點(diǎn)圖中)。它是學(xué)生在高一時(shí)的家庭收入狀況;它有三個(gè)水平:低、中、高,分別在數(shù)據(jù)中用1、2、3表示。為研究家庭收入情況對(duì)學(xué)生成績(jī)變化的影響,下面點(diǎn)出兩個(gè)盒形圖,左邊一個(gè)是不同收入群體的高一成績(jī)的盒形圖,右邊一個(gè)是不同收入群體的高一和初三成績(jī)之差的盒形圖??梢钥闯鍪杖敫叩蛯?duì)高一成績(jī)稍有影響,但不如收入對(duì)成績(jī)的變化(高一和初三成績(jī)之差)的影響那么明顯。7.1 問(wèn)題的提出到底學(xué)生在高一的家庭收入對(duì)成績(jī)有影響嗎?是什么樣的影響?是否可以取初三成績(jī)(這是定量變量)或(和)家庭收入(定性變

5、量)為自變量,而取高一成績(jī)?yōu)橐蜃兞?,?lái)建立一個(gè)描述這些變量之間關(guān)系的回歸模型呢?7.1 問(wèn)題的提出例7.2 這是200個(gè)不同年齡和性別的人對(duì)某項(xiàng)服務(wù)產(chǎn)品的認(rèn)可的數(shù)據(jù)(logi.txt)。這里年齡是連續(xù)變量,性別是有男和女(分別用1和0表示)兩個(gè)水平的定性變量,而變量觀點(diǎn)則為包含認(rèn)可(用1表示)和不認(rèn)可(用0表示)兩個(gè)水平的定性變量(見(jiàn)下頁(yè)數(shù)據(jù))。想要知道的是年齡和性別對(duì)觀點(diǎn)有沒(méi)有影響,有什么樣的影響,以及能否用統(tǒng)計(jì)模型表示出這個(gè)關(guān)系。年齡和觀點(diǎn)的散點(diǎn)圖(左)和性別與觀點(diǎn)的條形圖; 7.2 定量變量的相關(guān)如果兩個(gè)定量變量沒(méi)有關(guān)系,就談不上建立模型或進(jìn)行回歸。但怎樣才能發(fā)現(xiàn)兩個(gè)變量有沒(méi)有關(guān)系呢?最

6、簡(jiǎn)單的直觀辦法就是畫(huà)出它們的散點(diǎn)圖。下面是四組數(shù)據(jù)的散點(diǎn)圖;每一組數(shù)據(jù)表示了兩個(gè)變量x和y的樣本。不相關(guān) 正線性相關(guān) 負(fù)線性相關(guān) 相關(guān)但非線性相關(guān) 7.2 定量變量的相關(guān)但如何在數(shù)量上描述相關(guān)呢?下面引進(jìn)幾種對(duì)相關(guān)程度的度量。Pearson相關(guān)系數(shù)(Pearsons correlation coefficient)又叫相關(guān)系數(shù)或線性相關(guān)系數(shù)。它一般用字母r表示。它是由兩個(gè)變量的樣本取值得到,這是一個(gè)描述線性相關(guān)強(qiáng)度的量,取值于-1和1之間。當(dāng)兩個(gè)變量有很強(qiáng)的線性相關(guān)時(shí),相關(guān)系數(shù)接近于1(正相關(guān))或-1(負(fù)相關(guān)),而當(dāng)兩個(gè)變量不那么線性相關(guān)時(shí),相關(guān)系數(shù)就接近0。7.2 定量變量的相關(guān)Kendal

7、l t 相關(guān)系數(shù)(Kendalls t)這里的度量原理是把所有的樣本點(diǎn)配對(duì)(如果每一個(gè)點(diǎn)由x和y組成的坐標(biāo)(x,y)代表,一對(duì)點(diǎn)就是諸如(x1,y1)和(x2,y2)的點(diǎn)對(duì)),然后看每一對(duì)中的x和y的觀測(cè)值是否同時(shí)增加(或減少)。比如由點(diǎn)對(duì)(x1,y1)和(x2,y2),可以算出乘積(x2-x1)(y2-y1)是否大于0;如果大于0,則說(shuō)明x和y同時(shí)增長(zhǎng)或同時(shí)下降,稱這兩點(diǎn)協(xié)同(concordant);否則就是不協(xié)同。如果樣本中協(xié)同的點(diǎn)數(shù)目多,兩個(gè)變量就更加相關(guān)一些;如果樣本中不協(xié)同(discordant)的點(diǎn)數(shù)目多,兩個(gè)變量就不很相關(guān)。7.2 定量變量的相關(guān)Spearman 秩相關(guān)系數(shù)(Sp

8、earman rank correlation coefficient 或Spearmans r)它和Pearson相關(guān)系數(shù)定義有些類似,只不過(guò)在定義中把點(diǎn)的坐標(biāo)換成各自樣本的秩(即樣本點(diǎn)大小的“座次”)。Spearman相關(guān)系數(shù)也是取值在-1和1之間,也有類似的解釋。通過(guò)它也可以進(jìn)行不依賴于總體分布的非參數(shù)檢驗(yàn)。7.2 定量變量的相關(guān)人們可能會(huì)問(wèn),上面的三種對(duì)相關(guān)的度量都是在其值接近1或-1時(shí)相關(guān),而接近于0時(shí)不相關(guān)。到底如何才能夠稱為“接近”呢?這很難一概而論。但在計(jì)算機(jī)輸出中都有和這些相關(guān)度量相應(yīng)的檢驗(yàn)和p-值;因此可以根據(jù)這些結(jié)果來(lái)判斷是否相關(guān)(見(jiàn)下面例7.1的繼續(xù))。7.2 定量變量

9、的相關(guān)例7.1(繼續(xù))得到初三和高一成績(jī)的Pearson相關(guān)系數(shù),Kendall t 相關(guān)系數(shù)和Spearman 秩相關(guān)系數(shù)分別為0.795, 0.595和0.758。這三個(gè)統(tǒng)計(jì)量相關(guān)的檢驗(yàn)(零假設(shè)均為不相關(guān))全部顯著,p-值都是0.000。注意這種0.000的表示并不表示這些p-值恰好等于零,只是小數(shù)點(diǎn)前三位是0而已。7.3 定量變量的線性回歸分析對(duì)例7.1中的兩個(gè)變量的數(shù)據(jù)進(jìn)行線性回歸,就是要找到一條直線來(lái)適當(dāng)?shù)卮韴D1中的那些點(diǎn)的趨勢(shì)。首先需要確定選擇這條直線的標(biāo)準(zhǔn)。這里介紹最小二乘回歸(least squares regression)。古漢語(yǔ)“二乘”是平方的意思。這就是尋找一條直線,

10、使得所有點(diǎn)到該直線的豎直距離的平方和最小。用數(shù)據(jù)尋找一條直線的過(guò)程也叫做擬合(fit)一條直線。7.3 定量變量的線性回歸分析例7.1(繼續(xù))根據(jù)計(jì)算,找到初三成績(jī)和高一成績(jī)的回歸直線。計(jì)算機(jī)輸出給出來(lái)截距(Constant)26.444和斜率(變量j3的系數(shù)) 0.651。截距=26.444; 斜率=0.6517.3 定量變量的線性回歸分析這個(gè)直線實(shí)際上是對(duì)所假設(shè)的下面線性回歸模型的估計(jì)(這里的e是隨機(jī)誤差):我們得到的截距和斜率(26.444和0.651)是對(duì)b0和b1的估計(jì)。7.3 定量變量的線性回歸分析由于不同的樣本產(chǎn)生不同的估計(jì),所以估計(jì)量是個(gè)隨機(jī)變量,它們也有分布,也可以用由他們構(gòu)

11、造檢驗(yàn)統(tǒng)計(jì)量來(lái)檢驗(yàn)b0和b1是不是顯著。拿回歸主要關(guān)心的來(lái)說(shuō),假設(shè)檢驗(yàn)問(wèn)題是計(jì)算機(jī)輸出也給出了這個(gè)檢驗(yàn):t檢驗(yàn)統(tǒng)計(jì)量為9.089,而p-值為0.000。7.3 定量變量的線性回歸分析除了對(duì)的檢驗(yàn)之外,還有一個(gè)說(shuō)明自變量解釋因變量變化百分比的度量,叫做決定系數(shù)(coefficient of determination,也叫測(cè)定系數(shù)或可決系數(shù)),用R2表示。對(duì)于例1,R2=0.632;這說(shuō)明這里的自變量可以大約解釋63的因變量的變化。R2越接近1,回歸就越成功。由于R2有當(dāng)變量數(shù)目增加而增大的缺點(diǎn),人們對(duì)其進(jìn)行修改;有一修正的R2(adjusted R square)。7.3 定量變量的線性回歸分

12、析此外,計(jì)算機(jī)還計(jì)算了一個(gè)在零假設(shè)下有F分布的檢驗(yàn)統(tǒng)計(jì)量,它是用來(lái)檢驗(yàn)回歸擬合好壞的(零假設(shè)是因變量和自變量沒(méi)有關(guān)系)。7.3 定量變量的線性回歸分析和剛才簡(jiǎn)單的回歸模型類似,一般的有k個(gè)(定量)自變量x1, x2, xk的對(duì)因變量y的線性回歸模型為(稱為多元回歸)這里b0, b1, bk稱為回歸系數(shù)。對(duì)計(jì)算機(jī)來(lái)說(shuō),計(jì)算多個(gè)自變量的回歸和計(jì)算一個(gè)自變量的情況類似,計(jì)算機(jī)也會(huì)自動(dòng)輸出相應(yīng)的檢驗(yàn)結(jié)果。1、虛擬變量的作用:(1)可以描述和測(cè)量定性因素的影響(2)能夠正確反映經(jīng)濟(jì)變量之間的相互關(guān)系,提高模型的精度。(3)便于處理異常數(shù)據(jù);當(dāng)樣本資料中存在異常數(shù)據(jù)時(shí),一般有三種處理方式,一是在樣本容量較

13、大的情況下直接剔除異常數(shù)據(jù);二是用平均數(shù)等方式修勻異常數(shù)據(jù);三是設(shè)置虛擬變量(即將異常數(shù)據(jù)作為一個(gè)特殊的定性因素。虛擬變量模型2、截距變動(dòng)模型(一)只包含一個(gè)虛擬變量的截距變動(dòng)模型如果回歸模型中只包含一個(gè)質(zhì)的因素,且這個(gè)因素僅有兩種特征,則回歸模型中只需引入一個(gè)虛擬變量例:假定我們有一個(gè)包括城鄉(xiāng)居民家庭收支狀況的樣本,并打算用這些數(shù)據(jù)估計(jì)消費(fèi)函數(shù)。由于城鄉(xiāng)居民家庭和農(nóng)村居民家庭在消費(fèi)水平上存在明顯差異,所以“地區(qū)”這個(gè)質(zhì)的因素是一個(gè)重要解釋變量。用一個(gè)虛擬變量來(lái)表示,消費(fèi)函數(shù)為:用D1表示城鎮(zhèn)居民家庭這一特征,D0表示農(nóng)村居民家庭這一特征,并假定隨機(jī)誤差項(xiàng)滿足經(jīng)典回歸假定。上式可寫(xiě)成可以看出,

14、二者有相同的斜率,但截距不同。結(jié)合上例,我們給出虛擬變量模型的幾個(gè)特性:1、以“0”“1”取值的虛擬變量所反映的內(nèi)容可以隨意設(shè)定。在上例中,也可以指定D1時(shí)為農(nóng)村居民家庭,而D0就必然為城鎮(zhèn)居民家庭。2、虛擬變量D0代表的特征或狀態(tài),通常用于說(shuō)明基礎(chǔ)類型?;A(chǔ)類型是對(duì)比的基礎(chǔ)。3、基礎(chǔ)類型的截距系數(shù)稱為公共截距系數(shù),系數(shù)可稱為差別截距系數(shù)。4、如果一個(gè)回歸模型有截距項(xiàng),對(duì)于具有兩種特征的質(zhì)的因素,只需引入一個(gè)虛擬變量,如果引入兩個(gè)虛擬變量,就會(huì)造成共線性的影響。一般規(guī)則:如果一個(gè)質(zhì)變量有m 種特征或狀態(tài),只需引入m-1 個(gè)虛擬變量。但如果回歸模型不包含截距項(xiàng),則m種特征要引入m個(gè)虛擬變量。(二

15、)包含多個(gè)虛擬變量的截距系數(shù)如果一年有4個(gè)季節(jié),就需要引入三個(gè)虛擬變量,即注意:這里不能只設(shè)一個(gè)虛擬變量,如果那樣的話,實(shí)際上隱含了一個(gè)假定:不同季度之間的差異程度是相同的,這顯然不能合理區(qū)分四個(gè)季度的消費(fèi)函數(shù)。3截距和斜率同時(shí)變動(dòng)模型在很多情形下,質(zhì)的因素不僅會(huì)改變模型的截距,還會(huì)同時(shí)影響模型的斜率。例如,城鎮(zhèn)居民家庭與農(nóng)村居民家庭的消費(fèi)函數(shù)不僅在截距上有差異,邊際消費(fèi)傾向可有也會(huì)有所不同。這時(shí)回歸模型可記為:上式可表示為:若統(tǒng)計(jì)檢驗(yàn)表明:4、包含多個(gè)質(zhì)的因素的虛擬變量模型在很多情況下,往往有多個(gè)質(zhì)的因素影響回歸模型的截距或斜率。例如,在研究居民消費(fèi)行為時(shí),可以考慮的質(zhì)的因素有戶主的性別、戶

16、主的年齡、戶主的文程度、地理區(qū)域等等。再如,除收入水平外,啤酒需求量還會(huì)受到季節(jié)、地區(qū)等我個(gè)質(zhì)的因素影響。如果假定食品需求受以下因素影響:1、戶主的收入水平2、戶主的性別、3、戶主的年齡:25歲以下;2550歲;50歲以上三組4、戶主的文化程度:初中、高中、大學(xué)則食品消費(fèi)函數(shù)需要引入5個(gè)虛擬變量相應(yīng)的回歸模型為:上例假定質(zhì)的因素只影響回歸模型的截距,由此不難推廣到更一般的情形。7.3 定量變量的線性回歸分析并且用數(shù)據(jù)來(lái)擬合所選的一個(gè)模型時(shí),并不一定所有的變量都顯著(并不一定所有的系數(shù)都有意義)。軟件有一種一邊回歸,一邊檢驗(yàn)的所謂逐步回歸(stepwise regression)方法。該方法或者

17、從只有常數(shù)項(xiàng)開(kāi)始,逐個(gè)地把顯著的變量加入;或者從包含所有變量的模型開(kāi)始,逐步把不顯著的變量減去。注意不同方向逐步回歸的結(jié)果也不一定相同。7.4 自變量中有定性變量的回歸在例7.1的數(shù)據(jù)中,還有一個(gè)自變量是收入,但它是定性變量,以虛擬變量或啞元(dummy variable)的方式出現(xiàn)。(這里收入的“低”,“中”,“高”,用1,2,3來(lái)代表)。如果要用這種啞元進(jìn)行7.2節(jié)的回歸就沒(méi)有道理了??梢杂孟旅婺P兔枋觯?.4 自變量中有定性變量的回歸注意,啞元的各個(gè)參數(shù)a1, a2, a3本身只有相對(duì)意義,無(wú)法三個(gè)都估計(jì),只能夠在有約束條件下才能夠得到估計(jì)。約束條件可以有很多選擇,一種默認(rèn)的條件是把一個(gè)

18、參數(shù)設(shè)為0,比如a3=0,這樣和它有相對(duì)意義的a1和a2就可以估計(jì)出來(lái)了。對(duì)于例7.1得到對(duì)于例7.1,對(duì)b0, b1, a1, a2, a3的估計(jì)分別為28.708, 0.688, -11.066, -4.679, 0。7.5 Logistic 回歸但是如果因變量為取兩個(gè)值的定性變量,前面介紹的回歸模型就無(wú)法解決了。我們通過(guò)例7.2來(lái)介紹另一種回歸,即Logistic回歸(logistic regression)。例7.2數(shù)據(jù)前面已經(jīng)見(jiàn)到,有自變量性別、年齡和因變量觀點(diǎn)7.5 Logistic 回歸對(duì)此,人們通常會(huì)考慮下面的模型(稱為logistic回歸模型)為了循序漸近,先擬合沒(méi)有性別作為

19、自變量(只有年齡x)的模型7.5 Logistic 回歸很容易得到b0和b1的估計(jì)分別為2.381和-0.069。擬合的模型為7.5 Logistic 回歸下面再加上性別變量進(jìn)行擬合,得到對(duì)b0, b1和a0, a1的估計(jì)(同樣事先確定為a1=0)分別為1.722, -0.072, 1.778, 0。對(duì)于女性和男性,該擬合模型分別可以表示為SPSS實(shí)現(xiàn)(logi.sav)AnalizeRegressionBinary Logistic,再把因變量(opinion)選入Dependent Variable,把自變量(age和sex)選入Covariates,Categorical,再把定性變量s

20、ex選入Categorical Covariate,回到主對(duì)話框,點(diǎn)擊OK即可得到結(jié)果。注:SPSS的syntax:LOGISTIC REGRESSION VAR=opinion /METHOD=ENTER age sex /CONTRAST (sex)=Indicator /CRITERIA PIN(.05) POUT(.10) ITERATE(20) CUT(.5) .SPSS的數(shù)據(jù)輸入數(shù)據(jù)的鍵入(T01.sav)數(shù)據(jù)從其他文本讀入:File-Open-Data-文件類型(Sav,Excel,SAS,dBase,TXT等等) (T02.txt);散點(diǎn)圖定性變量的加權(quán)(每一行的權(quán)數(shù)等于該行被觀測(cè)到的次數(shù))(T03.sav)和不加權(quán)(T04.sav);條形圖,餅圖數(shù)據(jù)的變換(T01.sav)(多重散點(diǎn)圖,圖的編輯)SPSS的相關(guān)分析相關(guān)分析(hischool.sav)利用SPSS選項(xiàng):AnalizeCorrelateBivariate再把兩個(gè)有關(guān)的變量(這里為j3和s1)選入,選擇Pearson,Spearman和Kendall就可以得出這三個(gè)相關(guān)系數(shù)和有關(guān)的檢驗(yàn)結(jié)果了(零假設(shè)均為不相關(guān))。SPSS的回歸分析自變量和因變量都是定量變量時(shí)的線性回歸分析(hischool.sav) 利用SPSS選項(xiàng):AnalizeRegressionLinear再把有關(guān)的自變量選

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論