第9章spss的相關分析和線性回歸分析_第1頁
第9章spss的相關分析和線性回歸分析_第2頁
第9章spss的相關分析和線性回歸分析_第3頁
第9章spss的相關分析和線性回歸分析_第4頁
第9章spss的相關分析和線性回歸分析_第5頁
已閱讀5頁,還剩47頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第9章spss的相關分析和線性回歸分析相關分析和回歸分析是統(tǒng)計分析方法中最重要內(nèi)容之一,是多元統(tǒng)計分析方法的基礎。相關分析和回歸分析主要用于研究和分析變量之間的相關關系,在變量之間尋求合適的函數(shù)關系式,特別是線性表達式。本章主要內(nèi)容:對變量之間的相關關系進行分析(Correlate)。其中包括簡單相關分析(Bivariate)和偏相關分析(Partial)。建立因變量和自變量之間回歸模型(Regression),其中包括線性回歸分析(Linear)和曲線估計(CurveEstimation)。數(shù)據(jù)條件:參與分析的變量數(shù)據(jù)是數(shù)值型變量或有序變量。本章內(nèi)容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸相關分析用于測量了解變量之間的密切程度。如:教育事業(yè)的發(fā)展與科學技術的發(fā)展存在著一定的關系,學生的數(shù)學成績與物理成績存在著一定的關系,相關分析就是要分析這種密切程度。相關類型:1、直線相關:兩變量呈線性共同增大,或一增一減。2、曲線相關:兩變量存在相關趨勢,但非線性。此時若進行直線相關,有可能出現(xiàn)無相關性的結論,曲線相關分析是一般都先將變量進行變量變換,以將趨勢變換為直線分析,或者采用曲線回歸方法來分析。相關的方向

依照兩種變量變動的方向分,有正相關、負相關和無相關(零相關)。相關分析基本步驟:1.繪制散點圖2.計算相關系數(shù)3.進行相關系數(shù)檢驗如果兩個定量變量沒有關系,就談不上建立模型或進行回歸。但怎樣才能發(fā)現(xiàn)兩個變量有沒有關系呢?最簡單的直觀辦法就是畫出它們的散點圖。下面是四組數(shù)據(jù)的散點圖;每一組數(shù)據(jù)表示了兩個變量x和y的樣本。第1點不相關正線性相關負線性相關相關但非線性相關但如何在數(shù)量上描述相關呢?下面引進幾種對相關程度的度量。Pearson相關系數(shù)Spearman秩相關系數(shù)Kendallt

相關系數(shù)Pearson相關系數(shù)(Pearson’scorrelationcoefficient)又叫相關系數(shù)或線性相關系數(shù)。它一般用字母r表示。

它是由兩個變量的樣本取值得到,這是一個描述線性相關強度的量,取值于-1和1之間。當兩個變量有很強的線性相關時,相關系數(shù)接近于1(正相關)或-1(負相關),而當兩個變量不那么線性相關時,相關系數(shù)就接近0。Pearson相關系數(shù)的局限性:①要求變量服從正態(tài)分布②只能度量線性相關性,對于曲線相關等更為復雜的情形,該相關系數(shù)的大小并不能代表相關性的強弱。如果Pearson系數(shù)很低,只能說明兩變量之間沒有線性關系,并不能說明兩者之間沒有相關關系。也就是說,該指標只能度量線性相關性,而不是相關性。(線性相關性隱含著相關性,而相關性并不隱含著線性相關性)另外:樣本中存在的極端值對Pearson相關系數(shù)的影響極大,因此要慎重考慮和處理,必要時可以對其進行剔出,或者加以變量變換,以避免因為一兩個數(shù)值導致出現(xiàn)錯誤的結論。Spearman秩相關系數(shù)

它和Pearson相關系數(shù)定義有些類似,只不過在定義中把點的坐標換成各自樣本的秩(即樣本點大小的“座次”)。,為兩變量各自對應的秩,為對應的秩之差。Spearman相關系數(shù)也是取值在-1和1之間,也有類似的解釋。Spearman秩相關系數(shù)適用范圍:Spearman相關系數(shù)更多用于測量兩個有序分類變量之間的相關程度。對于適合Pearson相關系數(shù)的數(shù)據(jù)亦可計算Spearman相關系數(shù),但統(tǒng)計效能要低一些。通過它也可以進行不依賴于總體分布的非參數(shù)檢驗。側重于兩個分類變量均為有序分類的情況。這里的度量原理是把所有的樣本點配對(如果每一個點由x和y的秩組成的坐標(x,y)代表,一對點就是諸如(x1,y1)和(x2,y2)的點對),然后看每一對中的x和y的的秩的觀測值是否同時增加(或減少)。比如由點對(x1,y1)和(x2,y2),可以算出乘積(x2-x1)(y2-y1)是否大于0;如果大于0,則說明x和y同時增長或同時下降,稱這兩點協(xié)同(concordant);否則就是不協(xié)同。如果樣本中協(xié)同的點數(shù)目多,兩個變量就更加正相關一些否則就更負相關些;如果樣本中不協(xié)同(discordant)與協(xié)同的點數(shù)差不過一樣多,兩個變量相關性就弱。Kendallτ

相關系數(shù)(Kendall’sτ

)Kendall’sτ統(tǒng)計量的數(shù)學定義為:Kendallτ

相關系數(shù)(Kendall’sτ

)U、V分別為協(xié)同和不協(xié)同的數(shù)目大樣本下采用的檢驗統(tǒng)計量為:Z統(tǒng)計量近似服從標準正態(tài)分布人們可能會問,上面的三種對相關的度量都是在其值接近1或-1時相關,而接近于0時不相關。到底如何才能夠稱為“接近”呢?這很難一概而論。但在計算機輸出中都有和這些相關度量相應的檢驗和p-值;因此可以根據(jù)這些結果來判斷是否相關畫散點圖Graphs→Scatter選擇散點圖的類型根據(jù)所選擇的散點圖類型,單擊Define對散點圖作具體定義。計算相關系數(shù)Analyze→Correlate→Bivariate選擇參加計算的變量到Variable中在CorrelationCoefficents框中選擇計算哪種相關系數(shù)在TestofSignificance框中選擇輸出單尾還是雙尾p值選擇Flagsignificancecorrelations輸出星號標記在Options中選擇其他描述統(tǒng)計量簡單相關分析菜單簡單相關分析實例:有50個從初中升到高中的學生。有他們在初三和高一的各科平均成績(數(shù)據(jù)在highschool.sav)。要求比較初三的成績是否和高中的成績相關。練習:利用數(shù)據(jù)SY-8.sav,對城鎮(zhèn)居民消費額與人均國內(nèi)生產(chǎn)總值兩變量進行相關分析。分析結果從運行結果看,城鎮(zhèn)居民消費額與人均國內(nèi)生產(chǎn)總值有很強的線形相關關系.本章內(nèi)容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸偏相關分析

簡單相關分析計算兩個變量間的相關系數(shù),分析兩個變量間線性關系的程度。往往因為第三個變量的作用,使相關系數(shù)不能真正反應兩個變量間的線性程度。例如用簡單相關系數(shù)檢驗,可以得到肺活量與身高、體重均存在較強的線性關系,如果對體重相同的人,分析身高和肺活量,是否身高越高肺活量越大呢?因為身高與體重有線性關系,體重又與肺活量存在線性關系,因此,很容易得出身高與肺活量存在較強線性關系的錯誤結論。

偏相關分析的任務就是在研究兩個變量之間的線性相關關系時控制可能對其產(chǎn)生影響的變量。分析身高與肺活量之間的相關性,就要控制體重在相關分析中的影響。正確運用偏相關分析,可以解釋變量間的真實關系,識別干擾變量并尋找隱含的相關性。偏相關系數(shù)的計算

控制了變量z,變量x、y之間的偏相關系數(shù)和控制了兩個變量,變量x、y之間的偏相關系數(shù)分別為

是控制了z的條件下,x、y之間的偏相關系數(shù)。是變量x、y間的簡單相關系數(shù)。偏相關系數(shù)的檢驗

檢驗的零假設:兩個變量間的偏相關系數(shù)為0。使用t檢驗,公式如下:r是相應的偏相關系數(shù)。n是觀測個數(shù),k是控制變量的數(shù)目,n-k-2是自由度。在SPSS的偏相關分析過程的輸出中只給出偏相關系數(shù)和假設成立的概率p值。偏相關分析的操作

與簡單相關分析操作類似,只不過菜單為Analyze→Correlate→Partial實例:利用數(shù)據(jù)相關回歸分析(高校科研研究).sav,分析發(fā)表立項課題數(shù)與論文數(shù)之間的偏相關關系,其中投入高級職稱的人數(shù)為控制變量。練習:利用數(shù)據(jù)data10-03.sav,分析中山柏月生長量與4個氣候因素哪個因素有關。本章內(nèi)容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸線性回歸分析

線性回歸是統(tǒng)計分析方法中最常用的方法之一。如果所研究的現(xiàn)象有若干個影響因素,且這些因素對現(xiàn)象的綜合影響是線性的,則可以使用線性回歸的方法建立現(xiàn)象(因變量)與影響因素(自變量)之間的線性函數(shù)關系式。由于多元線性回歸的計算量比較大,所以有必要應用統(tǒng)計分析軟件實現(xiàn)。這一節(jié)將專門介紹SPSS軟件的線性回歸分析的操作方法,包括求回歸系數(shù),給出回歸模型的各項檢驗統(tǒng)計量值及相應的概率,對輸出結果的分析等相關內(nèi)容。線性回歸模型假設條件與模型的各種檢驗1、線性回歸的假設理論(1)正態(tài)性假設:即所研究的變量均服從正態(tài)分布;(2)等方差假設:即各變量總體的方差是相等的;(3)獨立性假設,即各變量之間是相互獨立的;(4)殘差項無自相關性,即誤差項之間互不相關,

Cov(i,j)=02、線性回歸模型的檢驗項目(1)回歸系數(shù)的檢驗(t檢驗)。(2)回歸方程的檢驗(F檢驗)。(3)擬合程度判定(可決系數(shù)R2

)。(4)D.W檢驗(殘差項是否自相關)。(5)共線性檢驗(多元線性回歸)。(6)殘差圖示分析(判斷異方差性和殘差序列自相關)。

對初三和高一的各科平均成績這兩個變量的數(shù)據(jù)進行線性回歸,就是要找到一條直線來適當?shù)卮韴D中的那些點的趨勢。首先需要確定選擇這條直線的標準。這里介紹最小二乘回歸(leastsquaresregression)。古漢語“二乘”是平方的意思。這就是尋找一條直線,使得所有點到該直線的豎直距離的平方和最小。用數(shù)據(jù)尋找一條直線的過程也叫做擬合(fit)一條直線。根據(jù)計算,找到初三成績和高一成績的回歸直線。計算機輸出給出來截距(Constant)26.444和斜率(變量j3的系數(shù))0.651。截距=26.444;斜率=0.651這個直線實際上是對所假設的下面線性回歸模型的估計(這里的e

是隨機誤差):我們得到的截距和斜率(26.444和0.651)是對b0和b1的估計。由于不同的樣本產(chǎn)生不同的估計,所以估計量是個隨機變量,它們也有分布,也可以用由他們構造檢驗統(tǒng)計量來檢驗b0和b1是不是顯著。拿回歸主要關心的來說,假設檢驗問題是計算機輸出也給出了這個檢驗:t檢驗統(tǒng)計量為9.089,而p-值為0.000。除了對b1的檢驗之外,還有一個說明自變量解釋因變量變化百分比的度量,叫做決定系數(shù)(coefficientofdetermination,也叫測定系數(shù)或可決系數(shù)),用R2表示。R2=0.632;這說明這里的自變量可以大約解釋63%的因變量的變化。R2越接近1,回歸就越成功。由于R2有當變量數(shù)目增加而增大的缺點,人們對其進行修改;有一修正的R2(adjustedRsquare)。此外,計算機還計算了一個在零假設下有F分布的檢驗統(tǒng)計量,它是用來檢驗回歸擬合好壞的(零假設是因變量和自變量沒有關系)。和剛才簡單的回歸模型類似,一般的有k個(定量)自變量x1,x2…,xk的對因變量y的線性回歸模型為(稱為多元回歸)這里b0,b1,…,bk稱為回歸系數(shù)。對計算機來說,計算多個自變量的回歸和計算一個自變量的情況類似,計算機也會自動輸出相應的檢驗結果。

用數(shù)據(jù)來擬合所選的一個模型時,并不一定所有的變量都顯著(并不一定所有的系數(shù)都有意義)。在多元回歸分析中,自變量的篩選一般有三種的策略和方法:

1.向前篩選法(Forward)。

2.向后篩選法(Backward)。

3.逐步回歸法(Stepwise)。各種方法的思路見課本P203。多元回歸中變量篩選問題畫散點圖先做數(shù)據(jù)散點圖,觀測因變量與自變量之間關系是否有線性特點若散點圖的趨勢大概呈線性關系,可以建立線性回歸模型Analyze→Regression→Linear選擇因變量變量到Dependent中,因變量選入Independent.在Method框中選擇回歸分析自變量篩選策略。選擇一個變量作為條件變量放到SelectionVariable中,并單擊Rule給定一個判斷條件,只有變量值滿足給定條件才參與回歸分析。在CaseLables框中指定哪個變量作為樣本數(shù)據(jù)點的標志變量,該變量的值將標在回歸分析的輸出圖形中?;貧w分析基本操作線性回歸分析實例:利用數(shù)據(jù)相關回歸分析(高??蒲醒芯浚?sav,分析發(fā)表立項課題數(shù)受那些因素的影響。練習:利用美國收入消費數(shù)據(jù).sav,建立用消費來預測收入的回歸方程。利用數(shù)據(jù)A商品需求多元回歸.sav

建立一個以居民人均收入、A商品單價為自變量,銷售量為因變量的回歸模型。A商品需求多元回歸要注意的值有3個:adjustedRsquare,F,t由此得,回歸方程為Y=4.588+1.868X1-1.8X2t值(1.82)(6.93)(-2.455)本章內(nèi)容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸對于一元回歸,若散點圖的趨勢不呈線性分布,可以利用曲線估計方便地進行線性擬合(liner)、二次擬合(Quadratic)、三次擬合(Cubic)等。不同模型的表示模型名稱回歸方程相應的線性回歸方程Linear(一元線性)Y=b0+b1tQuadratic(二次曲線)Y=b0+b1t+b2t2Compound(復合曲線)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(增長曲線)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(對數(shù)曲線)Y=b0+b1ln(t)Cubic(三次曲線)Y=b0+b1t+b2t2+b3t3S曲線Y=eb0+b1/tLn(Y)=b0+b1/

tExponential(指數(shù)曲線)Y=b0*

eb1*tLn(Y)=ln(b0)+b1tInverse(逆函數(shù))Y=b0+b1/tPower(冪函數(shù))Y=b0(tb1)Ln(Y)=ln(b0)+b1ln(t)Logistic(邏輯函數(shù))Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)采用哪種擬合方式,可以畫散點圖判斷,但更主要的是取決于各種擬合模型對數(shù)據(jù)的充分描述(看修正AdjustedR2)曲線估計的基本操作Analyze→Regression→CurveEstimation選擇因變量變量到Dependent中。曲線估計的自變量可以是相關因素變量也可以是時間變量。如果自變量是相關因素變量,則選擇Variable選項,并把一個自變量指定到Independt里,如果是時間變量則選擇Time選項。在Models中選擇模型。選擇PlotModels選項繪制回歸線;選擇DisplayANOVAtable輸出各個模型的方差分析表和各回歸系數(shù)顯著性檢驗結果。在Save中選擇要保存的數(shù)據(jù)。實例:數(shù)據(jù)相關回歸分析(年人均消費支出和教育).sav1.利用1990~2002年的數(shù)據(jù),以年人均消費性支出為自變量,教育支出為因變量擬合回歸模型。2.利用1981~2002年居民在外就餐消費的數(shù)據(jù),對居民未來在外就餐的趨勢進行分析和預測。練習:利用數(shù)據(jù)居民收入支出情況,以人均生活費收入為自變量,人均生活費支出為因變量擬合回歸模型。曲線估計本章內(nèi)容9.1相關分析9.2偏相關分析9.3線性回歸分析9.4曲線估計9.5二項Logistic回歸在現(xiàn)實中,經(jīng)常需要判斷一些事情是否將要發(fā)生,候選人是否會當選?為什么一些人易患冠心???為什么一些人的生意會獲得成功?此問題的特點是因變量只有兩個值,不發(fā)生(0)和發(fā)生(1)。這時,就無法直接采用一般線性回歸模型來分析了。Logistic(邏輯)回歸模型

設某一事件

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論