SAS軟件應(yīng)用之直線回歸與相關(guān).ppt_第1頁
SAS軟件應(yīng)用之直線回歸與相關(guān).ppt_第2頁
SAS軟件應(yīng)用之直線回歸與相關(guān).ppt_第3頁
SAS軟件應(yīng)用之直線回歸與相關(guān).ppt_第4頁
SAS軟件應(yīng)用之直線回歸與相關(guān).ppt_第5頁
已閱讀5頁,還剩63頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第9章 直線回歸與相關(guān),學(xué)習(xí)目標(biāo),掌握直線相關(guān)的定義,熟悉簡單相關(guān)系數(shù)的計(jì)算; 掌握直線相關(guān)分析的SAS程序(CORR過程以及選項(xiàng)); 掌握直線回歸的模型假設(shè)以及計(jì)算方法; 了解直線回歸應(yīng)用的注意事項(xiàng); 掌握直線回歸分析的SAS程序(REG過程以及選項(xiàng))。,概述,在醫(yī)學(xué)上,許多現(xiàn)象之間都存在著相互聯(lián)系,例如身高與體重、體溫與脈搏、年齡與血壓、釘螺與血吸蟲感染等。而有些事物的關(guān)系是互為因果的,如上述釘螺是因,感染血吸蟲是果;但有時(shí)因果不清,只是伴隨關(guān)系。例如父母的兄弟,兄高,弟也可能高,但不能說兄是因、弟是果,這里不是因果關(guān)系,而可能與社會(huì)條件、家庭經(jīng)濟(jì)、營養(yǎng)、遺傳等因素有關(guān)。,概述,相關(guān)是解決

2、客觀事物或現(xiàn)象相互關(guān)系密切程度的問題,而回歸則是用函數(shù)的形式表示出因果關(guān)系。有相關(guān)不一定因果關(guān)系;反之,有因果關(guān)系的,一定有相關(guān)。我們稱“因”的變量叫因變量,習(xí)慣上用Y表示。以橫軸代表自變量X,縱軸代表依變量Y,可以將一群觀察事物的兩種關(guān)系在坐標(biāo)圖上以P(X,Y)的方法定位,作出一群散點(diǎn)圖,便可在圖上看出兩者的關(guān)系。 相關(guān)分析和回歸分析是研究現(xiàn)象之間相關(guān)關(guān)系的兩種基本方法。所謂相關(guān)分析,就是用一個(gè)指標(biāo)來表明現(xiàn)象間相互依存關(guān)系的密切程度。,直線相關(guān)分析介紹,設(shè)有兩個(gè)變量x和y,變量y隨變量x一起變化,并完全依賴于x,當(dāng)變量x取某個(gè)數(shù)值時(shí),y依確定的關(guān)系取相應(yīng)的值,則稱y是x的函數(shù),記為 y =

3、f(x),其中x稱為自變量,y稱為因變量。各觀測(cè)點(diǎn)落在一條線上。 自變量取值一定時(shí),因變量的取值帶有一定隨機(jī)性的兩個(gè)變量之間的關(guān)系叫做相關(guān)關(guān)系。當(dāng)一個(gè)或幾個(gè)相互聯(lián)系的變量取一定數(shù)值時(shí),與之相對(duì)應(yīng)的另一變量的值雖然不確定,但它仍按某種規(guī)律在一定的范圍內(nèi)變化,變量間的這種相互關(guān)系,稱為具有不確定性的相關(guān)關(guān)系。,直線相關(guān)分析介紹,與函數(shù)關(guān)系不同,相關(guān)變量間關(guān)系不能用函數(shù)關(guān)系精確表達(dá),一個(gè)變量的取值不能由另一個(gè)變量唯一確定,當(dāng)變量x取某個(gè)值時(shí),變量y的取值可能有無數(shù)個(gè),各觀測(cè)點(diǎn)分布在直線周圍。 按相關(guān)程度劃分可分為完全相關(guān)、不完全相關(guān)、和不相關(guān):,不相關(guān),如果變量間彼此的數(shù)量變化互相獨(dú)立,則其關(guān)系為不

4、相關(guān),即沒有任何相關(guān)關(guān)系。自變量x變動(dòng)時(shí),因變量y的數(shù)值不隨之相應(yīng)變動(dòng)。,完全相關(guān),如果一個(gè)變量的變化是由其他變量的數(shù)量變化所唯一確定,此時(shí)變量間的關(guān)系稱為完全相關(guān)。即因變量y的數(shù)值完全隨自變量x的變動(dòng)而變動(dòng),它在相關(guān)圖上表現(xiàn)為所有的觀察點(diǎn)都落在同一條直線上,這種情況下,相關(guān)關(guān)系實(shí)際上是函數(shù)關(guān)系。所以,函數(shù)關(guān)系是相關(guān)關(guān)系的一種特殊情況。,不完全相關(guān),如果變量間的關(guān)系介于不相關(guān)和完全相關(guān)之間,則稱為不完全相關(guān)。大多數(shù)相關(guān)關(guān)系屬于不完全相關(guān),是統(tǒng)計(jì)研究的主要對(duì)象。,正相關(guān)和負(fù)相關(guān),正相關(guān):兩個(gè)變量之間的變化方向一致,都是呈增長或下降的趨勢(shì)。即自變量x的值增加(或減少),因變量y的值也相應(yīng)地增加(或

5、減少),這樣的關(guān)系就是正相關(guān)。 負(fù)相關(guān):兩個(gè)變量之間變化方向相反,即自變量的數(shù)值增大(或減小),因變量隨之減?。ɑ蛟龃螅?。,線形相關(guān)和非線形相關(guān),直線相關(guān)(或線性相關(guān)):當(dāng)相關(guān)關(guān)系的自變量x發(fā)生變動(dòng),因變量y值隨之發(fā)生大致均等的變動(dòng),從圖像上近似地表現(xiàn)為直線形式,這種相關(guān)通稱為直線相關(guān)。 曲線(或非線性)相關(guān)。在兩個(gè)相關(guān)現(xiàn)象中,自變量x值發(fā)生變動(dòng),因變量y也隨之發(fā)生變動(dòng),這種變動(dòng)不是均等的,在圖像上的分布是各種不同的曲線形式,這種相關(guān)關(guān)系稱為曲線(或非線性)相關(guān)。曲線相關(guān)在相關(guān)圖上的分布,表現(xiàn)為拋物線、雙曲線、指數(shù)曲線等非直線形式。,單相關(guān)、復(fù)相關(guān)和偏相關(guān),單相關(guān):兩個(gè)因素之間的相關(guān)關(guān)系叫單相

6、關(guān),即研究時(shí)只涉及一個(gè)自變量和一個(gè)因變量。 復(fù)相關(guān):三個(gè)或三個(gè)以上因素的相關(guān)關(guān)系叫復(fù)相關(guān),即研究時(shí)涉及兩個(gè)或兩個(gè)以上的自變量和因變量。 在某一現(xiàn)象與多種現(xiàn)象相關(guān)的場(chǎng)合,當(dāng)假定其他變量不變時(shí),其中兩個(gè)變量之間的相關(guān)關(guān)系稱為偏相關(guān)。,相關(guān)系數(shù),所謂相關(guān)分析,就是分析測(cè)定變量間相互依存關(guān)系的密切程度的統(tǒng)計(jì)方法。一般可以借助相關(guān)系數(shù)來進(jìn)行相關(guān)分析。 相關(guān)系數(shù)是表示兩個(gè)變量(X,Y)之間線性關(guān)系密切程度的指標(biāo),用r表示,其值在-1至+1間。如兩者呈正相關(guān),r呈正值,r=1時(shí)為完全正相關(guān);如兩者呈負(fù)相關(guān)則r呈負(fù)值,而r=-1時(shí)為完全負(fù)相關(guān)。完全正相關(guān)或負(fù)相關(guān)時(shí),所有圖點(diǎn)都在直線回歸線上;點(diǎn)子的分布在直線回

7、歸線上下越離散,r的絕對(duì)值越小。當(dāng)例數(shù)相等時(shí),相關(guān)系數(shù)的絕對(duì)值越接近1,相關(guān)越密切;越接近于0,相關(guān)越不密切。當(dāng)r=0時(shí),說明X和Y兩個(gè)變量之間無直線關(guān)系。,相關(guān)系數(shù),簡單相關(guān)系數(shù)反映兩個(gè)變量之間線性相關(guān)密切程度和相關(guān)方向的統(tǒng)計(jì)測(cè)定,它是其他相關(guān)系數(shù)形成的基礎(chǔ)。簡單相關(guān)系數(shù)的計(jì)算公式為:,直線相關(guān)分析的SAS程序,SAS系統(tǒng)中進(jìn)行直線相關(guān)分析的過程步是CORR過程。 CORR過程存在于SAS的base模塊,可以計(jì)算Pearson積矩相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)、Kendalls tau-b統(tǒng)計(jì)量、Hoeffdings獨(dú)立性分析統(tǒng)計(jì)量D以及Pearson,Spearman,以及Kenda

8、ll偏相關(guān)系數(shù)。另外,它還對(duì)用于估計(jì)可靠性的Cronbach系數(shù)進(jìn)行計(jì)算。Corr過程的語句基本格式如下: PROC CORR ; BY 變量名-1 變量名-n ; FREQ 變量名; PARTIAL 變量名(列表); VAR 變量名(列表); WEIGHT 變量名; WITH 變量名(列表);,直線相關(guān)分析的SAS程序,CORR過程的幾條語句中,BY語句、FREQ語句以及WEIGHT語句與以前所介紹的過程中的完全相同,大家可以參考以前的內(nèi)容。下面簡要介紹其余的幾條語句。 PARTIAL語句:用以對(duì)所指定的變量計(jì)算偏相關(guān)系數(shù)或類似的偏統(tǒng)計(jì)量,可計(jì)算的偏統(tǒng)計(jì)量與PROC CORR語句中指定的選項(xiàng)

9、有關(guān)。但其中只有Pearson積矩相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)及Kendalls Tau-b可計(jì)算相應(yīng)的偏統(tǒng)計(jì)量。,直線相關(guān)分析的SAS程序,VAR語句:VAR語句和其它過程中的也基本相同,這里VAR語句指定的變量必須為數(shù)值型變量,至少應(yīng)指定兩個(gè)變量(當(dāng)然只指定一個(gè)變量也可以計(jì)算,但是你必須確定你確實(shí)需要證明“一個(gè)變量和它自身的相關(guān)系數(shù)為1”),可同時(shí)指定多個(gè)變量,此時(shí)SAS會(huì)對(duì)任意兩個(gè)變量之間進(jìn)行相關(guān)分析。,直線相關(guān)分析的SAS程序,WITH語句:WITH語句用來指定和VAR語句指定的變量進(jìn)行相關(guān)分析的變量。當(dāng)有WITH語句存在時(shí),VAR語句中指定的變量之間不再進(jìn)行相關(guān)性分析,而其中

10、的每個(gè)變量都和WITH語句指定的所有變量進(jìn)行相關(guān)性分析,相關(guān)分析也不會(huì)發(fā)生在WITH語句所指定的變量之間。輸出結(jié)果的相關(guān)矩陣中,VAR語句指定的變量排列在行上,WITH語句指定的變量則排列在列上。如果需要,一個(gè)變量可以同時(shí)出現(xiàn)在VAR語句和WITH語句內(nèi)。 Pearson相關(guān)用于雙變量正態(tài)分布的資料,其相關(guān)系數(shù)稱為積矩相關(guān)系數(shù)。進(jìn)行相關(guān)分析時(shí),我們一般會(huì)同時(shí)對(duì)兩變量繪制散點(diǎn)圖,以更直觀地考察兩變量之間的相互變化關(guān)系。,直線回歸分析,醫(yī)學(xué)上,不少變量間雖存在一定關(guān)系,但這種關(guān)系不象函數(shù)關(guān)系那樣十分確定。例如正常人的血壓隨年齡而增高,但這只是總的趨勢(shì),有些高齡人的血壓卻不一定偏高;一群正常人按年齡

11、和血壓兩個(gè)變量在坐標(biāo)上的方位點(diǎn),并非集中在一條上升直線上,而是圍繞著一條有代表性的直線上升。 直線回歸分析的任務(wù)在于找出兩個(gè)變量有依存關(guān)系的直線方程,以確定一條最接近于各實(shí)測(cè)點(diǎn)的直線,使各實(shí)測(cè)點(diǎn)與該線的縱向距離的平方和為最小。這個(gè)方程稱為直線回歸方程,據(jù)此方程描繪的直線就是回歸直線。,直線回歸分析,直線回歸是用直線回歸方程表示兩個(gè)數(shù)量變量間依存關(guān)系的統(tǒng)計(jì)分析方法,屬雙變量分析的范疇。如果某一個(gè)變量隨著另一個(gè)變量的變化而變化,并且它們的變化在直角坐標(biāo)系中呈直線趨勢(shì),就可以用一個(gè)直線方程來定量地描述它們之間的數(shù)量依存關(guān)系,這就是直線回歸分析。 直線回歸分析中兩個(gè)變量的地位不同,其中一個(gè)變量是依賴另

12、一個(gè)變量而變化的,因此分別稱為因變量和自變量,習(xí)慣上分別用y和x來表示。其中x可以是規(guī)律變化的或人為選定的一些數(shù)值(非隨機(jī)變量),也可以是隨機(jī)變量。 所謂回歸分析,就是依據(jù)相關(guān)關(guān)系的具體形態(tài),選擇一個(gè)合適的數(shù)學(xué)模型,來近似地表達(dá)變量間的平均變化關(guān)系。,直線回歸分析,相關(guān)關(guān)系能說明現(xiàn)象間有無關(guān)系,但它不能說明一個(gè)現(xiàn)象發(fā)生一定量的變化時(shí),另一個(gè)變量將會(huì)發(fā)生多大量的變化。也就是說,它不能說明兩個(gè)變量之間的一般數(shù)量關(guān)系值。回歸分析,是指在相關(guān)分析的基礎(chǔ)上,把變量之間的具體變動(dòng)關(guān)系模型化,求出關(guān)系方程式,就是找出一個(gè)能夠反映變量間變化關(guān)系的函數(shù)關(guān)系式,并據(jù)此進(jìn)行估計(jì)和推算。通過回歸分析,可以將相關(guān)變量之

13、間不確定、不規(guī)則的數(shù)量關(guān)系一般化、規(guī)范化。從而可以根據(jù)自變量的某一個(gè)給定值推斷出因變量的可能值(或估計(jì)值)。 回歸分析包括多種類型,根據(jù)所涉及變量的多少不同,可分為簡單回歸和多元回歸。簡單回歸又稱一元回歸,是指兩個(gè)變量之間的回歸。其中一個(gè)變量是自變量,另一個(gè)變量是因變量。,直線回歸分析,相關(guān)分析和回歸分析有著密切的聯(lián)系,它們不僅具有共同的研究對(duì)象,而且在具體應(yīng)用時(shí),常常必須相互補(bǔ)充。相關(guān)分析研究變量之間相關(guān)的方向和相關(guān)程度。但是相關(guān)分析不能指出變量間相互關(guān)系的具體形式,也無法從一個(gè)變量的變化來推測(cè)另一個(gè)變量的變化情況?;貧w分析則是研究變量之間相互關(guān)系的具體形式,它對(duì)具有相關(guān)關(guān)系的變量之間的數(shù)量

14、聯(lián)系進(jìn)行測(cè)定,確定一個(gè)相關(guān)的數(shù)學(xué)方程,根據(jù)這個(gè)數(shù)學(xué)方程可以從已知量推測(cè)未知量,從而為估算和預(yù)測(cè)提供了一個(gè)重要的方法。,應(yīng)用直線回歸的注意事項(xiàng),作回歸分析要有實(shí)際意義,不能把毫無關(guān)聯(lián)的兩種現(xiàn)象,隨意進(jìn)行回歸分析,忽視事物現(xiàn)象間的內(nèi)在聯(lián)系和規(guī)律;如對(duì)兒童身高與小樹的生長數(shù)據(jù)進(jìn)行回歸分析既無道理也無用途。另外,即使兩個(gè)變量間存在回歸關(guān)系時(shí),也不一定是因果關(guān)系,必須結(jié)合專業(yè)知識(shí)作出合理解釋和結(jié)論。 直線回歸分析的資料,一般要求應(yīng)變量Y是來自正態(tài)總體的隨機(jī)變量,自變量X可以是正態(tài)隨機(jī)變量,也可以是精確測(cè)量和嚴(yán)密控制的值。若稍偏離要求時(shí),一般對(duì)回歸方程中參數(shù)的估計(jì)影響不大,但可能影響到標(biāo)準(zhǔn)差的估計(jì),也會(huì)影

15、響假設(shè)檢驗(yàn)時(shí)P值的真實(shí)性。,應(yīng)用直線回歸的注意事項(xiàng),進(jìn)行回歸分析時(shí),應(yīng)先繪制散點(diǎn)圖。若提示有直線趨勢(shì)存在時(shí),可作直線回歸分析;若提示無明顯線性趨勢(shì),則應(yīng)根據(jù)散點(diǎn)分布類型,選擇合適的曲線模型,經(jīng)數(shù)據(jù)變換后,化為線性回歸來解決。一般說,不滿足線性條件的情形下去計(jì)算回歸方程會(huì)毫無意義,最好采用非線性回歸方程的方法進(jìn)行分析。 繪制散點(diǎn)圖后,若出現(xiàn)一些特大特小的離群值(異常點(diǎn)),則應(yīng)及時(shí)復(fù)核檢查,對(duì)由于測(cè)定、記錄或計(jì)算機(jī)錄入的錯(cuò)誤數(shù)據(jù),應(yīng)予以修正和剔除。否則,異常點(diǎn)的存在會(huì)對(duì)回歸方程中的系數(shù)a、b的估計(jì)產(chǎn)生較大影響。,應(yīng)用直線回歸的注意事項(xiàng),回歸直線不要外延。直線回歸的適用范圍一般以自變量取值范圍為限,

16、在此范圍內(nèi)求出的估計(jì)值稱為內(nèi)插;超過自變量取值范圍所計(jì)算的稱為外延。若無充足理由證明,超出自變量取值范圍后直線回歸關(guān)系仍成立時(shí),應(yīng)該避免隨意外延。,直線回歸分析的SAS程序,REG過程涉及到較多的語句和選項(xiàng), PROC REG ; MODEL 應(yīng)變量列表= ; BY 變量名列表 ; VAR 變量名列表 ; WEIGHT 變量名 ; ADD 變量名列表 ; DELETE 變量名列表 ; MTEST ; OUTPUT keyword=變量名列表 ; PLOT ;,直線回歸分析的SAS程序,MODEL語句:用以指定所要擬合的回歸模型。其最前面的標(biāo)簽為可選項(xiàng),可以是不超過8個(gè)字符的字符串,用來對(duì)定義的

17、模型進(jìn)行標(biāo)識(shí),以便于在結(jié)果中分辨不同的模型,一般情況下系統(tǒng)會(huì)以默認(rèn)的方式對(duì)模型進(jìn)行標(biāo)識(shí),你可以省略此項(xiàng)。關(guān)鍵字model后所列的是模型表達(dá)式,和方差分析中anova過程的model語句相似。模型表達(dá)式中等號(hào)的左邊為反應(yīng)變量,等號(hào)的右邊為自變量列表,自變量間以空格相分隔。這里所用到的所有變量必須存在于所分析的數(shù)據(jù)集中,而且是數(shù)值型的。如果要用到幾個(gè)變量產(chǎn)生的綜合變量,必須在數(shù)據(jù)步完成新變量的創(chuàng)建過程,model語句中的組合型變量將被視為非法。,直線回歸分析的SAS程序,id語句:指定用以標(biāo)識(shí)觀測(cè)的變量。如果某一條model語句指定了cli, clm, p, r, 或者influence選項(xiàng),結(jié)果

18、中會(huì)有針對(duì)每一條觀測(cè)的輸出,此時(shí)用id語句指定每一條觀測(cè)的標(biāo)識(shí)將會(huì)使結(jié)果更易于辨認(rèn)或理解。如果沒有id語句,SAS則用觀測(cè)的編號(hào)來標(biāo)識(shí)每一條觀測(cè)。 var語句:用來將那些未包括在model語句中但需要將其包含在交叉積和矩陣中的數(shù)值型變量。在隨后的add語句中想交互地加入模型的變量以及要在plot語句中對(duì)其繪制散點(diǎn)圖的變量也需在var語句中列出。另外,如果你只想利用proc reg語句后的選項(xiàng)執(zhí)行某些特定的功能,而并不會(huì)用到model語句的話,var語句則是必需的。,直線回歸分析的SAS程序,add語句:用以將自變量交互地加入模型,以考察某個(gè)變量對(duì)模型擬合的影響。此處用到的變量必須為model語

19、句或var語句中出現(xiàn)的變量,你可以交互地加入某個(gè)變量到模型中或?qū)⒃赿elete語句中剔除的變量重新包含到模型中。對(duì)add語句的每一次執(zhí)行都將改變模型的標(biāo)簽。 mtest語句:用以在有多個(gè)應(yīng)變量時(shí)進(jìn)行模型的多重檢驗(yàn)。其最前面的標(biāo)簽項(xiàng)和model語句的完全相同。語句中的方程式用以指定多重檢驗(yàn)的假設(shè)模型,是一組以系數(shù)和變量名組成的線性方程式。此語句用在多元回歸情況下,多個(gè)應(yīng)變量對(duì)同一組自變量擬合線性模型時(shí)。,直線回歸分析的SAS程序,output語句:用于將回歸分析中產(chǎn)生的結(jié)果輸出到指定的數(shù)據(jù)集中,它所對(duì)應(yīng)的是最后一個(gè)model語句所定義的模型。新產(chǎn)生的數(shù)據(jù)集中,包括輸入數(shù)據(jù)集(用以進(jìn)行回歸分析的數(shù)

20、據(jù)集)的全部數(shù)據(jù)、回歸分析過程中產(chǎn)生的各種統(tǒng)計(jì)量以及針對(duì)每一觀測(cè)的回歸診斷指標(biāo)數(shù)據(jù)等。但如果輸入數(shù)據(jù)類型為corr、cov或sscp等,output語句則會(huì)失效。 plot語句:用以對(duì)兩個(gè)變量繪制散點(diǎn)圖,表達(dá)式中位置在前(在乘號(hào)“*”之前)的變量作為散點(diǎn)圖的y軸,位置在后的變量作為散點(diǎn)圖的x軸。等號(hào)后的符號(hào)為散點(diǎn)圖中表示點(diǎn)的圖形符號(hào),此項(xiàng)內(nèi)容可省略,SAS會(huì)用默認(rèn)方式顯示圖形,但如需指定,符號(hào)要用單引號(hào)括起來。,本章小節(jié),相關(guān)分析和回歸分析是研究現(xiàn)象之間相關(guān)關(guān)系的兩種基本方法。相關(guān)是解決客觀事物或現(xiàn)象相互關(guān)系密切程度的問題,而回歸則是用函數(shù)的形式表示出因果關(guān)系。有相關(guān)不一定因果關(guān)系;反之,有因

21、果關(guān)系的,一定有相關(guān)。 所謂相關(guān)分析,就是用一個(gè)指標(biāo)來表明現(xiàn)象間相互依存關(guān)系的密切程度。按相關(guān)程度劃分可分為完全相關(guān)、不完全相關(guān)、和不相關(guān);按相關(guān)方向劃分可分為正相關(guān)和負(fù)相關(guān);按相關(guān)的形式劃分可分為線形相關(guān)和非線形相關(guān);按變量多少劃分可分為單相關(guān)、復(fù)相關(guān)和偏相關(guān)。所謂相關(guān)分析,就是分析測(cè)定變量間相互依存關(guān)系的密切程度的統(tǒng)計(jì)方法。一般可以借助相關(guān)系數(shù)、相關(guān)表與相關(guān)圖來進(jìn)行相關(guān)分析。,本章小節(jié),SAS系統(tǒng)中進(jìn)行直線相關(guān)分析的過程步是CORR過程。CORR過程存在于SAS的base模塊,可以計(jì)算Pearson積矩相關(guān)系數(shù)、Spearman秩相關(guān)系數(shù)、Kendalls tau-b統(tǒng)計(jì)量、Hoeffdi

22、ngs獨(dú)立性分析統(tǒng)計(jì)量D以及Pearson,Spearman,以及Kendall偏相關(guān)系數(shù)。 REG是用于一般目的回歸分析的過程。本章詳細(xì)對(duì)REG過程語句和基本格式進(jìn)行了說明,并以實(shí)例演示如何利用SAS程序進(jìn)行相關(guān)分析。,本章小節(jié),直線回歸分析的任務(wù)在于找出兩個(gè)變量有依存關(guān)系的直線方程,以確定一條最接近于各實(shí)測(cè)點(diǎn)的直線,使各實(shí)測(cè)點(diǎn)與該線的縱向距離的平方和為最小。這個(gè)方程稱為直線回歸方程,據(jù)此方程描繪的直線就是回歸直線。相關(guān)關(guān)系能說明現(xiàn)象間有無關(guān)系,但它不能說明一個(gè)現(xiàn)象發(fā)生一定量的變化時(shí),另一個(gè)變量將會(huì)發(fā)生多大量的變化。也就是說,它不能說明兩個(gè)變量之間的一般數(shù)量關(guān)系值?;貧w分析,是指在相關(guān)分析的

23、基礎(chǔ)上,把變量之間的具體變動(dòng)關(guān)系模型化,求出關(guān)系方程式,就是找出一個(gè)能夠反映變量間變化關(guān)系的函數(shù)關(guān)系式,并據(jù)此進(jìn)行估計(jì)和推算。,第10章 多元線性回歸與相關(guān),學(xué)習(xí)目標(biāo),熟悉多元線性回歸模型矩陣形式; 掌握多元線性回歸模型、參數(shù)估計(jì)過程及參數(shù)的解釋, 標(biāo)準(zhǔn)化參數(shù)估計(jì)值; 了解多元線性回歸共線性的診斷問題; 理解復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù); 掌握多元線性回歸的SAS程序(REG過程以及選項(xiàng))。 熟悉計(jì)算偏相關(guān)系數(shù)的SAS程序。,多元線性回歸與相關(guān)的基礎(chǔ)理論,在許多實(shí)際問題中,還會(huì)遇到一個(gè)隨機(jī)變量與多個(gè)變量的相關(guān)關(guān)系問題,需要用多元回歸分析的方法來解決。前面介紹的一元回歸分析是其特殊情形。但由于多元回歸

24、分析比較復(fù)雜,在此僅簡要介紹多元線性回歸分析。 由于經(jīng)濟(jì)現(xiàn)象的復(fù)雜性,一個(gè)被解釋變量往往受多個(gè)解釋變量的影響。多元回歸模型就是在方程式中有兩個(gè)或兩個(gè)以上自變量的線性回歸模型。多元線性回歸預(yù)測(cè)是用多元線性回歸模型,對(duì)具有線性趨勢(shì)的稅收問題,使用多個(gè)影響因素所作的預(yù)測(cè)。,多元線性回歸,多元線性回歸分析也稱為復(fù)線性回歸分析,它是一元線性回歸分析或簡單線性回歸分析的推廣,它研究的是一組自變量如何直接影響一個(gè)因變量。這里的自變量指的是能獨(dú)立自由變化的變量,一般用x表示;因變量y指的是非獨(dú)立的、受其它變量影響的變量,一般用y表示。由于多元線性回歸分析(包括一元線性回歸分析)僅涉及到一個(gè)因變量,所以有時(shí)也稱

25、為單變量線性回歸分析。,回歸變量的選擇與逐步回歸,在實(shí)際問題中, 人們總是希望從對(duì)因變量有影響的諸多變量中選擇一些變量作為自變量, 應(yīng)用多元回歸分析的方法建立“最優(yōu)”回歸方程以便對(duì)因變量進(jìn)行預(yù)報(bào)或控制,這就涉及到自變量選擇的問題。所謂“最優(yōu)”回歸方程, 主要是指希望在回歸方程中包含所有對(duì)因變量影響顯著的自變量而不包含對(duì)影響不顯著的自變量的回歸方程。 在回歸方程中若漏掉對(duì)Y影響顯著的自變量,那么建立的回歸式用于預(yù)測(cè)時(shí)將會(huì)產(chǎn)生較大的偏差。但回歸方程若包含的變量太多,且其中有些對(duì)Y影響不大,顯然這樣的回歸式不僅使用不方便,而且反而會(huì)影響預(yù)測(cè)的精度。因而選擇合適的變量用于建立一個(gè)“最優(yōu)”的回歸方程是十

26、分重要的問題。,回歸變量的選擇與逐步回歸,選擇“最優(yōu)”回歸方程的變量篩選法包括逐步回歸法,向前引入法和向后剔除法。 向前引入法是從回歸方程僅包括常數(shù)項(xiàng)開始,把自變量逐個(gè)引入回歸方程。具體地說,先在m個(gè)自變量中選擇一個(gè)與因變量線性關(guān)系最密切的變量,記為,然后在剩余的m-1個(gè)自變量中,再選一個(gè),使得 聯(lián)合起來二元回歸效果最好,第三步在剩下的m-2個(gè)自變量中選擇一個(gè)變量,使得 聯(lián)合起來回歸效果最好,.如此下去,直至得到“最優(yōu)”回歸方程為止。,回歸變量的選擇與逐步回歸,向前引入法中的終止條件為,給定顯著性水平,當(dāng)某一個(gè)對(duì)將被引入變量的回歸系數(shù)作顯著性檢查時(shí),若p-value,則引入變量的過程結(jié)束,所得

27、方程即為“最優(yōu)”回歸方程。 向前引入法有一個(gè)明顯的缺點(diǎn),就是由于各自變量可能存在著相互關(guān)系,因此后續(xù)變量的選入可能會(huì)使前面已選入的自變量變得不重要。這樣最后得到的“最優(yōu)”回歸方程可包含一些對(duì)Y影響不大的自變量。,回歸變量的選擇與逐步回歸,向后剔除法與向前引入法正好相反,首先將全部m個(gè)自變量引入回歸方程,然后逐個(gè)剔除對(duì)因變量Y作用不顯著的自變量。具體地說,從回歸式m個(gè)自變量中選擇一個(gè)對(duì)Y貢獻(xiàn)最小的自變量,比如,將它從回歸方程中剔除;然后重新計(jì)算Y與剩下的m-1個(gè)自變量回歸方程,再剔除一個(gè)貢獻(xiàn)最小的自變量,比如,依次下去,直到得到“最優(yōu)”回歸方程為止。向后剔除法中終止條件與向前引入法類似。 向后剔

28、除法的缺點(diǎn)在于,前面剔除的變量有可能因以后變量的剔除,變?yōu)橄鄬?duì)重要的變量,這樣最后得到的“最優(yōu)”回歸方程中有可能漏掉相對(duì)重要的變量。,回歸變量的選擇與逐步回歸,逐步回歸法是上述兩個(gè)方法的綜合。向前引入中被選入的變量,將一直保留在方程中。向后剔除法中被剔除的變量,將一直排除在外。這兩種方程在某些情況下會(huì)得到不合理的結(jié)果。于是,可以考慮到,被選入的的變量,當(dāng)它的作用在新變量引入后變得微不足道時(shí),可以將它刪除;被剔除的變量,當(dāng)它的作用在新變量引入情況下變得重要時(shí),也可將它重新選入回歸方程。這樣一種以向前引入法為主,變量可進(jìn)可出的篩選變量方法,稱為逐步回歸法。,回歸變量的選擇與逐步回歸,它的主要思路是

29、在考慮的全部自變量中按其對(duì)的作用大小,顯著程度大小或者說貢獻(xiàn)大小,由大到小地逐個(gè)引入回歸方程,而對(duì)那些對(duì)作用不顯著的變量可能始終不被引人回歸方程。另外,己被引人回歸方程的變量在引入新變量后也可能失去重要性,而需要從回歸方程中剔除出去。引人一個(gè)變量或者從回歸方程中剔除一個(gè)變量都稱為逐步回歸的一步,每一步都要進(jìn)行檢驗(yàn),以保證在引人新變量前回歸方程中只含有對(duì)影響顯著的變量,而不顯著的變量已被剔除。 首先給出引入變量的顯著性水平和剔除變量的顯著性水平,然后篩選變量。,回歸變量的選擇與逐步回歸,回歸變量的選擇與逐步回歸,逐步回歸分析的實(shí)施過程是每一步都要對(duì)已引入回歸方程的變量計(jì)算其偏回歸平方和(即貢獻(xiàn))

30、,然后選一個(gè)偏回歸平方和最小的變量,在預(yù)先給定的水平下進(jìn)行顯著性檢驗(yàn),如果顯著則該變量不必從回歸方程中剔除,這時(shí)方程中其它的幾個(gè)變量也都不需要剔除(因?yàn)槠渌膸讉€(gè)變量的偏回歸平方和都大于最小的一個(gè)更不需要剔除)。相反,如果不顯著,則該變量要剔除,然后按偏回歸平方和由小到大地依次對(duì)方程中其它變量進(jìn)行檢驗(yàn)。將對(duì)影響不顯著的變量全部剔除,保留的都是顯著的。接著再對(duì)未引人回歸方程中的變量分別計(jì)算其偏回歸平方和,并選其中偏回歸平方和最大的一個(gè)變量,同樣在給定水平下作顯著性檢驗(yàn),如果顯著則將該變量引入回歸方程,這一過程一直繼續(xù)下去,直到在回歸方程中的變量都不能剔除而又無新變量可以引入時(shí)為止,這時(shí)逐步回歸過

31、程結(jié)束。,多重共線性,回歸分析是一種比較成熟的預(yù)測(cè)模型,也是在預(yù)測(cè)過程中使用較多的模型,在自然科學(xué)管理科學(xué)和社會(huì)經(jīng)濟(jì)中有著非常廣泛的應(yīng)用,但是經(jīng)典的最小二乘估計(jì),必需滿足一些假設(shè)條件,多重共線性就是其中的一種。實(shí)際上,解釋變量間完全不相關(guān)的情形是非常少見的,大多數(shù)變量都在某種程度上存在著一定的共線性,而存在著共線性會(huì)給模型帶來許多不確定性的結(jié)果。,多重共線性,設(shè)回歸模型 如果矩陣X的列向量存在一組不全為零的數(shù), I =1,2,n,則稱其存在完全共線性,如果, I =1,2,n,則稱其存在近似的多重共線性。,多重共線性,當(dāng)存在嚴(yán)重的多重共線性時(shí),會(huì)給回歸系數(shù)的統(tǒng)計(jì)檢驗(yàn)造成一定的困難,可能造成F檢

32、驗(yàn)獲得通過,T檢驗(yàn)卻不能夠通過。在自變量高度相關(guān)的情況下,估計(jì)系數(shù)的含義有可能與常識(shí)相反。在進(jìn)行預(yù)測(cè)時(shí),因?yàn)榛貧w模型的建立是基于樣本數(shù)據(jù)的,多重共線性也是指抽樣的數(shù)據(jù)。如果把建立的回歸模型用于預(yù)測(cè),而多重共線性問題在預(yù)測(cè)區(qū)間仍然存在,則共線性問題對(duì)預(yù)測(cè)結(jié)果不會(huì)產(chǎn)生特別嚴(yán)重的影響,但是如果樣本數(shù)據(jù)中的多重共線性發(fā)生了變化則預(yù)測(cè)的結(jié)果就不能完全的確定了。,多重共線性檢驗(yàn),檢查和解決自變量之間的多重共線性,多多元線性回歸分析來說是很必要和重要的一個(gè)步驟,常用的共線性診斷方法包括: 直觀的判斷方法 方差擴(kuò)大因子法(VIF) 特征根判定法,直觀的判斷方法,在自變量 的相關(guān)系數(shù)矩陣中,有某些自變量的相關(guān)系

33、數(shù)值比較大。 回歸系數(shù)的符號(hào)與專業(yè)知識(shí)或一般經(jīng)驗(yàn)相反 對(duì)重要的自變量的回歸系數(shù)進(jìn)行t檢驗(yàn),其結(jié)果不顯著,但是F檢驗(yàn)確得到了顯著 的通過 如果增加一個(gè)變量或刪除一個(gè)變量,回歸系數(shù)的估計(jì)值發(fā)生了很大的變化 重要變量的回歸系數(shù)置信區(qū)間明顯過大,方差擴(kuò)大因子法(VIF),一般認(rèn)為如果最大的 超過10,常常表示存在多重共線性。事實(shí)上 10這說明 0.9。,特征根判定法,根據(jù)矩陣行列式性質(zhì),矩陣行列式的值等于其特征根的連乘積。因此,當(dāng)行列式| |0時(shí),至少有一個(gè)特征根為零,反過來,可以證明矩陣至少有一個(gè)特征根近似為零時(shí),X的列向量必存在多重共線性,同樣也可證明 有多少個(gè)特征根近似為零矩陣X就有多少個(gè)多重共

34、線性。根據(jù)條件數(shù) , 其中 為最大的特征根. 為其他的特征根,通常認(rèn)為010存在著多重共線性。,多重共線性的處理方法,增加樣本容量,當(dāng)線性重合是由于測(cè)量誤差引起的以及他僅是偶然存在于原始樣本,而不存在于總體時(shí),通過增加樣本容量可以減少或是避免線性重合,但是在現(xiàn)實(shí)的生活中,由于受到各種條件的限制增加樣本容量有時(shí)又是不現(xiàn)實(shí)的 剔除一些不重要的解釋變量,主要有向前法和后退法,逐步回歸法。,多重共線性的處理方法,前進(jìn)法的主要思想是變量由少到多的,每次增加一個(gè),直至沒有可引入的變量為止。具體做法是首先對(duì)一個(gè)因變量y和m個(gè)自變量分別建立回歸方程,并分別計(jì)算這m個(gè)回歸方程的F值,選其最大者,記為Fj,,給定

35、顯著性水平F,如果FjF,則變量引入該方程,再分別對(duì)(Xj,X1),(Xj,X2)(Xj,Xm)做回歸方程,并對(duì)他們進(jìn)行F檢驗(yàn),選擇最大的Fi值,如果Fi.F,則該變量引入方程,重復(fù)上述步驟,直到?jīng)]有變量引入為止。 后退法,是先用m個(gè)因變量建立回歸方程,然后在這m個(gè)變量中選擇一個(gè)最不顯著的變量將它從方程中剔除,對(duì)m個(gè)回歸系數(shù)進(jìn)行F檢驗(yàn),記所求得的最小的一個(gè)記為Fj,給定一個(gè)顯著性的水平,如果FjF則將Xj從方程中刪除,重復(fù)上述步驟直到所有不顯著的變量被剔除為止。,多重共線性的處理方法,逐步回歸法,前進(jìn)法存在著這樣的缺點(diǎn)當(dāng)一個(gè)變量被引入方程時(shí),這個(gè)變量就被保留在這個(gè)方程中了,當(dāng)引入的變量導(dǎo)致其不

36、顯著時(shí),它也不會(huì)被刪除掉,后退法同樣存在著這樣的缺點(diǎn),當(dāng)一個(gè)變量被剔除時(shí)就永遠(yuǎn)的被排斥在方程以外了,而逐步回歸法克除了兩者的缺點(diǎn)。逐步回歸的思想是有進(jìn)有出。將變量一個(gè)一個(gè)的引入,每引入一個(gè)變量對(duì)后面的變量進(jìn)行逐個(gè)檢驗(yàn),當(dāng)變量由于后面變量的引入而不變的不顯著時(shí)將其剔除,進(jìn)行每一步都要進(jìn)行顯著性的檢驗(yàn),以保證每一個(gè)變量都是顯著的。,多重共線性的處理方法,主成分法。當(dāng)自變量間有較強(qiáng)的線性相關(guān)性時(shí),利用P個(gè)變量的主成分,所具有的性質(zhì),如果他們是互不相關(guān)的,可由前 m個(gè)主成來建立回歸模型。 由原始變量的觀測(cè)數(shù)據(jù)計(jì)算前m個(gè)主成分的的得分值,將其作為主成分的觀測(cè)值,建立Y與主成分的回歸模型即得回歸方程。這時(shí)P元降為 m元,這樣既簡化了回歸方程的結(jié)構(gòu),且消除了變量間相關(guān)性帶來的影響。,復(fù)相關(guān)系數(shù)與偏相關(guān)系數(shù),在學(xué)習(xí)一元線性回歸分析時(shí),討論了與之緊密聯(lián)系的一元相關(guān)分析或簡單相關(guān)分析。將這個(gè)概念擴(kuò)展到多元,就是多元相關(guān)分析或復(fù)相關(guān)分析。簡單相關(guān)分析研究兩個(gè)變量之間的關(guān)聯(lián)性,復(fù)相關(guān)研究多個(gè)變量之間的關(guān)聯(lián)性。,復(fù)相關(guān)系數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論