統(tǒng)計(jì)建?;貧w分析_第1頁(yè)
統(tǒng)計(jì)建?;貧w分析_第2頁(yè)
統(tǒng)計(jì)建模回歸分析_第3頁(yè)
統(tǒng)計(jì)建?;貧w分析_第4頁(yè)
統(tǒng)計(jì)建模回歸分析_第5頁(yè)
已閱讀5頁(yè),還剩57頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

統(tǒng)計(jì)建?;貧w分析第1頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月相關(guān)分析對(duì)于現(xiàn)實(shí)世界,不僅要知其然,而且要知其所以然。顧客對(duì)商品和服務(wù)的反映對(duì)于企業(yè)是至關(guān)重要的,但是僅僅有滿意顧客的比例是不夠的;商家希望了解什么是影響顧客觀點(diǎn)的因素,及這些因素如何起作用。類似地,醫(yī)療衛(wèi)生部門不能僅僅知道某流行病的發(fā)病率,而且想知道什么變量影響發(fā)病率,以及如何影響。第2頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月相關(guān)分析發(fā)現(xiàn)變量之間的統(tǒng)計(jì)關(guān)系,并且用此規(guī)律來(lái)幫助我們進(jìn)行決策才是統(tǒng)計(jì)實(shí)踐的最終目的。一般來(lái)說(shuō),統(tǒng)計(jì)可以根據(jù)目前所擁有的信息(數(shù)據(jù))來(lái)建立人們所關(guān)心的變量和其他有關(guān)變量的關(guān)系。這種關(guān)系一般稱為模型(model)。第3頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月如果兩個(gè)定量變量沒(méi)有關(guān)系,就談不上建立模型或進(jìn)行回歸。但怎樣才能發(fā)現(xiàn)兩個(gè)變量有沒(méi)有關(guān)系呢?最簡(jiǎn)單的直觀辦法就是畫出它們的散點(diǎn)圖。下面是四組數(shù)據(jù)的散點(diǎn)圖;每一組數(shù)據(jù)表示了兩個(gè)變量x和y的樣本。第4頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月不相關(guān)正線性相關(guān)負(fù)線性相關(guān)相關(guān)但非線性相關(guān)第5頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月Pearson相關(guān)系數(shù)(Pearson’scorrelationcoefficient)又叫相關(guān)系數(shù)或線性相關(guān)系數(shù)Kendallt

相關(guān)系數(shù)(Kendall’st)Spearman秩相關(guān)系數(shù)(Spearmanrankcorrelationcoefficient或Spearman’sr)相關(guān)性的度量第6頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月相關(guān)系數(shù)也是取值在-1和1之間當(dāng)兩個(gè)變量有很強(qiáng)的線性相關(guān)時(shí),相關(guān)系數(shù)接近于1(正相關(guān))或-1(負(fù)相關(guān))當(dāng)兩個(gè)變量不那么線性相關(guān)時(shí),相關(guān)系數(shù)就接近0。第7頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月SPSS的相關(guān)分析相關(guān)分析(hischool.sav)利用SPSS選項(xiàng):Analize-Correlate-Bivariate再把兩個(gè)有關(guān)的變量(這里為j3和s1)選入,選擇Pearson,Spearman和Kendall就可以得出這三個(gè)相關(guān)系數(shù)和有關(guān)的檢驗(yàn)結(jié)果了(零假設(shè)均為不相關(guān))。第8頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月例1有50個(gè)從初中升到高中的學(xué)生。為了比較初三的成績(jī)是否和高中的成績(jī)相關(guān),得到了他們?cè)诔跞透咭坏母骺破骄煽?jī)(數(shù)據(jù)在highschool.sav)。這兩個(gè)成績(jī)的散點(diǎn)圖如下。第9頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月但對(duì)于具體個(gè)人來(lái)說(shuō),大約有一半的學(xué)生的高一平均成績(jī)比初三時(shí)下降,而另一半沒(méi)有變化或有進(jìn)步第10頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月目前的問(wèn)題是怎么判斷這兩個(gè)變量是否相關(guān)、如何相關(guān)及如何度量相關(guān)?能否以初三成績(jī)?yōu)樽宰兞?,高一成?jī)?yōu)橐蜃兞縼?lái)建立一個(gè)回歸模型以描述這樣的關(guān)系,或用于預(yù)測(cè)。第11頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月該數(shù)據(jù)中,除了初三和高一的成績(jī)之外,還有一個(gè)定性變量(沒(méi)有出現(xiàn)在上面的散點(diǎn)圖中)。它是學(xué)生在高一時(shí)的家庭收入狀況;它有三個(gè)水平:低、中、高,分別在數(shù)據(jù)中用1、2、3表示。第12頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月為研究家庭收入情況對(duì)學(xué)生成績(jī)變化的影響,下面點(diǎn)出兩個(gè)盒形圖,左邊一個(gè)是不同收入群體的高一成績(jī)的盒形圖,右邊一個(gè)是不同收入群體的高一和初三成績(jī)之差的盒形圖。第13頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月到底學(xué)生在高一的家庭收入對(duì)成績(jī)有影響嗎?是什么樣的影響?是否可以取初三成績(jī)(這是定量變量)或(和)家庭收入(定性變量)為自變量,而取高一成績(jī)?yōu)橐蜃兞浚瑏?lái)建立一個(gè)描述這些變量之間關(guān)系的回歸模型呢?第14頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月初三和高一成績(jī)的Pearson相關(guān)系數(shù),Kendallt

相關(guān)系數(shù)和Spearman秩相關(guān)系數(shù)分別為0.795,0.595和0.758。這三個(gè)統(tǒng)計(jì)量相關(guān)的檢驗(yàn)(零假設(shè)均為不相關(guān))全部顯著,p-值都是0.000。注意這種0.000的表示并不表示這些p-值恰好等于零,只是小數(shù)點(diǎn)前三位是0而已。第15頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月一元線性回歸分析對(duì)例1中的兩個(gè)變量的數(shù)據(jù)進(jìn)行線性回歸,就是要找到一條直線來(lái)適當(dāng)?shù)卮韴D1中的那些點(diǎn)的趨勢(shì)。首先需要確定選擇這條直線的標(biāo)準(zhǔn)。這里介紹最小二乘回歸(leastsquaresregression)。古漢語(yǔ)“二乘”是平方的意思。這就是尋找一條直線,使得所有點(diǎn)到該直線的豎直距離的平方和最小。用數(shù)據(jù)尋找一條直線的過(guò)程也叫做擬合(fit)一條直線。第16頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月

1.一元線性回歸的基本概念一元線性回歸可用來(lái)分析自變量x取值與因變量Y取值的內(nèi)在聯(lián)系,不過(guò)這里的自變量x是確定性的變量,因變量Y是隨機(jī)性的變量。進(jìn)行n次獨(dú)立試驗(yàn),測(cè)得數(shù)據(jù)如下:一元線性回歸第17頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月由回歸方程可以推出

根據(jù)樣本及其觀測(cè)值可以得到α、β及σ2的估計(jì)量及估計(jì)值

得到回歸方程的估計(jì)式或經(jīng)驗(yàn)回歸方程

一元線性回歸第18頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月有多種確定回歸方程也就是確定未知參數(shù)的方法,其中最常用的是最小二乘法,即求出,使下列函數(shù)最小一元線性回歸第19頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月Regression菜單線性回歸:

包括簡(jiǎn)單線性回歸和多元線性回歸,由Linear過(guò)程實(shí)現(xiàn)非線性回歸

是線性趨勢(shì)向非線性趨勢(shì)的拓展,包括CurveEstimation過(guò)程和NonlinearRegression過(guò)程第20頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月分析步驟做出散點(diǎn)圖,觀察變量間的趨勢(shì)??疾鞌?shù)據(jù)的分布,做必要的預(yù)處理

分析變量的正態(tài)性和方差齊性等問(wèn)題。進(jìn)行線性回歸分析殘差分析,檢查殘差的獨(dú)立性和正態(tài)性強(qiáng)影響點(diǎn)的診斷和多重共線性問(wèn)題的判斷第21頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月常用指標(biāo)偏回歸系數(shù)b

反映相應(yīng)一個(gè)自變量上升一個(gè)單位時(shí),應(yīng)變量取值的變動(dòng)情況決定系數(shù)R2

即相應(yīng)的相關(guān)系數(shù)的平方,用R2表示。反映應(yīng)變量y的全部變異中能夠通過(guò)回歸關(guān)系被自變量解釋的比例。R2越接近1越好第22頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月回歸直線意義的F檢驗(yàn)

統(tǒng)計(jì)量F=平均回歸平方和/平均殘差平方和。若F值過(guò)小說(shuō)明自變量對(duì)因變量的解釋力度很差,配合回歸直線沒(méi)有意義(但Sig越小越好)殘差的獨(dú)立性檢驗(yàn)

Durbin-Watson檢驗(yàn)的參數(shù)D的取值范圍是0<D<4,與2越接近表示殘差與自變量越獨(dú)立第23頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月SPSS的回歸分析自變量和因變量都是定量變量時(shí)的線性回歸分析(hischool.sav)

利用SPSS選項(xiàng):Analize-Regression-Linear再把有關(guān)的自變量選入Independent,把因變量選入Dependent,然后OK即可。如果自變量有多個(gè)(多元回歸模型),只要都選入就行。第24頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月例1(繼續(xù))根據(jù)計(jì)算,找到初三成績(jī)和高一成績(jī)的回歸直線。計(jì)算機(jī)輸出給出來(lái)截距(Constant)26.444和斜率(變量j3的系數(shù))0.651。第25頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月截距=26.444;斜率=0.651第26頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月這個(gè)直線實(shí)際上是對(duì)所假設(shè)的下面線性回歸模型的估計(jì)(這里的e是隨機(jī)誤差):我們得到的截距和斜率(26.444和0.651)是對(duì)b0和b1的估計(jì)。第27頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月估計(jì)量是個(gè)隨機(jī)變量,可以用它們的分布構(gòu)造檢驗(yàn)統(tǒng)計(jì)量來(lái)檢驗(yàn)b0和b1是否顯著。假設(shè)檢驗(yàn)問(wèn)題:計(jì)算機(jī)輸出也給出了這個(gè)檢驗(yàn):t檢驗(yàn)統(tǒng)計(jì)量為9.089,而p-值為0.000。第28頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月

R2=0.632;這說(shuō)明這里的自變量可以大約解釋63%的因變量的變化。R2越接近1,回歸就越成功。由于R2有當(dāng)變量數(shù)目增加而增大的缺點(diǎn),人們對(duì)其進(jìn)行修改;有一修正的R2(adjustedRsquare)。第29頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月此外,計(jì)算機(jī)還計(jì)算了一個(gè)在零假設(shè)下有F分布的檢驗(yàn)統(tǒng)計(jì)量,它是用來(lái)檢驗(yàn)回歸擬合好壞的(零假設(shè)是因變量和自變量沒(méi)有關(guān)系)。第30頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸方程的殘差分析(一)殘差序列的正態(tài)性檢驗(yàn):繪制標(biāo)準(zhǔn)化殘差的直方圖或累計(jì)概率圖(二)殘差序列的隨機(jī)性檢驗(yàn)繪制殘差和預(yù)測(cè)值的散點(diǎn)圖,應(yīng)隨機(jī)分布在經(jīng)過(guò)零的一條直線上下(三)殘差序列的等方差性檢驗(yàn)隨機(jī)、等方差、獨(dú)立隨機(jī)、異方差、獨(dú)立非獨(dú)立第31頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸方程的殘差分析(四)殘差序列獨(dú)立性檢驗(yàn):殘差序列是否存在后期值與前期值相關(guān)的現(xiàn)象,利用D.W(Durbin-Watson)檢驗(yàn)d-w=0:殘差序列存在完全正自相關(guān);d-w=4:殘差序列存在完全負(fù)自相關(guān);0<d-w<2:殘差序列存在某種程度的正自相關(guān);2<d-w<4:殘差序列存在某種程度的負(fù)自相關(guān);d-w=2:殘差序列不存在自相關(guān).殘差序列不存在自相關(guān),可以認(rèn)為回歸方程基本概括了因變量的變化;否則,認(rèn)為可能一些與因變量相關(guān)的因素沒(méi)有引入回歸方程或回歸模型不合適或滯后性周期性的影響.第32頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸方程的殘差分析(五)異常值(casewise或outliers)診斷利用標(biāo)準(zhǔn)化殘差不僅可以知道觀察值比預(yù)測(cè)值大或小,并且還知道在絕對(duì)值上它比大多數(shù)殘差是大還是小.一般標(biāo)準(zhǔn)化殘差的絕對(duì)值大于3,則可認(rèn)為對(duì)應(yīng)的樣本點(diǎn)為奇異值異常值并不總表現(xiàn)出上述特征.當(dāng)剔除某觀察值后,回歸方程的標(biāo)準(zhǔn)差顯著減小,也可以判定該觀察值為異常值第33頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸方程的預(yù)測(cè)(一)點(diǎn)估計(jì)y0(二)區(qū)間估計(jì)95%的近似置信區(qū)間:x0為xi的均值時(shí),預(yù)測(cè)區(qū)間最小,精度最高.x0越遠(yuǎn)離均值,預(yù)測(cè)區(qū)間越大,精度越低.第34頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月一元線性回歸分析操作(一)基本操作步驟(1)菜單選項(xiàng):Analyze->regression->linear…(2)選擇一個(gè)變量為因變量進(jìn)入dependent框(3)選擇一個(gè)變量為自變量進(jìn)入independent框(4)enter:所選變量全部進(jìn)入回歸方程(默認(rèn)方法)(5)對(duì)樣本進(jìn)行篩選(selectionvariable)利用滿足一定條件的樣本數(shù)據(jù)進(jìn)行回歸分析(6)指定作圖時(shí)各數(shù)據(jù)點(diǎn)的標(biāo)志變量(caselabels)第35頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月一元線性回歸分析操作(二)statistics選項(xiàng)(1)基本統(tǒng)計(jì)量輸出Estimates:默認(rèn).顯示回歸系數(shù)相關(guān)統(tǒng)計(jì)量.confidenceintervals:每個(gè)非標(biāo)準(zhǔn)化的回歸系數(shù)95%的置信區(qū)間.Descriptive:各變量均值、標(biāo)準(zhǔn)差和相關(guān)系數(shù)單側(cè)檢驗(yàn)概率.Modelfit:默認(rèn).判定系數(shù)、估計(jì)標(biāo)準(zhǔn)誤差、方差分析表、容忍度(2)Residual框中的殘差分析Durbin-waston:D-W值casewisediagnostic:異常值(奇異值)檢測(cè)(輸出預(yù)測(cè)值及殘差和標(biāo)準(zhǔn)化殘差)第36頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月一元線性回歸分析操作(三)plot選項(xiàng):圖形分析.Standardizeresidualplots:繪制殘差序列直方圖和累計(jì)概率圖,檢測(cè)殘差的正態(tài)性繪制指定序列的散點(diǎn)圖,檢測(cè)殘差的隨機(jī)性、異方差性ZPRED:標(biāo)準(zhǔn)化預(yù)測(cè)值ZRESID:標(biāo)準(zhǔn)化殘差SRESID:學(xué)生化殘差produceallpartialplot:繪制因變量和所有自變量之間的散點(diǎn)圖第37頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸人的體重與身高、胸圍血壓值與年齡、性別、勞動(dòng)強(qiáng)度、飲食習(xí)慣、吸煙狀況、家族史糖尿病人的血糖與胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂第38頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸分析一般的有k個(gè)(定量)自變量x1,x2…,xk的對(duì)因變量y的線性回歸模型稱為多元回歸,模型為這里b0,b1,…,bk稱為回歸系數(shù)。對(duì)統(tǒng)計(jì)軟件來(lái)說(shuō),計(jì)算多個(gè)自變量的回歸和計(jì)算一個(gè)自變量的情況類似。第39頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元回歸分析數(shù)據(jù)格式第40頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸分析的一般步驟

第41頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元回歸的假設(shè)檢驗(yàn)第42頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月自變量的挑選在多個(gè)自變量中,對(duì)因變量起決定性作用的往往只有少數(shù)一部分。系統(tǒng)可以根據(jù)因變量作用的大小,從選定的自變量中篩選出一部分變量作為回歸模型的自變量留在模型中的自變量應(yīng)該是對(duì)因變量的變化貢獻(xiàn)較大的變量第43頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸分析中的自變量篩選(一)自變量篩選的目的多元回歸分析引入多個(gè)自變量.如果引入的自變量個(gè)數(shù)較少,則不能很好的說(shuō)明因變量的變化;并非自變量引入越多越好.原因:有些自變量可能對(duì)因變量的解釋沒(méi)有貢獻(xiàn)自變量間可能存在較強(qiáng)的線性關(guān)系,即:多重共線性.因而不能全部引入回歸方程.第44頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸分析中的自變量篩選(二)自變量向前篩選法(forward):即:自變量不斷進(jìn)入回歸方程的過(guò)程.首先,選擇與因變量具有最高相關(guān)系數(shù)的自變量進(jìn)入方程,并進(jìn)行各種檢驗(yàn);其次,在剩余的自變量中尋找偏相關(guān)系數(shù)最高的變量進(jìn)入回歸方程,并進(jìn)行檢驗(yàn);默認(rèn):回歸系數(shù)檢驗(yàn)的概率值小于PIN(0.05)才可以進(jìn)入方程.反復(fù)上述步驟,直到?jīng)]有可進(jìn)入方程的自變量為止. 第45頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸分析中的自變量篩選(三)自變量向后篩選法(backward):即:自變量不斷剔除出回歸方程的過(guò)程.首先,將所有自變量全部引入回歸方程;其次,在一個(gè)或多個(gè)t值不顯著的自變量中將t值最小的那個(gè)變量剔除出去,并重新擬和方程和進(jìn)行檢驗(yàn);默認(rèn):回歸系數(shù)檢驗(yàn)值大于POUT(0.10),則剔除出方程如果新方程中所有變量的回歸系數(shù)t值都是顯著的,則變量篩選過(guò)程結(jié)束.否則,重復(fù)上述過(guò)程,直到無(wú)變量可剔除為止.第46頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸分析中的自變量篩選(四)自變量逐步篩選法(stepwise):即:是“向前法”和“向后法”的結(jié)合。向前法只對(duì)進(jìn)入方程的變量的回歸系數(shù)進(jìn)行顯著性檢驗(yàn),而對(duì)已經(jīng)進(jìn)入方程的其他變量的回歸系數(shù)不再進(jìn)行顯著性檢驗(yàn),即:變量一旦進(jìn)入方程就不會(huì)被剔除隨著變量的逐個(gè)引進(jìn),由于變量之間存在著一定程度的相關(guān)性,使得已經(jīng)進(jìn)入方程的變量其回歸系數(shù)不再顯著,因此會(huì)造成最后的回歸方程可能包含不顯著的變量。逐步篩選法則在變量的每一個(gè)階段都考慮剔除一個(gè)變量的可能性。第47頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸分析中的共線性檢測(cè)(一)共線性帶來(lái)的主要問(wèn)題高度的多重共線性會(huì)使回歸系數(shù)的標(biāo)準(zhǔn)差隨自變量相關(guān)性的增大而不斷增大,以至使回歸系數(shù)的置信區(qū)間不斷增大,造成估計(jì)值精度減低.回歸方程檢驗(yàn)顯著但所有偏回歸系數(shù)均檢驗(yàn)不顯著偏回歸系數(shù)估計(jì)值大小或符號(hào)與常識(shí)不符定性分析對(duì)因變量肯定有顯著影響的因素,在多元分析中檢驗(yàn)不顯著,不能納入方程去除一個(gè)變量,偏回歸系數(shù)估計(jì)值發(fā)生巨大變化第48頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸分析中的共線性檢測(cè)(二)共線性診斷自變量的容忍度(tolerance)和方差膨脹因子容忍度:Toli=1-Ri2.其中:Ri2是自變量xi與方程中其他自變量間的復(fù)相關(guān)系數(shù)的平方.容忍度越大則與方程中其他自變量的共線性越低,應(yīng)進(jìn)入方程.(具有太小容忍度的變量不應(yīng)進(jìn)入方程,spss會(huì)給出警告)(據(jù)經(jīng)驗(yàn)T<0.1一般認(rèn)為具有多重共線性)方差膨脹因子(VIF):容忍度的倒數(shù)SPSS在回歸方程建立過(guò)程中不斷計(jì)算待進(jìn)入方程自變量的容忍度,并顯示目前的最小容忍度第49頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸分析中的共線性檢測(cè)(二)共線性診斷用特征根刻畫自變量的方差如果自變量間確實(shí)存在較強(qiáng)的相關(guān)關(guān)系,那么它們之間必然存在信息重疊,于是可從這些自變量中提取出既能反映自變量信息(方差)又相互獨(dú)立的因素(成分)來(lái).從自變量的相關(guān)系數(shù)矩陣出發(fā),計(jì)算相關(guān)系數(shù)矩陣的特征根,得到相應(yīng)的若干成分.如果特征根中有一個(gè)特征根值遠(yuǎn)遠(yuǎn)大于其他特征根的值,則僅一個(gè)特征根就基本刻畫所有自變量絕大部分信息,自變量間一定存在相當(dāng)多的重疊信息如果某個(gè)特征根既能夠刻畫某個(gè)自變量方差的較大部分比例(如大于0.7),同時(shí)又可以刻畫另一個(gè)自變量方差的較大部分比例,則表明這兩個(gè)自變量間存在較強(qiáng)的多重共線性。第50頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸分析中的共線性檢測(cè)(二)共線性診斷條件指標(biāo)0<k<10無(wú)多重共線性;k>=30可能存在;k>=100嚴(yán)重第51頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多重共線性的對(duì)策增大樣本量(不太可能)多種自變量篩選方法結(jié)合(選擇最優(yōu)方程)人為去除次要變量(定性分析為較次要,或無(wú)需分析)主成分回歸分析(提取因子作為影響因素)第52頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸分析操作(一)基本操作步驟(1)菜單選項(xiàng):analyze->regression->linear…(2)選擇一個(gè)變量為因變量進(jìn)入dependent框(3)選擇一個(gè)或多個(gè)變量為自變量進(jìn)入independent框(4)選擇多元回歸分析的自變量篩選方法:enter:所選變量全部進(jìn)入回歸方程(默認(rèn)方法)remove:從回歸方程中剔除變量stepwise:逐步篩選;backward:向后篩選;forward:向前篩選(5)對(duì)樣本進(jìn)行篩選(selectionvariable)利用滿足一定條件的樣本數(shù)據(jù)進(jìn)行回歸分析(6)指定作圖時(shí)各數(shù)據(jù)點(diǎn)的標(biāo)志變量(caselabels)第53頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸分析操作(二)statistics選項(xiàng)(1)基本統(tǒng)計(jì)量輸出Partandpartialcorrelation:與Y的簡(jiǎn)單相關(guān)、偏相關(guān)和部分相關(guān)Rsquarechange:每個(gè)自變量進(jìn)入方程后R2及F值的變化量Collinearitydignostics:共線性診斷.第54頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月多元線性回歸分析操作(三)options選項(xiàng):steppingmethodcriteria:逐步篩選法參數(shù)設(shè)置.useprobabilityofF:以F值相伴概率作為變量進(jìn)入和剔除方程的標(biāo)準(zhǔn).一個(gè)變量的F值顯著性水平小于entry(0.05)則進(jìn)入方程;大于removal(0.1)則剔除出方程.因此:Entry<removaluseFvalue:以F值作為變量進(jìn)入(3.84)和剔除(2.71)方程的標(biāo)準(zhǔn)(四)save選項(xiàng):將回歸分析結(jié)果保存到數(shù)據(jù)編輯窗口中或某磁盤文件中第55頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸分析中的異方差問(wèn)題(一)什么是異方差回歸模型要求殘差序列服從均值為0并具有相同方差的正態(tài)分布,即:殘差分布幅度不應(yīng)隨自變量或因變量的變化而變化.否則認(rèn)為出現(xiàn)了異方差現(xiàn)象(二)舉例理解異方差收入水平和消費(fèi)種類打字時(shí)間和出錯(cuò)類型第56頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月線性回歸分析中的異方差問(wèn)題(三)異方差診斷可以通過(guò)繪制標(biāo)準(zhǔn)化殘差序列和因變量預(yù)測(cè)值(或每個(gè)自變量)的散點(diǎn)圖來(lái)識(shí)別是否存在異方差(四)異方差處理實(shí)施方差穩(wěn)定性變換殘差與yi(預(yù)測(cè)值)的平方根呈正比:對(duì)yi開(kāi)平方殘差與yi(預(yù)測(cè)值)呈正比:對(duì)yi取對(duì)數(shù).殘差與yi(預(yù)測(cè)值)的平方呈正比,則1/yi第57頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月曲線估計(jì)(curveestimate)(一)目的:

在一元回歸分析或時(shí)間序列中,因變量與自變量(時(shí)間)之間的關(guān)系不呈線性關(guān)系,但通過(guò)適當(dāng)處理,可以轉(zhuǎn)化為線性模型.可進(jìn)行曲線估計(jì).第58頁(yè),課件共62頁(yè),創(chuàng)作于2023年2月曲線估計(jì)(curveestimate)(二)曲線估計(jì)的常用模型:(t為時(shí)間,也可為某一自變量)y=b0+b1t (線性擬合linear)y=b0+b1t+b2t2 (二次曲線quadratic)y=b0+b1t+b2t2+b

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論