




下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、SPSS的相關(guān)分析和回歸分析,主要內(nèi)容,相關(guān)分析,線性回歸分析,回歸模型的檢驗(yàn),回歸模型的適用性,非線性回歸分析,移動(dòng)通信市場(chǎng)發(fā)展?jié)摿θ匀痪薮?數(shù)據(jù)來(lái)源: Datastream2005,移動(dòng)電話普及率將隨人均可支配收入的不斷增加而提升 國(guó)家“信息化帶動(dòng)工業(yè)化”戰(zhàn)略部署賦予電信業(yè)更大的發(fā)展空間與機(jī)遇,市場(chǎng)份額與盈利水平,市場(chǎng)份額與運(yùn)營(yíng)商數(shù)呈負(fù)相關(guān),與盈利能力呈正相關(guān)關(guān)系,國(guó)內(nèi)市場(chǎng)份額(2005年),EBITDA利潤(rùn)率(2005年),數(shù)據(jù)來(lái)源: 美林證券2005,概述,(一)相關(guān)關(guān)系 (1)函數(shù)關(guān)系:(如:銷(xiāo)售額與銷(xiāo)售量;圓面積和圓半徑.) 是事物間的一種一一對(duì)應(yīng)的確定性關(guān)系.即:當(dāng)一個(gè)變量x取一
2、定值時(shí),另一變量y可以依確定的關(guān)系取一個(gè)確定的值 (2)相關(guān)關(guān)系(統(tǒng)計(jì)關(guān)系):(如:收入和消費(fèi)) 事物間的關(guān)系不是確定性的.即:當(dāng)一個(gè)變量x取一定值時(shí),另一變量y的取值可能有幾個(gè).一個(gè)變量的值不能由另一個(gè)變量唯一確定,概述,相關(guān)關(guān)系的常見(jiàn)類(lèi)型: 線性相關(guān):正線性相關(guān)、負(fù)線性相關(guān) 非線性相關(guān) 相關(guān)關(guān)系不象函數(shù)關(guān)系那樣直接,但卻普遍存在,且有強(qiáng)有弱.如何測(cè)度?,概述,(二) 相關(guān)分析的任務(wù) 研究對(duì)象:相關(guān)關(guān)系 相關(guān)分析旨在測(cè)度變量間線性關(guān)系的強(qiáng)弱程度. 回歸分析側(cè)重考察變量之間的數(shù)量變化規(guī)律,并通過(guò)一定的數(shù)學(xué)表達(dá)式來(lái)描述這種關(guān)系,進(jìn)而確定一個(gè)或幾個(gè)變量的變化對(duì)另一個(gè)變量的影響程度.,相關(guān)分析,(一
3、)目的 通過(guò)樣本數(shù)據(jù),研究?jī)勺兞块g線性相關(guān)程度的強(qiáng)弱.(例如:投資與收入之間的關(guān)系、GDP與通信需求之間的數(shù)量關(guān)系) (二)基本方法 繪制散點(diǎn)圖、計(jì)算相關(guān)系數(shù),繪制散點(diǎn)圖,(一)散點(diǎn)圖 將數(shù)據(jù)以點(diǎn)的形式繪制在直角平面上.比較直觀,可以用來(lái)發(fā)現(xiàn)變量間的關(guān)系和可能的趨勢(shì).,繪制散點(diǎn)圖,(二)基本操作步驟 (1)菜單選項(xiàng):graphs-scatter (2)選擇散點(diǎn)圖類(lèi)型: (3)選擇x軸和y軸的變量 (4)選擇分組變量(set markers by):分別以不同顏色點(diǎn)的表示 (5)選擇標(biāo)記變量(label case by): 散點(diǎn)圖上可帶有標(biāo)記變量的值(如:省份名稱(chēng)),計(jì)算相關(guān)系數(shù),一、相關(guān)系數(shù)的
4、作用: 以精確的相關(guān)系數(shù)(r)體現(xiàn)兩個(gè)變量間的線性關(guān)系程度. r:-1,+1; r=1:完全正相關(guān); r=-1:完全負(fù)相關(guān); r=0:無(wú)線性相關(guān); |r|0.8:強(qiáng)相關(guān); |r|0.3:弱相關(guān),計(jì)算相關(guān)系數(shù),二、關(guān)于相關(guān)系數(shù)的說(shuō)明: 相關(guān)系數(shù)只是較好地度量?jī)勺兞块g的線性相關(guān)程度,不能描述非線性關(guān)系. 如:x和y的取值為:(-1,-1) (-1,1) (1,-1) (1,1) r=0 但 xi2+yi2=2 數(shù)據(jù)中存在極端值時(shí)不好 如:(1,1)(2,2)(3,3),(4,4),(5,5),(6,1) r=0.33 但總體上表現(xiàn)出: x=y 應(yīng)結(jié)合散點(diǎn)圖分析,計(jì)算相關(guān)系數(shù),三、相關(guān)系數(shù)的種類(lèi):
5、1、簡(jiǎn)單線性相關(guān)系數(shù)(Pearson): 針對(duì)定距定比數(shù)據(jù).,計(jì)算相關(guān)系數(shù),2、Spearman相關(guān)系數(shù): 用來(lái)度量定序或定類(lèi)變量間的線性相關(guān)關(guān)系(如:不同年齡段與不同收入段,職稱(chēng)和受教育年份) 利用秩(數(shù)據(jù)的排序次序).認(rèn)為:如果x與y相關(guān),則相應(yīng)的秩Ui、Vi也具有同步性. 首先得到兩變量中各數(shù)據(jù)的秩( Ui、Vi),并計(jì)算Di2統(tǒng)計(jì)量. 計(jì)算Spearman秩相關(guān)系數(shù) 若兩變量存在強(qiáng)正相關(guān)性,則Di2應(yīng)較小,秩序相關(guān)系數(shù)較大.若兩變量存在強(qiáng)負(fù)相關(guān)性,則Di2應(yīng)較大,秩序相關(guān)系數(shù)為負(fù),絕對(duì)值較大,計(jì)算相關(guān)系數(shù),3、Kendall相關(guān)系數(shù):度量定序定類(lèi)變量間的線性相關(guān)關(guān)系 首先計(jì)算一致對(duì)數(shù)目
6、(U,變量y 隨變量x的秩同步增大的秩對(duì))和非一致對(duì)數(shù)目(V,變量y 未隨變量x的秩同步增大的秩對(duì)) 如: 對(duì)x和y求秩后為: x: 2 4 3 5 1 y: 3 4 1 5 2 x的秩按自然順序排序后: x: 1 2 3 4 5 y: 2 3 1 4 5 (U=8,V=2) 然后計(jì)算Kendall相關(guān)系數(shù). 若兩變量存在強(qiáng)正相關(guān)性,則U較大,V較小,秩序相關(guān)系數(shù)較大;若兩變量存在強(qiáng)負(fù)相關(guān)性,則V較大, U較小,秩序相關(guān)系數(shù)為負(fù),絕對(duì)值較大。 若兩變量相關(guān)性較弱,則U和V大致相等,秩序相關(guān)系數(shù)較小,計(jì)算相關(guān)系數(shù),(二)相關(guān)系數(shù)檢驗(yàn) 應(yīng)對(duì)兩變量來(lái)自的總體是否相關(guān)進(jìn)行統(tǒng)計(jì)推斷. 原因:抽樣的隨機(jī)性
7、、樣本容量小等 (1)H0:兩總體零相關(guān) (2)構(gòu)造統(tǒng)計(jì)量,Pearson相關(guān)系數(shù),Spearman系數(shù),大樣本 下,近似正態(tài)分布,kendall系數(shù),大樣本 下,近似正態(tài)分布,計(jì)算相關(guān)系數(shù),(二)相關(guān)系數(shù)檢驗(yàn) (3)計(jì)算統(tǒng)計(jì)量的值,并得到對(duì)應(yīng)的相伴概率p (4)結(jié)論: 如果pa,不能拒絕H0.,計(jì)算相關(guān)系數(shù),(三)基本操作步驟 (1)菜單選項(xiàng):analyze-correlate-bivariate. (2)選擇計(jì)算相關(guān)系數(shù)的變量到variables框. (3)選擇相關(guān)系數(shù)(correlation coefficients). (4)顯著性檢驗(yàn)(test of significance) to
8、w-tailed:輸出雙尾概率P. one-tailed:輸出單尾概率P,計(jì)算相關(guān)系數(shù),(四)其他選項(xiàng) statistics選項(xiàng):僅當(dāng)計(jì)算簡(jiǎn)單相關(guān)系數(shù)時(shí),選擇輸出哪些統(tǒng)計(jì)量. means and standard deviations:均值、標(biāo)準(zhǔn)差; cross-product deviations and covariances:分別輸出兩變量的離差平方和(sum of square 分母)、兩變量的差積和(cross-products分子)、協(xié)方差(covariance 以上各個(gè)數(shù)據(jù)除以n-1),計(jì)算相關(guān)系數(shù),(五)應(yīng)用舉例 利用相關(guān)系數(shù)分析人均GDP與移動(dòng)電話普及率之間的關(guān)系 *表示t檢
9、驗(yàn)值發(fā)生的概率小于等于0.05,即總體無(wú)相關(guān)的可能性小于0.05; *表示t檢驗(yàn)值發(fā)生的概率小于等于0.01,即總體無(wú)相關(guān)的可能性小于0.01; *比*,拒絕零假設(shè)更可靠.,計(jì)算相關(guān)系數(shù),(五)應(yīng)用舉例 分析固定話費(fèi)的高低是否與年齡、生活水平、文化程度相關(guān). 利用秩,通過(guò)計(jì)算spearman和kendall相關(guān)系數(shù)進(jìn)行分析,偏相關(guān)分析,(一)偏相關(guān)系數(shù) (1)含義: 在控制了其他變量的影響下計(jì)算兩變量的相關(guān)系數(shù) 虛假相關(guān).如:小學(xué)16年級(jí)全體學(xué)生進(jìn)行速算比賽(身高和分?jǐn)?shù)間的相關(guān)受年齡的影響) 研究商品的需求量和價(jià)格、消費(fèi)者收入之間的關(guān)系.因?yàn)?需求量和價(jià)格之間的相關(guān)關(guān)系包含了消費(fèi)者收入對(duì)商品需
10、求量的影響;收入對(duì)價(jià)格也產(chǎn)生影響,并通過(guò)價(jià)格變動(dòng)傳遞到對(duì)商品需求量的影響中。,偏相關(guān)分析,(一)偏相關(guān)系數(shù) (2)計(jì)算方法:,偏相關(guān)分析,(二)基本操作步驟 (1).菜單選項(xiàng):analyze-correlate-partial (2).選擇將參加計(jì)算的變量到variable框. (3).選擇控制變量到controlling for 框。 (4)option選項(xiàng): zero-order correlations:輸出簡(jiǎn)單相關(guān)系數(shù)矩陣,偏相關(guān)分析,(三)應(yīng)用舉例 分析文化程度對(duì)話費(fèi)與年齡之間的關(guān)系的影響,回歸分析概述,(一)回歸分析理解 (1)“回歸”的含義 galton研究父親身高和兒子身高的關(guān)
11、系時(shí)的獨(dú)特發(fā)現(xiàn). (2)回歸線的獲得方式一:局部平均 回歸曲線上的點(diǎn)給出了相應(yīng)于每一個(gè)x(父親)值的y(兒子)平均數(shù)的估計(jì) (3)回歸線的獲得方式二:擬和函數(shù) 使數(shù)據(jù)擬合于某條曲線; 通過(guò)若干參數(shù)描述該曲線; 利用已知數(shù)據(jù)在一定的統(tǒng)計(jì)準(zhǔn)則下找出參數(shù)的估計(jì)值(得到回歸曲線的近似);,回歸分析概述,(二)回歸分析的基本步驟 (1)確定自變量和因變量 (2)從樣本數(shù)據(jù)出發(fā)確定變量之間的數(shù)學(xué)關(guān)系式,并對(duì)回歸方程的各個(gè)參數(shù)進(jìn)行估計(jì). (3)對(duì)回歸方程進(jìn)行各種統(tǒng)計(jì)檢驗(yàn). (4)利用回歸方程進(jìn)行預(yù)測(cè).,線性回歸分析概述,(三)參數(shù)估計(jì)的準(zhǔn)則 目標(biāo):回歸線上的觀察值與預(yù)測(cè)值之間的距離總和達(dá)到最小 最小二乘法(
12、利用最小二乘法擬和的回歸直線與樣本數(shù)據(jù)點(diǎn)在垂直方向上的偏離程度最低),一元線性回歸分析,(一)一元回歸方程: y=0+1x 0為常數(shù)項(xiàng);1為y對(duì)x回歸系數(shù),即:x每變動(dòng)一個(gè)單位所引起的y的平均變動(dòng) (二)一元回歸分析的步驟 利用樣本數(shù)據(jù)建立回歸方程 回歸方程的擬和優(yōu)度檢驗(yàn) 回歸方程的顯著性檢驗(yàn)(t檢驗(yàn)和F檢驗(yàn)) 殘差分析 預(yù)測(cè),一元線性回歸方程的檢驗(yàn),(一)擬和優(yōu)度檢驗(yàn): (1)目的:檢驗(yàn)樣本觀察點(diǎn)聚集在回歸直線周?chē)拿芗潭龋u(píng)價(jià)回歸方程對(duì)樣本數(shù)據(jù)點(diǎn)的擬和程度。,(2)思路: 因?yàn)? 因變量取值的變化受兩個(gè)因素的影響 自變量不同取值的影響 其他因素的影響 如:兒子身高(y)的變化受:父親身高
13、(x)的影響、其他條件 于是: 因變量總變差=自變量引起的+其他因素引起的 即: 因變量總變差=回歸方程可解釋的+不可解釋的 可證明:因變量總離差平方和=回歸平方和+剩余平方和,一元線性回歸方程的統(tǒng)計(jì)檢驗(yàn),(一)擬和優(yōu)度檢驗(yàn): (3)統(tǒng)計(jì)量:判定系數(shù) R2=SSR/SST=1-SSE/SST. R2體現(xiàn)了回歸方程所能解釋的因變量變差的比例;1-R2則體現(xiàn)了因變量總變差中,回歸方程所無(wú)法解釋的比例。 R2越接近于1,則說(shuō)明回歸平方和占了因變量總變差平方和的絕大部分比例,因變量的變差主要由自變量的不同取值造成,回歸方程對(duì)樣本數(shù)據(jù)點(diǎn)擬合得好 在一元回歸中R2=r2; 因此,從這個(gè)意義上講,判定系數(shù)能
14、夠比較好地反映回歸直線對(duì)樣本數(shù)據(jù)的代表程度和線性相關(guān)性。,一元線性回歸方程的統(tǒng)計(jì)檢驗(yàn),(二) 顯著性檢驗(yàn) (1)目的:檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著,是否可用線性模型來(lái)表示. (2)檢驗(yàn)方法 T檢驗(yàn) F檢驗(yàn),一元線性回歸方程的檢驗(yàn),(三)回歸系數(shù)的顯著性檢驗(yàn):t檢驗(yàn) (1)目的:檢驗(yàn)自變量對(duì)因變量的線性影響是否顯著. (2)H0:=0 即:回歸系數(shù)與0無(wú)顯著差異 (3)利用t檢驗(yàn),構(gòu)造t統(tǒng)計(jì)量: 其中:Sy是回歸方程標(biāo)準(zhǔn)誤差(Standard Error)的估計(jì)值,由均方誤差開(kāi)方后得到,反映了回歸方程無(wú)法解釋樣本數(shù)據(jù)點(diǎn)的程度或偏離樣本數(shù)據(jù)點(diǎn)的程度 如果回歸系數(shù)的標(biāo)準(zhǔn)誤差較小,必然得到
15、一個(gè)相對(duì)較大的t值,表明該自變量x解釋因變量線性變化的能力較強(qiáng)。,一元線性回歸方程的檢驗(yàn),(4)計(jì)算t統(tǒng)計(jì)量的值和相伴概率p (5)判斷: 相伴概率=a:拒絕H0,即:回歸系數(shù)與0有顯著差異,自變量與因變量之間存在顯著的線性關(guān)系,能夠較好的解釋說(shuō)明因變量的變化.反之,不能拒絕H0 (6)回歸系數(shù)的區(qū)間估計(jì),一元線性回歸方程的檢驗(yàn),(四)回歸方程的顯著性檢驗(yàn):F檢驗(yàn) (1)目的:檢驗(yàn)自變量與因變量之間的線性關(guān)系是否顯著,是否可用線性模型來(lái)表示. (2)H0: =0 即:回歸系數(shù)與0無(wú)顯著差異 (3)利用F檢驗(yàn),構(gòu)造F統(tǒng)計(jì)量: F=平均的回歸平方和/平均的剩余平方和F(1,n-1-1) 如果F值較
16、大,則說(shuō)明自變量造成的因變量的線性變動(dòng)遠(yuǎn)大于隨機(jī)因素對(duì)因變量的影響,自變量于因變量之間的線性關(guān)系較顯著 (4)計(jì)算F統(tǒng)計(jì)量的值和相伴概率p (5)判斷 p=a:拒絕H0,即:回歸系數(shù)與0有顯著差異,自變量與因變量之間存在顯著的線性關(guān)系。反之,不能拒絕H0,一元線性回歸方程的檢驗(yàn),(五)t檢驗(yàn)與F檢驗(yàn)的關(guān)系 一元回歸中,F檢驗(yàn)與t檢驗(yàn)一致,即: F=t2,兩種檢驗(yàn)可以相互替代 (六)F統(tǒng)計(jì)量和R2值的關(guān)系 如果回歸方程的擬合優(yōu)度高,F(xiàn)統(tǒng)計(jì)量就越顯著。F統(tǒng)計(jì)量越顯著,回歸方程的擬合優(yōu)度就會(huì)越高。,線性回歸方程的殘差分析N( 0 ,2 ) 且相互獨(dú)立,(一)殘差序列的正態(tài)性檢驗(yàn): 繪制標(biāo)準(zhǔn)化殘差的直
17、方圖或累計(jì)概率圖 (二)殘差序列的隨機(jī)性檢驗(yàn) 繪制殘差和預(yù)測(cè)值的散點(diǎn)圖,應(yīng)隨機(jī)分布在經(jīng)過(guò)零的一條直線上下 (三)殘差序列等方差性檢驗(yàn),可檢驗(yàn)殘差序列絕對(duì)值與x的等級(jí)相關(guān)系數(shù),隨機(jī)、等方差、獨(dú)立,隨機(jī)、異方差、獨(dú)立,非獨(dú)立,線性回歸方程的殘差分析,(四)殘差序列獨(dú)立性檢驗(yàn): 殘差序列是否存在后期值與前期值相關(guān)的現(xiàn)象,利用D.W(Durbin-Watson)檢驗(yàn) d-w=0:殘差序列存在完全正自相關(guān);d-w=4:殘差序列存在完全負(fù)自相關(guān);0d-w2:殘差序列存在某種程度的正自相關(guān);2d-w4:殘差序列存在某種程度的負(fù)自相關(guān);d-w=2:殘差序列不存在自相關(guān). 殘差序列不存在自相關(guān),可以認(rèn)為回歸方程
18、基本概括了因變量的變化;否則,認(rèn)為可能一些與因變量相關(guān)的因素沒(méi)有引入回歸方程或回歸模型不合適或滯后性周期性的影響.,線性回歸方程的殘差分析,(五)異常值(casewise或outliers)診斷 利用標(biāo)準(zhǔn)化殘差不僅可以知道觀察值比預(yù)測(cè)值大或小,并且還知道在絕對(duì)值上它比大多數(shù)殘差是大還是小.一般標(biāo)準(zhǔn)化殘差的絕對(duì)值大于3,則可認(rèn)為對(duì)應(yīng)的樣本點(diǎn)為奇異值 異常值并不總表現(xiàn)出上述特征.當(dāng)剔除某觀察值后,回歸方程的標(biāo)準(zhǔn)差顯著減小,也可以判定該觀察值為異常值,線性回歸方程的預(yù)測(cè),(一)點(diǎn)估計(jì) y0 (二)區(qū)間估計(jì) 1-的近似置信區(qū)間: x0為xi的均值時(shí),預(yù)測(cè)區(qū)間最小,精度最高.x0越遠(yuǎn)離均值,預(yù)測(cè)區(qū)間越大
19、,精度越低.,一元線性回歸分析操作,(一)基本操作步驟 (1)菜單選項(xiàng): Analyze-regression-linear (2)選擇一個(gè)變量為因變量進(jìn)入dependent框 (3)選擇一個(gè)變量為自變量進(jìn)入independent框 (4)enter:所選變量全部進(jìn)入回歸方程(默認(rèn)方法) (5)對(duì)樣本進(jìn)行篩選(selection variable) 利用滿足一定條件的樣本數(shù)據(jù)進(jìn)行回歸分析 (6)指定作圖時(shí)各數(shù)據(jù)點(diǎn)的標(biāo)志變量(case labels),一元線性回歸分析操作,(二) statistics選項(xiàng) (1)基本統(tǒng)計(jì)量輸出 Estimates:默認(rèn).顯示回歸系數(shù)相關(guān)統(tǒng)計(jì)量. confiden
20、ce intervals:每個(gè)非標(biāo)準(zhǔn)化的回歸系數(shù)95%的置信區(qū)間. Descriptive:各變量均值、標(biāo)準(zhǔn)差和相關(guān)系數(shù)單側(cè)檢驗(yàn)概率. Model fit:默認(rèn).判定系數(shù)、估計(jì)標(biāo)準(zhǔn)誤差、方差分析表、容忍度 (2)Residual框中的殘差分析 Durbin-waston:D-W值 casewise diagnostic:異常值(奇異值)檢測(cè) (輸出預(yù)測(cè)值及殘差和標(biāo)準(zhǔn)化殘差),一元線性回歸分析操作,(三)plot選項(xiàng):圖形分析. Standardize residual plots:繪制殘差序列直方圖和累計(jì)概率圖,檢測(cè)殘差的正態(tài)性 繪制指定序列的散點(diǎn)圖,檢測(cè)殘差的隨機(jī)性、異方差性 ZPRED:標(biāo)
21、準(zhǔn)化預(yù)測(cè)值 ZRESID:標(biāo)準(zhǔn)化殘差 SRESID:學(xué)生化殘差 produce all partial plot:繪制因變量和所有自變量之間的散點(diǎn)圖,一元線性回歸分析應(yīng)用舉例,移動(dòng)電話普及率和人均GDP的線性關(guān)系 Model Summary觀察R2值(擬合優(yōu)度,回歸方程能夠解釋的比例) ANOVA 觀察方差分析表 Coefficients觀察t檢驗(yàn)和ANOVA F檢驗(yàn)的關(guān)系 Coefficients能夠?qū)懗龌貧w方程 觀察殘差序列的散點(diǎn)圖(plot)和Model Summary 的DW檢驗(yàn) 利用回歸分析進(jìn)行預(yù)測(cè),多元線性回歸分析,(一)多元線性回歸方程 多元回歸方程: y= 0 +1x1+2x2
22、+.+kxk 1、2、.k為偏回歸系數(shù)。 1表示在其他自變量保持不變的情況下,自變量x1變動(dòng)一個(gè)單位所引起的因變量y的平均變動(dòng) (二)多元線性回歸分析的主要問(wèn)題 回歸方程的檢驗(yàn) 自變量篩選 多重共線性問(wèn)題,多元線性回歸方程的檢驗(yàn),(一)擬和優(yōu)度檢驗(yàn): (1)判定系數(shù)R2: R是y和xi的復(fù)相關(guān)系數(shù),測(cè)定了因變量y與所有自變量全體之間線性相關(guān)程度 (2)調(diào)整的R2: 考慮的是平均的剩余平方和,克服了因自變量增加而造成R2也增大的弱點(diǎn) 在某個(gè)自變量引入回歸方程后,如果該自變量是理想的且對(duì)因變量變差的解釋說(shuō)明是有意義的,那么必然使得均方誤差減少,從而使調(diào)整的R2得到提高;反之,如果某個(gè)自變量對(duì)因變量
23、的解釋說(shuō)明沒(méi)有意義,那么引入它不會(huì)造成均方誤差減少,從而調(diào)整的R2也不會(huì)提高。,多元線性回歸方程的檢驗(yàn),(二)回歸方程的顯著性檢驗(yàn): (1)目的:檢驗(yàn)所有自變量與因變量之間的線性關(guān)系是否顯著,是否可用線性模型來(lái)表示. (2)H0: 1 = 2 = k =0 即:所有回歸系數(shù)同時(shí)與0無(wú)顯著差異 (3)利用F檢驗(yàn),構(gòu)造F統(tǒng)計(jì)量: F=平均的回歸平方和/平均的剩余平方和F(k,n-k-1) 如果F值較大,則說(shuō)明自變量造成的因變量的線性變動(dòng)大于隨機(jī)因素對(duì)因變量的影響,自變量于因變量之間的線性關(guān)系較顯著 (4)計(jì)算F統(tǒng)計(jì)量的值和相伴概率p (5)判斷:p=,拒絕H0,即:所有回歸系數(shù)與0有顯著差異,自變
24、量與因變量之間存在顯著的線性關(guān)系。反之,不能拒絕H0,多元線性回歸方程的檢驗(yàn),(三)回歸系數(shù)的顯著性檢驗(yàn) (1)目的:檢驗(yàn)每個(gè)自變量對(duì)因變量的線性影響是否顯著. (2)H0:i=0 即:第i個(gè)回歸系數(shù)與0無(wú)顯著差異 (3)利用t檢驗(yàn),構(gòu)造t統(tǒng)計(jì)量: 其中:Sy是回歸方程標(biāo)準(zhǔn)誤差(Standard Error)的估計(jì)值,由均方誤差開(kāi)方后得到,反映了回歸方程無(wú)法解釋樣本數(shù)據(jù)點(diǎn)的程度或偏離樣本數(shù)據(jù)點(diǎn)的程度 如果某個(gè)回歸系數(shù)的標(biāo)準(zhǔn)誤差較小,必然得到一個(gè)相對(duì)較大的t值,表明該自變量xi解釋因變量線性變化的能力較強(qiáng)。 (4)逐個(gè)計(jì)算t統(tǒng)計(jì)量的值和相伴概率p,多元線性回歸方程的檢驗(yàn),(三)回歸系數(shù)的顯著性檢
25、驗(yàn) (5)逐個(gè)進(jìn)行檢驗(yàn)和判斷 相伴概率p=a:拒絕H0,即:該回歸系數(shù)與0有顯著差異.該自變量與因變量之間存在顯著的線性關(guān)系,能夠較好的解釋說(shuō)明因變量的變化,應(yīng)保留在回歸方程中。反之,不能拒絕H0,多元線性回歸方程的檢驗(yàn),(四)t統(tǒng)計(jì)量與F統(tǒng)計(jì)量 一元回歸中,F檢驗(yàn)與t檢驗(yàn)一致,即: F=t2,可以相互替代 在多元回歸中,F(xiàn)檢驗(yàn)與t檢驗(yàn)不能相互替代 Fchange =ti2 從Fchange 角度上講,如果由于某個(gè)自變量xi的引入,使得Fchange是顯著的(通過(guò)觀察Fchange 的相伴概率值),那么就可以認(rèn)為該自變量對(duì)方程的貢獻(xiàn)是顯著的,它應(yīng)保留在回歸方程中,起到與回歸系數(shù)t檢驗(yàn)同等的作用
26、。,多元線性回歸分析中的自變量篩選,(一)自變量篩選的目的 多元回歸分析引入多個(gè)自變量. 如果引入的自變量個(gè)數(shù)較少,則不能很好的說(shuō)明因變量的變化; 并非自變量引入越多越好.原因: 有些自變量可能對(duì)因變量的解釋沒(méi)有貢獻(xiàn) 自變量間可能存在較強(qiáng)的線性關(guān)系,即:多重共線性. 因而不能全部引入回歸方程.,多元線性回歸分析中的自變量篩選,(二)自變量向前篩選法(forward): 即:自變量不斷進(jìn)入回歸方程的過(guò)程. 首先,選擇與因變量具有最高相關(guān)系數(shù)的自變量進(jìn)入方程,并進(jìn)行各種檢驗(yàn); 其次,在剩余的自變量中尋找偏相關(guān)系數(shù)最高的變量進(jìn)入回歸方程,并進(jìn)行檢驗(yàn); 默認(rèn):回歸系數(shù)檢驗(yàn)的概率值小于PIN(0.05)
27、才可以進(jìn)入方程. 反復(fù)上述步驟,直到?jīng)]有可進(jìn)入方程的自變量為止.,多元線性回歸分析中的自變量篩選,(三)自變量向后篩選法(backward): 即:自變量不斷剔除出回歸方程的過(guò)程. 首先,將所有自變量全部引入回歸方程; 其次,在一個(gè)或多個(gè)t值不顯著的自變量中將t值最小的那個(gè)變量剔除出去,并重新擬和方程和進(jìn)行檢驗(yàn); 默認(rèn):回歸系數(shù)檢驗(yàn)值大于POUT(0.10),則剔除出方程 如果新方程中所有變量的回歸系數(shù)t值都是顯著的,則變量篩選過(guò)程結(jié)束. 否則,重復(fù)上述過(guò)程,直到無(wú)變量可剔除為止.,多元線性回歸分析中的自變量篩選,(四)自變量逐步篩選法(stepwise): 即:是“向前法”和“向后法”的結(jié)合
28、。 向前法只對(duì)進(jìn)入方程的變量的回歸系數(shù)進(jìn)行顯著性檢驗(yàn),而對(duì)已經(jīng)進(jìn)入方程的其他變量的回歸系數(shù)不再進(jìn)行顯著性檢驗(yàn),即:變量一旦進(jìn)入方程就不會(huì)被剔除 隨著變量的逐個(gè)引進(jìn),由于變量之間存在著一定程度的相關(guān)性,使得已經(jīng)進(jìn)入方程的變量其回歸系數(shù)不再顯著,因此會(huì)造成最后的回歸方程可能包含不顯著的變量。 逐步篩選法則在變量的每一個(gè)階段都考慮剔除一個(gè)變量的可能性。,線性回歸分析中的共線性檢測(cè),(一)共線性帶來(lái)的主要問(wèn)題 高度的多重共線性會(huì)使回歸系數(shù)的標(biāo)準(zhǔn)差隨自變量相關(guān)性的增大而不斷增大,以至使回歸系數(shù)的置信區(qū)間不斷增大,造成估計(jì)值精度減低. 回歸方程檢驗(yàn)顯著但所有偏回歸系數(shù)均檢驗(yàn)不顯著 偏回歸系數(shù)估計(jì)值大小或符
29、號(hào)與常識(shí)不符 定性分析對(duì)因變量肯定有顯著影響的因素,在多元分析中檢驗(yàn)不顯著,不能納入方程 去除一個(gè)變量,偏回歸系數(shù)估計(jì)值發(fā)生巨大變化,線性回歸分析中的共線性檢測(cè),(二)共線性診斷 自變量的容忍度(tolerance)和方差膨脹因子 容忍度:Toli=1-Ri2. 其中: Ri2是自變量xi與方程中其他自變量間的復(fù)相關(guān)系數(shù)的平方. 容忍度越大則與方程中其他自變量的共線性越低,應(yīng)進(jìn)入方程. (具有太小容忍度的變量不應(yīng)進(jìn)入方程,spss會(huì)給出警告)(據(jù)經(jīng)驗(yàn)T0.1一般認(rèn)為具有多重共線性) 方差膨脹因子(VIF):容忍度的倒數(shù) SPSS在回歸方程建立過(guò)程中不斷計(jì)算待進(jìn)入方程自變量的容忍度,并顯示目前的
30、最小容忍度,線性回歸分析中的共線性檢測(cè),(二)共線性診斷 用特征根刻畫(huà)自變量的方差 如果自變量間確實(shí)存在較強(qiáng)的相關(guān)關(guān)系,那么它們之間必然存在信息重疊,于是可從這些自變量中提取出既能反映自變量信息(方差)又相互獨(dú)立的因素(成分)來(lái). 從自變量的相關(guān)系數(shù)矩陣出發(fā),計(jì)算相關(guān)系數(shù)矩陣的特征根,得到相應(yīng)的若干成分. 如果特征根中有一個(gè)特征根值遠(yuǎn)遠(yuǎn)大于其他特征根的值,則僅一個(gè)特征根就基本刻畫(huà)所有自變量絕大部分信息,自變量間一定存在相當(dāng)多的重疊信息 如果某個(gè)特征根既能夠刻畫(huà)某個(gè)自變量方差的較大部分比例(如大于0.7),同時(shí)又可以刻畫(huà)另一個(gè)自變量方差的較大部分比例,則表明這兩個(gè)自變量間存在較強(qiáng)的多重共線性。,
31、線性回歸分析中的共線性檢測(cè),(二)共線性診斷 條件指標(biāo) 0= 30 可能存在;k=100 嚴(yán)重,m最大特征根,i第i個(gè)特征根,多重共線性的對(duì)策,增大樣本量(不太可能) 多種自變量篩選方法結(jié)合(選擇最優(yōu)方程) 人為去除次要變量(定性分析為較次要,或無(wú)需分析) 主成分回歸分析(提取因子作為影響因素),多元線性回歸分析操作,(一)基本操作步驟 (1)菜單選項(xiàng): analyze-regression-linear (2)選擇一個(gè)變量為因變量進(jìn)入dependent框 (3)選擇一個(gè)或多個(gè)變量為自變量進(jìn)入independent框 (4)選擇多元回歸分析的自變量篩選方法: enter:所選變量全部進(jìn)入回歸方
32、程(默認(rèn)方法) remove:從回歸方程中剔除變量 stepwise:逐步篩選;backward:向后篩選;forward:向前篩選 (5)對(duì)樣本進(jìn)行篩選(selection variable) 利用滿足一定條件的樣本數(shù)據(jù)進(jìn)行回歸分析 (6)指定作圖時(shí)各數(shù)據(jù)點(diǎn)的標(biāo)志變量(case labels),多元線性回歸分析操作,(二) statistics選項(xiàng) (1)基本統(tǒng)計(jì)量輸出 Part and partial correlation:與Y的簡(jiǎn)單相關(guān)、偏相關(guān)和部分相關(guān) R square change:每個(gè)自變量進(jìn)入方程后R2及F值的變化量 Collinearity dignostics:共線性診斷.
33、,多元線性回歸分析操作,(三)options選項(xiàng): stepping method criteria:逐步篩選法參數(shù)設(shè)置. use probability of F:以F值相伴概率作為變量進(jìn)入和剔除方程的標(biāo)準(zhǔn).一個(gè)變量的F值顯著性水平小于entry(0.05)則進(jìn)入方程;大于removal(0.1)則剔除出方程.因此:Entryremoval use F value:以F值作為變量進(jìn)入(3.84)和剔除(2.71)方程的標(biāo)準(zhǔn) (四)save選項(xiàng): 將回歸分析結(jié)果保存到數(shù)據(jù)編輯窗口中或某磁盤(pán)文件中,多元線性回歸分析操作,如何做預(yù)測(cè)? 為何、如何做加權(quán)回歸?,多元線性回歸分析應(yīng)用舉例,(一)根據(jù)全
34、國(guó)各省移動(dòng)電話普及率、人均GDP、人均可支配收入、人均擁有固定資產(chǎn)數(shù)據(jù),建立移動(dòng)電話普及率的預(yù)測(cè)模型 所有自變量強(qiáng)行進(jìn)入方程(方程存在作用不顯著的自變量) 觀察方差分析表 觀察t檢驗(yàn) 觀察回歸方程標(biāo)準(zhǔn)誤差和R2 逐步回歸,與上述參數(shù)進(jìn)行比較(雖然誤差增大) 回歸系數(shù)置信區(qū)間 觀察置信區(qū)間、偏相關(guān)系數(shù)、容忍度 共線性檢測(cè) 殘差圖分析 選擇:D-W檢驗(yàn)、casewise、plot圖,線性回歸分析中的異方差問(wèn)題,(一)什么是異方差 回歸模型要求殘差序列服從均值為0并具有相同方差的正態(tài)分布,即:殘差分布幅度不應(yīng)隨自變量或因變量的變化而變化.否則認(rèn)為出現(xiàn)了異方差現(xiàn)象 (二)舉例理解異方差 收入水平和消費(fèi)種類(lèi) 打字時(shí)間和出錯(cuò)類(lèi)型,線性回歸分析中的異方差問(wèn)題,(三) 異方差診斷 可以通過(guò)繪制標(biāo)準(zhǔn)化殘差序列和因變量預(yù)測(cè)值(或每個(gè)自變
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 攝影器材品牌區(qū)域代理權(quán)合同
- 材料疲勞損傷累積分析模型合同
- 邊疆地區(qū)古代神話與服飾關(guān)系考古合同
- 保險(xiǎn)業(yè)務(wù)流程重組合同
- 主題餐廳廚房承包及特色氛圍營(yíng)造合同
- 拆遷工程后期維護(hù)承包合同
- 測(cè)量工作總結(jié)200字
- 光伏電站安全工作總結(jié)及計(jì)劃
- 美術(shù)6分鐘技能展示課件
- 防火安全重于泰山
- 造型設(shè)計(jì)基礎(chǔ)形態(tài)PPT
- 徐健順吟誦文集(.12.16)
- The Old Man and The Sea 老人與海 中英文對(duì)照版
- 居委會(huì)開(kāi)具的自建房證明
- 南水北調(diào)中線工程運(yùn)行管理的風(fēng)險(xiǎn)及安全分析
- ICU成年患者疼痛、躁動(dòng)鎮(zhèn)靜、譫妄、制動(dòng)及睡眠障礙的預(yù)防和管理的臨床實(shí)踐指南(PADIS)2018
- 常見(jiàn)的天氣系統(tǒng)_公開(kāi)課
- 二灰碎石就地冷再生監(jiān)理細(xì)則
- 長(zhǎng)焰煤快速熱解(快速熱解裝置100×10項(xiàng)目商業(yè)計(jì)劃書(shū)寫(xiě)作模板-融資招商
- 拼音PPT課件--聲母
- 市中等職業(yè)學(xué)校學(xué)籍卡片(樣表)
評(píng)論
0/150
提交評(píng)論