版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
數(shù)據(jù)挖掘—回歸分析技術(shù)在建模中的應(yīng)用Neverforgethowtodreamcontents回歸分析技術(shù)概述31回歸分析易存在誤區(qū)23回歸分析建模方法3回歸分析技術(shù)應(yīng)用4Neverforgethowtodream回歸分析技術(shù)概述概述發(fā)展內(nèi)容及模型建立模型步驟Neverforgethowtodream1
從高斯(Gauss)提出最小二乘法算起,回歸分析已經(jīng)有200年的歷史。統(tǒng)計學的許多方法與回歸分析有著密切聯(lián)系,如時間序列分析、主成分分析、判別分析等。矩陣理論和計算機技術(shù)的發(fā)展為回歸分析模型的應(yīng)用提供了極大的方便。近年來的非參數(shù)統(tǒng)計、自助法、刀切法、經(jīng)驗貝葉斯估計對回歸分析起著滲透和促進作用。1.1回歸分析技術(shù)發(fā)展1.2回歸分析的主要內(nèi)容及其一般模型
設(shè)置指標變量收集整理數(shù)據(jù)構(gòu)造理論模型估計模型參數(shù)修改
N
模型運用Y因素分析變量控制
決策預測實際問題模型檢驗1.3建立實際問題回歸模型的過程回歸分析技術(shù)易存在誤區(qū)2認識誤區(qū)回歸建模指標變量的設(shè)置變量數(shù)據(jù)的收集和整理回歸擬合效果與檢驗回歸方程的解釋與應(yīng)用
回歸分析研究的主要對象是客觀事物變量間的依賴關(guān)系,客觀事物變量間依賴關(guān)系的普遍性決定了回歸分析方法的廣泛應(yīng)用性。它是建立在對客觀事物進行大量試驗和觀察的基礎(chǔ)上,用來尋找隱藏在那些看上去是不確定的現(xiàn)象中的統(tǒng)計規(guī)律性的統(tǒng)計方法。回歸分析方法是通過建立統(tǒng)計模型研究變量間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)、模型預測的一種有力的工具。2.1
回歸分析認識誤區(qū)統(tǒng)計學科發(fā)展到今天已經(jīng)非常豐富繁茂,統(tǒng)計學的分支和研究方向也異常細化。近些年來,統(tǒng)計學的應(yīng)用隨著計算機的飛速發(fā)展很受人們重視,在諸多現(xiàn)代統(tǒng)計分析方法中回歸分析是最基本最實用應(yīng)用最廣泛的統(tǒng)計學方法。許多統(tǒng)計學分支都是在回歸分析模型的基礎(chǔ)上通過改進、推廣、提升為新的統(tǒng)計理論及分支。如時間序列分析作為現(xiàn)代統(tǒng)計學的一個重要分支就是序列自回歸模型的發(fā)展和豐富。2.1回歸分析技術(shù)認識誤區(qū)然而,目前回歸分析受重視程度不高,認為回歸分析是統(tǒng)計學里的小兒科,所講的回歸分析內(nèi)容太簡單,甚至連模型的基本假定都忽略,在運用回歸分析技術(shù)時容易犯錯。2.1回歸分析技術(shù)認識誤區(qū)回歸分析模型主要是揭示事物間相關(guān)變量的數(shù)量聯(lián)系。首先要根據(jù)所研究問題的目的設(shè)置因變量,然后再選取與因變量有統(tǒng)計關(guān)系的一些變量做為自變量。建立實際問題的回歸分析模型一定要搞清楚哪個變量是因變量,哪些指標是自變量。通常情況下,所研究的實際問題因變量與自變量之間應(yīng)具有一定的因果關(guān)系。因此在研究某種現(xiàn)象時,必須根據(jù)具體研究目的,利用專業(yè)理論,從定性角度來確定某種經(jīng)濟問題中各因素之間的因果關(guān)系。2.2回歸建模指標變量的設(shè)置因變量確定:對一個具體的問題,當研究目的確定之后,被解釋變量容易確定,被解釋變量一般直接表達、刻畫研究的目的。自變量確定:對被解釋變量有影響的解釋變量的確定不太容易。一是由于人們的認識有局限,可能并不知道對被解釋變量有重要影響的因素;二是為了模型參數(shù)估計的有效性,設(shè)置的解釋變量之間應(yīng)該是不相關(guān)的。人們很難確定哪些變量是相關(guān)的,哪些不是相關(guān)的,這就看如何在多個變量中確定幾個重要的且不相關(guān)的變量。2.2回歸建模指標變量的設(shè)置注意:一個回歸模型所涉及到的解釋變量不是越多越好。一個模型,如果把一些主要變量漏掉肯定會影響模型的應(yīng)用效果,但如果無關(guān)緊要因素一起進入模型也未必就好。當引入的變量太多時,可能選擇了一些與問題無關(guān)緊要的變量,還可能由于一些變量的相關(guān)性很強,它們所反映的信息有較嚴重的重疊,這就出現(xiàn)多重共線性問題。當變量太多時,計算工作量太大,計算誤差積累也大,估計出的模型參數(shù)精度自然不高。2.2回歸建模指標變量的設(shè)置當確定好回歸模型的變量之后,就要對這些變量收集、整理統(tǒng)計數(shù)據(jù)。常用的樣本數(shù)據(jù)分為時間序列數(shù)據(jù)和橫截面數(shù)據(jù)。時間序列數(shù)據(jù)就是按時間順序排列的統(tǒng)計數(shù)據(jù)。對于收集到的時間序列資料要特別注意數(shù)據(jù)的可比性及數(shù)據(jù)的統(tǒng)計口徑問題。對于沒有可比性和統(tǒng)計口徑計算不一致的統(tǒng)計數(shù)據(jù)就要作認真調(diào)整,這個調(diào)整過程就是一個數(shù)據(jù)整理過程。2.3變量數(shù)據(jù)的收集和整理時間序列數(shù)據(jù)容易產(chǎn)生模型中隨機誤差項的序列相關(guān),這是因為許多變量的前后期之間總是有關(guān)聯(lián)的。如在經(jīng)濟中建立需求模型時,人們的消費習慣、商品短缺程度等具有一定的延續(xù)性,它們會對相當一段時間的需求量有影響,這樣就產(chǎn)生隨機誤差項的序列相關(guān)。對于具有隨機誤差項序列相關(guān)的情況,就要通過對數(shù)據(jù)的某種計算、整理來消除序列相關(guān)性。最常用的處理方法是差分方法。2.3變量數(shù)據(jù)的收集和整理橫截面數(shù)據(jù)即為在同一時間截面上的統(tǒng)計數(shù)據(jù)。如同一年在不同的地塊上做的施肥量與小麥產(chǎn)量試驗的統(tǒng)計數(shù)據(jù)就是截面數(shù)據(jù)。當用截面數(shù)據(jù)作樣本時,容易產(chǎn)生異方差性。這是因為一個回歸模型往往涉及到眾多解釋變量,如果其中某一因素或一些因素隨著解釋變量觀測值的變化而對被解釋變量產(chǎn)生不同影響,就產(chǎn)生異方差性。
yi=β0+β1xi+ui
,
i=1,…,n隨機項ui具有不同的方差。2.3變量數(shù)據(jù)的收集和整理在實際應(yīng)用中,人們往往只能得到樣本相關(guān)系數(shù)r,而無法得到總體相關(guān)系數(shù)r。用樣本相關(guān)系數(shù)r判定兩變量間相關(guān)程度的強弱時一定要注意樣本量的大小,只有當樣本量較大時用樣本相關(guān)系數(shù)r判定兩變量間相關(guān)程度的強弱才可信服。需要正確區(qū)分相關(guān)系數(shù)顯著性檢驗與相關(guān)程度強弱的關(guān)系,相關(guān)系數(shù)的t檢驗顯著只是表示總體相關(guān)系數(shù)ρ顯著不為零,并不能表示相關(guān)程度高。2.4回歸擬合效果與檢驗有A、B兩位同學,A同學計算出r=0.8,但是顯著性檢驗沒有通過;B同學計算出r=0.1,而聲稱此相關(guān)系數(shù)高度顯著,我們都不能判斷誰對誰錯。這個問題的回答同樣與樣本量有關(guān)。由檢驗統(tǒng)計量可以看到t值不僅與樣本相關(guān)系數(shù)r有關(guān),同時與樣本量n有關(guān),對同樣的相關(guān)系數(shù)r,樣本量n大時|t|就大,樣本量n小時|t|就小。實際上,對任意固定的非0的r值,只要樣本量n充分大就能使|t|足夠大,從而得到相關(guān)系數(shù)高度顯著的結(jié)論。明白這個道理后你就會相信A、B兩位同學說的都可能是正確的。2.4回歸擬合效果與檢驗樣本決定系數(shù):是一個回歸直線與樣本觀測值擬合優(yōu)度的相對指標,反映了因變量的波動中能用自變量解釋的比例。其數(shù)值在0到1之間,可以用百分數(shù)表示。如果決定系數(shù)
接近于1,說明因變量不確定性的絕大部分能由回歸方程解釋,回歸方程擬合優(yōu)度就好。反之,如
不大,說明回歸方程的效果不好,應(yīng)進行修改,可以考慮增加新的自變量或者使用曲線回歸。需要注意以下幾個方面:2.4回歸擬合效果與檢驗第一,樣本量太小時,決定系數(shù)很大,但這個大的決定系數(shù)很可能是虛假現(xiàn)象。樣本量越小時,決定系數(shù)越容易大。第二,即使樣本量并不小,決定系數(shù)很大,例如是0.9,也并不能肯定自變量與因變量之間的關(guān)系就是線性的,這是因為有可能曲線回歸的效果更好。尤其是當自變量的取值范圍很窄時,線性回歸的效果通常是較好的,這樣的線性回歸方程是不能用于外推預測的??梢杂媚P褪M檢驗(Lackoffittest)來判定因變量與自變量之間的真實函數(shù)關(guān)系,到底是線性關(guān)系還是曲線關(guān)系,如果是曲線關(guān)系到底是哪一種曲線關(guān)系。2.4回歸擬合效果與檢驗第三、不論是時間序列數(shù)據(jù)還是橫截面數(shù)據(jù)的建模,樣本容量的多少一般要與設(shè)置的解釋變量數(shù)目相匹配。當樣本容量的個數(shù)小于解釋變量的數(shù)目時,普通的最小二乘估計方法失效;當樣本容量大于解釋變量數(shù)目,但比較接近時,用于評價回歸擬合效果的決定系數(shù)虛假現(xiàn)象嚴重。通常為了使模型的參數(shù)估計更有效,要求樣本容量n比解釋變量個數(shù)p大的多。一般來說樣本容量n應(yīng)是解釋變量個數(shù)p的10倍。2.4回歸擬合效果與檢驗變量的因素分析是回歸模型的一個重要應(yīng)用。應(yīng)用回歸模型對變量之間的關(guān)系作出度量,從模型的回歸系數(shù)可發(fā)現(xiàn)經(jīng)濟變量的結(jié)構(gòu)關(guān)系,給出政策評價的一些量化依據(jù)。對一般情況含有p個自變量的多元線性回歸,每個回歸系數(shù)表示在回歸方程中其他自變量保持不變的情況下,自變量每增加一個單位時因變量y的平均增加程度。在分析各自變量對因變量的相對重要性時,標準化回歸系數(shù)是比較自變量對y影響程度相對重要性的一種較為理想的方法。但是,仍對回歸系數(shù)的解釋須采取謹慎的態(tài)度,這是因為當自變量相關(guān)時會影響標準化回歸系數(shù)的大小。2.5回歸方程的解釋與應(yīng)用進行預測是回歸模型的另一個重要應(yīng)用。通過建立模型就可以對未來做出預測。但在作長期預測時,要特別注意相應(yīng)的自變量是否還保持建模當初數(shù)據(jù)的變化趨勢和特征。在回歸模型的運用中,還要特別強調(diào)定性分析和定量分析的有機結(jié)合。這是因為統(tǒng)計學方法只是從事物外在的數(shù)量表面上去研究問題,不涉及事物質(zhì)的規(guī)定性。2.5回歸方程的解釋與應(yīng)用
回歸分析建模方法3回歸分析建模主成分回歸與偏最小二乘含定性變量回歸嶺回歸多元線性回歸3.1多元線性回歸回歸模型參數(shù)估計回歸應(yīng)用顯著性檢驗基本步驟Textinhere基本假定:1.解釋變量x1,x2,…,xp是確定性變量,不是隨機變量,且要求rank(X)=p+1<n。表明設(shè)計矩陣X中的自變量列之間不相關(guān),X是一滿秩矩陣。2.隨機誤差項具有0均值和等方差。多元線性回歸模型一般形式:y=β0+β0x1+β0x2+…+β0xp+ε其中β0,β1,β2,…,βp是p+1個未知參數(shù),β0稱為回歸常數(shù),β1,β2,…,βp稱為回歸系數(shù)?;貧w方程解釋:對一般含有p個自變量的多元線性回歸,每個回歸系數(shù)βi表示在回歸方程中其他變量保持不變的情況下,自變量xi每增加一個單位時因變量y的平均增加程度,多元線性回歸系數(shù)稱為偏回歸系數(shù)?;貧w參數(shù)估計普通最小二乘估計:尋找最大似然估計:y~N(Xβ,σ2In)顯著性檢驗一、F檢驗
(回歸方程顯著性檢驗)
H0:β1=β2=…=βp=0SST=SSR+SSE
當H0成立時服從顯著性檢驗二、回歸系數(shù)的顯著性t檢驗
H0j:βj=0,j=1,2,…,p~N(β,σ2(X'X)-1)構(gòu)造t統(tǒng)計量
其中,(X'X)-1=(cij)i,j=0,1,2,…,p多元線性回歸分析實例年份yx1x2x3x4x51978231301018888149114.89180.921979298335021958638916.00420.391980343368825319220419.53570.251981401394127999530021.82776.711982445425830549992223.27792.4319833914736335810604422.91947.7019845545652390511035326.021285.2219857447020487911211027.721783.3019869977859555210857932.432281.95198713109313638611242938.91
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省瀘州市瀘縣第五中學2025屆高三上學期第一次診斷性考試(一模)政治試題 含解析
- 清遠2025年廣東清遠市公安局第一次警務(wù)輔助人員招聘5人筆試歷年參考題庫附帶答案詳解
- 深圳2025年上半年廣東深圳法院勞動合同制審判輔助人員招錄109人筆試歷年參考題庫附帶答案詳解
- 二零二五年度寵物貓進出口貿(mào)易合同范本4篇
- 汕頭2025年廣東汕頭市龍湖區(qū)司法局招聘司法協(xié)理員專項臨聘人員筆試歷年參考題庫附帶答案詳解
- 杭州浙江杭州桐廬縣機關(guān)事務(wù)服務(wù)中心招聘編外工作人員筆試歷年參考題庫附帶答案詳解
- 2025年華師大新版九年級歷史下冊階段測試試卷含答案
- 二零二五年度跨境電商進口大宗商品購銷合同2篇
- 2025年浙科版必修2化學下冊月考試卷含答案
- 2025年度綠色建筑改造承攬工程施工合同4篇
- 開展課外讀物負面清單管理的具體實施舉措方案
- 2025年云南中煙工業(yè)限責任公司招聘420人高頻重點提升(共500題)附帶答案詳解
- 2025-2030年中國洗衣液市場未來發(fā)展趨勢及前景調(diào)研分析報告
- 2024解析:第三章物態(tài)變化-基礎(chǔ)練(解析版)
- 北京市房屋租賃合同自行成交版北京市房屋租賃合同自行成交版
- 《AM聚丙烯酰胺》課件
- 系統(tǒng)動力學課件與案例分析
- 《智能網(wǎng)聯(lián)汽車智能傳感器測試與裝調(diào)》電子教案
- 客戶分級管理(標準版)課件
- GB/T 32399-2024信息技術(shù)云計算參考架構(gòu)
- 固定資產(chǎn)盤點報告醫(yī)院版
評論
0/150
提交評論