




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、統(tǒng)計系課程實驗論文基于回歸分析的人口數(shù)量預測 學 號:2014962005姓 名:李洋年 級:2014級專 業(yè):統(tǒng)計學課 程:回歸分析指導教師:姜喜春完成日期:2016年6月19日目 錄摘 要I前 言1第1章 一元線性回歸21.1 指標的選擇21.2 樣本確定21.3 一元回歸分析31.3.1 繪制總人口與糧食產量的散點圖31.3.2 設定理論模型41.3.3 回歸診斷4第2章 多元線性回歸52.1 數(shù)據中心化標準化52.2 多元回歸模型建立52.3 逐步回歸法62.4 多重共線性72.3.1 多重共線性檢測82.4 主成分分析92.4.1 主成分分析模型建立9第3章 非線性模型113.1 曲
2、線回歸113.1.1 曲線擬合113.2 Logistic模型13結 論15參考文獻16理學院 統(tǒng)計系 課程實驗論文摘 要回歸分析法是在掌握大量觀察數(shù)據的基礎上,利用數(shù)理統(tǒng)計方法建立因變量與自變量之間的回歸關系函數(shù)表達式(稱回歸方程式)。同時依據事物發(fā)展變化的因果關系來預測事物未來的發(fā)展走勢,它是研究變量間相互關系的一種定量預測方法,又稱回歸模型預測法或因果法,應用于經濟預測、科技預測和企業(yè)人力資源的預測等。回歸分析可以說是統(tǒng)計學中內容最豐富、應用最廣泛的分支。這一點幾乎不帶夸張。包括最簡單的t檢驗、方差分析也都可以歸到線性回歸的類別。而卡方檢驗也完全可以用logistic回歸代替。眾多回歸的
3、名稱張口即來的就有一大片,線性回歸、logistic回歸、cox回歸、poission回歸、probit回歸等等。關鍵詞:線性回歸;非線性回歸;logistic回歸I前 言最早的形式回歸的方法是最小二乘法 ,這是在1805年出版的勒讓德 ,和高斯在1809年。 勒讓德和高斯都采用的方法確定的問題,從天文觀測,有關Sun的機構(主要是彗星,但后來也新發(fā)現(xiàn)的小行星)的軌道。 1821年,高斯發(fā)表最小二乘法理論的進一步發(fā)展,在包括高斯-馬爾可夫定理的一個版本。弗朗西斯高爾頓在十九世紀的“回歸”是杜撰來描述一種生物現(xiàn)象。 這種現(xiàn)象是高度高大的祖先的后代往往倒退下來,對一個正常的平均水平(這種現(xiàn)象也被稱
4、為向均值回歸 )。 對高爾頓,回歸只有這個生物意義,Udny圣誕節(jié)和皮爾遜但他的工作,后來擴展到更一般的統(tǒng)計范圍內。 在圣誕節(jié)和Pearson,工作的響應和解釋變量的聯(lián)合分布被假定為高斯 。 這個假設RA費舍爾在1922年和1925年,他的作品被削弱。費舍爾認為的響應變量的條件分布為高斯分布,但聯(lián)合分布不一定要。在這方面,費舍爾的假設是高斯1821年制定的。在20世紀50年代和20世紀60年代,經濟學家舊機電臺計算器,計算回歸。 1970年以前,有時長達24小時接收從一個回歸的結果。 回歸方法繼續(xù)是一個活躍的研究領域。 在最近的幾十年中,新的方法已經制定了穩(wěn)健回歸 ,回歸涉及的相關反應,如時間
5、序列 曲線和增長曲線 ,回歸的預測或響應變量的曲線,圖片,圖表或其他復雜的數(shù)據對象,容納不同的回歸方法丟失的數(shù)據, 非參數(shù)回歸 , 貝葉斯方法進行回歸,回歸的預測變量的測量誤差,預測變量的觀測回歸,回歸和因果關系的推論與類型。第1章 一元線性回歸 1.1 指標的選擇影響人口增長的主要因素經濟因素,經濟因素對人口自然增長的作用主要表現(xiàn)在它決定了人口的增殖條件和生存條件,通過改變人口的出生率和死亡率來影響人口的自然增率。一般情況下,當人口數(shù)量不能滿足經濟發(fā)展對勞動力的需求時,人口自身的再生產必將會刺激;當人口數(shù)量超越了經濟發(fā)展所能提供的消費總數(shù)后,人口自身的再生產必將受到遏制。在現(xiàn)代生產力水平下,
6、人口的自然增長率往往隨著經濟水平的提高而下降。經濟因素對人口機械增長也有重要影響。通常情況下,經濟發(fā)達或發(fā)展速度較快的地區(qū),對人口具有一種吸引力和凝聚力,人口機械增長為正值;相反,經濟落后或經濟發(fā)展速度緩慢的地區(qū),對人口會產生一種排斥力和離散力,人口機械增長一般為負值。與此同時糧食產量、出生率、死亡率,也是影響人口增長的因素。符號說明:用、表示糧食產量、GDP、出生率、死亡率。表示總人口。1.2 樣本確定通過查閱中國政府網,得到了1980年到2014年各因素的數(shù)據。表1-1 樣本數(shù)據年份糧食產量(萬噸)GDP(億元)出生率(%)死亡率(%)總人口(萬人)201460702.61635910.2
7、12.377.16136782201360193.84588018.812.087.16136072201258957.9753412312.17.15135404201157120.85484123.511.937.14134735201054647.7140890311.97.11134091200953082.08345629.211.957.08133450200852870.92316751.712.147.06132802200750160.28268019.412.16.93132129200649804.23217656.612.096.81131448200548402.19
8、185895.812.46.51130756200446946.95160714.412.296.42129988200343069.53136564.612.416.4129227200245705.7512100212.866.41128453200145263.67110270.413.386.43127627200046217.5299776.314.036.45126743199950838.5890187.714.646.46125786199851229.5384883.715.646.5124761199749417.179429.516.576.511236261996504
9、53.571572.316.986.56122389199546661.861129.817.126.57121121199444510.148459.617.76.49119850199345648.835524.318.096.64118517199244265.827068.318.246.64117171199143529.321895.519.686.7115823199044624.318774.321.066.67114333198940754.917090.321.586.54112704198839408.115101.122.376.64111026198740297.71
10、2102.223.336.72109300198639151.210308.822.436.86107507198537910.89039.921.046.78105851198440730.57226.319.96.82104357198338727.55975.620.196.9103008198235450533322.286.61016541981325024898.120.916.36100072198032055.54551.618.216.34987051.3 一元回歸分析定義1.1 回歸分析(regression analysis)是確定兩種或兩種以上變量間相互依賴的定量關系的
11、一種統(tǒng)計分析方法。如果在回歸分析中,只包括一個自變量和一個因變量,且二者的關系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。1.3.1 繪制總人口與糧食產量的散點圖圖1-1 糧食產量與總人口散點圖1.3.2 設定理論模型根據圖1-1隨著糧食產量的增加,總人口的數(shù)量增加,且各樣本點大致落在一條直線附近,故可以采用公式: (1-1)一元線性回歸理論模型,對數(shù)據進行一元回歸分析。1.3.3 回歸診斷表1-1 模型摘要模型RR 平方調整後 R 平方標準偏斜度錯誤1.909a.826.8214985.99669a. 預測值:(常數(shù)),糧食產量(萬噸)根據表1-1模型摘要表可以看到,說明以糧食產
12、量為唯一因變量與總人口的擬合程度很高。表1-2 系數(shù)模型非標準化係數(shù)標準化係數(shù)T顯著性B標準錯誤Beta1(常數(shù))53054.4045500.0139.646.000糧食產量(萬噸)1.468.117.90912.513.000a. 應變數(shù): 人口(萬人)根據表1-2系數(shù)表,將系數(shù)帶入公式(1-1)可得出回歸模型公式:用一元回歸模型對2014年的總人口進行預測,的到的預測值第2章 多元線性回歸定義2.1 在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現(xiàn)象常常是與多個因素相聯(lián)系的,由多個自變量的最優(yōu)組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合
13、實際。2.1 數(shù)據中心化標準化數(shù)據中心化和標準化在回歸分析中的意義是取消由于量綱不同、自身變異或者數(shù)值相差較大所引起的誤差。圖2-1 標準化結果2.2 多元回歸模型建立多元回歸模型公式:對數(shù)據進行多元回歸分析,結果如圖2.2表2-1 模型摘要模型RR 平方調整後 R 平方標準偏斜度錯誤1.972a.944.9362967.56830a. 預測值:(常數(shù)),死亡率(%), 出生率(%), 糧食產量(萬噸), GDP(億元)表2-2 變異數(shù)分析a模型平方和df平均值平方F顯著性1迴歸4448849243.98441112212310.996126.295.000b殘差264193847.61630
14、8806461.587總計4713043091.60034a. 應變數(shù): 人口(萬人)b. 預測值:(常數(shù)),死亡率(%), 出生率(%), 糧食產量(萬噸), GDP(億元)表2-3 係數(shù)a模型非標準化係數(shù)標準化係數(shù)T顯著性B標準錯誤Beta1(常數(shù))124574.66721501.7295.794.000糧食產量(萬噸)1.045.152.6476.893.000GDP(億元)-.005.008-.078-.635.531出生率(%)-1460.798262.207-.496-5.571.000死亡率(%)-4060.2723649.700-.091-1.112.275a. 應變數(shù): 人口
15、(萬人)根據表2-1可知R=0.972,擬合度高,所以能用該模型進行預測,同時模型的檢驗P值sig10,表明可能存在多重共線性;(3)在相關系數(shù)矩陣中,死亡率數(shù)值接近1可能存在多重共線性;表2-6 排除共線性變量后的係數(shù)a模型非標準化係數(shù)標準化係數(shù)T顯著性共線性統(tǒng)計資料B標準錯誤Beta允差VIF1(常數(shù))165146.3883543.31346.608.000出生率(%)-2687.949210.086-.912-12.794.0001.0001.0002(常數(shù))108407.8058355.07212.975.000出生率(%)-1534.270211.155-.521-7.266.000
16、.4002.502糧食產量(萬噸).816.116.5057.052.000.4002.5023(常數(shù))134678.87814308.5429.412.000出生率(%)-1366.202213.615-.464-6.396.000.3492.868糧食產量(萬噸)1.012.141.6267.184.000.2414.146死亡率(%)-5681.5572580.897-.127-2.201.035.5531.808a. 應變數(shù): 人口(萬人)根據表2-6,剔除GDP這一變量后,其余變量的VIF全部小于10,排除變量間存在多重共線性的原因,不需要再次剔除變量。得到剔除共線性后的多元線性回歸
17、方程:2.4 主成分分析定義2.4 主成分分析(Principal Component Analysis,PCA), 是一種統(tǒng)計方法。通過正交變換將一組可能存在相關性的變量轉換為一組線性不相關的變量,轉換后的這組變量叫主成分。在實際課題中,為了全面分析問題,往往提出很多與此有關的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。主成分分析首先是由K.皮爾森對非隨機變量引入的,爾后H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。主成分分析的主要原理是尋找一個適當?shù)木€性變換:(1)將彼此相關的變量轉變?yōu)楸舜霜毩⒌男伦兞?;?)方差較大的幾個新變量就能
18、綜合反應原多個變量所包含的主要信息;(3)新變量各自帶有獨特的專業(yè)含義。住成分分析的作用是:(1)減少指標變量的個數(shù);(2)決多重相關性問題2.4.1 主成分分析模型建立運用SPSS 22.0對數(shù)據進行主成分分析表2-7 各變量所占權重元件起始特徵值擷取平方和載入總計變異的 %累加 %總計變異的 %累加 %13.04076.00476.0043.04076.00476.0042.72718.17694.1793.1523.79397.9724.0812.028100.000擷取方法:主體元件分析。根據主成分分析結果可以看出前兩個變量所占比重最多,二者的和所占比例為,所以可以采用前兩個變量建立回
19、歸模型。表2-8 回歸係數(shù)a模型非標準化係數(shù)標準化係數(shù)T顯著性B標準錯誤Beta1(常數(shù))53075.7119733.1915.453.000糧食產量(萬噸)1.468.235.9086.252.000GDP(億元)2.494E-5.009.000.003.998a. 應變數(shù): 人口(萬人)根據表2-8,得到回歸方程: 根據回歸方程預測出2014年人口萬人。因為:1.主成分分析中,我們首先應保證所提取的前幾個主成分的累計貢獻率達到一個較高的水平(即變量降維后的信息量須保持在一個較高水平上),其次對這些被提取的主成分必須都能夠給出符合實際背景和意義的解釋(否則主成分將空有信息量而無實際含義)。
20、2.主成分的解釋其含義一般多少帶有點模糊性,不像原始變量的含義那么清楚、確切,這是變量降維過程中不得不付出的代價。因此,提取的主成分個數(shù)通常應明顯小于原始變量個數(shù)(除非本身較小),否則維數(shù)降低的“利”可能抵不過主成分含義不如原始變量清楚的“弊”。所以預測的結果出現(xiàn)了更大的誤差第3章 非線性模型3.1 曲線回歸定義3.1 非線性回歸是在掌握大量觀察數(shù)據的基礎上,利用數(shù)理統(tǒng)計方法建立因變量與自變量之間的回歸關系函數(shù)表達式(稱回歸方程式)?;貧w分析中,當研究的因果關系只涉及因變量和一個自變量時,叫做一元回歸分析;當研究的因果關系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。確定兩個變數(shù)間數(shù)量
21、變化的某種特定的規(guī)則或規(guī)律;估計表示該種曲線關系特點的一些重要參數(shù),如回歸參數(shù)、極大值、極小值和漸近值等;為生產預測或試驗控制進行內插,或在論據充足時作出理論上的外推。3.1.1 曲線擬合對國內總人口的擬合,選取總人口指標為因變量,單位為萬人,擬合總人口關于時間t的趨勢曲線。以1980年為基準年,取值為,2014年。繪制總人口與變量的散點圖,如圖3-1所示。圖3-1 總人口對的散點圖從散點圖可以看到,總人口大致符合三次函數(shù)形式,當人口的增長速度大致相同時,其趨勢線就是三次函數(shù)形式。圖3-2 擬合曲線圖通過觀察圖3-2,發(fā)現(xiàn)三次曲線模型擬合度最好,其次為線性和復合模型,故根據公式: 建立三次曲線
22、模型。表3-1 模型摘要RR 平方調整後 R 平方標準偏斜度錯誤1.000.999.999365.498自變數(shù)為 時間。表3-2 變異數(shù)分析平方和df平均值平方F顯著性迴歸4708901835.39031569633945.13011749.732.000殘差4141256.21031133588.910總計4713043091.60034自變數(shù)為 時間。表3-3 三次曲線系數(shù)非標準化係數(shù)標準化係數(shù)T顯著性B標準錯誤Beta時間1849.09465.5011.60928.230.000時間 * 2-17.6834.196-.571-4.214.000時間 * 3-.070.077-.076-.
23、908.371(常數(shù))96103.588276.157348.004.000根據圖表3-1,得到三次函數(shù)模型的,說明擬合程度非常好;同時根據表3-2可知,方程整體都通過了顯著性檢驗;根據表3-3可知,不但方程整體通過了顯著性檢驗,每個不同次冪的也經過了顯著性檢驗,所以建立的三次方程式完全符合實際情況的。根據第三個表建立出三次函數(shù)方程:同時得出2014年預測值萬人,預測值與真實值相差萬人。預測值與真實值相差程度遠小于運用線性多元回歸方法、逐步回歸法和主成分分析后的預測值與真實值之間的差異,進一步證明建立的三次函數(shù)模型符合實際情況。3.2 Logistic模型Logistic模型增長公式為: 其中
24、為時刻的人口總數(shù),為人口極限規(guī)模,為自然對數(shù)的底,為時刻長度,、為待定參數(shù)。Logistic模型考慮到人口總數(shù)增長的有限性,提出了人口總數(shù)增長的規(guī)律即隨著人口總數(shù)的增長,人口增長率逐漸下降,但對于在短期內如30-50年內人口增長可能呈上升趨勢如人口生育率上升、死亡率下降等原因而導致人口呈上升趨勢。Logistic模型在應用中對時間長,人口數(shù)據變化大,因此誤差較大且不穩(wěn)定。而小城鎮(zhèn)人口的變化就存在人口數(shù)據變化較大的特點,所以Logistic模型對小城鎮(zhèn)人口的預測并不適合。用對人口進行Logistic曲線擬合,運用命令: x=2014 2013 2012 2011 2010 2009 2008 2
25、007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 1996 1995 1994 1993 1992 1991 1990 1989 1988 1987 1986 1985 1984 1983 1982 1981 1980y=136782 136072 135404 134735 134091 133450 132802 132129 131448 130756 129988 129227 128453 127627 126743 125786 124761 123626 122389 121121 119850 118517 117171
26、 115823 114333 112704 111026 109300 107507 105851 104357 103008 101654 100072 98705 x=x;y=y;st_ = 2000 127627 1;(在x,y內任意取的數(shù))ft_ = fittype(a/(1+b*exp(-k*(x-1980) ,. dependent,y,independent,x,. coefficients,a, b, k);cf_ = fit(x,y,ft_ ,Startpoint,st_)最后運行出的結果:cf_ = General model: cf_(x) = a/(1+b*exp(-k
27、*(x-1980) Coefficients (with 95% confidence bounds): a = 1.217e+005 (1.144e+005, 1.29e+005) b = 1.176e+005 (-4.741e+009, 4.742e+009) k = 13.21 (-4.032e+004, 4.035e+004)根據運行結果,得到Logistic擬合方程: 其中a為人口上線的估計值,因為在1995年人口的實際值就已經超過了預測上限,所以該模型不是和用于預測未來的人口。造成模型不準確的原因主要是數(shù)據過少,且人口數(shù)據多數(shù)來自抽樣調查,數(shù)據本身存在一定誤差。結 論通過不同的模型
28、建立方法對獲得的人口數(shù)據建立了多個不同的預測模型;經過對比發(fā)現(xiàn)三次曲線模型是最符合實際運用的;導致其他模型不適用的原因主要為:(1)目前我國的人口出生率低、死亡率低、自然增長率低這表明我國將進入“低、低、低”現(xiàn)代人口再生產類型的行列;即我國今后的人口數(shù)量趨勢大致會成為一條水平線。 (2)自20世紀70年代初期大力推行計劃生育政策以來,中國人口過快增長的勢頭得到了有效遏制由于中國人口基數(shù)大,青少年的比重較高,在今后一段較長的時期內,人口總量還將持續(xù)增長,在經歷高峰期后,人口總數(shù)才會呈緩慢下降的趨勢;本次分析采用的數(shù)據為1980年到2014年,數(shù)據受到政策影響較大。通過對模型趨勢線的觀測,發(fā)現(xiàn)在未來一段的時間內我國的人口都將處于緩慢增加的狀態(tài)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年硫酸黏菌素類產品項目資金籌措計劃書代可行性研究報告
- 互聯(lián)網教育股權融資計劃書
- 股權激勵計劃終止及股權轉讓協(xié)議范本
- 股權期權激勵與員工期權激勵計劃補充協(xié)議
- 藥店供藥協(xié)議書
- 資產糾紛協(xié)議書
- 綜合會員協(xié)議書
- 砍伐按樹協(xié)議書
- 聘用違約協(xié)議書
- 療程減肥協(xié)議書
- 2025-2031年中國醫(yī)學檢驗市場深度分析及行業(yè)前景展望報告
- 醫(yī)院培訓課件:《中華人民共和國母嬰保健法》
- 佛山市普通高中2025年高三第二次診斷性檢測生物試卷含解析
- 道路竣工測量重點基礎知識點
- 《相控陣雷達技術與應用》課件
- 人教版(2024)七年級下冊生物期末復習知識點背誦提綱
- 嚴重過敏反應診斷和臨床管理專家共識(2025)解讀
- 物業(yè)標準化管理手冊大全
- 遙感地質勘查服務企業(yè)數(shù)字化轉型與智慧升級戰(zhàn)略研究報告
- 快手開店合同協(xié)議
- 2025至2030年中國儲能變流器(PCS)產業(yè)投資規(guī)劃及前景預測報告
評論
0/150
提交評論