




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、第四章第四章 地理要素間的相關(guān)分地理要素間的相關(guān)分析與回歸分析析與回歸分析 問題的引入問題的引入地理系統(tǒng),是由多種要素相復合而構(gòu)成的復雜巨系地理系統(tǒng),是由多種要素相復合而構(gòu)成的復雜巨系統(tǒng)。在這個系統(tǒng)中,一方面,各種要素之間存在著統(tǒng)。在這個系統(tǒng)中,一方面,各種要素之間存在著相互聯(lián)系、相互影響和相互制約的關(guān)系;另一方面,相互聯(lián)系、相互影響和相互制約的關(guān)系;另一方面,各種要素的復合作用又使各種地理事物和地理現(xiàn)象各種要素的復合作用又使各種地理事物和地理現(xiàn)象表現(xiàn)出強烈的地域差異性。表現(xiàn)出強烈的地域差異性。為了定量地揭示各種地理要素之間的相互關(guān)系,以為了定量地揭示各種地理要素之間的相互關(guān)系,以及各種地理事
2、物和地理現(xiàn)象所表現(xiàn)出來的地域分異及各種地理事物和地理現(xiàn)象所表現(xiàn)出來的地域分異規(guī)律,就必須采用以規(guī)律,就必須采用以概率論和多元統(tǒng)計分析方法概率論和多元統(tǒng)計分析方法對對地理系統(tǒng)進行深入研究。地理系統(tǒng)進行深入研究。問題的引入問題的引入全球變化:過去一直認為地球氣候變暖是由二氧化全球變化:過去一直認為地球氣候變暖是由二氧化碳的溫室效應造成的,但近年來有人指出,地表特碳的溫室效應造成的,但近年來有人指出,地表特別是海面的水蒸氣(別是海面的水蒸氣(water vapor)是更重要的影)是更重要的影響因素,二氧化碳只不過是一個響因素,二氧化碳只不過是一個“幫兇幫兇”。如果這。如果這種觀點成立,則氣候變暖至少
3、有兩個原因:水蒸氣種觀點成立,則氣候變暖至少有兩個原因:水蒸氣和二氧化碳。和二氧化碳。有些物理學家經(jīng)過研究指出,無論二氧化碳還是水有些物理學家經(jīng)過研究指出,無論二氧化碳還是水蒸汽都不是全球升溫的真正原因,導致全球升溫的蒸汽都不是全球升溫的真正原因,導致全球升溫的根本原因在于太陽活動的變化。這樣看來,全球升根本原因在于太陽活動的變化。這樣看來,全球升溫和二氧化碳含量的變化乃至水蒸汽的變化其實都溫和二氧化碳含量的變化乃至水蒸汽的變化其實都是太陽活動的共同反映,而太陽活動就是過去沒有是太陽活動的共同反映,而太陽活動就是過去沒有引起人們注意的潛伏變量。引起人們注意的潛伏變量。Intergovernme
4、ntal Panel on Climate Change聯(lián)合國政府間氣候變化專門委員會聯(lián)合國政府間氣候變化專門委員會再如,干旱地區(qū),山上的積雪深度影響山下再如,干旱地區(qū),山上的積雪深度影響山下的灌溉面積;根據(jù)天災和地震的關(guān)系開展地的灌溉面積;根據(jù)天災和地震的關(guān)系開展地震預報,預報效果良好。震預報,預報效果良好。為了處理諸如此類的一果多因、多果多因的為了處理諸如此類的一果多因、多果多因的因果關(guān)系問題,這就需要掌握相關(guān)分析和回因果關(guān)系問題,這就需要掌握相關(guān)分析和回歸分析。歸分析。在地理研究中,回歸分析和相關(guān)分析是最常在地理研究中,回歸分析和相關(guān)分析是最常用,也是最重要的兩種統(tǒng)計分析技術(shù)用,也是最重
5、要的兩種統(tǒng)計分析技術(shù),主要,主要被用于回答一些定義明確的數(shù)值變量之間的被用于回答一些定義明確的數(shù)值變量之間的關(guān)系問題。關(guān)系問題??茖W研究的主要功能是科學研究的主要功能是借助因果關(guān)系進行解釋和預借助因果關(guān)系進行解釋和預測測。回歸分析和相關(guān)分析是利用建立數(shù)學模型的過程和回歸分析和相關(guān)分析是利用建立數(shù)學模型的過程和結(jié)果進行解釋和預測的重要途徑。結(jié)果進行解釋和預測的重要途徑。另外,回歸分析還是學習其他許多更為復雜的數(shù)學另外,回歸分析還是學習其他許多更為復雜的數(shù)學方法的基礎,如主成分分析、判別分析、灰色預測方法的基礎,如主成分分析、判別分析、灰色預測、小波分析、神經(jīng)網(wǎng)絡分析等。、小波分析、神經(jīng)網(wǎng)絡分析等
6、。本章內(nèi)容包括本章內(nèi)容包括地理要素間的相關(guān)分析地理要素間的相關(guān)分析地理要素間的回歸分析地理要素間的回歸分析空間趨勢面分析空間趨勢面分析 地理要素的時間序列分析地理要素的時間序列分析地理要素的逐步回歸模型分析地理要素的逐步回歸模型分析 第1節(jié) 相關(guān)分析 相關(guān)分析的任務,是相關(guān)分析的任務,是揭示地理要素之揭示地理要素之間相互關(guān)系的密切程度。間相互關(guān)系的密切程度。 地理要素之間相互關(guān)系密切程度的測地理要素之間相互關(guān)系密切程度的測定,主要是通過定,主要是通過對相關(guān)系數(shù)的計算與檢驗對相關(guān)系數(shù)的計算與檢驗來完成的。來完成的。地理要素間的相關(guān)類型根據(jù)相關(guān)所涉及變量的多少,相關(guān)關(guān)系分為單相關(guān)與復相根據(jù)相關(guān)所涉
7、及變量的多少,相關(guān)關(guān)系分為單相關(guān)與復相關(guān)。兩個變量之間的相關(guān)關(guān)系稱為單相關(guān);多個變量之間關(guān)。兩個變量之間的相關(guān)關(guān)系稱為單相關(guān);多個變量之間的相關(guān)關(guān)系稱為復相關(guān)。的相關(guān)關(guān)系稱為復相關(guān)。根據(jù)相關(guān)的形式不同,相關(guān)關(guān)系分為線性相關(guān)與非線性相根據(jù)相關(guān)的形式不同,相關(guān)關(guān)系分為線性相關(guān)與非線性相關(guān)。如果變量之間的關(guān)系近似地表現(xiàn)為一條直線,則稱為關(guān)。如果變量之間的關(guān)系近似地表現(xiàn)為一條直線,則稱為線性相關(guān);如果變量之間的關(guān)系近似地表現(xiàn)為一條曲線,線性相關(guān);如果變量之間的關(guān)系近似地表現(xiàn)為一條曲線,則稱為非線性相關(guān)或曲線相關(guān)。則稱為非線性相關(guān)或曲線相關(guān)。根據(jù)變量相關(guān)方向的不同,相關(guān)關(guān)系分為正相關(guān)與負相關(guān)。根據(jù)變量相
8、關(guān)方向的不同,相關(guān)關(guān)系分為正相關(guān)與負相關(guān)。正相關(guān)是指兩個變量之間的變化方向一致,都是增長或下正相關(guān)是指兩個變量之間的變化方向一致,都是增長或下降趨勢,如居民收入增加,居民消費額隨之增加,故它們降趨勢,如居民收入增加,居民消費額隨之增加,故它們是正相關(guān);負相關(guān)是指兩個變量變化趨勢方向相反,如產(chǎn)是正相關(guān);負相關(guān)是指兩個變量變化趨勢方向相反,如產(chǎn)品單位成本降低,利潤隨之增加,故它們是負相關(guān)。品單位成本降低,利潤隨之增加,故它們是負相關(guān)。根據(jù)相關(guān)程度的不同,相關(guān)關(guān)系分為不相關(guān)、完全相關(guān)和不完全相關(guān)。根據(jù)相關(guān)程度的不同,相關(guān)關(guān)系分為不相關(guān)、完全相關(guān)和不完全相關(guān)。如果兩個變量彼此的數(shù)量變化相互獨立,這種關(guān)
9、系稱為不相關(guān);如果一個如果兩個變量彼此的數(shù)量變化相互獨立,這種關(guān)系稱為不相關(guān);如果一個變量的數(shù)量變化完全由另一個變量的數(shù)量變化所唯一確定,這種關(guān)系稱為變量的數(shù)量變化完全由另一個變量的數(shù)量變化所唯一確定,這種關(guān)系稱為完全相關(guān);介于不相關(guān)與完全相關(guān)之間的關(guān)系,稱為不完全相關(guān)。完全相關(guān);介于不相關(guān)與完全相關(guān)之間的關(guān)系,稱為不完全相關(guān)。本節(jié)主要內(nèi)容:兩要素之間相關(guān)程度的測定多要素間相關(guān)程度的測定一、兩要素之間相關(guān)程度的測定簡單相關(guān)系數(shù)(simple correlation coefficient )的計算與檢驗秩相關(guān)系數(shù)(rank correlation coefficient )的計算與檢驗相關(guān)系數(shù)
10、的計算相關(guān)系數(shù)的計算 定義: 和 為兩要素的平均值。 niiniiniiixyyyxxyyxxr12121)()()(yx(3.1.1)(一)相關(guān)系數(shù)的計算與檢驗(一)相關(guān)系數(shù)的計算與檢驗兩個變量之間的協(xié)方差和標準差的商 說明 :- 1 = 0.432,所以在=0.01的置信水平上來看,中國大陸各?。ㄖ陛犑?、自治區(qū))人口規(guī)模與GDP是等級相關(guān)的。 rr01. 0rxyr01. 0r在在零假設零假設下近似服從自由度為下近似服從自由度為 n 2的的t分布分布SPSS-雙變量相關(guān)分析建立數(shù)據(jù)文件單擊Analyze / Correlate / Bivariate選擇分析變量提交運行 輸出結(jié)果及對其解釋
11、課后作業(yè)在山東省統(tǒng)計信息網(wǎng),搜集1984-2012年城鎮(zhèn)人均可支配收入(見10-2 城鎮(zhèn)居民年人均收入中的人均可支配收入)與人均消費性支出(見表10-3 城鎮(zhèn)居民年人均支出中的消費性支出)。做出散點圖(收入為X軸,消費為Y軸),計算簡單相關(guān)系數(shù)并檢驗。在國家統(tǒng)計局官網(wǎng)上,找到”2013年中國統(tǒng)計年鑒“,搜集2012年全國各省市區(qū)城鎮(zhèn)人均可支配收入(見表11-14)和人均全年現(xiàn)金消費支出(見表11-15)。做出散點圖(收入為X軸,消費為Y軸),計算秩相關(guān)系數(shù)并檢驗。二、多要素間相關(guān)程度的測定偏相關(guān)系數(shù)的計算與檢驗復相關(guān)系數(shù)的計算與檢驗 偏相關(guān)和復相關(guān)是兩個相對應的概念 (一)偏相關(guān)系數(shù)的計算與檢
12、驗(一)偏相關(guān)系數(shù)的計算與檢驗 定義:在多要素所構(gòu)成的地理系統(tǒng)中,先不考慮其他要素的影響,而單獨研究單獨研究兩個要素之間的相互關(guān)系的密切程度,這兩個要素之間的相互關(guān)系的密切程度,這稱為偏相關(guān)稱為偏相關(guān)。用以度量偏相關(guān)程度的統(tǒng)計量,稱為偏相關(guān)系數(shù)。n偏相關(guān)系數(shù)偏相關(guān)系數(shù)(partial correlation coefficient)624C2/ ) 1(2mmCm當研究當研究2個相關(guān)變量個相關(guān)變量x1、x2的關(guān)系時,用直線相關(guān)系數(shù)的關(guān)系時,用直線相關(guān)系數(shù)r12表示表示x1與與x2線性線性相關(guān)的性質(zhì)與程度。此時固定的變量個數(shù)為相關(guān)的性質(zhì)與程度。此時固定的變量個數(shù)為0,所以直線相關(guān)系數(shù),所以直線相
13、關(guān)系數(shù)r12又叫做又叫做零級偏相關(guān)系數(shù)。零級偏相關(guān)系數(shù)。當研究當研究3個相關(guān)變量個相關(guān)變量x1、x2、x3的相關(guān)時,我們把的相關(guān)時,我們把x3保持固定不變,保持固定不變,x1與與x2的相關(guān)系數(shù)稱為的相關(guān)系數(shù)稱為x1與與x2的偏相關(guān)系數(shù),記為的偏相關(guān)系數(shù),記為r12.3,類似地,還有偏相關(guān)系數(shù),類似地,還有偏相關(guān)系數(shù)r13.2、 r23.1。這。這3個偏相關(guān)系數(shù)固定的變量個數(shù)為個偏相關(guān)系數(shù)固定的變量個數(shù)為1,所以都叫做一級偏相關(guān),所以都叫做一級偏相關(guān)系數(shù)。系數(shù)。當研究當研究4個相關(guān)變量個相關(guān)變量x1、x2、x3、x4的相關(guān)時,須將其中的的相關(guān)時,須將其中的2個變量固定不個變量固定不變,研究另外兩
14、個變量間的相關(guān)。即此時只有二級偏相關(guān)系數(shù)才真實地反變,研究另外兩個變量間的相關(guān)。即此時只有二級偏相關(guān)系數(shù)才真實地反映兩個相關(guān)變量間線性相關(guān)的性質(zhì)與程度。二級偏相關(guān)系數(shù)共有映兩個相關(guān)變量間線性相關(guān)的性質(zhì)與程度。二級偏相關(guān)系數(shù)共有個:個:r12.34,r13.24,r14.23,r23.14,r24.13,r34.12。一般,當研究一般,當研究m個相關(guān)變量個相關(guān)變量x1、x2、xm的相關(guān)時,只有將其中的相關(guān)時,只有將其中的的m-2個變量保持固定不變,研究另外兩個變量的相關(guān)才能真實地反映這個變量保持固定不變,研究另外兩個變量的相關(guān)才能真實地反映這兩個相關(guān)變量間的相關(guān),即此時只有兩個相關(guān)變量間的相關(guān),
15、即此時只有m-2級偏相關(guān)系數(shù)才真實地反映了這級偏相關(guān)系數(shù)才真實地反映了這兩個相關(guān)變量間線性相關(guān)的性質(zhì)與程度。兩個相關(guān)變量間線性相關(guān)的性質(zhì)與程度。m-2級偏相關(guān)系數(shù)共有級偏相關(guān)系數(shù)共有個。個。xi與與xj的的m-2級偏相關(guān)系數(shù)記為級偏相關(guān)系數(shù)記為rij.(i,j=1,2,m,ij)。偏相關(guān)系數(shù)的取值范圍為偏相關(guān)系數(shù)的取值范圍為-1,1,即:,即:-1rij.1。 計算:3個要素的偏相關(guān)系數(shù))1)(1(2232132313123.12rrrrrr(3.1.5) (3.1.6) )1)(1(2232122312132.13rrrrrr)1)(1(2132121312231.23rrrrrr(3.1.
16、7) 要單純反映要單純反映x1與與x2的相的相關(guān)程度,必須扣除關(guān)程度,必須扣除x1 與與x3的相關(guān)性以及的相關(guān)性以及x2與與x3的相關(guān)性,由于這兩的相關(guān)性,由于這兩種相關(guān)不是獨立的,因種相關(guān)不是獨立的,因此扣除二者的乘積。同此扣除二者的乘積。同時,還要考慮時,還要考慮x1解釋解釋x3的剩余部分和的剩余部分和x2解釋解釋x3的剩余部分的影響,他的剩余部分的影響,他們的共同影響也是越小們的共同影響也是越小越好,因此除以二者乘越好,因此除以二者乘積的平方根。積的平方根。4個要素的偏相關(guān)系數(shù)(3.1.8) )1)(1(23.2423.143.243.143.1234.12rrrrrr)1)(1(22.
17、3422.142.342.142.1324.13rrrrrr(3.1.9) )1)(1(22.4322.132.432.132.1423.14rrrrrr(3.1.10) )1)(1(21.3421.241.341.241.2314.23rrrrrr(3.1.11) 例如:對于某4個地理要素x1,x2,x3,x4的23個樣本數(shù)據(jù),經(jīng)過計算得到了如下的單相關(guān)系數(shù)矩陣: 1469.0950.0579.0469.01592.0346.0950.0592.01416.0579.0346.0416.0144434241343332312423222114131211rrrrrrrrrrrrrrrrR 利
18、用公式計算一級偏向關(guān)系數(shù),如表3.1.6所示:r1234r1324r1423r2314r2413r3412-0.1700.8020.635-0.1870.821 -0.337r123r132r142r143r231r241r243r341r3420.8210.8080.6470.895- -0.8630.9560.945- -0.8750.371 利用公式計算二級偏相關(guān)系數(shù),如表3.1.7所示: 4個要素的一級偏相關(guān)系數(shù)有12個,這里給出了9個;二級偏相關(guān)系數(shù)有6個,這里全部給出來了。 寫出其余3個一級偏相關(guān)系數(shù)表表3.1.6 3.1.6 一級偏相關(guān)系數(shù)一級偏相關(guān)系數(shù) 表表3.1.7 3.1.
19、7 二級偏相關(guān)系數(shù)二級偏相關(guān)系數(shù) n 偏相關(guān)系數(shù)的性質(zhì)偏相關(guān)系數(shù)的性質(zhì) 偏相關(guān)系數(shù)分布的范圍在偏相關(guān)系數(shù)分布的范圍在-1到到1之間;之間; 偏相關(guān)系數(shù)的絕對值越大,表示其偏偏相關(guān)系數(shù)的絕對值越大,表示其偏相關(guān)程度越大;相關(guān)程度越大; 偏相關(guān)系數(shù)的絕對值必小于或最多等偏相關(guān)系數(shù)的絕對值必小于或最多等于由同一系列資料所求得的復相關(guān)系數(shù),即于由同一系列資料所求得的復相關(guān)系數(shù),即 R123|r123|。偏相關(guān)系數(shù)的顯著性檢驗偏相關(guān)系數(shù)的顯著性檢驗 偏相關(guān)系數(shù)的顯著性檢驗,一般采用t檢驗法。其統(tǒng)計量計算公式為 式中: 為偏相關(guān)系數(shù);n為樣本數(shù);m為自變量個數(shù)。 11341223412 mnrrtmm(3
20、.1.14) mr312 查t分布表,在自由度為23-3-1=19時,t0.001=3.883,顯然 ,這表明在置信度水平 =0.001上,偏相關(guān)系數(shù)r2413是顯著的。268. 61323821. 01821. 02ttt 譬如,對于上例計算得到的偏相關(guān)系數(shù) ,由于n=23,m=3,故821. 01324r小結(jié)偏相關(guān)分析 ( Partial ) 是研究在多變量的情況下,變量之間的復雜相關(guān)關(guān)系。在多變量的情況下, 2 個變量間的簡單相關(guān)系數(shù)往往不能正確揭示這 2 個變量間的關(guān)系,只有在除去其他變量影響的情況下,計算它們之間的相關(guān)系數(shù),才能更確切地揭示他們間的相關(guān)關(guān)系。簡單相關(guān)關(guān)系有時不能真實反
21、映現(xiàn)象的關(guān)系簡單相關(guān)關(guān)系有時不能真實反映現(xiàn)象的關(guān)系, 如:在研究商品的需求量和價格、消費者收入之間的關(guān)系時會發(fā)現(xiàn),需求量和價格之間的相關(guān)關(guān)系實際上還包含了消費者收入對商品需求量的影響。 例如,一種商品的需求既受收入水平的影響又受其價格的影響。按照經(jīng)濟學理論,在一定收入水平下,該商品的價格越高,商品的需求量就越小。也就是說,需求與價格之間應當是負相需求與價格之間應當是負相關(guān)關(guān)??墒?在現(xiàn)實經(jīng)濟生活中,由于收入和價格常常收入和價格常常都有不斷提高的趨勢都有不斷提高的趨勢,如果不考慮收入對需求的影響,僅僅利用需求和價格的時間序列數(shù)據(jù)去計算簡單相關(guān)系數(shù)簡單相關(guān)系數(shù),就有可能得出價格越高需求越大的錯誤結(jié)
22、論。 所以,我們在進行相關(guān)分析時往往要控制第三個變量,而研究變量之間的相關(guān)關(guān)系。通過偏相關(guān)系數(shù)與相關(guān)系數(shù)的比較,來確定這兩個變量之間的內(nèi)在線性聯(lián)系會更真實,更可靠SPPS 偏相關(guān)分析建立工作數(shù)據(jù)文件 單擊Analyze/ Correlate / Partial.菜單項,打開Partial Correlations對話框。 指定分析變量和控制變量。 假設檢驗類型的選擇。可以選擇單尾檢驗或者雙尾檢驗。 選擇Options中的選擇項。 運行偏相關(guān)過程并對結(jié)果進行解釋。偏相關(guān)的選擇項Statistics:統(tǒng)計量選擇項Means and standard deviations:均值和標準差Zero-or
23、der correlations:要求顯示零階相關(guān)矩陣,即Pearson相關(guān)矩陣Missing Values:缺失值處理Exclude cases listwise:剔除所有帶有缺失值的觀測量。Exclude cases pairwise:成對剔除帶有缺失值的觀測量自然因素中平均坡度和平均海拔均表現(xiàn)出與土地生產(chǎn)率的負相關(guān)關(guān)系,其中以低值區(qū)的系數(shù)絕對值最大,平均海拔的相關(guān)系數(shù)達到平均海拔的相關(guān)系數(shù)達到-0.599 的顯著負相的顯著負相關(guān)關(guān),說明當前該地區(qū)的土地生產(chǎn)率水平受到地形海拔高度的明顯負向影響。社會經(jīng)濟因素中,化肥投入量和有效灌溉率化肥投入量和有效灌溉率與土地生產(chǎn)率的正向偏相關(guān)關(guān)系顯著,尤
24、其是中值區(qū)中值區(qū)的正相關(guān)度較高,明顯高于其他地區(qū).(二)復相關(guān)系數(shù)的計算與檢驗(二)復相關(guān)系數(shù)的計算與檢驗 復相關(guān)系數(shù)(multiple correlation analysis ) :反映幾個要素與某一個要素之間的復相關(guān)程度 。復相關(guān)系數(shù)的計算復相關(guān)系數(shù)的計算 當有兩個自變量時 當有三個自變量時(3.1.15) )1)(1 (11 . 221212.yyyrrR)1)(1)(1 (112. 321 . 2212123.yyyyrrrR(3.1.16)可利用單相關(guān)系數(shù)和偏相關(guān)系數(shù)求得 當有k個自變量時)1 )1)(1 (1)1.(12.21 .2212.12. kykyykyrrrR(3.1.
25、17) 復相關(guān)系數(shù)的性質(zhì) 復相關(guān)系數(shù)介于0到1之間,即1012.kyR 復相關(guān)系數(shù)越大,則表明要素(變量)之間的相關(guān)程度越密切。復相關(guān)系數(shù)為1,表示完全相關(guān);復相關(guān)系數(shù)為0,表示完全無關(guān)。 復相關(guān)系數(shù)必大于或至少等于單相關(guān)系數(shù)的絕對值。復相關(guān)系數(shù)的顯著性檢驗復相關(guān)系數(shù)的顯著性檢驗 F檢驗法。其統(tǒng)計量計算公式為kknRRFkyky11212.212.(3.1.18)例題:在上例中,若以x4為因變量,x1,x2,x3為自變量,試計算x4與x1,x2,x3之間的復相關(guān)系數(shù)。 解:按照公式(3.1.16)計算 檢驗: ,故復相關(guān)達到了極顯著水平。974.0337.01)(956.01)(579.01
26、(1)1)(1)(1 (1222212.4321 .42241123.4)rrrR3010. 57190.12001. 0FF相關(guān)系數(shù)取值在相關(guān)系數(shù)取值在 -1 與與 1 之間。之間。相關(guān)系數(shù)是一種對稱測量。相關(guān)系數(shù)是一種對稱測量。相關(guān)系數(shù)無量綱,可以進行比較。相關(guān)系數(shù)無量綱,可以進行比較。2222)()( yynxxnyxxynr使用相關(guān)系數(shù)時應注意的問題:使用相關(guān)系數(shù)時應注意的問題:相關(guān)關(guān)系不等于因果關(guān)系;相關(guān)關(guān)系不等于因果關(guān)系;相關(guān)系數(shù)只度量變量間的線性關(guān)系,因此,相關(guān)系數(shù)只度量變量間的線性關(guān)系,因此,弱相關(guān)不一定表明變量間沒有關(guān)系;弱相關(guān)不一定表明變量間沒有關(guān)系;極端值可能影響相關(guān)系數(shù)
27、。極端值可能影響相關(guān)系數(shù)。注意相關(guān)關(guān)系成立的數(shù)據(jù)范圍。注意相關(guān)關(guān)系成立的數(shù)據(jù)范圍。警惕虛假相關(guān)警惕虛假相關(guān)第2節(jié) 地理要素間的回歸分析Regression Analysis回歸分析的意義和作用l一、一元線性回歸模型l二、一元非線性回歸模型l三、多元線性回歸模型l四、多元非線性回歸模型相關(guān)與回歸統(tǒng)計方法的創(chuàng)始人相關(guān)與回歸統(tǒng)計方法的創(chuàng)始人-弗朗西斯弗朗西斯高爾頓高爾頓(Francis Galton), 1877年年;研究人類身長的遺傳研究人類身長的遺傳 “回歸回歸”到平均數(shù)到平均數(shù)回歸:退回回歸:退回regression平均身高平均身高回歸名稱來自于早期研究父母和他們的孩子的身高早期研究父母和他們
28、的孩子的身高時所采用的方法。Galton發(fā)展的研究兩個數(shù)值變量關(guān)系的統(tǒng)計方法稱發(fā)展的研究兩個數(shù)值變量關(guān)系的統(tǒng)計方法稱為回歸分析。為回歸分析?;貧w分析,就是對具有相互聯(lián)系的要素,根據(jù)其聯(lián)系的形態(tài),選擇一個合適的數(shù)學模式,用來近似地表達要素間平均變化關(guān)系。回歸分析是研究要素之間具體的數(shù)量關(guān)系的一種強有力的工具,運用這種方法能夠建立反映地理要素之間具體的數(shù)量關(guān)系的數(shù)學模型,即回歸模型。 回歸分析的定義地理回歸分析的意義和作用地理系統(tǒng)是一個要素眾多、聯(lián)系復雜的大系統(tǒng)。各個因素之間存在著錯綜復雜的關(guān)系。在水文、氣象、地震等預報中,人文地理與經(jīng)濟地理分析中,常常需要選擇對某一地理變量(因變量)有影響的因子
29、(自變量)。雖然可以從理論上分析,選出影響因子,但是影響程度不是單憑理論分析就可判定的。需要回歸分析來測定各變量(因素)對不同地理現(xiàn)象的影響程度;并以此建立模型進行預測或控制。因此,在地理研究中回歸分析具有極其重要的作用回歸分回歸分析分類析分類按自變量按自變量個數(shù)分類個數(shù)分類一元回歸一元回歸簡單回歸簡單回歸多元回歸多元回歸復回歸復回歸按模型特按模型特征分類征分類線性回歸線性回歸非線性回歸非線性回歸Simple Linear regression一一 元元線線性性回回歸歸 為了研究鋼材消費量與國民收入之間的關(guān)系,在統(tǒng)計年鑒上查得某地區(qū)一組歷史數(shù)據(jù)。引例:鋼材消費量與國民收入的關(guān)系 年年 份份19
30、9419951996200720082009鋼材消費鋼材消費(噸噸)698872988144627362825國民收入國民收入(億億)109712841502294831553372 試分析預測若2010年到2015年該地區(qū)國民收入以4.5%的速度遞增,2015年鋼材消費量將達到什么樣的水平? 鋼材消費量-因變量y dependent variable 被被解釋變量,待估測的變量解釋變量,待估測的變量國民收入-自變量 x independent variable解釋變量,給定的或可以控制的變量,作為估測根據(jù)的變量解釋變量,給定的或可以控制的變量,作為估測根據(jù)的變量建立數(shù)據(jù)擬合函數(shù) y = E(
31、Y | x)= f(x);作擬合曲線圖形分析。 問題分析:10001500200025003000350050010001500200025003000y=a+bx 鋼材消費量y與國民收入x的散點圖 鋼材消費量y國民收入x 定義:假設有兩個地理要素(變量)x 和y,x為自變量,y為因變量。則一元線性回歸模型的基本結(jié)構(gòu)形式為 式中:a和b為待定參數(shù); 為各組觀測數(shù)據(jù)的下標; 為隨機變量。iiibxay(3.2.1) ni,1,2,i一、一元線性回歸模型需要解決的問題: 1) 在回歸模型中如何估計參數(shù)a、b? 2) 模型的假設是否正確?需要檢驗。3)利用回歸方程對y進行預測或?qū)進行控制? 記 和
32、 分別為參數(shù)a與b的擬合值,則一元線性回歸模型為 (3.2.2)式代表x與y之間相關(guān)關(guān)系的擬合直線,稱為回歸直線; 是y的估計值,亦稱回歸值。a bxbay(3.2.2) y 1.參數(shù)估計:最小二乘法(Ordinary Least Squares)截距截距斜率斜率xbay10001500200025003000350050010001500200025003000 鋼材消費量y與國民收入x的散點圖ei(xi , yi)y 鋼材消費量y國民收入xmin)(1122niniiiiyyeQ 參數(shù)a與b的最小二乘擬合原則要求yi與 的誤差ei的平方和達到最小,即 根據(jù)取極值的必要條件,有 niiini
33、niiiibxayyyeQ121122min)()(niiiiniiixbxaybQbxayaQ110)(20)(2(3.2.4) iy 參數(shù)參數(shù)a、b的的最小二乘估計(最小二乘估計(OLSOLS) (3.2.3) 正規(guī)方程組iniiniiniiniiniiyxbxaxybxan112111(3.2.5) 解上述正規(guī)方程組(3.2.5)式,得到參數(shù)a與b的擬合值代數(shù)法求解參數(shù)a、bxxxyniiniiiLLxxyyxxb121)()(xbya2112111)(1)(1niiniininiiniiiixnxyxnyx(3.2.6) (3.2.7) 矩陣法求解參數(shù)a、biniiniiniiniin
34、iiyxbxaxybxan112111111211iiiiiniiniiniiyxybaxxxn121221221221111111111nnnnnnnnyyyxxxbaxxxxxxXXATYXBTBAb )()(11 -YXXXBAbTT實例:最大積雪深度與灌溉面積在我國西北的干旱地區(qū),灌溉用水在相當程度上依賴于山上的積雪。因此,積雪量與灌溉面積之間會形成因果關(guān)系。為了估計山上積雪融化對河流下游灌溉的影響,在山上建立觀測站,測得連續(xù)10年的觀測數(shù)據(jù)。借助回歸分析,建立數(shù)學模型,進行某種預測和解釋性的分析。例1:為了估計山上積雪融化后對下游灌溉的影響,在山上建立了一個觀測站,測量了最大積雪深度
35、(X)與當年灌溉面積(Y),得到連續(xù)10年的數(shù)據(jù)。最大積雪深度與灌溉面積的10年觀測數(shù)據(jù)年序年序最大積雪最大積雪深度深度X(X(尺尺) )灌溉面積灌溉面積Y(Y(千畝千畝 ) )年序年序最大積雪最大積雪深度深度X(X(尺尺) )灌溉面積灌溉面積Y(Y(千畝千畝 ) )1 115.215.228.628.66 623.423.445452 210.410.419.319.37 713.513.529.229.23 321.221.240.540.58 816.716.734.134.14 418.618.635.635.69 9242446.746.75 526.426.448.948.9101
36、019.119.137.437.4數(shù)據(jù)來源:蘇宏宇和莫力,數(shù)據(jù)來源:蘇宏宇和莫力,2001.數(shù)據(jù)單位沿用原書數(shù)據(jù)單位沿用原書.第一步:判斷是否存在線性關(guān)系首先,正確的分析和判斷兩個變量之間的關(guān)系是線性關(guān)系還是非線性關(guān)系?方法:作散點圖法(scatter plot)、差分法、曲度法、計算器法等。從散點圖可以看出:兩個變量間關(guān)系的性質(zhì)(是正相關(guān)還是負相關(guān))和程度(是相關(guān)密切還是不密切);兩個變量間關(guān)系的類型,是直線型還是曲線型(如果數(shù)據(jù)接近一條直線,則認為變量間存在線性關(guān)系;如果數(shù)據(jù)接近一條光滑的曲線,則稱之為非線性關(guān)系);是否有異常觀測值的干擾。做出散點圖xbay第二步:求解a和b年序年序 x
37、y(x- )(x- )2 2 ( y- )2(x- )* ( y- )1 115.215.228.628.613.362.88 28.94 2 210.410.419.319.371.4296.87 145.59 3 321.221.240.540.55.5215.76 9.33 4 418.618.635.635.60.060.86 0.23 5 526.426.448.948.957153.02 93.39 6 623.423.4454520.771.74 38.54 7 713.513.529.229.228.653.73 39.22 8 816.716.734.134.14.625.9
38、0 5.22 9 9242446.746.726.5103.43 52.38 101019.119.137.437.40.060.76 0.22 求和求和188.5188.5365.3365.3228228764.96764.96413.06413.06平均值平均值18.8518.8536.5336.53xyyxxy813. 1256. 2256.285.18*813.153.6xbya813. 122806.413xxxyLLb一元線性回歸模型的顯著性檢驗一元線性回歸模型的顯著性檢驗:F檢驗檢驗(方差分析) 。一般步驟如下:。一般步驟如下: 計算檢驗的統(tǒng)計量F值構(gòu)造F統(tǒng)計量來衡量回歸模型的效
39、果。2. 回歸模型的假設檢驗自由度剩余平方和自由度回歸平方和1knQkUF(3.2.8) 總的離差平方和:在回歸分析中,表示y的n次觀測值之間的差異,記為) () ()(yyyyyy兩端平方,然后對所有的n點求和,則有2)(yy2)()( yyyy) )( (2) () (22yyyyyyyyxbya又因為)(xxbybxay)(xxbyy) )() )(yyxxbyyyy)()(xxbyyxxb)()()(xxbxxbyyxxbxxxyLbLb202xxxxxyxyxxxyLLLLLLxxxyLLb niiyyyyLS12)(總niiyyyyLS12)(總niniiiiUQyyyy1122)
40、()((3.2.9) (3.2.10) Q稱為誤差平方和,或剩余平方和;U稱為回歸平方和。 可以證明可以證明: :在假設在假設y y和和x x不存在線性關(guān)系(不存在線性關(guān)系(原假設原假設H H0 0:b=0b=0)時,)時,F(xiàn) F統(tǒng)計量統(tǒng)計量 因此,在給定的顯著水平(通常=0.01或0.05)下,若FF,拒絕原假設,則認為 x與y之間在 顯著性水平下存在線性統(tǒng)計關(guān)系。一般地,當FF(0.01,1,8)=11.25;回歸效果顯著Finding the Critical F顯著性水平又叫棄真概率顯著性水平又叫棄真概率-推斷為假的概率;推斷為假的概率;置信度對應于存真概率置信度對應于存真概率-推斷為
41、真的概率。推斷為真的概率。Finding the Computed FConclusion on Significance of SlopesSPSS 一元線性回歸模型(Graphs -Scatter-Simple)X Axis: Y Axis: 回歸分析結(jié)果00 xbay點估計量3. 預測與控制給定的自變量x0,給出: 但是由于各種因素的影響但是由于各種因素的影響,在在x= x0時時,實際上的觀察到的數(shù)值實際上的觀察到的數(shù)值y0一般不會恰好等于一般不會恰好等于 , 它們之間總是存在一定的偏差它們之間總是存在一定的偏差,即預即預測誤差。為了掌握預測的精度,要對誤差的變動范圍作出測定。測誤差。為
42、了掌握預測的精度,要對誤差的變動范圍作出測定。通常用通常用估計標準誤差估計標準誤差S來說明來說明 與與 的差異程度的差異程度 0 yiy iy2)(2nyySiiStandard error區(qū)間估計一般情況下,若一般情況下,若y為正態(tài)分布,當為正態(tài)分布,當n很大時,并且自變量很大時,并且自變量x不遠離不遠離均值時,則可以確定預測區(qū)間為:均值時,則可以確定預測區(qū)間為:以以0.6287概率保證的概率保證的y預測區(qū)間為:預測區(qū)間為:以以0.9545概率保證的概率保證的y預測區(qū)間為:預測區(qū)間為:以以0.9973概率保證的概率保證的y預測區(qū)間為:預測區(qū)間為:可見,可見,S 越小,數(shù)據(jù)越集中,由回歸模型估
43、計越小,數(shù)據(jù)越集中,由回歸模型估計y值,其精度越高值,其精度越高SySySySySySy3,32,2,000000,020200yyStyStyy0的(的(1-)的預測區(qū)間:的預測區(qū)間:例1 : 預測2009年最大積雪深度(X)達到28尺,概率度取1 時,預測2009年灌溉面積將是多少千畝?灌溉面積應在51.702, 54.538千畝。418. 128*813. 1356. 200Sxbay4. SPSS 回歸模型預測5. 課堂練習二、一元非線性回歸模型1選配曲線的基本方法確定曲線類型 數(shù)學表達式 化曲為直 利用最小二乘法求參數(shù)曲線回歸分析(curvilinear regression ana
44、lysis)的基本任務是通過兩個相關(guān)變量x與y的實際觀測數(shù)據(jù)建立曲線回歸方程,以揭示x與y間的曲線聯(lián)系的形式。曲線回歸分析最困難和首要的工作是確定變量與x間的曲線關(guān)系的類型。通常通過兩個途徑來確定:1、利用已有的有關(guān)專業(yè)知識,根據(jù)已知的理論規(guī)律和實踐經(jīng)驗。例如,謀取與人口增長常具有“S”型曲線的形狀,即Logistic曲線的形式等。2、若沒有已知的理論規(guī)律和經(jīng)驗可資利用,則可用描點法將實測點在直角坐標紙上描出Scatter diagram ,觀察實測點的分布趨勢與哪一類已知的函數(shù)曲線最接近,然后再選用該函數(shù)關(guān)系式來擬合實測點。非線性關(guān)系線性化的幾種情況非線性關(guān)系線性化的幾種情況對于指數(shù)曲線 ,
45、令 , 可以將其轉(zhuǎn)化為直線形式: , 其中, ; 對于對數(shù)曲線 ,令 , ,可以將其轉(zhuǎn)化為直線形式: ;對于冪函數(shù)曲線 ,令 , ,可以將其轉(zhuǎn)化為直線形式: 其中, ; bxdyexbayxbaylnxbaybdxy xbayyylnxx dalnyy xxlnyylnxxlndaln對于雙曲線 令 ,轉(zhuǎn)化為直線形式: ; 對于S型曲線 ,可 轉(zhuǎn)化為直線形式: ; 對于冪乘積 ,只要令 ,就可以將其轉(zhuǎn)化為線性形式 其中, ;xbay1xbayxxxyybaye,1,e1令xbaykkxxdxy2121kkxxxy22110 xxyy1,1kkxxxxxxyyln,ln,ln,ln2211dln
46、0對數(shù)模型雙曲線模型Analyze-regression-curve estimationLinear: y=b0+b1xQuadratic: y= b0+b1x+b2x2Compound: y=b0b1xGrowth: y=e(b0+b1x)Logarithmic: y= b0+b1lnxCubic: y= b0+b1x+b2x2+b3x3SPSS 一元非線性回歸模型一元非線性回歸模型 S: y=e(b0+b1/x) Exponential: y=b0eb1x Inverse: y=b0+b1/x Power: y=b0 xb1 Logistic: y=1/(1/u+b0b1x)不同模型的表
47、示不同模型的表示模型名稱模型名稱回歸方程回歸方程相應的線性回歸方程相應的線性回歸方程Linear(線性線性)Y=b0+b1tQuadratic(二次二次)Y=b0+b1t+b2t2Compound(復合復合)Y=b0(b1t)Ln(Y)=ln(b0)+ln(b1)tGrowth(生長生長)Y=eb0+b1tLn(Y)=b0+b1tLogarithmic(對數(shù)對數(shù))Y=b0+b1ln(t)Cubic(三次三次)Y=b0+b1t+b2t2+b3t3SY=eb0+b1/tLn(Y)=b0+b1 / tExponential(指數(shù)指數(shù))Y=b0 * eb1*tLn(Y)=ln(b0)+b1tInver
48、se(逆逆)Y=b0+b1/tPower(冪冪)Y=b0(tb1 )Ln(Y)=ln(b0)+b1ln(t)Logistic(邏輯邏輯)Y=1/(1/u+b0b1t)Ln(1/Y-1/u)=ln(b0+ln(b1)t)采用哪種擬合方式主要取決于各種擬合模型對數(shù)據(jù)的充分采用哪種擬合方式主要取決于各種擬合模型對數(shù)據(jù)的充分描述描述(看修正看修正Adjusted R2 -1)課本例題一元非線性回歸模型的建立一元非線性回歸模型的檢驗總離差平方和回歸平方和2222)()()(1yyyyyycRiii22)(2nQnyySi相關(guān)系數(shù)越大,表明回歸模型效果越好;反之,越差。剩余標準差越小,表明回歸模型效果越好
49、;反之,越差。F檢驗法對于對數(shù)函數(shù)和 只要令 ,就可以將其化為線性形式 例例: :表3.2.1給出了某地區(qū)林地景觀斑塊面積(area)與周長(perimeter)的數(shù)據(jù)。下面我們建立林地景觀斑塊面積A與周長P之間的非線性回歸模型 。 kkxxxylnlnln22110kkxxxy22110kkxxxxxxyyln,ln,ln,2211 序號序號面積面積A周長周長P序號序號面積面積A周長周長P110 447.370625.39242232 844.3004 282.043215 974.730612.286434 054.660289.307330 976.770775.7124430 833.
50、840895.98049 442.902530.202451 823.355205.131510 858.9201 906.1034626 270.300968.060621 532.9101 297.9624713 573.9601 045.07276 891.680417.0584865 590.0802 250.43583 695.195243.90749157 270.4002 407.54992 260.180197.239502 086.426266.54110334.33299.729513 109.070261.8181111 749.080558.921522 038.617
51、320.396122 372.105199.667533 432.137253.335138 390.633592.893541 600.391230.030146 003.719459.467553 867.586419.406表3.2.1 某地區(qū)各個林地景觀斑塊面積(m2)與周長(m) 15527 620.2006 545.291561 946.184198.66116179 686.2002 960.4755777.30556.9021714 196.460597.993587 977.719715.7521822 809.1801 103.0705919 271.8201 011.12
52、71971 195.9401 154.118608 263.480680.710203 064.242245.049 6114 697.1301 234.1142146 9416.7008 226.009624 519.867326.317225 738.953498.6566313 157.6601 172.916238 359.465415.151646 617.270609.801246 205.016414.790 654 064.137437.355256 0619.0201 549.871665 645.820432.355261 4517.740791.943676 993.35
53、5503.7842731 020.1001 700.965684 304.281267.9512826 447.1601 246.977696 336.383347.136297 985.926918.312702 651.414292.235303 638.766399.725712 656.824298.4733158 5425.10011 474.770721 846.988179.8663235 220.6401 877.476731 616.684172.8083310 067.820497.394741 730.563172.1433427 422.5701 934.5967511
54、 303.970881.0423543 071.5501 171.4137614 019.790638.1763657 585.9402 275.389779 277.172862.0883728 254.1301 322.7957813 684.750712.78738497 261.0009 581.298791 949.164228.4033924 255.030994.906804 846.016324.481401 837.699229.40181521 457.4007 393.938411 608.625225.84282564 370.80012 212.410 解解:(1)作
55、變量替換,令: , ,將表3.2.1中的原始數(shù)據(jù)進行對數(shù)變換,變換后得到的各新變量對應的觀測數(shù)據(jù)如表3.2.2所示。 AylnPxln序號序號y=lnAx=LnP序號序號y=lnAx=LnP1 9.254 1066.438 3794212.358 138.362 1862 9.678 7636.417 243 8.307 6225.667 487310.340 996.653 7824410.336 376.797 9184 9.153 0196.273 258457.508 4335.323 655 9.292 7427.552 8164610.176 196.875 2946 9.977
56、3387.168 551479.515 9096.951 8417 8.838 076.033 2264811.091 187.718 8798 8.214 7895.496 7894911.965 727.786 3649 7.723 25.284 414507.643 2085.585 52810 5.812 1354.602 457518.042 0795.567 65111 9.371 536.326 008527.620 0275.7695 58表3.2.2 經(jīng)對數(shù)變換后的數(shù)據(jù)127.771 5335.296 653538.140 9385.534 711139.034 8716.3
57、85 013547.378 0035.438 211148.700 1346.130 066558.260 3866.038 8391513.176 138.786 501567.573 6265.291 5971612.098 977.993 105574.347 7554.041 328179.560 7486.393 579588.984 4086.573 3341810.034 927.005 852599.866 3996.918 8211911.173 197.051 092609.019 6016.523 136208.027 5565.501 457619.595 4087.1
58、18 1092113.059 259.0150 56628.416 2385.787 871228.655 0326.211 917639.484 7597.067 248239.031 156.028 643648.797 4386.413 133248.733 1136.027 773658.309 9576.080 7442511.012 367.345 927668.638 6716.069 247269.583 1276.674 49678.852 7166.222 1472710.342 397.438 951688.367 3655.590 8062810.182 97.128
59、478698.754 0635.849 717298.985 4366.822 537707.882 8485.677 56308.199 45.990 776717.884 8875.698 6783113.280 099.347 906727.521 3115.192 2133210.469 397.537 684737.388 1325.152 181339.217 0996.209 381747.456 2025.148 3263410.219 127.567 654759.332 9096.781 1053510.670 627.065 966769.548 2256.458 614
60、3610.961 037.729 906779.135 3126.759 3583710.248 997.187 502789.524 0376.569 1823813.116 879.167 568797.575 1565.431 1123910.096 386.902 648808.485 9125.782 227407.516 275.435 4718113.164 388.908 416417.383 1355.419 8378213.243 479.410 208 (2) 以x為橫坐標、y為縱坐標,在平面直角坐標系中作出散點圖。很明顯,y與x呈線性關(guān)系。圖3.2.2 林地景觀斑塊面積
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【正版授權(quán)】 ISO/IEC 29110-5-1-1:2025 EN Systems and software engineering - Life cycle profiles for very small entities (VSEs) - Part 5-1-1: Software engineering guidelines for the gener
- 【正版授權(quán)】 ISO/IEC 27035-4:2024 EN Information technology - Information security incident management - Part 4: Coordination
- 酒店設施改造與管理輸出合同
- 網(wǎng)絡安全評估及防護服務合同
- 掛靠房地產(chǎn)公司協(xié)議書
- 簡易離婚協(xié)議書
- 技師勞動合同
- 愛眼日學?;顒臃桨福?篇)
- 美容院會員卡轉(zhuǎn)讓合同
- 網(wǎng)絡直播活動策劃方案
- 浙江省2023年中考語文試題【8套】(含答案)
- 4.1.2 實數(shù)指數(shù)冪-參考課件
- 【工商管理專業(yè)畢業(yè)綜合訓練報告2600字(論文)】
- 小學生四年級健康知識講座
- 中醫(yī)主任述職報告
- 通防培訓課件
- 音樂識譜節(jié)奏訓練課件
- 七年級數(shù)學上冊期末試卷(可打印)
- 學前兒童游戲(中職學前教育專業(yè))PPT完整版全套教學課件
- GN汽車吊吊裝專項安全方案講義
- 初中歷史-《開元盛世 》教學課件設計
評論
0/150
提交評論