應用回歸分析(R語言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第1頁
應用回歸分析(R語言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第2頁
應用回歸分析(R語言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第3頁
應用回歸分析(R語言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第4頁
應用回歸分析(R語言版)(第2版) 課件 第9、10章 非線性回歸、含定性變量的回歸模型_第5頁
已閱讀5頁,還剩139頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第9章非線性回歸2024/4/2319.1可化為線性回歸的曲線回歸9.2多項式回歸9.3非線性模型9.1可化為線性回歸的曲線回歸2024/4/232(b已知)(9.1)

曲線回歸模型只須令

即可化為y對

是線性的形式

需要指出的是,新引進的自變量只能依賴于原始變量,而不能與未知參數(shù)有關。2024/4/2339.1可化為線性回歸的曲線回歸令,于是得到y(tǒng)關于的線性表達式

(9.2)式本來只有一個自變量x,是一元p次多項式回歸,在線性化后,變?yōu)閜元線性回歸。線性回歸的“線性”是針對未知參數(shù)而言的。對于回歸解釋變量的線性是非本質的,因為解釋變量是非線性時,總可以通過變量的替換把它轉化成線性的。2024/4/2349.1可化為線性回歸的曲線回歸對等式兩邊同時取自然對數(shù),得:令于是得到關于x的一元線性回歸模型2024/4/235不可線性化的曲線回歸模型,如不能通過對等式兩邊同時取自然對數(shù)的方法將回歸模型線性化,只能用非線性最小二乘方法求解。(9.3)式的誤差項稱為乘性誤差項。

(9.4)式的誤差項稱為加性誤差項。一個非線性回歸模型是否可以線性化,不僅與回歸函數(shù)的形式有關,而且與誤差項的形式有關。

9.1可化為線性回歸的曲線回歸2024/4/2369.1可化為線性回歸的曲線回歸

在對非線性回歸模型線性化時,總是假定誤差項的形式就是能夠使回歸模型線性化的形式,為了方便,常常省去誤差項,僅寫出回歸函數(shù)的形式。例如把回歸模型(9.3)式簡寫為。(9.3)式與(9.4)式的回歸參數(shù)的估計值是有差異的。對誤差項的形式,首先應該由數(shù)據(jù)的經(jīng)濟意義來確定,然后由回歸擬合效果做檢驗。過去,由于沒有非線性回歸軟件,人們總是希望非線性回歸模型可以線性化,因而誤差項的形式就假定為可以把模型線性化的形式。現(xiàn)在利用計算機軟件可以容易的解決非線性回歸問題,因而對誤差項形式應該做正確的選擇。2024/4/23710種常見的可線性化的曲線回歸方程9.1可化為線性回歸的曲線回歸2024/4/238除了上述10種常用的曲線外,還有幾種常用的曲線如下。1.雙曲函數(shù)

或等價地表示為

9.1可化為線性回歸的曲線回歸2024/4/239(a>0,b>0)9.1可化為線性回歸的曲線回歸2024/4/23102.S型曲線II

此S型曲線II當a>0,b>0時,是x的增函數(shù)。當x→+∞時,y→1/a

;x→-∞時,y→0。

y=0與y=1/a是這條曲線的兩條漸進線。

S型曲線有多種,其共同特點是曲線首先是緩慢增長,在達到某點后迅速增長,在超過某點后又變?yōu)榫徛鲩L,并且趨于一個穩(wěn)定值。

S型曲線在社會經(jīng)濟等很多領域都有應用,例如某種產(chǎn)品的銷售量與時間的關系,樹木、農作物的生長與時間的關系等。9.1可化為線性回歸的曲線回歸2024/4/23119.1可化為線性回歸的曲線回歸例9-1

對國內生產(chǎn)總值(GDP)的擬合。我們選取GDP指標為因變量,單位為億元,擬合GDP關于時間t的趨勢曲線。以1990年為基準年,取值為t=1,2022年t=33,1990—2022年的數(shù)據(jù)如表9-2所示:2024/4/23129.1可化為線性回歸的曲線回歸9.1可化為線性回歸的曲線回歸2024/4/23132024/4/23149.1可化為線性回歸的曲線回歸從散點圖中看到,GDP隨時間t

的變化趨勢大致為指數(shù)函數(shù)形式,從經(jīng)濟學角度看,當GDP的年增長速度大致相同時,其趨勢線就是指數(shù)函數(shù)形式。易看出復合函數(shù),增長曲線指數(shù)函數(shù)這三個曲線方程實際上是等價的。在本例中,復合函數(shù)的形式與經(jīng)濟意義更吻合。2024/4/23159.1可化為線性回歸的曲線回歸以時間t為自變量,對數(shù)據(jù)進行擬合,我們考慮建立簡單線性回歸模型和復合函數(shù)回歸模型,其中復合函數(shù)是可線性化的,只需要對式子兩邊同時取對數(shù)即可將其化為

關于t的線性函數(shù)。因此,在建立復合函數(shù)回歸模型前需要計算的值,見表9-2。建立簡單線性回歸模型和復合函數(shù)回歸模型的計算代碼如下,其運行結果如輸出結果9.1和圖9-3所示。2024/4/23169.1可化為線性回歸的曲線回歸9.1可化為線性回歸的曲線回歸2024/4/23179.1可化為線性回歸的曲線回歸2024/4/23189.1可化為線性回歸的曲線回歸2024/4/23192024/4/23209.1可化為線性回歸的曲線回歸由輸出結果9.1可知,線性回歸的決定系數(shù)

,殘差平方和SSE=4.9902e+11,復合函數(shù)回歸的決定系數(shù),殘差平方和SSE=0.845是按線性化后的回歸模型計算的,兩者的殘差不能直接相比。為了與線性回歸的擬合效果直接相比,可以先存儲復合函數(shù)y的預測值

,計算殘差序列e(見表9-2),然后計算出復合函數(shù)回歸的SSE=3.7065e+11,可知復合函數(shù)擬合效果優(yōu)于線性回歸。另外,從模型擬合圖中,也可直觀得到這一結論,故在解決此類問題時應采用復合函數(shù)回歸。9.1可化為線性回歸的曲線回歸根據(jù)輸出結果9.1中線性化后復合函數(shù)的回歸系數(shù),可以計算得到復合函數(shù)回歸系數(shù)分別為,等比系數(shù),因此回歸方程為式中,表示GDP的平均發(fā)展速度,平均增長速度為13.7%。這里GDP用的是當年現(xiàn)價,包含物價上漲因素在內。本例只是作為計算非線性回歸的示例。在實際工作中,如果需要對GDP做趨勢擬合或預測,應對此模型做一些改進,例如用不變價格代替現(xiàn)價,對誤差項的自相關做相應的處理;考慮到GDP的年增長速度會有減緩趨勢,可以給回歸函數(shù)增加適當?shù)淖枘嵋蜃?,或采用S形曲線擬合等改進方法。2024/4/23219.2多項式回歸

2024/4/23229.2.1

幾種常見的多項式回歸模型

一元二次多項式模型

的回歸函數(shù)

是一條拋物線方程,通常稱為二項式回歸函數(shù)?;貧w系數(shù)為線性效應系數(shù),為二次效應系數(shù)。相應地,回歸模型稱為一元三次多項式模型。2024/4/23239.2多項式回歸

稱回歸模型為二元二階多項式回歸模型。它的回歸系數(shù)中分別含有兩個自變量的線性項系數(shù),二次項系數(shù)

,并含有交叉乘積項系數(shù)

。交叉乘積項表示的交互作用,系數(shù)

通常稱為交互影響系數(shù)。2024/4/23249.2.2

應用實例

例9-2表9-3列出的數(shù)據(jù)是關于18個35歲~44歲經(jīng)理的:

前兩年平均年收入x1(千美元)風險反感(意識)度x2

人壽保險額y(千美元)風險反感度是根據(jù)發(fā)給每個經(jīng)理的標準調查表估算得到的,它的數(shù)值越大,風險反感就越厲害。9.2多項式回歸

2024/4/23259.2多項式回歸

研究人員想研究給定年齡組內的經(jīng)理年平均收入,風險反感度和人壽保險額的關系。研究者預計,在經(jīng)理的收入和人壽保險額之間成立著二次關系,并有把握認為風險反感度對人壽保險額只有線性效應,而沒有二次效應。但是,研究者對兩個自變量是否對人壽保險額有交互效應,心中沒底。因此,研究者擬合了一個二階多項式回歸模型并打算先檢驗是否有交互效應,然后檢驗風險反感的二次效應。2024/4/23269.2多項式回歸

2024/4/23279.2多項式回歸

回歸采用逐個引入自變量的方式,這樣可以清楚地看到各項對回歸的貢獻,使顯著性檢驗更加明確。依次引入自變量以查看各變量對回歸的貢獻,計算代碼如下:2024/4/23289.2多項式回歸

上述計算程序,首先是建立依次引入各變量后的回歸模型,然后依次輸出各模型的方差分析表,根據(jù)方差分析表中的結果,我們將運行結果所得的依次引入各變量后的偏平方和以及殘差平方和進行整理并計算偏F值,得到方差分析表見表9-4,其中取顯著性水平為0.05。2024/4/23299.2多項式回歸

全模型的SST=108041,SSE=36,SSE的自由度

。采用式(3.42)的偏F檢驗,對交互影響系數(shù)

的顯著性檢驗的偏F值=2.00,臨界值

,交互影響系數(shù)不能通過顯著性檢驗,認為,回歸模型中不應該包含交互作用項。這個結果與人們的經(jīng)驗相符,有了此結果,兩個自變量的效應也就容易解釋了。此時,研究者暫時決定使用無交互效應的模型2024/4/23309.2多項式回歸

但仍想檢驗風險反感度的二次效應是否存在。這相當于檢驗二次效應系數(shù)

的顯著性,這個檢驗的偏F值等于0.93,臨界值,二次效應系數(shù)

不能通過顯著性檢驗,認為

,回歸模型中不應該包含二次效應項

。此時,研究者決定使用簡化的回歸模型2024/4/23319.2多項式回歸

進一步檢驗年平均收入的二次效應是否存在,這相當于檢驗二次效應系數(shù)

的顯著性,這個檢驗的偏F值等于385,臨界值,二次效應系數(shù)

通過了顯著性檢驗,認為

,回歸模型中應該包含二次效應項。得最終的回歸方程為其中,括號中的數(shù)值是標準化回歸系數(shù)。這樣,研究者可用這個回歸方程來進一步研究經(jīng)理的年平均收入和風險反感度對人壽保險額的效應。從標準化回歸系數(shù)看到,年平均收入的二次效應對人壽保險額的影響程度最大。9.3非線性模型

2024/4/23329.3.1

非線性最小二乘非線性回歸模型一般可記為:其中,

是因變量,

非隨機向量是自變量,是未知參數(shù)向量,是隨機誤差項并且滿足獨立同分布假定,即2024/4/23339.3非線性模型

如果,那么式(9.8)就是前面討論的線性模型,而且必然有k=p;對于一般情況的非線性模型,參數(shù)的數(shù)目與自變量的數(shù)目并沒有一定的對應關系,不要求k=p。對非線性回歸模型式(9.8),仍使用最小二乘法估計參數(shù)

,即求使達到最小的

,稱

為非線性最小二乘估計。2024/4/23349.3非線性模型

稱為非線性最小二乘估計的正規(guī)方程組,也可以直接極小化殘差平方和

,求出未知參數(shù)的非線性最小二乘估計值。

在假定f函數(shù)對參數(shù)

連續(xù)可微時,可以利用微分法建立正規(guī)方程組,求使

達到最小的

。將Q函數(shù)對參數(shù)

求偏導,并令其為0,得p+1個方程2024/4/23359.3非線性模型

在非線性回歸中,平方和分解式SST=SSR+SSE不再成立。類似于線性回歸中的復判定系數(shù),定義非線性回歸的相關比(也稱為相關指數(shù))為:

對于非線性最小二乘估計,我們仍然需要做參數(shù)的區(qū)間估計、顯著性檢驗、回歸方程的顯著性檢驗等回歸診斷,這需要知道有關統(tǒng)計量的分布。在非線性最小二乘中,一些精確分布是很難得到的,在大樣本時,可以得到近似的分布。計算機軟件在求出參數(shù)的非線性最小二乘估計值的同時,還給出近似的回歸診斷結果。2024/4/23369.3.2

非線性回歸模型的應用

例9-3一位藥物學家使用下面的非線性模型對藥物反應擬合回歸模型:

自變量x是藥劑量,用級別表示;因變量y是藥物反應程度,用百分數(shù)表示。

3個參數(shù)c0、c1、c2都是非負的,根據(jù)專業(yè)知識,c0的上限是100%,3個參數(shù)的初始值取為c0=100,c1=5,c2=4.8。測得9個反應數(shù)據(jù)如表9-5:9.3非線性模型

2024/4/23379.3非線性模型

2024/4/23389.3非線性模型

通過圖9-4可以看出,y與x之間確實呈非線性關系,因此需要對數(shù)據(jù)進行非線性回歸分析。R軟件中做非線性回歸的函數(shù)為nls(formula,data,start,…),formula部分為非線性模型的函數(shù)表達式,start為模型中未知參數(shù)的初始值,對例9.3中的數(shù)據(jù)進行非線性回歸分析的計算代碼如下,運行結果見輸出結果9.2。2024/4/23399.3非線性模型

2024/4/23409.3非線性模型

2024/4/23419.3非線性模型

由以上輸出結果可知,對參數(shù)的估計經(jīng)過6步迭代后收斂,而且相關指數(shù),說明非線性回歸擬合效果很好。同時,上述輸出結果中對參數(shù)的顯著性檢驗顯示參數(shù)均通過顯著性檢驗。但是,在樣本量較小的情況下,不可線性化的非線性回歸的殘差通常不滿足正態(tài)性,進而使用t分布進行檢驗也是無效的,因此顯著性檢驗的結果并不具有重要意義。另外,由上述代碼可以計算出y的預測值、殘差、殘差平方和、回歸平方和、總離差平方和等,將這些計算結果列于表中,具體可見表9-6。2024/4/23429.3非線性模型

2024/4/2343

本例回歸離差平方和SSR=15156.55,而總離差平方和SST=14917.89<SSR,可見對非線性回歸不再滿足平方和分解式,即SST≠SSR+SSE另外,非線性回歸的殘差和不等于零,本例殘差均值為0.285556≠0。當然,如果回歸擬合的效果好,殘差的均值會接近于零的。通過以上分析可以認為藥物反應程度y與藥劑量x符合以下非線性回歸方程:9.3非線性模型

2024/4/2344例9-4

龔珀茲(Gompertz)模型是計量經(jīng)濟中的一個常用模型,用來擬合社會經(jīng)濟現(xiàn)象發(fā)展趨勢,龔珀茲曲線形式為:其中k為變量的增長上限,和是未知參數(shù)。當k未知時,龔珀茲模型不能線性化,可以用非線性最小二乘法求解。表9-7的數(shù)據(jù)是我國民航國內航線里程數(shù)據(jù),以下用龔珀茲模型擬合這個數(shù)據(jù)。9.3非線性模型

2024/4/23459.3非線性模型

2024/4/23469.3非線性模型

使用R軟件對表9-7中的數(shù)據(jù)進行擬合,建立非線性模型,其中需要確定未知參數(shù)的初始值。由于初始值要求不是很準確,所以很多時候可以憑經(jīng)驗給定,對于本例題,龔珀茲中的參數(shù)k

是變量的發(fā)展上限,應該取其初始值略大于最大觀測值。本題最大觀測值是115.52,不妨取k

的初始值為120。a和b都是0~1之間的數(shù),可以取其初始值為0.5,非線性回歸的計算代碼如下。2024/4/23479.3非線性模型

按上述代碼進行運算會出現(xiàn)產(chǎn)生無限值不收斂的情況,這是由于回歸迭代過程中的參數(shù)取值超出了范圍,可以通過對參數(shù)的取值增加一些限制來解決。因此,將參數(shù)k的初始值調整為130,另外對其上下限也做出限制,最小值取為116即大于樣本的最大觀測值115.52,此時nls函數(shù)中的算法algorithm不能使用默認的高斯-牛頓迭代算法,需改為port,重新運行以下代碼,得到輸出結果9.3,并畫出國內航線里程趨勢預測圖,如圖9-5所示。2024/4/23489.3非線性模型

2024/4/23499.3非線性模型

2024/4/2350

用非線性最小二乘法求得的三個參數(shù)估計值為k=150.0,a=0.012,b=0.893其中k=150.0為回歸模型估計的國內航線里程增長上限。如圖9-5中,圓圈代表觀測值,光滑曲線為擬合曲線,從圖中可以直觀地看到,龔珀茲曲線能夠較好刻畫數(shù)據(jù)的變化趨勢。9.3非線性模型

2024/4/2351例9-5

下表9-8是我國從1950—2013年歷年大陸總人口數(shù),試用威布爾(Weibull)曲線擬合數(shù)據(jù)并做預測。威布爾曲線如下:其中參數(shù)k是變量發(fā)展的上限,參數(shù)a>0,0<b<1,c>0。9.3非線性模型

2024/4/23529.3非線性模型

2024/4/23539.3非線性模型

根據(jù)人口學的專業(yè)預測,我國人口上限為16億人,因此取k的初值=16,取b的初值=0.5,取c的初值=1。對以上初值把t=1時(即1950年)代入,得。用21作為a的初值,做非線性最小二乘,相應的計算代碼如下,其運行結果見輸出結果9.4。2024/4/23549.3非線性模型

2024/4/23559.3非線性模型

從輸出結果中看到,人口上限k=14.91億人,這與人口學預測的人口上限有一些差異,這是因為人口數(shù)會受到國家政策等許多因素的影響。如圖9-6所示是繪制的人口趨勢預測圖,其中圓圈代表觀測值,曲線代表預測值,其中預測2020年的人口數(shù)約為14億。2024/4/23569.3非線性模型

例9-6

柯布—道格拉斯生產(chǎn)函數(shù)研究。在計量經(jīng)濟學中有一種熟知的C-D(Cobb—Douglas)生產(chǎn)函數(shù)

其中,y為產(chǎn)出,K(資本)、L(勞力)為兩個投入要素,A>0為效率系數(shù)、為K和L的產(chǎn)出彈性,A,

均為待估參數(shù)。2024/4/23579.3非線性模型

是產(chǎn)出對資本投入的彈性系數(shù),度量在勞動投入保持不變時資本投入增加1%時產(chǎn)出平均增加的百分比。

是產(chǎn)出對勞動投入的彈性系數(shù),度量在資本投入保持不變時勞動投入增加1%時產(chǎn)出平均增加的百分比。兩個彈性系數(shù)之和表示規(guī)模報酬(returnstoscale)。表示規(guī)模報酬不變,即1倍的投入帶來1倍的產(chǎn)出;表示規(guī)模報酬遞減,即1倍的投入帶來少于1倍的產(chǎn)出;

表示規(guī)模報酬遞增,即1倍的投入帶來大于1倍的產(chǎn)出。2024/4/23589.3非線性模型

我們假定誤差項

滿足基本假設式(3.7)的高斯-馬爾柯夫條件,對模型式(9.15)可以按兩種形式設定隨機誤差項:(1)乘性誤差項,模型形式為。(2)加性誤差項,模型形式為。對乘性誤差項,模型可通過兩邊取對數(shù)轉化成線性模型令,則轉化為線性回歸方程2024/4/23599.3非線性模型

2024/4/23609.3非線性模型

2024/4/2361

其中,y是國內生產(chǎn)總值GDP(單位:億元),

K是資金投入,包括固定資產(chǎn)投資和庫存占用資金(單位:億元),

L是就業(yè)總人數(shù)(單位:萬人)。(1)假設隨機誤差項為相乘的,我們可以用兩邊取對數(shù)的辦法,對數(shù)變換后的數(shù)據(jù)見表9-9,用R軟件做線性回歸的代碼如下,運行代碼得到輸出結果9.5。9.3非線性模型

2024/4/23629.3非線性模型

2024/4/23639.3非線性模型

2024/4/23649.3非線性模型

得兩個彈性系數(shù)為,資金的貢獻率大于勞動力的貢獻率。規(guī)模報酬表示規(guī)模報酬遞增。效率系數(shù)。其中系數(shù)

的顯著性概率P值=0.087,顯著性較弱。得乘性誤差項的C-D生產(chǎn)函數(shù)為:2024/4/2365

(2)對加性誤差項模型,不能通過變量變換轉化成線性模型,只能用非線性最小二乘求解未知參數(shù)。以上面乘性誤差項的參數(shù)為初始值做非線性最小二乘,計算代碼如下所示,得到的運行結果見輸出結果9.6。9.3非線性模型

2024/4/23669.3非線性模型

由輸出結果9.6可知,參數(shù)仍未通過顯著性檢驗,與乘性誤差項模型的檢驗結果一致,因此不能認為非0。另外,得加性誤差項的C-D生產(chǎn)函數(shù)為2024/4/23679.3非線性模型

2024/4/23689.3非線性模型

9.3.3

其他形式的非線性回歸

非線性最小二乘是使殘差平方和達極小的方法,其最大的缺點是缺乏穩(wěn)健性。當數(shù)據(jù)存在異常值時,參數(shù)的估計效果變得很差。因而在一些場合,我們希望用一些更穩(wěn)健的殘差損失函數(shù)代替平方損失函數(shù),例如絕對值損失函數(shù)。絕對值殘差損失函數(shù)為第10章含定性變量的回歸模型

2024/4/236910.1自變量含定性變量的回歸模型10.2自變量含定性變量的回歸模型與應用10.3因變量是定性變量的回歸模型10.4Logistic(邏輯斯蒂)回歸模型10.5多類別Logistic回歸10.6因變量順序類別的回歸10.1自變量含定性變量的回歸模型2024/4/237010.1.1

簡單情況

首先討論定性變量只取兩類可能值的情況,例如研究糧食產(chǎn)量問題,y為糧食產(chǎn)量,x為施肥量,另外再考慮氣候問題,分為正常年份和干旱年份兩種情況,對這個問題的數(shù)量化方法是引入一個0-1型變量D,令:

Di=1 表示正常年份

Di=0 表示干旱年份2024/4/237110.1自變量含定性變量的回歸模型糧食產(chǎn)量的回歸模型為:

其中干旱年份的糧食平均產(chǎn)量為:正常年份的糧食平均產(chǎn)量為:

2024/4/2372例10-1某經(jīng)濟學家想調查文化程度對家庭儲蓄的影響,在一個中等收入的樣本框中,隨機調查了13戶高學歷家庭與14戶低學歷的家庭,因變量y為上一年家庭儲蓄增加額,自變量x1為上一年家庭總收入,自變量x2表示家庭學歷,高學歷家庭x2=1,低學歷家庭x2=0,調查數(shù)據(jù)見表10-1:10.1自變量含定性變量的回歸模型2024/4/237310.1自變量含定性變量的回歸模型2024/4/237410.1自變量含定性變量的回歸模型建立y對的線性回歸,R軟件的計算代碼如下,其運行結果見輸出結果10.1,其中殘差

列于表10-1中。2024/4/237510.1自變量含定性變量的回歸模型2024/4/237610.1自變量含定性變量的回歸模型

這個結果表明,中等收入的家庭每增加1萬元收入,平均拿出3826元作為儲蓄。高學歷家庭每年的平均儲蓄額少于低學歷的家庭,平均少3700元。如果不引入家庭學歷定性變量x2,僅用y對家庭年收入x1做一元線性回歸,得判定系數(shù)R2=0.618,擬合效果不好。

兩個自變量x1與x2的系數(shù)都是顯著的,判定系數(shù)R2=0.879,回歸方程為:2024/4/2377

家庭年收入x1是連續(xù)型變量,它對回歸的貢獻也是不可缺少的。如果不考慮家庭年收入這個自變量,13戶高學歷家庭的平均年儲蓄增加額為3009.31元,14戶低學歷家庭的平均年儲蓄增加額為5059.36元,這樣會認為高學歷家庭每年的儲蓄增加額比低學歷的家庭平均少5059.36-3009.31=2050.05元,而用回歸法算出的數(shù)值是3700元,兩者并不相等。10.1自變量含定性變量的回歸模型2024/4/2378

用回歸法算出的高學歷家庭每年的平均儲蓄增加額比低學歷的家庭平均少3700元,這是在假設兩者的家庭年收入相等的基礎上的儲蓄增加額差值,或者說是消除了家庭年收入的影響后的差值,因而反映了兩者儲蓄增加額的真實差異。而直接由樣本計算的差值2050.05元是包含有家庭年收入影響在內的差值,是虛假的差值。所調查的13戶高學歷家庭的平均年收入額為3.8385萬元,14戶低學歷家庭的平均年收入額為3.4071萬元,兩者并不相等。10.1自變量含定性變量的回歸模型2024/4/237910.1.2

復雜情況某些場合定性自變量可能取多類值,例如某商廈策劃營銷方案,需要考慮銷售額的季節(jié)性影響,季節(jié)因素分為春、夏、秋、冬4種情況。為了用定性自變量反應春、夏、秋、冬四季,我們初步設想引入如下4個0-1自變量:10.1自變量含定性變量的回歸模型2024/4/2380

可是這樣做卻產(chǎn)生了一個新的問題,即x1+x2+x3+x4=1,構成完全多重共線性。解決這個問題的方法很簡單,我們只需去掉一個0-1型變量,只保留3個0-1型自變量即可。例如去掉x4,只保留x1、x2、x3。對一般情況,一個定性變量有k類可能的取值時,需要引入k-1個0-1型自變量。當k=2時,只需要引入一個0-1型自變量即可。10.1自變量含定性變量的回歸模型10.2自變量含定性變量的回歸模型

與應用2024/4/238110.2.1

分段回歸例10-2表10-2給出某工廠生產(chǎn)批量與單位成本(美元)的數(shù)據(jù)。試用分段回歸建立回歸模型。2024/4/238210.2自變量含定性變量的回歸模型

與應用2024/4/238310.2自變量含定性變量的回歸模型

與應用

由圖10-1可看出數(shù)據(jù)在生產(chǎn)批量時發(fā)生較大變化,即批量大于500時成本明顯下降。我們考慮由兩段構成的分段線性回歸,這可以通過引入一個0-1型虛擬自變量實現(xiàn)。假定回歸直線的斜率在處改變,建立回歸模型

其中2024/4/238410.2自變量含定性變量的回歸模型

與應用引入兩個新的自變量這樣回歸模型轉化為標準形式的二元線性回歸模型:(10.3)式可以分解為兩個線性回歸方程:當x1≤500時,當x1>500時,2024/4/238510.2自變量含定性變量的回歸模型

與應用2024/4/2386

用普通最小二乘法擬合模型(10.3)式得回歸方程為:

利用此模型可說明生產(chǎn)批量小于500時,每增加1個單位批量,單位成本降低0.00395美元;當生產(chǎn)批量大于500時,每增加1個單位批量,估計單位成本降低到0.00395+0.00389=0.00784(美元)。10.2自變量含定性變量的回歸模型

與應用2024/4/238710.2自變量含定性變量的回歸模型

與應用

以上只是根據(jù)散點圖從直觀上判斷本例數(shù)據(jù)應該用折線回歸擬合,這一點還需要做統(tǒng)計的顯著性檢驗,這只需對(10.2)式的回歸系數(shù)做顯著性檢驗?;貧w方程式(10.6)的相關計算代碼及輸出結果10.2如下所示。2024/4/23882024/4/238910.2自變量含定性變量的回歸模型

與應用復決定系數(shù),擬合效果很好。對

的顯著性檢驗的t

值=-1.685,顯著性檢驗的概率P

值=0.153,沒有通過顯著性檢驗,不能認為

非零。這樣,根據(jù)顯著性檢驗,還不能認為本例數(shù)據(jù)適合擬合折線回歸。用y

對x做一元線性回歸,計算代碼如下,其運行結果如輸出結果10.3所示。2024/4/23902024/4/2391(10.7)式說明,批量每增加一件,成本平均下降0.006318美元,這個結論在自變量的樣本范圍300至800內都是適用的。y對x的一元線性回歸的判定系數(shù)R2=0.952,回歸方程為:10.2自變量含定性變量的回歸模型

與應用2024/4/239210.2自變量含定性變量的回歸模型

與應用10.2.2

回歸系數(shù)相等的檢驗例10-3回到例10-1的問題,例10-1引入0-1型自變量的方法是假定儲蓄增加額y對家庭收入的回歸斜率與家庭文化程度無關,家庭文化程度只影響回歸常數(shù)項,這個假設是否合理,還需要做統(tǒng)計檢驗。檢驗方法是引入如下含有交互效應的回歸模型:其中y為上一年家庭儲蓄增加額,x1為上一年家庭總收入,x2表示家庭學歷,高學歷家庭x2=1,低學歷家庭x2=0。2024/4/239310.2自變量含定性變量的回歸模型

與應用高學歷家庭x2=1,

低學歷家庭x2=0,

回歸模型(10.8)式可以分解為對高學歷和對低學歷家庭的兩個線性回歸模型,分別為:2024/4/239410.2自變量含定性變量的回歸模型

與應用可見,高學歷家庭的回歸常數(shù)為

,回歸系數(shù)為;低學歷家庭的回歸常數(shù)為

,回歸系數(shù)為

。要檢驗兩個回歸方程的回歸系數(shù)是否相等,等價于對回歸模型式(10.8)做參數(shù)的假設檢驗當拒絕H0時,認為,這時高學歷與低學歷家庭的儲蓄回歸模型實際上被拆分為兩個不同的回歸模型(10.9)和(10.10)式。當不拒絕H0時,認為,這時高學歷與低學歷家庭的儲蓄回歸模型是如下形式的聯(lián)合回歸模型:2024/4/239510.2自變量含定性變量的回歸模型

與應用(10.11)正是例10-1所建立的回歸模型。建立式(10.8)的回歸模型的計算代碼及運行代碼的輸出結果10.4如下所示。2024/4/239610.2自變量含定性變量的回歸模型

與應用從輸出結果10.4中看到,對

顯著性檢驗的顯著性概率P=0.247,應該不拒絕原假設,認為例10-1采用的回歸模型式(10.11)是正確的。另外,輸出結果10.4中

的回歸系數(shù)

的顯著性概率為0.760,也沒有通過顯著性檢驗,并且比

的顯著性更低,是否應該首先剔除

而保留?回答是否定的,因為這樣做與經(jīng)濟意義不符。對回歸模型式(10.9)與式(10.10),若,表明兩個回歸方程的常數(shù)項相等;若,表明兩個回歸方程的斜率相等。經(jīng)濟學家首先關心的是兩個回歸方程的斜率是否相等,其次才關心常數(shù)項是否相等。通常認為,回歸常數(shù)項是在自變量為零時y的平均值,但在本例中則沒有這種現(xiàn)實意義。這是因為本例是對中等收入家庭的儲蓄分析,收入為零的家庭的儲蓄增加額超出了本模型所包含的范圍。本例的回歸常數(shù)項僅是與儲蓄增加額的平均值有關的一個數(shù)值。2024/4/239710.2自變量含定性變量的回歸模型

與應用10.3因變量是定性變量的回歸模型2024/4/2398

在許多社會經(jīng)濟問題中,所研究的因變量往往只有兩個可能結果,這樣的因變量也可用虛擬變量來表示,虛擬變量的取值可取0或1。10.3.1

定性因變量的回歸方程的意義

設因變量y是只取0,1兩個值的定性變量,考慮簡單線性回歸模型在這種y只取0,1兩個值的情況下,因變量均值有著特殊的意義。2024/4/239910.3因變量是定性變量的回歸模型由于是0-1型貝努利隨機變量,則得如下概率分布:根據(jù)離散型隨機變量期望值的定義,可得得到所以,作為由回歸函數(shù)給定的因變量均值,是自變量水平為

時的概率。對因變量均值的這種解釋既適用于這里的簡單線性回歸函數(shù),也適用于復雜的多元回歸函數(shù)。當因變量是0-1變量時,因變量均值總是代表給定自變量時y=1的概率。2024/4/2310010.3因變量是定性變量的回歸模型10.3.2

定性因變量回歸的特殊問題1.離散非正態(tài)誤差項。對一個取值為0和1的因變量,誤差項只能取兩個值:當時,

當時,顯然,誤差項是兩點型離散分布,當然正態(tài)誤差回歸模型的假定就不適用了。2024/4/2310110.3因變量是定性變量的回歸模型2.零均值異方差性。

當因變量是定性變量時,誤差項仍然保持零均值,這時出現(xiàn)的另一個問題是誤差項的方差不相等。0-1型隨機變量的方差為

的方差依賴于,是異方差,不滿足線性回歸方程的基本假定。2024/4/2310210.3因變量是定性變量的回歸模型3.回歸方程的限制

對于普通的線性回歸所具有的上述三個問題,我們需要構造出能夠滿足以上限制的回歸模型。

當因變量為0-1虛擬變量時,回歸方程代表概率分布,所以因變量均值受到如下限制:

對一般的回歸方程本身并不具有這種限制,線性回歸方程將會超出這個限制范圍。2024/4/2310310.4Logistic回歸模型

10.4.1分組數(shù)據(jù)的Logistic回歸模型

針對0-1型因變量產(chǎn)生的問題,我們對回歸模型應該做兩個方面的改進。

第一,回歸函數(shù)應該改用限制在[0,1]區(qū)間內的連續(xù)曲線,而不能再沿用直線回歸方程。限制在[0,1]區(qū)間內的連續(xù)曲線有很多,例如所有連續(xù)型隨機變量的分布函數(shù)都符合要求,我們常用的是Logistic函數(shù)與正態(tài)分布函數(shù)。Logistic函數(shù)的形式為2024/4/2310410.4Logistic回歸模型

2024/4/2310510.4Logistic回歸模型

2024/4/2310610.4Logistic回歸模型

第二,因變量本身只取0、1兩個離散值,不適于直接作為回歸模型中的因變量。由于回歸函數(shù)表示在自變量為的條件下的平均值,而是0-1型隨機變量,因而就是在自變量為的條件下等于1的比例。這提示我們可以用等于1的比例代替本身作為因變量。下面通過一個例子來說明Logistic回歸模型的應用。2024/4/23107例10-4

在一次住房展銷會上,與房地產(chǎn)商簽定初步購房意向書的共有n=313名顧客中,在隨后的3個月的時間內,只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客的年家庭收入(萬元)為自變量x,對如下的數(shù)據(jù),建立Logistic回歸模型。10.4Logistic回歸模型

2024/4/2310810.4Logistic回歸模型

2024/4/2310910.4Logistic回歸模型

Logistic回歸方程為其中c為分組數(shù)據(jù)的組數(shù),本例c=9。做線性化變換,令上式的變換稱為邏輯(Logit)變換,得(10.16)(10.18)

(10.17)

2024/4/23110計算出經(jīng)驗回歸方程為

(10.19)判定系數(shù)r2=0.9243,顯著性檢驗P值≈0,高度顯著。還原為(10.16)式的Logistic回歸方程為利用(10.20)式可以對購房比例做預測,例如對x0=8,(10.20)10.4Logistic回歸模型

2024/4/2311110.4Logistic回歸模型

我們用Logistic回歸模型成功地擬合了因變量為定性變量的回歸模型,但是仍然存在一個不足之處,就是異方差性并沒有解決,(10.18)式的回歸模型不是等方差的,應該對(10.18)式用加權最小二乘估計。當較大時,的近似方差為:其中,因而選取權數(shù)為:(10.21)(10.22)2024/4/2311210.4Logistic回歸模型

對例10-4重新用加權最小二乘做估計,計算代碼如下所示,其運行結果見輸出結果10.5。2024/4/2311310.4Logistic回歸模型

2024/4/23114用加權最小二乘法得到的Logistic回歸方程為對x0=8時的購房比例做預測(10.23)10.4Logistic回歸模型

2024/4/2311510.4Logistic回歸模型

10.4.2未分組數(shù)據(jù)的Logistic回歸模型

設y是0-1型變量,是與y相關的確定性變量,n組觀測數(shù)據(jù)為與的關系為:其中函數(shù)f(x)是值域在[0,1]區(qū)間內的單調增函數(shù)。對于Logistic回歸2024/4/2311610.4Logistic回歸模型

由于是均值為的0-1型分布,概率函數(shù)為:可以把的概率函數(shù)合寫為:于是的似然函數(shù)為:(10.25)2024/4/2311710.4Logistic回歸模型

代入得對數(shù)似然函數(shù)Logistic回歸極大似然估計就是選取的估計值使上式達極大。(10.26)2024/4/23118例10-5臨床醫(yī)學中為了研究麻醉劑用量與患者是否保持靜止的關系,對30名患者在手術前15分鐘給予一定濃度的麻醉劑后的情況進行了記錄。記錄數(shù)據(jù)見表10-4中,其中麻醉劑濃度為自變量x,患者是否保持靜止為因變量y,y取1時表示患者靜止,y取0時表示患者有移動,試建立y關于x的Logistic回歸模型。本例數(shù)據(jù)來自于R軟件DAAG包中自帶的anesthetic數(shù)據(jù)集。10.4Logistic回歸模型

2024/4/2311910.4Logistic回歸模型

2024/4/23120在R中對0-1型因變量做logistic回歸的函數(shù)為glm(),該函數(shù)主要用來建立廣義線性模型,當glm()函數(shù)中的參數(shù)family=binomial(表明分布族為二項分布),聯(lián)系函數(shù)link=“l(fā)ogit”時,建立的回歸模型為Logistic回歸模型。對例10-5中的數(shù)據(jù)建立Logistic回歸模型的計算代碼如下,運行代碼后得到輸出結果10.6。10.4Logistic回歸模型

2024/4/2312110.4Logistic回歸模型

2024/4/2312210.4Logistic回歸模型

輸出結果10.6中的zvalue的計算公式類似于線性回歸中tvalue,即其中,是參數(shù)的估計值(Estimate),

是估計參數(shù)的標準差(Std.Error)。在假設成立時,Z近似服從標準正態(tài)分布,因此檢驗的P值為

為標準正態(tài)分布的分布函數(shù)。由該檢驗可知,回歸系數(shù)是顯著的,回歸方程為2024/4/2312310.4Logistic回歸模型

10.4.3Probit回歸模型Probit回歸稱為單位概率回歸,與Logistic回歸相似,也是擬合0-1型因變量回歸的方法,其回歸函數(shù)是(10.28)(10.29)用樣本比例

代替概率,表示為樣本回歸模型2024/4/2312410.4Logistic回歸模型

例10-6使用例10-4的購房數(shù)據(jù),首先計算出的數(shù)值,見表10-5。以為因變量,以年家庭收入x為自變量做普通最小二乘線性回歸,得回歸方程或等價地表示為對與用Logistic回歸計算的預測值很接近。2024/4/2312510.4Logistic回歸模型

2024/4/2312610.4Logistic回歸模型

使用R軟件可以直接做Probit回歸,做Probit回歸的函數(shù)仍為glm(),其中只需將聯(lián)系函數(shù)設為link=“probit”,對于已整理的分組數(shù)據(jù)在使用glm()函數(shù)建立Probit模型時,需要以購房比例作為因變量,簽訂意向書人數(shù)作為權重,以下為相應的計算代碼,運行后得到輸出結果10.7。2024/4/2312710.4Logistic回歸模型

2024/4/2312810.4Logistic回歸模型

由輸出結果10.7得回歸方程該結果與前面普通最小二乘的結果(10.30)很接近,在R軟件中也可以對該分組數(shù)據(jù)做Logistic回歸,具體代碼如下:運行代碼后,可得到回歸方程為這也與用最小二乘法所得到的Logistic回歸方程式(10.19)很接近。10.5多類別Logistic回歸2024/4/23129

當定性因變量y取k個類別時,記為1,2,…,k。這里的數(shù)字1,2,…,k只是名義代號,并沒有大小順序的含義。因變量y取值于每個類別的概率與一組自變量有關,對于樣本數(shù)據(jù),多類別Logistic回歸模型第i

組樣本的因變量

取第j個類別的概率為:(10.34)

2024/4/23130

上式中各回歸系數(shù)不是惟一確定的,每個回歸系數(shù)同時加減一個常數(shù)后的數(shù)值保持不變。為此,把分母的第一項中的系數(shù)都設為0,得到回歸函數(shù)的表達式(10.35)

這個表達式中每個回歸系數(shù)都是唯一確定的,第一個類別的回歸系數(shù)都取0,其他類別回歸系數(shù)數(shù)值的大小都以第一個類別為參照。10.5多類別Logistic回歸2024/4/2313110.5多類別Logistic回歸R中對多分類變量進行l(wèi)ogistic回歸,可以使用mlogit包中的mlogit()函數(shù),也可以使用nnet包中的multinom()函數(shù)。此處,使用mlogit()函數(shù)并以mlogit包中自帶的數(shù)據(jù)Fishing為例,說明多類別Logistic回歸的應用。例10-7本例數(shù)據(jù)選自R軟件自帶的鳶尾花數(shù)據(jù)集(iris),它包含了150個樣本、4個解釋變量和1個響應變量。其中,響應變量為花的類別,分別是山鳶尾(Iris-setosa)、變色鳶尾(Iris-versicolor)和維吉尼亞鳶尾(Iris-virginica);解釋變量分別為花萼長度(SepalLength)、花萼寬度(SepalWidth)、花瓣長度(PetalLength)和花瓣寬度(PetalWidth)。接下來,采用該數(shù)據(jù)建立多類別logistic回歸模型,模型中僅使用花萼長度做自變量,具體計算代碼如下所示。2024/4/2313210.5多類別Logistic回歸運行上述代碼,得到輸出結果10.8。2024/4/2313310.5多類別Logistic回歸2024/4/23134

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論