回歸分析(數(shù)學(xué)建模).ppt_第1頁
回歸分析(數(shù)學(xué)建模).ppt_第2頁
回歸分析(數(shù)學(xué)建模).ppt_第3頁
回歸分析(數(shù)學(xué)建模).ppt_第4頁
回歸分析(數(shù)學(xué)建模).ppt_第5頁
已閱讀5頁,還剩81頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、線性回歸分析,華北電力大學(xué)數(shù)理系 雍雪林,一、引言,2004年全國數(shù)模競賽的B題 “電力市場的 輸電阻塞管理” 第一個(gè)問題: 某電網(wǎng)有8臺發(fā)電機(jī)組,6條主要線路,表 1和表2中的方案0給出了各機(jī)組的當(dāng)前出力和 各線路上對應(yīng)的有功潮流值,方案132給出了 圍繞方案0的一些實(shí)驗(yàn)數(shù)據(jù),試用這些數(shù)據(jù)確 定各線路上有功潮流關(guān)于各發(fā)電機(jī)組出力的近 似表達(dá)式。,表1 各機(jī)組出力方案 (單位:兆瓦,記作MW),表2 各線路的潮流值(各方案與表1相對應(yīng),單位:MW),仔細(xì)分析題目,可以發(fā)現(xiàn),該問題就是要找 出各線路上有功潮流與8臺發(fā)電機(jī)出力的函數(shù)關(guān) 系,這在數(shù)學(xué)上是一個(gè)函數(shù)擬合問題。 對函數(shù)擬合,可以采用線性函

2、數(shù),也可以采 用非線性函數(shù),比如多項(xiàng)式函數(shù),三角函數(shù),指 數(shù)函數(shù)等等。在給出具體問題的具體數(shù)據(jù)時(shí),首 先想到的還是最簡單的方法下手,采用最簡單的 函數(shù)去擬合,也就是線性函數(shù)來表達(dá)。,1、模型的分析,由電網(wǎng)的拓?fù)浣Y(jié)構(gòu),線路上的有功潮流由機(jī) 組出力決定。又根據(jù)功率的疊加原理,各線路 上有功潮流應(yīng)為各發(fā)電機(jī)組出力的線性組合, 考慮對所有實(shí)驗(yàn)數(shù)據(jù)采用最小二乘法進(jìn)行線性 擬合,從而得到各線路有功潮流關(guān)于各發(fā)電機(jī) 組出力的近似表達(dá)式。,2、模型的建立與求解,根據(jù)表1和表2圍繞方案0的1-32組實(shí)驗(yàn)數(shù) 據(jù),可以列出關(guān)于未知數(shù)的32個(gè)方程的方程 組,利用SAS或Matlab編程求解方程組,得,還需要根據(jù)樣本值

3、運(yùn)用假設(shè)檢驗(yàn)來判斷, 以確定求得的回歸方程是否有價(jià)值。,在許多國際國內(nèi)數(shù)學(xué)建模競賽中,都有可能用到回歸分析。因此,我們介紹線性回歸分析的基本原理,對模型好壞的評價(jià)指標(biāo),可線性化的回歸分析,利用統(tǒng)計(jì)軟件的實(shí)現(xiàn)等具體問題。,二、回歸分析方法,回歸分析是研究一個(gè)或一組變量(因變量,結(jié)果)與另一些變量(自變量或回歸變量,原因)之間的依存關(guān)系。 在回歸模型中,若變量之間的關(guān)系是線性關(guān)系,稱為線性回歸模型,否則,稱為非線性回歸模型。 當(dāng)自變量只有一個(gè),稱為一元線性回歸, 如果自變量有多個(gè),稱為多元線性回歸。,1、一元線性回歸,一元線性回歸模型為,滿足,一元線性回歸,則,令,正規(guī)方程組,一元線性回歸,整理得

4、,一元線性回歸,其中,,參數(shù)的最小二乘估計(jì),一元線性回歸,稱作y關(guān)于x的一元經(jīng)驗(yàn)回歸方程。,一元線性回歸,一元線性回歸,一元線性回歸,2、多元線性回歸,模型為:,多元線性回歸,令,多元線性回歸,注意:矩陣X的第一列全是1.,則(6)可用矩陣表達(dá)為,多元線性回歸,對應(yīng)正規(guī)方程組為,在X不是列滿秩時(shí),其解雖然不唯一,但對任意一組解都使得殘差平方和最小。,多元線性回歸,多元線性回歸,關(guān)于多重共線性的知識請參閱韓中庚數(shù)學(xué)建模方法及其應(yīng)用。,當(dāng) p=1 時(shí),多元線性回歸就變成一元線性回歸分析了,這時(shí)參數(shù)的求解和誤差的方差的無偏估計(jì)與一元得到的結(jié)論是一樣的,類似地也有經(jīng)驗(yàn)回歸平面方程。,多元線性回歸,3、

5、回歸模型的假設(shè)檢驗(yàn),在許多實(shí)際問題中,我們事先并不能斷定因變量與自變量之間是否確有線性關(guān)系,而前面建立的因變量與多個(gè)自變量間的線性關(guān)系只是一種假設(shè),盡管這種假設(shè)常常不是沒有根據(jù)的。這就意味,所求得的經(jīng)驗(yàn)回歸方程是否有實(shí)用價(jià)值,需要經(jīng)過假設(shè)檢驗(yàn)才能確定。,主要從以下幾個(gè)方面進(jìn)行檢驗(yàn):,a、 回歸方程的檢驗(yàn);,b、 回歸系數(shù)的檢驗(yàn);,c、 回歸好壞程度的度量。,a、回歸方程的檢驗(yàn),是否全為零。若全為零,則認(rèn)為線性回歸不 顯著,否則認(rèn)為線性回歸顯著。為此,在上 述模型中作假設(shè),要檢驗(yàn)(6)的變量間有沒有這種線性關(guān)系, 只要檢驗(yàn)p個(gè)系數(shù),考慮總偏差平方和,利用正規(guī)方程組,有,為了構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,記,經(jīng)

6、驗(yàn)回歸方程,回歸方程的檢驗(yàn),回歸方程的檢驗(yàn),它是由自變量X的取值變化且通過線性回歸模型對y的影響所構(gòu)成的誤差平方和。,它是由隨機(jī)誤差和其他未加控制的因素所引起的誤差平方和。,回歸方程的檢驗(yàn),回歸方程的檢驗(yàn),構(gòu)造檢驗(yàn)統(tǒng)計(jì)量為,回歸方程的檢驗(yàn),相應(yīng)的檢驗(yàn)法則為:,回歸方程的檢驗(yàn),不全為零,但這并不意味著每個(gè)自變量,可能會起重要作用,而有的可能起的作用不大 或者不起作用。,回歸方程的檢驗(yàn),還有必要從線性回歸模型中剔除那些次要的、,可有可無的自變量,只保留那些起重要作用的,自變量,以從新建立更為簡練的線性回歸模型,,使之有利于實(shí)際應(yīng)用。,回歸方程的檢驗(yàn),因此,在通過前面的線性回歸模型的檢驗(yàn),,b、回歸

7、系數(shù)的檢驗(yàn),檢驗(yàn)假設(shè),下面的任務(wù)是選取檢驗(yàn)統(tǒng)計(jì)量。,由(7),所以,,回歸系數(shù)的檢驗(yàn),則可以證明,注意:矩陣C的下標(biāo)都是從0開始的!,回歸系數(shù)的檢驗(yàn),回歸系數(shù)的檢驗(yàn),如果回歸方程的檢驗(yàn)結(jié)果是顯著的,而且各個(gè)回歸系數(shù)的檢驗(yàn)結(jié)果都為顯著時(shí),說明各個(gè)自變量對因變量的單純影響都是顯著的。 若有回歸系數(shù)經(jīng)顯著性檢驗(yàn)為不顯著時(shí),說明其對應(yīng)的自變量在回歸方程中是不重要的,此時(shí)應(yīng)該剔除。,回歸系數(shù)的檢驗(yàn),在對變量進(jìn)行剔除時(shí),需要注意:,1)一次只能剔除一個(gè)不顯著的回歸系數(shù)對應(yīng) 的自變量,而且被剔除的自變量,應(yīng)該是所 有不顯著的回歸系數(shù)中的t值最小者。 2)重新進(jìn)行少一個(gè)自變量的多元線性回歸分析。,回歸系數(shù)的檢

8、驗(yàn),前面說的是剔除變量,也會有變量因素考慮不周的情況,這時(shí)應(yīng)該考慮引入新的變量,那么如何引入新的變量?,對于模型的選擇,目前普遍采用的是逐步回歸法。也即,每引入一個(gè)變量,要進(jìn)行逐個(gè)檢驗(yàn),將不顯著的變量剔除。,詳細(xì)情況請參閱韓中庚數(shù)學(xué)建模方法及其應(yīng)用。,回歸系數(shù)的檢驗(yàn),c、復(fù)相關(guān)系數(shù),對一個(gè)回歸方程來說,即使回歸顯著,但還 涉及到回歸好壞程度的度量。對于一個(gè)因變量 和一組自變量之間相關(guān)程度,則要采用的復(fù)相關(guān) 系數(shù)來度量。 研究一個(gè)變量與多個(gè)變量的線性相關(guān)稱為復(fù) 相關(guān)分析。,復(fù)相關(guān)系數(shù)定義為,復(fù)相關(guān)系數(shù),但是復(fù)相關(guān)系數(shù)也有一些缺點(diǎn)。當(dāng)采用的自變量,自變量的引入可能是多余的。,為了更準(zhǔn)確地反映參數(shù)個(gè)

9、數(shù)的影響,采用調(diào)整的,復(fù)相關(guān)系數(shù),4、預(yù)測,如果經(jīng)檢驗(yàn),認(rèn)為線性回歸方程是可信的,而且擬合的又好,那么接下來就要用它進(jìn)行預(yù)測。,時(shí)對y做區(qū)間估計(jì),即以一定的置信度預(yù)測,y的觀察值的取值范圍,也即y的預(yù)測區(qū)間。,預(yù)測,因而,其中,此時(shí),預(yù)測,預(yù)測,預(yù)測,三、可線性化的一元非線性回歸模型,上面主要講的是線性回歸,而對于一元回歸,非線性回歸的情形也是很常見的,對這些問題做回歸就是曲線回歸。 配置曲線回歸的一個(gè)基本方法是通過適當(dāng)?shù)淖兞看鷵Q把非線性回歸化為線性回歸。具體如下:先畫出觀察值的散點(diǎn)圖,通過與常見的函數(shù)曲線對比,經(jīng)驗(yàn)的選擇曲線類型。 常見的是下面六類曲線:,(1)雙曲線,可線性化的一元非線性回

10、歸模型,(2)冪函數(shù)曲線,可線性化的一元非線性回歸模型,(3)指數(shù)曲線:,可線性化的一元非線性回歸模型,(4)倒指數(shù)曲線:,可線性化的一元非線性回歸模型,(5)對數(shù)曲線:,可線性化的一元非線性回歸模型,(6)S型曲線:,可線性化的一元非線性回歸模型,設(shè)有模型,線性回歸模型:,實(shí)驗(yàn)數(shù)據(jù)按上面的變量代換算出,可線性化的一元非線性回歸模型,再按前面的線性回歸公式計(jì)算參數(shù)估計(jì),得,當(dāng)y與x適合模型,可線性化的一元非線性回歸模型,其他幾種曲線都可通過適當(dāng)?shù)淖兞看鷵Q轉(zhuǎn)化為線性回歸模型。這類回歸模型就稱為可線性化的一元非線性回歸模型。,表面上看,該模型比上面的模型簡單,然而它卻無法化成線性回歸,因?yàn)樗撬^

11、本質(zhì)上非線性的模型。,可線性化的一元非線性回歸模型,值得注意的是,并非所有的曲線回歸問題都可 線性化,例如,多項(xiàng)式回歸的處理方法和前面的曲線回歸類似,通過變量轉(zhuǎn)換化成多元線性回歸來解決。,對于一元m次多項(xiàng)式回歸,,可線性化的一元非線性回歸模型,因此可以用前面的方法解決多項(xiàng)式回歸問題。二元多項(xiàng)式回歸處理方法類似。,值得注意的是,隨著自變量個(gè)數(shù)的增加,多元 多項(xiàng)式回歸分析的計(jì)算量急劇增加。因此,在多項(xiàng)式回歸中較為常用的是一元二次多項(xiàng)式回歸和一元三次多項(xiàng)式回歸。,可線性化的一元非線性回歸模型,四、軟件應(yīng)用,解決線性回歸問題的常用軟件有:Matlab,統(tǒng)計(jì)軟件SPSS和SAS。SPSS的求解與SAS相

12、同。這里介紹Matlab和SPSS的求解方法。,1、線性回歸的matlab實(shí)現(xiàn),回歸分析的求解在Matlab中可用regress實(shí)現(xiàn),其使用格式為:,其中y為列向量,表示因變量的取值; X為矩陣,代表自變量的取值;(注意:第一列全是1) alpha為置信水平,缺省時(shí)取0.05。,b,bint,r,rint,stats = regress(y,X,alpha),當(dāng)置信區(qū)間包含0時(shí),說明該參數(shù)未通過T檢驗(yàn),可認(rèn)為0。,r-殘差向量,取值為Y-X*b。,rint-殘差的置信度為1-alpha的置信區(qū)間。,stats-回歸方程的統(tǒng)計(jì)量,stats(1)為復(fù)相關(guān)系數(shù), stats(2)為F值, stat

13、s(3)為F值對應(yīng)的概率值,stats(4)為誤差方差的估計(jì)值。,線性回歸的matlab實(shí)現(xiàn),對照前面所講的參數(shù)意義,采用Matlab可方便求解該問題。第一個(gè)回歸模型計(jì)算結(jié)果如下,其他類似。,第 1條線路回歸方程參數(shù): 系數(shù), 置信下限, 置信上限 110.29651,109.37571,111.21731 0.08284, 0.08109, 0.08459 0.04828, 0.04432, 0.05224 0.05297, 0.05164, 0.05430 0.11993, 0.11684, 0.12303 -0.02544,-0.02737,-0.02351 0.12201, 0.119

14、39, 0.12463 0.12158, 0.11855, 0.12461 -0.00123,-0.00335, 0.00090,線性回歸的matlab實(shí)現(xiàn),統(tǒng)計(jì)量值R2=0.9995,F=5861.51944,p=0.00000 方案0的原始值,預(yù)測值,相對誤差百分比: 164.7800 164.7120 0.0413 140.8700 140.8238 0.0328 -144.2500 -144.2051 0.0312 119.0900 119.0412 0.0410,線性回歸的matlab實(shí)現(xiàn),2、SPSS求解過程,(1)選擇菜單AnalyzeRegressionLinear,出現(xiàn)窗口:

15、,(2)選擇被解釋變量進(jìn)入Dependent框。 (3)選擇一個(gè)或多個(gè)解釋變量進(jìn)入Independent(s)框。 (4)在Method框中選擇回歸分析中解釋變量的篩選策略。其中Enter表示所選變量強(qiáng)行進(jìn)入回歸方程,是SPSS默認(rèn)的策略,通常用在一元線性回歸分析中;Remove表示從回歸方程中剔除所選變量;Stepwise表示逐步篩選策略;Backward表示向后篩選策略;Forward表示向前篩選策略。,注:多元回歸分析中,變量的篩選一般有向前篩選、向后篩選、逐步篩選三種基本策略。 向前篩選( Forward )策略:解釋變量不斷進(jìn)入回歸方程的過程。首先,選擇與被解釋變量具有最高線性相關(guān)系

16、數(shù)的變量進(jìn)入方程,并進(jìn)行回歸方程的各種檢驗(yàn);然后,在剩余的變量中尋找與被解釋變量偏相關(guān)系數(shù)最高且通過檢驗(yàn)的變量進(jìn)入回歸方程,并對新建立的回歸方程進(jìn)行各種檢驗(yàn);這個(gè)過程一直重復(fù),直到再也沒有可進(jìn)入方程的變量為止。 向后篩選( Backward )策略:變量不斷剔除出回歸方程的過程。首先,所有變量全部引入回歸方程,并對回歸方程進(jìn)行各種檢驗(yàn);然后,在回歸系數(shù)顯著性檢驗(yàn)不顯著的一個(gè)或多個(gè)變量中,剔除t檢驗(yàn)值最小的變量,并重新建立,回歸方程和進(jìn)行各種檢驗(yàn);如果新建回歸方程中所有變量的回歸系數(shù)檢驗(yàn)都顯著,則回歸方程建立結(jié)束。否則按上述方法再一次剔除最不顯著的變量,直到再也沒有可剔除的變量為止。 逐步篩選(

17、 Stepwise )策略:在向前篩選策略的基礎(chǔ)上結(jié)合向后篩選策略,在每個(gè)變量進(jìn)入方程后再次判斷是否存在應(yīng)該剔除出方程的變量。因此,逐步篩選策略在引入變量的每一個(gè)階段都提供了再剔除不顯著變量的機(jī)會。,(5)第三和第四步中確定的解釋變量及變量篩選策略可放置在不同的塊(Block)中。通常在回歸分析中不止一組待進(jìn)入方程的解釋變量和相應(yīng)的篩選策略,可以單擊Next和Previous按鈕設(shè)置多組解釋變量和變量篩選策略并放置在不同的塊中。 (6)選擇一個(gè)變量作為條件變量放到Selection Variable框中,并單擊Rule按鈕給定一個(gè)判斷條件。只有變量值滿足判定條件的樣本才參與線性回歸分析。 (7

18、)在Case Labels框中指定哪個(gè)變量作為樣本數(shù)據(jù)點(diǎn)的標(biāo)志變量,該變量的值將標(biāo)在回歸分析的輸出圖形中。,線性回歸分析的其他操作 1、Statistics按鈕,出現(xiàn)的窗口可供用戶選擇更多的輸出統(tǒng)計(jì)量。,(1)Estimates:SPSS默認(rèn)輸出項(xiàng),輸出與回歸系數(shù)相關(guān)的統(tǒng)計(jì)量。包括回歸系數(shù)(偏回歸系數(shù))、回歸系數(shù)標(biāo)準(zhǔn)誤差、標(biāo)準(zhǔn)化回歸系數(shù)、回歸系數(shù)顯著性檢驗(yàn)的t統(tǒng)計(jì)量和概率p值,各解釋變量的容忍度。 (2)Confidence Intervals:輸出每個(gè)非標(biāo)準(zhǔn)化回歸系數(shù)95的置信區(qū)間。 (3)Descriptive:輸出各解釋變量和被解釋變量的均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)矩陣及單側(cè)檢驗(yàn)概率p值。,(

19、4)Model fit:SPSS默認(rèn)輸出項(xiàng),輸出判定系數(shù)、調(diào)整的判定系數(shù)、回歸方程的標(biāo)準(zhǔn)誤差、回歸方程顯著F檢驗(yàn)的方程分析表。 (5)R squared change:輸出每個(gè)解釋變量進(jìn)入方程后引起的判定系數(shù)的變化量和F值的變化量。 (6)Part and partial correlation:輸出方程中各解釋變量與被解釋變量之間的簡單相關(guān)、偏相關(guān)系數(shù)。,(7)Covariance matrix:輸出方程中各解釋變量間的相關(guān)系數(shù)、協(xié)方差以及各回歸系數(shù)的方差。 (8)Collinearity Diagnostics:多重共線性分析,輸出各個(gè)解釋變量的容忍度、方差膨脹因子、特征值、條件指標(biāo)、方差

20、比例等。 (9)在Residual框中:Durbin-waston表示輸出DW檢驗(yàn)值;Casewise Diagnostic表示輸出標(biāo)準(zhǔn)化殘差絕對值大于等于3(SPSS默認(rèn)值)的樣本數(shù)據(jù)的相關(guān)信息,包括預(yù)測值、殘差、杠桿值等。,2、Options選項(xiàng),出現(xiàn)的窗口可供用戶設(shè)置多元線性回歸分析中解釋變量篩選的標(biāo)準(zhǔn)以及缺失值的處理方式。 3、Plot選項(xiàng),出現(xiàn)的窗口用于對殘差序列的分析。,(1)窗口左邊框中各變量名的含義是:DEPENDNT表示被解釋變量,*ZPRED表示標(biāo)準(zhǔn)化預(yù)測值,*ZRESID表示標(biāo)準(zhǔn)化殘差,*DRESID表示剔除殘差,*ADJPRED表示調(diào)整的預(yù)測值,*SRESID表示學(xué)生化殘差,*SDRESID表示剔除學(xué)生化殘差。 (2)繪制多對變量的散點(diǎn)圖,可根據(jù)需要在scatter框中定義散點(diǎn)圖的縱坐標(biāo)和橫坐標(biāo)變量。 (3)在Standardized Residual Plots框中選擇Histogram選項(xiàng)繪制標(biāo)準(zhǔn)化殘差序列的直方圖;選擇Normal probability plot繪制標(biāo)準(zhǔn)化殘差序列的正態(tài)分布累計(jì)概率圖。選擇Produce all partial plots選項(xiàng)表示依次

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論