回歸分析與聚類分析_第1頁
回歸分析與聚類分析_第2頁
回歸分析與聚類分析_第3頁
回歸分析與聚類分析_第4頁
回歸分析與聚類分析_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

回歸分析與聚類分析1第一頁,共二十八頁,編輯于2023年,星期五8.1一元線性回歸(1)確定性關系—對應關系、函數(shù)關系。其變量稱確定性變量。(2)相關關系—對應的變量稱隨機變量。沒有一一對應的函數(shù)關系,但有統(tǒng)計規(guī)律—散點圖、回歸方程。

一元回歸分析——研究單因素與試驗指標間相關關系;多元回歸分析——研究多因素與試驗指標間相關關系;線性回歸、非線性回歸——相關關系為線性或非線性。8.1.1概述科研與生產(chǎn)中,變量之間的關系有兩種情況2第二頁,共二十八頁,編輯于2023年,星期五設有一組試驗數(shù)據(jù)xi,yi(i=1,2,…,n),其中x是自變量,y是因變量。若x,y符合線性關系,或已知經(jīng)驗公式為直線形式,即:8.1一元線性回歸8.1.2回歸方法

a,b稱為回歸系數(shù);是由xi代入回歸方程的計算值,稱為回歸值。3第三頁,共二十八頁,編輯于2023年,星期五與yi之間的偏差稱為殘差,用ei表示,則有:殘差平方值(考慮到殘差有正有負)之和為:顯然,只有殘差平方和最小時,回歸方程與試驗值的擬合程度最好。殘差平方和SSe為a,b的函數(shù),即:SSe=f(a,b),為使SSe值到達極小,根據(jù)極值原理,只要對上式分別對a,b求偏導數(shù),并令其等于零,求解方程組即可求得a,b之值————最小二乘法原理。4第四頁,共二十八頁,編輯于2023年,星期五要使誤差最小,則對方程組求解,即可得到回歸系數(shù)a,b的計算式:正規(guī)方程組5第五頁,共二十八頁,編輯于2023年,星期五為了方便計算,令:于是:6第六頁,共二十八頁,編輯于2023年,星期五(1)相關系數(shù)檢驗法

先求出回歸方程的相關系數(shù),然后與臨界值進行對比:計算值>臨界值——兩變量不是獨立,相關關系成立;計算值<臨界值——兩變量獨立,相關關系不成立。8.1.3一元線性回歸效果的檢驗相關系數(shù)檢驗法、F檢驗即方差分析法——檢驗回歸方程的可靠性或可信性7第七頁,共二十八頁,編輯于2023年,星期五相關系數(shù)用下式求出回歸系數(shù)b與相關系數(shù)r的關系為:

b與r有相同的符號決定系數(shù)——相關系數(shù)的平方r2

P101,例8-48第八頁,共二十八頁,編輯于2023年,星期五有一定的線性關系

有一定的線性關系

無線性關系

無線性關系

相關系數(shù)的特點:

0≤|r|≤1完全線性相關完全線性相關9第九頁,共二十八頁,編輯于2023年,星期五(2)F檢驗—方差分析法(1)計算離差平方和回歸平方和—回歸值與算術平均值的偏差總離差平方和—試驗值yi與其算術平均值的偏差殘差平方和—試驗值yi與回歸值的偏差三種平方和之間有下述關系:

SST=SSR+SSe

SSR還可以用更簡單的公式計算:

10第十頁,共二十八頁,編輯于2023年,星期五(2)計算自由度

總離差平方和SST的自由度為:fT=n-1回歸平方和SSR的自由度為:fR

=1殘差平方和SSe的自由度為:fe=n-2顯然,三種自由度之間的關系為:fT

=fR+fe

(3)計算均方——離差平方和/自由度回歸平方和的均方殘差平方和的均方(4)F檢驗服從自由度為(fR,fe)的F分布11第十一頁,共二十八頁,編輯于2023年,星期五一元線性回歸方差分析表1.若F>F0.01(fR,fe),稱x與y有非常顯著的線性關系,用兩個“**”號表示2.若F0.05(fR,fe)<F<F0.01(fR,fe),稱x與y有顯著的線性關系,用一個“*”號表示;3.若F<F0.05(fR,fe),則稱x與y沒有明顯著的線性關系,回歸方程不可信。差異源SSdfMSF顯著性

回歸SSR1MSR=SSRMSR

/MSe誤差SSen-2MSe=SSe/(n-2)總和SSTn-112第十二頁,共二十八頁,編輯于2023年,星期五8.2二元線性回歸分析設試驗指標(因變量)y與多個試驗因素(自變量)xj,(j=1,2,…,m)之間的近似函數(shù)關系式為:則上式稱為因變量y關于自變量x1,x2,…,xm的多元線性回歸方程,其中b1,b2,…,bm稱為偏回歸系數(shù)設y有n組試驗數(shù)據(jù)x1i,x2i,…,xmi,yi(i=1,2,…,n),如果將自變量x1i,x2i,…,xmi

,代入上述回歸方程,就可以得到對應的函數(shù)計算值,即回歸值。殘差平方和為:

8.2.1二元線性回歸方程13第十三頁,共二十八頁,編輯于2023年,星期五根據(jù)最小二乘法原理,要使Q達到最小,應滿足以下條件:由此可以得到如下的正規(guī)方程組:14第十四頁,共二十八頁,編輯于2023年,星期五方程組的解就是偏回歸系數(shù)8.2.2二元線性回歸方程的顯著性檢驗4.3.2.1F檢驗法

總平方和:回歸平方和:殘差平方和:

15第十五頁,共二十八頁,編輯于2023年,星期五二元線性回歸方差分析表差異源SSfMSF顯著性

回歸SSR2MSR=SSR/2MSR

/MSe誤差SSen-3MSe=SSe/(n-3)總和SSTn-11.若F>F0.01(fR,fe),稱y與x1,x2,…,xm有非常顯著的線性關系,用兩個“**”號表示2.若F0.05(fR,fe)<F<F0.01(fR,fe),稱y與x1,x2,…,xm有顯著的線性關系,用一個“*”號表示;3.若F<F0.05(fR,fe),則稱y與x1,x2,…,xm沒有明顯著的線性關系,回歸方程不可信。16第十六頁,共二十八頁,編輯于2023年,星期五8.3主成分分析多元統(tǒng)計分析處理的是多變量(多指標)問題。由于變量較多,增加了分析問題的復雜性。但在實際問題中,變量之間可能存在一定的相關性,多變量中可能存在信息的重疊。因此,人們自然希望通過克服相關性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息.

這實際上是一種“降維”的思想。17第十七頁,共二十八頁,編輯于2023年,星期五主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關性。人們自然希望通過線性組合的方式,從這些指標中盡可能快地提取信息。當?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,……,直到所提取的信息與原指標相差不多時為止。這就是主成分分析的思想。18第十八頁,共二十八頁,編輯于2023年,星期五在力求數(shù)據(jù)信息丟失最少的原則下,對高維的變量空間降維,即研究指標體系的少數(shù)幾個線性組合,并且這幾個線性組合所構成的綜合指標將盡可能多地保留原來指標變異方面的信息。這些綜合指標就稱為主成分。

要討論的問題是:

(1)基于相關系數(shù)矩陣還是基于協(xié)方差矩陣做主成分分析當分析中所選擇的經(jīng)濟變量具有不同的量綱,變量水平差異很大,應該選擇基于相關系數(shù)矩陣的主成分分析。19第十九頁,共二十八頁,編輯于2023年,星期五(2)選擇幾個主成分主成分分析的目的是簡化變量,一般情況下主成分的個數(shù)應該小于原始變量的個數(shù)。關于保留幾個主成分,應該權衡主成分個數(shù)和保留的信息。(3)如何解釋主成分所包含的經(jīng)濟意義20第二十頁,共二十八頁,編輯于2023年,星期五8.3.2主成分的計算

設兩個變量(x1,x2)的樣板數(shù)據(jù)如下表X1x11x12…..x1nx2x21x22…..x2n求得平均值和協(xié)和方差矩陣分別為并有適當選?。╝1,a2)使y1處于方差最大的方向。21第二十一頁,共二十八頁,編輯于2023年,星期五設總體X的樣本數(shù)據(jù)陣為則樣本協(xié)方差陣S及樣本相關陣R分別為22第二十二頁,共二十八頁,編輯于2023年,星期五其中下面以樣本協(xié)方差陣S作為的估計或用R作為總體相關陣的估計,然后按上節(jié)方法求樣本主成分。23第二十三頁,共二十八頁,編輯于2023年,星期五8.4聚類分析8.4.1概述聚類分析的基本思想是在樣品之間定義距離,在樣品之間定義相似系數(shù),距離或相似系數(shù)代表樣品或者變量之間的相似程度。按相似程度的大小,將樣品(或變量)逐一歸類,關系密切的類聚集到一個小的分類單位,然后逐步擴大,使得關系疏遠的聚合到一個大的分類單位,直到所有的樣品(或變量)都聚集完畢,形成一個表示親疏關系的譜系圖,依次按照某些要求對樣品(或變量)進行分類.24第二十四頁,共二十八頁,編輯于2023年,星期五(距離可以自己定義,只要滿足距離的條件)8.4.2樣品間的距離25第二十五頁,共二十八頁,編輯于2023年,星期五一般情況下,我們常用到下面定義的幾種距離歐氏距離(Euclideandistance)絕對距離(Block距離)明考斯基距

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論