![多元統(tǒng)計分析課件_第1頁](http://file4.renrendoc.com/view11/M03/27/2D/wKhkGWV9pBGABLRBAACoGmJZdbk966.jpg)
![多元統(tǒng)計分析課件_第2頁](http://file4.renrendoc.com/view11/M03/27/2D/wKhkGWV9pBGABLRBAACoGmJZdbk9662.jpg)
![多元統(tǒng)計分析課件_第3頁](http://file4.renrendoc.com/view11/M03/27/2D/wKhkGWV9pBGABLRBAACoGmJZdbk9663.jpg)
![多元統(tǒng)計分析課件_第4頁](http://file4.renrendoc.com/view11/M03/27/2D/wKhkGWV9pBGABLRBAACoGmJZdbk9664.jpg)
![多元統(tǒng)計分析課件_第5頁](http://file4.renrendoc.com/view11/M03/27/2D/wKhkGWV9pBGABLRBAACoGmJZdbk9665.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第一章概論第一節(jié)多元統(tǒng)計分析方法概述第二節(jié)多元統(tǒng)計分析在Excel中的實現(xiàn)第一節(jié)多元統(tǒng)計分析方法概述多元統(tǒng)計分析研究對象
多元統(tǒng)計分析方法的主要內(nèi)容
多元統(tǒng)計分析方法在經(jīng)濟統(tǒng)計中的具體應(yīng)用
多元統(tǒng)計分析方法在經(jīng)濟統(tǒng)計中應(yīng)用的一般步驟
一、多元統(tǒng)計分析研究對象
研究對象多元統(tǒng)計分析是以多維隨機變量的內(nèi)在聯(lián)系及統(tǒng)計規(guī)律為其研究對象。是統(tǒng)計中討論多維隨機變量的統(tǒng)計方法的總稱。二、多元統(tǒng)計分析方法的主要內(nèi)容
從形式上看,一類是單變量常用的統(tǒng)計方法在多維隨機變量情況下的應(yīng)用;另一類是對多維變量本身進行研究的一些特殊方法。具體內(nèi)容包括
多元正態(tài)分布主成分分析因子分析聚類分析判別分析對應(yīng)分析(選)典型相關(guān)分析(選)
(多元回歸分析)
(時間序列分析)三、多元統(tǒng)計分析方法在經(jīng)濟統(tǒng)計中
的具體應(yīng)用對多個變量進行降維處理,選擇數(shù)目較少的變量子集合;主成分分析、因子分析、對應(yīng)分析等對現(xiàn)象進行分類研究、分類處理、構(gòu)造分類模式;聚類分析、判別分析等建立經(jīng)濟模型和利用模型進行外推;預(yù)測模型--回歸分析方法描述模型--聚類分析方法研究時間序列變化趨勢;時間序列分析方法、馬爾科夫概型分析分析方法等研究經(jīng)濟現(xiàn)象之間相互關(guān)系;典型相關(guān)分析多種多元統(tǒng)計分析方法的有機結(jié)合運用
主成分回歸分析因子分析與聚類分析的結(jié)合判別分析與聚類分析的結(jié)合四、多元統(tǒng)計分析方法在經(jīng)濟統(tǒng)計中的應(yīng)用的一般步驟
進行定性分析,設(shè)計理論模型抽取樣本,并取得樣本統(tǒng)計資料對描述樣本的指標(biāo)進行統(tǒng)計分析,選擇最佳的統(tǒng)計指標(biāo)根據(jù)最佳指標(biāo)的樣本數(shù)據(jù),估計參數(shù),建立數(shù)量模型對數(shù)量模型進行檢驗、優(yōu)化以及運用
多元統(tǒng)計分析的實際應(yīng)用經(jīng)濟學(xué)工業(yè)農(nóng)業(yè)醫(yī)學(xué)教育體育生態(tài)學(xué)地質(zhì)學(xué)社會學(xué)考古學(xué)環(huán)境保護軍事科學(xué)文學(xué)第二節(jié)多元統(tǒng)計分析在Excel
中的實現(xiàn)
多元統(tǒng)計分析在Excel中的實現(xiàn)的必要性與可行性多元統(tǒng)計分析系統(tǒng)在Excel中的實現(xiàn)的基本步驟和方法Excel實現(xiàn)多元統(tǒng)計分析的基本特點
Excel實現(xiàn)多元統(tǒng)計分析的運行環(huán)境Excel實現(xiàn)多元統(tǒng)計分析的功能介紹
一、多元統(tǒng)計分析在Excel中的實現(xiàn)的必要性與可行性(一)必要性1.由于多元統(tǒng)計分析方法要分析大量的多維數(shù)據(jù),進行數(shù)據(jù)處理時在計算上是非常復(fù)雜的,為此,應(yīng)用多元統(tǒng)計分析方法都離不開計算機軟件的使用。2.常用的有SPSS,SAS,Statistica,Matlab,S-plus,NCSS等,屬于專業(yè)性很強的統(tǒng)計軟件,使用費用都較高,而且有的還有應(yīng)用期限限制。
(二)可行性1.Excel是微軟公司出品的Office系列辦公軟件中的一個組件,確切地說,它是一個功能強大、技術(shù)先進、使用方便的電子數(shù)據(jù)表格軟件。它可以進行各種數(shù)據(jù)處理、統(tǒng)計分析和輔助決策操作,廣泛應(yīng)用于管理、統(tǒng)計、財政、金融等眾多領(lǐng)域。而且不斷更新的版本,又不斷地加入新的功能,使其數(shù)據(jù)分析的能力不斷改進,提高了工作的效率。2.VBA(VisualBasicforApplications)是Microsoft的應(yīng)用軟件編程環(huán)境,它是從VisualBasic中演化而來的,也是Excel編程的主要工具。Excel不僅具有強大的計算功能,且可通過VisualBasic編程,對Excel進行復(fù)雜、快速的操作,即所謂的宏功能。因此,利用EXCEL工作薄或Access作為數(shù)據(jù)庫進行數(shù)據(jù)管理,運用VBA(VisualBasicforApplications)進行編程,這就為我們在EXCEL軟件上實現(xiàn)多元統(tǒng)計分析提供了可行性。二、多元統(tǒng)計分析系統(tǒng)在Excel中的實現(xiàn)的基本步驟和方法
為了有效的在Excel上完成從BASIC程序到VBA程序的升級轉(zhuǎn)換并建立宏,我們實施了以下主要步驟和方法:第一步:進行通用類的總體設(shè)計
第二步:執(zhí)行代碼的轉(zhuǎn)換第三步:程序的運行和調(diào)試三、Excel實現(xiàn)多元統(tǒng)計分析的基本特點1、應(yīng)用簡單、方便、靈活,降低費用。2、方法系統(tǒng),較為全面。3、經(jīng)濟分析案例為主,針對性強。
四、Excel實現(xiàn)多元統(tǒng)計分析的運行環(huán)境為了使多元統(tǒng)計分析系統(tǒng),有效運行,還需要有Windows系統(tǒng),以及Offices軟件的支持。為了更方便運行統(tǒng)計分析,在設(shè)計“多元統(tǒng)計分析系統(tǒng)”時,我們還直接嵌入了Excel中自帶的一些統(tǒng)計分析程序,如“多元線性回歸分析”,這樣,為了有效運行這些程序,對于Excel2003以前版的Excel需要實現(xiàn)加載軟件自身的“數(shù)據(jù)分析”宏,才可以正常運行
五、Excel實現(xiàn)多元統(tǒng)計分析的功能介紹Excel實現(xiàn)多元統(tǒng)計分析主要包括8個宏,共同構(gòu)成Excel中實現(xiàn)多元統(tǒng)計分析的系統(tǒng)。具體系統(tǒng)中各個宏的主要統(tǒng)計分析方法和功能介紹如下:1、方差方差分析。包括單因素方差分析、無交互作用方差分析、有交互作用方差分析。2、多元回歸分析。包括多元線性回歸分析、多元逐步回歸分析、多對多回歸分析、嶺回歸分析、趨勢面分析。3、主成分分析。4、因子分析。5、聚類分析。包括系統(tǒng)聚類分析、動態(tài)聚類分析、模糊聚類分析、圖論聚類分析。6、判別分析。包括兩組判別分析、多組判別分析、逐步判別分析。7、對應(yīng)分析8、典型相關(guān)分析第二章多元正態(tài)分布多元分布的基本概念多元正態(tài)分布及其參數(shù)估計多元正態(tài)分布的假設(shè)檢驗
第一節(jié)多元分布的基本概念
一、隨機向量二、多元分布函數(shù)和多元密度函數(shù)三、多維隨機向量的邊緣密度、獨立性與條件分布四、多維隨機向量的數(shù)字特征隨機向量
所謂隨機變量通俗理解就是“其值隨機會而定”的變量
隨機變量按其可能取值的性質(zhì),區(qū)分為兩大類。一類是離散型隨機變量,其特征是只能取有限個值;另一類是連續(xù)型的隨機變量,其特征是變量的全部可能取值不僅是無窮多的,并且還不能無遺漏地逐一排列,而是充滿一個區(qū)間的。同樣隨機向量也有離散型和連續(xù)型之分。對于一個多維隨機向量,如果其每個分量都是一維離散型隨機變量,則稱為多維離散型隨機向量;如果把一個p維隨機向量的取值可視為p維歐氏空間中的一個點,若p維隨機向量的全部取值能夠充滿歐氏空間中某一區(qū)域,則稱該p維隨機向量為連續(xù)型的。多元分布函數(shù)和多元密度函數(shù)
(一)多元分布函數(shù)(二)多元分布密度(三)密度函數(shù)和分布函數(shù)的關(guān)系從數(shù)學(xué)角度看,隨機向量的密度函數(shù)、分布函數(shù)之間的關(guān)系可以理解為導(dǎo)數(shù)和積分之間的關(guān)系。通俗的理解,密度函數(shù)、分布函數(shù)之間實際上是對隨機向量的統(tǒng)計特性分別從兩個不同側(cè)面進行的刻劃,前者是一個一般意義的函數(shù),后者則是自變量為累計值的函數(shù),是一個問題的兩個方面。多維隨機向量的邊緣密度、
獨立性與條件分布多維隨機向量的邊緣密度:
多維隨機向量的獨立性:
多維隨機向量的條件分布:
多維隨機向量的數(shù)字特征隨機變量的數(shù)字特征,是指某些由隨機變量的分布所決定的常數(shù),它刻畫了隨機變量(或者其分布)的某一方面的性質(zhì)。對于多維隨機變量刻畫其性質(zhì)的最重要的數(shù)字特征有均值、自協(xié)差陣與協(xié)差陣及相關(guān)矩陣。(一)多維隨機向量的均值向量(二)多維隨機向量的自協(xié)差陣與協(xié)差陣
(三)隨機向量均值與協(xié)差陣的性質(zhì)(四)隨機向量的相關(guān)陣
第二節(jié)多元正態(tài)分布及其參數(shù)估計一、多元正態(tài)分布密度函數(shù)二、多元正態(tài)分布的數(shù)字特征三、多元正態(tài)分布的參數(shù)估計多元正態(tài)分布密度函數(shù)
多元正態(tài)隨機向量具有以下的性質(zhì):多元正態(tài)分布的數(shù)字特征
多元正態(tài)分布的參數(shù)估計
在實際應(yīng)用中,多元正態(tài)分布中的均值向量和協(xié)差陣通常是未知的,需要由樣本資料來估計,而參數(shù)估計的方法很多,這里用最常見的最大似然估計法給出估計量,用樣本均值向量估計總體均值向量,用樣本協(xié)差陣估計總體協(xié)差陣。
第三節(jié)多元正態(tài)分布的假設(shè)檢驗一、對多元正態(tài)總體均值向量和協(xié)差陣進行假設(shè)檢驗時常用的三個重要的抽樣分布二、一個正態(tài)總體均值向量的假設(shè)檢驗三、兩個正態(tài)總體均值向量的檢驗四、多個正態(tài)總體均值向量的檢驗——多元方差分析五、正態(tài)總體的協(xié)方差陣檢驗對多元正態(tài)總體均值向量和協(xié)差陣進行
假設(shè)檢驗時常用的三個重要的抽樣分布
一個正態(tài)總體均值向量的假設(shè)檢驗
兩個正態(tài)總體均值向量的檢驗
多個正態(tài)總體均值向量的檢驗
——多元方差分析
正態(tài)總體的協(xié)方差陣檢驗
(一)一個正態(tài)總體的協(xié)方差陣檢驗(二)多個協(xié)差陣相等的檢驗本章內(nèi)容講授結(jié)束方差分析的基本問題單因素方差分析
雙因素方差分析第三章正態(tài)分布第一節(jié)方差分析的基本問題
一、方差分析研究的問題
二、方差分析的基本思想
方差分析研究的問題
方差分析是檢驗若干個具有相同方差的正態(tài)總體的均值是否相等的一種假設(shè)檢驗方法。例如,我們要研究不同化肥品種(甲種、乙種)與某農(nóng)作物的關(guān)系,測定是否不同化肥的增產(chǎn)效果也不同。則通過比較不同品種組的平均數(shù)的差異來反映分組變量(如化肥)對因變量(如農(nóng)作物產(chǎn)量)的影響和作用,這就是方差分析要解決的內(nèi)容。在方差分析中,常常用到以下術(shù)語:響應(yīng),是指觀察指標(biāo)的結(jié)果或試驗結(jié)果為響應(yīng)。如農(nóng)作物的產(chǎn)量為響應(yīng)。因子(因素),是指在觀察中或在試驗中改變其狀態(tài)時對響應(yīng)產(chǎn)生影響的因素,也稱為因子。如用來進行分組研究的變量化肥就是因素或因子。水平,是指因子(因素)在觀察或試驗中所取的狀態(tài)稱為因子(因素)的水平。如化肥的種類甲種、乙種就是因素的水平。方差分析主要有兩種:如果方差分析只針對一個因素進行,稱為單因素方差分析。如果同時對多個因素進行,稱為多因素分析。在方差分析中,通常假定在同一條件下的試驗結(jié)果是來自正態(tài)總體的一個樣本;不同條件下的正態(tài)總體是相互獨立的,它們的期望可能不同,但方差相同。要判斷不同條件對響應(yīng)有無影響就是要檢驗各個正態(tài)總體的均值是否相等。在實際應(yīng)用時,一般應(yīng)近似地符合上述要求。
方差分析的基本思想從方差分析的目的看,是要檢驗各個正態(tài)總體的均值是否相等,而實現(xiàn)這個目的的手段是通過方差的比較。方差分析就是通過不同方差的比較,作出接受原假設(shè)或拒絕原假設(shè)的判斷。
為了進行具體的檢驗,根據(jù)證明有,觀察值的總離差有以下的分解關(guān)系式:總離差=水平(組)間離差+水平(組)內(nèi)離差并且,根據(jù)水平間(也稱組間)方差和水平內(nèi)(也稱組內(nèi))方差之比構(gòu)造一個統(tǒng)計量,這個統(tǒng)計量服從F分布。
F分布有這樣的幾個特征:(1)統(tǒng)計量F是大于零的正數(shù);(2)F分布曲線是正偏態(tài),它的尾端以橫軸為漸近線趨于無窮;(3)F分布是一種連續(xù)的概率分布,不同的自由度組合有不同的F分布曲線。方差分析要用F統(tǒng)計量來進行假設(shè)檢驗。第二節(jié)單因素方差分析
一、單因素方差分析的計算步驟二、單因素方差分析中的其他問題
三、單因素方差分析在Excel中的實現(xiàn)
單因素方差分析的計算步驟
(一)計算水平均值(二)計算離差平方和
(三)計算平均平方(四)方差分析表
(五)作出統(tǒng)計判斷(一)計算水平均值(二)計算離差平方和
(三)計算平均平方(四)方差分析表(五)作出統(tǒng)計判斷單因素方差分析中的其他問題
1、進行方差分析編制方差分析的數(shù)據(jù)表格時,可以把方差分析的因素放在列的位置也可以放在行的位置,但通常放在列的位置。2、進行方差分析,各個水平下的樣本容量可以相同,也可以不同。3、方差分析可以對若干個平均值是否相等同時進行檢驗,這是此種方法的特點和長處。
單因素方差分析在Excel中的實現(xiàn)第三節(jié)雙因素方差分析
一、雙因素方差分析的類型二、無交互作用的雙因素方差分析三、有交互作用的雙因素方差分析
四、雙因素方差分析在Excel中的實現(xiàn)雙因素方差分析的類型雙因素方差分析有兩種類型:一種是無交互作用的雙因素方差分析,它假定因素A和因素B的效應(yīng)之間是相互獨立的,不存在相互關(guān)系;另一種是有交互作用的雙因素方差分析,它假定因素A和因素B的結(jié)合會產(chǎn)生出一種新的效應(yīng)。
無交互作用的雙因素方差分析其中有交互作用的雙因素方差分析
雙因素方差分析在Excel中的實現(xiàn)本章內(nèi)容講授結(jié)束第四章回歸分析簡單回歸分析法多元線性回歸分析逐步回歸分析多對多線性回歸分析嶺回歸分析趨勢面分析
回歸分析概論
回歸分析是研究一個變量或多個變量(即因變量)對于另外一個或多個其他變量(即解釋變量)的依存關(guān)系,并用數(shù)學(xué)模型加以模擬,目的在于根據(jù)模型對因變量進行因素分析、趨勢預(yù)測及誤差分析等。一般地,把在研究回歸模型時所采用的估計、計算方法,檢驗、分析理論統(tǒng)稱為回歸分析?;貧w分析方法又稱因素分析方法、經(jīng)濟計量模型方法。屬于多元統(tǒng)計分析方法之一。
回歸分析的一般步驟是:根據(jù)研究問題的性質(zhì)、要求,建立回歸模型;根據(jù)樣本觀測值對回歸模型參數(shù)進行估計,求得回歸方程;對回歸方程、參數(shù)估計值進行顯著性檢驗,并從影響因變量的自變量中判斷哪些顯著,哪些不顯著;利用回歸方程進行因素分析、趨勢預(yù)測及誤差分析。第一節(jié)簡單回歸分析法
一、模型和參數(shù)估計二、模型的檢驗三、進行預(yù)測四、簡單回歸分析在Excel下的實現(xiàn)模型和參數(shù)估計
(一)模型1.總體回歸模型
我們要研究對象是某個總體中兩個變量之間的依存關(guān)系,設(shè)因變量為,主要影響因素為自變量,假定它們之間呈線性關(guān)系。則建立的模型為:
2.樣本回歸模型
在現(xiàn)實生活中,事實上,我們是很難直接得到總體模型的。而是采用抽樣的方法,從總體中抽取容量為n的一個樣本。根據(jù)樣本的資料來推斷總體的。具體這里,就是要根據(jù)樣本資料建立樣本模型,用樣本模型來推斷總體模型。
樣本回歸模型:
(二)
參數(shù)估計根據(jù)上述建立模型的思路,以及用樣本資料來推斷總體的要求,進一步需要回答以下的兩個問題:一是,如何根據(jù)給定的樣本資料,求出估計值和。二是,為什么用估計值和就可以來推斷總體的參數(shù)和。
關(guān)于第一個問題。給定的樣本資料后,依照不同的準則,采用不同的估計方法,可以得到不同的估計值。在應(yīng)用中,通常采用最小二乘法的估計方法。對于給定的樣本資料關(guān)于第二個問題。在遵循隨機抽樣的原則下,給定一個樣本資料運用最小二乘估計方法,就可以得到一個和,不同的樣本資料就可以得到不同的和。模型的檢驗
(一)模型檢驗的原因(二)檢驗的內(nèi)容及方法1.回歸系數(shù)的顯著性檢驗2.回歸方程的顯著性檢驗回歸方程的顯著性檢驗,就是要檢驗樣本回歸方程是否能夠很好擬合樣本數(shù)據(jù)。對于給定的具體樣本數(shù)據(jù),樣本方程作為一個整體來擬合樣本數(shù)據(jù)以及樣本模型,樣本方程對樣本數(shù)據(jù)擬合的好壞,關(guān)系著方程是否有意義,關(guān)系著應(yīng)用的效果。如果方程不能對樣本數(shù)據(jù)進行很好的擬合,求出的樣本方程也就沒有存在的意義了。3.D.W檢驗導(dǎo)致回歸余項序列相關(guān)的可能原因:(1)模型中遺漏關(guān)鍵變量時產(chǎn)生序列的自相關(guān)性;(2)經(jīng)濟變量的滯后性會給序列帶來自相關(guān)性;許多的經(jīng)濟變量都會產(chǎn)生滯后影響,例如物價指數(shù)、投資等。(3)采用錯誤的回歸函數(shù)形式也可能引起自相關(guān)性;(4)經(jīng)濟變量序列中包含有較強的趨勢性也會導(dǎo)致自相關(guān)性;(5)因?qū)π蛄羞M行了加工整理如季節(jié)調(diào)整、數(shù)據(jù)修勻等而導(dǎo)致誤差之間產(chǎn)生自相關(guān)性。4.回歸標(biāo)準差5.擬合優(yōu)度檢驗進行預(yù)測
預(yù)測是給定了自變量x的一組未來數(shù)值后,利用回歸方程計算出相應(yīng)的因變量y的未來值。預(yù)測有點預(yù)測和區(qū)間預(yù)測兩類。1.點預(yù)測
點預(yù)測,是將自變量的未來數(shù)值,直接代入回歸方程計算出相應(yīng)的因變量的未來值即可。
2.區(qū)間預(yù)測第二節(jié)多元線性回歸分析
一、模型和參數(shù)估計二、模型檢驗三、多重共線性四、回歸模型的變量子集合的選擇五、多元線性回歸模型在Excel下的實現(xiàn)模型和參數(shù)估計
(一)總體回歸模型(二)樣本回歸模型
在現(xiàn)實生活中,我們是很難掌握總體資料的。而是采用抽樣的方法,從總體中抽取容量為的一個樣本。根據(jù)樣本的資料來推斷總體的。具體這里,就是要根據(jù)樣本資料建立樣本模型,用樣本模型來推斷總體模型。設(shè)某具體樣本資料如下:(三)參數(shù)估計利用樣本資料對多元線性回歸總體模型參數(shù)進行估計與一元線性回歸一樣,采用最小二乘法,其原理是使離差平方和達到最小,即
達到最小.對上式求偏導(dǎo)并令其為0,得方程為:該方程稱為正規(guī)方程,求解方程即得參數(shù)估計值。上述過程也可以通過矩陣形式來進行。樣本模型表示為。
根據(jù)證明,上述最小二乘估計量b具有以下的統(tǒng)計特性:
對參數(shù)的估計值進行應(yīng)用時注意:1.參數(shù)估計值以及各種符號的實際意義。模型中的參數(shù),對不同的預(yù)測對象有不同的含義。參數(shù)估計值的符號和大小,要符合它的實際意義。其中表示其他變量保持不變時,自變量變化一個單位因變量變化多少,因此,經(jīng)濟分析中,通過可以求得邊際,而且通過對數(shù)回歸還可以求得彈性。2.參數(shù)估計值的符號和大小不符合其實際含義,其可能原因是:某些自變量的取值范圍太窄;模型中遺漏了某些重要的因素;模型中自變量之間存在較強的線性關(guān)系。模型檢驗
(一)回歸系數(shù)的顯著性檢驗
回歸系數(shù)反映因變量與自變量之間的線性變化關(guān)系,回歸系數(shù)的假設(shè)檢驗的就是要檢驗這種線性關(guān)系是否顯著,如果某一回歸系數(shù)的估計量在給定的顯著水平下,顯著不等于0,說明自變量與因變量之間存在較強的線性關(guān)系,自變量能夠很好的解釋因變量的變化關(guān)系,符合模型的假設(shè),變量也保留在模型中。若相反,某回歸系數(shù)與0無顯著不同,表明該自變量的變化無助于解釋因變量的變化,該自變量是否應(yīng)作為自變量留在模型中,則需要進一步考慮。(二)回歸方程的顯著性檢驗
回歸方程檢驗,檢驗樣本回歸方程的回歸擬合效果是否顯著,實質(zhì)是對樣本回歸模型的整體線性關(guān)系的顯著性檢驗,即檢驗下列假設(shè)是否為真(三)可決系數(shù)以及修正可決系數(shù)
與一元回歸一樣,可決系數(shù)的計算公式為:(四)其他檢驗
多元線性回歸方程也需要進行殘差序列的自相關(guān)檢驗(D.W檢驗)和回歸標(biāo)準差的計算,D.W檢驗的方法與一元線性回歸一樣,但回歸標(biāo)準差的計算公式為:多重共線性
多重共線性是多元回歸分析中出現(xiàn)的特有問題,在總體模型中,我們曾假定自變量之間是互不相關(guān)的,但是我們在實際應(yīng)用中,往往會遇到兩個或更多個自變量之間具有明顯的相關(guān)性,簡稱為自變量的多重共線性。如研究國家財政收入的變化,若選擇國民收入、工業(yè)總產(chǎn)值、農(nóng)業(yè)總產(chǎn)值等為解釋變量時,則自變量之間趨向于有高度的相關(guān)。若發(fā)生了多重共線性問題,則前面的一系列統(tǒng)計方法就會失效,導(dǎo)致錯誤的判定,使預(yù)測失誤。(一)多重共線性的影響1.由于多重共線性的存在會改變回歸系數(shù)。2.多重共線性不降低模型的擬合能力,但使回歸平方和、剩余平方和的含義變得模糊。
(二)多重共線性的識別模型中是否存在多重共線性,可通過以下的方法進行識別。(1)F檢驗通過,而有的回歸系數(shù)的t檢驗未通過;(2)模型中引入或剔除一個自變量,回歸系數(shù)的估計值有較大的變化;(3)回歸系數(shù)估計值的符號與實際經(jīng)驗判斷相反;(4)簡單相關(guān)系數(shù)矩陣中,兩個自變量之間的相關(guān)系數(shù)值較大。通常,簡單相關(guān)系數(shù)r>0.7,應(yīng)考慮有多重共線性存在。(三)多重共線性消除
消除多重共線性的辦法,一是較為簡單的方法,如刪除共線性組中自變量與因變量的簡單相關(guān)系數(shù)最小者;通過差分改變變量定義形式;增加樣本容量。另外是采用新的估計方法,如有偏估計方法,包括嶺估計、廣義嶺估計、主成分估計等。回歸模型的變量子集合的選擇
多變量的情況下,特別是在增加解釋變量以便增加擬合優(yōu)度的情況下,由于變量之間存在多重共線性,使回歸系數(shù)的估計值存在不穩(wěn)定,以及由于變量抽樣誤差的積累將使因變量估計值的誤差增大,這樣構(gòu)造的模型穩(wěn)定性差。為此需要選擇變量的最佳子集合進入模型。1.選擇變量子集合的原則及方法(1)修正可決系數(shù)的方法當(dāng)模型中引入一個變量,可決系數(shù)增加,而修正可決系數(shù)卻增加不大,說明該變量對因變量的影響不大,可以不進入模型。類似地,可以依此原則來選擇變量子集合。(2)AIC準則
AIC準則(Aninformationcriterion)又稱為最小信息準則,1973年由赤池弘治(Akaike)提出。該準則適用于ARMA模型,包括AR,MA模型的檢驗。AIC準則的計算公式定義為
AIC中右側(cè)第一項為衡量模型擬合優(yōu)度的一個量,第二項為增加參數(shù)的折扣,應(yīng)用時選擇AIC值最小的那個回歸模型為最優(yōu)模型,也即選擇AIC值最小的變量子集合
(3)Cp準則馬勒斯(Mallows)從預(yù)測角度提出一個可以用來選擇自變量的統(tǒng)計量,即Cp準則。Cp統(tǒng)計量定義為
Cp中右側(cè)第一項為衡量模型擬合優(yōu)度的一個量,第二項為增加參數(shù)的折扣,應(yīng)用時選擇Cp值最小的那個回歸模型為最優(yōu)模型,也即選擇Cp值最小的變量子集合
此外,變量子集合的選擇還可以采用逐步回歸的方法,自動地從大量可供選擇的變量中,選擇對建立回歸方程重要的變量。逐步回歸特別適用于解釋變量比較多的情況下進行變量的選擇。但是,逐步回歸分析方法只能識別出一個子集合回歸,不能給我們提供幾個有爭議的子集合進行選擇。第三節(jié)逐步回歸分析一、逐步回歸分析的基本原理二、引入或剔除變量的依據(jù)及檢驗三、逐步回歸中回歸系數(shù)的求解四、逐步回歸分析在Excel中的實現(xiàn)逐步回歸分析的基本原理
1.“最優(yōu)”回歸方程
當(dāng)自變量的個數(shù)很多時,建立多元回歸方程會經(jīng)常出現(xiàn)多重共線性問題。這就需要探索更方便的方法,從眾多的自變量中選擇對因變量y影響最為顯著的自變量,建立最優(yōu)回歸模型。所謂“最優(yōu)”回歸方程,是指方程中包含所有對y影響比較顯著的變量,而不包括對影響不顯著的變量的回歸方程。建立“最優(yōu)”回歸方程,可采用以下的方法:
(1)從所有可能的自變量組合的回歸方程中選擇最優(yōu)方程。這種方法理論可行,但是實際中需要建立()個方程,工作量太大。(2)“逐步剔除法”。原理是先采用全部自變量與因變量建立回歸方程,然后對每個自變量進行顯著性檢驗,剔除不顯著的自變量中偏回歸平方和最小的變量,然后再用剩下來的自變量與因變量建立新的回歸方程,再對方程中每個自變量進行顯著性檢驗,剔除不顯著的自變量中偏回歸平方和最小的變量,這個過程不斷重復(fù),直到回歸方程中的自變量都顯著為止,最后的回歸方程就是“最優(yōu)”方程。該方法的不足,一是計算量大,二是自變量一旦被剔除就再沒有機會被引入,沒有考慮到由于某個變量的剔除后使變得顯著的其他變量再回到方程中的情況。(3)“逐步引入法”。原理是從一個自變量開始,逐個引入回歸方程。先是在所有的自變量中選擇一個,使它和因變量建立的一元回歸方程比其他自變量與因變量建立的一元回歸方程具有最大的回歸平方和。然后,再在未選入的變量中選擇一個自變量,使它和已選入模型的變量所建立的二元回歸方程,比其他自變量和已選入模型的變量所建立的二元回歸方程具有最大的回歸平方和。依次類推,選擇第三個變量,這個過程重復(fù)下去,每選擇一次,都對要引入的變量進行顯著性檢驗,一旦檢驗不能通過,就不再引入,過程結(jié)束。最后的回歸方程就是“最優(yōu)方程”。該方法的不足,一是計算量大,二是自變量一旦被引入就再沒有機會被剔除,沒有考慮到由于某個自變量的引入使變得不顯著的其他變量應(yīng)從方程中剔除的情況。(4)“逐步回歸分析法”逐步回歸分析法是綜合上述(2)(3)兩種方法特點,吸收優(yōu)點,避免不足,產(chǎn)生的方法。是一種自動地從大量可供選擇的變量中,選擇對建立回歸方程重要的變量的方法,它是在多元線性回歸分析基礎(chǔ)上派生的一種算法。2.逐步回歸分析方法的基本原理原理是:類似于逐步引入法,從一個自變量出發(fā),視自變量對因變量的影響顯著性大小,從大到小逐個引入回歸方程,同時,在逐個自變量選入回歸方程的過程中,如果發(fā)現(xiàn)先前被引入的自變量在其后由于某些自變量的引入而失去其重要性時,可以從回歸方程中隨時予以剔除。引入一個變量或剔除一個變量,為逐步回歸的一步,每步都要進行顯著性檢驗,以便保證每次引入變量前回歸方程中只包括顯著性變量,這個過程反復(fù)進行,直到既無不顯著變量從回歸方程中剔除,又無顯著變量需要選入回歸方程時為止。
引入或剔除變量的依據(jù)及檢驗
逐步回歸分析是按照各自變量對因變量作用顯著程度大小來決定其是否引入還是剔除。用于衡量各自變量對因變量作用大小的量是它們對因變量的“貢獻”,即偏回歸平方和。偏回歸平方和的意義和計算:逐步回歸中回歸系數(shù)的求解
1.標(biāo)準化正規(guī)方程
對于多元線性回歸方程:其中心化回歸方程為:對樣本數(shù)據(jù)進行標(biāo)準化:由中心化方程有則有:
上式我們稱為標(biāo)準化回歸方程。
標(biāo)準化回歸方程與原回歸方程其他統(tǒng)計量之間的關(guān)系:
可見,利用標(biāo)準化正規(guī)方程求解得標(biāo)準化回歸方程各項參數(shù)估計值,進而可以利用上述各式還原得原正規(guī)方程的各項參數(shù)估計值。2.標(biāo)準化回歸系數(shù)通過矩陣變換求得逐步回歸分析中,標(biāo)準化回歸系數(shù)的求解是以相關(guān)矩陣的增廣矩陣為計算起點的。
每一步,不論引入變量或剔除變量,均對相關(guān)矩陣施行一次矩陣變換。一般地以表示對應(yīng)于第m步后的相關(guān)矩陣,如果第m+1步是剔除或引入第個k變量,則求第m+1步后的相關(guān)矩陣時,矩陣變換公式為:
這樣不斷引入或剔除變量的過程中將對相關(guān)矩陣不斷進行矩陣變換。則變化后的相關(guān)矩陣即能夠給出該步相應(yīng)的回歸方程的系數(shù)等多種統(tǒng)計量。如設(shè)第m步后得到的相關(guān)矩陣為第四節(jié)多對多線性回歸分析一、多對多線性回歸分析模型
二、多對多線性回歸分析模型的參數(shù)估計
三、多對多線性回歸系數(shù)向量的假設(shè)檢驗(在正態(tài)假定下)
四、多對多線性回歸分析的計算步驟
五、多對多線性回歸分析在Excel中的實現(xiàn)多對多線性回歸分析模型
于是多對多線性回歸模型可寫成:注:組與組之間的隨機誤差項是相互獨立的,但組內(nèi)可以是不獨立的,即每一行內(nèi)部可以是不獨立的。多對多線性回歸分析模型
的參數(shù)估計
為此用拉直法以及利用矩陣四塊求逆公式可得回歸系數(shù)的估計值如下:
其中左側(cè)是回歸系數(shù)陣,且有多對多線性回歸系數(shù)向量
的假設(shè)檢驗
一元統(tǒng)計中多元回歸系數(shù)檢驗是:對多重多元回歸,同樣需要考察某一部分自變量對p個因變量的影響是否顯著的問題,為此考慮模型:
多對多線性回歸分析的計算步驟
設(shè)p為自變量個數(shù),m為包括因變量在內(nèi)的變量總個數(shù)(因變量個數(shù)為m-p個),n為樣本數(shù)。多對多線性回歸分析在
Excel中的實現(xiàn)
(一)問題與背景(二)分析過程(三)輸出結(jié)果(四)幾點結(jié)論第五節(jié)嶺回歸分析一、嶺回歸的基本思想二、嶺回歸估計的性質(zhì)三、嶺回歸估計中回歸系數(shù)的確定四、嶺回歸分析在Excel中的實現(xiàn)嶺回歸的基本思想
當(dāng)線性回歸模型存在較強的多重共線性時,如果仍然采用普通最小二乘法,參數(shù)估計值的方差往往會增大。在這樣的背景下,人們開始對普通最小二乘法估計提出了修改的辦法。嶺回歸估計就是其中之一。
嶺回歸估計的性質(zhì)
與普通最小二乘估計比較,嶺回歸估計有以下的性質(zhì):由此不難看出,運用嶺回歸估計參數(shù)是犧牲了無偏性來滿足參數(shù)估計的最小方差性。嶺回歸估計未知參數(shù)的最小方差性是建立在有偏估計的基礎(chǔ)上的。從某種意義上說,該方法為我們尋求參數(shù)估計的最小方差性提供了新的思路。嶺回歸估計是解決多重共線性的有效的方法,但也有不足,即嶺回歸系數(shù)的確定比較麻煩。嶺回歸估計中回歸系數(shù)的確定
第六節(jié)趨勢面分析一、趨勢面分析的一般原理二、趨勢面分析中的模型參數(shù)估計三、趨勢面模型的適度性檢驗四、趨勢面分析的步驟五、趨勢面分析在Excel中的實現(xiàn)趨勢面分析的一般原理
(一)趨勢面分析的基本思想趨勢面分析是擬合數(shù)學(xué)面的一種統(tǒng)計分析方法,它是通過回歸分析原理,運用最小二乘法擬合一個二維非線性函數(shù),利用數(shù)學(xué)曲面模擬某種系統(tǒng)要素在空間上的分布及變化趨勢的一種數(shù)學(xué)方法。在利用趨勢面分析擬合回歸模型進行經(jīng)濟分析和預(yù)測時,一個基本的要求是,所選擇的趨勢面模型必須使剩余值比較小,回歸平方和比較大,這樣擬合度較高,預(yù)測結(jié)果才能達到足夠的準確性。(二)趨勢面分析的數(shù)學(xué)模型設(shè)已知觀測數(shù)據(jù)為:
趨于最小。這就是在最小二乘意義下的曲面擬合問題,即趨勢面分析。趨勢面分析中的模型參數(shù)估計
根據(jù)高斯-馬爾科夫定理,最小二乘法給出了多項式系數(shù)的最佳線性無偏估計值,這些估計值使殘差平方和達到最小。趨勢面模型的適度性檢驗
趨勢面分析擬合程度與回歸模型的效果直接相關(guān),因此,對趨勢面分析進行適度性檢驗是一個關(guān)系到趨勢面能否在實際研究中加以應(yīng)用的關(guān)鍵問題,也是趨勢面分析中不可缺少的重要環(huán)節(jié)。趨勢面分析的適度性檢驗可以通過以下檢驗來完成:
(三)趨勢面適度性的逐次檢驗
趨勢面適度性逐次檢驗的基本思想是通過對相繼兩個階次的模型適度性進行比較,來檢驗?zāi)P托Ч麅?yōu)劣的方法。首先,求出較高次多項式方程的回歸平方和與較低次多項式方程的回歸平方和之差;其次,將此差除以回歸平方和的自由度之差,得出由于多項式次數(shù)增高所產(chǎn)生的回歸均方差;第三,將此均方差除以較高次多項式的剩余均方差,得出相繼兩個階次趨勢面模型的適度性比較檢驗值。最后,若所得的值是顯著的,則較高次多項式對回歸作出了新貢獻,若F值不顯著,則較高次多項式對于回歸并無新貢獻。
說明:在實際應(yīng)用中,往往用次數(shù)低的趨勢面逼近變化比較小的數(shù)據(jù),用次數(shù)高的趨勢面逼近起伏變化比較復(fù)雜的數(shù)據(jù)。次數(shù)低的趨勢面使用起來比較方便,但具體到某點擬合較差;次數(shù)較高的趨勢面在觀測點附近擬合效果較好,而在外推和內(nèi)插時則效果較差。趨勢面分析的步驟
1、對趨勢面模型進行識別。根據(jù)代數(shù)一般知識,一元一次多項式為直線,一元二次多項式為拋物線,一元三次多項式為三次曲線。相應(yīng)地二元一次多項式是一個平面,二元二次多項式為拋物面、二元三次多項式為三次曲面。2、求解正規(guī)方程組,進行模型參數(shù)估計。其中,求解正規(guī)方程組可以用正交變換法進行,也可以用主元消去法進行。3、對趨勢面模型進行適度性檢驗本章內(nèi)容講授結(jié)束聚類分析概述系統(tǒng)聚類分析動態(tài)聚類法模糊聚類分析圖論聚類分析第五章聚類分析統(tǒng)計分組或分類可以深化人們的認識。實際應(yīng)用中,有些情況下進行統(tǒng)計分組比較容易,分組標(biāo)志確定了,分組也就得到了,但是,有些情況下進行統(tǒng)計分組卻比較困難,特別是當(dāng)客觀事物性質(zhì)變化沒有明顯標(biāo)志時,用于確定分組的標(biāo)志和組別就很難確定。聚類分析實際上給我們提供了一種對于復(fù)雜問題如何分組的統(tǒng)計方法。
第一節(jié)聚類分析概述一、聚類分析的定義二、聚類分析的種類三、聚類分析中樣品或變量親疏程度的測定聚類分析的定義
聚類分析是將樣品或變量按照它們在性質(zhì)上的親疏程度進行分類的多元統(tǒng)計分析方法。聚類分析時,用來描述樣品或變量的親疏程度通常有兩個途徑,一是把每個樣品或變量看成是多維空間上的一個點,在多維坐標(biāo)中,定義點與點,類和類之間的距離,用點與點間距離來描述樣品或變量之間的親疏程度;另一個是計算樣品或變量的相似系數(shù),用相似系數(shù)來描述樣品或變量之間的親疏程度。
(一)聚類分析按照分組理論依據(jù)的不同,可分為系統(tǒng)聚類法,動態(tài)聚類法,模糊聚類、圖論聚類、聚類預(yù)報等多種聚類方法。
1、系統(tǒng)聚類分析法。是在樣品距離的基礎(chǔ)上定義類與類的距離,首先將個樣品自成一類,然后每次將具有最小距離的兩個類合并,合并后再重新計算類與類之間的距離,再并類,這個過程一直持續(xù)到所有的樣品都歸為一類為止。這種聚類方法稱為系統(tǒng)聚類法。根據(jù)并類過程所做的樣品并類過程圖稱為聚類譜系圖。2、動態(tài)聚類分析法。是將個樣品初步分類,然后根據(jù)分類函數(shù)盡可能小的原則,對初步分類進行調(diào)整優(yōu)化,直到分類合理為止。這種分類方法一般稱為動態(tài)聚類法,也稱為調(diào)優(yōu)法。聚類分析的種類
3、模糊聚類分析法。是利用模糊數(shù)學(xué)中模糊集理論來處理分類問題的方法,它對經(jīng)濟領(lǐng)域中具有模糊特征的兩態(tài)數(shù)據(jù)或多態(tài)數(shù)據(jù)具有明顯的分類效果。4、圖論聚類分析法。是利用圖論中最小支撐樹(MST)的概念來處理分類問題,是一種獨具風(fēng)格的方法。5、聚類預(yù)報法。是利用聚類方法處理預(yù)報問題的方法。主要應(yīng)用于處理一些出現(xiàn)異常數(shù)據(jù)的情況,如氣象中的災(zāi)害性天氣的預(yù)報,這些異常數(shù)據(jù)采用回歸分析或判別分析處理的效果不好,而聚類預(yù)報可以彌補回歸分析及判別分析方法之不足,是一個很值得重視的方法。
(二)按照分析對象不同,可以分為Q型聚類分析和R型聚類分析。
Q型聚類分析法是對樣品進行的分類處理,可以揭示樣品之間的親疏程度。R型聚類分析法是對變量進行的分類處理,可以了解變量之間,以及變量組合之間親疏程度。根據(jù)R型聚類的結(jié)果,可以選擇最佳的變量組合進行回歸分析或者Q型聚類分析。其中,選擇最佳變量的一般方法是,在聚合的每類變量中,各選出一個具有代表性的變量作為典型變量,其中選擇的依據(jù)是。
:表示每個變量與其同類的其它變量的相關(guān)系數(shù)的平方的均值。k為該類中變量的個數(shù)。應(yīng)用中,挑選值最大的變量作為該類的典型變量。聚類分析中樣品或變量
親疏程度的測定
1、變量類型與數(shù)據(jù)變換通常變量類型按照計量尺度的不同,分為定類尺度,定序尺度,定距尺度,定比尺度變量。其中,前兩者一般又稱為定性資料,后兩者一般又稱為定量資料。在進行聚類分析處理時,樣品間的相似系數(shù)和距離有許多不同的定義,這些定義與變量的類型有著密切關(guān)系,不同類型的變量在定義距離或相似性測度時具有很大的差異。
另外,由于樣本數(shù)據(jù)受量綱和數(shù)量級的影響,在聚類分析處理過程中,首先應(yīng)對原始數(shù)據(jù)矩陣進行變換處理,以便使不同量綱、不同數(shù)量級的數(shù)據(jù)能放在一起比較。常用的數(shù)據(jù)變換方法有以下幾種:(1)中心化變換中心化是一種標(biāo)準化處理方法,它是先求出每個變量的樣本均值,再從原始數(shù)據(jù)中減去該變量的均值,就得到中心化后的數(shù)據(jù)。即(2)規(guī)格化變換(極差規(guī)格變換)規(guī)格化變換是從數(shù)據(jù)矩陣的每一個變量中找出其最大值和最小值,這兩者之差稱為極差,然后從每一個原始數(shù)據(jù)中減去該變量中的最小值,再除以極差就得到規(guī)格化數(shù)據(jù)。規(guī)格化后的數(shù)據(jù)為:進行了規(guī)格化變換后的數(shù)據(jù)特點是,將每列的最大數(shù)據(jù)變?yōu)?,最小數(shù)據(jù)變?yōu)?,其余數(shù)據(jù)取值在0,1之間。(3)標(biāo)準化變換標(biāo)準化變換是對變量的屬性進行變換處理,首先對數(shù)據(jù)進行中心化然后再除以標(biāo)準差,即其中
進行了標(biāo)準化變換后的數(shù)據(jù)特點是,每列數(shù)據(jù)的平均值為0,方差為1,同時消除了量綱的影響。使用標(biāo)準差處理后,在抽樣樣本改變時,它仍保持相對穩(wěn)定性。(4)對數(shù)變換對數(shù)變換主要是對原始數(shù)據(jù)取對數(shù)。即對數(shù)變換后的數(shù)據(jù)特點是,可將具有指數(shù)特征的數(shù)據(jù)結(jié)構(gòu)化為線性數(shù)據(jù)結(jié)構(gòu)。此外,還有平方根變換、立方根變換等。極差標(biāo)準化變換和規(guī)格化變換類似。它是把每個變量的樣本極差皆化為1,排除量綱的干擾。立方根變換和平方根變換的主要作用是把非線性數(shù)據(jù)結(jié)構(gòu)變?yōu)榫€性數(shù)據(jù)結(jié)構(gòu),以適應(yīng)某些統(tǒng)計方法的需要。2、多維空間的距離
對于定量數(shù)據(jù)資料常用的距離有以下幾種:
歐氏距離是聚類分析中用得最廣泛的距離,但該距離與個變量的量綱有關(guān),沒有考慮指標(biāo)間的相關(guān)性;也沒有考慮各變量方差的不同。則稱為切比雪夫距離.
由明氏距離公式可知,當(dāng)各變量的單位不同或雖單位相同但各變量的測量值相差很大時,不應(yīng)該直接使用明氏距離,而應(yīng)該先對各變量的數(shù)據(jù)進行準化處理,然后再用標(biāo)準化后的數(shù)據(jù)計算距離。(2)蘭氏(Lance和Williams)距離蘭氏距離是由Lance和Williams最早提出的,故稱為蘭氏距離。當(dāng)全部數(shù)據(jù)大于零,即
可見蘭氏距離是一個無量綱的量,克服了明氏距離與各指標(biāo)的量綱有關(guān)的缺點,其受奇異值的影響較小,使其適合應(yīng)用于具有高度偏倚的數(shù)據(jù)。然而蘭氏距離沒有考慮變量間的相關(guān)性。明氏距離和蘭氏距離的共同的特點是,假定變量之間相互獨立,即均沒有考慮變量之間的相關(guān)性,都是在正交空間內(nèi)討論距離的,而實際情況并非如此。但在實際問題中,變量之間往往存在著一定的相關(guān)性,為克服變量之間的這種相關(guān)性影響,可以采用馬氏距離。
馬氏距離的優(yōu)點是考慮到個變量之間的相關(guān)性,并且與個變量的單位無關(guān)。不足之處是在聚類分析過程中,如果用全部數(shù)據(jù)計算的均值和協(xié)方差陣來計算馬氏距離,并且始終保持不變,則顯得不妥;然而若要隨聚類過程而不斷改變,計算將會很困難。這樣造成聚類效果不是很好的。比較合理的辦法是用各個類的樣品來計算各自的協(xié)方差矩陣,同一類樣本的馬氏距離應(yīng)當(dāng)用這一類的協(xié)方差矩陣來計算。(4)斜交空間距離由于多個變量之間存在著不同程度的相關(guān)關(guān)系。在這種情況下,用正交空間距離來計算樣品間的距離,易產(chǎn)生變形,從而使聚類分析時的譜系結(jié)構(gòu)發(fā)生改變。為此,計算斜交空間距離,第個i樣品與第j個樣品之間的斜交空間距離定義為,3、相似系數(shù)聚類分析方法不僅用來對樣品進行分類,而且有時需要對變量進行分類,在對變量進行聚分類析時,則通常采用相似系數(shù)來表示變量之間的親疏程度。相似系數(shù)定義如下:(1)夾角余弦
(2)相關(guān)系數(shù)(3)指數(shù)相似系數(shù)指數(shù)相似系數(shù)不受變量量綱的影響。(4)相似系數(shù)的非參數(shù)方法4、距離以及相似系數(shù)的選擇原則一般說來,同一批數(shù)據(jù)采用不同的相似性尺度,就會得到不同的分類結(jié)果。產(chǎn)生不同分類結(jié)果的原因,主要是不同指標(biāo)代表了不同意義上的相似性。因此我們在進行數(shù)值分類時,應(yīng)注意相似性尺度的選擇,選擇的基本原則是:(1)所選擇的相似性尺度在實際應(yīng)用中應(yīng)有明確的意義。(2)根據(jù)原始數(shù)據(jù)的性質(zhì),選擇適當(dāng)?shù)淖儞Q方法,再根據(jù)不同的變換方法選擇不同的距離或相似系數(shù)。如標(biāo)準化變換處理下,相關(guān)相似系數(shù)和夾角余弦一致;又如原始數(shù)據(jù)在進行聚類分析之前已經(jīng)對變量的相關(guān)性作了處理,則通常可采用歐氏距離而不必選用斜交空間距離。再如選擇距離時,還須和選用的聚類方法相一致,如聚類方法選用離差平方和法時,距離只能選用歐氏距離。(3)適當(dāng)?shù)乜紤]計算量的大小,如對樣品量較多的聚類問題,不適宜選擇斜交空間距離,因采用該距離處理時,計算工作量太大。第二節(jié)系統(tǒng)聚類分析
一、系統(tǒng)聚類分析的基本思想和分析步驟二、常用系統(tǒng)聚類分析方法三、系統(tǒng)聚類分析方法的統(tǒng)一公式四、系統(tǒng)聚類分析方法的性質(zhì)五、Q型聚類分析時典型變量的選擇與剩余信息的剔除六、譜系分類的確定七、系統(tǒng)聚類分析在Excel下的實現(xiàn)系統(tǒng)聚類分析的基本思想
和分析步驟
(一)基本思想系統(tǒng)聚類分析(HierachicalC1usterAnalysis)是在樣品距離的基礎(chǔ)上,定義類與類之間的距離,首先將個樣品自成一類,然后每次將具有最小距離的兩類合并,合并后重新計算類與類之間的距離,這個過程一直繼續(xù)到所有樣品歸為一類為止,并把這個過程做成一個聚類譜系圖。這種方法即系統(tǒng)聚類分析。系統(tǒng)聚類分析的基本思想是:把n個樣品看成p維(p個指標(biāo))空間的點,而把每個變量看成p維空間的坐標(biāo)軸,根據(jù)空間上點與點的距離來進行分類。系統(tǒng)聚類分析的具體方法是:將n個樣品自成一類,先計算n(n-1)/2個相似性測度或距離,并且把具有最小測度的兩個樣品合并成兩個元素的類,然后按照某種聚類方法計算這個類和其余(n-2)個樣品之間的距離,這樣一直持續(xù)下去,并類過程中,每一步所做的并類(樣品與樣品,樣品與類、類與類)都要使測度在系統(tǒng)中保持最小,每次減少一類,直到所有樣品都歸為一類為止。(二)系統(tǒng)聚類分析的一般步驟1、對數(shù)據(jù)進行變換處理;2、計算各樣品之間的距離,并將距離最近的兩個樣品合并成一類;
3、選擇并計算類與類之間的距離,并將距離最近的兩類合并,如果類的個數(shù)大于1,則繼續(xù)并類,直至所有樣品歸為一類為止;4、最后繪制系統(tǒng)聚類譜系圖,按不同的分類標(biāo)準或不同的分類原則,得出不同的分類結(jié)果;常用系統(tǒng)聚類分析方法
進行聚類分析時,由于對類與類之間的距離的定義和理解不同,并類的過程中又會產(chǎn)生不同的聚類方法。常用的系統(tǒng)聚類方法有8種。即最短距離法、最長距離法、中間距離法、重心法、類平均法、可變類平均法、可變法、離差平方和法等。盡管系統(tǒng)聚類分析方法很多,但每種方法的歸類步驟基本是一樣的,所不同的主要是對類與類之間的距離的定義不同。用最短距離法的聚類主要步驟如下:(二)最長距離法最長距離法與最短距離法在并類步驟上是完全一致的,而是在定義類與類之間的距離是相反的,類與類之間的距離定義為兩類之間所有樣品間距離最大者,(三)中間距離法(Gower,1966年)
該法是在定義類與類之間的距離時,既不采用兩類樣品之間的最近距離,也不采用兩類樣品之間最遠距離,而是采用介于兩者之間的中間距離,
具體分類過程與前面最短和最長距離分類方法步驟相同,只是在定義的距離為中間距離。
(四)重心法以上三種方法在定義類與類之間距離時,沒有考慮每一類所包含的樣品數(shù)。因此,在定義類與類的距離時,把每一類中所包括的樣品數(shù)目也考慮進去,把兩個類重心之間的距離定義為類與類的距離,用這種距離分類的方法就稱為重心法。所謂每一類的重心就是該類樣品的均值。其中單個樣品的重心就是它本身,兩個樣品的類的重心就是兩點連線的中點。
重心法的歸類步驟與以上三種方法基本一樣,所不同的是每合并一次類,就要重新計算一次新類的重心以及與與其他各類的距離。
(五)類平均法
該方法定義類與類的距離時,不僅把每一類中所包括的樣品數(shù)目考慮進來,而且把各樣品的信息都充分地考慮進來,而把兩個類之間的距離平方定義為兩類元素兩兩之間距離平方的平均。(六)可變類平均法(七)可變法(八)離差平方和法(Ward法)
基本思想是,基于方差分析的思想,如果類分得合理,則同類樣品之間離差平方和應(yīng)當(dāng)較小,類與類之間的離差平方和應(yīng)當(dāng)較大。
Ward方法的基本思想是將兩類合并后所增加的離差平方和看成類之間的距離,先將n個樣品各自成一類,然后每次縮小一類,每縮小一次離差平方和就會增加,選擇使S增加最小的兩類合并,直到所有的樣品歸為一類為止。實際應(yīng)用中,離差平方和法應(yīng)用比較廣泛,分類效果比較好。離差平方和法要求樣品之間的距離必須是歐氏距離。系統(tǒng)聚類分析方法的統(tǒng)一公式
由于上述聚類方法的合并類原則和步驟是完全一樣的,所不同的是類與類之間的距離公式有不同的定義,所以可得到不同的遞推公式。1969年維希特提出了統(tǒng)一的公式,這為編制統(tǒng)一的計算機程序提供了極大的方便性。具體公式為:系統(tǒng)聚類分析方法的性質(zhì)
1、關(guān)于并類時距離的單調(diào)性設(shè)是系統(tǒng)聚類法中第次并類時的距離,如果則稱并類距離具有單調(diào)性。經(jīng)過證明最短距離法、最長距離法、類平均法、離差平方和法、可變法和可變類平均法都具有單調(diào)性,只有重心法和中間距離法不具有單調(diào)性。具有單調(diào)性畫出的聚類圖符合系統(tǒng)聚類的思想,先并類的類關(guān)系較近,后并類的類關(guān)系較遠。
2、關(guān)于兩種聚類方法之間距離矩陣的比較:空間擴張、空間收縮由于作系統(tǒng)聚類圖的時候,橫坐標(biāo)(并類距離)的范圍太小,對區(qū)分類的靈敏度就差,所以,也即太濃縮的聚類方法不夠靈活,但太擴張的方法對分類不利。經(jīng)過證明,都與類平均法比較,結(jié)果是最短距離法、重心法使空間濃縮,最長距離法、可變平均法、離差平方和法使空間擴張,而類平均法比較適中,與其他方法比較,既不太濃縮也不太夸張。一般作聚類圖時橫坐標(biāo)(并類距離)的范圍太小時對區(qū)別類的靈敏度就差些,也就是說太濃縮的方法不夠靈敏,但太擴張的方法對分類不利。和類平均法相比最短距離法、重心法使空間濃縮。最長距離法、可變類平均法、離差平方和法使空間擴散。而類平均法比較適中,與其它方法相比。既不太濃縮也不太擴張。
Q型聚類分析時典型變量的選擇
與剩余信息的剔除進行Q型聚類分析時,必須選擇能夠恰當(dāng)反映樣本的變量,選擇對聚類效果較為顯著的變量,剔除對聚類分析效果影響較小的變量。選擇變量的一般原則是:選擇對所研究問題密切相關(guān)的變量;選擇具有較強分辨能力的變量。具體選擇變量的方法有:1、人為地挑選變量;2、先用R型聚類分析挑選主要變量,然后再進行Q型聚類分析;3、先進行主成分分析挑選主要變量,然后再進行Q型聚類分析;譜系分類的確定經(jīng)過系統(tǒng)聚類法處理之后,得到聚類譜系圖或叫聚類樹,聚類樹或譜系圖只反映變量之間或樣品之間的親疏關(guān)系,它本身并不是分類,需要規(guī)定一個臨界相似性尺度,用以分割譜系圖而得到樣品或變量的分類。對于如何分類,Deminren(1972)提出了根據(jù)研究的目的來確定適當(dāng)?shù)姆诸惙椒?,并提出了一些根?jù)譜系圖來分類的準則:準則A;任何類都必須在鄰近各類中是突出的,即各類重心之間距離必須極大;準則B,確定的類中,各類所包含的元素都不要過分地多;準則C:分類的數(shù)目必須符合實用目的;準則D;若采用幾種不同的聚類方法處理,則在各自的聚類圖中應(yīng)發(fā)現(xiàn)相同的類;第三節(jié)動態(tài)聚類法
一、動態(tài)聚類法基本思想
二、動態(tài)聚類分析的基本原理
三、動態(tài)聚類分析主要計算步驟四、動態(tài)聚類分析在Excel下的實現(xiàn)
動態(tài)聚類法基本思想
系統(tǒng)聚類分析需要計算距離矩陣,當(dāng)樣本容量很大時,距離矩陣的計算要占據(jù)較大的計算機內(nèi)存空間和需要較長的計算時間。為了改進上述不足,一種想法就是先粗略的分下類,然后再按某種規(guī)則進行修正,直到將樣本分類分得比較合理為止?;诖怂枷氘a(chǎn)生了動態(tài)聚類法,也稱逐步聚類或快速聚類法。
動態(tài)聚類法基本思想是:開始按照一定的方法選取一批凝聚點,然后讓樣品向最近的凝聚點靠近形成初始分類,得到初始分類。然而,初始分類不一定合理,需按最近距離的原則進行修改不合理的分類,直到分類比較合理為止,這樣形成一個最終的分類結(jié)果。動態(tài)聚類法方法具有計算簡單的特點,在計算機的處理過程中,不需要存儲距離矩陣,占據(jù)較小的內(nèi)存空間,在很大程度上減少了計算機地工作量,因而更適合于對具有較大樣品量的樣本進行聚類分析。動態(tài)聚類法的聚類過程,可由圖5.9表示。圖5.9動態(tài)聚類過程圖動態(tài)聚類分析的基本原理
(一)選擇凝聚點
凝聚點就是一批有代表性的點,是待形成類的中心。凝聚點的選擇直接決定初始分類,對分類結(jié)果也有很大影響,通常選擇凝聚點的方法為:1.憑經(jīng)驗選擇凝聚點。例如,對于具有經(jīng)驗的研究者,當(dāng)拿到一批樣品數(shù)據(jù)之后,可對于樣品進行大體上的分類,分成幾類。這時可以從每一類中選擇一個有代表性的樣品作為凝聚點來進行聚類分析。該方法雖然具有一定主觀性,但在實際應(yīng)用中具有方便、簡單等特點。2.根據(jù)數(shù)據(jù)情況將全部樣品人為地憑經(jīng)驗分成類,之后計算每一類的重心,將這些重心作為凝聚點。這種方法比較常用,簡單、適用。
3.用密度法選擇凝聚點。這里的密度是指以每個樣品為球心,以某個正數(shù)d作為半徑的形成一個球,此時落在這個球內(nèi)的樣品個數(shù)則稱為以該樣品為中心的空間中點的密度,稱為樣品點密度或簡稱為密度。當(dāng)所有樣品點的密度都計算好以后,首先選擇密度較大的樣品點作為第一凝聚點,并且人為地確定一個正數(shù)D,然后選出密度次之的樣品點,并且它與第一凝聚點的距離大于D,則將其作為第二凝聚點,否則該樣品點被取消。這樣,按密度大小依次挑選凝聚點,直至全部樣品考查完畢為止,確定合理的凝聚點。4.用前k個樣品作為凝聚點。
(二)初始分類
有了凝聚點以后接下來就要進行初始分類,同樣獲得初始分類也有不同的方法。需要說明的是,初始分類不一定非通過凝聚點確定不可,也可以依據(jù)其他原則確定。下面介紹幾種確定初始分類的方法。1、人為地分類,憑經(jīng)驗將樣品進行初步分類。2、選擇一批凝聚點以后,每個樣品按與其距離最近的凝聚點歸類。3、選擇一批凝聚點后,每個凝聚點自成一類,將樣品依次歸入與其距離最近的凝聚點的那一類,并立即重新計算該類的重心,以代替原來的凝聚點,再計算下一個樣品的歸類,直至所有的樣品都劃到相應(yīng)的類中為止。(三)分類函數(shù)按照修改分類的原則不同,動態(tài)聚類方法有按批修改法、逐個修改法、等混合法等。這里主要介紹逐步聚類法中按批修改法。所謂按批修改法,其修改分類的原則是,在按批修改法中,每一步修改都將是對應(yīng)的分類函數(shù)縮小,趨于合理,并且分類函數(shù)最終趨于定值,即計算過程是收斂的。按批修改法中一個重要的概念就是分類函數(shù)。動態(tài)聚類分析主要計算步驟
1、首先將原始數(shù)據(jù)進行標(biāo)準化處理。2、選擇預(yù)定數(shù)目的凝聚點進行初始分類。3、計算每一類的重心,將重心作為凝聚點,然后計算每一個樣品與重心凝聚點的距離,并將它歸入與凝聚點距離最近的那一類別。每歸入—個樣品之后,重新計算該類的重心,并用新計算的重心替代原凝聚點。如果所有的新凝聚點與前一次的老凝聚點重合,則分類過程終止,否則重復(fù)上述步驟,直至分類過程終止。步驟3的重復(fù)過程就是迭代過程,每一次迭代都是對應(yīng)的分類函數(shù)縮小,當(dāng)兩次的重心完全相同時,計算過程收斂,此時分類函數(shù)也趨于定值。按批修改法的最終分類結(jié)果受到初始分類的影響,這是動態(tài)聚類法的一個缺點。第四節(jié)模糊聚類分析一、模糊聚類分析的基本思想二、模糊聚類分析的基本原理三、模糊聚類分析的主要步驟四、模糊聚類分析在Excel下的實現(xiàn)模糊聚類分析的基本思想
系統(tǒng)聚類分析、動態(tài)聚類分析方法都是一種硬劃分,它把每個待歸類的樣品嚴格地劃分到某類中去,具有“非此即彼”的性質(zhì),因此這種類別劃分的界限是分明的。然而在實際經(jīng)濟社會中大多數(shù)對象并沒有嚴格的屬性,它們在分類中存在著模糊性,具有“亦此亦彼”的性質(zhì),因此對其應(yīng)進行一種軟劃分,即模糊聚類分析的方法。模糊聚類法是將模糊集的概念用到聚類分析中所產(chǎn)生的一種聚類方法。它是根據(jù)研究對象本身的屬性而構(gòu)造一個模糊矩陣,在此基礎(chǔ)上根據(jù)一定的隸屬度來確定其分類關(guān)系,根據(jù)分類關(guān)系得到相應(yīng)的聚類結(jié)果。模糊聚類分析的基本原理
(一)基本概念1、普通集合與特征函數(shù)
(二)模糊集合與隸屬函數(shù)
在現(xiàn)實生活中,當(dāng)我們要了解某一地區(qū)的經(jīng)濟發(fā)展水平是否達到某一標(biāo)準值時,用特征函數(shù)簡單描述顯得有些不足。這時在模糊數(shù)學(xué)中把它推廣到[0,1]閉區(qū)間,即用0到1之間的一個數(shù)值去度量它達到某一水平的程度,則這個數(shù)稱為隸屬度。當(dāng)用函數(shù)來表示隸屬度的變化規(guī)律時就叫做隸屬函數(shù),即
模糊集轉(zhuǎn)換為普通集的方法
模糊集的運算
(三)普通矩陣與模糊矩陣
若一個矩陣的元素的取值在[0,1]區(qū)間內(nèi),則稱該矩陣為模糊矩陣。同普通矩陣一樣,模糊矩陣也有模糊單位陣,模糊零矩陣和元素皆為1的矩陣。模糊矩陣的乘積運算:
(四)分類關(guān)系與模糊分類關(guān)系
模糊聚類分析是在模糊分類關(guān)系基礎(chǔ)上進行的分類。下面給出分類關(guān)系和模糊分類關(guān)系的含義。模糊聚類分析的主要步驟
進行模糊聚類分析的具體步驟如下:第一步:對原始數(shù)據(jù)進行變換
1、原始數(shù)據(jù)矩陣
2、數(shù)據(jù)變換在實際問題中,不同的數(shù)據(jù)往往具有不同的量綱,為了避免由量綱的不同帶來的誤差通常需要對原始數(shù)據(jù)作適當(dāng)?shù)淖儞Q。通常需要作如下兩種變換:標(biāo)準化變換、極差變換等。
第二步:建立模糊相似矩陣。第三步:獲得模糊分類關(guān)系。
上述建立的模糊矩陣,只是一個模糊相似矩陣,不一定具有傳遞性,為了獲得模糊分類關(guān)系,根據(jù)數(shù)學(xué)的證明,對于一個模糊相似矩陣,通過的不斷自乘(褶積計算),求其極限,就可以得到模糊分類關(guān)系。即第四步:進行模糊聚類。
第五節(jié)圖論聚類分析一、圖論聚類分析的基本思想二、圖論聚類分析的基本原理三、圖論聚類分析在Excel下的實現(xiàn)圖論聚類分析的基本思想
圖論聚類法最早是由Zahn提出來的,又稱為最小支撐數(shù)聚類方法。圖論聚類法主要的基本思想為,一個多變量的樣品可以用多維空間中的一個點來代表。在多維空間中,如果樣品點在某些區(qū)域密度很高,而在另一些區(qū)域密度很低,甚至空白,且高密度區(qū)被空白或低密度區(qū)所分隔,這樣就形成了最自然的、最能體現(xiàn)樣品分布結(jié)構(gòu)的聚類。因此,圖論聚類作為一種對一些點、點間連線所組成的簡單幾何圖形的性質(zhì)及其分類的定量研究,已被廣泛的應(yīng)用。圖論聚類分析的基本原理
(一)最小支撐樹的意義
最小支撐樹。對于p維空間,在n個樣品點間形成的一切可能的聯(lián)接圖中,存在著一個不形成回路且邊長總和為最小的聯(lián)接圖,則稱為最小支撐樹(MST)。最小支撐樹表示了與每個樣品點最近的一些樣品點,反映了樣品點間聯(lián)系的親疏程度。最小支撐樹計算。(二)最小支撐樹中的“長邊”與分類
在最小支撐樹中,我們總是可以找到一些“長邊”把最小支撐樹分割成若干個自然類。亦即聚類分析。由此,圖論聚類法的分類原則在于,把各個樣品看成多維空間上的點,如果對樣品進行分類比較合理,則同一類樣品點之間在MST上相互以較短的邊長相聯(lián)結(jié),而不同類與類之間的樣品點在MST上則被較長的邊(“長邊”)所分開。長邊的定義。
(三)確定樣品點密度為了方便分類,我們還需要運用另外一個概念,即樣品密度。如以某個樣品點為中心,以長度為半徑,我們將落在這個球內(nèi)的樣品數(shù)稱之為以該樣品點為球心的空間內(nèi)樣品點的密度。顯然,在一個類的中心部位密度應(yīng)較高,而其邊緣部位的密度應(yīng)較低。根據(jù)密度可以作出密度等值線,由密度等值線圖可以清晰地反映出分類的概貌。實際應(yīng)用中,半徑的確定一般是將MST的邊長平均數(shù)乘上一個大于1的數(shù)來確定。本章內(nèi)容講授結(jié)束判別分析的基本原理和模型
逐步判別分析
第六章判別分析第一節(jié)判別分析的基本原理和模型一、判別分析概述二、判別分析方法三、判別分析在Excel中的實現(xiàn)判別分析概述
(一)什么是判別分析
判別分析是多元統(tǒng)計中用于判別樣品所屬類型的一種統(tǒng)計分析方法,是一種在已知研究對象用某種方法已經(jīng)分成若干類的情況下,確定新的樣品屬于哪一類的多元統(tǒng)計分析方法。判別分析方法處理問題時,通常要給出用來衡量新樣品與各已知組別的接近程度的指標(biāo),即判別函數(shù),同時也指定一種判別準則,借以判定新樣品的歸屬。所謂判別準則是用于衡量新樣品與各已知組別接近程度的理論依據(jù)和方法準則。常用的有,距離準則、Fisher準則、貝葉斯準則等。判別準則可以是統(tǒng)計性的,如決定新樣品所屬類別時用到數(shù)理統(tǒng)計的顯著性檢驗,也可以是確定性的,如決定樣品歸屬時,只考慮判別函數(shù)值的大小。判別函數(shù)是指基于一定的判別準則計算出的用于衡量新樣品與各已知組別接近程度的函數(shù)式或描述指標(biāo)。(二)判別分析的種類
按照判別組數(shù)劃分有兩組判別分析和多組判別分析;按照區(qū)分不同總體的所用數(shù)學(xué)模型來分有線性判別分析和非線性判別分析;按照處理變量的方法不同有逐步判別、序貫判別等;按照判別準則來分有距離準則、費舍準則與貝葉斯判別準則。判別分析方法
(一)距離判別法
1.基本思想:首先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心,即分組(類)均值,距離判別準則是對于任給一新樣品的觀測值,若它與第類的重心距離最近,就認為它來自第類。因此,距離判別法又稱為最鄰近方法(nearestneighbormethod)。距離判別法對各類總體的分布沒有特定的要求,適用于任意分布的資料。
2.兩組距離判別
兩組距離判別的基本原理。
說明:當(dāng)兩總體靠的比較近時,即兩總體的均值差異較小的時候,無論用何種判別方法,錯判的概率都比較大,這時的判別分析也是沒有意義的。因此只有當(dāng)兩總體的均值有顯著差異時,進行判別分析才有意義,為此,要對兩總體的均值差異性進行檢驗,對此在下文中敘述。(3)關(guān)于兩組判別分析的檢驗
由于判別分析是假設(shè)兩組樣品是取自不同總體,如果兩個總體的均值向量在統(tǒng)計上差異不顯著,則進行判別分析意義不大。所以,兩組判別分析的檢驗,實際就是要經(jīng)驗兩個正態(tài)總體的均值向量是否相等,為此,檢驗的統(tǒng)計量為:3、多個總體的距離判別法類似兩個總體的討論推廣到多個總體。
(二)費舍判別法
費舍判別法是1936年提出來的,該方法對總體分布未提出什么特定的要求。
1.基本思想
費舍判別法是基于統(tǒng)計上的費舍準則,即判別的結(jié)果應(yīng)該使兩組間區(qū)別最大,使每組內(nèi)部離散性最小。在費舍準則意義下,確定線性判別函數(shù):
其中為待求的判別函數(shù)的系數(shù)。判別函數(shù)的系數(shù)的確定原則是使兩組間區(qū)別最大,使每組內(nèi)部離散性最小。有了判別函數(shù)后,對于一個新的樣品,將p個指標(biāo)的具體數(shù)值代入判別式中求出值,然后與判別臨界值進行比較,并判別其應(yīng)屬于哪一組。2.兩組判別分析(1)方法原理(2)判別系數(shù)的導(dǎo)出(3)判別準則
(4)兩組判別分析的檢驗
由于判別分析是假設(shè)兩組樣品是取自不同總體,如果兩個總體的均值向量在統(tǒng)計上差異不顯著,則進行判別分析意義不大。所以,兩組判別分析的檢驗,實際就是要檢驗兩個正態(tài)總體的均值向量是否相等,為此,檢驗的統(tǒng)計量為:
3、多組費舍判別分析(1)方法原理
類似兩總體的費舍判別法,下面給出多總體的費舍判別法。
(2)判別函數(shù)
判別系數(shù)(矩陣A關(guān)于矩陣E的廣義特征向量)的導(dǎo)出。判別函數(shù)的判別能力與判別函數(shù)的個數(shù)。
(3)判別準則
有了判別函數(shù)之后,如何對待判的樣品進行分類?Fisher判別法本身并未給出最合適的分類法,在實際工作中可以選用下列分類法之一進行分類。
(三)貝葉斯判別法1.基本思想
顯然考慮損失函數(shù)更為合理,但是由于實際應(yīng)用中,由于L(h/g)不容易確定,經(jīng)常在數(shù)學(xué)模型中假定各種錯判的損失皆相等,這樣,尋找h使后驗概率最大實際上等價于使錯判損失最小。根據(jù)上述思想,在假定協(xié)方差矩陣相等的條件下,即可以導(dǎo)出判別函數(shù)。
2.多元正態(tài)總體的Bayes判別法在實際問題中遇到的許多總體往往服從正態(tài)分布,下面給出p元正態(tài)總體的Bayes判別法,以及判別函數(shù)的導(dǎo)出。(1)待判樣品的先驗概率和密度函數(shù)使用Bayes準則進行分析,首先需要知道待判總體的先驗概率和密度函數(shù)(如果是離散情形則是概率函數(shù))。
(2)假設(shè)各組協(xié)方差陣相等,導(dǎo)出判別函數(shù)(3)計算后驗概率
說明:貝葉斯方法一般多用于多組判別分析,貝葉斯判別方法的數(shù)學(xué)模型所要求的條件嚴格,它要求各組變量必須服從多元正態(tài)分布,各組的協(xié)方差矩陣相等,各組的均值向量有顯著差異。而費舍判別法主要要求各組均值向量有顯著差異即可。第二節(jié)逐步判別分析一、逐步判別分析的基本思想二、逐步判別的基礎(chǔ)理論――對判別變量附加信息的檢驗三、引入和剔除變量的依據(jù)和檢驗統(tǒng)計量四、求解判別函數(shù)中的矩陣變換五、建立判別式,對樣品判別分類六、逐步判別分析在Excel上的實現(xiàn)逐步判別分析的基本思想
在判別問題中,當(dāng)判別變量個數(shù)較多時,如果不加選擇地一概采用來建立判別函數(shù),不僅計算量大,還由于變量之間的相關(guān)性,可能使求解逆矩陣的計算精度下降,建立的判別函數(shù)不穩(wěn)定。因此適當(dāng)?shù)睾Y選變量的問題就成為一個很重要的事情。
凡具有篩選變量能力的判別分析方法就統(tǒng)稱為逐步判別法。
逐步判別法和通常的判別分析一樣,也有許多不同的原則,從而產(chǎn)生各種方法。這里討論的逐步判別分析方法是在多組判別分析基礎(chǔ)上發(fā)展起來的一種方法,判別準則為貝葉斯判別函數(shù),其基本思路類似于逐步回歸分析,采用“有進有出”的算法,即按照變量是否重要,從而逐步引入變量,每引入一個“最重要”的變量進入判別式,同時要考慮較早引入的變量是否由于其后的新變量的引入使之喪失了重要性變得不再顯著了(例如其作用被后引入地某幾個變量的組合所代替),應(yīng)及時從判別式中把它剔除,直到判別式中沒有不重要的變量需要剔除,剩下來的變量也沒有重要的變量可引入判別式時,逐步篩選結(jié)束。也就是說每步引入或剔除變量,都作相應(yīng)的統(tǒng)計檢驗,使最后的貝葉斯判別函數(shù)僅保留“重要”的變量。逐步判別的基礎(chǔ)理論
――對判別變量附加信息的檢驗
根據(jù)逐步判別分析的基本思想,進行判別分析需要解決兩個關(guān)鍵的問題,一個是引入或剔除判別變量的依據(jù)和檢驗問題;另外則是判別函數(shù)的及時導(dǎo)出的問題。其中的理論基礎(chǔ)又在于如何對判別變量在區(qū)別各個總體中是否提供附加信息的檢驗。為此這里先給出如何對判別變量在區(qū)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2018-2024年中國載貨汽車市場深度評估及投資方向研究報告
- 2025-2030年中國汽車電瓶糟蓋行業(yè)深度研究分析報告
- 教育行業(yè)線上課程開發(fā)與運營規(guī)范
- 共同賣房合同范本
- 農(nóng)業(yè)車輛承包協(xié)議合同范本
- 書采購加工合同范本
- 借用合同與買賣合同范本
- 2025年度建筑工程綠色建材采購勞務(wù)分包合同范本
- 勞動變更合同范例
- 農(nóng)業(yè)耕種合同范本
- 《學(xué)校體育科研方法》課件
- 護士團隊的協(xié)作和領(lǐng)導(dǎo)力培養(yǎng)培訓(xùn)課件
- QFD模板含計算公式計分標(biāo)準說明模板
- 慢阻肺試題練習(xí)
- 人工智能在生物醫(yī)學(xué)倫理與法律中的基因編輯與生命倫理問題研究
- 饅頭制作過程
- 國有資產(chǎn)管理辦法-國有資產(chǎn)管理辦法條例
- 公務(wù)車輛定點維修車輛保養(yǎng)(附彩圖) 投標(biāo)方案
- 00015-英語二自學(xué)教程-unit3
- 第二章共混改性基本原理
- 乳腺專業(yè)知識課件
評論
0/150
提交評論