應(yīng)用多元統(tǒng)計分析講稿朱建平_第1頁
應(yīng)用多元統(tǒng)計分析講稿朱建平_第2頁
應(yīng)用多元統(tǒng)計分析講稿朱建平_第3頁
應(yīng)用多元統(tǒng)計分析講稿朱建平_第4頁
應(yīng)用多元統(tǒng)計分析講稿朱建平_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、.第一章 多元分析概述第一節(jié) 引言多元統(tǒng)計分析是運用數(shù)理統(tǒng)計方法來研究解決多指標(biāo)問題的理論和方法。近30年來,隨著計算機(jī)應(yīng)用技術(shù)的發(fā)展和科研生產(chǎn)的迫切需要,多元統(tǒng)計分析技術(shù)被廣泛地應(yīng)用于地質(zhì)、氣象、水文、醫(yī)學(xué)、工業(yè)、農(nóng)業(yè)和經(jīng)濟(jì)等許多領(lǐng)域,已經(jīng)成為解決實際問題的有效方法。然而,隨著internet的日益普及,各行各業(yè)都開始采用計算機(jī)及相應(yīng)的信息技術(shù)進(jìn)行管理和決策,這使得各企事業(yè)單位生成、收集、存儲和處理數(shù)據(jù)的能力大大提高,數(shù)據(jù)量與日俱增,大量復(fù)雜信息層出不窮。在信息爆炸的今天,人們已經(jīng)意識到數(shù)據(jù)最值錢的時代已經(jīng)到來。顯然,大量信息在給人們帶來方便的同時也帶來一系列問題。比如:信息量過大,超過了人

2、們掌握、消化的能力;一些信息真?zhèn)坞y辯,從而給信息的正確應(yīng)用帶來困難;信息組織形式的不一致性導(dǎo)致難以對信息進(jìn)行有效統(tǒng)一處理等等,這種變化使傳統(tǒng)的數(shù)據(jù)庫技術(shù)和數(shù)據(jù)處理手段已經(jīng)不能滿足要求.internet的迅猛發(fā)展也使得網(wǎng)絡(luò)上的各種資源信息異常豐富,在其中進(jìn)行信息的查找真如大海撈針。這樣又給多元統(tǒng)計分析理論的發(fā)展和方法的應(yīng)用提出了新的挑戰(zhàn)。多元統(tǒng)計分析起源于上世紀(jì)初,1928年wishart發(fā)表論文多元正態(tài)總體樣本協(xié)差陣的精確分布,可以說是多元分析的開端。20世紀(jì)30年代r.a. fisher 、h.hotelling、s.n.roy、許寶騄等人作了一系列得奠基性工作,使多元分析在理論上得到了迅速

3、得發(fā)展。20世紀(jì)40年代在心理、教育、生物等方面有不少得應(yīng)用,但由于計算量大,使其發(fā)展受到影響,甚至停滯了相當(dāng)長得時間。20世紀(jì)50年代中期,隨著電子計算機(jī)得出現(xiàn)和發(fā)展,使多元分析方法在地質(zhì)、氣象、醫(yī)學(xué)、社會學(xué)等方面得到廣泛得應(yīng)用。20世紀(jì)60年代通過應(yīng)用和實踐又完善和發(fā)展了理論,由于新的理論、新的方法不斷涌現(xiàn)又促使它的應(yīng)用范圍更加擴(kuò)大。20世紀(jì)70年代初期在我國才受到各個領(lǐng)域的極大關(guān)注,并在多元統(tǒng)計分析的理論研究和應(yīng)用上也取得了很多顯著成績,有些研究工作已達(dá)到國際水平,并已形成一支科技隊伍,活躍在各條戰(zhàn)線上。 在20世紀(jì)末與本世紀(jì)初,人們獲得的數(shù)據(jù)正以前所未有的速度急劇增加,產(chǎn)生了很多超大型

4、數(shù)據(jù)庫,遍及超級市場銷售、銀行存款、天文學(xué)、粒子物理、化學(xué)、醫(yī)學(xué)以及政府統(tǒng)計等領(lǐng)域,多元統(tǒng)計與人工智能和數(shù)據(jù)庫技術(shù)相結(jié)合,已在經(jīng)濟(jì)、商業(yè)、金融、天文等行業(yè)得到了成功的應(yīng)用。為了讓人們更好的較為系統(tǒng)地掌握多元統(tǒng)計分析的理論與方法,本書重點介紹多元正態(tài)總體的參數(shù)估計和假設(shè)檢驗以及常用的統(tǒng)計方法。這些方法包括判別分析、聚類分析、主成分分析、因子分析、對應(yīng)分析、典型相關(guān)分析、多維標(biāo)度法以及多變量的可視化分析等。與此同時,我們將利用在我國廣泛流行的spss統(tǒng)計軟件來實現(xiàn)實證分析,做到在理論的學(xué)習(xí)中體會應(yīng)用,在應(yīng)用的分析中加深理論。第二節(jié) 應(yīng)用背景二、多元統(tǒng)計分析方法的應(yīng)用 這里我們要通過一些實際的問題,

5、解釋選擇統(tǒng)計方法和研究目的之間的關(guān)系,這些問題以及本書中的大量案例能夠使得讀者對多元統(tǒng)計分析方法在各個領(lǐng)域中的廣泛應(yīng)用有一定的了解。多元分析方法從研究問題的角度可以分為不同的類,相應(yīng)有具體解決問題的方法,參看表1.1。多元統(tǒng)計分析方法在經(jīng)濟(jì)管理、農(nóng)業(yè)、醫(yī)學(xué)、教育學(xué)、體育科學(xué)、生態(tài)學(xué)、地質(zhì)學(xué)、社會學(xué)、考古學(xué)、環(huán)境保護(hù)、軍事科學(xué)、文學(xué)等方面都有廣泛的應(yīng)用,這里我們例舉一些實際問題,進(jìn)一步了解多元統(tǒng)計分析的應(yīng)用領(lǐng)域,讓讀者從感性上加深對多元統(tǒng)計分析的認(rèn)識。問題 內(nèi)容 方法 數(shù)據(jù)或結(jié)構(gòu)性化簡 盡可能簡單地表示所研究的現(xiàn)象,但不損失很多有用的信息,并希望這種表示能夠很容易的解釋。 多元回歸分析、聚類分析

6、、主成分分析、因子分析、相應(yīng)分析、多維標(biāo)度法、可視化分析 分類和組合 基于所測量到的一些特征,給出好的分組方法,對相似的對象或變量分組。 判別分析、聚類分析、主成分分析、可視化分析 變量之間的相關(guān)關(guān)系 變量之間是否存在相關(guān)關(guān)系,相關(guān)關(guān)系又是怎樣體現(xiàn)。 多元回歸、典型相關(guān)、主成分分析、因子分析、相應(yīng)分析、多維標(biāo)度法、可視化分析 預(yù)測與決策 通過統(tǒng)計模型或最優(yōu)準(zhǔn)則,對未來進(jìn)行預(yù)見或判斷。 多元回歸、判別分析、聚類分析、可視化分析 假設(shè)的提出及檢驗檢驗由多元總體參數(shù)表示的某種統(tǒng)計假設(shè),能夠證實某種假設(shè)條件的合理性。 多元總體參數(shù)估計、假設(shè)檢驗 1、城鎮(zhèn)居民消費水平通常用八項指標(biāo)來描述,如人均糧食支出

7、、人均副食支出、人均煙酒茶支出、人均衣著商品支出、人均日用品支出、人均燃料支出、人均非商品支出。這八項指標(biāo)存在一定的線性關(guān)系。為了研究城鎮(zhèn)居民的消費結(jié)構(gòu),需要將相關(guān)強的指標(biāo)歸并到一起,這實際就是對指標(biāo)進(jìn)行聚類分析。2、在企業(yè)經(jīng)濟(jì)效益的評價中,涉及到的指標(biāo)往往很多,如百元固定資產(chǎn)原值實現(xiàn)產(chǎn)值、百元固定資產(chǎn)原值實現(xiàn)利稅、百元資金實現(xiàn)利稅、百元工業(yè)總產(chǎn)值實現(xiàn)利稅、百元銷售收入實現(xiàn)利稅、每噸標(biāo)準(zhǔn)煤實現(xiàn)工業(yè)產(chǎn)值、每千瓦時電力實現(xiàn)工業(yè)產(chǎn)值、全員勞動生產(chǎn)率、百元流動資金實現(xiàn)產(chǎn)值。如何將這些具有錯綜復(fù)雜關(guān)系的指標(biāo)綜合成幾個較少的因子,既有利于對問題進(jìn)行分析和解釋,又能便于抓住主要矛盾做出科學(xué)的評價??捎弥鞒煞?/p>

8、分析和因子分析法。3、某一產(chǎn)品是用兩種不同原料生產(chǎn)的,試問此兩種原料生產(chǎn)的產(chǎn)品壽命有無顯著差異?又比如,若考察某商業(yè)行業(yè)今年和去年的經(jīng)營狀況,這時需要看這兩年經(jīng)營指標(biāo)的平均水平是否有顯著差異以及經(jīng)營指標(biāo)之間的波動是否有顯著差異??捎枚嘣龖B(tài)總體均值向量和協(xié)差陣的假設(shè)檢驗。4、按現(xiàn)行統(tǒng)計報表制度,農(nóng)村家庭純收入是指農(nóng)村常住居民家庭總收入中扣除從事生產(chǎn)和非生產(chǎn)經(jīng)營用支出、稅款和上交承包集體任務(wù)金額以后剩余的、可直接用于進(jìn)行生產(chǎn)的、非生產(chǎn)性建設(shè)投資、生產(chǎn)性消費的那一部分收入。如果我們收集某年各個省、自治區(qū)、直轄市農(nóng)民家庭人均純收入的數(shù)據(jù),可以用相應(yīng)分析,揭示全國農(nóng)民人均純收入的特征以及各省、自治區(qū)、

9、直轄市與各收入指標(biāo)的關(guān)系。5、某醫(yī)院已有100個分別患有胃炎、肝炎、冠心病、糖尿病等的病人資料,記錄了他們每個人若干項癥狀指標(biāo)數(shù)據(jù)。如果對于一個新的病人,當(dāng)也測得這若干項癥狀指標(biāo)時,可以利用判別分析方法判定他患的是哪種病。6、有100種酒,品嘗家可以對每兩種酒進(jìn)行品嘗對比,給出一種相近程度的得分(越相近得分越高,相差越遠(yuǎn)得分越低),希望用這些得分?jǐn)?shù)據(jù)來了解這100種酒之間的結(jié)構(gòu)關(guān)系。這樣的問題就可以用多維標(biāo)度法來解決。7、在地質(zhì)學(xué)中,常常要研究礦石中所含化學(xué)成分之間的關(guān)系。設(shè)在某礦體中采集了60個標(biāo)本,對每個標(biāo)本測得20個化學(xué)成分的含量。我們希望通過對這20個化學(xué)成分的分析,了解礦體的性質(zhì)和礦

10、體形成的主要原因。8、對1000個類似的魚類樣本,如何根據(jù)測量的特征如體重、身長、鰭數(shù)、鰭長、頭寬等,我們可以利用聚類分析方法將這類魚分成幾個不同品種。9、考古學(xué)家對挖掘出來的人頭蓋骨的高、寬等特征來判斷是男或女,根據(jù)挖掘出的動物牙齒的有關(guān)測試指標(biāo),判別它是屬于哪一類動物牙齒、是哪一個時代的。10、在高考招生工作中,我們知道每個考生的基本情況,通過分析我們不僅可以了解到學(xué)生喜歡學(xué)習(xí)的科目,還可以進(jìn)一步從考生每門課程的成績,分析出學(xué)生的邏輯思維能力、形象思維能力和記憶力等等對學(xué)習(xí)成績的影響。第二章 多元正態(tài)分布的參數(shù)估計第一節(jié) 引言 多元統(tǒng)計分析涉及到的都是隨機(jī)向量或多個隨機(jī)向量放在一起組成的隨

11、機(jī)矩陣。例如在研究公司的運營情況時,要考慮公司的獲利能力、資金周轉(zhuǎn)能力、競爭能力以及償債能力等財務(wù)指標(biāo);又如在研究國家財政收入時,稅收收入、企業(yè)收入、債務(wù)收入、國家能源交通重點建設(shè)基金收入、基本建設(shè)貸款歸還收入、國家預(yù)算調(diào)節(jié)基金收入、其他收入等都是需要同時考察的指標(biāo)。顯然,如果我們只研究一個指標(biāo)或是將這些指標(biāo)割裂開分別研究,是不能從整體上把握研究問題的實質(zhì)的,解決這些問題就需要多元統(tǒng)計分析方法。為了更好的探討這些問題,本章我們首先論述有關(guān)隨機(jī)向量的基本概念和性質(zhì)。在實用中遇到的隨機(jī)向量常常是服從正態(tài)分布或近似正態(tài)分布,或雖本身不是正態(tài)分布,但它的樣本均值近似于正態(tài)分布。因此現(xiàn)實世界中許多實際問

12、題的解決辦法都是以總體服從正態(tài)分布或近似正態(tài)分布為前提的。在多元統(tǒng)計分析中, 多元正態(tài)分布占有很重要地位,本書所介紹的方法大都假定數(shù)據(jù)來之多元正態(tài)分布。為此,本章將要介紹多元正態(tài)分布的定義和有關(guān)性質(zhì)。然而在實際問題中,多元正態(tài)分布中均值向量和協(xié)差陣通常是未知的,一般的做法是由樣本來估計。這是本章討論的重要內(nèi)容之一,在此我們介紹最常見的最大似然估計法對參數(shù)進(jìn)行估計,并討論其有關(guān)的性質(zhì)。第二節(jié) 基本概念一、隨機(jī)向量我們所討論的是多個變量的總體,所研究的數(shù)據(jù)是同時p個指標(biāo)(變量),又進(jìn)行了n次觀測得到的,我們把這個p指標(biāo)表示為x1 ,x2,l,xp,常用向量x = (x1 , x2 , l , xp

13、)' 表示對同一個體觀測的p個變量。這里我們應(yīng)該強調(diào),在多元統(tǒng)計分析中,仍然將所研究對象的全體稱為總體,它是由許多(有限和無限)的個體構(gòu)成的集合,如果構(gòu)成總體的個體是具有p個需要觀測指標(biāo)的個體,我們稱這樣的總體為p維總體(或p元總體)。上面的表示便于人們用數(shù)學(xué)方法去研究p維總體的特性。這里“維”(或“元”)的概念,表示共有幾個分量。若觀測了n個個體,則可得到如表2.1的數(shù)據(jù),稱每一個個體的p個變量為一個樣品,而全體n個樣品組成一個樣本。表2.1 數(shù)據(jù)變量 序號12在這里橫看表2.1,記為 , 表示第個樣品的觀測值。豎看表2.1,第列的元素 , 表示對第個變量的次觀測數(shù)值。因此,表2.1

14、所反映出的樣本資料可用矩陣表示為 (2.1)簡記為x。定義2.1 將個隨機(jī)變量的整體稱為維隨機(jī)向量,記為。在對隨機(jī)向量的研究仍然限于討論離散型和連續(xù)型兩類隨機(jī)向量。二、多元分布先回顧一下一元統(tǒng)計中分布函數(shù)和密度函數(shù)的定義。設(shè)是一個隨機(jī)變量,稱為的概率分布函數(shù)或簡稱為分布函數(shù),記為。若隨機(jī)變量在有限或可列個值上取值,記,且,則稱為離散型隨機(jī)變量,稱,為的概率分布。設(shè),若存在一個非負(fù)函數(shù),使得一切實數(shù)有:,則稱為的分布密度函數(shù),簡稱為密度函數(shù)。一個函數(shù)能作為某個隨機(jī)變量的分布密度函數(shù)的重要條件是:(1),對一切實數(shù);(2)。定義2.2 設(shè)是維隨機(jī)向量,它的多元分布函數(shù)定義為 (2.2)記為,其中,

15、表示維歐氏空間。多維隨機(jī)向量的統(tǒng)計特性可用它的分布函數(shù)來完整地描述。定義2.3 設(shè)是維隨機(jī)向量,若存在有限個或可列個維數(shù)向量,記,且滿足,則稱為離散型隨機(jī)向量,稱,為的概率分布。設(shè),若存在一個非負(fù)函數(shù),使得對一切有(2.3)則稱為連續(xù)型隨機(jī)變量,稱為分布密度函數(shù),簡稱為密度函數(shù)或分布密度。一個元函數(shù)能作為中某個隨機(jī)向量的密度函數(shù)的主要條件是:(1),;(2)離散型隨機(jī)向量的統(tǒng)計性質(zhì)可由它的概率分布完全確定,連續(xù)型隨機(jī)向量的統(tǒng)計性質(zhì)可由它的分布密度完全確定?!纠?.1】 試證函數(shù) 為隨機(jī)向量密度函數(shù)。證:只要驗證滿足密度函數(shù)兩個條件即可 (1)顯然,當(dāng)時有 (2)定義2.4 設(shè)是維隨機(jī)向量,稱由

16、它的個分量組成的子向量的分布為的邊緣(或邊際)分布,相對地把的分布稱為聯(lián)合分布。通過變換中各分量的次序,總可假定正好是的前個分量,其余個分量為,則,相應(yīng)的取值也可分為兩部分。當(dāng)?shù)姆植己瘮?shù)是時,的分布函數(shù)即邊緣分布函數(shù)為: 當(dāng)有分布密度時(亦稱聯(lián)合分布密度函數(shù)),則也有分布密度,即邊緣密度函數(shù)為:【例2.2】對例2.1中的求邊緣密度函數(shù)。解: 同理定義2.5 若個隨機(jī)變量的聯(lián)合分布等于各自的邊緣分布的乘積,則稱是相互獨立的。【例2.3】 問例2.2中的與是否相互獨立? 解: 由于,故與相互獨立。這里我們應(yīng)該注意,由相互獨立,可推知任何與獨立,但反之不真。定義2.6 設(shè),若存在且有限,則稱為的均值

17、(向量)或數(shù)學(xué)期望,有時也把和分別記為和,即,容易推得均值(向量)具有以下性質(zhì):(1)(2)(3)其中,、為隨機(jī)向量,、為大小適合運算的常數(shù)矩陣。定義2.7 設(shè),稱(2.4)為的方差或協(xié)差陣,有時把簡記為,簡記為,從而有;稱隨機(jī)向量和的協(xié)差陣為(2.5)當(dāng)時,即為。若,則稱和不相關(guān),由和相互獨立易推得,即和不相關(guān);但反過來,當(dāng)和不相關(guān)時,一般不能推知它們獨立。當(dāng)、為常數(shù)矩陣時,由定義可以推出協(xié)方差陣有如下性質(zhì):(1)對于常數(shù)向量,有(2)(3)(4)設(shè)為維隨機(jī)向量,期望和協(xié)方差存在,記,為常數(shù)陣,則 這里我們應(yīng)該注意到,對于任何的隨機(jī)向量來說,其協(xié)差陣都是對稱陣,同時總是非負(fù)定(半正定)的。大

18、多數(shù)情況是正定的。若的協(xié)差陣存在,且每個分量的方差大于零,則稱隨機(jī)向量的相關(guān)陣為,其中 (2.6)為與的相關(guān)系數(shù)。在數(shù)據(jù)處理時,為了克服由于指標(biāo)的量綱不同對統(tǒng)計分析結(jié)果帶來的影響,往往在使用各種統(tǒng)計分析之前,常需要將每個指標(biāo)“標(biāo)準(zhǔn)化”,即進(jìn)行如下變換, (2.7)那么由(2.7)構(gòu)成的隨機(jī)向量。令,有:那么,標(biāo)準(zhǔn)化后的隨機(jī)向量均值和協(xié)差陣分別為 即標(biāo)準(zhǔn)化數(shù)據(jù)的協(xié)差陣正好是原指標(biāo)的相關(guān)陣。第三節(jié) 多元正態(tài)分布一、多元正態(tài)分布的定義我們先來回顧一元正態(tài)分布的密度函數(shù),即為上式可以改寫為(2.8)由于(2.8)式中的,均為一維的數(shù)字,可以用代表的轉(zhuǎn)置。根據(jù)上面的表述形式,我們可以將其推廣,給出多元正

19、態(tài)分布的定義。定義2.8 若維隨機(jī)向量的密度函數(shù)為: (2.9)其中,是維隨機(jī)向量,是階正定陣,則稱服從元正態(tài)分布,也稱為維正態(tài)隨機(jī)向量,簡記為,顯然當(dāng)時,即為一元正態(tài)分布密度函數(shù)。可以證明為的均值(向量),為的協(xié)差陣。這里我們應(yīng)該提及的是,當(dāng)時,不存在,也就不存在通常意義下的密度函數(shù),然而可以形式的給出一個表達(dá)式,是的有些問題可以利用這一形式對及的情況給出一個統(tǒng)一的處理。當(dāng)時,設(shè)服從二元正態(tài)分布,則,這里,分別是與的方差,是與的相關(guān)系數(shù)。即有故與的密度函數(shù)為對于,那么與是相互獨立的;若,則與趨于正相關(guān);若,則與趨于負(fù)相關(guān)。定理2.1 設(shè),則有,。關(guān)于這個定理的證明可以參考文獻(xiàn)1,該定理將多元

20、正態(tài)分布的參數(shù)和賦予了明確的統(tǒng)計意義。這里我們需要明確的是,多元正態(tài)分布的定義不止是一種,更廣泛的可以采用特征函數(shù)來定義,也可以用一切線性組合均為正態(tài)的性質(zhì)來定義。二、多元正態(tài)分布的性質(zhì) 在討論多元統(tǒng)計分析的理論和方法時,經(jīng)常用到多元正態(tài)變量的某些性質(zhì),利用這些性質(zhì)可使得正態(tài)分布的處理變得容易一些。1若,是對角陣,則相互獨立。2若,為階常數(shù)陣,為維常數(shù)向量,則 即正態(tài)隨機(jī)向量的線性函數(shù)還是正態(tài)的。3若,將,作如下剖分 則,。這里需要指出的是:第一,多元正態(tài)分布的任何邊緣分布為正態(tài)分布,但反之不真。第二,由于,故表示和不相關(guān),因此可知,對于多元正態(tài)變量而言,和的不相關(guān)與獨立是等價的。【例2.4】

21、 若其中, 設(shè) ,則(1) 其中 (2) 其中 (3) 記 則 其中 在此我們應(yīng)該注意到,如果服從元正態(tài)分布,則它的每個分量必服從一元正態(tài)分布,因此把某個分量的個樣品值作成直方圖,如果斷定不呈正態(tài)分布,則就可以斷定隨機(jī)向量也不可能服從元正態(tài)分布。第四節(jié) 多元正態(tài)分布的參數(shù)估計 一、多元樣本的數(shù)字特征 設(shè)樣本資料可用矩陣表示為在這里我們給出樣本均值向量、樣本離差陣、樣本協(xié)差陣以及樣本相關(guān)陣的定義。定義2.9 設(shè)為來自元總體的樣本,其中,。(1) 樣本均值向量定義為其中(2)樣本離差陣定義為 (2.11)這里, (3)樣本協(xié)差陣定義為 (2.12)這里,(4)樣本相關(guān)陣定義為 (2.13) 其中在

22、此,我們應(yīng)該提及的是,樣本均值向量和離差陣也可用樣本資料陣直接表示如下: 其中 由于 那么,(2.11)式可以表示為: (2.14)其中 二、均值向量與協(xié)差陣的最大似然估計 多元正態(tài)分布有兩組參數(shù),均值和協(xié)差陣,在許多問題中它們是未知的,需要通過樣本來估計。那么,通過樣本來估計總體的參數(shù)叫做參數(shù)估計,參數(shù)估計的原則和方法是很多的,這里用最常見的且具有很多優(yōu)良性質(zhì)的最大似然法給出和的估計量。設(shè)來自正態(tài)總體容量為的樣本,每個樣品,樣本資料陣為(2.1)式表示,即 則可由最大似然法求出和的估計量,即有 , (2.15)實際上,最大似然法求估計量可以這樣得到。針對來自正態(tài)總體容量為的樣本,構(gòu)造似然函數(shù)

23、,即 (2.16)為了求出使(2.16)式取極值的和的值,將(2.16)兩邊取對數(shù),即 (2.17)因為對數(shù)函數(shù)是一個嚴(yán)格單調(diào)增函數(shù),所以可以通過對的極大值而得到和的估計量。這里我們要注意到,根據(jù)矩陣代數(shù)理論,對于實對稱矩陣,有,。那么,針對對數(shù)似然函數(shù)(2.17)分別對和求偏導(dǎo)數(shù),則有(2.18)由(2.18)式可以得到極大似然估計量分別為由此可見,多元正態(tài)總體的均值向量的極大似然估計量就是樣本均值向量,其協(xié)差陣的極大似然估計就是樣本協(xié)差陣。和的估計量有如下基本性質(zhì):1,即是的無偏估計; ,即不是的無偏估計,而,即是的無偏估計;2,分別是,的有效估計;3,(或)分別是,的一致估計(相合估計)

24、。樣本均值向量和樣本離差陣在多元統(tǒng)計推斷中具有十分重要的作用,并有如下結(jié)論:定理2.2 設(shè)和分別是正態(tài)總體的樣本均值向量和離差陣,則1;2離差陣可以寫為 其中,獨立同分布于;3和相互獨立;4為正定陣的充要條件是。三、wishart分布在實際應(yīng)用中,常采用和來估計和,前面已指出,均值向量的分布仍為正態(tài)分布,而離差陣的分布又是什么呢?為此給出維希特(wishart)分布,并指出它是一元分布的推廣,也是構(gòu)成其它重要分布的基礎(chǔ)。wishart分布是wishart在1928年推導(dǎo)出來的,而該分布的名稱也即由此得來。定義2.10 設(shè),且相互獨立,則由組成的隨機(jī)矩陣: (2.19)的分布稱為非中心wisha

25、rt分布,記為。其中,稱為非中心參數(shù);當(dāng)時稱為中心wishart分布,記為,當(dāng),有密度存在,其表達(dá)式為: (2.20)顯然,當(dāng),時,就是的分布密度,此時(2.19)式為,有。因此,wishart分布是分布在維正態(tài)情況下的推廣。下面給出wishart分布的基本性質(zhì):若,且相互獨立,則樣本離差陣,其中。2若,且相互獨立,則。3若,為非奇異陣,則。這里我們有必要說明一下什么是隨機(jī)矩陣的分布。隨機(jī)矩陣的分布有不同的定義,此處是利用已知向量分布的定義給出矩陣分布的定義。這里我們有必要說明一下什么是隨機(jī)矩陣的分布。隨機(jī)矩陣的分布有不同的定義,此處是利用已知向量分布的定義給出矩陣分布的定義。設(shè)隨機(jī)矩陣 將該

26、矩陣的列向量(或行向量)一個接一個地連接起來,組成一個長的向量,即拉直向量:的分布定義為該陣的分布。若為對稱陣時,由于,故只取其下三角部分組成的拉直向量,即。.第三章 多元正態(tài)分布均值向量和協(xié)差陣的檢驗第一節(jié) 引言 在單一變量的統(tǒng)計分析中,已經(jīng)給出了正態(tài)總體n( m, s2) 的均值m和方差s2的各種檢驗。對于多變量的正態(tài)總體np( m, ) ,各種實際問題同樣要求對m和進(jìn)行統(tǒng)計推斷。例如,我們要考察全國各省、自治區(qū)和直轄市的社會經(jīng)濟(jì)發(fā)展?fàn)顩r,與全國平均水平相比較有無顯著性差異等,就涉及到多元正態(tài)總體均值向量的檢驗問題等。本章類似單一變量統(tǒng)計分析中的各種均值和方差的檢驗,相應(yīng)地給出多元統(tǒng)計分析

27、中的各種均值向量和協(xié)差陣的檢驗。 其基本思想和步驟均可歸納為: 第一,提出待檢驗的假設(shè)h0和h1;第二,給出檢驗的統(tǒng)計量及其服從的分布;第三,給定檢驗水平,查統(tǒng)計量的分布表,確定相應(yīng)的臨界值,從而得到否定域;第四,根據(jù)樣本觀測值計算出統(tǒng)計量的值,看是否落入否定域中,以便對待判假設(shè)做出決策(拒絕或接受)。在檢驗的過程中,關(guān)鍵在于對不同的檢驗給出不同的統(tǒng)計量,而有關(guān)統(tǒng)計量的給出大多用似然比方法得到。由于多變量問題的復(fù)雜性,本章只側(cè)重于解釋選取統(tǒng)計量的合理性,而不給出推導(dǎo)過程,最后給出幾個實例。為了更好的說明檢驗過程中統(tǒng)計量的分布,本章還要介紹hotellingt2分布和wilks分布的定義。第二節(jié)

28、 均值向量的檢驗 一、單一變量檢驗的回顧及hotellingt2分布為了對多元正態(tài)總體均值向量作檢驗,首先需要給出hotellingt2分布的定義。在單一變量的檢驗問題中,設(shè)來自總體的樣本,我們要檢驗假設(shè)當(dāng)已知時,用統(tǒng)計量 (3.1)其中,為樣本均值。當(dāng)假設(shè)成立時,統(tǒng)計量服從正態(tài)分布,從而否定域為,為的上分位點。當(dāng)未知時,用 (3.2)作為的估計量,用統(tǒng)計量: (3.3)來做檢驗。當(dāng)假設(shè)成立時,統(tǒng)計量服從自由度為的分布,從而否定域為,為自由度為的分布上的分位點。 這里我們應(yīng)該注意到,(3.3)式可以表示為 (3.4)對于多元變量而言,可以將分布推廣為下面將要介紹的hotelling分布。定義3

29、.1 設(shè),且與相互獨立,則稱統(tǒng)計量的分布為非中心hotellingt2分布,記為。當(dāng)時,稱服從(中心)hotelling分布。記為。由于這一統(tǒng)計量的分布首先由harold hotelling 提出來的,故稱為hotelling分布,值得指出的是,我國著名統(tǒng)計學(xué)家許寶祿先生在1938年用不同方法也導(dǎo)出分布的密度函數(shù),因表達(dá)式很復(fù)雜,故略去。在單一變量統(tǒng)計分析中,若統(tǒng)計量分布,則分布,即把分布的統(tǒng)計量轉(zhuǎn)化為統(tǒng)計量來處理,在多元統(tǒng)計分析中統(tǒng)計量也具有類似的性質(zhì)。定理3.1 若,且與相互獨立,令,則 (3.5)在我們后面所介紹的檢驗問題中,經(jīng)常會用到這一性質(zhì)。設(shè)是來自維正態(tài)總體的樣本,且,。(一) 協(xié)

30、差陣已知時均值向量的檢驗(為已知向量)假設(shè)成立,檢驗統(tǒng)計量為 (3.6)給定檢驗水平,查分布表使,可確定出臨界值,再用樣本值計算出,若,則否定,否則接受。這里要對統(tǒng)計量的選取做一些解釋,為什么該統(tǒng)計量服從分布。根據(jù)二次型分布定理知道,若,則。顯然,其中,因此,(二)協(xié)差陣未知時均值向量的檢驗(為已知向量)假設(shè)成立,檢驗統(tǒng)計量為 (3.7)其中,給定檢驗水平,查分布表,使,可確定出臨界值,再用樣本值計算出,若,則否定,否則接受。這里需要解釋的是,當(dāng)未知時,自然想到要用樣本協(xié)差陣取代替,因是的無偏估計量,而樣本離差陣 由定義3.1知 再根據(jù)hotelling 分布的性質(zhì),所以 在處理實際問題時,單

31、一變量的檢驗和多變量檢驗可以聯(lián)合使用,多元的檢驗具有概括和全面考察的特點,而一元的檢驗容易發(fā)現(xiàn)各變量之間的關(guān)系和差異,能給人們提供更多的統(tǒng)計分析信息。三、兩個正態(tài)總體均值向量的檢驗(一)當(dāng)協(xié)差陣相等時,兩個正態(tài)總體均值向量的檢驗設(shè),為來自維正態(tài)總體的容量為的樣本;,為來自維正態(tài)總體的容量為的樣本。兩組樣本相互獨立,且,。1針對有共同已知協(xié)差陣的情形對假設(shè) 進(jìn)行檢驗。對此問題,假設(shè)成立時,所構(gòu)造的檢驗統(tǒng)計量為 (3.8)給出檢驗水平,查分布表使,可確定出臨界值,再用樣本值計算出,若,則否定,否則接受。這里,我們應(yīng)該注意到,在單一變量統(tǒng)計中進(jìn)行均值相等檢驗所給出的統(tǒng)計量為 顯然此式恰為上邊統(tǒng)計量當(dāng)

32、時的情況,不難看出這里給出的檢驗統(tǒng)計量是單一變量檢驗情況的推廣。2針對有共同的未知協(xié)差陣的情形對假設(shè) 進(jìn)行檢驗。對此問題,假設(shè)成立時,所構(gòu)造的檢驗統(tǒng)計量為 (3.9)其中, , , 給定檢驗水平,查分布表,使,可確定出臨界值,再用樣本值計算出,若,則否定,否則接受。這里我們需要解釋的是,當(dāng)兩個總體的協(xié)差陣未知時,自然想到用每個總體的樣本協(xié)差陣和去代替,而 從而。又由于 所以 下述假設(shè)檢驗統(tǒng)計量的選取和前邊統(tǒng)計量的選取思路是一樣的,以下只提出待檢驗的假設(shè),然后給出統(tǒng)計量及其分布,為節(jié)省篇幅,不做重復(fù)解釋。(二)協(xié)差陣不等時,兩個正態(tài)總體均值向量的檢驗設(shè)從兩個總體和中,分別抽取兩個樣本,即,;,其

33、容量分別為和,且兩組樣本相互獨立,。對假設(shè) 進(jìn)行檢驗。1針對的情形令 假設(shè)成立時,構(gòu)造檢驗統(tǒng)計量為 (3.10) 2針對的情形 在此,我們不妨假設(shè),令 假設(shè)成立時,構(gòu)造檢驗統(tǒng)計量為 四、多個正態(tài)總體均值向量的檢驗解決多個正態(tài)總體均值向量的檢驗問題,實際上應(yīng)用到多元方差分析的知識。多元方差分析是單因素方差分析直接的推廣。為了容易理解多元方差分析方法,我們有必要先回顧單因素方差分析方法。(一)單因素方差分析的基本思想及wilks分布設(shè)個正態(tài)總體分別為,從個總體取個獨立樣本如下: 假設(shè)成立時,構(gòu)造檢驗統(tǒng)計量為 (3.11) 這里稱為組間平方和; 稱為組內(nèi)平方和;稱為總平方和。其中 給定檢驗水平,查分

34、布表,使,可確定出臨界值,再用樣本值計算出值,若,則否定,否則接受。定義3.2 若,則稱協(xié)差陣的行列式為的廣義方差。稱為樣本廣義方差。其中。定義3.3 若,且和相互獨立,則稱 為wilks統(tǒng)計量,的分布稱為wilks分布,簡記為,其中為自由度。這里我們需要說明的是,在實際應(yīng)用中經(jīng)常把統(tǒng)計量化為統(tǒng)計量進(jìn)而化為統(tǒng)計量,利用統(tǒng)計量來解決多元統(tǒng)計分析中有關(guān)檢驗問題。表3.1列舉常見的一些情形。表3.1 與統(tǒng)計量的關(guān)系統(tǒng)計量及分別任意任意1任意任意21任意任意2任意任意以上幾個關(guān)系式說明對一些特殊的統(tǒng)計量可以化為統(tǒng)計量,而當(dāng),時,可用統(tǒng)計量或統(tǒng)計量來近似表示,后面給出。(二)多元方差分析法設(shè)有個維正態(tài)總

35、體,從每個總體抽取獨立樣本個數(shù)分別為,每個樣品觀測個指標(biāo)得觀測數(shù)據(jù)如下: 第一個總體: ,第二個總體: , 第個總體: ,全部樣品的總均值向量: 各總體樣品的均值向量: ,此處 類似一元方差分析辦法,將諸平方和變成了離差陣即: 這里,我們稱為組間離差陣;為組內(nèi)離差陣;為總離差陣。很顯然有 。我們的問題是檢驗假設(shè) 用似然比原則構(gòu)成的檢驗統(tǒng)計量為 (3.13)給定檢驗水平,查wilks分布表,確定臨界值,然后作出統(tǒng)計判斷。在這里我們特別要注意,wilks分布表可用分布或分布來近似。巴特萊特(bartlett)提出了用分布來近似。設(shè),令 (3.14)則近似服從分布。其中,。rao后來又研究用分布來近

36、似。設(shè),令 (3.15)則近似服從,這里不一定為整數(shù),可用與它最近的整數(shù)來作為的自由度,且。其中, 第三節(jié) 協(xié)差陣的檢驗 一、一個正態(tài)總體協(xié)差陣的檢驗設(shè)來自維正態(tài)總體的樣本,未知,且。首先,我們考慮檢驗假設(shè) 所構(gòu)造的檢驗統(tǒng)計量為 (3.16)其中 然后,我們考慮檢驗假設(shè) 因為,所以存在(),使得。令 則 因此,檢驗等價于檢驗此時構(gòu)造檢驗統(tǒng)計量為 (3.17)其中 給定檢驗水平,因為直接由分布計算臨界值很困難,所以通常采用的近似分布。在成立時,極限分布是分布。因此當(dāng),由樣本值計算出值,若即,則拒絕,否則接受。設(shè)有個正態(tài)總體分別為,且未知,。從個總體分別取個樣本 ;這里為總樣本容量。我們考慮檢驗假

37、設(shè) 構(gòu)造檢驗統(tǒng)計量為 (3.18)其中 巴特萊特(bartlett)建議 ,將改為,從而變?yōu)?,變換以后的記為,稱為修正的統(tǒng)計量,則近似分布。 其中 第四章 判別分析第一節(jié) 引言在我們的日常生活和工作實踐中,常常會遇到判別分析問題,即根據(jù)歷史上劃分類別的有關(guān)資料和某種最優(yōu)準(zhǔn)則,確定一種判別方法,判定一個新的樣本歸屬哪一類。例如,某醫(yī)院有部分患有肺炎、肝炎、冠心病、糖尿病等病人的資料,記錄了每個患者若干項癥狀指標(biāo)數(shù)據(jù)。現(xiàn)在想利用現(xiàn)有的這些資料找出一種方法,使得對于一個新的病人,當(dāng)測得這些癥狀指標(biāo)數(shù)據(jù)時,能夠判定其患有哪種病。又如,在天氣預(yù)報中,我們有一段較長時間關(guān)于某地區(qū)每天氣象的記錄資料(晴陰雨

38、、氣溫、氣壓、濕度等),現(xiàn)在想建立一種用連續(xù)五天的氣象資料來預(yù)報第六天是什么天氣的方法。這些問題都可以應(yīng)用判別分析方法予以解決。把這類問題用數(shù)學(xué)語言來表達(dá),可以敘述如下:設(shè)有n個樣本,對每個樣本測得p項指標(biāo)(變量)的數(shù)據(jù),已知每個樣本屬于k個類別(或總體)g1,g2, ,gk中的某一類,且它們的分布函數(shù)分別為f1(x),f2(x), ,fk(x)。我們希望利用這些數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能地區(qū)別開來,并對測得同樣p項指標(biāo)(變量)數(shù)據(jù)的一個新樣本,能判定這個樣本歸屬于哪一類。判別分析內(nèi)容很豐富,方法很多。判斷分析按判別的總體數(shù)來區(qū)分,有兩

39、個總體判別分析和多總體判別分析;按區(qū)分不同總體所用的數(shù)學(xué)模型來分,有線性判別和非線性判別;按判別時所處理的變量方法不同,有逐步判別和序貫判別等。判別分析可以從不同角度提出問題,因此有不同的判別準(zhǔn)則,如馬氏距離最小準(zhǔn)則、fisher準(zhǔn)則、平均損失最小準(zhǔn)則、最小平方準(zhǔn)則、最大似然準(zhǔn)則、最大概率準(zhǔn)則等等,按判別準(zhǔn)則的不同又提出多種判別方法。本章僅介紹常用的幾種判別分析方法:距離判別法、fisher判別法、bayes判別法和逐步判別法。第二節(jié) 距離判別法一、馬氏距離的概念設(shè)維歐氏空間中的兩點和,通常我們所說的兩點之間的距離,是指歐氏距離,即 (4.1)在解決實際問題時,特別是針對多元數(shù)據(jù)的分析問題,歐

40、氏距離就顯示出了它的薄弱環(huán)節(jié)。第一、設(shè)有兩個正態(tài)總體,和,現(xiàn)有一個樣品位于如圖4.1所示的點,距總體的中心遠(yuǎn),距總體的中心遠(yuǎn),那么,點處的樣品到底離哪一個總體近呢?若按歐氏距離來量度,點離總體要比離總體 “近一些”。但是,從概率的角度看,點位于右側(cè)的處,而位于左側(cè)處,應(yīng)該認(rèn)為點離總體“近一些”。顯然,后一種量度更合理些。第二、設(shè)有量度重量和長度的兩個變量與,以單位分別為kg和cm得到樣本,。今按照歐氏距離計算,有; 如果我們將長度單位變?yōu)閙m,那么,有; 量綱的變化,將影響歐氏距離計算的結(jié)果。為此,我們引入一種由印度著名統(tǒng)計學(xué)家馬哈拉諾比斯(mahalanobis, 1936)提出的“馬氏距離

41、”的概念。設(shè)和是來自均值向量為,協(xié)方差為的總體中的維樣本,則總體內(nèi)兩點與之間的馬氏距離定義為 (4.2) 定義點到總體的馬氏距離為 (4.3) 這里應(yīng)該注意到,當(dāng)(單位矩陣)時,即為歐氏距離的情形。二、距離判別的思想及方法1、兩個總體的距離判別問題問題:設(shè)有協(xié)方差矩陣相等的兩個總體g1和g2,其均值分別是m1和m 2,對于一個新的樣品x,要判斷它來自哪個總體。一般的想法是計算新樣品x到兩個總體的馬氏距離d2(x,g1)和d2(x,g2),并按照如下的判別規(guī)則進(jìn)行判斷 (4.4)這個判別規(guī)則的等價描述為:求新樣品x到g1的距離與到g2的距離之差,如果其值為正,x屬于g2;否則x屬于g1。 我們考

42、慮 其中是兩個總體均值的平均值,記 (4.5)則判別規(guī)則(4.4)式可表示為 (4.6)這里稱為兩總體距離判別的判別函數(shù),由于它是的線性函數(shù),故又稱為線性判別函數(shù),稱為判別系數(shù)。在實際應(yīng)用中,總體的均值和協(xié)方差矩陣一般是未知的,可由樣本均值和樣本協(xié)方差矩陣分別進(jìn)行估計。設(shè)來自總體的樣本,是來自總體的樣本,和的一個無偏估計分別為 和 的一個聯(lián)合無偏估計為 這里 此時,兩總體距離判別的判別函數(shù)為 其中,。這樣,判別規(guī)則為 (4.7)n 這里我們應(yīng)該注意到:(1) 當(dāng),和的分布分別為和時,均為已知,且,則判別系數(shù)為,判別函數(shù)為判別規(guī)則為(2) 當(dāng),時,我們采用(4.4)式作為判別規(guī)則的形式。選擇判別

43、函數(shù)為它是的二次函數(shù),相應(yīng)的判別規(guī)則為2、多個總體的距離判別問題問題:設(shè)有個總體,其均值和協(xié)方差矩陣分別是和,而且。對于一個新的樣品,要判斷它來自哪個總體。該問題與兩個總體的距離判別問題的解決思想一樣。計算新樣品到每一個總體的距離,即 4.8)這里,。由(4.8)式,可以取線性判別函數(shù)為, 相應(yīng)的判別規(guī)則為 如果 (4.9)針對實際問題,當(dāng)和均未知時,可以通過相應(yīng)的樣本值來替代。設(shè)是來自總體中的樣本(),則()和可估計為, 和 , 其中 同樣,我們注意到,如果總體的協(xié)方差矩陣分別是,而且它們不全相等,則計算到各總體的馬氏距離,即 則判別規(guī)則為 如果 (4.10)當(dāng)和均未知時,()的估計同前,(

44、)的估計為, 三、判別分析的實質(zhì)我們知道,判別分析就是希望利用已經(jīng)測得的變量數(shù)據(jù),找出一種判別函數(shù),使得這一函數(shù)具有某種最優(yōu)性質(zhì),能把屬于不同類別的樣本點盡可能地區(qū)別開來。為了更清楚的認(rèn)識判別分析的實質(zhì),以便能靈活的應(yīng)用判別分析方法解決實際問題,我們有必要了解“劃分”這樣概念。設(shè)r1,r2,rk是p維空間r p的k個子集,如果它們互不相交,且它們的和集為r p,則稱r1,r2, ,rk為r p的一個劃分。在兩個總體的距離判別問題中,利用可以得到空間的一個劃分 (4.11)新的樣品落入推斷,落入推斷這樣我們將會發(fā)現(xiàn),判別分析問題實質(zhì)上就是在某種意義上,以最優(yōu)的性質(zhì)對p維空間r p構(gòu)造一個“劃分”

45、,這個“劃分”就構(gòu)成了一個判別規(guī)則。這一思想將在后面的各節(jié)中體現(xiàn)的更加清楚。 第三節(jié) 貝葉斯(bayes)判別法從上節(jié)看距離判別法雖然簡單,便于使用。但是該方法也有它明顯的不足之處。第一,判別方法與總體各自出現(xiàn)的概率的大小無關(guān);第二,判別方法與錯判之后所造成的損失無關(guān)。bayes判別法就是為了解決這些問題而提出的一種判別方法。一、bayes判別的基本思想問題:設(shè)有個總體,其各自的分布密度函數(shù)互不相同的,假設(shè)個總體各自出現(xiàn)的概率分別為(先驗概率),。假設(shè)已知若將本來屬于總體的樣品錯判到總體時造成的損失為,。在這樣的情形下,對于新的樣品判斷其來自哪個總體。下面我們對這一問題進(jìn)行分析。首先應(yīng)該清楚、

46、,對于任意的成立。設(shè)個總體相應(yīng)的維樣本空間為 ,即為一個劃分,故我們可以簡記一個判別規(guī)則為。從描述平均損失的角度出發(fā),如果原來屬于總體且分布密度為的樣品,正好取值落入了,我們就將會錯判為屬于。故在規(guī)則下,將屬于的樣品錯判為的概率為 如果實屬的樣品,錯判到其它總體所造成的損失為,則這種判別規(guī)則對總體而言,樣品錯判后所造成的平均損失為 其中由于個總體出現(xiàn)的先驗概率分別為,則用規(guī)則來進(jìn)行判別所造成的總平均損失為 (4.12)所謂bayes判別法則,就是要選擇,使得(4.12)式表示的總平均損失達(dá)到極小。二、bayes判別的基本方法設(shè)每一個總體的分布密度為,來自總體的樣品被錯判為來自總體()時所造成的

47、損失記為,并且。那么,對于判別規(guī)則產(chǎn)生的誤判概率記為,有如果已知樣品x來自總體gi 的先驗概率為qi,則在規(guī)則r下,由(4.12)式知,誤判的總平均損失為 (4.13)令,那么,(4.13)式為 如果空間有另一種劃分,則它的總平均損失為那么,在兩種劃分下的總平均損失之差為 (4.14) 由的定義,在上對一切成立,故(4.14)式小于或等于零,這說明確能使總平均損失達(dá)到極小,它是bayes判別的解。這樣,我們以bayes判別的思想得到的劃分為 (4.15)具體說來,當(dāng)抽取了一個未知總體的樣本值,要判斷它屬于哪個總體,只要前計算出個按先驗分布加權(quán)的誤判平均損失 (4.16)然后比較這個誤判平均損失

48、的大小,選取其中最小的,則判定樣品來自該總體。這里我們看一個特殊情形,當(dāng)時,由(4.16)式得 從而 若令 , 則判別規(guī)則可表示為 (4.17)如果在此,與分別為和,那么其中由(4.5)所定義。于是,判定樣品來自該總體時,判別規(guī)則(4.17)成 (4.18)對比判別規(guī)則(4.6),唯一的差別僅在于閾值點,(4.6)用0作為閾值點,而這里用。當(dāng),時,則(4.6)與(4.18)完全一致。第四節(jié) 費歇(fisher)判別法fisher判別法是1936年提出來的,該方法的主要思想是通過將多維數(shù)據(jù)投影到某個方向上,投影的原則是將總體與總體之間盡可能的放開,然后再選擇合適的判別規(guī)則,將新的樣品進(jìn)行分類判別

49、。一、fisher判別的基本思想從個總體中抽取具有個指標(biāo)的樣品觀測數(shù)據(jù),借助方差分析的思想構(gòu)造一個線性判別函數(shù) (4.19)其中系數(shù)確定的原則是使得總體之間區(qū)別最大,而使每個總體內(nèi)部的離差最小。有了線性判別函數(shù)后,對于一個新的樣品,將它的個指標(biāo)值代入線性判別函數(shù)(4.19)式中求出值,然后根據(jù)判別一定的規(guī)則,就可以判別新的樣品屬于哪個總體。二、fisher判別函數(shù)的構(gòu)造1、針對兩個總體的情形假設(shè)有兩個總體,其均值分別為和,協(xié)方差矩陣為和。當(dāng)時,我們可以求出的均值和方差,即, , 在求線性判別函數(shù)時,盡量使得總體之間差異大,也就是要求盡可能的大,即變大;同時要求每一個總體內(nèi)的離差平方和最小,即,

50、則我們可以建立一個目標(biāo)函數(shù) (4.20)這樣,將問題轉(zhuǎn)化為,尋找使得目標(biāo)函數(shù)達(dá)到最大。從而可以構(gòu)造出所要求的線性判別函數(shù)。2、針對多個總體的情形假設(shè)有個總體,其均值和協(xié)方差矩陣分別為和()。同樣,我們考慮線性判別函數(shù),在的條件下,有 令 其中,。這里相當(dāng)于一元方差分析中的組間差相當(dāng)于組內(nèi)差,應(yīng)用方差分析的思想,選擇使得目標(biāo)函數(shù)(4.21)達(dá)到極大。這里我們應(yīng)該說明的是,如果我們得到線性判別函數(shù),對于一個新的樣品可以這樣構(gòu)造一個判別規(guī)則,如果(4.22)則判定來自總體。三、線性判別函數(shù)的求法針對多個總體的情形,我們討論使目標(biāo)函數(shù)(4.21)式達(dá)到極大的求法。設(shè)為維空間的樣品,那么 其中 注意到

51、從而 這里, 為的單位陣,。即有 (4.23)求使得(4.23)式達(dá)到極大的。為了確保解的唯一性,不妨設(shè),這樣問題轉(zhuǎn)化為,在的條件下,求使得式達(dá)到極大??紤]目標(biāo)函數(shù) (4.24)對(4.24)式求導(dǎo),有對(4.25)式兩邊同乘,有 從而,的極大值為。再用左乘(4.25)式,有 (4.27)由(4.27)式說明為特征值,為的特征向量。在此最大特征值所對應(yīng)的特征向量為我們所求結(jié)果。這里值得注意的是,本書有幾處利用極值原理求極值時,只給出了不要條件的數(shù)學(xué)推導(dǎo),而有關(guān)充分條件的論證省略了,因為在實際問題中,往往根據(jù)問題本身的性質(zhì)就能肯定有最大值(或最小值),如果所求的駐點只有一個,這時就不需要根據(jù)極值存在的充分條件判定它是極大還是極小而就能肯定這唯一的駐點就是所求的最大值(或最小值)。為了避免用較多的數(shù)學(xué)知識或數(shù)學(xué)上的推導(dǎo),這里不追求數(shù)學(xué)上的完整性。在解決實際問題時,當(dāng)總體參數(shù)未知,需要通過樣本來估計,我們僅對的情形加以說明。設(shè)樣本分別為和,則 那么 當(dāng)和均未知時,()的估計同前,()的估計為, 第五章 聚類分析第一節(jié) 引言“物以類聚,人以群分”。對事物進(jìn)行分類,是人們認(rèn)識事物的出發(fā)點,也是人們認(rèn)識世界的一種重要方法。因此,分類學(xué)已成為人們認(rèn)識世界的一門基礎(chǔ)科學(xué)。在生物、經(jīng)濟(jì)、社會、人口等領(lǐng)域的研究中,存在著大量量化分類研究。例如:在生物學(xué)中,為了研究生物的演變,生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論