版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第十二章非參數(shù)判別分析與非參數(shù)聚類第一節(jié)非參數(shù)判別分析一、引言關(guān)于判別分析的一般概念我們?cè)诙嘣y(tǒng)計(jì)分析中已經(jīng)詳細(xì)的討論,在那里我們采用了距離判別、貝葉斯判別和典型判別法。這些判別法都需要估計(jì)總體的參數(shù),而貝葉斯判別時(shí), 我們還指定了總體服從正態(tài)分布。在非參數(shù)統(tǒng)計(jì)中,不對(duì)變量的分布做任何假設(shè),這里主要有兩種方法,BAYES方法和近鄰方法進(jìn)行非參數(shù)判別分析。設(shè)有M個(gè)類,用Y記一具體的對(duì)象所屬的類,Y可能的取值為1,2/ ,M。設(shè)有了 n個(gè)經(jīng)過(guò)明確判定的樣本,第i個(gè)樣本的指標(biāo)為Xi,所屬的類為,(i=1,2,,n),n個(gè)樣本記Zn =Xi M ) (X 2, 丫2廠,(X n,Yn ),常稱為“訓(xùn)練
2、樣本”這一名稱的來(lái)由使因?yàn)槿蘸筮M(jìn) 行的判別工作依賴,因此可以說(shuō)它們“訓(xùn)練了”人們?nèi)绾稳∵M(jìn)行判別。非參數(shù)方法是基于組概率密度函數(shù)的非參數(shù)估計(jì)。每組的非參數(shù)密度估計(jì)核產(chǎn)生的分類準(zhǔn)則采用核方法或 k最近鄰方法。馬氏距離或歐氏距離用來(lái)確定樣品的接近程度。二、核方法1、Bayes方法概念設(shè)有M個(gè)總體Gi,Gm分別具有概率分布密度f(wàn)i(X),fM (x),出現(xiàn)M個(gè)總體的先驗(yàn)概率分別為,,Pm, Pi 20, PiPm = 1 貝葉斯判別的規(guī)則將樣品判給P(Gk|x0)Pkfk(Xo)最大的類,即龍 Pjfj(Xo)如果 pi fi (x max Pj f j(x),判 丫乏 Gi2、Bayes方法和密度函
3、數(shù)估計(jì)的聯(lián)系1 / 10在非參數(shù)判別中,通常fj(x), j =1,2,3,M完全未知,有時(shí) P!,Pk未知。一個(gè)直觀的想法是直接估計(jì)fj(x), j =1,2,3/ ,M和pi / , Pm,然后將得到的估計(jì)代入判別規(guī)則中進(jìn)行計(jì)算。具體的步驟是:如果已知某事物可分為M個(gè)總體:GiG2 , Gm,該事物的特性 P個(gè)指標(biāo)描述,在進(jìn)行分析之前,已觀察到在各個(gè)總體的樣本。(1)X11(1)X21a(1)NZ *x12X(22a*X1(p x?P, ,(k)X11 x2k)a(k)X12(k) X22-x(k)X1 Px(k)2paa(1)Xm1X)-%2(1)Xn1P(k)Xnk1(k)Xnk2x(
4、k)nkPK (x)為p維密度函數(shù),h為窗寬,總體Gj(j=1,2,3/ ,M)密度函數(shù)的一個(gè)核估計(jì)1 nj?(X)市 L可以表示為:K(hXi)(j =1,2,3/ ,M ) ?jh其中(j =1,2,3, ,M) , n 二 ni n2n”將估計(jì)出的先驗(yàn)概率和密度函數(shù)代入判別規(guī)則中,得到后驗(yàn)概率,進(jìn)行比較。使用該估計(jì)需要一個(gè)前提,即全部訓(xùn)練樣本是從大的總體中隨機(jī)抽樣取得的,否則便沒(méi)有意義了?,F(xiàn)設(shè)當(dāng)y=i時(shí),X的條件分布有概率密度函數(shù)f/x) (i =1,2,n) , P(Y = i) = Pj ,M.則X的邊緣分布為f(x)=7 Pifi(x)。已知X =x時(shí),(Y=i)?的條件概率為=1
5、Pi(X)二 Pi fi (x)/ f (x)判別規(guī)則為pi fI(X)二maxPj fj(X),判 x Gin ” 1njx x -Pi?(xmax-L Z K( J ),判 xGis n n jhnP y hn三、K近鄰方法1、概念記樣本Z.J Xi ,Y , X 2,Y2,,X n,Yn ,,要由樣品指標(biāo)X去判別其所屬的類Y , Y可能的取值為1,2,,M 。將Xi,X2,Xn按其與X的距離排列,如|Xr X蘭|Xr2 X蘭蘭|XRn X|, 距離相等時(shí),按足標(biāo)小的在前的原則處理。指定一個(gè)介于1到n之間的自然數(shù)k,挑出最接近X的k個(gè),即X ki ,X k2, ,X k與他們匹配的Y是Yk
6、i ,Yk2,Y。定義:以li記為Yk, ,丫匚中等于i的個(gè)數(shù)(i=12-,M)。定義判別函數(shù) -:nk(x) =、:nk(X, Zn )如下:若lj是ll2,,Im中的唯一最大者,則定義 、;nk(X)二j ;若 li,12,,Im中有若干個(gè)同時(shí)達(dá)到最大者,比方說(shuō)是lj1 ,lj2 ljc,則再按等概率在 Iji,lj2,_,ljc 中確定一個(gè)為 nk(X)。2、近鄰方法 與概率密度的最近鄰估計(jì)的關(guān)系用近鄰方法估計(jì)估計(jì)密度函數(shù)的方法是,先固定一個(gè)介于1到n之間的自然數(shù)kn,對(duì)任何X,計(jì)算|XR1 X斗Xr2 X蘭蘭|XRn X,然后fj(x), j =1,2,3,M的密度函數(shù)估計(jì)和先驗(yàn)概率的
7、估計(jì)為:打2nj Ixf |?jnjn判別規(guī)則為:lj?l?(XaX72nJ|X,判 x Gilj2n |x-乂冃等價(jià)的判別函數(shù)|芒養(yǎng)1),則判X,Gi四、SAS/DISCRIM過(guò)程中的非參數(shù)判別的選項(xiàng)非參數(shù)判別方法是基于組概率密度的非參數(shù)估計(jì)。每組的非參數(shù)密度估計(jì)和產(chǎn)生的分 類準(zhǔn)則采用核方法和 K最近鄰方法得到。馬氏和歐氏距離能夠用來(lái)確定接近的程度。采用k最近鄰方法時(shí),馬氏距離基于合并協(xié)方差陣;采用核方法時(shí),馬氏距離基于單個(gè)組那方差矩陣或合并協(xié)方差陣。實(shí)際上某個(gè)檢驗(yàn)樣品的歸類基于由訓(xùn)練集得到的估計(jì)組密度。從估計(jì)密度,x術(shù)語(yǔ)各組的喉炎概率得到評(píng)估。觀測(cè)x盼歸第t組是因?yàn)閜(t/x)最大。MET
8、HOD=NPAR 采用非參數(shù)判別方法。K =k為k最近鄰方法指定一個(gè) k值。觀測(cè)x分如一個(gè)組基于從 x的k個(gè)最勁力 得到的信息。R = r為核密度估計(jì)指定一個(gè)半徑r。注意,不能同時(shí)選用 K=選項(xiàng)與R =選項(xiàng)。KERNEL=BIWEIGHTBIW 或 EPANECHNIKOVEPA 或 TRIWEIGHTTRI 或 UNIFORMUNI 為估計(jì)組密度指定一個(gè)核密度,缺省為 KERNEL=UNIFORMUNI 。METRIC=DIAGONAL|FULL|IDENTITY為平方距離的計(jì)算指定度量。缺省為METRIC= FULL。第二節(jié)非參數(shù)聚類分析非參數(shù)聚類過(guò)程利用某種基于非參數(shù)密度估計(jì)的算法對(duì)觀測(cè)
9、得到的數(shù)據(jù)進(jìn)行分類。Sas的modeclus模塊產(chǎn)生的數(shù)據(jù)集包括密度估計(jì)和聚類的結(jié)果,一系列的統(tǒng)計(jì)量,其中包括近似的p值,以及用不同的算法,不同的光滑參數(shù)和不同的顯著性水平得到的結(jié)果。我們知道,密度最大的數(shù)是眾數(shù),及mode。非參數(shù)聚類方法,類是由概率密度函數(shù)的眾數(shù)定義的,一個(gè)類大致可以定義為概率密度函數(shù)的一個(gè)局部最大點(diǎn)附近的區(qū)域。給定一個(gè)足夠大的樣本,非參數(shù)分析方法可以不同大小,不同分散程度和形狀極不規(guī)則的類。非參數(shù)聚類分析方法對(duì)找出具有相同大小和分散程度的類效果也好。一、問(wèn)題的引入如下虛構(gòu)的數(shù)據(jù)進(jìn)行分類data a;inout x y ;cards;18 18 20 22 21 20 12
10、 23 17 12 23 25 25 2016 27 20 13 28 22 80 20 75 19 77 23 81 2655 21 64 24 72 26 70 35 75 30 78 42 18 5227 57 41 61 48 64 59 72 69 72 80 80 31 5351 69 72 81Joption ps=35 ls=78;proc plot;plot y*x/hpos=52 vaxis=0 to 80 by 20;run;9080 _70 -60 -50 .40 -30 _20 _10A10 203040K5060708090從散點(diǎn)圖上看有三類,其中,左下角的類最緊,
11、右下角的類要分散些,上邊的類拉得 很長(zhǎng),如果我們進(jìn)行系統(tǒng)聚類,很難把它們聚為一類。二、密度估計(jì)為了方便起見,可以把以觀測(cè)點(diǎn) Xi為中心的球稱為 Xi的鄰域,在Xi的鄰域內(nèi)的觀測(cè)點(diǎn) 稱為xi的近鄰點(diǎn)。Xi :第i個(gè)p維的觀測(cè)點(diǎn);d(x, y): x和y的距離;n :樣本容量;ni :在xi的鄰域內(nèi)的觀測(cè)點(diǎn)數(shù)(含 xi本身);n:在xi的鄰域內(nèi)的觀測(cè)點(diǎn)數(shù)(不含 xi本身);Ni :在X的鄰域內(nèi)的觀測(cè)的指標(biāo)集(含 K本身);N :在Xi的鄰域內(nèi)的觀測(cè)的指標(biāo)集(不含Xi本身);i : xi的近鄰的體積;f?:在Xi處的密度估計(jì)值;?一:在Xi處的交叉確認(rèn)密度估計(jì)值;Ck :被分配到類k的觀測(cè)點(diǎn)的指標(biāo)集
12、p :變量的維數(shù);Si :第I個(gè)變量的方差;ni洛的密度的估計(jì)值為:=nvj即以該點(diǎn)為中心的球內(nèi)的所含觀測(cè)個(gè)數(shù)ni與樣本容量n的比值乘以球的體積。非參數(shù)密度估計(jì)使用球均勻核,球半徑是固定的,也可以是可變的。在某點(diǎn)的密度估計(jì) 值是以該點(diǎn)為中心的球內(nèi)所含觀測(cè)值除以樣本量和球的體積。球的大小由光滑參數(shù)確定,光滑參數(shù)自定,通常要試幾個(gè)光滑參數(shù)。三、SAS的非參數(shù)聚類過(guò)程類的個(gè)數(shù)是光滑參數(shù)的函數(shù),在光滑參數(shù)增大時(shí),類的個(gè)數(shù)由減小的趨勢(shì),但不是嚴(yán) 格單調(diào)下降的。一般來(lái)說(shuō)應(yīng)該指定幾個(gè)不同的光滑參數(shù),看看類的個(gè)數(shù)的變化。SAS的MODECLUS 過(guò)程使用的聚類方法采用固定的或可變半徑的球型核進(jìn)行密度估 計(jì)相似
13、。對(duì)固定半徑鄰域,用選項(xiàng)CR =或R =指定半徑值作為歐氏距離。對(duì)可變半徑鄰域,用選項(xiàng)CK =或K =指定在球內(nèi)要求的相鄰點(diǎn)數(shù)。METHOD = n參考SAS/STAT軟件使用手冊(cè)P.681是為了指定使用哪種聚類分析方法。共有7種,0 6種。多數(shù)情況下選擇 METHOD = 1 和 METHOD = 6。1、METHOD=0最初把每個(gè)觀測(cè)當(dāng)作一個(gè)單獨(dú)的類。如果一個(gè)類中有一個(gè)觀測(cè)是另一個(gè)中某個(gè)觀測(cè)的 相鄰點(diǎn),則把兩個(gè)類合并。該方法沒(méi)有用密度估計(jì)。對(duì)固定的類半徑,這些類可以通過(guò)最短距離的樹狀圖在指定的半徑上切割。METHOD = 1。最初把每個(gè)觀測(cè)當(dāng)作一個(gè)單獨(dú)的類。對(duì)每一個(gè)觀測(cè)點(diǎn),找估計(jì)密度較 大
14、的最近的相鄰點(diǎn)。如果這樣的相鄰點(diǎn)存在,則把觀測(cè)值點(diǎn)所屬的類和指定的相鄰點(diǎn)所屬的類合并。接著考慮這樣一些觀測(cè)點(diǎn),其估計(jì)密度等于某些相鄰點(diǎn)的估計(jì)密度但不小于任何相鄰點(diǎn)的估計(jì)密度,然后合并含有這樣觀測(cè)的類: 每個(gè)類含有該觀測(cè)的一個(gè)相鄰點(diǎn), 使得在這類內(nèi)最大密度估計(jì)等于在那個(gè)觀測(cè)上的密度估計(jì); 這個(gè)類包含觀測(cè)的相鄰點(diǎn),使得這類內(nèi)的最大密度估計(jì)超過(guò)在這觀測(cè)上的密度估計(jì)。METHOD = 2。最初把每個(gè)觀測(cè)當(dāng)作一個(gè)單獨(dú)的類。對(duì)每一個(gè)觀測(cè)點(diǎn),找估計(jì)密度最大的且超過(guò)該觀測(cè)點(diǎn)其密度估計(jì)的最近的相鄰點(diǎn)。如果這樣的相鄰點(diǎn)存在,則把觀測(cè)值點(diǎn)所屬的類和指定的相鄰點(diǎn)所屬的類合并。接著考慮這樣一些觀測(cè)點(diǎn),其估計(jì)密度等于某些
15、相鄰點(diǎn)的估計(jì)密度但不小于任何相鄰點(diǎn)的估計(jì)密度,然后合并含有這樣觀測(cè)的類。METHOD = 3。最初把每個(gè)觀測(cè)當(dāng)作一個(gè)單獨(dú)的類。對(duì)于觀測(cè)點(diǎn)Xi,找出相鄰點(diǎn)Xj ,使得一1-達(dá)到最大值。如果斜率是正的,則合并觀測(cè)Xj所屬的類和觀測(cè)Xj所屬的類。d(Xi,Xj)然后考慮這樣一些觀測(cè)點(diǎn),其估計(jì)密度等于某些相鄰點(diǎn)的估計(jì)密度但不小于任何相鄰點(diǎn)的估計(jì)密度,與METHOD=1相同的處理方法。METHOD = 4。等價(jià)于兩階段密度估計(jì)法。METHOD = 5。等價(jià)于兩階段密度估計(jì)法。METHOD = 6。開始時(shí)所有觀測(cè)都沒(méi)有分類。第一步:找到一些種子,每個(gè)種子是一個(gè)單獨(dú)的觀測(cè)點(diǎn),在,在這一點(diǎn)的密度估計(jì)不小于它的
16、任何相鄰點(diǎn)的密度估計(jì)。如果規(guī)定選項(xiàng)MAXCLUSTERS=n,則只保留n個(gè)密度估計(jì)最大的種子。第二步:以密度估計(jì)由大到小的順序逐個(gè)考慮每個(gè)種子:1)如果當(dāng)前這個(gè)種子已被分配,則考慮下一個(gè)種子。否則形成一個(gè)包含當(dāng)前這個(gè)種 子的新類。2 )如果有某個(gè)未被分配的種子是這個(gè)類中一個(gè)成員的相鄰點(diǎn),或者與某個(gè)成員有共同的相鄰點(diǎn),則把這個(gè)種子加入這個(gè)類;重復(fù)這個(gè)步驟直到?jīng)]有未被分配的種子滿足這個(gè)條件為止。3)如果一些種子屬于這個(gè)類,則把這些種子的所有相鄰點(diǎn)加入這個(gè)類。4 )考慮每個(gè)沒(méi)有被分配的觀測(cè)點(diǎn)。計(jì)算屬于當(dāng)前類的相鄰點(diǎn)的密度估計(jì)的p-1次幕的和與它的所有相鄰點(diǎn)密度估計(jì)的p-1次幕的和的比率,其中 P是由選項(xiàng)POWER =指定的值,缺省是為2。設(shè)為是當(dāng)前觀測(cè)點(diǎn),K是當(dāng)前類的指標(biāo),計(jì)算比值ik?pdj - Ni如果這個(gè)比值超過(guò) 0.5,而且超過(guò)THRESHOLD =指定的值,則個(gè)觀測(cè)值歸到到第k個(gè)類。重復(fù)這個(gè)步驟直至沒(méi)有未被分配的種子
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 空調(diào)護(hù)欄改裝方案
- 二零二五年度企業(yè)內(nèi)部培訓(xùn)體系搭建委托策劃合同3篇
- 運(yùn)輸設(shè)備升級(jí)方案
- 二零二五年度個(gè)人商業(yè)房產(chǎn)抵押借款合同樣本4篇
- 排氣管高溫漆施工方案
- 鋼結(jié)構(gòu)加固工程施工方案
- 人工種草耙地播種施工方案
- 二零二五年度餐飲業(yè)廚房設(shè)備租賃及維護(hù)個(gè)人勞務(wù)承包合同2篇
- 二零二五年度城市綜合體項(xiàng)目委托設(shè)計(jì)與采購(gòu)合同3篇
- 銅陵隧道防火涂料施工方案
- 第七講推動(dòng)構(gòu)建新時(shí)代的大國(guó)關(guān)系格局-2024年形勢(shì)與政策(課件)
- 2024年高考真題-化學(xué)(天津卷) 含解析
- 醫(yī)院食材采購(gòu)與配送實(shí)施方案
- 文書模板-護(hù)理規(guī)培生座談會(huì)記錄
- 2025年高考作文備考:議論文寫作的論證手法
- 投餌機(jī)相關(guān)項(xiàng)目實(shí)施方案
- 醫(yī)療健康大數(shù)據(jù)平臺(tái)使用手冊(cè)
- 24年注安-管理的題
- 碳排放管理員 (碳排放核查員) 理論知識(shí)考核要素細(xì)目表四級(jí)
- 撂荒地整改協(xié)議書范本
- 國(guó)際貿(mào)易地理 全套課件
評(píng)論
0/150
提交評(píng)論