




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第二節(jié)貝葉斯判別分析第一節(jié)距離判別分析第十二章判別分析
Chap.ⅩIIDiscriminationAnalysis第三節(jié)逐步判別分析第四節(jié)Logistic判別分析第十二章判別分析
Chap.ⅩIIDiscriminationAnalysis
判別分析是一種應(yīng)用樣本的數(shù)值特征來將樣本劃入若干個(gè)已知的類別中的某一類的統(tǒng)計(jì)分析方法。
現(xiàn)實(shí)生活中,判別問題經(jīng)常遇到:醫(yī)生根據(jù)某人的癥狀和生化指標(biāo)來判斷是得病還是健康;氣象學(xué)家根據(jù)天氣資料判斷明天是晴天、陰天、刮風(fēng)和下雨;考古學(xué)家根據(jù)出土的文物來判斷它所處的歷史時(shí)期;根據(jù)冬天的氣象條件判斷來年的病蟲害發(fā)生情況;法國學(xué)者通過對(duì)葡萄形態(tài)的測(cè)量來判斷葡萄的品種;還可以通過DNA鑒定某個(gè)人所屬的家族;第十二章判別分析
Chap.ⅩIIDiscriminationAnalysis
與聚類分析不同之處是:
聚類分析之前,我們對(duì)“所研究的事例(或樣品)應(yīng)如
何分類”、“某一個(gè)事例(或樣品)屬于那一類”等問
題是并不知曉;
但在進(jìn)行判別分析之前,必須有足夠數(shù)量的樣品(或
事例),并對(duì)它們歸屬于那一類有相當(dāng)正確的認(rèn)識(shí)。
判別分析的作用在于將某個(gè)樣品歸到正確的類別。
做法是:根據(jù)掌握的分類資料建立一個(gè)較優(yōu)的判別函數(shù),使判錯(cuò)率最小,將欲判定的樣品值代入判別函數(shù),從而判定它屬于已知類別中的哪一類。第一節(jié)距離判別分析方法
DistanceDiscriminationAnalysis距離判別分析的基本思路:計(jì)算樣品到給定類別的距離,把它劃歸到距離最近的類別設(shè)X,Y是從均值向量為μ,協(xié)方差陣為Σ的總體G中抽取的兩個(gè)樣品,定義X,Y之間的馬氏距離平方為:定義X,與總體G之間的馬氏距離平方為:第一節(jié)距離判別分析方法
DistanceDiscriminationAnalysis設(shè)有k個(gè)已知的類別(記為G1,G2,…,Gk),各類的
平均數(shù)分別為
μ1,
μ2,
…,
μk,方差協(xié)方差矩陣為Σ1,Σ2,
…,
Σk。欲將某個(gè)樣品x歸入到這
k
類中的一類,
其判別函數(shù)為馬氏距離,判別準(zhǔn)則為x∈Gj,當(dāng)d
(x,Gj
)=Min
{d
(x,Gi
)}
其中Min是對(duì)
i
=1,2,…,k
類的距離求極小值;d
(x,Gi
)=[(x-
)'Σi-1(x-)]1/2。計(jì)算時(shí)用作
μi
的估計(jì)值,用
Si作Σi的估計(jì)值。第一節(jié)距離判別分析方法
DistanceDiscriminationAnalysis
距離判別法的計(jì)算步驟:第一步、計(jì)算出
k
個(gè)類別的方差協(xié)方差矩陣及其逆陣。第二步、計(jì)算出各訓(xùn)練樣本到這
k
個(gè)類別的馬氏距離,比較這
k
個(gè)距離,把訓(xùn)練樣本歸到距離最短的類中。第三步、計(jì)算第二步中的錯(cuò)判率。如果錯(cuò)判率太大,說明要么原來的分類不可靠;要么是盡管原來的分類是對(duì)的,但用距離判別得不到精確的結(jié)果。第四步、如果還有新的待判樣本,計(jì)算各個(gè)新樣本到這
k
個(gè)類別的馬氏距離,比較
k
個(gè)距離,把各個(gè)新樣本歸到距離最短的類中。第二節(jié)貝葉斯判別分析方法
BayesDiscriminationAnalysis貝葉斯判別分析:考慮到各個(gè)樣本出現(xiàn)在不同類別中的概率大小不同和樣本判錯(cuò)以后造成的損失。設(shè)有k個(gè)已知的類別(記為G1,G2,…,Gk),它們具
有概率分布函數(shù)
f1(x),f2(x),…,fk(x)。又設(shè)某一樣品x=(x1,x2,…,xm)屬于各個(gè)類別的概率分別為q1,q2,…,qk。如果將某種劃分方式記為
R
={R1,R2,…,Rk},于是判別規(guī)則為:
x∈Gi,當(dāng)x落在Ri(i
=1,2,…,k)第二節(jié)貝葉斯判別分析方法
BayesDiscriminationAnalysis貝葉斯判別分析的基本思路:
如果已知將原應(yīng)屬于Gi的樣品誤判為屬于Gj所造成
的損失為
C
(
j
|
i
),
造成這種誤判的可能性為概率
P(j
|
i,
R),
則按這種劃分方式把原應(yīng)屬于Gi的樣品誤判為屬于其它類別的平均損失為
ri
(R
)
=其中C
(i
|
i)
=0,即不誤判時(shí)損失為0。
g
(R
)
=
(i,
j=1,
2,
…,
k)因?yàn)闃悠穢來自Gi的先驗(yàn)概率為qi,所以通過這種劃分方式進(jìn)行判別的總平均損失為
貝葉斯判別法的目的是尋找一種劃分方式
R
使總的平均損失g
(R
)達(dá)到最小。第二節(jié)貝葉斯判別分析方法
BayesDiscriminationAnalysis統(tǒng)計(jì)學(xué)已證明:如果總體服從正態(tài)分布,并且各類別的方差協(xié)方差矩陣為Σ1=Σ2=…=Σk=Σ時(shí),可以推導(dǎo)出對(duì)于樣品x的判別函數(shù)為
yij=x'Σ-1(μi-μj)-(μi-μj)'Σ-1(μi+μj)/2其中i,j=1,
2,…,k
且
i
≠
j。計(jì)算時(shí)以合并的樣本方差協(xié)方差矩陣S=(Q1+Q2+…+Qk)/(n-k)作為總體
Σ的估計(jì);n
=
n1+n2+…+nk為全部訓(xùn)練樣本的數(shù)目;Q1,Q2,…,Qk為各類的類內(nèi)離均差平方和。
判別準(zhǔn)則為:
x∈Gi,當(dāng)yij>log(qj/qi)(
j=1,2,…,k
且i
≠
j
)
即如果所有
i
≠
j
的
yij
都大于log(qj/qi)時(shí),應(yīng)將該樣本歸入第i
類。第二節(jié)貝葉斯判別分析方法
BayesDiscriminationAnalysis
貝葉斯判別法的計(jì)算步驟:第一步、計(jì)算訓(xùn)練樣本數(shù)據(jù)中各類的平均數(shù)向量;第二步、計(jì)算訓(xùn)練樣本數(shù)據(jù)中各類的離均差平方和矩陣;第三步、將各類的離均差平方和矩陣相加得合并的離均差平方和矩陣,用合并的離均差平方和矩陣除以合并自由度(n-k)
得到方差協(xié)方差矩陣,并求出方差協(xié)方差矩陣的逆陣;第四步、求判別函數(shù)表達(dá)式。將所有訓(xùn)練樣本回代進(jìn)去,判別歸類,進(jìn)行檢驗(yàn);第五步、如果有待判數(shù)據(jù),將其代入,并判別歸類。第三節(jié)逐步判別分析方法
StepwiseDiscriminationAnalysis與多元回歸分析相似,在進(jìn)行判別分析時(shí),并不是變量越多越好。有些變量對(duì)于類別的劃分有重要的意義,但有些變量卻對(duì)判別分類起了干擾的作用,把它們引進(jìn)到分析中,反而使分類之后的類內(nèi)差異增大。因此,仿照逐步回歸分析的思路,也開發(fā)了一種逐步判別分析方法。
逐步判別分析:對(duì)進(jìn)行判別分析的變量逐步進(jìn)行優(yōu)劣選擇的方法。第三節(jié)逐步判別分析方法
StepwiseDiscriminationAnalysis逐步判別分析的基本思路:設(shè)有k個(gè)已知的類別(記為G1,G2,…,Gk),它們分別服從平均向量為
μ1,
μ2,…,μk,方差協(xié)方差矩陣為Σ的m元正態(tài)分布?,F(xiàn)在從它們中抽出大小分別為
n1,n2,…,nk
的樣本。如果要使判別有意義,那么μ1,
μ2,…,μk之間應(yīng)該有顯著的差異。第三節(jié)逐步判別分析方法
StepwiseDiscriminationAnalysis按此思路,可以在m個(gè)變量中,先引進(jìn)可以使分類
結(jié)果的類間差異最顯著的變量。又以此變量為基礎(chǔ),
引進(jìn)第二個(gè)可以使分類結(jié)果的類間差異更顯著的變
量。再看看已有的變量中,是否可以剔除某個(gè)變量,
使利用剩余的變量進(jìn)行判別的分類結(jié)果的類間差異
更為顯著。如果有,便將它剔除。然后再考慮是否
可以再引進(jìn),再剔除,再引進(jìn),…,直至不能再剔除,
也不能再引進(jìn)為止。
使用最終選定的變量,建立判別函數(shù)(通常采用貝葉斯判別法的判別函數(shù)),按判別函數(shù)值的大小來對(duì)訓(xùn)練樣本和待判樣本進(jìn)行判別歸類。第三節(jié)逐步判別分析方法
StepwiseDiscriminationAnalysis
對(duì)變量進(jìn)行剔除和引進(jìn)的方法Wilk’s
Λ統(tǒng)計(jì)量
|Qw|
|Qw|
=────=──
|Qh+Qe|
|Qt|
其中分子是類內(nèi)離均差平方和矩陣的行列式,分母是總離均差平方和矩陣的行列式。Qw(w表示類內(nèi)
withingroup),Qt(t表示總的—total)。使設(shè)含
p
個(gè)變量時(shí)的
Wilk’s
統(tǒng)計(jì)量為
p,增加一個(gè)變量(xr)
后的
Wilk’s
統(tǒng)計(jì)量為
p+1,可以很容易在未作出判別結(jié)果之前算出這兩個(gè)的比值。利用這個(gè)比值,
可以進(jìn)行測(cè)驗(yàn)。第三節(jié)逐步判別分析方法
StepwiseDiscriminationAnalysis在含p+1個(gè)變量的模型中,類內(nèi)離均差平方和矩陣:
Qw=
使其中虛線左上部分便是只含
p
個(gè)變量的模型中的
類內(nèi)離均差平方和矩陣Q,而整個(gè)矩陣則是含p+1
個(gè)變量的模型中的類內(nèi)離均差平方和矩陣Q。
統(tǒng)計(jì)學(xué)已經(jīng)證明:|Q|=|Q|
wrr
。第三節(jié)逐步判別分析方法
StepwiseDiscriminationAnalysis在含p+1個(gè)變量的模型中,總的離均差平方和矩陣:
Qt=
使其中虛線左上部分便是只含
p
個(gè)變量的模型中的總的離均差平方和矩陣Q,而整個(gè)矩陣則是含p+1
個(gè)變量的模型中的總的離均差平方和矩陣Q。
統(tǒng)計(jì)學(xué)也已證明:|Q|=|Q|
trr
。第三節(jié)逐步判別分析方法
StepwiseDiscriminationAnalysis
記wrr/trr
為Vr可見
Vr
是在原模型的基礎(chǔ)上加進(jìn)變量
xr
之后,
的增長率。我們稱
Vr
為部分
值或偏
值。用
F
測(cè)驗(yàn)可以檢驗(yàn)增長是否顯著。第三節(jié)逐步判別分析方法
StepwiseDiscriminationAnalysis為了對(duì)偏
值進(jìn)行統(tǒng)計(jì)測(cè)驗(yàn),應(yīng)先指定一個(gè)考察能否將一個(gè)新變量引進(jìn)模型的F值(稱引進(jìn)F限)和一個(gè)考察能否將一個(gè)變量從模型中剔除的F值(稱剔除F
限)。然后計(jì)算統(tǒng)計(jì)量當(dāng)
F
值大于引進(jìn)
F
限時(shí)即可將變量引進(jìn)模型;當(dāng)
F
值小于剔除
F
限時(shí)即可將變量從模型剔除。
F
值的自由度:df1=k
-1,df2=n
-p-k。第三節(jié)逐步判別分析方法
StepwiseDiscriminationAnalysis經(jīng)剛才的
F
測(cè)驗(yàn)僅僅表明某個(gè)變量是否可以引進(jìn)或刪除,但引進(jìn)或刪除后得到的新模型是否能使類間差異顯著地大于類內(nèi)差異呢?還需進(jìn)行測(cè)驗(yàn)。如果差異顯著,說明分類有效;否則,用該模型分類無效?!澳P褪欠裼行А笨梢杂脝蜗蚍诸愘Y料的多元方差分析
F
測(cè)驗(yàn)進(jìn)行檢驗(yàn)。
F
測(cè)驗(yàn):先利用關(guān)系
p+1=
p×Vr算出新模型的
,
計(jì)算轉(zhuǎn)換的
F
值、df1、df2,將算得的F
值進(jìn)行檢驗(yàn)。第三節(jié)逐步判別分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2020-2021深圳育才中學(xué)(初中)小學(xué)三年級(jí)數(shù)學(xué)下期末一模試卷帶答案
- 安裝鐵塔施工方案
- 2024年黑龍江大慶中考滿分作文《詩中誦出赤子心》
- 個(gè)人購銷合同范例范例
- 修路個(gè)人勞務(wù)合同范例
- 合伙餐廳合同范本
- 跨部門合作的工作計(jì)劃實(shí)例
- 鄉(xiāng)村樹苗銷售合同范例
- 學(xué)生自我管理與目標(biāo)追蹤計(jì)劃
- 培養(yǎng)員工潛能與激勵(lì)方式計(jì)劃
- 勞務(wù)派遣勞務(wù)外包項(xiàng)目方案投標(biāo)文件(技術(shù)方案)
- 2025年安全員C證(專職安全員)考試題庫
- 地理-天一大聯(lián)考2025屆高三四省聯(lián)考(陜晉青寧)試題和解析
- 2025年廣州市公安局招考聘用交通輔警200人高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 貴州省貴陽市2024-2025學(xué)年九年級(jí)上學(xué)期期末語文試題(含答案)
- 2025年江蘇海事職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試近5年??及鎱⒖碱}庫含答案解析
- 2024年尖葉菠菜種子項(xiàng)目可行性研究報(bào)告
- 計(jì)件工資計(jì)算表格模板
- 兩癌防治知識(shí)培訓(xùn)
- 《moldflow學(xué)習(xí)資料》課件
- 2024年吉安職業(yè)技術(shù)學(xué)院單招職業(yè)技能測(cè)試題庫附答案
評(píng)論
0/150
提交評(píng)論