模式識別與分類_第1頁
模式識別與分類_第2頁
模式識別與分類_第3頁
模式識別與分類_第4頁
模式識別與分類_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

模式識別與分類第1頁,共39頁,2023年,2月20日,星期五模式識別與分類導言

Clustering/Classification統(tǒng)稱

如下問題人眼識別物

中醫(yī)看舌苔/脈搏

圖譜辨別化合物

低維與高維數(shù)據(jù)

一次觀察的矢量表示n為空間維數(shù),變量數(shù)變量即特征

各特征類型/量綱/大小相差大

第2頁,共39頁,2023年,2月20日,星期五模式識別與分類數(shù)據(jù)預處理

值域調(diào)整rangescaling

自標度化Autoscaling均值0

方差1

模長第3頁,共39頁,2023年,2月20日,星期五模式識別與分類數(shù)據(jù)預處理

標準化Normalization模長為1色譜面積歸1質(zhì)譜最大為1第4頁,共39頁,2023年,2月20日,星期五模式識別與分類數(shù)據(jù)預處理

變換法原變量相加/減/除等

組合法第5頁,共39頁,2023年,2月20日,星期五模式識別與分類數(shù)據(jù)預處理特征的選擇偏差權重法s大的變量更重要Fisher比率法F大的變量更重要第6頁,共39頁,2023年,2月20日,星期五模式識別與分類數(shù)據(jù)預處理協(xié)方差矩陣C與相關矩陣R對于n為對象數(shù),p為特征數(shù)方差

j=1,…,p

協(xié)方差

j,k=1,…,p;

j≠k

第7頁,共39頁,2023年,2月20日,星期五模式識別與分類數(shù)據(jù)預處理方差-協(xié)方差矩陣,簡稱協(xié)方差矩陣如下:對稱矩陣第8頁,共39頁,2023年,2月20日,星期五模式識別與分類數(shù)據(jù)預處理相關矩陣如下:其中但對于Autoscaling后的數(shù)據(jù),s=1。

C即為R。第9頁,共39頁,2023年,2月20日,星期五模式識別與分類主成分分析PCA因子分析FA聚類分析clustering無監(jiān)督方法第10頁,共39頁,2023年,2月20日,星期五模式識別與分類PCA得分score

載荷loadingd為主成分數(shù)第11頁,共39頁,2023年,2月20日,星期五模式識別與分類PCA投影判別法

數(shù)據(jù)重構

組成互不相關的新變量

取較少的主成分數(shù)(常為2),完成分類第12頁,共39頁,2023年,2月20日,星期五模式識別與分類PCA實例1

不同嫌疑人頭發(fā)中元素的含量(μg/g)

樣品 Cu Mn Cl Br I1 9.2 0.30 1730 12.0 3.62 12.4 0.39 930 50.0 2.33 7.2 0.32 2750 65.3 3.44 10.2 0.36 1500 3.4 5.35 10.1 0.50 1040 39.2 1.96 6.5 0.20 2490 90.0 4.67 5.6 0.29 2940 88.0 5.68 11.8 0.42 867 43.1 1.59 8.5 0.25 1620 5.2 6.2原始數(shù)據(jù)X(9×5)autoscaling計算相關矩陣計算特征值返回第13頁,共39頁,2023年,2月20日,星期五模式識別與分類方差百分數(shù)主成分數(shù)的確定指定,

如90%

相應的dPCA實例1

頭發(fā)樣品中的特征值與方差

成分數(shù) 特征值λ方差%累計方差%1 3.352 67.0567.05

2 1.182 23.65 90.703 0.285 5.7096.404 0.1352.7099.105 0.045 0.90100.00特征值>1對于相關矩陣,

λ>1的成分為主成分Scree檢驗nPC在2-3間

斜率下降

因此d=2合適第14頁,共39頁,2023年,2月20日,星期五模式識別與分類得分圖主成分圖形解釋PCA實例13個聚類

分屬三人t1對t2作圖t1最重要第15頁,共39頁,2023年,2月20日,星期五模式識別與分類主成分圖形解釋PCA實例1載荷圖l1對l2作圖特征在主成分上的投影

各變量的相關信息

夾角越小,相關性越高

高度相關的特征取1即可載荷大小是重要性的度量

位于原點的載荷不重要金屬間的相關性大于鹵素間的

Cu與Cl反性相關l1最重要,距原點距離越大,該特征權重越大,Cu第16頁,共39頁,2023年,2月20日,星期五模式識別與分類主成分圖形解釋PCA實例1相似系數(shù)或相關系數(shù)表

Cu Cu1.000Mn Mn0.6971.000Cl Cl-0.950-0.6921.000Br Br-0.530-0.2330.588 1.000I-0.645-0.7490.581-0.084

相似

系數(shù)相關

系數(shù)Br/I接近正交Cu/Cl負相關1:完全相同

0:完全正交自標度化

的數(shù)據(jù)

cosα=r第17頁,共39頁,2023年,2月20日,星期五模式識別與分類得分圖主成分圖形解釋PCA實例1特征的選擇5個全取取Cu/Br/I仍能分類效果略差取Cu/Mn/Cl分類效果差l2無效果3個λ,僅1個>12.57,0.38,0.05一維投影結果原始數(shù)據(jù)第18頁,共39頁,2023年,2月20日,星期五模式識別與分類主成分圖形解釋PCA實例1雙重圖biplott1各元素均有貢獻

t2由Br和I表征Cu/Mn/Cl/I

將對象聚為2組

Br

將對象聚為另2組第19頁,共39頁,2023年,2月20日,星期五模式識別與分類PCA實例1應用示例

煙葉硅烷化色譜

遼寧鳳城煙葉不同部位煙葉的區(qū)分下部上部中部第20頁,共39頁,2023年,2月20日,星期五模式識別與分類FA用少數(shù)幾個通用因子描述矩陣中的特征抽象因子需經(jīng)旋轉變換成實因子TTFA包含d個因子的特征參數(shù),各因子對應1個起因與對應因子相關的載荷分數(shù)由剩余p-d個和通用因子無關的特殊因子構成,如噪聲因子第21頁,共39頁,2023年,2月20日,星期五模式識別與分類FA目標轉換因子分析TargetTransformationFA變換矩陣抽象載荷目標預測目標均值相對偏差

relativedeviation

估計兩者的一致性第22頁,共39頁,2023年,2月20日,星期五模式識別與分類FA實例TTFA多環(huán)芳烴HPLC-DAD數(shù)據(jù)有3個重要因子第23頁,共39頁,2023年,2月20日,星期五模式識別與分類多環(huán)芳烴HPLC-DAD數(shù)據(jù)FA實例TTFA已知4物的純光譜但僅3個主因子F補一列第24頁,共39頁,2023年,2月20日,星期五模式識別與分類多環(huán)芳烴HPLC-DAD數(shù)據(jù)FA實例TTFA283.33 1545.9 1126.4 -58.497102.72 120.36 217.71 172.223.665 -106.13 -223.13 -169.66-63.573 -628.81 -435.24 76.663111.23 112.88 282.74 274.6138.036 85.858 73.304 28.34552.663 70.734 15.276 -24.929110.54 32.719 3.9913 10.64514.726 25.212 7.3891 1.377存在不存在第25頁,共39頁,2023年,2月20日,星期五模式識別與分類聚類分析無監(jiān)督學習方法根據(jù)相似性度量,物以類聚分類方法是把未知對象分配到已存在類中聚類分析步驟n個樣本n類計算距離最近的2類合并

繼續(xù)合并最近的2類經(jīng)n-1次合并最后成1類第26頁,共39頁,2023年,2月20日,星期五模式識別與分類聚類分析距離與相似性度量的方法明氏Minkowski距離歐氏Euclidean距離曼哈頓Manhattan距離

city-block距離第27頁,共39頁,2023年,2月20日,星期五模式識別與分類聚類分析距離與相似性度量的方法馬氏Mahalanobis距離基于協(xié)方差矩陣C的向量運算基于馬氏距離的相似性量度完全相似Sij=1

完全不相似Sij=0馬氏距離可避免特征向量的相關性引起的失真

無需對數(shù)據(jù)進行調(diào)整第28頁,共39頁,2023年,2月20日,星期五模式識別與分類聚類分析實例6個血清樣本的分級聚類對象1、2距離最短,聚為新對象1*

設其距離為0

與其余各對象用平均法或新距離第29頁,共39頁,2023年,2月20日,星期五模式識別與分類聚類分析實例6個血清樣本的分級聚類4,6并4*4*,5并5*1*,3并3*第30頁,共39頁,2023年,2月20日,星期五模式識別與分類聚類分析實例6個血清樣本的分級聚類1231234651*3*4*5*歐氏距離6個血清樣本實際上可分為兩類第31頁,共39頁,2023年,2月20日,星期五模式識別與分類聚類分析A、B聚后新距離的算法加權均連

weightedaveragelinkage單連法(最近距離)

singlelinkage全連法(最遠距離)

completelinkage其他方法第32頁,共39頁,2023年,2月20日,星期五模式識別與分類線性學習機LLMK最近鄰法KFASIMCA法有監(jiān)督方法第33頁,共39頁,2023年,2月20日,星期五模式識別與分類LLM11111111122222222判別面以分2類(疾病判斷)為例存在一判別面,用垂直的

法線(權)矢量w表示

與類1中任一樣本矢量的夾角

,與類2中

線性判別函數(shù)s(標量)

,s>0

,s<0第34頁,共39頁,2023年,2月20日,星期五模式識別與分類LLM步驟已知樣本作訓練得

法線矢量w未知樣本計算s

并預測分類初值w,可隨機確定第1個已知樣本計算s

不符下一個樣本計算s繼續(xù)調(diào)整w

第35頁,共39頁,2023年,2月20日,星期五模式識別與分類LLM實例數(shù)據(jù)初值第36頁,共39頁,2023年,2月20日,星期五模式識別與分類LLM實例修正w不修正須修正以后還需修正1次,最終判別第37頁,共39頁,2023年,2月20日,星期五模式識別與分類LLM實例程序clear;closeall;Y=load('E:\bk\jshx\jiazx.txt');Y(:,1)=[];[n,p]=size(Y);cluster=Y(:,p);cluster=cluster*(-2)+3*ones(n,1);%letsymboloffirstcluster=1andsecondcluster=-1Y(:,p)=[];Y_std=Y(1:16,:);clu_std=cluster(1:16,:);Y_unk=Y(17:20,:);clu_unk=cluster(17:20,:);[n_std,p]=size(Y_std);[n_unk,p]=size(Y_unk);PartI數(shù)據(jù)準備w=ones(1,p)*(-1);%給初值,w設為行矢量fori=1:n_stds=w*Y_std(i,:)‘;%s是標量

ifs

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論