




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第四章 化學模式識別,化學量測的目的,在于揭示量測對象的某些性質。有時,欲了解的性質是能直接測出的,例如某些元素的含量等,但更多的情況是無法直接測試這些性質,這后種性質稱為“隱含”的性質。例如,做奶的分析,人們可以測出奶中蛋白質、脂肪或其它組分的百分含量。但如果需解決的是一個涉及產品辨識的問題,例如需確定給定的奶樣是牛奶抑或是羊奶,這種性質無法直接量測,因奶的來源是一種隱含的性質。在這種情況下,如果分析工作者僅提供奶樣的成分含量分析數(shù)據,問題并沒有得到解決。,如何由分析數(shù)據(奶樣成分分析結果)上升到有用信息(奶樣來源的確定),以解決相關的實際問題(例如產品的真?zhèn)伪孀R等)? 化學模式識別正是解決
2、這類問題的化學計量學手段。實際上,在奶樣的成分(分析數(shù)據)與奶樣的來源(牛奶或是羊奶)之間,存在著內在的關系,這類關系可能已為相關的科學所揭示,亦可能尚屬未知的關系?;瘜W計量學的發(fā)展,使分析工作者有可能在與分析對象相關的學科提供的知識尚不完善的情況下,從分析數(shù)據中最大限度地提取有用的信息,化學模式識別成為我們化學量測數(shù)據轉化為解決實際問題所需的信息的一種重要手段。,目錄,4.1 化學模式空間 4.2 模式空間的距離與相似性量度 4.3 線性學習機 4.4 K最近鄰法 4.5 原始化學量測數(shù)據的預處理 4.6 參量選擇 4.7 降維與顯示技術 4.8 無監(jiān)督的分類:聚類分析 4.9 化學模式識別
3、的應用,4.1 化學模式空間,任何樣本j可用一組參量xij(i=1,2,d)來表征。在化學模式識別文獻中,這種參量值又稱特征。例如第j個奶樣,可以用其蛋白質含量x1j、脂肪含量x2j等來表征。在許多情況下,這些參量實際上就是原始化學量測數(shù)據。除化學量測數(shù)據外,有時還可以包含一些物理的或其它數(shù)據,例如色、香、味等。每個樣本的所有量測值構成一個化學模式,或簡稱模式。,4.1 化學模式空間,在二維空間,即當d=2時,每個模式就是平面上的一點(如下圖),顯然,可將這一點表述為一個矢量xj,在d2的空間,完全可以定義類似的模式矢量,這種d維空間,稱化學模式空間,或簡稱為模式空間。,4.1 化學模式空間,
4、在化學模式識別中,如何選取表征樣本的參量很重要,例如要確定奶樣是牛奶還是羊奶,應盡量選擇對牛奶和羊奶有所區(qū)別的參量(例如選定成分的含量)進行測試,擯棄對牛奶與羊奶完全等同的參量,才有可能成功地區(qū)分牛奶和羊奶。 奶樣的例是一個雙擇分類問題,即需確定樣本是屬于A類或B類。如果存在這種參量,可唯一地確定樣本是屬于A或B,則所涉及的課題是一個簡單分類問題,毋需使用化學計量學的方法。例如,設對血或尿中某一特征組分進行臨床化學分析,即能確定病人是否患某種疾病。在這種情況下,化學分析數(shù)據能簡單地直接轉化為有用信息,但一般而言,單靠一種參量就能做直接判決的情況較為少見。,4.1 化學模式空間,例如下圖的情況:
5、,在二維空間可能區(qū)分一維空間不可分的二類樣本+A、-B 在一維空間,即沿x1軸或x2軸,單用x1j或x2j均無法區(qū)分A或B,但在二維空間,我們可以看出,A與B是易于區(qū)分或線性可分的。這個例子展示了由一維模式空間過渡到二維模式空間判別情況的改善(上圖純粹是示意性的)。,4.1 化學模式空間,一般而言,僅增加一個參量,難有如此顯著的改善,但由一維空間過渡到d維空間,d愈大,改善程度愈大,則是普遍的規(guī)律,這是由于客觀世界本身就是多維的,因此,我們應善于用多維的思維方法處理問題。而提供多維數(shù)據的能力恰巧是現(xiàn)代儀器分析方法的特征。仍以奶樣為例,用傳統(tǒng)的分析方法分析奶樣,每增加一個維數(shù),需要多使用一種奶中
6、組分的分析方法。例如脂肪的測定方法,與蛋白質的測定方法可能完全不同。,4.1 化學模式空間,但用現(xiàn)代色譜分析技術,即使奶中有數(shù)十個成分,在理想的情況下,仍可能設計一種分析方法,一次得到幾十個色譜峰,每一個峰的位置代表了不同組分,其高度或積分面積代表了各組分的濃度。也就是說,以幾十個不同的色譜峰高作為參量,可以簡便地獲得d值達到數(shù)十的化學模式。取得這種化學量測數(shù)據所需的時間,可能并不比用傳統(tǒng)純粹化學方法作一個組分測定建立一維模式所需時間更長。,4.1 化學模式空間,化學模式識別的目標可表述為:給出一系列參量(化學量測值)表征的樣品集,能否預測樣本的某種無法直接量測的有用性質?這里,當然需要假設這
7、種無法直接量測的隱含性質,與可量測的參量之間存在某種內在的,即使是當前尚未能闡明的關聯(lián)。 化學模式識別是建立在一個十分直觀的基本假設之上的,這個假設就是“物以類聚”,即性質相近的樣本在模式空間中所處的位置相近,它們在空間組成“簇”。這里涉及的性質是我們欲予以分類的隱含性質,例如就奶樣的來源而言,由奶牛產出的奶(牛奶)都是相似的。從上圖的例子看,在d維空間(此例中d=2),A與B各形成一個簇。,4.1 化學模式空間,對于m個樣本的集合,可寫成: E=1,2,3,m 簇可定義為E的一個非空子集 C E 及C 分簇是指劃分簇C1,C2,CK(簇集),這個簇集滿足以下兩個條件: E的每個樣本均屬于某一
8、個簇 C1UC2UU Ck=E E的每個樣本僅屬于一個簇,即對任意i j CiCj= ,4.1 化學模式空間,從前面的討論,會得到一個結論:d值愈大愈好。從實踐來看,以奶樣為例,測試一種成分(d=1,一維模式)難于區(qū)分牛奶與羊奶,測試的組分愈多,多到包含奶中常量、微量、痕量的各種組分,則區(qū)分牛奶與羊奶的可能性愈大。但這里要注意一點,不是所有的情況下d值愈大愈好,某些模式識別技術例如后面要學到的線性學習機、線性判別分析,對維數(shù)d與樣本數(shù)n之間的相關關系有一定要求。,4.1 化學模式空間,今取d=2,即二維平面上的例子,我們考察n較大時雙擇分類的情況,對屬于不同類的兩種樣本+、-,從下因可以看出:
9、,A屬于兩個類線性可分的情況,B屬于兩個類線性不可分的情況。,4.1 化學模式空間,今設n=3,如何判別這個d=2、n=3的情況是線性可分的,還是線性不可分的?如下圖:,4.1 化學模式空間,如假設1和2屬于一類,3是另一類,我們可作直線a將二類分開;如2和3屬一類,1屬另一類,我們可借直線b將兩類分開;對于1和3屬一類,2屬另一類的情況,則可借直線c將兩類分開。可見,在此例中樣本的任何隨機歸屬都屬于線性可分的情況。這里涉及的就是d和n的關系問題,當d和n接近時,甚至dn時,樣本的分類問題可能失去意義。所以早期的模式識別文獻中,提出了n/d 3作為對樣本數(shù)的最低要求,并提出n/d最好大于10,
10、即樣品的個數(shù)最好達到模式矢量維數(shù)或參量數(shù)的10倍。,4.1 化學模式空間,早期模式識別文獻中對n與d關系的要求,在一定程度上反映了經典的多元線性回歸分析方法與線性判別分析發(fā)展的歷史背景。在這些經典的多元線性判別分析發(fā)展之時,參量的量測是相對較困難的工作,至少是較之收集樣本更費力的工作。因此,人們牢固地樹立了一個概念:樣本數(shù)應顯著多于參量數(shù)。 到80年代,由于現(xiàn)代儀器分析的發(fā)展,測試多個參量對現(xiàn)代分析儀器來說已相對較容易做到,相比之下,樣本的取得反而顯得較為困難。能否在n數(shù)較小的情況下,增加量測參量數(shù)d,以求獲得較多信息?現(xiàn)代化學模式識別理論對這個問題的回答是肯定的,4.2 模式空間的距離與相似
11、性量度,化學模式識別的基本假設是相似的樣本在模式空間處于相近的位置,如何度量二個樣本在模式空間的遠近?這里可應用在幾何學中距離的概念,它在模式識別中是作為與“相似性”相反的“相異性”的量度使用的,任何滿足下述三個條件的“相異性”均可定義為“距離”: Dij 0;如Xi=Xj,Dij=0 Dij= Dji Dia+ Dja Dij 條件(1)及(2)表明距離應取正值且是對稱的,條件(2)是作為“度量”距離與“非度量”距離的差異,在二維平面上,二點間直線距離Dij就恒小于或等于其它任何路徑的長度。,4.2 模式空間的距離與相似性量度,Minkowski距離是一種廣義的距離,對于d維空間的兩個模式矢
12、量x(x1, x2, ,xd)與z(z1, z2, ,zd),定義為: Dminkowski=(xi-zi)k1/k 在k=2時即是Euclid距離(歐氏距離),在二維或三維空間,歐氏距離是常用的距離量度。 K=1的情況稱Manhattan距離(城市街區(qū)距離) Dminkowski=|xi-zi|,d,i=1,d,i=1,4.2 模式空間的距離與相似性量度,除作為“相異性”測度的距離外,距離還可定義“相似性”測度。模式xj與xk的“相似性”測度sjk可定義為: Sjk=1-Djk/Max(Djk) 上式中的Djk是xj與xk的歐氏距離,而Max(Djk)則是數(shù)據集中相距最遠的兩個模式之間的歐式
13、距離。顯然,對于同一個模式xj,D值為零,Sjj=1,即完全相似;對于數(shù)據集中相距最遠的兩個模式,Sjk為0,相似性最小。,4.3 線性學習機,試考察一個二維模式空間線性可分的例子,如下圖:,x2,x1,d.p.,A,B,w,+,+,+,+,+,+,+,x,-,-,-,-,-,-,-,(X可用原點通過的矢量表示)。 如: 90o,屬于B類,S為負值,A與B可借判塊面(d.p.)分開,在本例中, d.p.是一條直線,這條直線是通過原點的,這一點總是可通過坐標旋轉與變換達到。判決面可借與之正交并通過原點的權矢量w表述。試計算w與x的點積s:(x為該二維模式空間的任意一點) S=wx=/w/x/co
14、s (4-1) 是二矢量間的夾角,顯然,如s為正值,x屬A類,如s為負,則屬B類,所以判決面是一個“分類器”。,4.3 線性學習機,從這個簡單的例子出發(fā),可探討如何求出判決面,即找到一個分類器。求決策面的過程,是借助已知的A類與B類樣本進行的,這一過程稱為訓練過程,這些已知的樣本稱為訓練集。設有一組已知分類的樣本集,可將其隨機分為兩部分,一部分作訓練集(或稱學習集、參比集)用于計算判決面;另一部分作預測集(或稱檢驗集)用于考察找出的判決面能否用來正確地預測訓練集以外的樣本。分類器的優(yōu)劣可通過預測正確率來表征,如下圖:,4.3 線性學習機,4.3 線性學習機,用已知樣本作訓練集進行訓練,即讓計算
15、機向這些已知樣本“學習”,這種求取分類器的模式識別方法,稱為“有監(jiān)督的學習”或“有老師的學習”,這里訓練集就是“老師”。在本章末還要討論一類沒有訓練集可用、完全依靠樣本的自然特性進行分類的方法,這種情況稱為“無監(jiān)督的學習”或“無老師的學習”,亦稱聚類分析方法。,4.3 線性學習機,線性學習機是一種屬有監(jiān)督的學習類型的簡單地尋找判決面的迭代算法。設訓練的目標是找出權矢量w,開始設定一起始權矢量w0,用這一起始矢量按式(4-1)對訓練集的m個樣本模式一一試分類,如某一樣本模式xi用當前的w不能正確分類,則對w進行修正,修正之后,繼續(xù)對余下的樣本進行試驗,如此重復,直至用最后一次修正過的w能將訓練集
16、的全部m個樣本正確分類,這表明能找出正確的分類器,訓練集是線性可分的;否則,訓練集是線性不可分的,學習機工作失敗,整個過程如下圖:,4.3 線性學習機,4.3 線性學習機,起始w0可任意選取,如能選擇含有一定的分類信息的w0,則收斂速度將加快。例如可先計算訓練集中每一類的形心,形心是代表一個類的模式矢量,其第i個參量元素是: Ci=1/n(xij) i=1,2,d n是訓練集中該類的樣本個數(shù),xij是第j個樣本的模式矢量中第i個參量元素,故該類的形心矢量是: c=c1,c2,cd 取訓練集中兩個類的形心的對稱面作w0,可獲較快的收斂效果。,n,j=1,4.3 線性學習機,在用當前w對訓練集中的
17、各模式矢量逐一試分類時,計算其與j個樣本模式矢量xj的點積: s=wxj 如s為正,xj屬A類,否則為B類;如分類結果不正確,說明w不能正確分類訓練集的這一樣本,需作“修正”。修正可用各種辦法進行,方法之一是將當前w對應的判決面對不能正確分類的樣本x進行反射,如果w不能正確分類x,說明當前判決面將x分隔到不正確的一側。令當前的判決面對x進行反射,即可使x處于正確的一側,如下圖:,4.3 線性學習機,令反射的判決面所對應的權矢量為w,它與w的關系是:w=w+cx 如能求出c,即可完成這一修正,顯然,用修正的w計算s應為:s=wx=-s=-wx 即數(shù)值與s相同,而符號相反,由上式求得: c=-2s
18、/(xx),x,w,c.x,w,1,2,設w與x之間的夾角為1 w與x之間的夾角為2,則: 2=- 1 因為1= /2+1 2= /2-2 又因為1= 2,所以1+2= ,4.3 線性學習機,可能在進行這種反射后,原能正確分類的樣本模式會轉到判決面不正確的一側,學習機會自動發(fā)現(xiàn)這種情況,對該樣本再進行反射,只要訓練集本身確實線性可分的,線性學習機總能找到相應的判決面,但判決面的位置并不是唯一的,具體的結果與所用的起始w0及修正方法相關。 學習機的方法曾用于質譜的解析,這種方法只適用于線性可分的系統(tǒng),并且必須嚴格保持n/d3的約束條件,否則分類將無意義。,4.4 K最近鄰法,K最近鄰法(K-NN
19、法)是一種直接以模式識別的基本假設同類樣本在模式空間相互較靠近為依據的分類方法。設想某校舉行校友會活動,過去同班的老同學很自然地聚集在一起暢談。在這種場合,從統(tǒng)計意義上講,某校友屬何班級,大抵可根據其最近鄰的談話者,屬何班級確定。如根據一位與之直接交談的對象確定,稱1最近鄰法,一般取k個最近鄰進行判別較可靠,即k最近鄰法。,4.4 K最近鄰法,K最近鄰法從算法上講極為直觀,而且,即使所研究的體系線性不可分,如下圖的情況:,此法仍能適用。這種方法也不受n/d3條件的約束,在這種方法中,實際上是要將訓練集的全體w存儲在計算機內,對每一個待判別的未知樣本,逐一計算其與各訓練集樣本之間的距離,找出其中
20、最近的k個進行判決。,4.4 K最近鄰法,如k=1,很自然這1個最近鄰樣本屬于何類,未知樣本即判屬該類。如k1,則這k個最近鄰樣本不一定都屬于一類。采用“表決”的辦法,對這k個最近鄰的歸屬情況,按少數(shù)服從多數(shù)進行判決,一個近鄰相當于一票,但應考慮對各票進行加權,因為距離最近的近鄰的類屬,應予以較重的權,按下式計算:,Vt總=,k,j=1,Vtj,Dj,Vtj根據近鄰j的類屬取值,例如A類取+1,B類-1。Dj是待判別的樣本與近鄰j的距離。前面講的任何距離均可采用,亦可以Dj2代替Dj。求得的總票數(shù)Vt總如為正,則判該樣本屬A類,反之屬B類。,4.4 K最近鄰法,可見,k最近鄰法的分類器實際上就
21、是全部訓練集w所含的已知樣本,每次判別都要針對待判別樣本求其與訓練集所有樣本的距離,以找出k最近鄰樣本。這種方法原理雖極簡明,但要求的計算量較大,每次判別實際上是對訓練集做一次庫檢索。能否設法減少計算量?這就提出能否避免每次運用分類規(guī)則時必須存儲并研究整個訓練集w,即能否將訓練集加以精簡,刪除一些對分類來說無關宏旨的樣本。這種精簡,首先需滿足一個基本要求,即對來自訓練集w本身的樣本,用全部訓練集w作K-NN分類,與用精簡了的樣本子集w*應得相同的結果,而w*w,存儲量與運算量均減少,就分類而言,稱w*等價于w或稱w*為對于分類而言是充分的訓練樣本子集。,4.4 K最近鄰法,提出了許多精簡w的算
22、法,此處舉一例說明,設原訓練集w包括x1,x2,x3,,xn共n個樣本,先將xn移入當前空集的w*中,然后取x1利用w*進行K-NN分類,以奶樣分類為例,設xn是牛奶樣,x1是羊奶樣,由于當前w*中只有一個xn,它必然是x1的最近鄰,故判x1為牛奶,即分類錯誤,發(fā)生錯誤分類的原因,是w*中根本不包含羊奶樣?,F(xiàn)將x1移入w*中,將計數(shù)器j增值,試驗j=j+1即x2,如x2用當前w*能正確分類,則不必將x2移入w*中,它可能是“無關宏旨”并不重要的樣本,去掉它訓練集仍能正常用于K-NN分類。如此類推,直至找出的w*能對原訓練中全部樣本正確分類,如找出的w*包含原訓練集中全部樣本,則說明原訓練集中不
23、存在“無關宏旨”的樣本,不能進行精簡。如w*只包含w中部分樣本,則精簡成功,可用于對未知樣本進行分類判決。,4.4 K最近鄰法,K-NN法是一個假設條件相對較少的通用的模式識別方法,K-NN法已用于質譜、核磁共振譜、紅外光譜、極譜等的解析。值得提及的是,K-NN法雖然近乎對訓練集的諸已知樣本”檢索”,但模式識別的基本思路不同于譜圖檢索。在作譜圖檢索時,如庫中不包含待檢查的未知樣本,按常規(guī)檢索方法難于給出結果。而K-NN法是根據最接近的訓練集樣本對未知譜圖的歸屬進行分類。顯然,如能找出一個適當?shù)某浞值挠柧殬颖咀蛹?,對未知樣本譜圖作分類,則當譜圖數(shù)據庫的樣本中根本不包含該未知物時,仍能提供關于未知
24、樣歸屬的信息。而即使是譜圖庫中包含有該未知樣本時,如能借K-NN法以精簡的w*先找出未知樣本的類屬,可大大縮小檢索范圍,減少譜圖檢索工作量。,4.5 原始化學量測數(shù)據的預處理,分析測試一般得到的是定量的數(shù)據,但作為化學模式識別的參量,這些定量數(shù)據常需和其它類型的數(shù)據混合使用,這就會帶來一些新的問題。例如臨床化學分析,如果希望將原始化學分析數(shù)據轉化為醫(yī)療診斷的信息,則必須將化學分析數(shù)據與其他問診記錄綜合處理,這些數(shù)據往往不是定量數(shù)據,例如“有時頭痛”、“經常頭痛”等,屬于定性觀測數(shù)據。,4.5 原始化學量測數(shù)據的預處理,定性觀測數(shù)據有不同的表達方式,如0-1編碼,只回答有或無的問題,無頭痛為0,
25、有頭痛為1;另一種表達方式是按序數(shù)標度,例如將“無頭痛”定為0,“有時頭痛”定為1,“經常頭痛”定為2,當然,這并不是意味著定為2的患者頭痛程度恰好2倍于定為1的患者。而定量數(shù)據,則有相對標度與絕對標度兩種。相對標度中,如0與1、1與2的間隔是相等的,具有準確的定量意義,這與前面講的定性觀測所用的序數(shù)標度不同,則其零標度具有絕對意義。,4.5 原始化學量測數(shù)據的預處理,對原始量測數(shù)據的一項重要預處理就是使各參量之間在數(shù)量標度上有可比性,這可通過按比例調整達到。有時,某一參量的絕對值很大,而另一些參量的絕對值則很小。例如,為研究宇宙鐵隕石試樣的分類,測定樣本中各種元素的含量作為參量,其中鎳的含量
26、約在50000ppm數(shù)量級,而鎵的含量在50ppm數(shù)量級,這種情況下,鎵含量變化10ppm,應與鎳含量變化10000ppm的影響相當,但如果用原始量測數(shù)據不經預處理直接分類,則鎵含量變化的影響將完全被鎳含量的被動所掩蓋。,4.5 原始化學量測數(shù)據的預處理,按比例調整可解決這一問題,以每一參量的區(qū)間(即最大值xi,max與最小值xi,min之差)對該參量的值進行按區(qū)間比例調整可達到之一目的:,xi,調整=,xi,原始- xi,min,xi,max- xi,min,利用區(qū)間比例調整的方法存在一個缺陷,就是如原始數(shù)據中有某一個異常的極端值,則經過調整后所有數(shù)據都近乎相等,為避此弊,可采用基于標準正態(tài)
27、分布的Z變換方法對數(shù)據作預處理,使每一參量均變成零均與單位方差的量:,xi,調整=,xi,原始- xi,原始,Vi,原始,式中xi,原始是第i個參量原始數(shù)據集的均值,Vi,原始為其方差。,4.5 原始化學量測數(shù)據的預處理,對原始數(shù)據進行的另一種預處理是進行數(shù)據的編碼與變換。前面提到的定性數(shù)據中的0-1編碼,對定量數(shù)據亦可以0-1編碼,如各光譜通道的強度超過某一臨界值編碼為1,低于此值則編碼為0,不過一般的化學模式識別的實踐表明,0-1類型的參量用于分類效果不理想。數(shù)據變換有各種方式,許多模式識別方法要求變量在每一類范圍內有較對稱的分布,有時這些條件得不到滿足,簡單的變換如取對數(shù)往往能使情況改善
28、。 數(shù)據預處理的另一方面是加權。對較重要的參量可賦予較大的權重。,4.6 參量選擇,選取合適的參量,構成合適的模式識別空間,是模式識別工作成敗的一個關鍵。對于某些分類方法,如線性學習機,必須恪守n/d3的條件,因此,必須從大量可用的參量中選取與分類關系最大的參量。 設原始的模式矢量含有d個參量,xij,i=1,2,d。在所有的n個樣本中,可以設想,方差較大的參量,即不同樣本取值差異較大的參量,對分類應當作用更大。如某一變量的方差很小(極端的情況下是該變量對所有樣本取相同數(shù)值,方差為零),這種變量對于分類而言顯然無意義。因此,我們可以方差Vi作為權因子,來度量參量xij的重要性:,Vi= (xi
29、j-xi)2,n-1,1,n,j=1,此處,xi是該參量的均值,在選擇參量時,將Vi小的參量優(yōu)先棄去。,4.6 參量選擇,對于有監(jiān)督的學習的情況,即訓練集包含已知分類的樣本,一種考慮是選取最能區(qū)別不同類別的參量,設同一類的樣本為一組,可計算組間方差V組間,i及組內方差V組內,i ,定義權因子gi:,gi=,V組內,i,V組間,i,優(yōu)先選取gi值大的參量構成模式矢量進行分類。 Fisher權重按下式定義:,Fi=,(xi1 xi2)2,Vi1 Vi2,4.6 參量選擇,式中xi1、xi2分別是訓練集中類1與類2的i參量的均值,Vi1與Vi2是這兩類樣本計算出的i參量的方差,F(xiàn)i權重大,表明該參量
30、數(shù)i對二個類而言差別大,應優(yōu)先選用。 在選擇參數(shù)變量時,一個重要的指導原則是盡量選擇不相關的變量作參量,因為,如新選入的變量與已選入的變量顯著相關,則增選這種變量陡然增加計算與存儲量,而無益于信息的增加。同理在已選入大量參量時,如何從這些大量參量中找到一個互不相關的子集?在下一節(jié)將結合降維與顯示技術加以討論。,4.6 參量選擇,利用單個變量的方差等指標作為定量依據對變量進行選擇,并不是在任何情況下都能選出最佳子集。因為不能排除被選入的變量之間存在相關關系,表面上單獨考察各選入變量都能提供重要的分類信息,而實質上他們之間許多信息是重復的,變量分類的能力被“高估”了。從根本上來說,對變量逐個單獨計
31、算有關統(tǒng)計特征來進行考察,可能是一種違反多變量世界客觀規(guī)律的方法,因為單個變量不能提供區(qū)分不同類的依據,并不意味著這個變量與其他變量結合起來不能提供正確分類的的信息。單獨考察兩個變量時能提供二個類較大的差異,但可能這種差異是相關的同一性質;而第三個變量雖只能提供較少的差異,但可能是與前二個變量不相關的重要變量。,4.6 參量選擇,一般,我們在單個地選取參量時,如取誤選的概率為5%(一般的置信水平,即(1-0.95)=0.05),則在存在p個變量的情況下,這種犯錯誤的概率已不是1-0.95=0.05,而是1-0.95p。當p=7時,此值為30%,對于p=50,犯錯誤的概率是90%。,4.7 降維
32、與顯示技術,含有d個參量的模式矢量,是d維空間中的一個點,如d等于2或3,可以直接用圖形顯示這些模式矢量。圖形顯示具有直觀性,現(xiàn)代計算機提供了強有力的屏幕圖形顯示功能,而人眼具有很強的識別圖形能力,同樣的字由不同的人書寫,人眼能識別其細微差別,辨識手跡真?zhèn)巍T诙S或三維空間中顯示的模式分布情況,借人眼常能識別存在的分類圖景,也就是說人眼是強有力的模式識別器。而當d3時,這種直接顯示則不可能,這就涉及降維的問題。如何將d維空間的圖景,在二維或三維空間中顯示出來,并盡可能減少原d維空間中分類信息的丟失?這個問題與前一節(jié)講述的參量選擇問題有密切的關系實際上,從大量參量中找出相互正交的能在給定誤差范圍
33、內表述原d維空間圖景的一個子集,是最合理的選擇參量的方法之一。,4.7 降維與顯示技術,現(xiàn)試將參量i(共d個)在樣本k(共n個)上的取值xik組成(d x n)矩陣X,將其分解得: t 22t AAt 這里采用交互檢驗法找出A抽象因子,或稱抽象參量即從原d維空間降到了A維空間,Ad。這A個抽象參量是相互正交的,取與前二個最大的特征值對應的與 對畫作圖,可從原d維空間投影到二維空間。例如,Jellum等用毛細管色譜法對16個腦組織試樣進行分析,在色譜圖中取多達156個參量(可辨認的156個峰處的峰高),組成(156X16)階矩陣X,通過將矩陣作因子分解,按上式求出與試樣的對應的、 對畫,得到的顯
34、示圖形如下:,4.7 降維與顯示技術,三角形是有腫瘤的腦組織樣。4號樣本標簽為“腫瘤腦組織”樣。從顯示圖看,這個樣本應是正常腦組織樣。經查核,4號樣確是正常腦組織誤標為“腫瘤樣”。從這個例子可以看出,用主成分分析的方法,取最大的2(或3)個特征值所對應的a,可在二維空間(或三維空間)顯示樣本在模式空間的分布,用人眼即能進行分類。這里還可以看出,1與2實際上代表了原始參量的線性組合,可認作是一種原參量的加權平均,這種情況下,原參量個數(shù)愈多,所含信息也愈多。,2,4.7 降維與顯示技術,本例中d=156,n=16,n/d3的規(guī)則對本例顯然不成立,但是,對于上圖,這里的維數(shù)是2,即d=2,n/d 3
35、 的規(guī)則仍符合以上討論的方法得到的是自然的分類。對于有監(jiān)督的分類,可以設法使投影向與不同類樣本更清晰地分開的方向進行。這種依賴于分類的投影可有不同方式,例如在投影過程中使不同類的樣本兩兩之間距離的平方和最大,或使同類的樣本兩兩之間距離的平方和最小,或者同時使用這兩個條件進行投影。,4.7 降維與顯示技術,另一類降維與顯示技術是非線性映射,按這種方法得到的顯示圖形,不是原參數(shù)的線性組合。一種簡單的方法是在雙擇分類時先計算每一類的形心,以這兩個形心作為參比點,然后計算每個樣本與這兩個參比點間的距離Di,1與Di,2,以Di,1與Di,2對畫,即得各樣本在二維平面上的非線性映射如下圖:,除傳統(tǒng)的顯示
36、外,還可采用一些特殊的圖形顯示法。例如有人建議將模式參量以漫畫臉型顯示出來,其根據是人們對臉型有特殊的識別能力。如一個臉部圖的關鍵組成部分與模式參量相關聯(lián),不同的樣本模式將顯示出不同的臉譜。,4.7 降維與顯示技術,顯示技術也不局限于圖形,還可利用其它可辨識的工具,例如聲音,將化學量測數(shù)據編碼為樂譜。人耳對熟悉的旋律有很強的辨聽能力,可以設想,如將某種“正常”的樣本的參量(例如健康人的臨床化學分析數(shù)據,正常生產過程的控制參量等)編碼,使計算機輸出一熟知的旋律,在出現(xiàn)異常音調時,即可辨聽出有關樣本偏離了正常狀態(tài)。,4.8 無監(jiān)督的分類:聚類分析,在本章前面的討論中,已涉及一些無監(jiān)督分類的例子。無
37、監(jiān)督的分類,即聚類分析的目標,是要在化學模式空間中找到客觀存在的類別。聚類分析方法可分為凝聚法與分離法兩類,凝聚法開始時將每個樣本認作一個類,然后由這些類逐步凝聚形成較大的類。而分割法則與之相反,開始時將所有的樣本認作一個類,再逐步分割為較小的類。,4.8 無監(jiān)督的分類:聚類分析,一種典型的凝聚分類方法按下述步驟進行:首先計算各樣本之間距離矩陣,將距離最近的樣本合并,取兩者在模式空間的中心點作為一個新點,重新計算各樣本點及新點的距離矩陣,如此重復,每次點數(shù)減少,直至所有樣本均合并到一點,根據計算過程可給出譜系圖。,4.8 無監(jiān)督的分類:聚類分析,以薄層色譜為例。設有A、B、C、D、E5個溶劑系
38、統(tǒng),分離a、b、c、d4種物質,比移值hRF(RFx100)數(shù)據列于下表:,4.8 無監(jiān)督的分類:聚類分析,今欲將薄層色譜(TLC)體系分類,例如欲找出A-E諸溶劑中哪些是相似的,哪些是不相似的,這種信息對選擇適宜的溶濟體系進行二維TLC分離有意義首先將A-E各認作獨立的類,由上表可計算距離陣,距離采用歐氏距離,如下表:,4.8 無監(jiān)督的分類:聚類分析,由上表可見,最小的距離是DE:即D與E是最相似的溶劑體系,可將D與E合并成一類D*。再計算各點的距離如下表:,4.8 無監(jiān)督的分類:聚類分析,上表中C點與新的D*點間的距離,是原CD與CE間距離的均值。凝聚過程繼續(xù)進行,當前最小的距離是BC,將
39、B與C合并為B*。如下表:,4.8 無監(jiān)督的分類:聚類分析,最后將A與B*合并為A*,如下表:,由上述結果可繪出譜系圖如下:,4.8 無監(jiān)督的分類:聚類分析,由譜系圖可得到TLC體系的自然分類,如欲將溶劑體系分為兩類,可將最高的連接線切斷,即是A、B、C一類,D、E是另一類。如欲將分為三類,再將次高的連接線斷開,即A是一類,B、C是一類, D、E是另一類。依次類推。 用圖論中最小生成樹方法可進行類似的運算,圖由結點的集合V和邊的集合E組成: V=V1, V2,Vn E=e1, e2,em,4.8 無監(jiān)督的分類:聚類分析,其中每一條邊可以一個結點對表示: ej=(Vi1, Vi2) i=1,2,
40、m 即圖G可表示為: G= 在一個圖中邊的旁側可附加數(shù)字以描述此邊的某種數(shù)量特征,這稱為邊的權,相應邊稱有權邊,具有有權邊的圖稱為有權圖,如圖的各結點均相互以邊連接,且不形成回路(起始結點與終止結點相同),則稱為樹,如樹的各邊之和為最小,稱為最小生成樹。最小生成樹可按Kruskal算法找出這個算法十分簡單,要求將權值最小的邊繪入樹中,但不得與已有的邊形成回路。,4.8 無監(jiān)督的分類:聚類分析,現(xiàn)用同一個TLC實例說明最小生成樹算法。先取最短的距離,作為最小樹的邊DE,次小的距離是17.3,聯(lián)接BC。如下圖:,D,E,14.1,D,E,14.1,B,C,17.3,下一個最小數(shù)的邊是AC:,14.
41、1,17.3,38.7,D,E,B,C,A,4.8 無監(jiān)督的分類:聚類分析,下一個最小數(shù)邊是AB(40.0)但若繪入圖中,將形成回路ABC,違反Kruskal算法,故應取再下一個最小數(shù)的邊BD(70.7):,4.8 無監(jiān)督的分類:聚類分析,將最小生成樹的最大數(shù)的邊切割,可得到兩個類,本例中是DE和BCA;如欲再細分,可切割次大數(shù)的邊(38.7),得DE、BC和A三個類,余類推。顯然,這與前面敘述的方法得到的結果是相同的。 分割法較少使用,仍以TLC體系為例說明其要點。開始設A、B、C、D、E屬于一類,先從A至E中找出與其它元素差異最大的元素,即計算每一元素與其它各元素的距離之和。對A而言,總距
42、離是: AB+AC+AD+AE=300.5,4.8 無監(jiān)督的分類:聚類分析,對B、C、D、E相應得:200.1、214.7、273.3、278.2,故A是與其他元素差異最大的元素。因此,可暫將ABCDE分割為BCDE和A。現(xiàn)對這個臨時分割的BCDE進行考察,看每一元素是較接近A,抑或較接近BCDE中其它元素。例如,對于B,A與B的距離是40.0,而B與C、D、E的平均距離是(17.3+70.7+72.1)/3=53.4,故知B與A的距離同B與C、D、E的平均距離比較,B更接近A,距離差是53.4-40.0=13.4;對C而言,C更接近A,比C與B、D、E的平均距離近20.0;對D、E而言,則D
43、更接近B、C、E,距A較遠;E亦如此。故在BCDE中,C最接近A。,4.8 無監(jiān)督的分類:聚類分析,將臨時分割改為AC和BDE,此時又對BDE進行運算,先算B與A、C的平均距離(28.6)及與D、E的平均距離(71.4),即B更接近A、C,比與D、E的距離近42.8。同理,算得D更接近B、E(與A、C相距較遠),E更接近B、D(與A、C相隔較遠),故將臨時分割又改成ABC及DE?,F(xiàn)再對剩下未分割的D、E進行運算,對于D,D、E的距離是14.1,D到A、B、C的平均距離是86.4,故D更接近E。到此,可認為ABCDE的第一次分割已告確定,即應分為ABC和DE,對ABC及DE,重復前面類似的步驟,
44、DE很自然只能分割成D和E,而ABC則首先分割成A與BC,再將BC分割成B與C。至此,每一個類只含有一個元素,分割完成。如下圖:,4.8 無監(jiān)督的分類:聚類分析,4.9 化學模式識別的應用,化學模式識別為將化學量測數(shù)據轉化為有用的信息提供了有力的手段,本節(jié)僅舉部分實際應用的例子。 將光譜數(shù)據轉化為物質化學結構的信息是化學模式識別應用的重要方面。 在前面的討論中提到過確定奶樣是牛奶或是羊奶的例子。有文獻報道,用氣相色譜法測定20個奶樣中15種脂肪酸作參量,分類正確率達85%100%,比目測比較色譜圖可靠。類似奶的來源的問題在化學量測中常會遇到。例如原油泄漏,需確定泄漏來源,追查有關責任。美國海岸巡警負責監(jiān)視水域污染情況,確定清理責任,利用分析儀器與化學模式識別相結合的方法,能找出泄漏原油的來源。,4.9 化學模式識別的應用,作為參量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)數(shù)據分析外包服務合同
- 農業(yè)產業(yè)鏈整合與供應鏈保障合作協(xié)議
- 水域漁業(yè)合作開發(fā)管理協(xié)議
- 一年級期末考試作文春天真的來了200字(8篇)
- 二零二五年度廠房租賃合同:電子商務倉儲租賃協(xié)議
- 2025版建筑工程安全責任施工合同書下載秘籍
- 二零二五年度epc土壤修復工程承包合同
- 2025版跨境電商專用場鋪面租賃服務合同
- 2025版板車運輸與倉儲一體化服務合同
- 2025至2030家居用品行業(yè)市場深度研究與戰(zhàn)略咨詢分析報告
- 急性肺栓塞課件
- 高校中外合作辦學人才培養(yǎng)機制
- 《肢體殘疾評定》課件
- 停車場數(shù)據分析與管理
- 全等三角形經典輔助線做法匯總
- 客運列車保潔作業(yè)服務方案
- 2023年廣東省廣州市白云區(qū)委政法委招聘1人筆試參考題庫(共500題)答案詳解版
- 心理治療師(初級)必刷必練題庫(600題)
- 廣東省廣州市2024屆高三上學期8月階段訓練數(shù)學試題
- 電離方程式的書寫高一上學期化學人教版(2019)必修第一冊
- 哈薩克斯坦勞動法中文版
評論
0/150
提交評論