《粗糙集理論與方法》讀書筆記_第1頁
《粗糙集理論與方法》讀書筆記_第2頁
《粗糙集理論與方法》讀書筆記_第3頁
《粗糙集理論與方法》讀書筆記_第4頁
《粗糙集理論與方法》讀書筆記_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、粗糙集理論與方法讀書筆記智能信息處理是當前信息科學理論和應用研究中的一個熱點領域。由于計算機科學與技術的發(fā)展,特別是計算機網絡的發(fā)展,每日每時為人們提供了大量的信息,信息量的不斷增長,對信息分析工具的要求也越來越高,人們希望自動地從數據中獲取其潛在的知識。特別是近20年間,知識發(fā)現(規(guī)則提取、數據挖掘、機器學習)受到人工智能學界的廣泛重視,知識發(fā)現的各種不同方法應運而生。1 粗糙集概述粗糙集(Rough Set,有時也稱Rough集、粗集)理論是Pawlak教授于1982年提出的一種能夠定量分析處理不精確、不一致、不完整信息與知識的數學工具粗糙集理論最初的原型來源于比較簡單的信息模型,它的基本

2、思想是通過關系數據庫分類歸納形成概念和規(guī)則,通過等價關系的分類以及分類對于目標的近似實現知識發(fā)現。由于粗糙集理論思想新穎、方法獨特,粗糙集理論已成為一種重要的智能信息處理技術,該理論已經在機器學習與知識發(fā)現、數據挖掘、決策支持與分析等方面得到廣泛應用。目前,有三個有關粗糙集的系列國際會議,即:RSCTC、RSFDGrC和RSKT。中國學者在這方面也取得了很大的成果,從2001年開始每年召開中國粗糙集與軟計算學術會議;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列國際學術會議在中國召開。粗糙集理論與應用的核

3、心基礎是從近似空間導出的一對近似算子,即上近似算子和下近似算子(又稱上、下近似集)。經典Pawlak模型中的不分明關系是一種等價關系,要求很高,限制了粗糙集模型的應用。因此,如何推廣定義近似算子成為了粗糙集理論研究的一個重點。目前,常見的關于推廣粗糙集理論的研究方法有兩種,即:構造化方法和公理化方法。構造化方法是以論域上的二元關系、劃分、覆蓋、鄰域系統(tǒng)、布爾子代數等作為基本要素,進而定義粗糙近似算子,從而導出粗糙集代數系統(tǒng)。公理化方法的基本要素是一對滿足某些公理的一元集合算子,近似算子的某些公理能保證有一些特殊類型的二元關系的存在;反過來, 由二元關系通過構造性方法導出的近似算子一定滿足某些公

4、理。事實上,有兩種形式來描述粗糙集,一個是從集合的觀點來進行,一個是從算子的觀點來進行。那么,從不同觀點采用不同的研究方法就得到粗糙集的各種擴展模型。擴展模型的研究以及基于其上的應用研究已經成為新的研究熱點。粗糙集理論與其他處理不確定和不精確問題理論的最顯著的區(qū)別是它無需提供問題所需處理的數據集合之外的任何先驗信息, 所以對問題的不確定性的描述或處理可以說是比較客觀的, 由于這個理論未能包含處理不精確或不確定原始數據的機制, 所以這個理論與概率論, 模糊數學和證據理論等其他處理不確定或不精確問題的理論有很強的互補性。因此,研究粗糙集理論和其他理論的關系也是粗糙集理論研究的重點之一。如果我們將研

5、究對象看成是現象,那么我們可以將這些現象分類?,F象被分為確定現象與不確定現象。不確定現象有分為隨機現象,模糊現象和信息不全的粗糙現象。如下所示:相對于前兩種現象的處理,粗糙現象是基于不完全的信息或知識去處理不分明的現象,因此需要基于觀測或者測量到的部分信息對數據進行分類,這就需要與概率統(tǒng)計和模糊數學不同的處理手段,這就是粗糙集理論。直觀地講,粗糙集是基于一系列既不知道多了還是少了,也不知道有用還是沒用的不確定、不完整乃至于部分信息相互矛盾的數據或者描述來對數據進行分析、推測未知信息。下面我們對粗糙集的基本特征、以及數學符號進行簡述。2粗糙集的特點粗糙集的特點是利用不精確、不確定、部分真實的信息

6、來得到易于處理、魯棒性強、成本低廉的決策方案。因此更適合于解決某些現實系統(tǒng),比如,中醫(yī)診斷,統(tǒng)計報表的綜合處理等。粗糙集的另一個重要特點就是它只依賴于數據本身,不需要樣本之外的先驗知識或者附加信息,因此挑選出來的決策屬性可以避免主觀性,有英雄不問出身的意味。用粗糙集來處理的數據類型包括確定性的、非確定性的、不精確的、不完整的、多變量的、數值的、非數值的。粗糙集使用上、下近似來刻畫不確定性,使得邊界有了清晰的數學意義并且降低了算法設計的隨意性。粗糙集理論與其他處理不確定和不精確問題理論的最顯著的區(qū)別是它無需提供問題所需處理的數據集合之外的任何先驗信息, 所以對問題的不確定性的描述或處理可以說是比

7、較客觀的, 由于這個理論未能包含處理不精確或不確定原始數據的機制, 所以這個理論與概率論, 模糊數學和證據理論等其他處理不確定或不精確問題的理論有很強的互補性。因此,研究粗糙集理論和其他理論的關系也是粗糙集理論研究的重點之一?;诖植诩碚摰膽醚芯恐饕性趯傩约s簡、規(guī)則獲取、基于粗糙集的計算智能算法研究等方面。由于屬性約簡是一個NP-Hard問題,許多學者進行了系統(tǒng)的研究?;诖植诩募s簡理論發(fā)展為數據挖掘提供了許多有效的新方法。比如,針對不同的信息系統(tǒng)(協(xié)調的和不協(xié)調的、完備的和不完備的),結合信息論、概念格、群體智能算法技術等都有了相應的研究成果?;诖植诩碚摰膽靡灿楷F在各行各業(yè)。

8、許多學者將粗糙集理論應用到了工業(yè)控制、醫(yī)學衛(wèi)生及生物科學、交通運輸、農業(yè)科學、環(huán)境科學與環(huán)境保護管理、安全科學、社會科學、航空、航天和軍事等領域。2粗糙集的基本概念從經典的角度來看,每個概念都包含其內涵和外延。為了給出概念內涵和外延的具體描述,我們考慮一個簡單的知識表達系統(tǒng),即信息表。信息表就是一組對象的集合,對象通過一組屬性來描述。2.1定義粗糙集要涉及論域(這與模糊系統(tǒng)相似),還要涉及屬性集合(這被認為是知識,或者知識庫)。當然,也要有屬性值域,以及從到的信息函數。因此,一個信息系統(tǒng)可以表示為一個四元組。在不混淆的情況下,簡記為,也稱為知識庫。等價關系(通常用來代替分類)是不可或缺的概念,

9、根據等價關系可以劃論域中樣本為等價類。而每個等價類被稱為同一個對象。但是,等價關系又是建立在不可分辨概念之上的,為了便于描述這里的等價關系,我們首先介紹不可分辨性。設為一個非空子集,如果,均有成立,那么,我們稱關于屬性子集不可分辨。不可分辨關系,簡記為,是一種等價關系(易驗證它滿足等價關系的數學公理),于是可以將論域中的元素分成若干等價類,每一個等價類稱為知識庫的知識顆粒。全體等價類組成的集合記為,稱之為基本集合。若集合X可以表示成某些基本集的并時,則稱X是B精確集,否則稱為B粗糙集。粗糙集中的“粗糙” 主要體現在邊界域的存在,而邊界又是由下、上近似來刻畫的。對于任意,關于現有知識的下、上近似

10、分別定義為:,。的確定域,是指論域中那些在現有知識之下能夠確定地歸入集合的元素的集合。反之,被稱為否定域。邊界域是某種意義上論域的不確定域,即在現有知識之下中那些既不能肯定在中,又不能肯定歸入中的元素的集合,記為。樣本子集X的不確定性程度可以用粗糙度來刻畫,粗糙度的定義為:式中表示集合的基數(集合中元素的個數)。顯然,如果,則稱集合X關于R是確定的;如果,則稱集合X關于R是粗糙的,可認為是在等價關系R下逼近集合X的精度。為了使得上述概念具體化,下面我們舉一個例子說明如何理解和計算以上相應的概念和對應量。例. 針對一下醫(yī)學信息表我們來理解前面所提到的概念。表1 某醫(yī)療信息表屬性對象條件屬性C決策

11、屬性D頭疼r1肌肉疼r2體溫r3流感是是正常否是是高是是是很高是否是正常否否否高否否是很高是依據此表,如果取屬性子集,。 那么我們下面給出的上近似集、下近似集、確定域、邊界域、粗糙度。解:計算論域U的所有R基本集:令 確定樣本子集與基本集的關系計算、:計算近似精確度:與粗糙度類似,在給出了兩個知識集(特征屬性)的相對肯定域的概念之后,我們也可以一個量來刻畫兩個知識集的依賴度。設為一個知識庫,為兩個知識集。令,稱為知識依賴于知識的依賴度。特別,當時稱為完全依賴;時,部分依賴;時,完全獨立于知識。2.2近似空間語言的所有可定義集正好構造成一個代數,即: 。序對稱為一個Pawlak近似空間,簡稱近似

12、空間。所以,也可以將語言的所有可定義集記為。 通過,可以構造一個代數,即,它包含空集和等價關系構成的等價類及其并,并且在交、并和補運算上是封閉的。那么,Pawlak近似空間也唯一確定了一個拓撲空間。2.3上下近似針對不可定義集,顯然不可能構造一個公式來精確描述,只能通過上下界逼近的方式來刻畫,這就是粗糙集理論中的上下近似算子。定義2 設是信息表上的等價關系,上下近似算子(下文我們采用縮寫形式)定義為:上近似是包含的最小可定義集,下近似是包含在中的最大可定義集。根據定義2,可定義集顯然有相同的上下近似。剛才我們在可定義的基礎上構造了一對近似算子。也就是說,只有當對象不可定義時,才會用上下近似的方

13、法來描述。考慮子集,論域空間將被分成三個區(qū)域:(1) 集合的正域: (2) 集合的負域: (3) 集合的邊界域: 。如果是空集,則稱集合關于關系是清晰的(crisp);反之,如果不是空集,則稱集合為關于關系粗糙的 (rough)。3. 理論研究方法經典粗糙集理論的基本思想是基于等價關系的粒化與近似的數據分析方法。粗糙集理論與應用的核心基礎是從近似空間導出的一對近似算子,即上近似算子和下近似算子(又稱上、下近似集)。目前,主要有兩種研究方法來定義近似算子:構造化方法和公理化方法。構造化方法的主要思路就是通過直接使用二元關系的概念來定義粗糙集的近似算子,從而導出粗糙集代數系統(tǒng)。構造化方法所研究的問

14、題往往來源于實際,所建立的模型有很強的應用價值,其主要缺點是不易深刻體現近似算子的公理(代數)性質。所以,也有許多學者從公理化的角度來研究粗糙集。公理化方法也稱為代數方法,有時也稱為算子方法,這種方法不像構造化方法中是以二元關系為基本要素的,它的基本要素是一對滿足某些公理的一元近似算子,即粗糙代數系統(tǒng)中近似算子和是事先給定的。然后再去找二元關系使得由該二元關系及其生成的近似空間按構造性方法導出的近似算子恰好就是給定的由公理化方法定義的集合算子。近似算子的某些特殊公理能保證有一些特殊類型的二元關系存在,使這些關系能夠通過構造方法產生給定的算子;反之,由二元關系通過構造方法導出的近似算子一定滿足某

15、些公理,使這些公理通過代數方法產生給定的二元關系。目前,關于粗糙集理論的公理化研究,已經取得了進一步的成果。關于公理化的研究主要從公理組的極小化及獨立性兩方面展開研究工作。近年來,許多學者也展開了關于模糊粗糙近似算子、粗糙模糊近似算子、直覺模糊粗糙近似算子的構造性定義及其公理集的研究;其中,關于公理集的最小化問題、獨立性問題還有待進一步的研究。4 粗糙集模型擴展4.1 上下近似的擴展定義如果二元關系R 是等價關系 x R , 在近似空間(U ,R)上就得到Paw lak 的基于元素的定義 ;如果R 是等價關系 x R , 在近似空間(U , (U/R)上則有基于粒的定義 37;如果二元關系R

16、是子集(子系統(tǒng)), 在近似空間(U , (U/R)上則有基于子系統(tǒng)的定義。基于元素(element based)的定義:apr(X =x x U , x R X =x x U , y U xRy , y X ,apr(X )=x x U , x R X=x x U , y U xRy y X 。基于粒(g ranule based)的定義:apr(X)= x R x R (U/R), x R X ,apr(X)= x R x R (U/R), x R X?;谧酉到y(tǒng)(subsy stem based)的定義:apr(X)=Y Y (U/R), X Y ,apr(X)=Y Y (U/R), Y

17、X。上述3 種定義分別從元素、粒和子系統(tǒng)的角度對等價關系進行了闡述.這3 種等價的定義給出了粗糙集理論中上下近似的不同表達方式。在基于元素的定義中, 如果一個元素x 的所有等價元素(也就是它的等價類)都在集合X 中, 則x在X 的下近似apr(X )中;如果至少有一個x 的等價元素在X 中, 則這個元素x 在X 的上近似apr(X)中.在基于粒的定義中, 所有包含于X 的等價類的并組成下近似apr(X), 所有和X 交集不為空的等價類的并組成上近似apr(X).在基于子系統(tǒng)的定義中,下近似apr(X )就是包含于X 的在子系統(tǒng)(U/R)中的那些最大可定義集, 上近似apr(X)就是那些包含X

18、的在子系統(tǒng)(U/R)中的最小可定義集.有了上下近似的定義, 就很容易得到粗糙集理論中的其它概念的定義, 比如邊界域、正域、負域等.這3 種定義為結合其它理論擴展粗糙集模型建立起了聯系.4.2基于元素的擴展模型設R U ×U 是論域上的一個任意二元關系,則其定義了一個擴展的近似空間apr =(U , R).從集合的觀點來看, 利用非等價關系顯然可以擴展3.1 節(jié)中基于元素的粗糙集定義.例如, 將元素x 所在的等價類 x R 看成是x 的一個鄰域, 從而得到基于鄰域的粗糙集模型 38 .鄰域關系Rs(x)只要求滿足自反性, 不要求一定滿足對稱性或者傳遞性.那么在基于元素的定義中, 將等價

19、類 x R 用非等價關系R s(x)代替, 就得到基于非等價關系R s(x)的粗糙集模型:apr(X)=x x U , Rs(x) X ,apr(X)=x x U , Rs(x) X.經典粗糙集模型是鄰域模型中Rs(x)為等價關系時的特例.同理, 讀者也可以定義其它的非等價關系來擴展粗糙集理論.比如, 為了處理不完備信息系統(tǒng), 已有的多種擴展模型:容差關系、相似關系、量化容差關系、限制容差關系和特征關系等等都是利用各種非等價關系來擴展基于元素的粗糙集定義而得到的.從算子的觀點來看, 粗糙集模型中的近似算子可以和模態(tài)邏輯中的必然性算子和可能性算子相聯系起來.在模態(tài)邏輯的公理化系統(tǒng)中, 如果必然性

20、算子用下近似算子L 來代替, 可能性算子用上近似算子H來代替, 非聯結符用集合補運算代替, 合取聯結符 用集合交運算 代替, 析取聯結符 用集合并運算 代替, 蘊涵用集合包含 代替, 那么得到的公理化系統(tǒng)就是一個粗集代數系統(tǒng).比如, 已經有文獻基于模態(tài)邏輯提出分級模態(tài)粗糙集模型和概率模態(tài)粗糙集模型等。關于模態(tài)邏輯的研究成果已經很多, 如果將模態(tài)邏輯中的研究方法與研究成果移植到粗糙集理論研究中來, 或者結合粗糙集理論來研究模態(tài)邏輯都將是新的研究方向。4.3基于粒的擴展模型基于粒的粗糙集定義是從等價類(劃分)的角度出發(fā)來討論的.在基于Paw lak 經典粗糙集的粒計算模型中, 劃分就是一個基本粒.

21、顯然, 如果擴展劃分的概念, 就可以得到基于粒的擴展粗糙集模型;同時, 這也為粒計算的模型研究指明了新的研究方向.Zakow ski 在文獻中將劃分擴展到了覆蓋.設C 是論域U 上的子集族, 如果C 中的所有子集都不空, 且 C =U , 則稱C 是U 的覆蓋.那么在基于粒的定義中, 用C 的子集代替 x R , 覆蓋C 代替(U/R), 就得到一對覆蓋上下近似算子:apr X =Y Y C ,Y X ;apr X =Y Y C ,Y X.另一方面, 基于這些擴展模型的應用研究也得到了發(fā)展, 比如覆蓋粗糙集擴展模型應用于詞計算、社會科學、軟件水印與軟件混淆、泛邏輯中等相關的成果已經開始出現.目

22、前, 基于粒的粗糙集理論擴展主要結合了覆蓋和形式概念分析理論, 如何結合其它粒計算工具擴展粗糙集理論將是未來的研究方向之一。4.4基于子系統(tǒng)的擴展模型在標準的基于子系統(tǒng)的粗糙集模型中, 定義上下近似用到的是相同的子系統(tǒng).如果要擴展基于子系統(tǒng)的定義, 我們需要兩個子系統(tǒng), 一個用于定義上近似, 一個用于定義下近似。同理, 也可以結合拓撲、閉系統(tǒng)、布爾代數、格、偏序等來擴展粗糙集理論;或者, 從其它理論出發(fā)來探討他們同粗糙集理論的關系.設計合適的子系統(tǒng)是研究的關鍵。4.5 雙論域模型在經典Paw lak 粗糙集模型中考慮的論域通常只有一個U , 我們也可以從論域上來推廣粗糙集理論.第一次將粗糙集模

23、型推廣到了兩個不同但相關聯的論域上.設U ,V 是兩個論域, 元素u U 和v V 是相容的, 記為u U .不失一般性, 假定針對每個u U , 都有一個v V 存在, 使得他們是相關聯的, 反之亦然.那么U , V 之間的相容關系就可以用一個多值映射:U 2V 來定義, 即(u)=v V u v .為了擴展粗糙集模型,定義了如下一對上下近似:apr (X)=u U (u) X ;apr (X)=u U (u) X.上述定義是節(jié)基于元素定義的模型推廣, 這時的二元關系就變成為兩個論域笛卡爾乘積的一個子集.進一步研究推廣了基于雙論域的粗糙集模型, 并將其應用于不確定性推理中,結合模糊集將該理論

24、推廣到多個論域, 其特是論域U 中的模糊集X 的上下近似是由另一個論域V中的元素來表達的.如何結合其它理論從多論域的角度來研究粗糙集理論還有待進一步的工作。4.6 概率模型根據是否使用了統(tǒng)計信息, 粗糙集模型擴展大致可以分為兩類:一類是經典的代數粗糙集模型, 另一類是概率型的粗糙集模型.前述各種模型都是基于代數粗糙集模型的擴展.概率型的粗糙集模型在粗糙隸屬度函數的基礎上來討論.對于任意X U , 粗糙隸屬度函數定義為X (x)= X x R x R .提出了決策粗糙集理論, 得到了X 的上下近似定義:apr, (X)=POS , (X ) BND , (X)=x x U ,P(X r(x)&g

25、t;,apr, (X)=POS , (X )=x x U ,P(X r(x).進一步分析會發(fā)現許多概率型粗糙集模型可以由決策粗糙集導出, 它們均可以視為決策粗糙集的特例.比如, 當=1 , =0 時, 概率函數取P(X r(x)= X r(x)r(x) ,那么apr1 , 0(X)和apr1 , 0(X)將表示為apr1 , 0(X)=x x U , r(x) X ,apr1 , 0(X)=x x U , r(x) X .顯然, 如果r(x)是等價關系, 這個模型就是經典Paw lak 粗糙集模型.指出經典代數粗糙集模型的約簡理論不再適用于概率型粗糙集模型, 由此提出了決策粗糙集約簡所需保持不

26、變的若干特征, 并系統(tǒng)闡述了決策粗糙集約簡理論.決策粗糙集理論在網絡支持系統(tǒng)、屬性選擇和信息過濾中得到了應用。更多的基于概率的模型得到發(fā)展, 比如:0.5-概率粗糙集模型、可變精度粗糙集模型(VPRS)、參數化粗糙集模型和貝葉斯粗糙集模型等.目前, 概率型粗糙集的有關研究主要有3 個重點:(1)概率型上下近似集和正、負、邊界區(qū)域特征;(2)概率型規(guī)則的語義解釋;(3)概率型粗糙集屬性約簡理論5 粗糙集和知識空間粗糙集理論和知識空間理論都是研究知識結構的理論;但他們用于解決不同的實際問題.粗糙集主要研究如何對數據進行分析及知識發(fā)現;而知識空間著重對問題集進行分析, 從而對個體知識狀態(tài)進行評估.如

27、何將知識空間和粗糙集理論結合正在成為一個新的研究方向.粗糙集理論和知識空間都在一個有限的論域集以及一些論域集的子集上進行討論, 可記為(U , ),其中 2U .在粗糙集中,U 中的元素稱為對象, 中的元素稱為可定義集;對不可定義集, 我們必須通過一對可定義集合分別從上下逼近來表示.在知識空間中,U 是一組問題集, 而中的元素K 稱為個體的知識狀態(tài), 稱為知識結構.某個個體的知識狀態(tài)K 由問題間的依賴關系或者不同個體掌握不同的問題集決定.利用surmise 關系P (關系P 滿足傳遞性和自反性), 知識結構可以定義為=K ( q , qQ, qPq, q K) q K.此定義中, 知識結構既包

28、含空集 也包含問題集U , 并且在集合交運算和集合并運算下封閉.由此, 定義了一個近似空間apr =(U , ).那么, 在近似空間(U , )上, 針對問題子集X U,基于子系統(tǒng)的上下近似定義的基礎上有以下擴展定義:apr(X)=K X K,apr(X)=K K X .在這個定義形式中, 知識結構在補運算中不封閉, 也就是說, 擴展模型不滿足經典粗糙集理論中的對偶性質。雖然粗糙集和知識空間研究對象不同, 但從粒計算的角度來看, 它們都可看成由一些基本粒通過不同的方式構造粒結構的過程。6 粗糙集和粒計算粒計算是一門飛速發(fā)展的新學科.它融合了粗糙集、模糊集及人工智能等多種理論的研究成果.詞計算模

29、型、粗糙集模型和商空間模型是3 個主要的粒計算(G ranular Compuing , GrC)模型.粗糙集理論已經成為研究粒計算的重要工具.基于粗糙集模型的粒計算, 它的粒是一個劃分,是一個特別的粒計算結構.基本知粒度的構造和知識表示方法的拓廣, 實質是將粗糙的商擴展成一個拓撲空間, 以此保證運算的封閉性, 即用(U/R)代替U/R , 它是布爾代數(2U , , , )的一個子代數, 則(U , (U/R)構成一個拓撲空間.近些年, 基于粗糙集理論來研究粒計算的工作尤為突出. Rough Me reo logy 方法和神經網絡技術, 基于知識?;枷? 提出了一個Roug h 神經計算(

30、RNC)模型, 將粗糙集的知基(劃分塊)和神經網絡相結合, 形成一種高效的神經計算方法.關于RNC 模型的主要研究線索.利用粗糙集粒計算模型來學習分類規(guī)則, 用粒網格來表示學習所得的分類知識, 提出了粒之間關聯性的度量公式, 通過搜索粒來歸納分類規(guī)則, 給出了構造粒網格的算法.在研究Rough推理的基礎上,對粒邏輯進行了探討,合粗糙集鄰域系統(tǒng)對粒計算進行了詳細的研究, 為數據挖掘提供了新的方法和視角.兩個覆蓋生成相同覆蓋廣義粗集的判別條件、覆蓋粒計算模型的不確定性度量、基于集合論覆蓋原理的粒計算模型等也得到了研究.以容差關系為基礎, 提出了不完備信息系統(tǒng)的粒計算方法, 使用屬性值上的容差關系給

31、出不完備信息系統(tǒng)的粒表示、粒運算規(guī)則和粒分解算法, 同時結合粗糙集中的屬性約簡問題, 提出了不完備信息系統(tǒng)在粒表示下屬性必要性的判定。結合粗糙集理論的粒計算方法已經在機器學習、數據分析、數據挖掘、規(guī)則提取、智能數據處理和粒邏輯等方面取得了一定的應用。7基于粗糙集的應用研究7.1 知識獲取知識獲取是發(fā)現存在于數據庫中有效的、新穎的、具有潛在效用的乃至最終可理解的模式的非平凡過程.粗糙集理論可支持知識獲取的多個步驟, 如數據預處理、屬性約簡、規(guī)則生成、數據依賴關系獲取等.傳統(tǒng)的基于粗糙集理論的數據預處理過程通常包括決策表補齊和決策表離散化.關于這方面的研究工作已經取得一些成果。屬性約簡就是保持信息

32、系統(tǒng)分類能力不變的情況下, 約去不必要的屬性.屬性約簡在某些應用領域, 又叫數據約簡、特征提取、知識約簡等.如何求屬性約簡是約簡理論研究的一個重要方面.基于粗糙集的知識約簡理論發(fā)展為數據挖掘提供了許多有效的新方法.針對協(xié)調決策表, 現已提出了求屬性約簡的許多算法, 如數據分析法、基于信息熵的屬性約簡算法、動態(tài)約簡算法、增量式算法、可辨識矩陣算法等.隨著粗糙集理論研究的不斷深入, 許多學者進一步在等價關系下, 討論了不協(xié)調決策表的多種約簡, 如廣義決策約簡、可能性約簡、動態(tài)約簡、分布約簡、最大分布約簡、 約簡、熵約簡及近似熵約簡等.從信息論的角度進一步研究了屬性約簡問題;并且修正了以前學術界認為

33、基于代數觀和基于信息觀的粗糙集理論是等價的觀點, 得到了一系列有益的結論;進一步提出了針對協(xié)調決策表和不協(xié)調決策表的核屬性的不同計算方法。同時, 討論的信息系統(tǒng)的形式也越來越多, 如連續(xù)值信息系統(tǒng)、區(qū)間值信息系統(tǒng)、模糊值信息系統(tǒng)、集值信息系統(tǒng)等, 并且相應系統(tǒng)的約簡理論也得到了發(fā)展。另一方面, 隨著概念格、偏序集等理論與粗糙集理論的結合, 基于概念格的約簡方法、廣義協(xié)調決策形式背景知識約簡方法、偏序關系下的決策形式背景規(guī)則提取與屬性約簡、對象概念格的屬性約簡方法、基于用戶偏好的屬性約簡、屬性序下的快速約簡算法、權值約簡、基于群體智能算法的屬性方法等新方法也大量涌現.比如, 文獻結合高斯消去法通

34、過矩陣運算直接得到屬性約簡, 為屬性約簡研究提供了新思路.文獻對各種約簡研究方法作了總結:從算法結構的層次來說, 常見的約簡策略有3 種:刪除法、增加法、加刪法;而各個約簡方法的不同體現在各自的啟發(fā)式策略的不同上。7.2知識的不確定性度量隨著粗糙集理論的研究深入, 一種新的不確定性粗糙性正逐漸被人們認識和接受.至今, 人們已經研究分析了3 種不同的不確定性:隨機性, 即隨機現象的不確定;模糊性, 即模糊概念的不確定性;粗糙性, 即信息系統(tǒng)中知識和概念的不確定性.處理知識的不確定性的方法往往用香農(Shannon)信息熵來刻畫, 知識的粗糙性與信息熵的關系比較密切, 知識的粗糙性實質上是其所含信

35、息多少的更深層次的刻畫.不少學者結合信息論做了研究工作:運用Shannon 熵對粗糙集理論中的規(guī)則進行度量、基于信息熵的知識約簡算法、度量粗糙集和粗糙分類的模糊性、不完備系統(tǒng)中的熵度量等.信息熵和知識粒度從兩個不同的角度研究了信息系統(tǒng)的不確定性度量.信息系統(tǒng)的信息熵越大, 系統(tǒng)的不確定性越大;而信息系統(tǒng)的知識粒度越大, 系統(tǒng)的不確定性越大.所以, 結合粒計算來研究不確定性度量正在成為新的研究熱點。尋求適的度量來刻畫知識的不確定性是粗糙集理論研究的一個重要方向.在粗糙集理論與其它處理模糊性或不確定性方法的理論研究中, 主要集中在它與概率統(tǒng)計、模糊數學、D-S 證據理論和信息論等的相互滲透與補充.7.3 面向領域的數據驅動的數據挖掘簡而言之, 數據挖掘的目的就是從數據中挖掘出知識.在機器學習的許多方法中, 我們往往依賴于一些先驗知識, 比如:貝葉斯概率方法依賴于先驗概率;模糊集理論依賴于成員隸屬度函數;多專家決策系統(tǒng)依賴于專家的權值屬性.毫無疑問地, 依靠這些先驗知識的幫助我們成功地解決了許多問題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論