第04講智能決策理論與方法ppt課件

上傳人：A*** IP屬地：廣東上傳時(shí)間：2022-07-15 格式：PPT 頁(yè)數(shù)：76 大?。?45.50KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩71頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、決策實(shí)際與方法智能決策實(shí)際與方法(1)合肥工業(yè)大學(xué)管理學(xué)院Saturday, March 12, 2022不確定性決策不確定性決策：指難以獲得各種形狀發(fā)生的概率，甚至對(duì)未來(lái)形狀都難以把握的決策問(wèn)題。特點(diǎn)：形狀的不確定性。不確定性：不確定性來(lái)自人類(lèi)的客觀認(rèn)識(shí)與客觀實(shí)踐之間存在的差別。事物發(fā)生的隨機(jī)性、人類(lèi)知識(shí)的不完全、不可靠、不準(zhǔn)確和不一致以及自然言語(yǔ)中存在的模糊性和歧義性，都反映了這種差別，都會(huì)帶來(lái)不確定性。不確定性就呵斥了具有一樣描畫(huà)信息的對(duì)象能夠?qū)儆诓煌拍睢?處理問(wèn)題的主要實(shí)際方法：人工智能與不確定性實(shí)際.智能決策實(shí)際與方法1、智能決策實(shí)際的構(gòu)成背景2、知識(shí)發(fā)現(xiàn)3、粗糙集實(shí)際4、機(jī)器學(xué)

2、習(xí).智能決策實(shí)際與方法構(gòu)成背景人類(lèi)面臨越來(lái)越復(fù)雜的決策義務(wù)和決策環(huán)境：決策問(wèn)題所涉及的變量規(guī)模越來(lái)越大；決策所依賴(lài)的信息具有不完備性、模糊性、不確定性等特點(diǎn)，使得決策問(wèn)題難以全部定量化地表示出來(lái)；某些決策問(wèn)題及其目的能夠是模糊的、不確定的，使得決策者對(duì)本人的偏好難以明確，隨著決策分析的深化，對(duì)決策問(wèn)題的認(rèn)知加深，本人原有的偏好/傾向得到不斷地修正，使得決策過(guò)程出現(xiàn)不斷調(diào)整的情況，這時(shí)，傳統(tǒng)的決策數(shù)學(xué)模型曾經(jīng)難以勝任求解復(fù)雜度過(guò)高的決策問(wèn)題、含有不確定性的決策問(wèn)題以及半構(gòu)造化、非構(gòu)造化的決策問(wèn)題，因此產(chǎn)生了智能決策實(shí)際、方法及技術(shù)。.智能決策實(shí)際與方法AI的運(yùn)用方式智能決策方法是運(yùn)用人工智能(A

3、rtificial Intelligence, AI)相關(guān)實(shí)際方法，交融傳統(tǒng)的決策數(shù)學(xué)模型和方法而產(chǎn)生的具有智能化推理和求解的決策方法，其典型特征是可以在不確定、不完備、模糊的信息環(huán)境下，經(jīng)過(guò)運(yùn)用符號(hào)推理、定性推理等方法，對(duì)復(fù)雜決策問(wèn)題進(jìn)展建模、推理和求解。AI運(yùn)用于決策科學(xué)主要有兩種方式：針對(duì)可建立準(zhǔn)確數(shù)學(xué)模型的決策問(wèn)題，由于問(wèn)題的復(fù)雜性，如組合爆炸、參數(shù)過(guò)多等而無(wú)法獲得問(wèn)題的解析解，需求借助AI中的智能搜索算法獲得問(wèn)題的數(shù)值解；針對(duì)無(wú)法建立準(zhǔn)確數(shù)學(xué)模型的不確定性決策問(wèn)題、半構(gòu)造化或非構(gòu)造化決策問(wèn)題，需求借助AI方法建立相應(yīng)的決策模型并獲得問(wèn)題的近似解。.智能決策實(shí)際與方法1、智能決策實(shí)際的

4、構(gòu)成背景2、知識(shí)發(fā)現(xiàn)3、粗糙集實(shí)際4、機(jī)器學(xué)習(xí).知識(shí)發(fā)現(xiàn)動(dòng)機(jī)智能決策的中心是如何獲取支持決策的信息和知識(shí)。問(wèn)題知識(shí)獲取是基于知識(shí)的系統(tǒng)(KBS)的最大瓶頸推理機(jī)知識(shí)工程師領(lǐng)域?qū)＜覜Q策者知識(shí)庫(kù)問(wèn)題懇求推理結(jié)果.知識(shí)發(fā)現(xiàn)動(dòng)機(jī)問(wèn)題推理規(guī)那么的獲取與KBS中知識(shí)獲取一樣難，因此基于案例推理(Case-Based Reasoning)漸漸變成基于案例檢索(Case-Based Retrieving)。推理機(jī)決策者案例庫(kù)問(wèn)題懇求推理結(jié)果規(guī)那么庫(kù)知識(shí)工程師領(lǐng)域?qū)＜?知識(shí)發(fā)現(xiàn)動(dòng)機(jī)決策者數(shù)據(jù)分析師數(shù)據(jù)中心不一定稱(chēng)心的決策決策支持查詢查詢結(jié)果問(wèn)題數(shù)據(jù)分析師與決策者之間對(duì)問(wèn)題的了解存在偏向短少有發(fā)明性的決策建議技術(shù)

5、問(wèn)題：如查詢效率(RDBMS).知識(shí)發(fā)現(xiàn)動(dòng)機(jī)推理機(jī)數(shù)據(jù)發(fā)掘工具數(shù)據(jù)中心決策者知識(shí)庫(kù)問(wèn)題懇求推理結(jié)果背景知識(shí)領(lǐng)域?qū)＜覂?yōu)點(diǎn)知識(shí)獨(dú)立于問(wèn)題本身知識(shí)的獲取主要經(jīng)過(guò)數(shù)據(jù)發(fā)掘?qū)崿F(xiàn)有發(fā)明性收獲.Data Mining within the DSS.知識(shí)發(fā)現(xiàn)動(dòng)機(jī)KDD帶來(lái)的新問(wèn)題知識(shí)發(fā)現(xiàn)問(wèn)題：如何從數(shù)據(jù)中將知識(shí)發(fā)掘出來(lái)？面臨許多技術(shù)問(wèn)題：如數(shù)據(jù)異構(gòu)問(wèn)題、數(shù)據(jù)具有噪音且信息不完好、運(yùn)用什么樣的發(fā)掘算法、知識(shí)如何表示等知識(shí)評(píng)價(jià)問(wèn)題：數(shù)據(jù)本身具有權(quán)威性、客觀性，但知識(shí)不具備。知識(shí)如何評(píng)價(jià)？.參考書(shū)引薦.為什么要開(kāi)展數(shù)據(jù)發(fā)掘？信息技術(shù)的廣泛運(yùn)用產(chǎn)生了大量的數(shù)據(jù)：流數(shù)據(jù)消費(fèi)數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)、傳感數(shù)據(jù)各種(時(shí)間)序列數(shù)據(jù)證

6、券買(mǎi)賣(mài)，基因序列對(duì)象關(guān)系數(shù)據(jù)社交網(wǎng)絡(luò)，分子構(gòu)造管理數(shù)據(jù)MIS，ERP：財(cái)務(wù)、人力資源、客戶關(guān)系空間數(shù)據(jù)GIS、GPS多媒體數(shù)據(jù)視頻監(jiān)控，視頻分享文本數(shù)據(jù)學(xué)術(shù)論文，新聞，微博，博客萬(wàn)維網(wǎng)數(shù)據(jù)內(nèi)容，構(gòu)造，運(yùn)用，買(mǎi)賣(mài)數(shù)據(jù).為什么要開(kāi)展數(shù)據(jù)發(fā)掘？Big Data大數(shù)據(jù)時(shí)代第一，數(shù)據(jù)體量Volume宏大。從TB級(jí)別，躍升到PB級(jí)別。第二，數(shù)據(jù)類(lèi)型繁多Variety 。網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三，價(jià)值Value密度低。以視頻為例，延續(xù)不延續(xù)監(jiān)控過(guò)程中，能夠有用的數(shù)據(jù)僅僅有一兩秒。第四，處置速度Velocity快。1秒定律。We are drowning in data, but sta

7、rving for knowledge! .2022年7月15日電子商務(wù)新進(jìn)展：數(shù)據(jù)發(fā)掘KDD & DM知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases ,KDD) 是指從大量數(shù)據(jù)中提取有用的(useful)、新穎的(novel)、有效的(valid)并最終能被人了解(understandable)的方式(patterns)的處置過(guò)程(process)。數(shù)據(jù)發(fā)掘(Data Mining，DM) 是KDD的中心階段, 經(jīng)過(guò)實(shí)施相關(guān)算法獲得期望的方式。.KDD過(guò)程了解、定義用戶的目的和KDD運(yùn)轉(zhuǎn)的環(huán)境。.KDD過(guò)程1選取可用的數(shù)據(jù)；2定義附加的、必需的數(shù)據(jù)，如領(lǐng)域知識(shí)；

8、3數(shù)據(jù)集成為一個(gè)數(shù)據(jù)集，供KDD運(yùn)用。.KDD過(guò)程1缺失值處置2剔除噪聲或異常數(shù)據(jù).KDD過(guò)程1維數(shù)約簡(jiǎn)(特征選擇與抽取，數(shù)據(jù)采樣)2屬性轉(zhuǎn)換 (離散化和泛化)3數(shù)據(jù)編碼.KDD過(guò)程(1)確定數(shù)據(jù)發(fā)掘類(lèi)型，如分類(lèi)、聚類(lèi)、回歸； (2) 選擇特定的方法； (3) 執(zhí)行數(shù)據(jù)發(fā)掘算法。.KDD過(guò)程評(píng)價(jià)和解釋所發(fā)掘的方式，重點(diǎn)是可了解性、有用性.KDD過(guò)程與原有知識(shí)系統(tǒng)合并。挑戰(zhàn): 動(dòng)態(tài)與增量發(fā)掘問(wèn)題。.數(shù)據(jù)預(yù)處置空值估算空值是指屬性值未知且不可用、與其它任何值都不一樣的符號(hào)。在樣本數(shù)據(jù)集中，空值在一切非主碼屬性中都能夠出現(xiàn)?？罩党霈F(xiàn)的主要緣由：在信息搜集時(shí)忽略了一些以為不重要的數(shù)據(jù)或信息提供者不情愿

9、提供，而這些數(shù)據(jù)對(duì)以后的信息處置能夠是有用的；某些屬性值未知；數(shù)據(jù)模型的限制。.數(shù)據(jù)預(yù)處置空值估算空值處置的常用方法：從訓(xùn)練集中移去含未知值的實(shí)例；用某個(gè)最能夠的值進(jìn)展交換；基于樣本中其它屬性的取值和分類(lèi)信息，構(gòu)造規(guī)那么來(lái)預(yù)測(cè)喪失的數(shù)據(jù)，并用預(yù)測(cè)結(jié)果“填補(bǔ)喪失值；運(yùn)用貝葉斯公式確定未知值的概率分布，選擇一最能夠的值填補(bǔ)空值或根據(jù)概率分布用不同值填補(bǔ)空值構(gòu)成多個(gè)對(duì)象；將含有未知值的一個(gè)給定樣本數(shù)據(jù)集轉(zhuǎn)換成一個(gè)新的、能夠不相容的但每個(gè)屬性值均知的數(shù)據(jù)集，方法是將某個(gè)屬性的未知值用一切該屬性的能夠值交換構(gòu)成多個(gè)數(shù)據(jù)集。.數(shù)據(jù)預(yù)處置延續(xù)屬性離散化問(wèn)題描畫(huà) 設(shè) 為一樣本數(shù)據(jù)集，為非空有限集合，C是條件

10、屬性集，D是決策屬性集。假設(shè)對(duì)于恣意有， R是實(shí)數(shù)集，那么為延續(xù)屬性。設(shè) 是上的分割點(diǎn)集合，記為其中，為一整數(shù)，表示離散化程度，可以看作按屬性將論域中的對(duì)象分成類(lèi)。3kiki-121.數(shù)據(jù)預(yù)處置延續(xù)屬性離散化對(duì)于需求離散化的延續(xù)屬性集，其分割點(diǎn)集合記為將ci屬性的延續(xù)取值映射到離散空間，即對(duì)于恣意假設(shè)其屬性ci 的取值在區(qū)間內(nèi)，那么將屬性值重新標(biāo)志為j。這樣就把原來(lái)含有延續(xù)屬性的樣本數(shù)據(jù)集A轉(zhuǎn)換成離散化的數(shù)據(jù)集。因此離散化問(wèn)題本質(zhì)上可歸結(jié)為利用選取的分割點(diǎn)對(duì)屬性的值域空間進(jìn)展劃分的問(wèn)題。.數(shù)據(jù)預(yù)處置延續(xù)屬性離散化離散化方法典型的有等區(qū)間方法、等信息量方法、基于信息熵的方法、H

11、olte的1R離散化方法、統(tǒng)計(jì)實(shí)驗(yàn)方法、超平面搜索方法以及用戶自定義區(qū)間等。運(yùn)用不同的準(zhǔn)那么可將現(xiàn)有的離散化方法分為部分與全局方法(論域空間)、靜態(tài)與動(dòng)態(tài)方法(屬性空間)和有導(dǎo)師與無(wú)導(dǎo)師方法(能否依賴(lài)決策屬性)。(1)等區(qū)間離散化方法等區(qū)間分割是將延續(xù)屬性的值域等分成 ( )個(gè)區(qū)間, 普通由用戶確定。.數(shù)據(jù)預(yù)處置延續(xù)屬性離散化假設(shè)某個(gè)屬性的最大屬性值為xmax，最小屬性值為xmin，用戶給定的分割點(diǎn)參數(shù)為k，那么分割點(diǎn)間隔為=(xmax-xmin)/k，所得到的屬性分割點(diǎn)為xmin+i，i=1,2,k。(2)等信息量離散化方法等信息量分割首先將丈量值進(jìn)展排序，然后將屬性值域分成k個(gè)區(qū)間，

12、每個(gè)區(qū)間包含一樣數(shù)量的丈量值。假設(shè)某個(gè)屬性的最大屬性值為xmax ，最小屬性值為xmin ，用戶給定的分割點(diǎn)參數(shù)為k，樣本集中的對(duì)象個(gè)數(shù)為n，那么需求將樣本集中的對(duì)象按該屬性的取值從小到大陳列，然后按對(duì)象數(shù)平均劃分為k段即得到分割點(diǎn)集，每?jī)蓚€(gè)相鄰分割點(diǎn)之間的對(duì)象數(shù)均為n/k。 .數(shù)據(jù)預(yù)處置延續(xù)屬性離散化(3)統(tǒng)計(jì)實(shí)驗(yàn)方法統(tǒng)計(jì)實(shí)驗(yàn)方法根據(jù)決策屬性分析區(qū)間劃分之間的獨(dú)立程度，確定分割點(diǎn)的有效性。對(duì)于恣意分割點(diǎn) ，均可將分成2個(gè)區(qū)間和，兩區(qū)間的獨(dú)立程度為：其中：r是決策類(lèi)數(shù)目nij是在第l區(qū)間中屬于第j決策類(lèi)的對(duì)象數(shù).數(shù)據(jù)預(yù)處置延續(xù)屬性離散化假設(shè) ，那么取基于統(tǒng)計(jì)實(shí)驗(yàn)的離散化方法是將值較

13、大的分割點(diǎn)作為有效分割點(diǎn)。.Taxonomy of Data Mining Methods.Taxonomy of Data Mining MethodsVerification-oriented (the system verifies the users hypothesis): including the most common methods of traditional statistics, like goodness of fit(擬合優(yōu)度) test, tests of hypotheses (假設(shè)檢驗(yàn)，e.g., t-test of means), and analysis

14、of variance (ANOVA，方差分析或F-檢驗(yàn)).Discovery-oriented (the system finds new rules and patterns autonomously): prediction methods VS description methods；supervised learning有導(dǎo)師學(xué)習(xí) VS unsupervised learning.KDD Goals & Methods歸納總結(jié)(Induction & Summarization)：從泛化的角度總結(jié)數(shù)據(jù)，即從低層次數(shù)據(jù)籠統(tǒng)出高層次的描畫(huà)的過(guò)程。主要方法：歸納、泛化。泛化(General

15、ization)是用來(lái)擴(kuò)展一假設(shè)的語(yǔ)義信息，使其可以包含更多的正例，運(yùn)用于更多的對(duì)象。動(dòng)物哺乳類(lèi)鳥(niǎo)類(lèi)企鵝食肉類(lèi)蹄類(lèi)飛禽類(lèi)走禽類(lèi)虎印度豹長(zhǎng)頸鹿斑馬信天翁鷹駝鳥(niǎo)動(dòng)物世界概念樹(shù)第1層第2層第3層第4層.KDD Goals & Methods關(guān)聯(lián)規(guī)那么(Association Rules)：關(guān)聯(lián)規(guī)那么的方式為AB，A為前件，B為后件。 (Day=Friday) and (Product= Diaper) (Product=Beer)為一典型關(guān)聯(lián)規(guī)那么 A為滿足前件的對(duì)象集，B為滿足后件的對(duì)象，N為全部對(duì)象集。典型方法：Apriori算法。.關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)(Apriori算法)Apriori算法由Agr

16、awal & Srikant在1994年提出主要思想:一個(gè)頻繁項(xiàng)集支持度超越給定值的項(xiàng)集的子集一定是頻繁的例如，假設(shè)beer, diaper, nuts是頻繁的, 那么beer, diaper 一定是頻繁的. 任一項(xiàng)為哪一項(xiàng)非頻繁的，那么包含該項(xiàng)的超集一定是不頻繁的。例如，假設(shè)beer, diaper是不頻繁的, 那么 beer, diaper, nuts一定是不頻繁的.關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)(Apriori算法)ProcedureFind the frequent itemsets: the sets of items that have minimum support (Apriori)A s

17、ubset of a frequent itemset must also be a frequent itemset, i.e., if A B is a frequent itemset, both A and B should be a frequent itemsetIteratively find frequent itemsets with cardinality from 1 to k (k-itemset)Use the frequent itemsets to generate association rules.關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)(Apriori算法)Database DSca

18、n DC1L1L2C2C2Scan DC3L3Scan D.KDD Goals & Methods分類(lèi)(Classification，等價(jià)關(guān)系，判別)：按類(lèi)標(biāo)簽(為數(shù)據(jù)庫(kù)中的某屬性集，普通僅包含一個(gè)屬性)對(duì)數(shù)據(jù)庫(kù)中的對(duì)象進(jìn)展分類(lèi)，具有一樣標(biāo)簽值或標(biāo)簽值在指定區(qū)間內(nèi)的對(duì)象屬于同類(lèi)。分類(lèi)規(guī)那么是判別某個(gè)對(duì)象屬于某類(lèi)的充分條件即對(duì)象具有某類(lèi)的屬性時(shí)那么表示該對(duì)象屬于該類(lèi)。其規(guī)那么方式普通為IF LogicExp Then A類(lèi) Else B類(lèi)。主要方法：決策樹(shù)、ANN、粗糙集、SVM等。分別引見(jiàn).KDD Goals & Methods聚類(lèi)(Clustering,相容關(guān)系)：聚類(lèi)也叫分段，就是將數(shù)據(jù)庫(kù)

19、中的實(shí)體分成假設(shè)干組或簇，簇內(nèi)實(shí)體類(lèi)似性最大，簇間類(lèi)似性最小。對(duì)象類(lèi)似的判別方法有多種如間隔法。典型方法：K-means聚類(lèi)方法的中心問(wèn)題是樣品間的類(lèi)似性度量，通常用間隔來(lái)度量。.聚類(lèi)(K-means算法)聚類(lèi)分析中的常用間隔(1)歐氏(Euclidean)間隔(2)絕對(duì)間隔在實(shí)踐運(yùn)用時(shí)常分析兩個(gè)樣品之間的相對(duì)間隔，這時(shí)需求對(duì)樣品數(shù)據(jù)進(jìn)展規(guī)范化處置，然后用規(guī)范化數(shù)據(jù)計(jì)算間隔。.聚類(lèi)(K-means算法)對(duì)于給定的n個(gè)樣品，先粗略地構(gòu)成k(kn)個(gè)分割，使得每個(gè)分割對(duì)應(yīng)一個(gè)類(lèi)、每個(gè)類(lèi)至少有一個(gè)樣品并且每個(gè)樣品準(zhǔn)確地屬于一個(gè)類(lèi)，然后按照某種原那么進(jìn)展修正，直至分類(lèi)比較合理為止。詳細(xì)步驟如下：(1

20、)聚點(diǎn)的選擇：聚點(diǎn)是一批有代表性的樣品，它的選擇決議了初始分類(lèi)。首先確定分類(lèi)數(shù)k，然后選擇k個(gè)有代表性的樣品作為每個(gè)類(lèi)的初始元素即聚點(diǎn)。聚點(diǎn)可由用戶根據(jù)閱歷選擇，也可隨機(jī)選擇，或?qū)⑷繕悠啡藶榈鼗螂S機(jī)地分成k類(lèi)，以每類(lèi)的重心作為聚點(diǎn)。.聚類(lèi)(K-means算法)(2)初始聚類(lèi)有了聚點(diǎn)集合后，可根據(jù)以下最接近原那么實(shí)現(xiàn)初始分類(lèi)：假設(shè)對(duì)于某樣品x出現(xiàn) ，那么x恣意歸于Gi(0) 或Gj(0) 類(lèi)。這樣就得到了樣品空間的初始分類(lèi)：.聚類(lèi)(K-means算法)(3)迭代過(guò)程設(shè)聚類(lèi)構(gòu)成的一個(gè)分類(lèi)為那么可從G(m)出發(fā)計(jì)算新的聚點(diǎn)集合L(m+1)。普通可以以G(m)中各類(lèi)的重心作為新的聚點(diǎn)。其中根據(jù)新的聚

21、點(diǎn)集，對(duì)樣品空間重新聚類(lèi)，構(gòu)成新的分類(lèi)：其中.聚類(lèi)(K-means算法)(4)迭代終止隨著m的增大，分類(lèi)趨于穩(wěn)定。當(dāng)G(m+1)=G(m)或在一定的精度范圍內(nèi)近似有G(m+1)=G(m)，那么遞推過(guò)程終了。.聚類(lèi)(K-means算法)m-male，f-femalemfmmmmmmmfmmmmmmmmmffmmmmmmmmmmmfmmmmmmmmmmmmmmmmmmmf16K64K32K20304050ageincome聚類(lèi)模型.KDD Goals & Methods回歸(Regression)：根據(jù)歷史數(shù)據(jù)擬合一函數(shù)將屬性集映射到相應(yīng)的值集?；貧w可以看作一種分類(lèi)，區(qū)別是分類(lèi)的類(lèi)標(biāo)簽值是離散的

22、，而回歸是延續(xù)的。neurallinerprofit010005000mins 回歸模型.KDD Goals & MethodsSequence, trend and evolution analysisTrend, time-series, and deviation analysis: e.g., regression and value predictionSequential pattern mininge.g., first buy digital camera, then buy large SD memory cardsPeriodicity analysisMotifs and

23、 biological sequence analysisApproximate and consecutive motifsSimilarity-based analysisMining data streamsOrdered, time-varying, potentially infinite, data streams.KDD Goals & Methods異常探測(cè)(Outlier Detection)：Outlier: A data object that does not comply with the general behavior of the dataNoise or ex

24、ception? One persons garbage could be another persons treasureMethods: by product of clustering or regression analysis, Useful in fraud detection, rare events analysis.KDD Goals & MethodsStructure and Network AnalysisGraph mining：Finding frequent subgraphs, trees, substructuresInformation network an

25、alysis：Social networksMultiple heterogeneous networks： friends, family, classmates, Links carry a lot of semantic information: Link miningWeb miningWeb is a big information network: from PageRank to GoogleAnalysis of Web information networks，Web community discovery, opinion mining, usage mining, .智能

26、決策實(shí)際與方法1、智能決策實(shí)際的構(gòu)成背景2、知識(shí)發(fā)現(xiàn)3、粗糙集實(shí)際4、機(jī)器學(xué)習(xí).預(yù)備知識(shí)相關(guān)名詞解釋論域：研討對(duì)象的全體成員構(gòu)成的集合，普通用字母U表示；假設(shè)XU，那么稱(chēng)X是U的子集隸屬度：描畫(huà)一個(gè)對(duì)象x與某個(gè)子集X之間的隸屬程度，普通用符號(hào)表示，假設(shè)xX, 那么=1;假設(shè) ,那么=0;其他： 01(常用某個(gè)函數(shù)加以描畫(huà)，稱(chēng)為隸屬度函數(shù)).預(yù)備知識(shí)相關(guān)名詞解釋等價(jià)關(guān)系：R是U上的一個(gè)等價(jià)關(guān)系，當(dāng)且僅當(dāng)對(duì)于恣意xU，均有x R x自反性對(duì)于恣意x, yU，x R yy R x對(duì)稱(chēng)性對(duì)于恣意x, y, zU，x R y y R zx R z傳送性等價(jià)類(lèi)：假設(shè)R是U上的一個(gè)等價(jià)關(guān)系，對(duì)于恣意xU，稱(chēng)

27、集合x(chóng)=y| y R x, y U為U關(guān)于R的一個(gè)等價(jià)類(lèi)，記為xR。設(shè)X1, X2, , Xn是U關(guān)于R的一切等價(jià)類(lèi)，那么有：XiXj=ij，i, j=1,2,nX1X2Xn=U劃分：一切等價(jià)類(lèi)的集合稱(chēng)為U關(guān)于R的商集，它構(gòu)成了U的一個(gè)劃分，記為U/R。概念：具有一樣特征值的一群對(duì)象稱(chēng)為一個(gè)概念一個(gè)等價(jià)類(lèi)就是一個(gè)概念.預(yù)備知識(shí)相關(guān)名詞解釋pi T1 pj iff v(pi, T1)=v(pj, T1)，那么T1是U上的一個(gè)等價(jià)關(guān)系類(lèi)似地可以定義T2, T3, EX1=p1=p4=p6=p1, p4, p6為U關(guān)于T1的一個(gè)等價(jià)類(lèi)X2=p2=p3=p5=p2, p3, p5為U關(guān)于T1的另一個(gè)等

28、價(jià)類(lèi)T1有多少種取值就有多少個(gè)等價(jià)類(lèi)顯然 X1X2=; X1X2=U商集U/T1=X1, X2UT1 T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY.預(yù)備知識(shí)成員集合成員：明確的隸屬關(guān)系模糊成員：概念模糊(如青年)導(dǎo)致成員模糊粗糙成員：概念明晰(如感冒)，成員模糊(能否感冒不清楚)，具有概率特征(隸屬函數(shù))，但不是概率問(wèn)題，只是由于根據(jù)可用知識(shí)無(wú)法得到準(zhǔn)確結(jié)論。.粗糙集實(shí)際的提出粗糙集實(shí)際由Pawlak提出1982,1991。粗糙集實(shí)際反映了人們以不完全信息或知識(shí)去處置一些不可分辨景象的才干，或根據(jù)察看、度量到某

29、些不準(zhǔn)確的結(jié)果而進(jìn)展分類(lèi)數(shù)據(jù)的才干。Pawlak Z., Rough sets. International Journal of Computer and Information Sciences, 1982(11): 341-356Pawlak Z., Rough setTheoretical Aspects of Reasoning about Data, Dordrecht, Boston, London: Kluwer Academic Publishers,1991.根本思想知識(shí)是主體對(duì)論域中的客體進(jìn)展分類(lèi)的才干，分類(lèi)才干越強(qiáng)，主體所具備知識(shí)的可靠度越高分類(lèi)才干受主體分辨才干的影

30、響，因此分類(lèi)具有近似性 (粗糙集)影響分類(lèi)才干的要素(在信息系統(tǒng)中常描畫(huà)為屬性)很多，不同的要素重要程度不同，其中某些要素起決議性作用 (屬性重要性：屬性約簡(jiǎn))具有一樣屬性的實(shí)體，屬性取值的不同對(duì)分類(lèi)才干也產(chǎn)生影響 (值重要性：值約簡(jiǎn))屬性之間存在某種依賴(lài)關(guān)系(決策規(guī)那么).信息系統(tǒng)與知識(shí)信息系統(tǒng)I可以定義為四元組，其中有限非空集合U是論域，A為關(guān)于U的屬性集，，Va表示屬性a的值域，映射f: UAV表示對(duì)xU，aA，有： f(x, a)V。決策表：假設(shè)屬性集合A可進(jìn)一步分為兩個(gè)屬性子集的并：條件屬性集C和決策屬性集D，A=CD，CD=，那么信息系統(tǒng)也被稱(chēng)為決策表。UT1 T2T3Ep1NY

31、NormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY.信息系統(tǒng)與知識(shí)A的任何一個(gè)子集B確定一個(gè)U上的二元關(guān)系IND(B)：對(duì)于恣意aB，xIND(B)ya(x)=a(y)；x, yU；a(x)表示對(duì)象x的a屬性值。那么稱(chēng)IND(B)為不可分辨關(guān)系。 IND(B)是等價(jià)關(guān)系，IND(B)的一切等價(jià)類(lèi)的集合記為U/B稱(chēng)為知識(shí)B，含有元素x的等價(jià)類(lèi)記為B(x)或xB，同一等價(jià)類(lèi)中的元素是不可分辨的，稱(chēng)IND(B)等價(jià)類(lèi)為初等集范疇，它是知識(shí)庫(kù)的根本構(gòu)造單元即概念。設(shè)R是由屬性集A的子集誘導(dǎo)的論域U上的等價(jià)關(guān)系族，那么稱(chēng)R為U上的一個(gè)知識(shí)庫(kù)，記

32、為K=(U, R)。.粗糙集與近似對(duì)于U的恣意子集X，假設(shè)X恰能由知識(shí)R的假設(shè)干個(gè)初等集的并構(gòu)成，那么稱(chēng)X為R-準(zhǔn)確集，否那么為R-粗糙集。每個(gè)粗糙集X都可用兩個(gè)與之相關(guān)的準(zhǔn)確集近似表示即X的上近似和下近似，他們是粗糙集實(shí)際的兩個(gè)最根本運(yùn)算。.粗糙集與近似下近似由一切包含于X的初等集合的并構(gòu)成， X的下近似中的元素一定屬于X。上近似由與X的交為非空的初等集合的并構(gòu)成，而上近似中的元素能夠?qū)儆赬。上近似與下近似的差為邊境域，粗糙集的邊境域?yàn)榉强?，否那么為?zhǔn)確集。邊境域中的元素根據(jù)可用知識(shí)沒(méi)有確定的分類(lèi)，即它既不能劃分到X中也不能劃分到X的補(bǔ)集中。正域與負(fù)域.經(jīng)典粗糙集模型論域U粗糙集X粗糙集X.

33、經(jīng)典粗糙集模型R1=T1：U/R1=p2, p3, p5，p1, p4, p6； R2=T2,T1：U/R2=p1, p4, p6, p2, p5, p3；R=T1, T2, T3：U/R=(p1, p3, p6, p2, p5,p4;F=E：U/F=p1, p2, p3, p6, p4, p5X1=p1, p2, p3, p6是R粗糙集，X1的R下近似是p1, p3, p6，R上近似是p1, p2, p3, p5, p6，邊境域?yàn)閜2, p5；X2=p4, p5也是R粗糙集，X2的R下近似是p4，X2的R上近似是p2, p4, p5，而邊境域是p2, p5。.粗糙集數(shù)字特征精度： X的R精度

34、反映了我們對(duì)于了解集合X的知識(shí)的完全程度。R(X)=1為準(zhǔn)確集， 0R(X)1為粗糙集。粗糙度：X的R粗糙度反映了我們對(duì)于了解集合X的知識(shí)的不完全程度。(精度與概率或隸屬度的區(qū)別)隸屬度：是根據(jù)可用知識(shí)R，對(duì)象x隸屬于概念X的條件概率。.粗糙集數(shù)字特征知識(shí)R=T1, T2, T3：U/R=(p1, p3, p6, p2, p5,p4;分類(lèi)F=E：U/F=p1, p2, p3, p6, p4, p5X1=p1, p2, p3, p6是R粗糙集，X1的R下近似是p1, p3, p6，R上近似是p1, p2, p3, p5, p6，R精度為0.6；R粗糙度為0.4； X2=p4, p5也是R粗糙集，

35、X2的R下近似是p4，X2的R上近似是p2, p4, p5， R精度為0.333；R粗糙度為0.667；p2隸屬于X1的隸屬度為0.25。.粗糙集數(shù)字特征設(shè)F=X1，X2，Xn是論域U上的一個(gè)劃分，那么根據(jù)知識(shí)R，F(xiàn)的分類(lèi)精度如何？F的近似精度：分類(lèi)的近似精度給出了根據(jù)現(xiàn)有知識(shí)對(duì)對(duì)象進(jìn)展分類(lèi)時(shí)能夠正確的決策的百分?jǐn)?shù)。F的近似質(zhì)量：近似質(zhì)量給出了能正確分類(lèi)的百分?jǐn)?shù)。這是一個(gè)非常重要的特征數(shù)字，它反映了兩種分類(lèi)F和R之間的關(guān)系。假設(shè)將R看作決策表中的條件屬性集，F(xiàn)看成決策屬性集，近似質(zhì)量反映了兩者之間的依賴(lài)關(guān)系。.粗糙集數(shù)字特征知識(shí)R=T1, T2, T3：U/R=(p1, p3, p6, p2,

36、 p5,p4;分類(lèi)F=E：U/F=p1, p2, p3, p6, p4, p5X1=p1, p2, p3, p6是R粗糙集，X1的R下近似是p1, p3, p6，R上近似是p1, p2, p3, p5, p6 ； X2=p4, p5也是R粗糙集，X2的R下近似是p4，X2的R上近似是p2, p4, p5；F的近似精度為0.5；F的近似質(zhì)量為0.667。.知識(shí)依賴(lài)為了尋覓“IFTHEN方式的推理規(guī)那么，在粗糙集實(shí)際體系中所采用的方法是從一個(gè)給定的知識(shí)，推導(dǎo)另一個(gè)知識(shí)。假設(shè)知識(shí)D的一切初等范疇都能用知識(shí)C的某些初等范疇來(lái)定義，那么稱(chēng)知識(shí)D可由知識(shí)C推得，也稱(chēng)D完全依賴(lài)于C，記為CD。設(shè)信息系統(tǒng)I

37、=，A=CD，BC，那么D的B正域定義為：D的B正域表示：利用知識(shí)B，能正確地劃分到U/D各等價(jià)類(lèi)中的一切對(duì)象的集合 .知識(shí)依賴(lài)設(shè)信息系統(tǒng)I=，D完全依賴(lài)于C當(dāng)且僅當(dāng) D等價(jià)于C當(dāng)且僅當(dāng)(CD) (DC)；D獨(dú)立于C當(dāng)且僅當(dāng)(CD) (DC)。假設(shè)知識(shí)D的部分初等范疇能用知識(shí)C的某些初等范疇來(lái)定義，稱(chēng)知識(shí)D部分依賴(lài)于知識(shí)C。設(shè)信息系統(tǒng)I=，有：那么稱(chēng)D是k(0k1)度依賴(lài)于C，記為CkD。 .知識(shí)依賴(lài)R1=T1：U/R1=p2, p3, p5，p1, p4, p6； R2=T2,T1：U/R2=p1, p4, p6, p2, p5, p3；R3=T1, T2, T3：U/R3=(p1, p3

38、, p6, p2, p5,p4;F=E：U/F=p1, p2, p3, p6, p4, p5X1=p1, p2, p3, p6是R3粗糙集，X1的R3下近似是p1, p3, p6，R3上近似是p1, p2, p3, p5, p6 ；X2=p4, p5也是R3粗糙集，X2的R3下近似是p4，X2的R3上近似是p2, p4, p5 。F的R3正域是p1, p3, p4, p6, 所以F對(duì)R3的依賴(lài)度是2/3。條件屬性子集T1T2T3T1,T2 T1,T3 T2,T3T1,T2,T3依賴(lài)度k001/21/62/32/32/3.知識(shí)約簡(jiǎn)為什么要約簡(jiǎn)知識(shí)？判別：根據(jù)條件屬性取值確定對(duì)象所屬的類(lèi)。實(shí)踐：確定對(duì)象所屬的類(lèi)只需其中幾個(gè)屬性甚至一個(gè)屬性，而不需求知道對(duì)象一切的屬性，這與人類(lèi)對(duì)實(shí)體的識(shí)別是一致的。闡明：不同屬性在分類(lèi)時(shí)所起的作用是不同的。什么是知識(shí)約簡(jiǎn)？將知識(shí)庫(kù)中某些不用要的等價(jià)關(guān)系知識(shí)移去的過(guò)程。設(shè)信息系統(tǒng)I=，BC，假設(shè)C(D)=B(D)且B是D獨(dú)立的，那么B為C的D約簡(jiǎn)，記為REDD(C)。C的D約簡(jiǎn)是不含任何

人人文庫(kù)> 全部分類(lèi)> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

第04講智能決策理論與方法ppt課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

第04講智能決策理論與方法ppt課件

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔