第04講智能決策理論與方法ppt課件_第1頁(yè)
第04講智能決策理論與方法ppt課件_第2頁(yè)
第04講智能決策理論與方法ppt課件_第3頁(yè)
第04講智能決策理論與方法ppt課件_第4頁(yè)
第04講智能決策理論與方法ppt課件_第5頁(yè)
已閱讀5頁(yè),還剩71頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、決策實(shí)際與方法 智能決策實(shí)際與方法(1)合肥工業(yè)大學(xué)管理學(xué)院Saturday, March 12, 2022不確定性決策不確定性決策:指難以獲得各種形狀發(fā)生的概率,甚至對(duì)未來(lái)形狀都難以把握的決策問(wèn)題。特點(diǎn):形狀的不確定性。不確定性:不確定性來(lái)自人類(lèi)的客觀認(rèn)識(shí)與客觀實(shí)踐之間存在的差別。事物發(fā)生的隨機(jī)性、人類(lèi)知識(shí)的不完全、不可靠、不準(zhǔn)確和不一致以及自然言語(yǔ)中存在的模糊性和歧義性,都反映了這種差別,都會(huì)帶來(lái)不確定性。不確定性就呵斥了具有一樣描畫(huà)信息的對(duì)象能夠?qū)儆诓煌拍睢?處理問(wèn)題的主要實(shí)際方法:人工智能與不確定性實(shí)際.智能決策實(shí)際與方法1、智能決策實(shí)際的構(gòu)成背景2、知識(shí)發(fā)現(xiàn)3、粗糙集實(shí)際4、機(jī)器學(xué)

2、習(xí).智能決策實(shí)際與方法構(gòu)成背景人類(lèi)面臨越來(lái)越復(fù)雜的決策義務(wù)和決策環(huán)境:決策問(wèn)題所涉及的變量規(guī)模越來(lái)越大;決策所依賴(lài)的信息具有不完備性、模糊性、不確定性等特點(diǎn),使得決策問(wèn)題難以全部定量化地表示出來(lái);某些決策問(wèn)題及其目的能夠是模糊的、不確定的,使得決策者對(duì)本人的偏好難以明確,隨著決策分析的深化,對(duì)決策問(wèn)題的認(rèn)知加深,本人原有的偏好/傾向得到不斷地修正,使得決策過(guò)程出現(xiàn)不斷調(diào)整的情況,這時(shí),傳統(tǒng)的決策數(shù)學(xué)模型曾經(jīng)難以勝任求解復(fù)雜度過(guò)高的決策問(wèn)題、含有不確定性的決策問(wèn)題以及半構(gòu)造化、非構(gòu)造化的決策問(wèn)題,因此產(chǎn)生了智能決策實(shí)際、方法及技術(shù)。.智能決策實(shí)際與方法AI的運(yùn)用方式智能決策方法是運(yùn)用人工智能(A

3、rtificial Intelligence, AI)相關(guān)實(shí)際方法,交融傳統(tǒng)的決策數(shù)學(xué)模型和方法而產(chǎn)生的具有智能化推理和求解的決策方法,其典型特征是可以在不確定、不完備、模糊的信息環(huán)境下,經(jīng)過(guò)運(yùn)用符號(hào)推理、定性推理等方法,對(duì)復(fù)雜決策問(wèn)題進(jìn)展建模、推理和求解。AI運(yùn)用于決策科學(xué)主要有兩種方式:針對(duì)可建立準(zhǔn)確數(shù)學(xué)模型的決策問(wèn)題,由于問(wèn)題的復(fù)雜性,如組合爆炸、參數(shù)過(guò)多等而無(wú)法獲得問(wèn)題的解析解,需求借助AI中的智能搜索算法獲得問(wèn)題的數(shù)值解;針對(duì)無(wú)法建立準(zhǔn)確數(shù)學(xué)模型的不確定性決策問(wèn)題、半構(gòu)造化或非構(gòu)造化決策問(wèn)題,需求借助AI方法建立相應(yīng)的決策模型并獲得問(wèn)題的近似解。.智能決策實(shí)際與方法1、智能決策實(shí)際的

4、構(gòu)成背景2、知識(shí)發(fā)現(xiàn)3、粗糙集實(shí)際4、機(jī)器學(xué)習(xí).知識(shí)發(fā)現(xiàn)動(dòng)機(jī)智能決策的中心是如何獲取支持決策的信息和知識(shí)。問(wèn)題知識(shí)獲取是基于知識(shí)的系統(tǒng)(KBS)的最大瓶頸推理機(jī)知識(shí)工程師領(lǐng)域?qū)<覜Q策者知識(shí)庫(kù)問(wèn)題懇求推理結(jié)果.知識(shí)發(fā)現(xiàn)動(dòng)機(jī)問(wèn)題推理規(guī)那么的獲取與KBS中知識(shí)獲取一樣難,因此基于案例推理(Case-Based Reasoning)漸漸變成基于案例檢索(Case-Based Retrieving)。推理機(jī)決策者案例庫(kù)問(wèn)題懇求推理結(jié)果規(guī)那么庫(kù)知識(shí)工程師領(lǐng)域?qū)<?知識(shí)發(fā)現(xiàn)動(dòng)機(jī)決策者數(shù)據(jù)分析師數(shù)據(jù)中心不一定稱(chēng)心的決策決策支持查詢(xún)查詢(xún)結(jié)果問(wèn)題數(shù)據(jù)分析師與決策者之間對(duì)問(wèn)題的了解存在偏向短少有發(fā)明性的決策建議技術(shù)

5、問(wèn)題:如查詢(xún)效率(RDBMS).知識(shí)發(fā)現(xiàn)動(dòng)機(jī)推理機(jī)數(shù)據(jù)發(fā)掘工具數(shù)據(jù)中心決策者知識(shí)庫(kù)問(wèn)題懇求推理結(jié)果背景知識(shí)領(lǐng)域?qū)<覂?yōu)點(diǎn)知識(shí)獨(dú)立于問(wèn)題本身知識(shí)的獲取主要經(jīng)過(guò)數(shù)據(jù)發(fā)掘?qū)崿F(xiàn)有發(fā)明性收獲.Data Mining within the DSS.知識(shí)發(fā)現(xiàn)動(dòng)機(jī)KDD帶來(lái)的新問(wèn)題知識(shí)發(fā)現(xiàn)問(wèn)題:如何從數(shù)據(jù)中將知識(shí)發(fā)掘出來(lái)?面臨許多技術(shù)問(wèn)題:如數(shù)據(jù)異構(gòu)問(wèn)題、數(shù)據(jù)具有噪音且信息不完好、運(yùn)用什么樣的發(fā)掘算法、知識(shí)如何表示等知識(shí)評(píng)價(jià)問(wèn)題:數(shù)據(jù)本身具有權(quán)威性、客觀性,但知識(shí)不具備。知識(shí)如何評(píng)價(jià)?.參考書(shū)引薦.為什么要開(kāi)展數(shù)據(jù)發(fā)掘?信息技術(shù)的廣泛運(yùn)用產(chǎn)生了大量的數(shù)據(jù):流數(shù)據(jù)消費(fèi)數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)、傳感數(shù)據(jù)各種(時(shí)間)序列數(shù)據(jù)證

6、券買(mǎi)賣(mài),基因序列對(duì)象關(guān)系數(shù)據(jù)社交網(wǎng)絡(luò),分子構(gòu)造管理數(shù)據(jù)MIS,ERP:財(cái)務(wù)、人力資源、客戶(hù)關(guān)系空間數(shù)據(jù)GIS、GPS多媒體數(shù)據(jù)視頻監(jiān)控,視頻分享文本數(shù)據(jù)學(xué)術(shù)論文,新聞,微博,博客萬(wàn)維網(wǎng)數(shù)據(jù)內(nèi)容,構(gòu)造,運(yùn)用,買(mǎi)賣(mài)數(shù)據(jù).為什么要開(kāi)展數(shù)據(jù)發(fā)掘?Big Data大數(shù)據(jù)時(shí)代第一,數(shù)據(jù)體量Volume宏大 。從TB級(jí)別,躍升到PB級(jí)別。第二,數(shù)據(jù)類(lèi)型繁多Variety 。網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值Value密度低。以視頻為例,延續(xù)不延續(xù)監(jiān)控過(guò)程中,能夠有用的數(shù)據(jù)僅僅有一兩秒。第四,處置速度Velocity快。1秒定律。We are drowning in data, but sta

7、rving for knowledge! .2022年7月15日電子商務(wù)新進(jìn)展:數(shù)據(jù)發(fā)掘KDD & DM知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases ,KDD) 是指從大量數(shù)據(jù)中提取有用的(useful)、新穎的(novel)、有效的(valid)并最終能被人了解(understandable)的方式(patterns)的處置過(guò)程(process)。 數(shù)據(jù)發(fā)掘(Data Mining,DM) 是KDD的中心階段, 經(jīng)過(guò)實(shí)施相關(guān)算法獲得期望的方式。.KDD過(guò)程了解、定義用戶(hù)的目的和KDD運(yùn)轉(zhuǎn)的環(huán)境。.KDD過(guò)程1選取可用的數(shù)據(jù);2定義附加的、必需的數(shù)據(jù),如領(lǐng)域知識(shí);

8、3數(shù)據(jù)集成為一個(gè)數(shù)據(jù)集,供KDD運(yùn)用。.KDD過(guò)程1缺失值處置2剔除噪聲或異常數(shù)據(jù).KDD過(guò)程1維數(shù)約簡(jiǎn)(特征選擇與抽取,數(shù)據(jù)采樣)2屬性轉(zhuǎn)換 (離散化和泛化)3數(shù)據(jù)編碼.KDD過(guò)程(1)確定數(shù)據(jù)發(fā)掘類(lèi)型,如分類(lèi)、聚類(lèi)、回歸; (2) 選擇特定的方法; (3) 執(zhí)行數(shù)據(jù)發(fā)掘算法。.KDD過(guò)程評(píng)價(jià)和解釋所發(fā)掘的方式,重點(diǎn)是可了解性、有用性.KDD過(guò)程與原有知識(shí)系統(tǒng)合并。挑戰(zhàn): 動(dòng)態(tài)與增量發(fā)掘問(wèn)題。.數(shù)據(jù)預(yù)處置空值估算空值是指屬性值未知且不可用、與其它任何值都不一樣的符號(hào)。在樣本數(shù)據(jù)集中,空值在一切非主碼屬性中都能夠出現(xiàn)??罩党霈F(xiàn)的主要緣由:在信息搜集時(shí)忽略了一些以為不重要的數(shù)據(jù)或信息提供者不情愿

9、提供,而這些數(shù)據(jù)對(duì)以后的信息處置能夠是有用的;某些屬性值未知;數(shù)據(jù)模型的限制。.數(shù)據(jù)預(yù)處置空值估算空值處置的常用方法:從訓(xùn)練集中移去含未知值的實(shí)例;用某個(gè)最能夠的值進(jìn)展交換;基于樣本中其它屬性的取值和分類(lèi)信息,構(gòu)造規(guī)那么來(lái)預(yù)測(cè)喪失的數(shù)據(jù),并用預(yù)測(cè)結(jié)果“填補(bǔ)喪失值;運(yùn)用貝葉斯公式確定未知值的概率分布,選擇一最能夠的值填補(bǔ)空值或根據(jù)概率分布用不同值填補(bǔ)空值構(gòu)成多個(gè)對(duì)象;將含有未知值的一個(gè)給定樣本數(shù)據(jù)集轉(zhuǎn)換成一個(gè)新的、能夠不相容的但每個(gè)屬性值均知的數(shù)據(jù)集,方法是將某個(gè)屬性的未知值用一切該屬性的能夠值交換構(gòu)成多個(gè)數(shù)據(jù)集。.數(shù)據(jù)預(yù)處置延續(xù)屬性離散化問(wèn)題描畫(huà) 設(shè) 為一樣本數(shù)據(jù)集, 為非空有限集合,C是條件

10、屬性集,D是決策屬性集。假設(shè)對(duì)于恣意有 , R是實(shí)數(shù)集,那么 為延續(xù)屬性。設(shè) 是 上的分割點(diǎn)集合,記為其中 , 為一整數(shù),表示離散化程度,可以看作按屬性將論域中的對(duì)象分成 類(lèi)。3kiki-121.數(shù)據(jù)預(yù)處置延續(xù)屬性離散化對(duì)于需求離散化的延續(xù)屬性集 ,其分割點(diǎn)集合記為將ci屬性的延續(xù)取值映射到離散空間,即對(duì)于恣意假設(shè)其屬性ci 的取值在區(qū)間 內(nèi),那么將屬性值重新標(biāo)志為j。這樣就把原來(lái)含有延續(xù)屬性的樣本數(shù)據(jù)集A轉(zhuǎn)換成離散化的數(shù)據(jù)集 。因此離散化問(wèn)題本質(zhì)上可歸結(jié)為利用選取的分割點(diǎn)對(duì)屬性的值域空間進(jìn)展劃分的問(wèn)題。.數(shù)據(jù)預(yù)處置延續(xù)屬性離散化離散化方法典型的有等區(qū)間方法、等信息量方法、基于信息熵的方法、H

11、olte的1R離散化方法、統(tǒng)計(jì)實(shí)驗(yàn)方法、超平面搜索方法以及用戶(hù)自定義區(qū)間等。運(yùn)用不同的準(zhǔn)那么可將現(xiàn)有的離散化方法分為部分與全局方法(論域空間)、靜態(tài)與動(dòng)態(tài)方法(屬性空間)和有導(dǎo)師與無(wú)導(dǎo)師方法(能否依賴(lài)決策屬性)。(1)等區(qū)間離散化方法等區(qū)間分割是將延續(xù)屬性的值域等分成 ( )個(gè)區(qū)間, 普通由用戶(hù)確定。.數(shù)據(jù)預(yù)處置延續(xù)屬性離散化 假設(shè)某個(gè)屬性的最大屬性值為xmax,最小屬性值為xmin,用戶(hù)給定的分割點(diǎn)參數(shù)為k,那么分割點(diǎn)間隔為=(xmax-xmin)/k, 所得到的屬性分割點(diǎn)為xmin+i,i=1,2,k。(2)等信息量離散化方法 等信息量分割首先將丈量值進(jìn)展排序,然后將屬性值域分成k個(gè)區(qū)間,

12、每個(gè)區(qū)間包含一樣數(shù)量的丈量值。假設(shè)某個(gè)屬性的最大屬性值為xmax ,最小屬性值為xmin ,用戶(hù)給定的分割點(diǎn)參數(shù)為k,樣本集中的對(duì)象個(gè)數(shù)為n,那么需求將樣本集中的對(duì)象按該屬性的取值從小到大陳列,然后按對(duì)象數(shù)平均劃分為k段即得到分割點(diǎn)集,每?jī)蓚€(gè)相鄰分割點(diǎn)之間的對(duì)象數(shù)均為n/k。 .數(shù)據(jù)預(yù)處置延續(xù)屬性離散化(3)統(tǒng)計(jì)實(shí)驗(yàn)方法統(tǒng)計(jì)實(shí)驗(yàn)方法根據(jù)決策屬性分析區(qū)間劃分之間的獨(dú)立程度,確定分割點(diǎn)的有效性。對(duì)于恣意分割點(diǎn) ,均可將 分成2個(gè)區(qū)間 和 ,兩區(qū)間的獨(dú)立程度為:其中:r是決策類(lèi)數(shù)目nij是在第l區(qū)間中屬于第j決策類(lèi)的對(duì)象數(shù).數(shù)據(jù)預(yù)處置延續(xù)屬性離散化 假設(shè) ,那么取 基于統(tǒng)計(jì)實(shí)驗(yàn)的離散化方法是將 值較

13、大的分割點(diǎn)作為有效分割點(diǎn)。.Taxonomy of Data Mining Methods.Taxonomy of Data Mining MethodsVerification-oriented (the system verifies the users hypothesis): including the most common methods of traditional statistics, like goodness of fit(擬合優(yōu)度) test, tests of hypotheses (假設(shè)檢驗(yàn),e.g., t-test of means), and analysis

14、of variance (ANOVA,方差分析或F-檢驗(yàn)).Discovery-oriented (the system finds new rules and patterns autonomously): prediction methods VS description methods;supervised learning有導(dǎo)師學(xué)習(xí) VS unsupervised learning.KDD Goals & Methods歸納總結(jié)(Induction & Summarization):從泛化的角度總結(jié)數(shù)據(jù),即從低層次數(shù)據(jù)籠統(tǒng)出高層次的描畫(huà)的過(guò)程。主要方法:歸納、泛化。泛化(General

15、ization)是用來(lái)擴(kuò)展一假設(shè)的語(yǔ)義信息,使其可以包含更多的正例,運(yùn)用于更多的對(duì)象。動(dòng)物哺乳類(lèi)鳥(niǎo)類(lèi)企鵝食肉類(lèi)蹄類(lèi)飛禽類(lèi)走禽類(lèi)虎印度豹長(zhǎng)頸鹿斑馬信天翁鷹駝鳥(niǎo)動(dòng)物世界概念樹(shù)第1層第2層第3層第4層.KDD Goals & Methods關(guān)聯(lián)規(guī)那么(Association Rules):關(guān)聯(lián)規(guī)那么的方式為AB,A為前件,B為后件。 (Day=Friday) and (Product= Diaper) (Product=Beer)為一典型關(guān)聯(lián)規(guī)那么 A為滿(mǎn)足前件的對(duì)象集,B為滿(mǎn)足后件的對(duì)象,N為全部對(duì)象集。典型方法:Apriori算法。.關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)(Apriori算法)Apriori算法由Agr

16、awal & Srikant在1994年提出主要思想:一個(gè)頻繁項(xiàng)集支持度超越給定值的項(xiàng)集的子集一定是頻繁的例如, 假設(shè)beer, diaper, nuts是頻繁的, 那么beer, diaper 一定是頻繁的. 任一項(xiàng)為哪一項(xiàng)非頻繁的,那么包含該項(xiàng)的超集一定是不頻繁的。例如, 假設(shè)beer, diaper是不頻繁的, 那么 beer, diaper, nuts一定是不頻繁的.關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)(Apriori算法)ProcedureFind the frequent itemsets: the sets of items that have minimum support (Apriori)A s

17、ubset of a frequent itemset must also be a frequent itemset, i.e., if A B is a frequent itemset, both A and B should be a frequent itemsetIteratively find frequent itemsets with cardinality from 1 to k (k-itemset)Use the frequent itemsets to generate association rules.關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)(Apriori算法)Database DSca

18、n DC1L1L2C2C2Scan DC3L3Scan D.KDD Goals & Methods分類(lèi)(Classification,等價(jià)關(guān)系,判別):按類(lèi)標(biāo)簽(為數(shù)據(jù)庫(kù)中的某屬性集,普通僅包含一個(gè)屬性)對(duì)數(shù)據(jù)庫(kù)中的對(duì)象進(jìn)展分類(lèi),具有一樣標(biāo)簽值或標(biāo)簽值在指定區(qū)間內(nèi)的對(duì)象屬于同類(lèi)。分類(lèi)規(guī)那么是判別某個(gè)對(duì)象屬于某類(lèi)的充分條件即對(duì)象具有某類(lèi)的屬性時(shí)那么表示該對(duì)象屬于該類(lèi)。其規(guī)那么方式普通為IF LogicExp Then A類(lèi) Else B類(lèi)。主要方法:決策樹(shù)、ANN、粗糙集、SVM等。分別引見(jiàn).KDD Goals & Methods聚類(lèi)(Clustering,相容關(guān)系):聚類(lèi)也叫分段,就是將數(shù)據(jù)庫(kù)

19、中的實(shí)體分成假設(shè)干組或簇,簇內(nèi)實(shí)體類(lèi)似性最大,簇間類(lèi)似性最小。對(duì)象類(lèi)似的判別方法有多種如間隔法。典型方法:K-means聚類(lèi)方法的中心問(wèn)題是樣品間的類(lèi)似性度量,通常用間隔來(lái)度量。.聚類(lèi)(K-means算法)聚類(lèi)分析中的常用間隔(1)歐氏(Euclidean)間隔(2)絕對(duì)間隔 在實(shí)踐運(yùn)用時(shí)常分析兩個(gè)樣品之間的相對(duì)間隔,這時(shí)需求對(duì)樣品數(shù)據(jù)進(jìn)展規(guī)范化處置,然后用規(guī)范化數(shù)據(jù)計(jì)算間隔。.聚類(lèi)(K-means算法)對(duì)于給定的n個(gè)樣品,先粗略地構(gòu)成k(kn)個(gè)分割,使得每個(gè)分割對(duì)應(yīng)一個(gè)類(lèi)、每個(gè)類(lèi)至少有一個(gè)樣品并且每個(gè)樣品準(zhǔn)確地屬于一個(gè)類(lèi),然后按照某種原那么進(jìn)展修正,直至分類(lèi)比較合理為止。詳細(xì)步驟如下:(1

20、)聚點(diǎn)的選擇:聚點(diǎn)是一批有代表性的樣品,它的選擇決議了初始分類(lèi)。首先確定分類(lèi)數(shù)k,然后選擇k個(gè)有代表性的樣品作為每個(gè)類(lèi)的初始元素即聚點(diǎn)。聚點(diǎn)可由用戶(hù)根據(jù)閱歷選擇,也可隨機(jī)選擇,或?qū)⑷繕悠啡藶榈鼗螂S機(jī)地分成k類(lèi),以每類(lèi)的重心作為聚點(diǎn)。.聚類(lèi)(K-means算法)(2)初始聚類(lèi)有了聚點(diǎn)集合后,可根據(jù)以下最接近原那么實(shí)現(xiàn)初始分類(lèi):假設(shè)對(duì)于某樣品x出現(xiàn) ,那么x恣意歸于Gi(0) 或Gj(0) 類(lèi)。這樣就得到了樣品空間的初始分類(lèi):.聚類(lèi)(K-means算法)(3)迭代過(guò)程設(shè)聚類(lèi)構(gòu)成的一個(gè)分類(lèi)為那么可從G(m)出發(fā)計(jì)算新的聚點(diǎn)集合L(m+1)。普通可以以G(m)中各類(lèi)的重心作為新的聚點(diǎn)。其中根據(jù)新的聚

21、點(diǎn)集,對(duì)樣品空間重新聚類(lèi),構(gòu)成新的分類(lèi):其中.聚類(lèi)(K-means算法)(4)迭代終止 隨著m的增大,分類(lèi)趨于穩(wěn)定。當(dāng)G(m+1)=G(m)或在一定的精度范圍內(nèi)近似有G(m+1)=G(m),那么遞推過(guò)程終了。.聚類(lèi)(K-means算法)m-male,f-femalemfmmmmmmmfmmmmmmmmmffmmmmmmmmmmmfmmmmmmmmmmmmmmmmmmmf16K64K32K20304050ageincome聚類(lèi)模型.KDD Goals & Methods回歸(Regression):根據(jù)歷史數(shù)據(jù)擬合一函數(shù)將屬性集映射到相應(yīng)的值集。回歸可以看作一種分類(lèi),區(qū)別是分類(lèi)的類(lèi)標(biāo)簽值是離散的

22、,而回歸是延續(xù)的。neurallinerprofit010005000mins 回歸模型.KDD Goals & MethodsSequence, trend and evolution analysisTrend, time-series, and deviation analysis: e.g., regression and value predictionSequential pattern mininge.g., first buy digital camera, then buy large SD memory cardsPeriodicity analysisMotifs and

23、 biological sequence analysisApproximate and consecutive motifsSimilarity-based analysisMining data streamsOrdered, time-varying, potentially infinite, data streams.KDD Goals & Methods異常探測(cè)(Outlier Detection):Outlier: A data object that does not comply with the general behavior of the dataNoise or ex

24、ception? One persons garbage could be another persons treasureMethods: by product of clustering or regression analysis, Useful in fraud detection, rare events analysis.KDD Goals & MethodsStructure and Network AnalysisGraph mining:Finding frequent subgraphs, trees, substructuresInformation network an

25、alysis:Social networksMultiple heterogeneous networks: friends, family, classmates, Links carry a lot of semantic information: Link miningWeb miningWeb is a big information network: from PageRank to GoogleAnalysis of Web information networks,Web community discovery, opinion mining, usage mining, .智能

26、決策實(shí)際與方法1、智能決策實(shí)際的構(gòu)成背景2、知識(shí)發(fā)現(xiàn)3、粗糙集實(shí)際4、機(jī)器學(xué)習(xí).預(yù)備知識(shí)相關(guān)名詞解釋論域:研討對(duì)象的全體成員構(gòu)成的集合,普通用字母U表示;假設(shè)XU,那么稱(chēng)X是U的子集隸屬度:描畫(huà)一個(gè)對(duì)象x與某個(gè)子集X之間的隸屬程度,普通用符號(hào)表示,假設(shè)xX, 那么=1;假設(shè) ,那么=0;其他: 01(常用某個(gè)函數(shù)加以描畫(huà),稱(chēng)為隸屬度函數(shù)).預(yù)備知識(shí)相關(guān)名詞解釋等價(jià)關(guān)系:R是U上的一個(gè)等價(jià)關(guān)系,當(dāng)且僅當(dāng)對(duì)于恣意xU,均有x R x自反性對(duì)于恣意x, yU,x R yy R x對(duì)稱(chēng)性對(duì)于恣意x, y, zU,x R y y R zx R z傳送性等價(jià)類(lèi):假設(shè)R是U上的一個(gè)等價(jià)關(guān)系,對(duì)于恣意xU,稱(chēng)

27、集合x(chóng)=y| y R x, y U為U關(guān)于R的一個(gè)等價(jià)類(lèi),記為xR。設(shè)X1, X2, , Xn是U關(guān)于R的一切等價(jià)類(lèi),那么有:XiXj=ij,i, j=1,2,nX1X2Xn=U劃分:一切等價(jià)類(lèi)的集合稱(chēng)為U關(guān)于R的商集,它構(gòu)成了U的一個(gè)劃分,記為U/R。概念:具有一樣特征值的一群對(duì)象稱(chēng)為一個(gè)概念一個(gè)等價(jià)類(lèi)就是一個(gè)概念.預(yù)備知識(shí)相關(guān)名詞解釋pi T1 pj iff v(pi, T1)=v(pj, T1),那么T1是U上的一個(gè)等價(jià)關(guān)系類(lèi)似地可以定義T2, T3, EX1=p1=p4=p6=p1, p4, p6為U關(guān)于T1的一個(gè)等價(jià)類(lèi)X2=p2=p3=p5=p2, p3, p5為U關(guān)于T1的另一個(gè)等

28、價(jià)類(lèi)T1有多少種取值就有多少個(gè)等價(jià)類(lèi)顯然 X1X2=; X1X2=U商集U/T1=X1, X2UT1 T2T3Ep1NYNormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY.預(yù)備知識(shí)成員集合成員:明確的隸屬關(guān)系模糊成員:概念模糊(如青年)導(dǎo)致成員模糊粗糙成員:概念明晰(如感冒),成員模糊(能否感冒不清楚),具有概率特征(隸屬函數(shù)),但不是概率問(wèn)題,只是由于根據(jù)可用知識(shí)無(wú)法得到準(zhǔn)確結(jié)論。.粗糙集實(shí)際的提出粗糙集實(shí)際由Pawlak提出1982,1991。粗糙集實(shí)際反映了人們以不完全信息或知識(shí)去處置一些不可分辨景象的才干,或根據(jù)察看、度量到某

29、些不準(zhǔn)確的結(jié)果而進(jìn)展分類(lèi)數(shù)據(jù)的才干。Pawlak Z., Rough sets. International Journal of Computer and Information Sciences, 1982(11): 341-356Pawlak Z., Rough setTheoretical Aspects of Reasoning about Data, Dordrecht, Boston, London: Kluwer Academic Publishers,1991.根本思想知識(shí)是主體對(duì)論域中的客體進(jìn)展分類(lèi)的才干,分類(lèi)才干越強(qiáng),主體所具備知識(shí)的可靠度越高 分類(lèi)才干受主體分辨才干的影

30、響,因此分類(lèi)具有近似性 (粗糙集)影響分類(lèi)才干的要素(在信息系統(tǒng)中常描畫(huà)為屬性)很多,不同的要素重要程度不同,其中某些要素起決議性作用 (屬性重要性:屬性約簡(jiǎn))具有一樣屬性的實(shí)體,屬性取值的不同對(duì)分類(lèi)才干也產(chǎn)生影響 (值重要性:值約簡(jiǎn))屬性之間存在某種依賴(lài)關(guān)系(決策規(guī)那么).信息系統(tǒng)與知識(shí)信息系統(tǒng)I可以定義為四元組,其中有限非空集合U是論域,A為關(guān)于U的屬性集, ,Va表示屬性a的值域,映射f: UAV表示對(duì)xU,aA,有: f(x, a)V。決策表:假設(shè)屬性集合A可進(jìn)一步分為兩個(gè)屬性子集的并:條件屬性集C和決策屬性集D,A=CD,CD=,那么信息系統(tǒng)也被稱(chēng)為決策表。UT1 T2T3Ep1NY

31、NormalYp2YNNormalYp3YYHighYp4NYLowNp5YNNormalNp6NYHighY.信息系統(tǒng)與知識(shí)A的任何一個(gè)子集B確定一個(gè)U上的二元關(guān)系IND(B):對(duì)于恣意aB,xIND(B)ya(x)=a(y);x, yU;a(x)表示對(duì)象x的a屬性值。那么稱(chēng)IND(B)為不可分辨關(guān)系。 IND(B)是等價(jià)關(guān)系,IND(B)的一切等價(jià)類(lèi)的集合記為U/B稱(chēng)為知識(shí)B,含有元素x的等價(jià)類(lèi)記為B(x)或xB,同一等價(jià)類(lèi)中的元素是不可分辨的,稱(chēng)IND(B)等價(jià)類(lèi)為初等集范疇,它是知識(shí)庫(kù)的根本構(gòu)造單元即概念。設(shè)R是由屬性集A的子集誘導(dǎo)的論域U上的等價(jià)關(guān)系族,那么稱(chēng)R為U上的一個(gè)知識(shí)庫(kù),記

32、為K=(U, R)。.粗糙集與近似對(duì)于U的恣意子集X,假設(shè)X恰能由知識(shí)R的假設(shè)干個(gè)初等集的并構(gòu)成,那么稱(chēng)X為R-準(zhǔn)確集,否那么為R-粗糙集。每個(gè)粗糙集X都可用兩個(gè)與之相關(guān)的準(zhǔn)確集近似表示即X的上近似和下近似,他們是粗糙集實(shí)際的兩個(gè)最根本運(yùn)算。.粗糙集與近似下近似由一切包含于X的初等集合的并構(gòu)成, X的下近似中的元素一定屬于X。上近似由與X的交為非空的初等集合的并構(gòu)成,而上近似中的元素能夠?qū)儆赬。上近似與下近似的差為邊境域,粗糙集的邊境域?yàn)榉强眨衲敲礊闇?zhǔn)確集。邊境域中的元素根據(jù)可用知識(shí)沒(méi)有確定的分類(lèi),即它既不能劃分到X中也不能劃分到X的補(bǔ)集中。正域與負(fù)域.經(jīng)典粗糙集模型論域U粗糙集X粗糙集X.

33、經(jīng)典粗糙集模型R1=T1:U/R1=p2, p3, p5,p1, p4, p6; R2=T2,T1:U/R2=p1, p4, p6, p2, p5, p3;R=T1, T2, T3:U/R=(p1, p3, p6, p2, p5,p4;F=E:U/F=p1, p2, p3, p6, p4, p5X1=p1, p2, p3, p6是R粗糙集,X1的R下近似是p1, p3, p6,R上近似是p1, p2, p3, p5, p6,邊境域?yàn)閜2, p5;X2=p4, p5也是R粗糙集,X2的R下近似是p4,X2的R上近似是p2, p4, p5,而邊境域是p2, p5。.粗糙集數(shù)字特征精度: X的R精度

34、反映了我們對(duì)于了解集合X的知識(shí)的完全程度。R(X)=1為準(zhǔn)確集, 0R(X)1為粗糙集。粗糙度:X的R粗糙度反映了我們對(duì)于了解集合X的知識(shí)的不完全程度。(精度與概率或隸屬度的區(qū)別)隸屬度:是根據(jù)可用知識(shí)R,對(duì)象x隸屬于概念X的條件概率。.粗糙集數(shù)字特征知識(shí)R=T1, T2, T3:U/R=(p1, p3, p6, p2, p5,p4;分類(lèi)F=E:U/F=p1, p2, p3, p6, p4, p5X1=p1, p2, p3, p6是R粗糙集,X1的R下近似是p1, p3, p6,R上近似是p1, p2, p3, p5, p6,R精度為0.6;R粗糙度為0.4; X2=p4, p5也是R粗糙集,

35、X2的R下近似是p4,X2的R上近似是p2, p4, p5, R精度為0.333;R粗糙度為0.667;p2隸屬于X1的隸屬度為0.25。.粗糙集數(shù)字特征設(shè)F=X1,X2,Xn是論域U上的一個(gè)劃分,那么根據(jù)知識(shí)R,F(xiàn)的分類(lèi)精度如何?F的近似精度:分類(lèi)的近似精度給出了根據(jù)現(xiàn)有知識(shí)對(duì)對(duì)象進(jìn)展分類(lèi)時(shí)能夠正確的決策的百分?jǐn)?shù)。F的近似質(zhì)量:近似質(zhì)量給出了能正確分類(lèi)的百分?jǐn)?shù)。這是一個(gè)非常重要的特征數(shù)字,它反映了兩種分類(lèi)F和R之間的關(guān)系。假設(shè)將R看作決策表中的條件屬性集,F(xiàn)看成決策屬性集,近似質(zhì)量反映了兩者之間的依賴(lài)關(guān)系。.粗糙集數(shù)字特征知識(shí)R=T1, T2, T3:U/R=(p1, p3, p6, p2,

36、 p5,p4;分類(lèi)F=E:U/F=p1, p2, p3, p6, p4, p5X1=p1, p2, p3, p6是R粗糙集,X1的R下近似是p1, p3, p6,R上近似是p1, p2, p3, p5, p6 ; X2=p4, p5也是R粗糙集,X2的R下近似是p4,X2的R上近似是p2, p4, p5;F的近似精度為0.5;F的近似質(zhì)量為0.667。.知識(shí)依賴(lài)為了尋覓“IFTHEN方式的推理規(guī)那么,在粗糙集實(shí)際體系中所采用的方法是從一個(gè)給定的知識(shí),推導(dǎo)另一個(gè)知識(shí)。假設(shè)知識(shí)D的一切初等范疇都能用知識(shí)C的某些初等范疇來(lái)定義,那么稱(chēng)知識(shí)D可由知識(shí)C推得,也稱(chēng)D完全依賴(lài)于C,記為CD。 設(shè)信息系統(tǒng)I

37、=,A=CD,BC,那么D的B正域定義為:D的B正域表示:利用知識(shí)B,能正確地劃分到U/D各等價(jià)類(lèi)中的一切對(duì)象的集合 .知識(shí)依賴(lài)設(shè)信息系統(tǒng)I=,D完全依賴(lài)于C當(dāng)且僅當(dāng) D等價(jià)于C當(dāng)且僅當(dāng)(CD) (DC);D獨(dú)立于C當(dāng)且僅當(dāng)(CD) (DC)。假設(shè)知識(shí)D的部分初等范疇能用知識(shí)C的某些初等范疇來(lái)定義,稱(chēng)知識(shí)D部分依賴(lài)于知識(shí)C。設(shè)信息系統(tǒng)I=,有: 那么稱(chēng)D是k(0k1)度依賴(lài)于C,記為CkD。 .知識(shí)依賴(lài)R1=T1:U/R1=p2, p3, p5,p1, p4, p6; R2=T2,T1:U/R2=p1, p4, p6, p2, p5, p3;R3=T1, T2, T3:U/R3=(p1, p3

38、, p6, p2, p5,p4;F=E:U/F=p1, p2, p3, p6, p4, p5X1=p1, p2, p3, p6是R3粗糙集,X1的R3下近似是p1, p3, p6,R3上近似是p1, p2, p3, p5, p6 ;X2=p4, p5也是R3粗糙集,X2的R3下近似是p4,X2的R3上近似是p2, p4, p5 。F的R3正域是p1, p3, p4, p6, 所以F對(duì)R3的依賴(lài)度是2/3。條件屬性子集T1T2T3T1,T2 T1,T3 T2,T3T1,T2,T3依賴(lài)度k001/21/62/32/32/3.知識(shí)約簡(jiǎn)為什么要約簡(jiǎn)知識(shí)?判別:根據(jù)條件屬性取值確定對(duì)象所屬的類(lèi)。實(shí)踐:確定對(duì)象所屬的類(lèi)只需其中幾個(gè)屬性甚至一個(gè)屬性,而不需求知道對(duì)象一切的屬性,這與人類(lèi)對(duì)實(shí)體的識(shí)別是一致的。闡明:不同屬性在分類(lèi)時(shí)所起的作用是不同的。什么是知識(shí)約簡(jiǎn)?將知識(shí)庫(kù)中某些不用要的等價(jià)關(guān)系知識(shí)移去的過(guò)程。設(shè)信息系統(tǒng)I=,BC,假設(shè)C(D)=B(D)且B是D獨(dú)立的,那么B為C的D約簡(jiǎn),記為REDD(C)。C的D約簡(jiǎn)是不含任何

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論