第八章:分類與預(yù)測(cè)-《數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)》-教學(xué)課件_第1頁
第八章:分類與預(yù)測(cè)-《數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)》-教學(xué)課件_第2頁
第八章:分類與預(yù)測(cè)-《數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)》-教學(xué)課件_第3頁
第八章:分類與預(yù)測(cè)-《數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)》-教學(xué)課件_第4頁
第八章:分類與預(yù)測(cè)-《數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)》-教學(xué)課件_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、第八章:分類與預(yù)測(cè)8.1 簡介8.2 決策樹8.3 貝葉斯分類8.4 基于遺傳算法分類8.5 分類法的評(píng)估8.6 預(yù)測(cè)本章小結(jié)2003-11-11高等教育出版社第八章:分類與預(yù)測(cè)8.1 簡介2003-11-11高等教育第八章:分類與預(yù)測(cè)8.1 簡介8.2 決策樹8.3 貝葉斯分類8.4 基于遺傳算法分類8.5 分類法的評(píng)估8.6 預(yù)測(cè)本章小結(jié)2003-11-12高等教育出版社第八章:分類與預(yù)測(cè)8.1 簡介2003-11-12高等教育分類分類的目的是提出一個(gè)分類函數(shù)或分類模型(即分類器),通過分類器將數(shù)據(jù)對(duì)象映射到某一個(gè)給定的類別中。 數(shù)據(jù)分類可以分為兩步進(jìn)行。第一步建立模型,用于描述給定的數(shù)據(jù)

2、集合。通過分析由屬性描述的數(shù)據(jù)集合來建立反映數(shù)據(jù)集合特性的模型。這一步也稱作有監(jiān)督的學(xué)習(xí),導(dǎo)出模型是基于訓(xùn)練數(shù)據(jù)集的,訓(xùn)練數(shù)據(jù)集是已知類標(biāo)記的數(shù)據(jù)對(duì)象。第二步使用模型對(duì)數(shù)據(jù)對(duì)象進(jìn)行分類。首先應(yīng)該評(píng)估模型的分類準(zhǔn)確度,如果模型準(zhǔn)確度可以接受,就可以用它來對(duì)未知類標(biāo)記的對(duì)象進(jìn)行分類。 2003-11-13高等教育出版社分類分類的目的是提出一個(gè)分類函數(shù)或分類模型(即分類器),通過第八章:分類與預(yù)測(cè)-數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)-教學(xué)課件第八章:分類與預(yù)測(cè)-數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)-教學(xué)課件決策樹學(xué)習(xí)簡介決策樹(Decision Tree)學(xué)習(xí)是以樣本為基礎(chǔ)的歸納學(xué)習(xí)方法。決策樹的表現(xiàn)形式是類似于流程圖的樹結(jié)構(gòu),在決

3、策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值測(cè)試,并根據(jù)屬性值判斷由該節(jié)點(diǎn)引出的分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)論。內(nèi)部節(jié)點(diǎn)是屬性或?qū)傩缘募?,葉節(jié)點(diǎn)代表樣本所屬的類或類分布。經(jīng)由訓(xùn)練樣本集產(chǎn)生一棵決策樹后,為了對(duì)未知樣本集分類,需要在決策樹上測(cè)試未知樣本的屬性值。測(cè)試路徑由根節(jié)點(diǎn)到某個(gè)葉節(jié)點(diǎn),葉節(jié)點(diǎn)代表的類就是該樣本所屬的類。 2003-11-16高等教育出版社決策樹學(xué)習(xí)簡介決策樹(Decision Tree)學(xué)習(xí)是以樣決策樹實(shí)例關(guān)于PlayTennis的決策樹如圖所示:2003-11-17高等教育出版社決策樹實(shí)例關(guān)于PlayTennis的決策樹如圖所示:2003決策樹學(xué)習(xí)的算法 決策樹學(xué)習(xí)的基本算法是貪心算法,采

4、用自頂向下的遞歸方式構(gòu)造決策樹。 Hunt等人于1966年提出的概念學(xué)習(xí)系統(tǒng)CLS是最早的決策樹算法,以后的許多決策樹算法都是對(duì)CLS算法的改進(jìn)或由CLS衍生而來。 Quinlan于1979年提出了著名的ID3方法。以ID3為藍(lán)本的C4.5是一個(gè)能處理連續(xù)屬性的算法。 其他決策樹方法還有ID3的增量版本ID4和ID5等。 強(qiáng)調(diào)在數(shù)據(jù)挖掘中有伸縮性的決策樹算法有SLIQ、SPRINT、RainForest算法等。 2003-11-18高等教育出版社決策樹學(xué)習(xí)的算法 決策樹學(xué)習(xí)的基本算法是貪心算法,采用自頂向ID3算法 算法 Decision_Tree(samples, attribute_lis

5、t)輸入 由離散值屬性描述的訓(xùn)練樣本集samples;候選屬性集合atrribute_list。 輸出 一棵決策樹。 方法 (1) 創(chuàng)建節(jié)點(diǎn)N; (2) if samples 都在同一類C中 then (3) 返回N作為葉節(jié)點(diǎn),以類C標(biāo)記; (4) if attribute_list為空 then 2003-11-19高等教育出版社ID3算法 算法 Decision_Tree(sampleID3算法(續(xù))(5) 返回N作為葉節(jié)點(diǎn),以samples中最普遍的類標(biāo)記;/多數(shù)表決 (6) 選擇attribute_list中具有最高信息增益的屬性test_attribute; (7) 以test_at

6、tribute標(biāo)記節(jié)點(diǎn)N ;(8) for each test_attribute的已知值v /劃分samples (9) 由節(jié)點(diǎn)N分出一個(gè)對(duì)應(yīng)test_attribute=v的分支; (10) 令Sv為samples中test_attribute=v的樣本集合; /一個(gè)劃分塊 (11) if Sv為空 then (12) 加上一個(gè)葉節(jié)點(diǎn),以samples中最普遍的類標(biāo)記; (13) else 加入一個(gè)由Decision_Tree(Sv, attribute_listtest_attribute)返回的節(jié)點(diǎn)。 2003-11-110高等教育出版社ID3算法(續(xù))(5) 返回N作為葉節(jié)點(diǎn),以sa

7、mp信息熵ID3算法采用基于信息熵定義的信息增益度量來選擇內(nèi)節(jié)點(diǎn)的測(cè)試屬性。熵(Entropy)刻畫了任意樣本集的純度。 設(shè)S是n個(gè)數(shù)據(jù)樣本的集合,將樣本集劃分為c個(gè)不同的類Ci (i=1, 2, c),每個(gè)類Ci含有的樣本數(shù)目為ni,則S劃分為c個(gè)類的信息熵或期望信息為: 其中,pi為S中的樣本屬于第i類Ci的概率,即pini /n。 2003-11-111高等教育出版社信息熵ID3算法采用基于信息熵定義的信息增益度量來選擇內(nèi)節(jié)點(diǎn)熵值反映了對(duì)樣本集合S分類的不確定性,也是對(duì)樣本分類的期望信息。熵值越小,劃分的純度越高,對(duì)樣本分類的不確定性越低。一個(gè)屬性的信息增益,就是用這個(gè)屬性對(duì)樣本分類而導(dǎo)

8、致的熵的期望值下降。因此,ID3算法在每一個(gè)節(jié)點(diǎn)選擇取得最大信息增益的屬性。 2003-11-112高等教育出版社熵值反映了對(duì)樣本集合S分類的不確定性,也是對(duì)樣本分類的期望信期望熵假設(shè)屬性A的所有不同值的集合為Values(A),Sv是S中屬性A的值為v的樣本子集,即Sv=sSA(s)=v,在選擇屬性A后的每一個(gè)分支節(jié)點(diǎn)上,對(duì)該節(jié)點(diǎn)的樣本集Sv分類的熵為E(Sv)。選擇A導(dǎo)致的期望熵定義為每個(gè)子集Sv的熵的加權(quán)和,權(quán)值為屬于Sv的樣本占原始樣本S的比例,即期望熵為:其中,E(Sv)是將S v中的樣本劃分到c個(gè)類的信息熵。 2003-11-113高等教育出版社期望熵假設(shè)屬性A的所有不同值的集合為

9、Values(A),Sv信息增益屬性A相對(duì)樣本集合S的信息增益Gain(S, A)定義為: Gain(S, A)=E(S)E(S, A) Gain(S, A)是指因知道屬性A的值后導(dǎo)致的熵的期望壓縮。Gain(S, A)越大,說明選擇測(cè)試屬性A對(duì)分類提供的信息越多。Quinlan的ID3算法就是在每個(gè)節(jié)點(diǎn)選擇信息增益Gain(S, A)最大的屬性作為測(cè)試屬性。 2003-11-114高等教育出版社信息增益屬性A相對(duì)樣本集合S的信息增益Gain(S, A)定過度擬合 在創(chuàng)建決策樹時(shí),由于訓(xùn)練樣本數(shù)量太少或數(shù)據(jù)中存在噪聲和孤立點(diǎn),許多分支反映的是訓(xùn)練樣本集中的異?,F(xiàn)象,建立的決策樹會(huì)過度擬合訓(xùn)練樣

10、本集。過度擬合也稱過學(xué)習(xí),指推出過多與訓(xùn)練數(shù)據(jù)集相一致的假設(shè)。過度擬合將導(dǎo)致作出的假設(shè)泛化能力過差。 2003-11-115高等教育出版社過度擬合 在創(chuàng)建決策樹時(shí),由于訓(xùn)練樣本數(shù)量太少或數(shù)據(jù)中存在噪決策樹的剪枝 剪枝用于解決過度擬合的問題。剪枝的原則包括:(1)奧卡姆剃刀原則“如無必要,勿增實(shí)體”。即在與觀察相容的情況下,應(yīng)當(dāng)選擇最簡單的一個(gè);(2)決策樹越小就越容易理解,其存儲(chǔ)與傳輸?shù)拇鷥r(jià)也就越??;(3)決策樹越復(fù)雜,節(jié)點(diǎn)越多,每個(gè)節(jié)點(diǎn)包含的訓(xùn)練樣本個(gè)數(shù)越少,則支持每個(gè)節(jié)點(diǎn)的假設(shè)的樣本個(gè)數(shù)就越少,可能導(dǎo)致決策樹在測(cè)試集上的分類錯(cuò)誤率較大。但決策樹過小也會(huì)導(dǎo)致錯(cuò)誤率較大,因此,需要在樹的大小與

11、正確率之間尋找均衡點(diǎn)。 2003-11-116高等教育出版社決策樹的剪枝 剪枝用于解決過度擬合的問題。剪枝的原則包括:(剪枝技術(shù)常用的剪枝技術(shù)有預(yù)剪枝(Pre-pruning)和后剪枝(Post-pruning)兩種。預(yù)剪枝技術(shù)限制決策樹的過度生長(如CHAID、和ID3家族的ID3、C4.5算法等),后剪枝技術(shù)則是待決策樹生成后再進(jìn)行剪枝(如CART算法等)。 預(yù)剪枝:最直接的預(yù)剪枝方法是事先限定決策樹的最大生長高度,使決策樹不能過度生長。 后剪枝:后剪枝技術(shù)允許決策樹過度生長,然后根據(jù)一定的規(guī)則,剪去決策樹中那些不具有一般代表性的葉節(jié)點(diǎn)或分支。 2003-11-117高等教育出版社剪枝技術(shù)

12、常用的剪枝技術(shù)有預(yù)剪枝(Pre-pruning)和后決策樹算法的改進(jìn) Bratko的研究小組在用ID3算法構(gòu)造決策樹時(shí)發(fā)現(xiàn),按照信息增益最大的原則,ID3算法首先判斷的屬性(靠近決策樹的根節(jié)點(diǎn))有時(shí)并不能提供較多的信息。Konenko等人認(rèn)為信息增益度量偏向取值較多的屬性。 幾種改進(jìn)的算法:二叉樹決策算法、按增益比率進(jìn)行估計(jì)的方法、按分類信息估值、按劃分距離估值的方法。2003-11-118高等教育出版社決策樹算法的改進(jìn) Bratko的研究小組在用ID3算法構(gòu)造決決策樹算法的可伸縮性面對(duì)海量數(shù)據(jù)集上的數(shù)據(jù)挖掘任務(wù),決策樹算法的有效性和可伸縮性是值得關(guān)注的問題。 為改善算法的可伸縮性,早期的策略

13、有數(shù)據(jù)采樣、連續(xù)屬性離散化、對(duì)數(shù)據(jù)分片構(gòu)建決策樹等,這些策略是以降低分類準(zhǔn)確性為代價(jià)的。 SLIQ和SPRINT算法能夠在非常大的訓(xùn)練樣本集上進(jìn)行決策樹歸納學(xué)習(xí)。 “雨林”(RainForest)算法框架關(guān)注于提高決策樹算法的伸縮性,該框架可用于大多數(shù)決策樹算法(例如SPRINT和SLIQ),使算法獲得的結(jié)果與將全部數(shù)據(jù)放置于內(nèi)存所得到的結(jié)果一致。 2003-11-119高等教育出版社決策樹算法的可伸縮性面對(duì)海量數(shù)據(jù)集上的數(shù)據(jù)挖掘任務(wù),決策樹算第八章:分類與預(yù)測(cè)8.1 簡介8.2 決策樹8.3 貝葉斯分類8.4 基于遺傳算法分類8.5 分類法的評(píng)估8.6 預(yù)測(cè)本章小結(jié)2003-11-120高等

14、教育出版社第八章:分類與預(yù)測(cè)8.1 簡介2003-11-120高等教簡介貝葉斯學(xué)派奠基性的工作,是英國學(xué)者貝葉斯的一篇具有哲學(xué)性的論文關(guān)于幾率性問題求解的討論。 1958年英國歷史最長的統(tǒng)計(jì)雜志Biometrika重新全文刊載了貝葉斯的論文。 貝葉斯理論在人工智能、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等方面有廣泛應(yīng)用。20世紀(jì)80年代,貝葉斯網(wǎng)絡(luò)被用于專家系統(tǒng)的知識(shí)表示,90年代可學(xué)習(xí)的貝葉斯網(wǎng)絡(luò)被用于數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)。 貝葉斯分類是一種統(tǒng)計(jì)學(xué)分類方法,可以預(yù)測(cè)類成員關(guān)系的可能性。 2003-11-121高等教育出版社簡介貝葉斯學(xué)派奠基性的工作,是英國學(xué)者貝葉斯的一篇具有哲學(xué)性樸素貝葉斯分類樸素貝葉斯分類將訓(xùn)

15、練樣本I分解成特征向量X和決策類別變量C。假定一個(gè)特征向量的各分量相對(duì)于決策變量是獨(dú)立的,也就是說各分量獨(dú)立地作用于決策變量。這一假定叫作類條件獨(dú)立。一般認(rèn)為,只有在滿足類條件獨(dú)立的情況下,樸素貝葉斯分類才能獲得精確最優(yōu)的分類效果;在屬性相關(guān)性較小的情況下,能獲得近似最優(yōu)的分類效果。 2003-11-122高等教育出版社樸素貝葉斯分類樸素貝葉斯分類將訓(xùn)練樣本I分解成特征向量X和決樸素貝葉斯分類的工作過程1. 用n維特征向量X=x1, x2, xn表示每個(gè)數(shù)據(jù)樣本,用以描述對(duì)該樣本的n個(gè)屬性A1, A2, , An的度量。 2. 假定數(shù)據(jù)樣本可以分為m個(gè)類C1, C2, , Cm。給定一個(gè)未知類

16、標(biāo)號(hào)的數(shù)據(jù)樣本X,樸素貝葉斯分類將其分類到類Ci ,當(dāng)且僅當(dāng) P(Ci|X) P(Cj|X),1jm,ji P(Ci|X)最大的類Ci稱為最大后驗(yàn)假定。由貝葉斯公式可知 2003-11-123高等教育出版社樸素貝葉斯分類的工作過程1. 用n維特征向量X=x1, x樸素貝葉斯分類的工作過程(續(xù))3. 由于P(X) 對(duì)于所有類都為常數(shù),只需要P(X|Ci)P(Ci )最大即可。如果類的先驗(yàn)概率未知,通常根據(jù)貝葉斯假設(shè),可取P(C1)=P(C2)=P(Cm),從而只需P(X |Ci)最大化。類的先驗(yàn)概率也可以用P(Ci )=si /s計(jì)算,其中si是類Ci中的訓(xùn)練樣本數(shù),s是訓(xùn)練樣本總數(shù)。 4. 當(dāng)

17、數(shù)據(jù)集的屬性較多時(shí),計(jì)算P(X|Ci)的開銷可能非常大。如果假定類條件獨(dú)立,可以簡化聯(lián)合分布,從而降低計(jì)算P(X|Ci)的開銷。給定樣本的類標(biāo)號(hào),若屬性值相互條件獨(dú)立,即屬性間不存在依賴關(guān)系,則有: 2003-11-124高等教育出版社樸素貝葉斯分類的工作過程(續(xù))3. 由于P(X) 對(duì)于所有類樸素貝葉斯分類的工作過程(續(xù)) 其中,概率P(x1|Ci), P(x2|Ci), P(xn|Ci)可以由訓(xùn)練樣本進(jìn)行估值。如果Ak 是離散值屬性,則P(xk|Ci)=sik/si 。其中,sik是類Ci中屬性Ak的值為xk的訓(xùn)練樣本數(shù),而si是Ci中的訓(xùn)練樣本數(shù)。如果Ak是連續(xù)值屬性,通常假定該屬性服從

18、高斯分布(正態(tài)分布)。從而有 2003-11-125高等教育出版社樸素貝葉斯分類的工作過程(續(xù))2003-11-125高等教育樸素貝葉斯分類的工作過程(續(xù)) 其中,給定類Ci的訓(xùn)練樣本屬性Ak的值, 是屬性Ak的高斯密度函數(shù), , 分別為均值和標(biāo)準(zhǔn)差。5. 對(duì)每個(gè)類Ci ,計(jì)算P(X|Ci)P(Ci)。把樣本X指派到類Ci的充分必要條件是 P(X|Ci)P(Ci)P(X|Cj)P(Cj),1jm,ji 也就是說,X被分配到使P(X|Ci)P(Ci)最大的類Ci 。 2003-11-126高等教育出版社樸素貝葉斯分類的工作過程(續(xù)) 其中,給定類Ci的訓(xùn)練樣貝葉斯網(wǎng)絡(luò)簡介一般來說,貝葉斯信念網(wǎng)絡(luò)

19、通過指定一組條件獨(dú)立性假定(有向無環(huán)圖),以及一組局部條件概率集合來表示聯(lián)合概率分布。貝葉斯信念網(wǎng)絡(luò)也稱作貝葉斯網(wǎng)絡(luò)、信念網(wǎng)絡(luò)或概率網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)允許在變量的子集間定義類條件獨(dú)立性,并且提供一種因果關(guān)系的圖形,可以在其上進(jìn)行學(xué)習(xí)。 2003-11-127高等教育出版社貝葉斯網(wǎng)絡(luò)簡介一般來說,貝葉斯信念網(wǎng)絡(luò)通過指定一組條件獨(dú)立性貝葉斯網(wǎng)絡(luò)的定義 給定一個(gè)隨機(jī)變量集X=X1, X2, Xn,其中Xi是一個(gè)m維向量。貝葉斯網(wǎng)絡(luò)說明X上的一條聯(lián)合條件概率分布。貝葉斯網(wǎng)絡(luò)定義如下: B=G, G是一個(gè)有向無環(huán)圖,頂點(diǎn)分別對(duì)應(yīng)于有限集X中的隨機(jī)變量X1, X2, Xn,每條弧代表一個(gè)函數(shù)依賴關(guān)系。如果有

20、一條由變量Y到X的弧,則Y是X的雙親或稱直接前驅(qū),而X則是Y的后繼。一旦給定雙親,圖中的每個(gè)變量就與其非后繼節(jié)點(diǎn)相獨(dú)立。在圖G中,Xi的所有雙親變量用集合Pa (Xi)表示。 2003-11-128高等教育出版社貝葉斯網(wǎng)絡(luò)的定義 給定一個(gè)隨機(jī)變量集X=X1, X2,貝葉斯網(wǎng)絡(luò)的定義(續(xù)) 代表用于量化網(wǎng)絡(luò)的一組參數(shù)。對(duì)于每一個(gè)Xi的取值xi,參數(shù) ,表明在給定Pa (Xi)發(fā)生的情況下,事件xi 發(fā)生的條件概率。實(shí)際上,貝葉斯網(wǎng)絡(luò)給定了變量集合X上的聯(lián)合條件概率分布: 2003-11-129高等教育出版社貝葉斯網(wǎng)絡(luò)的定義(續(xù)) 代表用于量化網(wǎng)絡(luò)的一組參數(shù)。對(duì)于每貝葉斯網(wǎng)絡(luò)的構(gòu)造 (1) 確定為

21、建立模型所需的有關(guān)變量及其解釋。包括: 確定模型的目標(biāo),即確定問題相關(guān)的解釋。 確定與問題有關(guān)的可能觀測(cè)值,并確定值得建立模型的子集。 將這些觀測(cè)值組織成互不相容的而且窮盡所有狀態(tài)的變量。 (2) 建立一個(gè)表示條件獨(dú)立斷言的有向無環(huán)圖。 (3) 指派局部概率分布。在離散的情況下,需要為每一個(gè)變量Xi的各個(gè)父節(jié)點(diǎn)的狀態(tài)指派一個(gè)分布。 2003-11-130高等教育出版社貝葉斯網(wǎng)絡(luò)的構(gòu)造 (1) 確定為建立模型所需的有關(guān)變量及其解貝葉斯網(wǎng)絡(luò)的學(xué)習(xí) 依據(jù)數(shù)據(jù)是否完備及網(wǎng)絡(luò)結(jié)構(gòu)是否已知,貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)可分為4種:網(wǎng)絡(luò)結(jié)構(gòu)已知且數(shù)據(jù)完備、網(wǎng)絡(luò)結(jié)構(gòu)已知且數(shù)據(jù)不完備、網(wǎng)絡(luò)結(jié)構(gòu)未知且數(shù)據(jù)完備、網(wǎng)絡(luò)結(jié)構(gòu)未知且

22、數(shù)據(jù)不完備。 2003-11-131高等教育出版社貝葉斯網(wǎng)絡(luò)的學(xué)習(xí) 依據(jù)數(shù)據(jù)是否完備及網(wǎng)絡(luò)結(jié)構(gòu)是否已知,貝葉斯貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)(續(xù))在已知網(wǎng)絡(luò)結(jié)構(gòu),并且變量可以從訓(xùn)練樣本中完全獲得時(shí),通過學(xué)習(xí)比較容易得到條件概率表,可以采用的方法有最大似然估計(jì)方法、貝葉斯方法等。 如果只有一部分變量值能在數(shù)據(jù)中觀察到,學(xué)習(xí)貝葉斯網(wǎng)絡(luò)就要困難得多,類似于在人工神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)隱藏單元的權(quán)值,其中輸入和輸出節(jié)點(diǎn)值由訓(xùn)練樣本給出,但隱藏單元的值未指定。可以采用的方法有蒙特卡洛方法、高斯近似方法、基于梯度的方法和EM算法等。 2003-11-132高等教育出版社貝葉斯網(wǎng)絡(luò)的學(xué)習(xí)(續(xù))在已知網(wǎng)絡(luò)結(jié)構(gòu),并且變量可以從訓(xùn)練樣

23、本基于梯度的方法Russell等人于1995年提出一個(gè)簡單的基于梯度的方法以學(xué)習(xí)條件概率表中的項(xiàng)。這一基于梯度的方法搜索一個(gè)假設(shè)空間,它對(duì)應(yīng)于條件概率表中所有可能的項(xiàng)。在梯度上升中最大化的目標(biāo)函數(shù)是Ph (D),即在給定假設(shè)h下觀察到訓(xùn)練數(shù)據(jù)D的概率。 梯度上升規(guī)則使用相應(yīng)于定義條件概率表參數(shù)lnPh(D)的梯度來使Ph (D)最大化。令wijk為在給定雙親節(jié)點(diǎn)Ui 取值uik時(shí),網(wǎng)絡(luò)變量Yi值為yij的概率,即wijk代表某個(gè)條件概率表中的一個(gè)CPT項(xiàng)。 2003-11-133高等教育出版社基于梯度的方法Russell等人于1995年提出一個(gè)簡單的基基于梯度的方法(續(xù))給定網(wǎng)絡(luò)結(jié)構(gòu)和wijk

24、的初值,算法步驟如下: (1) 對(duì)于每個(gè)wi jk ,lnPh (D)的梯度由下式計(jì)算的導(dǎo)數(shù)給出:(2) 沿梯度上升方向更新每個(gè)wi jk : 其中,是一小的常量,稱為學(xué)習(xí)率。 2003-11-134高等教育出版社基于梯度的方法(續(xù))給定網(wǎng)絡(luò)結(jié)構(gòu)和wijk的初值,算法步驟如基于梯度的方法(續(xù))(3) 將權(quán)值wi jk歸一化,以滿足當(dāng)權(quán)值wi jk更新時(shí),其取值屬于區(qū)間0, 1,使其成為有效的概率,并且對(duì)所有的i,k,都有j wi jk 等于1。梯度方法的優(yōu)點(diǎn)是靈活,適應(yīng)性強(qiáng),并可借鑒人工神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法。但梯度方法需要在合理的參數(shù)空間中搜索,而且存在局部極值問題。 2003-11-135高等

25、教育出版社基于梯度的方法(續(xù))(3) 將權(quán)值wi jk歸一化,以滿足當(dāng)貝葉斯網(wǎng)絡(luò)的優(yōu)勢(shì): 可以綜合先驗(yàn)信息和后驗(yàn)信息; 適合處理不完整和帶有噪聲的數(shù)據(jù)集; 與“黑匣子”知識(shí)表示方式(如人工神經(jīng)網(wǎng)絡(luò))相比,貝葉斯網(wǎng)絡(luò)可以解釋為因果關(guān)系,其結(jié)果易于理解,并利于進(jìn)行深入研究。 2003-11-136高等教育出版社貝葉斯網(wǎng)絡(luò)的優(yōu)勢(shì): 可以綜合先驗(yàn)信息和后驗(yàn)信息; 2003-第八章:分類與預(yù)測(cè)8.1 簡介8.2 決策樹8.3 貝葉斯分類8.4 基于遺傳算法分類8.5 分類法的評(píng)估8.6 預(yù)測(cè)本章小結(jié)2003-11-137高等教育出版社第八章:分類與預(yù)測(cè)8.1 簡介2003-11-137高等教遺傳算法的發(fā)

26、展最早意識(shí)到自然遺傳算法可以轉(zhuǎn)化為人工智能算法的是J.H.Holland教授。 1967年,Holland教授的學(xué)生J.D.Bagley在其博士論文中首次提出了“遺傳算法” 一詞,并發(fā)表了遺傳算法應(yīng)用方面的第一篇論文,從而創(chuàng)立了自適應(yīng)遺傳算法的概念。 J.D.Bagley發(fā)展了復(fù)制、交叉、變異、顯性、倒位等遺傳算子,在個(gè)體編碼上使用了雙倍體的編碼方法。 1970年,Cavicchio把遺傳算法應(yīng)用于模式識(shí)別。Hollstien最早把遺傳算法應(yīng)用于函數(shù)優(yōu)化。 2003-11-138高等教育出版社遺傳算法的發(fā)展最早意識(shí)到自然遺傳算法可以轉(zhuǎn)化為人工智能算法的遺傳算法的發(fā)展70年代初,Holland教

27、授提出了遺傳算法的基本定理模式定理,從而奠定了遺傳算法的理論基礎(chǔ)。 1975年,Holland教授出版了第一本系統(tǒng)論述遺傳算法和人工自適應(yīng)系統(tǒng)的專著自然系統(tǒng)和人工系統(tǒng)的自適應(yīng)性。同年,K.A.De Jong在博士論文遺傳自適應(yīng)系統(tǒng)的行為分析中結(jié)合模式定理進(jìn)行了大量的純數(shù)值函數(shù)優(yōu)化計(jì)算實(shí)驗(yàn),建立了遺傳算法的工作框架,為遺傳算法及其應(yīng)用打下了堅(jiān)實(shí)的基礎(chǔ),他所得出的許多結(jié)論迄今仍具有普遍的指導(dǎo)意義。 2003-11-139高等教育出版社遺傳算法的發(fā)展70年代初,Holland教授提出了遺傳算法的遺傳算法的發(fā)展80年代,Holland教授實(shí)現(xiàn)了第一個(gè)基于遺傳算法的機(jī)器學(xué)習(xí)系統(tǒng)分類器系統(tǒng)(Classif

28、ier Systems,簡稱CS),開創(chuàng)了基于遺傳算法的機(jī)器學(xué)習(xí)的新概念,為分類器系統(tǒng)構(gòu)造出了一個(gè)完整的框架。 1989年,D.J.Goldberg出版了專著搜索、優(yōu)化和機(jī)器學(xué)習(xí)中的遺傳算法。 1991年,L.Davis編輯出版了遺傳算法手冊(cè)一書,書中包括了遺傳算法在科學(xué)計(jì)算、工程技術(shù)和社會(huì)經(jīng)濟(jì)中的大量應(yīng)用樣本,為推廣和普及遺傳算法的應(yīng)用起到了重要的指導(dǎo)作用。 2003-11-140高等教育出版社遺傳算法的發(fā)展80年代,Holland教授實(shí)現(xiàn)了第一個(gè)基于遺遺傳算法的發(fā)展1992年,J.R.Koza將遺傳算法應(yīng)用于計(jì)算機(jī)程序的優(yōu)化設(shè)計(jì)及自動(dòng)生成,提出了遺傳規(guī)劃(Genetic Programmi

29、ng,簡稱GP)的概念。 2003-11-141高等教育出版社遺傳算法的發(fā)展1992年,J.R.Koza將遺傳算法應(yīng)用于計(jì)遺傳算法簡介遺傳算法(Genetic Algorithm,簡稱GA)是模擬生物進(jìn)化過程的計(jì)算模型,是自然遺傳學(xué)與計(jì)算機(jī)科學(xué)相互結(jié)合、相互滲透而形成的新的計(jì)算方法。 在遺傳算法中染色體對(duì)應(yīng)的是一系列符號(hào)序列,在標(biāo)準(zhǔn)的遺傳算法(即基本遺傳算法)中,通常用0,1組成的位串表示,串上各個(gè)位置對(duì)應(yīng)基因座,各位置上的取值對(duì)應(yīng)等位基因。遺傳算法對(duì)染色體進(jìn)行處理,染色體稱為基因個(gè)體。一定數(shù)量的基因個(gè)體組成基因種群。種群中個(gè)體的數(shù)目為種群的規(guī)模,各個(gè)體對(duì)環(huán)境的適應(yīng)程度稱適合度(Fitness

30、)。 2003-11-142高等教育出版社遺傳算法簡介遺傳算法(Genetic Algorithm,簡遺傳算法簡介遺傳算法為模擬生物的遺傳進(jìn)化,必須完成兩種數(shù)據(jù)轉(zhuǎn)換:一是從表現(xiàn)型到基因型的轉(zhuǎn)換,即將搜索空間中的參數(shù)或可行解轉(zhuǎn)化成遺傳空間中的染色體或個(gè)體,完成編碼操作;另一種是從基因型到表現(xiàn)型的轉(zhuǎn)換,是前者的反方向操作,為譯碼操作,即將遺傳空間中的染色體或個(gè)體轉(zhuǎn)換成解空間中的最優(yōu)解。 2003-11-143高等教育出版社遺傳算法簡介遺傳算法為模擬生物的遺傳進(jìn)化,必須完成兩種數(shù)據(jù)轉(zhuǎn)遺傳算法簡介遺傳算法實(shí)質(zhì)上是一種繁衍、監(jiān)測(cè)和評(píng)價(jià)的迭代算法。從數(shù)學(xué)角度看,它是一種概率型搜索算法;從工程學(xué)角度看,它是

31、一種自適應(yīng)的迭代尋優(yōu)過程。算法以所有個(gè)體為對(duì)象,通過選擇、交叉和變異算子實(shí)現(xiàn)種群的換代演化,使新生代的基因種群具有更強(qiáng)的環(huán)境適應(yīng)能力。 2003-11-144高等教育出版社遺傳算法簡介遺傳算法實(shí)質(zhì)上是一種繁衍、監(jiān)測(cè)和評(píng)價(jià)的迭代算法。遺傳算法簡介遺傳算法的最大優(yōu)點(diǎn)是問題求解與初始條件無關(guān),搜索最優(yōu)解的能力極強(qiáng)。遺傳算法可以對(duì)各種數(shù)據(jù)挖掘技術(shù)進(jìn)行優(yōu)化,例如,神經(jīng)網(wǎng)絡(luò)、最近鄰規(guī)則等。解決這些問題的關(guān)鍵是將復(fù)雜的現(xiàn)實(shí)問題解決方案轉(zhuǎn)換成計(jì)算機(jī)中的模擬遺傳物質(zhì)(一系列的計(jì)算機(jī)符號(hào))。 2003-11-145高等教育出版社遺傳算法簡介遺傳算法的最大優(yōu)點(diǎn)是問題求解與初始條件無關(guān),搜索基本概念定義8.2 設(shè)GA

32、的個(gè)體pBl,記集合S=0, 1, *l,則稱sS為模式。其中,“*”是通配符。 定義8.3 若個(gè)體p的每一位都與模式s相匹配,則稱p是s的一個(gè)表示。 定義8.4 模式s的階就是出現(xiàn)在模式中的“0”和“1”的數(shù)目。記為o(s)。 定義8.5 一個(gè)模式的長度就是模式中第一個(gè)確定位置和最后一個(gè)確定位置間的距離,記為(s)。 2003-11-146高等教育出版社基本概念定義8.2 設(shè)GA的個(gè)體pBl,記集合S=0,模式定理定理8.1(模式定理) 適應(yīng)值在群體平均適應(yīng)值之上的、長度較短的低階模式在CA的迭代過程中將按指數(shù)增長率采樣。 模式定理表明,遺傳算法根據(jù)模式的適應(yīng)值、長度和階次為模式分配搜索次數(shù)

33、。為適應(yīng)值較高、長度較短、階次較低的模式按指數(shù)增長率分配搜索次數(shù);為適應(yīng)值較低、長度較長、階次較高的模式按指數(shù)衰減分配搜索次數(shù)。 2003-11-147高等教育出版社模式定理定理8.1(模式定理) 適應(yīng)值在群體平均適應(yīng)值之上基本遺傳算法 Goldberg總結(jié)出一種統(tǒng)一的最基本的遺傳算法,稱為基本遺傳算法(Simple Genetic Algorithms, 簡稱SGA)?;具z傳算法是其他遺傳算法的雛形和基礎(chǔ),它只使用選擇、交叉和變異三種基本遺傳算子,其遺傳進(jìn)化操作過程簡單,容易理解。SGA給各種遺傳算法提供了一個(gè)基本框架,同時(shí)也具有一定的應(yīng)用價(jià)值。 2003-11-148高等教育出版社基本遺

34、傳算法 Goldberg總結(jié)出一種統(tǒng)一的最基本的遺傳算基本遺傳算法的構(gòu)成要素 染色體編碼方法 個(gè)體適應(yīng)度評(píng)價(jià) 遺傳算子 選擇算子:按照某種策略從父代中挑選個(gè)體進(jìn)入中間群體。 交叉算子:隨機(jī)地從中間群體中抽取兩個(gè)個(gè)體,按照某種策略互相交換兩個(gè)個(gè)體的部分染色體碼串,從而形成兩個(gè)新的個(gè)體。 變異算子:按照一定的概率(一般都比較?。?,改變?nèi)旧w中某些基因的值。比如使用基本位變異算子。 基本遺傳算法的運(yùn)行參數(shù) 2003-11-149高等教育出版社基本遺傳算法的構(gòu)成要素 染色體編碼方法 2003-11-14基本遺傳算法的求解過程 編碼并生成祖先群體 計(jì)算種群中所有個(gè)體的環(huán)境適應(yīng)度 用適應(yīng)度函數(shù)評(píng)價(jià)個(gè)體對(duì)環(huán)

35、境的適應(yīng)度 選擇適應(yīng)度好的個(gè)體進(jìn)行復(fù)制 選擇適應(yīng)度好的個(gè)體進(jìn)行復(fù)制交叉配對(duì)繁殖 新生代的變異操作 2003-11-150高等教育出版社基本遺傳算法的求解過程 編碼并生成祖先群體 2003-11-編碼方法 De Jong提出了兩條操作性較強(qiáng)的實(shí)用編碼原則(又稱為編碼規(guī)則)。 編碼原則一(有意義積木塊編碼原則):應(yīng)使用與求問題相關(guān)的、低階的、長度短的模式編碼方案。 編碼原則二(最小字符集編碼原則):應(yīng)使用能自然表示或描述問題的最小編碼字符集的編碼方案。二進(jìn)制編碼、格雷碼(Gray Code)編碼方法、浮點(diǎn)數(shù)編碼方法、符號(hào)編碼方法、多參數(shù)級(jí)聯(lián)編碼方法、多參數(shù)交叉編碼方法等。 2003-11-151高

36、等教育出版社編碼方法 De Jong提出了兩條操作性較強(qiáng)的實(shí)用編碼原則(適應(yīng)度函數(shù) 評(píng)價(jià)個(gè)體適應(yīng)度的一般過程是: 對(duì)個(gè)體編碼串進(jìn)行解碼處理后,可以得到個(gè)體的表現(xiàn)型。 由個(gè)體的表現(xiàn)型可以計(jì)算出對(duì)應(yīng)個(gè)體的目標(biāo)函數(shù)值。 根據(jù)最優(yōu)化問題的類型,由目標(biāo)函數(shù)值按一定的轉(zhuǎn)換規(guī)則求出個(gè)體的適應(yīng)度。 2003-11-152高等教育出版社適應(yīng)度函數(shù) 評(píng)價(jià)個(gè)體適應(yīng)度的一般過程是: 2003-11-1選擇算子 遺傳算法中的選擇操作建立在對(duì)個(gè)體的適應(yīng)度進(jìn)行評(píng)價(jià)的基礎(chǔ)之上。選擇操作用來確定把種群中一些個(gè)體遺傳到下一代群體。要求避免基因缺失,提高全局收斂性和計(jì)算效率。 最常用和最基本的選擇算子是比例選擇算子。設(shè)某一代種群規(guī)

37、模為n,某一個(gè)體的適應(yīng)度為fi ,那么選取它的概率Pi為: 2003-11-153高等教育出版社選擇算子 遺傳算法中的選擇操作建立在對(duì)個(gè)體的適應(yīng)度進(jìn)行評(píng)價(jià)的交叉算子 交叉算子與研究的問題密切相關(guān),既不能太多地破壞個(gè)體編碼串中具有優(yōu)良性狀的模式,又要能夠有效地產(chǎn)生出一些較好的新個(gè)體。另外,交叉算子的設(shè)計(jì)要和個(gè)體編碼設(shè)計(jì)統(tǒng)一考慮。 單點(diǎn)交叉算子是最常用和最基本的交叉操作算子,又叫簡單交叉,是指在個(gè)體編碼串中隨機(jī)地設(shè)置一個(gè)交叉點(diǎn),然后在該點(diǎn)相互交換兩個(gè)配對(duì)個(gè)體的部分染色體。 交叉算子還有二點(diǎn)交叉、多點(diǎn)交叉和均勻交叉等算子。 2003-11-154高等教育出版社交叉算子 交叉算子與研究的問題密切相關(guān),

38、既不能太多地破壞個(gè)體變異算子 變異算子是指將個(gè)體染色體編碼串中的某些基因座上的基因值用該基因座的其他等位基因來替換,從而形成一個(gè)新的個(gè)體。 最簡單的變異算子是基本位變異算子?;疚蛔儺惒僮魇侵敢宰儺惛怕蔖m隨機(jī)指定的個(gè)體編碼串的某一位或某幾位基因座上的基因值作變異運(yùn)算。基本位變異算子的執(zhí)行過程是: 對(duì)個(gè)體的每一個(gè)基因座,依變異概率Pm指定其為變異點(diǎn)。 對(duì)每一個(gè)指定的變異點(diǎn),對(duì)其基因值做取反運(yùn)算或用其他等位基因值來代替,從而產(chǎn)生出一個(gè)新的個(gè)體。 為適應(yīng)各種不同應(yīng)用問題的求解需要,人們提出了一些其他變異算子。其中較常用的幾種變異操作方法有均勻變異、非均勻變異、邊界變異、高斯變異等。 2003-11

39、-155高等教育出版社變異算子 變異算子是指將個(gè)體染色體編碼串中的某些基因座上的基約束條件的處理方法在實(shí)際問題求解中會(huì)有一些約束條件。在遺傳算法的應(yīng)用中,還未找到一種能夠處理各種約束條件的一般化方法。所以對(duì)約束條件進(jìn)行處理時(shí),只能是針對(duì)具體應(yīng)用問題及約束條件的特征,考慮遺傳算子的能力,選用不同的處理方法。 處理約束條件的常用方法主要有搜索空間限定法、可行解變換法和罰函數(shù)法三種。 2003-11-156高等教育出版社約束條件的處理方法在實(shí)際問題求解中會(huì)有一些約束條件。在遺傳算第八章:分類與預(yù)測(cè)8.1 簡介8.2 決策樹8.3 貝葉斯分類8.4 基于遺傳算法分類8.5 分類法的評(píng)估8.6 預(yù)測(cè)本章

40、小結(jié)2003-11-157高等教育出版社第八章:分類與預(yù)測(cè)8.1 簡介2003-11-157高等教評(píng)估分類法的精度 常見的方法有保持方法、留一法、自展法、k-折交叉驗(yàn)證等。 保持方法將給定數(shù)據(jù)隨機(jī)地劃分成兩個(gè)獨(dú)立的集合,即訓(xùn)練集和測(cè)試集。首先使用訓(xùn)練集導(dǎo)出分類法,然后在測(cè)試集上評(píng)估精度。隨機(jī)子選樣是保持方法的一種變形,它將保持方法重復(fù)k次。取每次迭代精度的平均值作為總體精度估計(jì)。 2003-11-158高等教育出版社評(píng)估分類法的精度 常見的方法有保持方法、留一法、自展法、k-評(píng)估分類法的精度(續(xù))留一法(Leaving-one-out)在每一階段留出一個(gè)數(shù)據(jù)點(diǎn),但每個(gè)數(shù)據(jù)點(diǎn)是依次被留出的,所以

41、最終測(cè)試集的大小等于整個(gè)訓(xùn)練集的大小。每個(gè)僅含一個(gè)數(shù)據(jù)點(diǎn)的測(cè)試集獨(dú)立于它所測(cè)試的模型。 自展法(Bootstrap)利用樣本和從樣本中輪番抽出的同樣容量的子樣本間的關(guān)系,對(duì)未知的真實(shí)分布和樣本的關(guān)系建模。Jackknife方法也是以每次留出訓(xùn)練集合中的一部分?jǐn)?shù)據(jù)為基礎(chǔ),它等價(jià)于自展方法的一種近似。 2003-11-159高等教育出版社評(píng)估分類法的精度(續(xù))留一法(Leaving-one-out評(píng)估分類法的精度(續(xù))在k-折交叉驗(yàn)證(k-fold cross-validation)中,原始數(shù)據(jù)被劃分成k個(gè)互不相交的子集或“折”S1,S2,Sk ,每個(gè)折的大小大致相等。進(jìn)行k次訓(xùn)練和測(cè)試。在第i次

42、迭代時(shí),Si用作測(cè)試集,其余的子集都用于訓(xùn)練分類法。分類精度估計(jì)是k次迭代正確分類數(shù)據(jù)除以初始數(shù)據(jù)中的樣本總數(shù)。在分層交叉驗(yàn)證(Stratified Cross-validation)中,將每個(gè)折分層,使得每個(gè)折中樣本的類分布與初始數(shù)據(jù)中的大致相同。 2003-11-160高等教育出版社評(píng)估分類法的精度(續(xù))在k-折交叉驗(yàn)證(k-fold cro提高分類法的精度 改進(jìn)分類法精度的技術(shù)主要有兩種:裝袋(Bagging)(或引導(dǎo)聚集)和推進(jìn)(Boosting)。兩種方法都是將學(xué)習(xí)得到的T個(gè)分類法C1,C2,CT進(jìn)行組合,以求創(chuàng)建一個(gè)改進(jìn)的分類法C*。 2003-11-161高等教育出版社提高分類法

43、的精度 改進(jìn)分類法精度的技術(shù)主要有兩種:裝袋(Ba裝袋假定樣本集合S中含有s個(gè)樣本,裝袋過程如下:對(duì)于第t次(t1, 2, T)迭代,從原始樣本集S中采用放回選樣選取訓(xùn)練集St 。通過學(xué)習(xí)訓(xùn)練集St ,得到分類法Ct 。為對(duì)一個(gè)未知的樣本X分類,每個(gè)分類法Ct返回它的類預(yù)測(cè),算作一票。裝袋的分類法C*統(tǒng)計(jì)得票,并將得票最高的類賦予X??梢酝ㄟ^計(jì)算取得票的平均值,而不是多數(shù),將裝袋技術(shù)用于連續(xù)值的預(yù)測(cè)。 2003-11-162高等教育出版社裝袋假定樣本集合S中含有s個(gè)樣本,裝袋過程如下:對(duì)于第t次(推進(jìn)“推進(jìn)”技術(shù)為每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)。通過學(xué)習(xí)得到一系列分類法。學(xué)習(xí)得到分類法Ct后,更新權(quán)值

44、,使得隨后的分類法Ct+1“更關(guān)注”Ct的分類錯(cuò)誤。最后,推進(jìn)分類法C* 組合每個(gè)分類法的表決,這里每個(gè)分類法的表決是其精度的函數(shù)?!巴七M(jìn)”技術(shù)也可以擴(kuò)充到連續(xù)值預(yù)測(cè)。 2003-11-163高等教育出版社推進(jìn)“推進(jìn)”技術(shù)為每個(gè)訓(xùn)練樣本賦予一個(gè)權(quán)。通過學(xué)習(xí)得到一系列第八章:分類與預(yù)測(cè)8.1 簡介8.2 決策樹8.3 貝葉斯分類8.4 基于遺傳算法分類8.5 分類法的評(píng)估8.6 預(yù)測(cè)本章小結(jié)2003-11-164高等教育出版社第八章:分類與預(yù)測(cè)8.1 簡介2003-11-164高等教預(yù)測(cè)預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無標(biāo)號(hào)樣本類,或評(píng)估給定樣本可能具有的屬性值或區(qū)間值。預(yù)測(cè)的目的是從歷史數(shù)據(jù)中自動(dòng)推導(dǎo)

45、出對(duì)給定數(shù)據(jù)的推廣描述,從而能對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)。在這種觀點(diǎn)下,分類和回歸是兩類主要預(yù)測(cè)問題。其中分類是預(yù)測(cè)離散或標(biāo)稱值,而回歸用于預(yù)測(cè)連續(xù)或有序值。一般認(rèn)為:用預(yù)測(cè)法預(yù)測(cè)類標(biāo)號(hào)為分類,用預(yù)測(cè)法預(yù)測(cè)連續(xù)值為預(yù)測(cè)。連續(xù)值的預(yù)測(cè)一般用回歸統(tǒng)計(jì)技術(shù)建模。 2003-11-165高等教育出版社預(yù)測(cè)預(yù)測(cè)是構(gòu)造和使用模型評(píng)估無標(biāo)號(hào)樣本類,或評(píng)估給定樣本可能時(shí)間序列預(yù)測(cè)模型 時(shí)間序列是指按時(shí)間先后順序?qū)⒛硞€(gè)變量的取值排列起來形成的序列。時(shí)間序列模型主要用來對(duì)未來進(jìn)行預(yù)測(cè),屬于趨勢(shì)預(yù)測(cè)法。 簡單一次移動(dòng)平均預(yù)測(cè)法 加權(quán)一次移動(dòng)平均預(yù)測(cè)法 指數(shù)平滑預(yù)測(cè)法 2003-11-166高等教育出版社時(shí)間序列預(yù)測(cè)模型 時(shí)

46、間序列是指按時(shí)間先后順序?qū)⒛硞€(gè)變量的取值簡單一次移動(dòng)平均預(yù)測(cè)法 設(shè)yt為時(shí)間序列,取移動(dòng)平均的項(xiàng)數(shù)為n,設(shè)yt是第t期的實(shí)際值,則第(t+1)期預(yù)測(cè)值的計(jì)算公式為: 2003-11-167高等教育出版社簡單一次移動(dòng)平均預(yù)測(cè)法 設(shè)yt為時(shí)間序列,取移動(dòng)平均的項(xiàng)加權(quán)一次移動(dòng)平均預(yù)測(cè)法 計(jì)算公式如下: 2003-11-168高等教育出版社加權(quán)一次移動(dòng)平均預(yù)測(cè)法 計(jì)算公式如下: 2003-11-16指數(shù)平滑預(yù)測(cè)法 一次指數(shù)平滑預(yù)測(cè)法二次指數(shù)平滑預(yù)測(cè)法 2003-11-169高等教育出版社指數(shù)平滑預(yù)測(cè)法 一次指數(shù)平滑預(yù)測(cè)法2003-11-169高等一元線性回歸模型 一元線性回歸模型可描述為: y =b0

47、+b1x+u 其中,b0和b1是未知參數(shù),u是剩余殘差項(xiàng)或稱隨機(jī)擾動(dòng)項(xiàng),它反映了所有其他因素對(duì)因變量y的影響。建立一元線性回歸模型的步驟如下:建立理論模型、估計(jì)參數(shù)、進(jìn)行檢驗(yàn)、進(jìn)行預(yù)測(cè)。 2003-11-170高等教育出版社一元線性回歸模型 一元線性回歸模型可描述為: 2003-11多元線性回歸模型 當(dāng)影響因變量y的自變量不止一個(gè)時(shí),比如有m個(gè)x1,xm,這時(shí)y和x之間的線性回歸模型為 y=+1x1+mxm+ 此時(shí)響應(yīng)變量y可以看作是一個(gè)多維特征向量的線性函數(shù)。可以用最小二乘法求解,1,m。 2003-11-171高等教育出版社多元線性回歸模型 當(dāng)影響因變量y的自變量不止一個(gè)時(shí),比如有m非線性回歸 非線性回歸對(duì)不呈現(xiàn)線性依賴的數(shù)據(jù)建模,可以通過對(duì)變量進(jìn)行變換,將非線性模型轉(zhuǎn)換成線性的,然

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論