![模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第1頁(yè)](http://file4.renrendoc.com/view/38f27cc654d205f52af98ea799a73c87/38f27cc654d205f52af98ea799a73c871.gif)
![模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第2頁(yè)](http://file4.renrendoc.com/view/38f27cc654d205f52af98ea799a73c87/38f27cc654d205f52af98ea799a73c872.gif)
![模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第3頁(yè)](http://file4.renrendoc.com/view/38f27cc654d205f52af98ea799a73c87/38f27cc654d205f52af98ea799a73c873.gif)
![模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第4頁(yè)](http://file4.renrendoc.com/view/38f27cc654d205f52af98ea799a73c87/38f27cc654d205f52af98ea799a73c874.gif)
![模式識(shí)別與機(jī)器學(xué)習(xí)思考題及參考答案_第5頁(yè)](http://file4.renrendoc.com/view/38f27cc654d205f52af98ea799a73c87/38f27cc654d205f52af98ea799a73c875.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、模式識(shí)別與機(jī)器學(xué)習(xí)期末考查 思考題1:簡(jiǎn)述模式識(shí)別與機(jī)器學(xué)習(xí)研究的共同問(wèn)題和各自的研究側(cè)重點(diǎn)。機(jī)器學(xué)習(xí)是研究讓機(jī)器(計(jì)算機(jī))從經(jīng)驗(yàn)和數(shù)據(jù)獲得知識(shí)或提高自身能力的科學(xué)。機(jī)器學(xué)習(xí)和模式識(shí)別是分別從計(jì)算機(jī)科學(xué)和工程的角度發(fā)展起來(lái)的。然而近年來(lái),由于它們關(guān)心的很多共同問(wèn)題(分類、聚類、特征選擇、信息融合等) ,這兩個(gè)領(lǐng)域的界限越來(lái)越模 糊。機(jī)器學(xué)習(xí)和模式識(shí)別的理論和方法可用來(lái)解決很多機(jī)器感知和信息處理的問(wèn)題,其中包括圖像/視頻分析、(文本、語(yǔ)音、印刷、手寫)文檔分析、信息檢索和網(wǎng)絡(luò)搜索等。 近年來(lái), 機(jī)器學(xué)習(xí)和模式識(shí)別的研究吸引了越來(lái)越多的研究者,理論和方法的進(jìn)步促進(jìn)了工程應(yīng)用中識(shí)別性能的明顯提高。
2、機(jī)器學(xué)習(xí):要使計(jì)算機(jī)具有知識(shí)一般有兩種方法;一種是由知識(shí)工程師將有關(guān)的知識(shí)歸納、 整理,并且表示為計(jì)算機(jī)可以接受、處理的方式輸入計(jì)算機(jī)。另一種是使計(jì)算機(jī)本身有獲得 知識(shí)的能力,它可以學(xué)習(xí)人類已有的知識(shí),并且在實(shí)踐過(guò)程中不總結(jié)、完善,這種方式稱為機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)的研究,主要在以下三個(gè)方面進(jìn)行:一是研究人類學(xué)習(xí)的機(jī)理、人腦思維的過(guò)程;和機(jī)器學(xué)習(xí)的方法; 以及建立針對(duì)具體任務(wù)的學(xué)習(xí)系統(tǒng)。機(jī)器學(xué)習(xí)的研究是在信息科學(xué)、腦科學(xué)、神經(jīng)心理學(xué)、邏輯學(xué)、模糊數(shù)學(xué)等多種學(xué)科基礎(chǔ)上的。依賴于這些學(xué)科而 共同發(fā)展。目前已經(jīng)取得很大的進(jìn)展,但還沒(méi)有能完全解決問(wèn)題。 模式識(shí)別:模式識(shí)別是研究如何使機(jī)器具有感知能力,主要
3、研究視覺(jué)模式和聽覺(jué)模式的識(shí)別。如識(shí)別物體、地形、圖像、字體(如簽字)等。在日常生活各方面以及軍事上都有廣大的用 途。近年來(lái)迅速發(fā)展起來(lái)應(yīng)用模糊數(shù)學(xué)模式、人工神經(jīng)網(wǎng)絡(luò)模式的方法逐漸取代傳統(tǒng)的用統(tǒng)計(jì)模式和結(jié)構(gòu)模式的識(shí)別方法。特別神經(jīng)網(wǎng)絡(luò)方法在模式識(shí)別中取得較大進(jìn)展。理解自然語(yǔ)言計(jì)算機(jī)如能“聽懂”人的語(yǔ)言(如漢語(yǔ)、英語(yǔ)等),便可以直接用口語(yǔ)操作計(jì)算機(jī),這將給人們帶來(lái)極大的便利。 計(jì)算機(jī)理解自然語(yǔ)言的研究有以下三個(gè)目標(biāo):一是計(jì)算機(jī)能正確理解人類的自然語(yǔ)言輸入的信息,并能正確答復(fù)(或響應(yīng))輸入的信息。二是計(jì)算機(jī)對(duì)輸入的信息能產(chǎn)生相應(yīng)的摘要, 而且復(fù)述輸入的內(nèi)容。 三是計(jì)算機(jī)能把輸入的自然語(yǔ)言翻譯成要求
4、的另一種語(yǔ)言,如將漢語(yǔ)譯成英語(yǔ)或?qū)⒂⒄Z(yǔ)譯成漢語(yǔ)等。目前,研究計(jì)算機(jī)進(jìn)行文字或語(yǔ)言的自動(dòng)翻譯,人們作了大量的嘗試,還沒(méi)有找到最佳的方法,有待于更進(jìn)一步深入探索。 機(jī)器學(xué)習(xí)今后主要的研究方向如下:1)人類學(xué)習(xí)機(jī)制的研究;2)發(fā)展和完善現(xiàn)有學(xué)習(xí)方法,建立實(shí)用的學(xué)習(xí)系統(tǒng),特別是開展多種學(xué)習(xí)方法協(xié)同工作的集 成化系統(tǒng)的研究;通過(guò)多個(gè)現(xiàn)有的具體例子進(jìn)行分析,歸納為更一般的概念.機(jī)器學(xué)習(xí)所關(guān)注的一個(gè)根本問(wèn)題是如何提高學(xué)習(xí)系統(tǒng)的泛化能力,或者說(shuō)是機(jī)器在數(shù)據(jù)中發(fā)現(xiàn)的模式怎樣才能具有良好的推廣能力.機(jī)器學(xué)習(xí)的研究主旨是使用計(jì)算機(jī)模擬人類的學(xué)習(xí)活動(dòng),它是研究計(jì)算機(jī)識(shí)別現(xiàn)有知識(shí)、獲取新知識(shí)、不斷改善性能和實(shí)現(xiàn)自身完善
5、的方法。模式識(shí)別(Pattern Recognition)是指對(duì)表征事物或現(xiàn)象的各種形式的(數(shù)值的、文字的和邏輯關(guān)系的)信息進(jìn)行處理和分析,以對(duì)事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過(guò)程,是信息科學(xué) 和人工智能的重要組成部分。 模式識(shí)別的研究的內(nèi)容是指利用計(jì)算機(jī)對(duì)要分析的客觀事物與 標(biāo)準(zhǔn)模板的通過(guò)某種模式算法,對(duì)其進(jìn)行分類,在錯(cuò)誤概率最小的條件, 使識(shí)別到的結(jié)果最接近于待識(shí)別的客觀事實(shí)。先用一定數(shù)量的樣本,根據(jù)它們之間的相似性進(jìn)行分類器設(shè)計(jì), 而后用所設(shè)計(jì)的分類器對(duì)待識(shí)別的樣本進(jìn)行分類決策.目前模式識(shí)別的主要研究的是提取目標(biāo)的運(yùn)動(dòng)特征,或在此基礎(chǔ)上進(jìn)行對(duì)目標(biāo)的整體的運(yùn)動(dòng)軌跡進(jìn)行研究,2:列出在
6、模式識(shí)別與機(jī)器學(xué)習(xí)中的常用算法及其優(yōu)缺點(diǎn)。1.k-近鄰法近鄰法是一種最簡(jiǎn)單的非參數(shù)模式識(shí)別方法中的模式匹配法,它主要依據(jù)樣本間的多維空間距離來(lái)實(shí)現(xiàn)分類.令Dn=x1,x2, ,xn,其中,每一個(gè)樣本所屬的類別均已知 .對(duì)于測(cè)試樣本點(diǎn)x,分類是,在集合 Dn中與每個(gè)模板進(jìn)行一一比較,將距離最近的點(diǎn)標(biāo)記為x.那么,近鄰法就是把點(diǎn)x分為x所屬類別.(1)優(yōu)點(diǎn):算法簡(jiǎn)單,易于理解和分析,分類效果好。(2)缺點(diǎn):大樣本的計(jì)算量大,存儲(chǔ)所有樣本需較大容量,樣本小時(shí)誤差難控制。2.貝葉斯決策法貝葉斯決策法是基于概率統(tǒng)計(jì)的基本的判別函數(shù)分類法。(1)貝葉斯決策優(yōu)點(diǎn):算法簡(jiǎn)單,易于理解和分析,其基本概念被眾多的
7、先進(jìn)決策算法運(yùn) 用,判斷結(jié)果較精確。(2)貝葉斯決策的主要的缺陷:在采用貝葉斯算法之前,要事先收集一定數(shù)量的符合實(shí)際情況的樣本,這樣才能較精確得出先驗(yàn)概率和條件概率。且在實(shí)際生活中,決策表是很難確定的,計(jì)算所需要的損失差數(shù),往往是根據(jù)多位專家根據(jù)實(shí)際具體問(wèn)題, 共同其錯(cuò)誤的決策 造成的損失的嚴(yán)重程度來(lái)大概確立的。.逆向傳播神經(jīng)網(wǎng)絡(luò)其算法在應(yīng)用中的缺點(diǎn)主要如下:算法的穩(wěn)定性與學(xué)效率成反比。還沒(méi)找到某一明確的規(guī)則確定學(xué)效率的大小,尤其相對(duì)于非線性網(wǎng)絡(luò)來(lái)說(shuō),學(xué)效率的選擇更是一個(gè)難題。訓(xùn)練過(guò)程也可能陷入局部最小,可以通過(guò)變換初始值進(jìn)行多次訓(xùn)練來(lái)決絕這個(gè)問(wèn)題,但又增加了計(jì)算的負(fù)擔(dān)。沒(méi)有有效的方法可以確定
8、網(wǎng)絡(luò)層數(shù),太多或太少都會(huì)影響系統(tǒng)的性能。收斂于局部極小的較早收斂問(wèn)題尚未解決主要的優(yōu)點(diǎn)如下:每個(gè)神經(jīng)元的運(yùn)算功能十分簡(jiǎn)單。各神經(jīng)元之間是并行結(jié)構(gòu)互使得其具有高速處理能力。在神經(jīng)網(wǎng)絡(luò)中,知識(shí)與信息的存儲(chǔ)表現(xiàn)為神經(jīng)元之間分布式的物理聯(lián)系,知識(shí)存儲(chǔ)容量很大。網(wǎng)狀結(jié)構(gòu)似的整個(gè)系統(tǒng)的工作不會(huì)因?yàn)閭€(gè)別的神經(jīng)元的損失而大大降低系統(tǒng)性能。它可以實(shí)現(xiàn)輸入和輸出數(shù)據(jù)之間的非線性映射.遺傳算法遺傳算法的優(yōu)點(diǎn)遺傳算法解決了傳統(tǒng)優(yōu)化算法容易誤入局部最優(yōu)解的缺點(diǎn),不用單值迭代,而是從解集合進(jìn)行搜索,利于全局擇優(yōu)。遺傳算法需要的參數(shù)少,容易形成通用算法程序。遺傳算法有極強(qiáng)的容錯(cuò)能力,遺傳算法的初始串集本身就帶有大量與最優(yōu)解
9、甚遠(yuǎn)的信息; 該算法具有收斂性,通過(guò)選擇、交叉、變異操作能迅速排除與最優(yōu)解相差極大的串。遺傳算法是采用隨機(jī)方法進(jìn)行最優(yōu)解搜索,選擇體現(xiàn)了向最優(yōu)解迫近,交叉體現(xiàn)了最優(yōu)解的產(chǎn)生,變異體現(xiàn)了全局最優(yōu)解的復(fù)蓋。力稱為隱含并行性(Implicit Parallelism) o它說(shuō)明遺傳算法其內(nèi)在具有并行處理的特質(zhì)。遺傳算法的缺點(diǎn)遺傳算法雖然可以在多種領(lǐng)域都有實(shí)際應(yīng)用,并且也展示了它潛力和寬廣前景;遺傳算法還 有大量的問(wèn)題需要研究,目前也還有各種不足。選取的值范圍大,變量多時(shí),收斂速度也隨之下降,甚至有時(shí)還無(wú)法給定取值范圍時(shí)??烧业阶顑?yōu)解附近,但無(wú)法精確確定最優(yōu)解位置。遺傳算法的參數(shù)(n,Pm,Pc漁擇還
10、沒(méi)準(zhǔn)確的定數(shù),還需要進(jìn)一步研究其數(shù)學(xué)基礎(chǔ)理論。.決策樹算法 優(yōu)點(diǎn):由于決 策樹具有易構(gòu)造、結(jié)構(gòu)簡(jiǎn)單、易于理解、 分類精度高,且易于轉(zhuǎn)化成SQI語(yǔ)句有效地存取數(shù)據(jù)庫(kù),易于算法實(shí)現(xiàn)等優(yōu)點(diǎn), 決策樹尤其適于數(shù)據(jù)挖掘。描述簡(jiǎn)單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理 缺點(diǎn):在學(xué)習(xí)過(guò)程中不能有很多背景知識(shí)。是非遞增學(xué)習(xí)算法;ID3決策樹是單變量決策樹,復(fù)雜概念的表達(dá)困難;同性間的相互關(guān)系強(qiáng)調(diào)不夠;抗噪性差。決策樹的這種明確性可能帶來(lái)誤導(dǎo). 神經(jīng)網(wǎng)絡(luò)方法神經(jīng)網(wǎng)絡(luò)由于本身良好的魯棒性、自組織自適應(yīng)性、并行處理、分布存儲(chǔ)和高度容錯(cuò)等特性非常適合解決數(shù)據(jù)挖掘的問(wèn)題,因此近年來(lái)越來(lái)越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模
11、型主要分3大類:以感知機(jī)、BP反向傳播模型、函數(shù)型網(wǎng)絡(luò)為代表的,用于分類、預(yù)測(cè)和 模式識(shí)別的前饋式神經(jīng)網(wǎng)絡(luò)模型;以Hopfield的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計(jì)算的反饋式神經(jīng)網(wǎng)絡(luò)模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射方法。神經(jīng)網(wǎng)絡(luò)方法的缺點(diǎn)是“黑箱性,人們難以理解網(wǎng)絡(luò)的學(xué)習(xí)和決策過(guò)程。遺傳算法遺傳算法是一種基于生物自然選擇與遺傳機(jī)理的隨機(jī)搜索算法,是一種仿生全局優(yōu)化方法。遺傳算法具有的隱含并行性、易于和其它模型結(jié)合等性質(zhì)使得它在數(shù)據(jù)挖掘中被加以應(yīng) 用。Sunil已成功地開發(fā)了一個(gè)基于遺傳算法的數(shù)據(jù)挖掘工具,利用該工具對(duì)兩個(gè)飛機(jī)失事 的真實(shí)數(shù)
12、據(jù)庫(kù)進(jìn)行了數(shù)據(jù)挖掘?qū)嶒?yàn),結(jié)果表明遺傳算法是進(jìn)行數(shù)據(jù)挖掘的有效方法之一。遺傳算法的應(yīng)用還體現(xiàn)在與神經(jīng)網(wǎng)絡(luò)、粗集等技術(shù)的結(jié)合上。如利用遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在不增加錯(cuò)誤率的前提下,刪除多余的連接和隱層單元;用遺傳算法和BP算法結(jié)合訓(xùn)練神經(jīng)網(wǎng)絡(luò),然后從網(wǎng)絡(luò)提取規(guī)則等。但遺傳算法的算法較復(fù)雜,收斂于局部極小的較早收 斂問(wèn)題尚未解決。決策樹方法決策樹是一種常用于預(yù)測(cè)模型的算法,它通過(guò)將大量數(shù)據(jù)有目的分類,從中找到一些有價(jià)值的,潛在的信息。它的主要優(yōu)點(diǎn)是描述簡(jiǎn)單,分類速度快,特別適合大規(guī)模的數(shù)據(jù)處理。 最有影響和最早的決策樹方法是由Quinlan提出的著名的基于信息嫡的 ID3算法。它的主要問(wèn)題是:I
13、D3是非遞增學(xué)習(xí)算法;ID3決策樹是單變量決策樹,復(fù)雜概念的表達(dá)困難;同性 間的相互關(guān)系強(qiáng)調(diào)不夠;抗噪性差。針對(duì)上述問(wèn)題,出現(xiàn)了許多較好的改進(jìn)算法,如 Schlimmer和Fisher設(shè)計(jì)了 ID4遞增式學(xué)習(xí)算法;鐘鳴,陳文偉等提出了 舊LE算法等。粗集方法粗集理論是一種研究不精確、不確定知識(shí)的數(shù)學(xué)工具。粗集方法有幾個(gè)優(yōu)點(diǎn):不需要給 出額外信息;簡(jiǎn)化輸入信息的表達(dá)空間;算法簡(jiǎn)單,易于操作。粗集處理的對(duì)象是類似二維關(guān)系表的信息表。目前成熟的關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和新發(fā)展起來(lái)的數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng),為粗集的數(shù)據(jù)挖掘奠定了堅(jiān)實(shí)的基礎(chǔ)。但粗集的數(shù)學(xué)基礎(chǔ)是集合論,難以直接處理連續(xù)的屬性。而現(xiàn)實(shí)信息表中連續(xù)屬性是
14、普遍存在的。因此連續(xù)屬性的離散化是制約粗集理論實(shí)用化的難點(diǎn)?,F(xiàn)在國(guó)際上已經(jīng)研制出來(lái)了一些基于粗集的工具應(yīng)用軟件,如加拿大Regina大學(xué)開發(fā)的KDD-R美國(guó)Kansas大學(xué)開發(fā)的LER游。覆蓋正例排斥反例方法它是利用覆蓋所有正例、排斥所有反例的思想來(lái)尋找規(guī)則。首先在正例集合中任選一個(gè)種子,到反例集合中逐個(gè)比較。 與字段取值構(gòu)成的選擇子相容則舍去,相反則保留。按此思想循環(huán)所有正例種子,將得到正例的規(guī)則(選擇子的合取式)。比較典型的算法有Michalski的AQ11方法、洪家榮改進(jìn)的 AQ15方法以及他的 AE5方法。統(tǒng)計(jì)分析方法在數(shù)據(jù)庫(kù)字段項(xiàng)之間存在兩種關(guān)系:函數(shù)關(guān)系(能用函數(shù)公式表示的確定性關(guān)
15、系)和相關(guān)關(guān)系(不能用函數(shù)公式表示,但仍是相關(guān)確定性關(guān)系),對(duì)它們的分析可采用統(tǒng)計(jì)學(xué)方法,即利用統(tǒng)計(jì)學(xué)原理對(duì)數(shù)據(jù)庫(kù)中的信息進(jìn)行分析??蛇M(jìn)行常用統(tǒng)計(jì)(求大量數(shù)據(jù)中的最大值、最小值、總和、平均值等 卜回歸分析(用回歸方程來(lái)表示變量間的數(shù)量關(guān)系卜相關(guān)分析(用相關(guān)系數(shù)來(lái)度量變量間的相關(guān)程度卜差異分析(從樣本統(tǒng)計(jì)量的值得出差異來(lái)確定總體參數(shù)之 間是否存在差異)等。模糊集方法即利用模糊集合理論對(duì)實(shí)際問(wèn)題進(jìn)行模糊評(píng)判、模糊決策、模糊模式識(shí)別和模糊聚類分析。系統(tǒng)的復(fù)雜性越高, 模糊性越強(qiáng),一般模糊集合理論是用隸屬度來(lái)刻畫模糊事物的亦此 亦彼性的。李德毅等人在傳統(tǒng)模糊理論和概率統(tǒng)計(jì)的基礎(chǔ)上,提出了定性定量不確定
16、性轉(zhuǎn)換模型-云模型,并形成了云理論。3:請(qǐng)應(yīng)用一種具體的模式識(shí)別與機(jī)器學(xué)習(xí)算法,簡(jiǎn)述解決問(wèn)題的主要步驟。反向傳播網(wǎng)絡(luò)訓(xùn)練設(shè)計(jì)步驟及算法設(shè)置初始值(初始化訓(xùn)練的樣本集、學(xué)習(xí)速率lr,賦給每個(gè)連接權(quán)值 wij和節(jié)點(diǎn)數(shù)的閾值)。 輸入一個(gè)隨機(jī)樣本 X和期望輸出To計(jì)算實(shí)際輸出 Y計(jì)算公式見(jiàn)公式(5) (6)。6)從輸出層向第一隱層,逐層反向調(diào)整權(quán)值,調(diào)整公式見(jiàn)公式(7) (8) (9)。(9)轉(zhuǎn),重復(fù)執(zhí)行,直到誤差滿足要求為止。遺傳算法步驟:(1)初始化群體;(2)計(jì)算群體上每個(gè)個(gè)體的適應(yīng)度值;(3)按由個(gè)體適應(yīng)度值所決定的某個(gè)規(guī)則選擇將進(jìn)入下一代的個(gè)體;(4)按概率Pc進(jìn)行交叉操作;(5)按概率P
17、c進(jìn)行突變操作;(6)沒(méi)有滿足某種停止條件,則轉(zhuǎn)第(2)步,否則進(jìn)入(7)。(7)輸出種群中適應(yīng)度值最優(yōu)的染色體作為問(wèn)題的滿意解或最優(yōu)解。說(shuō)明:算法停止條件最簡(jiǎn)單的有如下兩種:完成了預(yù)先給定的進(jìn)化代數(shù)則停止;種群中的最優(yōu)個(gè)體在連續(xù)若干代沒(méi)有改進(jìn)或平均適應(yīng)度若干代基本沒(méi)有改進(jìn)時(shí)停止。4:在模式識(shí)別與機(jī)器學(xué)習(xí)中,常常需要用已知的數(shù)據(jù)集來(lái)訓(xùn)練所建立的模型。如果所建立 的模型被說(shuō)成是over巾t,請(qǐng)解釋這是什么意思?請(qǐng)陳述一些避免 over fit的方法。 是過(guò)擬合現(xiàn)象,過(guò)擬合主要指訓(xùn)練后的網(wǎng)絡(luò)對(duì)訓(xùn)練樣本(Train sample)具有極高的擬合精度,但是對(duì)工作樣本( Work sample)的預(yù)測(cè)誤
18、差卻非常大。過(guò)擬合著重于網(wǎng)絡(luò)的推廣能力 (Generalization Ability )問(wèn)題,即網(wǎng)絡(luò)學(xué)習(xí)能力與推廣能力之間滿足一般測(cè)不準(zhǔn)關(guān)系測(cè)不準(zhǔn)關(guān)系式中的過(guò)擬合參數(shù)P的確定將有助于避免出現(xiàn) 過(guò)擬合”現(xiàn)象.過(guò)擬合的解決方法是設(shè)置滿足問(wèn)題求解精度要求的上限,不要將目標(biāo)誤差設(shè)置太小。個(gè)人認(rèn)為過(guò)擬合還與樣本過(guò)于冗余有關(guān),采用刪除冗余樣本信息的特征樣本,不僅可以加快訓(xùn)練速度,還可以改善過(guò)擬合問(wèn)題。1.使用初期終止的方法來(lái)提高泛化能力。用訓(xùn)練集來(lái)訓(xùn)練網(wǎng)絡(luò),同時(shí)考察網(wǎng)絡(luò)在校驗(yàn)集上的 誤差,一旦校驗(yàn)集上的誤差的誤差不再下降(或者累計(jì)n次不再下降),那么就停止訓(xùn)練,這樣可以減輕網(wǎng)絡(luò)過(guò)擬合的程度。防止過(guò)擬合(
19、overfitting )的方法:(1)按照一定比例在 TRAIN函數(shù)導(dǎo)入校驗(yàn)和測(cè)試的 VV和 VT參數(shù);(2)采用TRAINGDX和LEARNGDM組合訓(xùn)I練;(3)采用TRAINBR函數(shù)訓(xùn)練等等, 發(fā)現(xiàn)沒(méi)有一個(gè)的泛化(GENERALIZATION)果能很理想的。5.通過(guò)加入擬合函數(shù)的先驗(yàn)知識(shí),加上正則項(xiàng)?;蚴羌討土P項(xiàng)。決策樹對(duì)此歷史數(shù)據(jù)可能非常準(zhǔn)確,一旦應(yīng)用到新的數(shù)據(jù)時(shí)準(zhǔn)確性卻急劇下降,我們稱這種情況為訓(xùn)練過(guò)度.為了使得到的決策樹所蘊(yùn)含的規(guī)則具有普遍意義,必須防止訓(xùn)練過(guò)度,同時(shí)也減少了訓(xùn)練的時(shí)間.因此我們需要有一種方法能讓我們?cè)谶m當(dāng)?shù)臅r(shí)候停止樹的生長(zhǎng).常用的方法是設(shè)定決策樹的最大高度(層數(shù)
20、)來(lái)限制樹的生長(zhǎng).還有一種方法是設(shè)定每個(gè)節(jié)點(diǎn)必須包含 的最少記錄數(shù),當(dāng)節(jié)點(diǎn)中記錄的個(gè)數(shù)小于這個(gè)數(shù)值時(shí)就停止分割5:在模式識(shí)別與機(jī)器學(xué)習(xí)的研究中,還不斷有人提出新的算法。請(qǐng)問(wèn)有那些方法可以用來(lái) 判定他們的優(yōu)劣?.正確性說(shuō)一個(gè)算法是正確的,是指對(duì)于一切合法的輸入數(shù)據(jù),該算法經(jīng)過(guò)有限時(shí)間(算法意義 上的有限)的執(zhí)行都能產(chǎn)生正確(或者說(shuō)滿足規(guī)格說(shuō)明要求)的結(jié)果。.時(shí)間復(fù)雜性應(yīng)該怎樣計(jì)算一個(gè)算法的執(zhí)行時(shí)間呢?首先想到的是,我們應(yīng)選擇一種度量, 對(duì)解決同一個(gè)問(wèn)題的諸多算法用該度量可有效地進(jìn)行比較。:(1)它能告訴我們算法所用方法(包括數(shù)據(jù)結(jié)構(gòu))的時(shí)間效率;(2)它與算法描述語(yǔ)言(或程序設(shè)計(jì)語(yǔ)言)及設(shè)計(jì)風(fēng)格
21、無(wú)關(guān);(3)它與算法實(shí)現(xiàn)過(guò)程中的許多細(xì)節(jié):諸如增加循環(huán)下標(biāo)、 計(jì)算數(shù)組下標(biāo)、設(shè)置數(shù)據(jù)結(jié)構(gòu)指針等簿記運(yùn)算無(wú)關(guān);(4)它應(yīng)該是足夠精確和具有一般性的。一個(gè)算法的時(shí)間復(fù)雜性是指該算法的基本運(yùn)算次數(shù)。.占用空間算法執(zhí)行需要存儲(chǔ)空間來(lái)存放算法本身包含的語(yǔ)句、常數(shù)、變量、輸入數(shù)據(jù)和實(shí)現(xiàn)其運(yùn)算所需的數(shù)據(jù)(如中間結(jié)果等),此外還需要一些工作空間用來(lái)對(duì)(以某種方式存儲(chǔ)的)數(shù)據(jù)進(jìn) 行操作。.可讀性可讀性好的算法有助于設(shè)計(jì)者和他人閱讀、理解、修改和重用。與此相反,晦澀難懂的 算法不但容易隱藏較多的錯(cuò)誤,而且增加了人們?cè)陂喿x、理解、調(diào)試、修改和重用算法等方面的困難。.堅(jiān)固性當(dāng)輸入數(shù)據(jù)非法時(shí),算法能適當(dāng)?shù)刈鞒龊线m的反應(yīng)
22、。時(shí)間復(fù)雜度算法分析同一問(wèn)題可用不同算法解決,而一個(gè)算法的質(zhì)量?jī)?yōu)劣將影響到算法乃至程序的效率。算法分析的目的在于選擇合適算法和改進(jìn)算法。一個(gè)算法的評(píng)價(jià)主要從時(shí)間復(fù)雜度和空間復(fù)雜度來(lái)1、時(shí)間復(fù)雜度(1)時(shí)間頻度一個(gè)算法執(zhí)行所耗費(fèi)的時(shí)間,從理論上是不能算出來(lái)的,必須上機(jī)運(yùn)行測(cè)試才能知道。但我們不可能也沒(méi)有必要對(duì)每個(gè)算法都上機(jī)測(cè)試,只需知道哪個(gè)算法花費(fèi)的時(shí)間多,哪個(gè)算法花費(fèi)的時(shí)間少就可以了。并且一個(gè)算法花費(fèi)的時(shí)間與算法中語(yǔ)句的執(zhí)行次數(shù)成正比例,哪個(gè)算法中語(yǔ)句執(zhí)行次數(shù)多,它花費(fèi)時(shí)間就多。一個(gè)算法中的語(yǔ)句執(zhí)行次數(shù)稱為語(yǔ)句頻度或時(shí)間頻度。記為T(n)。(2)時(shí)間復(fù)雜度在剛才提到的時(shí)間頻度中,n稱為問(wèn)題的規(guī)
23、模,當(dāng) n不斷變化時(shí),時(shí)間頻度 T(n)也會(huì)不斷變化。但有時(shí)我們想知道它變化時(shí)呈現(xiàn)什么規(guī)律。為此,我們引入時(shí)間復(fù)雜度概念。一般情況下,算法中基本操作重復(fù)執(zhí)行的次數(shù)是問(wèn)題規(guī)模n的某個(gè)函數(shù),用T(n)表示,若有某個(gè)輔助函數(shù)f(n),使得當(dāng)n趨近于無(wú)窮大時(shí),T (n)/f(n)的極限值為不等于零的常數(shù),則稱 f(n)是T(n)的同數(shù)量級(jí)函數(shù)。記作T(n)=O(f(n),稱O(f(n)為算法的漸進(jìn)時(shí)間復(fù)雜度,簡(jiǎn)稱時(shí)間復(fù)雜度。在各種不同算法中,若算法中語(yǔ)句執(zhí)行次數(shù)為一個(gè)常數(shù),則時(shí)間復(fù)雜度為0(1),另外,在時(shí)間頻度不相同時(shí), 時(shí)間復(fù)雜度有可能相同, 如T(n)=n2+3n+4與T(n)=4n2+2n+1
24、它們的頻度不 同,但時(shí)間復(fù)雜度相同,都為 0(n2)。按數(shù)量級(jí)遞增排列,常見(jiàn)的時(shí)間復(fù)雜度有:常數(shù)階0(1),對(duì)數(shù)階O(log2n),線性階0(n),線性對(duì)數(shù)階O(nlog2n),平方階0(n2),立方階0(n3),.,k次方階0(nk),指數(shù)階0(2n)。隨著問(wèn)題規(guī)模n的不斷增大,上述時(shí)間復(fù)雜度不斷增大,算法的執(zhí)行效率越低。2、空間復(fù)雜度與時(shí)間復(fù)雜度類似,空間復(fù)雜度是指算法在計(jì)算機(jī)內(nèi)執(zhí)行時(shí)所需存儲(chǔ)空間的度量。記作:S(n)=0(f(n) 我們一般所討論的是除正常占用內(nèi)存開銷外的輔助存儲(chǔ)單元規(guī)模。6:如果你所遇到的數(shù)據(jù)集是純數(shù)值型數(shù)據(jù),你會(huì)采用那些模式識(shí)別與機(jī)器學(xué)習(xí)算法?若是 包含大量非數(shù)值數(shù)據(jù)
25、你會(huì)采用那些模式識(shí)別與機(jī)器學(xué)習(xí)算法?為什么?純數(shù)值型數(shù)據(jù):貝葉斯決策法,神經(jīng)網(wǎng)絡(luò) 非純數(shù)值型數(shù)據(jù):決策樹/1.k-近鄰法,是一種最簡(jiǎn)單的模式識(shí)別方法中的模式匹配法,它主要依據(jù)樣本間的多維空間距離來(lái)實(shí)現(xiàn)分類.貝葉斯決策法是基于概率統(tǒng)計(jì)的基本的判別函數(shù)分類法。只要知道先驗(yàn)概率和條件概率 就可以對(duì)樣本進(jìn)行判斷,算法簡(jiǎn)單,易于理解和分析,其基本概念被眾多的先進(jìn)決策算法運(yùn)用,判斷結(jié)果較精確。由于數(shù)據(jù)是純數(shù)值型數(shù)據(jù),數(shù)據(jù)簡(jiǎn)單,樣本間的空間距離易計(jì)算,且先驗(yàn)概率和條件概率易求得。. BP神經(jīng)網(wǎng)絡(luò)算法, 神經(jīng)網(wǎng)絡(luò)只能處理數(shù)值型數(shù)據(jù)建立神經(jīng)網(wǎng)絡(luò)需要做的數(shù)據(jù)準(zhǔn)備工作量很大.要想得到準(zhǔn)確度高的模型必須認(rèn)真的進(jìn)行數(shù)據(jù)清洗,整理,轉(zhuǎn)換,選擇等工作,對(duì)任何數(shù)據(jù)挖掘技術(shù)都是這樣,神經(jīng)網(wǎng)絡(luò)尤其注重這一點(diǎn).比如神經(jīng)網(wǎng)絡(luò)要求所有的輸入變量都必須是0-1(或-1 -+1)之間的實(shí)數(shù),因此像地區(qū)之類文本數(shù)據(jù)必須先做必要的處理變成數(shù)值之后才能用作神經(jīng)網(wǎng)絡(luò)的輸入但每個(gè)神經(jīng)元的運(yùn)算功能十分簡(jiǎn)單。各神經(jīng)元之間是并行結(jié)構(gòu)互使得其具有高速處理能力。在神經(jīng)網(wǎng)絡(luò)中,知識(shí)與信息的存儲(chǔ)表現(xiàn)為神經(jīng)元之間分布式的物理聯(lián)系,知識(shí)存儲(chǔ)容量很大。貝葉斯算法是一種具有最小錯(cuò)誤率或最小風(fēng)險(xiǎn)概率的分類方法,是利用事件的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024學(xué)年泰州市靖江八年級(jí)語(yǔ)文第一學(xué)期12月調(diào)研試卷附答案解析
- 2025年農(nóng)業(yè)物資供應(yīng)鏈優(yōu)化管理協(xié)議
- 2025年專業(yè)除鼠服務(wù)合同
- 2025年出租車經(jīng)營(yíng)權(quán)承接策劃協(xié)議
- 2025年通信傳輸設(shè)備項(xiàng)目規(guī)劃申請(qǐng)報(bào)告模范
- 2025年給皂液機(jī)項(xiàng)目提案報(bào)告模范
- 2025年農(nóng)業(yè)資源共享與協(xié)同發(fā)展協(xié)議
- 2025年建筑工程中介服務(wù)合同模板
- 2025年農(nóng)產(chǎn)品銷售合作協(xié)議合同
- 2025年棉花加工成套設(shè)備項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模稿
- 2025年上半年上半年重慶三峽融資擔(dān)保集團(tuán)股份限公司招聘6人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 特殊教育學(xué)校2024-2025學(xué)年度第二學(xué)期教學(xué)工作計(jì)劃
- 2025年技術(shù)員個(gè)人工作計(jì)劃例文(四篇)
- 勞保穿戴要求培訓(xùn)
- 2024年物聯(lián)網(wǎng)安裝調(diào)試員(初級(jí)工)職業(yè)資格鑒定考試題庫(kù)(含答案)
- 工業(yè)控制系統(tǒng)應(yīng)用與安全防護(hù)技術(shù)(微課版)課件 第1章 緒論
- 《設(shè)備科安全培訓(xùn)》課件
- 藍(lán)色插畫風(fēng)徽州印象旅游景點(diǎn)景區(qū)文化宣傳
- 2024年形勢(shì)與政策課件及講稿合集
- 無(wú)人機(jī)運(yùn)營(yíng)方案
- 延長(zhǎng)石油招聘筆試題庫(kù)
評(píng)論
0/150
提交評(píng)論