




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Matlab數(shù)據(jù)分析第1章數(shù)據(jù)的基本概念及其應(yīng)用第2章Matlab基礎(chǔ)第3章隨機(jī)模擬第4章數(shù)據(jù)預(yù)處理第5章數(shù)據(jù)探索與分析第6章多元線性回歸模型第7章聚類分析第8章分類第1章數(shù)據(jù)的基本概念及其應(yīng)用1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.1數(shù)據(jù)的相關(guān)基本概念1.數(shù)據(jù)2.大數(shù)據(jù)(1)Volume(大量)數(shù)據(jù)存儲(chǔ)單位從過(guò)去的GB、TB,到現(xiàn)在的PB、EB、ZB量級(jí)了。(2)Velocity(高速)生活中每個(gè)人都離不開(kāi)互聯(lián)網(wǎng),每個(gè)人每天都在向大數(shù)據(jù)中心提供大量的信息,通過(guò)互聯(lián)網(wǎng)傳輸,大數(shù)據(jù)的產(chǎn)生非常迅速。(3)Variety(多樣)廣泛的數(shù)據(jù)來(lái)源決定了大數(shù)據(jù)形式的多樣性,任何形式的數(shù)據(jù)都可以產(chǎn)生作用。(4)Value(價(jià)值)大數(shù)據(jù)最大的價(jià)值在于通過(guò)從大量不相關(guān)的各種類型的數(shù)據(jù)中,挖掘出對(duì)未來(lái)趨勢(shì)與模式的預(yù)測(cè)分析有價(jià)值的數(shù)據(jù)。3.信息1.1數(shù)據(jù)與數(shù)據(jù)處理4.信息量1.1.2數(shù)據(jù)處理的主要概念1.算法2.數(shù)據(jù)挖掘3.機(jī)器學(xué)習(xí)1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.3數(shù)據(jù)處理的流程第一階段:制定目標(biāo)?該組織或單位什么要設(shè)立和研究該項(xiàng)目?缺少什么以及需要什么??該組織或單位正在做什么事情來(lái)解決問(wèn)題?什么還不夠好?是否有可借鑒的經(jīng)驗(yàn)??你需要什么種類的數(shù)據(jù)以及需要多少?團(tuán)隊(duì)需要什么人員、哪些技術(shù)、多少時(shí)問(wèn)?計(jì)算資源是什么??該組織或單位如何實(shí)施和應(yīng)用你的結(jié)果?為了成功地應(yīng)用部署,必須滿足哪些約束條件?1.1數(shù)據(jù)與數(shù)據(jù)處理第二階段:數(shù)據(jù)準(zhǔn)備?什么數(shù)據(jù)可以我所用??這些數(shù)據(jù)是否有助于解決問(wèn)題??這些數(shù)據(jù)是否足夠多??數(shù)據(jù)的質(zhì)量是否足夠好?第三階段:建立模型1)特征化。2)打分。3)排序。4)關(guān)聯(lián)。5)分類。1.1數(shù)據(jù)與數(shù)據(jù)處理6)聚類。7)異常檢測(cè)。第四階段:評(píng)價(jià)與批判模型?對(duì)你的需求來(lái)說(shuō)是否足夠準(zhǔn)確?它是否能很好地概括需求??它是否比“直觀猜測(cè)”表現(xiàn)得更好?比你當(dāng)前使用的任何估計(jì)都表現(xiàn)得更好?比之前使用的模型方法是否更好??模型結(jié)果(系數(shù)、聚簇、規(guī)則)在專業(yè)領(lǐng)域的情景是否有意義?也就是說(shuō),模型給出的結(jié)果是否符合實(shí)際情況??模型是否足夠精確?是否有更好的方式?第五階段:展示結(jié)果和文檔第六階段:模型實(shí)施與維護(hù)1.1數(shù)據(jù)與數(shù)據(jù)處理1.1.4數(shù)據(jù)處理的誤區(qū)1.不要用單一類型的數(shù)據(jù)去評(píng)價(jià)全局2.不要夸大偶然事件,認(rèn)為帶來(lái)必然結(jié)果3.避免唯數(shù)據(jù)論4.不是從問(wèn)題實(shí)際出發(fā),寄希望于軟件“黑箱”工具1.2數(shù)據(jù)處理涉及的主要領(lǐng)域1.2.1統(tǒng)計(jì)學(xué)1.2.2數(shù)據(jù)挖掘1)處理的數(shù)據(jù)規(guī)模十分龐大,達(dá)到GB、TB數(shù)量級(jí)。2)查詢一般是決策制定者提出的即時(shí)查詢,往往不能形成精確的查詢要求,需要靠系統(tǒng)本身尋找其可能感興趣的內(nèi)容。3)在一些應(yīng)用領(lǐng)域,由于數(shù)據(jù)變化迅速,因此要求數(shù)據(jù)挖掘能快速做出相應(yīng)反應(yīng)以隨時(shí)提供決策支持。4)數(shù)據(jù)挖掘中,規(guī)則的發(fā)現(xiàn)基于統(tǒng)計(jì)規(guī)律。5)數(shù)據(jù)挖掘所發(fā)現(xiàn)的規(guī)則是動(dòng)態(tài)的,它只反映了當(dāng)前狀態(tài)的數(shù)據(jù)庫(kù)具有的規(guī)則,隨著不斷地向數(shù)據(jù)庫(kù)中加入新數(shù)據(jù),需要隨時(shí)對(duì)其進(jìn)行更新。1.2數(shù)據(jù)處理涉及的主要領(lǐng)域1.2.3云計(jì)算(1)超大規(guī)模“云”具有相當(dāng)?shù)囊?guī)模,Google云計(jì)算已經(jīng)擁有100多萬(wàn)臺(tái)服務(wù)器,Amazon、IBM、微軟、Yahoo等的“云”均擁有幾十萬(wàn)臺(tái)服務(wù)器。(2)虛擬化云計(jì)算支持用戶在任意位置、使用各種終端獲取應(yīng)用服務(wù)。(3)高可靠性“云”使用了數(shù)據(jù)多副本容錯(cuò)、計(jì)算節(jié)點(diǎn)同構(gòu)可互換等措施來(lái)保障服務(wù)的高可靠性,使用云計(jì)算比使用本地計(jì)算機(jī)可靠。(4)通用性云計(jì)算不針對(duì)特定的應(yīng)用,在“云”的支撐下可以構(gòu)造出千變?nèi)f化的應(yīng)用,同一個(gè)“云”可以同時(shí)支撐不同的應(yīng)用運(yùn)行。(5)高可擴(kuò)展性“云”的規(guī)模可以動(dòng)態(tài)伸縮,滿足應(yīng)用和用戶規(guī)模增長(zhǎng)的需要。(6)按需服務(wù)“云”是一個(gè)龐大的資源池,可按需購(gòu)買(mǎi);云可以像白來(lái)水、電、煤氣那樣計(jì)費(fèi)。(7)極其廉價(jià)由于“云”的特殊容錯(cuò)性,可以采用極其廉價(jià)的節(jié)點(diǎn)來(lái)構(gòu)成云,“云”的自動(dòng)化集中式管理使大量企業(yè)無(wú)須負(fù)擔(dān)日益高昂的數(shù)據(jù)中心管理成本,“云”的通用性使資源的利用率較之1.2數(shù)據(jù)處理涉及的主要領(lǐng)域傳統(tǒng)系統(tǒng)大幅提升,因此用戶可以充分享受“云”的低成本優(yōu)勢(shì),經(jīng)常只要花費(fèi)幾百美元、幾天時(shí)間就能完成以前需要數(shù)萬(wàn)美元、數(shù)月時(shí)間才能完成的任務(wù)。(8)潛在的危險(xiǎn)性云計(jì)算除了提供計(jì)算服務(wù)外,還必然提供了存儲(chǔ)服務(wù)。常見(jiàn)的云計(jì)算平臺(tái)有以下9個(gè):(1)GoogleAppEngine
GoogleAppEngine是Google提供的服務(wù),允許開(kāi)發(fā)者在Google的基礎(chǔ)架構(gòu)上運(yùn)行網(wǎng)絡(luò)應(yīng)用程序。(2)AmazonElasticBeanstalkElasticBeanstalk為在AWS(AmazonWebServices)云中部署和管理應(yīng)用提供了一種方法。(3)微軟云Azure云計(jì)算服務(wù)平臺(tái)可以使客戶選擇的權(quán)力部署在以云計(jì)算基礎(chǔ)的互聯(lián)網(wǎng)服務(wù)上,或通過(guò)服務(wù)器,或把它們混合起來(lái)以任何方式提供給需要的業(yè)務(wù)。(4)阿里云與傳統(tǒng)的操作系統(tǒng)相比,依托云計(jì)算的阿里云OS具有明顯的優(yōu)勢(shì)。1.2數(shù)據(jù)處理涉及的主要領(lǐng)域(5)百度BAE平臺(tái)針對(duì)大數(shù)據(jù)的規(guī)模大、類型多、價(jià)值密度低等特征,百度云平臺(tái)提供的BAE(百度應(yīng)用引擎)將提供高并發(fā)的處理能力,以滿足處理速度快的要求。(6)新浪SAE云計(jì)算平臺(tái)作為典型的云計(jì)算,SAE采用“所付即所用,所付僅所用”的計(jì)費(fèi)理念,通過(guò)日志和統(tǒng)計(jì)中心精確地計(jì)算每個(gè)應(yīng)用的資源消耗(包括CPU、內(nèi)存、磁盤(pán)等)。(7)騰訊云騰訊云有著深厚的基礎(chǔ)架構(gòu),并且有著多年對(duì)海量互聯(lián)網(wǎng)服務(wù)的經(jīng)驗(yàn),可以為開(kāi)發(fā)者及企業(yè)提供云服務(wù)器、云存儲(chǔ)、云數(shù)據(jù)庫(kù)和彈性Web引擎等整體一站式服務(wù)方案。(8)華為云華為云通過(guò)基于瀏覽器的云管理平臺(tái),以互聯(lián)網(wǎng)線上自助服務(wù)的方式,為用戶提供云計(jì)算IT基礎(chǔ)設(shè)施服務(wù)。(9)盛大云盛大云是一個(gè)安全、快捷、自助化Taas和Paas服務(wù)的門(mén)戶入口。1.3數(shù)據(jù)處理的主要方法1.3.1數(shù)據(jù)采集(1)數(shù)據(jù)抓取通過(guò)程序從現(xiàn)有的網(wǎng)絡(luò)資源中提取相關(guān)信息,錄入到數(shù)據(jù)庫(kù)中。(2)數(shù)據(jù)導(dǎo)入將指定的數(shù)據(jù)源導(dǎo)入數(shù)據(jù)庫(kù)中,通常支持的數(shù)據(jù)源包括Excel表格、數(shù)據(jù)庫(kù)文件、XMI文檔、文本文件以及常用的數(shù)據(jù)庫(kù)(如SQLServer、Oracle、MySQL等)。(3)傳感設(shè)備自動(dòng)采集數(shù)據(jù)有關(guān)數(shù)據(jù)或信息通過(guò)傳感設(shè)備傳輸?shù)街骺匕?,主控板?duì)數(shù)據(jù)或信息進(jìn)行信號(hào)解析、算法分析和數(shù)據(jù)量化,將數(shù)據(jù)通過(guò)無(wú)線通信方式進(jìn)行傳輸。1.3.2數(shù)據(jù)預(yù)處理(1)數(shù)據(jù)清理它是通過(guò)填寫(xiě)缺失的值、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決不一致性來(lái)“清理”數(shù)據(jù)的。(2)數(shù)據(jù)集成將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來(lái)并統(tǒng)一存儲(chǔ),建立數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程實(shí)際上就是數(shù)據(jù)集成。1.3數(shù)據(jù)處理的主要方法(3)數(shù)據(jù)變換通過(guò)平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。(4)數(shù)據(jù)歸約數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進(jìn)行挖掘分析需要很長(zhǎng)的時(shí)間,數(shù)據(jù)歸約技術(shù)可以用來(lái)得到數(shù)據(jù)集的歸約表示,這就使數(shù)據(jù)量小得多,但仍然接近于保持原數(shù)據(jù)的完整性,使結(jié)果與歸約前結(jié)果相同或幾乎相同。1.3.3數(shù)據(jù)分析1)老七種工具,即排列圖、因果圖、分層法、調(diào)查表、散步圖、直方圖、控制圖。2)新七種工具,即關(guān)聯(lián)圖、系統(tǒng)圖、矩陣圖、KJ法、計(jì)劃評(píng)審技術(shù)、PDPC法、矩陣數(shù)據(jù)圖。1.描述性數(shù)據(jù)分析2.探索性數(shù)據(jù)分析3.驗(yàn)證性數(shù)據(jù)分析1.3數(shù)據(jù)處理的主要方法1.3.4數(shù)據(jù)挖掘算法1.3數(shù)據(jù)處理的主要方法1.監(jiān)督學(xué)習(xí)模型(1)決策樹(shù)決策樹(shù)是用于分類和預(yù)測(cè)的主要技術(shù)之一,決策樹(shù)學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無(wú)次序、無(wú)規(guī)則的實(shí)例中推理出以決策樹(shù)表示的分類規(guī)則。(2)貝葉斯算法貝葉斯(Bayes)算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法,如樸素貝葉斯(NaiveBayes)算法。(3)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)是一種具有類似于大腦神經(jīng)突觸連接結(jié)構(gòu)并能進(jìn)行信息處理等應(yīng)用的數(shù)學(xué)模型。(4)支持向量機(jī)(SupportVectorMachine,SVM)支持向量機(jī)是根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法,它的最大特點(diǎn)是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面來(lái)提高學(xué)習(xí)機(jī)的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點(diǎn)等問(wèn)題。(5)集成學(xué)習(xí)分類模型集成學(xué)習(xí)是一種機(jī)器學(xué)習(xí)范式,它試圖通過(guò)連續(xù)調(diào)用單個(gè)的學(xué)習(xí)算法,獲得不同的基學(xué)習(xí)器,然后根據(jù)規(guī)則組合這些學(xué)習(xí)器來(lái)解決同一個(gè)問(wèn)題,可以顯著地提高學(xué)習(xí)系統(tǒng)的1.3數(shù)據(jù)處理的主要方法泛化能力。(6)其他分類學(xué)習(xí)模型此外還有l(wèi)ogistics回歸模型、隱馬爾科夫分類模型(HMM)、基于規(guī)則的分類模型等眾多的分類模型,對(duì)于處理不同的數(shù)據(jù)、分析不同的問(wèn)題,各種模型都有自己的特性和優(yōu)勢(shì)。2.無(wú)監(jiān)督學(xué)習(xí)模型(1)k-means聚類k-means算法的基本思想是初始隨機(jī)給定K個(gè)簇中心,按照最鄰近原則把待分類樣本點(diǎn)分到各個(gè)簇,然后按平均法重新計(jì)算各個(gè)簇的質(zhì)心,從而確定新的簇心,一直迭代,直到簇心的移動(dòng)距離小于某個(gè)給定的值。(2)基于密度的聚類根據(jù)密度完成對(duì)象的聚類。(3)層次聚類層次聚類就是對(duì)給定的數(shù)據(jù)集進(jìn)行層次分解,直到滿足某種條件為止。(4)譜聚類譜聚類(SpectralClustering,SC)是一種基于圖論的聚類方法———將帶權(quán)無(wú)向圖劃分為兩個(gè)或兩個(gè)以上的最優(yōu)子圖,使子圖內(nèi)部盡量相似,而子圖間距離盡量較遠(yuǎn),以達(dá)到常見(jiàn)聚類1.3數(shù)據(jù)處理的主要方法的目的。第2章Matlab基礎(chǔ)2.1
Matlab簡(jiǎn)介2.1
Matlab簡(jiǎn)介2.1.1Matlab的特點(diǎn)1)Matlab是一個(gè)交互式軟件系統(tǒng),輸入一條命令,立即就可以得到該命令的結(jié)果。2)具有強(qiáng)大的數(shù)值計(jì)算功能。3)Matlab符號(hào)運(yùn)算功能。4)Matlab繪圖功能。5)編程功能。6)豐富的APPS。7)源程序開(kāi)放。2.1.2Matlab窗口簡(jiǎn)介?命令窗口(CommandWindow)?歷史命令窗口(HistoryCommandWindow)2.1
Matlab簡(jiǎn)介?編輯調(diào)試窗口(Edit/DebugWindow)?圖像窗口(FigureWindow)?工作空間(Workspace)?當(dāng)前目錄文件夾(CurrentFolder)?幫助窗口(HelpBrowser)?當(dāng)前路徑窗口(CurrentDirectoryBrowser)本節(jié)將簡(jiǎn)單介紹其中幾個(gè)窗口的基本操作方式。2.1
Matlab簡(jiǎn)介1.命令窗口(CommandWindow)2.1
Matlab簡(jiǎn)介2.1
Matlab簡(jiǎn)介2.歷史命令窗口(HistoryCommandWindow)3.編輯調(diào)試窗口(Edit/DebugWindow)2.1
Matlab簡(jiǎn)介4.圖像窗口(FigureWindow)2.1
Matlab簡(jiǎn)介5.工作空間(Workspace)2.1
Matlab簡(jiǎn)介2.1
Matlab簡(jiǎn)介6.當(dāng)前目錄文件夾(CurrentFolder)2.1
Matlab簡(jiǎn)介2.2數(shù)組及其運(yùn)算2.2.1變量和數(shù)組1.數(shù)值的記述2.變量命名規(guī)則1)變量名、函數(shù)名對(duì)字母大小寫(xiě)是敏感的,如變量myvar和MyVar表示兩個(gè)不同的變量。2)變量名的第一個(gè)字符必須是英文字母,最多可包含63個(gè)字符(英文、數(shù)字和下連符),如myvar201是合法的變量名。3)變量名中不得包含空格、標(biāo)點(diǎn)、運(yùn)算符,但可以包含下連符。4)盡量避免與預(yù)定義變量名相同。3.Matlab默認(rèn)的預(yù)定義變量2.2數(shù)組及其運(yùn)算①如果用戶對(duì)表中任何一個(gè)預(yù)定義變量進(jìn)行賦值,則該變量的默認(rèn)值將被用戶新賦的值“臨時(shí)”覆蓋。②在遵循IEEE算法規(guī)則的機(jī)器上,被0除是允許的。2.2數(shù)組及其運(yùn)算4.數(shù)組2.2數(shù)組及其運(yùn)算5.數(shù)據(jù)類型2.2數(shù)組及其運(yùn)算2.2.2變量的初始化1)用賦值語(yǔ)句初始化變量。2)用input函數(shù)從鍵盤(pán)輸入初始化變量。3)從文件讀取一個(gè)數(shù)據(jù)。1.用賦值語(yǔ)句初始化變量2.用捷徑表達(dá)式賦值3.用內(nèi)置函數(shù)來(lái)初始化2.2數(shù)組及其運(yùn)算4.用關(guān)鍵字input初始化變量2.2.3多維數(shù)組1.多維數(shù)組在內(nèi)存中的存儲(chǔ)2.2數(shù)組及其運(yùn)算2.用單個(gè)下標(biāo)訪問(wèn)多標(biāo)數(shù)組2.2數(shù)組及其運(yùn)算2.2.4子數(shù)組1.end函2.子數(shù)組在左邊的賦值語(yǔ)句的使用3.用一標(biāo)量來(lái)給子數(shù)組賦值4.子數(shù)組的刪除2.2.5單元陣列2.2數(shù)組及其運(yùn)算2.2數(shù)組及其運(yùn)算2.2.6顯示輸出數(shù)據(jù)1.改變默認(rèn)格式2.2數(shù)組及其運(yùn)算2.disp函數(shù)3.用fprintf函數(shù)格式化輸出數(shù)據(jù)2.2.7數(shù)據(jù)文件2.2.8數(shù)組運(yùn)算和矩陣運(yùn)算2.2數(shù)組及其運(yùn)算2.2數(shù)組及其運(yùn)算2.2.9內(nèi)置函數(shù)1.常用內(nèi)置函數(shù)2.2數(shù)組及其運(yùn)算2.其他內(nèi)置函數(shù)(1)randrand產(chǎn)生一個(gè)在(0,1)之間的均勻分布的數(shù)。(2)randnrandn產(chǎn)生一個(gè)服從N(0,1)正態(tài)分布的隨機(jī)數(shù)。(3)find找出非0元素,也可以查找指定條件的元素,并返回元素所在位置索引。1)示例1:2)示例2:2.2數(shù)組及其運(yùn)算3)示例3:(4)sort[Y,1]=sort(x)返回索引矩陣I,如果x是一個(gè)向量,則Y=x(I)。(5)fprintf格式化數(shù)據(jù)輸出與C語(yǔ)言中的printf函數(shù)用法相似,常見(jiàn)的數(shù)值處理函數(shù)見(jiàn)表2-8。2.2數(shù)組及其運(yùn)算2.3作圖入門(mén)2.3作圖入門(mén)2.3.1簡(jiǎn)單的直角坐標(biāo)系作圖1.基本作圖操作2.3作圖入門(mén)2.3作圖入門(mén)2.3作圖入門(mén)2.聯(lián)合作圖2.3作圖入門(mén)2.3作圖入門(mén)2.3作圖入門(mén)2.3.2作圖的附加特性1.圖例2.3作圖入門(mén)2.3作圖入門(mén)2.控制坐標(biāo)軸范圍2.3作圖入門(mén)3.在同一坐標(biāo)系內(nèi)畫(huà)出多個(gè)圖像2.3作圖入門(mén)2.3作圖入門(mén)4.創(chuàng)建多個(gè)圖像窗口5.子窗口2.3作圖入門(mén)2.3作圖入門(mén)6.對(duì)畫(huà)線的增強(qiáng)控制2.3作圖入門(mén)2.3作圖入門(mén)7.極坐標(biāo)圖像2.4
Matlab程序設(shè)計(jì)2.4.1關(guān)系運(yùn)算符和邏輯運(yùn)算符1.關(guān)系運(yùn)算符2.4
Matlab程序設(shè)計(jì)2.邏輯運(yùn)算符2.4
Matlab程序設(shè)計(jì)3.邏輯函數(shù)2.4.2選擇結(jié)構(gòu)1.if結(jié)構(gòu)2.4
Matlab程序設(shè)計(jì)例2.1求一元二次方程的根。步驟1打開(kāi)Script文件,在CommandWindow中輸入edit命令或按“Ctrl+N”組合鍵。步驟2在edit文件中輸入下述命令:步驟3保存Script文件。步驟4運(yùn)行和調(diào)試Script文件。2.switch結(jié)構(gòu)例2.2編寫(xiě)一個(gè)學(xué)生成績(jī)管理程序。3.try/catch結(jié)構(gòu)2.4
Matlab程序設(shè)計(jì)2.4.3循環(huán)結(jié)構(gòu)1.
while循環(huán)例2.3使用歐幾里得算法求兩個(gè)整數(shù)的最大公約數(shù),偽代碼如下:2.4
Matlab程序設(shè)計(jì)2.for循環(huán)1)在for循環(huán)開(kāi)始時(shí),Matlab產(chǎn)生了控制表達(dá)式。2)第一次進(jìn)入循環(huán),程序把循環(huán)控制表達(dá)式的第一列賦值于循環(huán)變量index,然后執(zhí)行循環(huán)體內(nèi)的語(yǔ)句。3)在循環(huán)體的語(yǔ)句被執(zhí)行后,程序把循環(huán)控制表達(dá)式的下一列賦值于循環(huán)變量index,程序?qū)⒃僖淮螆?zhí)行循環(huán)體語(yǔ)句。4)只要在循環(huán)控制表達(dá)式中還有剩余的列,步驟3)將會(huì)重復(fù)執(zhí)行。例2.4階乘(factorial)函數(shù)。例2.5輸入一系列的測(cè)量數(shù),計(jì)算它們的平均數(shù)和標(biāo)準(zhǔn)差。1)在2.2節(jié)已經(jīng)學(xué)過(guò),用賦值的方法可以擴(kuò)展一個(gè)已知的數(shù)組。2)用for循環(huán)和向量計(jì)算是非常常見(jiàn)的。2.4
Matlab程序設(shè)計(jì)例2.6為了比較循環(huán)和向量算法執(zhí)行程序所用的時(shí)間,分別用這兩種方法編程,測(cè)試3個(gè)運(yùn)算所花的時(shí)間。1)用for循環(huán)計(jì)算1~10000之間的每個(gè)整數(shù)的平方,而事先不初始化平方數(shù)組。2)用for循環(huán)計(jì)算1~10000之間的每個(gè)整數(shù)的平方,而事先初始化平方數(shù)組。3)用向量算法計(jì)算1~10000之間的每個(gè)整數(shù)的平方。3.break和continue語(yǔ)句例2.7for循環(huán)中的continue語(yǔ)句:2.4
Matlab程序設(shè)計(jì)4.循環(huán)嵌套例2.8用兩重for循環(huán)嵌套來(lái)計(jì)算。例2.9在for循環(huán)嵌套中包含break語(yǔ)句。2.5自定義函數(shù)(1)子程序的獨(dú)立檢測(cè)每個(gè)子程序都可以當(dāng)作一個(gè)獨(dú)立的單元來(lái)編寫(xiě)。(2)代碼的可復(fù)用性在許多情況下,一個(gè)基本的子程序可應(yīng)用在程序的許多地方。(3)遠(yuǎn)離意外副作用函數(shù)通過(guò)輸入?yún)?shù)列表(inputargumentlist)從程序中讀取輸入值,通過(guò)輸出參數(shù)列表(outputargumentlist)給程序返回結(jié)果。例2.10自定義函數(shù)dist2,用于計(jì)算笛卡兒坐標(biāo)系中的點(diǎn)(x1,y1)與點(diǎn)(x2,y2)之間的距離。第3章隨機(jī)模擬3.1隨機(jī)數(shù)的生成1.模擬均勻分布隨機(jī)變量的函數(shù)2.模擬指數(shù)分布隨機(jī)變量的函數(shù)3.模擬正態(tài)分布隨機(jī)變量的函數(shù)3.2蒙特卡羅模擬3.2.1蒙特卡羅模擬估計(jì)面積3.2蒙特卡羅模擬3.2蒙特卡羅模擬3.2.2蒙特卡羅模擬尋求近似圓周率3.2蒙特卡羅模擬3.2.3蒙特卡羅模擬解決生日問(wèn)題3.3隨機(jī)行為的模擬1.一枚正規(guī)硬幣2.一個(gè)不正規(guī)的骰子3.3隨機(jī)行為的模擬3.3隨機(jī)行為的模擬3.布朗運(yùn)動(dòng)3.4蒙特卡羅模擬應(yīng)用案例:理發(fā)店系統(tǒng)研究1.問(wèn)題分析2.模型假設(shè)1)60%的顧客只需剪發(fā),40%的顧客既要剪發(fā)又要洗發(fā)。2)每個(gè)服務(wù)員剪發(fā)需要的時(shí)間為5min,既剪發(fā)又洗發(fā)則需要8min。3)顧客的到達(dá)間隔時(shí)間服從指數(shù)分布。4)服務(wù)過(guò)程中服務(wù)員不休息。3.變量說(shuō)明4.模型建立5.系統(tǒng)模擬(1)狀態(tài)(變量)3.4蒙特卡羅模擬應(yīng)用案例:理發(fā)店系統(tǒng)研究1)等待服務(wù)的顧客數(shù)。2)A是否正在服務(wù)。3)B是否正在服務(wù)。(2)實(shí)體兩名服務(wù)員和多名顧客。(3)事件1)一名新顧客的到達(dá)2)A開(kāi)始服務(wù)3)A結(jié)束服務(wù)4)B開(kāi)始服務(wù)5)B結(jié)束服務(wù)(4)活動(dòng)1)顧客排隊(duì)時(shí)間3.4蒙特卡羅模擬應(yīng)用案例:理發(fā)店系統(tǒng)研究2)顧客們到達(dá)的間隔時(shí)間3)A的服務(wù)時(shí)間4)B的服務(wù)時(shí)間6.系統(tǒng)模擬算法設(shè)計(jì)7.系統(tǒng)模擬程序第4章數(shù)據(jù)預(yù)處理4.1認(rèn)識(shí)數(shù)據(jù)4.1.1屬性4.1.2離散屬性和連續(xù)屬性4.2數(shù)據(jù)預(yù)處理概述1)數(shù)據(jù)清洗是通過(guò)填寫(xiě)缺失的值、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn),并解決不一致性等方式來(lái)“清洗”數(shù)據(jù)的。2)數(shù)據(jù)集成是把不同來(lái)源、格式、性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,以便更方便地進(jìn)行數(shù)據(jù)挖掘工作,數(shù)據(jù)集成通過(guò)數(shù)據(jù)交換而達(dá)到,主要解決數(shù)據(jù)的分布性和異構(gòu)性的問(wèn)題。3)數(shù)據(jù)歸約就是得到數(shù)據(jù)集的簡(jiǎn)化表示,雖然小得多,但能夠產(chǎn)生同樣的(或幾乎同樣的)分析結(jié)果。4.2數(shù)據(jù)預(yù)處理概述4)數(shù)據(jù)變換是將數(shù)據(jù)從一種表現(xiàn)形式變?yōu)榱硪环N表現(xiàn)形式的過(guò)程。4.2.1數(shù)據(jù)清洗1.缺失值處理(1)刪除法刪除法是對(duì)缺失值進(jìn)行處理的最原始方法,它將存在缺失值的記錄刪除。(2)插補(bǔ)法它的思想來(lái)源是以最可能的值來(lái)插補(bǔ)缺失值,比全部刪除不完全樣本所產(chǎn)生的信息丟失要少。1)均值插補(bǔ)。2)回歸插補(bǔ)。3)極大似然估計(jì)。2.噪聲過(guò)濾(1)回歸法回歸法是用函數(shù)擬合數(shù)據(jù)來(lái)光滑數(shù)據(jù)的。4.2數(shù)據(jù)預(yù)處理概述(2)均值平滑法均值平滑法是指對(duì)于具有序列特征的變量用鄰近若干數(shù)據(jù)的均值來(lái)替換原始數(shù)據(jù)的方法,如圖4-3所示。(3)離群點(diǎn)分析法離群點(diǎn)分析法是通過(guò)聚類等方法來(lái)檢測(cè)離群點(diǎn),并將其刪除,從而實(shí)現(xiàn)去噪的方法。4.2數(shù)據(jù)預(yù)處理概述(4)小波去噪法在數(shù)學(xué)上,小波去噪的本質(zhì)是一個(gè)函數(shù)逼近問(wèn)題,即如何在由小波母函數(shù)伸縮和平移所展成的函數(shù)空間中,根據(jù)提出的衡量準(zhǔn)則,尋找對(duì)原信號(hào)的最佳逼近,以完成原信號(hào)和噪聲信號(hào)的區(qū)分。4.2.2數(shù)據(jù)集成4.2數(shù)據(jù)預(yù)處理概述4.2.3數(shù)據(jù)歸約1)屬性選擇是通過(guò)刪除不相關(guān)或冗余的屬性(或維)來(lái)減少數(shù)據(jù)量的。2)樣本選擇也就是數(shù)據(jù)抽樣。4.2.4數(shù)掘變換1.標(biāo)準(zhǔn)化2.離散化4.3
Matlab與Excel的數(shù)據(jù)交互4.3.1以交互方式導(dǎo)入數(shù)據(jù)1)Matlab工具條:在主頁(yè)選項(xiàng)卡中的變量部分,單擊導(dǎo)入數(shù)據(jù)。2)Matlab命令提示符:輸入“uiimport”,在彈出的窗口中選擇需要導(dǎo)入的數(shù)據(jù)文件,如圖4-5所示。4.3
Matlab與Excel的數(shù)據(jù)交互4.3.2炭取和寫(xiě)入表1.用readtable讀取表格數(shù)據(jù)2.用writetable寫(xiě)入表格數(shù)據(jù)4.3
Matlab與Excel的數(shù)據(jù)交互4.3.3大型文件和大型數(shù)據(jù)簡(jiǎn)介4.3.4數(shù)據(jù)的清理、平滑和分組等1.清除表中的雜亂數(shù)據(jù)和缺失數(shù)據(jù)(1)加載樣本數(shù)據(jù)從一個(gè)逗號(hào)分隔的文本文件messy.csv加載樣本數(shù)據(jù)。(2)匯總表使用summary函數(shù)創(chuàng)建匯總表來(lái)查看每個(gè)變量的數(shù)據(jù)類型、說(shuō)明、單位和其他描述性統(tǒng)計(jì)量。(3)查找具有缺失值的行顯示表T中至少含有一個(gè)具有缺失值的行子集。(4)替換缺失值指示符清除相應(yīng)數(shù)據(jù),將代碼-99所指示的缺失值替換標(biāo)準(zhǔn)的Matlab數(shù)值缺失值指示符NaN。(5)刪除具有缺失值的行創(chuàng)建一個(gè)新表T3,該表僅包含T中不帶缺失值的行。(6)組織數(shù)據(jù)先根據(jù)C列以降序?qū)3的行進(jìn)行排序,然后根據(jù)A列以升序排序。4.3
Matlab與Excel的數(shù)據(jù)交互2.數(shù)據(jù)平滑和離群值檢測(cè)(1)移動(dòng)均值方法移動(dòng)均值方法是分批處理數(shù)據(jù)的方法,通常是為了從統(tǒng)計(jì)角度表示數(shù)據(jù)中的相鄰點(diǎn)。4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互(2)其他的平滑方法1)smoothdata函數(shù)提供幾種平滑選項(xiàng),如Savitzky-Golay方法,這是一種常用的信號(hào)處理平滑技術(shù)。2)穩(wěn)健的Lowess方法是另一種平滑方法,尤其適用于同時(shí)包含噪聲和離群值的數(shù)據(jù)。(3)檢測(cè)離群值數(shù)據(jù)中的離群值可能使數(shù)據(jù)處理結(jié)果和其他計(jì)算量嚴(yán)重失真。4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互(4)非均勻數(shù)據(jù)并非所有數(shù)據(jù)都由等間隔的點(diǎn)組成,這會(huì)影響數(shù)據(jù)處理的方法。4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互4.3
Matlab與Excel的數(shù)據(jù)交互3.拆分?jǐn)?shù)據(jù)變量及應(yīng)用(1)加載電力中斷數(shù)據(jù)示例文件outages.csv包含表示美國(guó)電力中斷的數(shù)據(jù)。(2)計(jì)算最大電力損失確定每個(gè)地區(qū)因電力中斷而造成的最大電力損失。(3)計(jì)算受影響客戶的數(shù)量確定不同原因和地區(qū)的電力中斷對(duì)客戶的影響。(4)計(jì)算電力中斷的平均持續(xù)時(shí)間確定美國(guó)的所有電力中斷的平均持續(xù)時(shí)間(以小時(shí)為單位)。第5章數(shù)據(jù)探索與分析5.1數(shù)據(jù)的特征統(tǒng)計(jì)量5.1.1中心度量趨勢(shì):均值、中位數(shù)、眾數(shù)5.1.2常用的變異程度度量1.極差2.方差3.標(biāo)準(zhǔn)差4.標(biāo)準(zhǔn)差系數(shù)5.四分位數(shù)間距5.1數(shù)據(jù)的特征統(tǒng)計(jì)量6.百分位數(shù)5.1.3分布形態(tài)5.2基本統(tǒng)計(jì)描述的可視化5.2.1分類型數(shù)據(jù)頻數(shù)分布及其可視化例5.1表5-1是X公司員工收入基本狀況調(diào)查表,用此表數(shù)據(jù)來(lái)說(shuō)明對(duì)于分類型數(shù)據(jù)的頻數(shù)統(tǒng)計(jì)及其數(shù)據(jù)可視化。5.2基本統(tǒng)計(jì)描述的可視化例5.2使用Matlab數(shù)據(jù)統(tǒng)計(jì)信息。(1)打開(kāi)“數(shù)據(jù)統(tǒng)計(jì)信息對(duì)話框”“數(shù)據(jù)統(tǒng)計(jì)信息”對(duì)話框可幫助您計(jì)算和繪制數(shù)據(jù)的描述性統(tǒng)計(jì)量。5.2基本統(tǒng)計(jì)描述的可視化5.2基本統(tǒng)計(jì)描述的可視化5.2基本統(tǒng)計(jì)描述的可視化(2)設(shè)置繪圖上數(shù)據(jù)統(tǒng)計(jì)量的格式“數(shù)據(jù)統(tǒng)計(jì)信息”對(duì)話框使用顏色和線型將統(tǒng)計(jì)量與繪圖上的數(shù)據(jù)區(qū)分開(kāi)來(lái)。1)在Matlab窗口中,單擊工具欄中的(編輯繪圖)按鈕。2)雙擊要編輯其顯示屬性的繪圖上的統(tǒng)計(jì)量,例如,雙擊表示Station2均值的水平線。(3)將統(tǒng)計(jì)量保存到Matlab工作區(qū)執(zhí)行下列步驟可將統(tǒng)計(jì)量保存到Matlab工作區(qū)。5.2基本統(tǒng)計(jì)描述的可視化(4)查看新結(jié)構(gòu)體變量可輸入變量名稱:5.2基本統(tǒng)計(jì)描述的可視化(5)生成代碼文件示例的此部分顯示如何從圖形生成Matlab代碼文件,再將代碼應(yīng)用至新數(shù)據(jù)以重新生成相同格式的繪圖和統(tǒng)計(jì)量。5.2.2直方圖1.histogram函數(shù)繪制直方圖5.2基本統(tǒng)計(jì)描述的可視化例5.3創(chuàng)建直方圖。1)生成10000個(gè)隨機(jī)數(shù)并創(chuàng)建直方圖。2)對(duì)分類為25個(gè)等距離散化的10000個(gè)隨機(jī)數(shù)繪制直方圖,如圖5-13所示。5.2基本統(tǒng)計(jì)描述的可視化3)生1000個(gè)隨機(jī)數(shù)并創(chuàng)建直方圖。5.2基本統(tǒng)計(jì)描述的可視化2.確定基本概率分布1)生成5000個(gè)均值5、標(biāo)準(zhǔn)差力2的正態(tài)分布隨機(jī)數(shù)。2)對(duì)于均值為5、標(biāo)準(zhǔn)差為2的正態(tài)分布,疊加一個(gè)概率密度函數(shù)圖,如圖5-17所示。5.2基本統(tǒng)計(jì)描述的可視化例5.4對(duì)分類數(shù)據(jù)進(jìn)行繪圖。1)工作區(qū)變量Location是一個(gè)字符向量單元數(shù)組,它包含患者就醫(yī)的3個(gè)唯一醫(yī)療機(jī)構(gòu)。2)工作區(qū)變量。3)繪制直方圖。4)僅為健康狀況評(píng)估為Fair或Poor的患者繪制醫(yī)院位置直方圖,如圖5-19所示。5.2基本統(tǒng)計(jì)描述的可視化5)創(chuàng)建餅圖。5.2基本統(tǒng)計(jì)描述的可視化6)創(chuàng)建帕累托圖。5.2基本統(tǒng)計(jì)描述的可視化7)創(chuàng)建散點(diǎn)圖。5.2.3分位數(shù)圖和經(jīng)驗(yàn)累計(jì)分布函數(shù)5.2基本統(tǒng)計(jì)描述的可視化5.2.4分位數(shù)-分位數(shù)圖——q-q圖5.2基本統(tǒng)計(jì)描述的可視化5.2基本統(tǒng)計(jì)描述的可視化5.2.5箱形圖1)最小值。2)第一個(gè)四分位數(shù)(Q1)。3)中位數(shù)(Q2)。4)第三個(gè)四分位數(shù)(Q3)。5)最大值。例5.5對(duì)于下述這組數(shù)據(jù):331033353450348034803490352035403550
36503730
3925,作出箱形圖。1)畫(huà)箱形圖時(shí),把第和第三四分位數(shù)作力箱體的邊緣,Q1=3465,Q3=3600。2)在中位數(shù)(3505)位置與箱體內(nèi)畫(huà)一條垂線,因此中位數(shù)線就把數(shù)據(jù)平分為兩部分。3)通過(guò)使用四分位數(shù)間距IQR=Q3-Q1,定好界限的位置。5.2基本統(tǒng)計(jì)描述的可視化4)圖5-25中的虛線被稱觸須線(Whisker)。5)最后,每個(gè)異常值的位置用符號(hào)*表示在圖5-25中,看到了一個(gè)異常值3925。箱形圖的作用有以下幾個(gè)。1)箱形圖非常直觀地反映了樣本數(shù)據(jù)的分散程度以及總體分布的對(duì)稱性和尾重。2)利用箱形圖可以直觀地識(shí)別樣本數(shù)據(jù)中的異常值。3)可比較幾組數(shù)據(jù)的形狀。5.2基本統(tǒng)計(jì)描述的可視化5.2基本統(tǒng)計(jì)描述的可視化例5.6繪制均勻分布隨機(jī)樣本與指數(shù)分布隨機(jī)樣本的箱形圖(見(jiàn)圖5-26)。5.2基本統(tǒng)計(jì)描述的可視化例5.7繪制服從標(biāo)準(zhǔn)正態(tài)分布隨機(jī)數(shù)箱形圖(見(jiàn)圖5-27)。5.2基本統(tǒng)計(jì)描述的可視化5.2.6散點(diǎn)圖5.2基本統(tǒng)計(jì)描述的可視化5.2基本統(tǒng)計(jì)描述的可視化5.3度量數(shù)據(jù)的相似性和相異性5.3.1數(shù)據(jù)矩陣、相異性矩陣、相似性矩陣1)數(shù)據(jù)矩陣。2)相異性矩陣。3)相似性矩陣。5.3度量數(shù)據(jù)的相似性和相異性5.3.2數(shù)值屬性的相似性:相關(guān)系數(shù)1.協(xié)方差5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性2.相關(guān)系數(shù)3.散點(diǎn)圖矩陣5.3度量數(shù)據(jù)的相似性和相異性5.3度量數(shù)據(jù)的相似性和相異性5.3.3數(shù)值屬性的相異性:距離1.歐幾里得距離(EuclideanDistance)2.曼哈頓距離(ManhattanDistance)5.4數(shù)據(jù)降維——主成分分析1.基本思想5.4數(shù)據(jù)降維——主成分分析2.主成分分析的計(jì)算步驟第一步,對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即z分?jǐn)?shù)規(guī)范化。第二步,計(jì)算樣本相關(guān)系數(shù)矩陣,即第三步,計(jì)算相關(guān)系數(shù)矩陣R的特征值(??1,??2,?,??p)和相應(yīng)的特征向量??i=[??i1,??i2
,?,??ip](i=1,2,?,P)。5.4數(shù)據(jù)降維——主成分分析第四步,選擇重要的主成分,并寫(xiě)出主成分表達(dá)式。第五步,計(jì)算主成分得分。3.PCA算法的Matlab實(shí)現(xiàn)5.4數(shù)據(jù)降維——主成分分析4.案例分析5.4數(shù)據(jù)降維——主成分分析5.4數(shù)據(jù)降維——主成分分析第一步,繪制箱形圖。第二步,使用主成分分析首先要求原來(lái)特征相關(guān)性比較密切。有以下兩種方式。5.4數(shù)據(jù)降維——主成分分析①制作散點(diǎn)圖矩陣(見(jiàn)圖5-38)。②計(jì)算相關(guān)系數(shù)。第三步,進(jìn)行主成分分析,最好是先將觀察數(shù)據(jù)標(biāo)準(zhǔn)化,再作主成分分析;或者作加權(quán)主成分分析。5.4數(shù)據(jù)降維——主成分分析第四步,選擇主成分,有兩種方式。5.4數(shù)據(jù)降維——主成分分析第五步,解釋主成分。5.4數(shù)據(jù)降維——主成分分析5.4數(shù)據(jù)降維——主成分分析第六步,模型應(yīng)用。第6章多元線性回歸模型1)收集一組包含因變量和白變量的數(shù)據(jù)。2)選定因變量與白變量之間的模型,即一個(gè)數(shù)學(xué)式子,利用數(shù)據(jù)按照最小二乘準(zhǔn)則計(jì)算模型中的參數(shù)。3)利用統(tǒng)計(jì)分析方法對(duì)不同的模型進(jìn)行比較,找出與數(shù)據(jù)擬合得最好的模型。4)判斷得到的模型是否適合于這組數(shù)據(jù)。5)利用模型對(duì)因變量作出預(yù)測(cè)或解釋。常見(jiàn)的回歸算法如下。(1)OLS線性回歸1)工作原理:線性回歸是一項(xiàng)統(tǒng)計(jì)建模技術(shù),用來(lái)描述作為一個(gè)或多個(gè)預(yù)測(cè)自變量的線性函數(shù)的連續(xù)因變量。2)最佳使用時(shí)機(jī):當(dāng)需要易于解釋和快速擬合算法時(shí),線性回歸可作為評(píng)估其他更復(fù)雜回歸模型的基準(zhǔn)。(2)非線性回歸1)工作原理:非線性回歸是一種有助于描述試驗(yàn)數(shù)據(jù)中非線性關(guān)系的統(tǒng)計(jì)建模技術(shù)。2)最佳使用時(shí)機(jī):當(dāng)數(shù)據(jù)有很強(qiáng)的非線性趨勢(shì),不容易轉(zhuǎn)化成線性空間時(shí),可適用于自定義模型與數(shù)據(jù)擬合。(3)高斯過(guò)程回歸1)工作原理:高斯過(guò)程回歸(GPR)模型是非參數(shù)模型,用于預(yù)測(cè)連續(xù)因變量的值。2)最佳使用時(shí)機(jī):適用于對(duì)空間數(shù)據(jù)插值,如針對(duì)地下水分布的水文地質(zhì)學(xué)數(shù)據(jù)、作為有助于優(yōu)化汽車發(fā)動(dòng)機(jī)等復(fù)雜設(shè)計(jì)的替代模型。(4)SVM回歸1)工作原理:SVM回歸算法類似于SVM分類算法,但經(jīng)過(guò)改良,能夠預(yù)測(cè)連續(xù)響應(yīng)。2)最佳使用時(shí)機(jī):適用于高維數(shù)據(jù)(將會(huì)有大量的預(yù)測(cè)自變量)。(5)廣叉線性模型1)工作原理:廣義線性模型是使用線性方法的非線性模型的一種特殊情況。2)最佳使用時(shí)機(jī):當(dāng)因變量有非正態(tài)分布時(shí),如始終預(yù)期為正值的因變量。(6)回歸決策樹(shù)1)工作原理:回歸決策樹(shù)類似于分類決策樹(shù),但經(jīng)過(guò)改良能夠預(yù)測(cè)連續(xù)響應(yīng),如圖6-6所示。應(yīng)用案例預(yù)測(cè)能量負(fù)荷1)改進(jìn)模型。2)特征選擇。3)特征變換。4)訓(xùn)練模型。5)超參數(shù)調(diào)優(yōu)。6.1概述6.1概述(1)擬合系數(shù)R2其定義為(2)模型的假定關(guān)于多元回歸模型y=??0+??0x1+??2x2+?+??mxm+??
中誤差項(xiàng)??的假定要注意以下兒點(diǎn):1)誤差項(xiàng)??是一個(gè)隨機(jī)變量,其均值或者期望值力0,即E(??)=0。2)對(duì)于所有的白變量x1,x2,…,xm的值,??的方差多是相同的。3)??的值是互相獨(dú)立的。4)誤差項(xiàng)??是一個(gè)服從隨機(jī)正態(tài)分布的隨機(jī)變量,它反映了y值和由??0+??0x1+??2x2+?+??mxm給出的期望值之間的離差。(3)顯著性檢驗(yàn)1)F檢驗(yàn)6.1概述2)t檢驗(yàn)。(4)多重共線性在回歸分析中使用自變量來(lái)表示用于預(yù)測(cè)或解釋因變量的任何變量,但是這個(gè)術(shù)語(yǔ)并不意味著自變量本身在統(tǒng)計(jì)意義上是獨(dú)立的。(5)利用回歸模型進(jìn)行預(yù)測(cè)利用回歸方程=??0+??0x1+??2x2+?+??mxm,給出一組具體的自變量的值,能得到對(duì)應(yīng)的預(yù)測(cè)值的點(diǎn)估計(jì)。6.2一元曲線擬合6.2.1案例1—百貨商場(chǎng)銷售額步驟1準(zhǔn)備數(shù)據(jù),在命令窗口中輸入以下代碼:步驟2打開(kāi)“CurveFitting”APP。步驟3在CurveFiting界面選擇對(duì)應(yīng)的數(shù)據(jù),在“Xdata”下拉列表框中選擇“x”,在“Ydata”下拉列表框中選擇“y”,如圖6-10所示。步驟4通過(guò)從“Degree”下拉列表框中選擇“2”,可將擬合更改為二次多項(xiàng)式。步驟5修改“Fitname”為“poly2”。步驟6展示殘差圖,可選擇“View—ResidualsPlot”菜單命令,用殘差表示這一商業(yè)活動(dòng)效果更佳。6.2一元曲線擬合步驟7添加新擬合以嘗試其他庫(kù)方程式。6.2一元曲線擬合6.2一元曲線擬合6.2一元曲線擬合6.2一元曲線擬合步驟8以同樣方法添加新擬合,在圖6-12所示的圓圈標(biāo)記處單擊下拉箭頭。6.2一元曲線擬合步驟9以同樣的方法創(chuàng)建冪函數(shù)(power)擬合,如圖6-14所示。6.2一元曲線擬合6.2.2確定最優(yōu)擬合6.2.3導(dǎo)出模型到工作空間6.2一元曲線擬合6.2一元曲線擬合6.3多元線性回歸模型6.3.1案例2——牙膏的銷售量6.3多元線性回歸模型6.3多元線性回歸模型1.分析與假設(shè)2.基本模型的建立與求解(1)基本模型的建立了大致分析y與x1和x2的關(guān)系,首先利用表6-1中的數(shù)據(jù)分別作出y對(duì)x1和x2的散點(diǎn)圖(見(jiàn)圖6-19)。6.3多元線性回歸模型(2)基本模型求解直接使用Matla中的fitlm求解,代碼保存在ex7_2中,代碼如下:6.3多元線性回歸模型6.3多元線性回歸模型6.3多元線性回歸模型3.基本模型的改進(jìn)6.3多元線性回歸模型6.3.2案例3——白變量含有分類變量的處理1.問(wèn)題分析6.3多元線性回歸模型2.模型的建立與求解3.殘差圖分析4.考慮自變量的交互影響6.3多元線性回歸模型6.4逐步回歸模型案例4Matlab中的had.mat數(shù)據(jù)集是(Hald,1960)關(guān)于水泥生產(chǎn)的數(shù)據(jù)。6.4逐步回歸模型第7章聚類分析7.1
簡(jiǎn)介7.1.1聚類分析的類型1.按分類對(duì)象不同進(jìn)行聚類7.1
簡(jiǎn)介(1)R型聚類分析的主要作用1)不但可以了解個(gè)別變量之間的親疏程度,而且可以了解各個(gè)變量組合之間的親疏程度。2)根據(jù)變量的分類結(jié)果以及它們之間的關(guān)系,可以選擇主要變量進(jìn)行Q型聚類分析或回歸分析(R2選擇標(biāo)準(zhǔn))。(2)Q型聚類分析的主要作用1)可以綜合利用多個(gè)變量的信息對(duì)樣本進(jìn)行分析。2)分類結(jié)果直觀,聚類譜系圖清楚地表現(xiàn)數(shù)值分類的結(jié)果。3)聚類分析所得到的結(jié)果比傳統(tǒng)分類方法更細(xì)致、全面、合理。2.按分類對(duì)象的劃分進(jìn)行聚類1)使用自我組織的特征圖或?qū)哟尉垲?,查找?shù)據(jù)中可能的結(jié)構(gòu)。2)使用聚類評(píng)估,查找給定聚類算法的“最佳”組數(shù)。7.1
簡(jiǎn)介3.Matlab中常見(jiàn)的硬聚類算法(1)k均值(kMeans)聚類算法1)原理。2)最佳使用時(shí)機(jī)。(2)k中心(kMedoids)聚類算法1)原理。2)最佳使用時(shí)機(jī)。7.1
簡(jiǎn)介(3)層次聚類算法1)原理。2)最佳使用時(shí)機(jī)。(4)自組織映射聚類算法1)原理。2)最佳使用時(shí)機(jī)。7.1
簡(jiǎn)介4.Matlab中常見(jiàn)的軟聚類算法(1)模糊c均值聚類算法1)原理。2)最佳使用時(shí)機(jī)。(2)高斯混合模型聚類算法1)原理。2)最佳使用時(shí)機(jī)。7.1
簡(jiǎn)介7.1.2聚類分析的依據(jù)1.距離7.1
簡(jiǎn)介7.1
簡(jiǎn)介2.夾角余弦3.相關(guān)系數(shù)7.2譜系聚類1.譜系聚類法基本思想1)聚類開(kāi)始時(shí)將n個(gè)樣品(或p個(gè)變量)各自作為一類,并規(guī)定樣品之間的距離和類與類之間的距離。2)將距離最近的兩類合并成一個(gè)新類。3)計(jì)算新類與其他類之間的距離,重復(fù)進(jìn)行兩個(gè)最近類的合并,每次減少一類,直至所有的樣品(或p個(gè)變量)合并成一類。2.譜系聚類法基本步驟1)選擇樣本間距離及類間距離。2)計(jì)算n個(gè)樣本兩兩之間的距離,得到距離矩陣。3)構(gòu)造各類,每個(gè)類暫時(shí)只含有一個(gè)樣本。4)合并符合類間距離定義要求的兩類力一個(gè)新類。7.2譜系聚類7.2譜系聚類5)計(jì)算新類與當(dāng)前各類的距離。6)畫(huà)出譜系聚類圖。7)作出結(jié)論,決定類的個(gè)數(shù)和類。3.Matlab中譜系聚類法的主要方法(1)pdist方法pdist方法的主要作用是計(jì)算構(gòu)成樣品對(duì)的樣品之間的距離,調(diào)用格式如下:1)y=pdist(x)。2)y=pdist(x,metric)。7.2譜系聚類7.2譜系聚類(2)squareform方法squareform方法用來(lái)將pdist函數(shù)輸出的距離轉(zhuǎn)化為距離矩陣,也可將距離矩陣轉(zhuǎn)化為距離向量。1)z=squareform(y):將pdist函數(shù)輸出的距離向量轉(zhuǎn)化力距離矩陣。2)y=squareform(z):將距離矩陣轉(zhuǎn)化為距離向量。(3)linkage方法linkage函數(shù)用來(lái)創(chuàng)建系統(tǒng)聚類樹(shù),調(diào)用格式如下:1)z=linkage(y):創(chuàng)建系統(tǒng)聚類樹(shù),1是樣品對(duì)的距離向量,一般是pdist方法的輸出結(jié)果。2)z=linkage(y,method):利用method參數(shù)指定的方法創(chuàng)建系統(tǒng)聚類樹(shù),method是字符串,可用字符串見(jiàn)表7-2。7.2譜系聚類(4)dendrogram方法dendrogram方法用于創(chuàng)建聚類樹(shù)形圖,調(diào)用格式為:(5)inconsistent函數(shù)inconsistent函數(shù)用來(lái)計(jì)算譜系聚類樹(shù)矩陣Z中每次并類得到的鏈接的不一致系數(shù),調(diào)用格式力:7.2譜系聚類(6)clusterdata方法clusterdata函數(shù)調(diào)用了pdist、linkage和cluster函數(shù),用來(lái)由原始樣本數(shù)據(jù)矩陣X創(chuàng)建系統(tǒng)聚類。例7.1設(shè)有5個(gè)樣品,分別表示北京、上海、安徽、陜西和新疆,每個(gè)樣品只測(cè)試了一個(gè)指標(biāo),指標(biāo)值分別為1、2、6、8、11,若樣品間采用絕對(duì)值距離,下面用最短距離法對(duì)這5個(gè)樣品進(jìn)行聚類。解:計(jì)算過(guò)程如下。1)計(jì)算距離矩陣,代碼如下,結(jié)果如圖7-9所示。7.2譜系聚類7.2譜系聚類2)分步聚類,繪制聚類樹(shù)形圖,代碼如下,結(jié)果如圖7-10所示。7.2譜系聚類例7.2(樣品聚類綜合案例)圖7-11所示2007年我國(guó)31個(gè)省、白治區(qū)、直轄市的城鎮(zhèn)居民家庭平均每人年消費(fèi)性支出的8個(gè)主要數(shù)據(jù)變量,利用譜系聚類法,對(duì)各地區(qū)進(jìn)行聚類分析。7.2譜系聚類解:計(jì)算過(guò)程如下。1)讀取數(shù)據(jù),并進(jìn)行標(biāo)準(zhǔn)化:2)調(diào)用clusterdata函數(shù)進(jìn)行一步聚類:7.2譜系聚類3)分步聚類:4)作出聚類樹(shù)形圖,如圖7-12所示。5)確定分類個(gè)數(shù)。7.2譜系聚類7.2譜系聚類例7.3(變量聚類綜合案例)在全國(guó)服裝標(biāo)準(zhǔn)制定中,對(duì)某地區(qū)成年女子的14個(gè)部位尺寸(體型尺寸)進(jìn)行了測(cè)量,根據(jù)測(cè)量數(shù)據(jù)計(jì)算得到14個(gè)部位尺寸之間的相關(guān)系數(shù)矩陣,試對(duì)14個(gè)部位進(jìn)行聚類分析。7.2譜系聚類解:計(jì)算過(guò)程如下。1)讀取數(shù)據(jù)。2)把數(shù)據(jù)轉(zhuǎn)為距離向量,設(shè)xi和xj的相關(guān)系數(shù)為pij,定義它們之間的距離為3)調(diào)用linkage函數(shù)創(chuàng)建系統(tǒng)聚類樹(shù)。7.2譜系聚類4)繪制聚類樹(shù)形圖,作出的聚類樹(shù)形圖如圖7-14所示。7.3
k均值聚類7.3.1k均值聚類概述7.3
k均值聚類7.3
k均值聚類1)從數(shù)據(jù)集中隨機(jī)取k個(gè)元素,作次k個(gè)簇各自的中心。2)分別計(jì)算剩下的元素到h個(gè)簇中心的相異度,將這些元素分別劃歸到相異度最低的簇。3)根據(jù)聚類結(jié)果,重新計(jì)算個(gè)簇各自的中心,計(jì)算方法是取簇中所有元素各自維度的算術(shù)平均數(shù)。4)將數(shù)據(jù)集中全部元素按照新的中心重新聚類。5)重復(fù)第4)步,直到聚類結(jié)果不再變化。6)將結(jié)果輸出。7.3
k均值聚類7.3
k均值聚類7.3
k均值聚類7.3.2k均值聚類算法的Matlab函數(shù)1.kmeans函數(shù)(1)idx=kmeans(X,k)將n個(gè)觀測(cè)點(diǎn)分為k個(gè)類,輸入?yún)?shù)X為n×p的矩陣,矩陣的每行對(duì)應(yīng)一個(gè)點(diǎn),每列對(duì)應(yīng)一個(gè)變量。(2)[idx,C]=kmeans(X,k)返回個(gè)類的類重心坐標(biāo)矩陣,C是一個(gè)k×p的矩陣,第i行元素第i類的類重心坐標(biāo)。(3)[idx,C,sumd」=kmeans(X,k)返回類內(nèi)距離和(即類內(nèi)各點(diǎn)與類重心距離之和)向量sumd,C是一個(gè)1xk的矩陣,第i行元素第i類的類內(nèi)距離之和。(4)[idx,C,sumd,D]=kmeans(X,k)返回每個(gè)點(diǎn)與每個(gè)類重心之間距離矩陣D,D是一個(gè)n×k的矩陣,第i行第j列元素第i個(gè)點(diǎn)第j類重心之間的距離。(5)[…]=kmeans(X,k,參數(shù)1,值1,參數(shù)2,值2)允許用戶設(shè)置更多的參數(shù)及參數(shù)值,用來(lái)7.3
k均值聚類2.silhouette函數(shù)(1)silhouette(X,idx)根據(jù)樣本X和聚類結(jié)果idx繪制輪廓圖。(2)s=silhouette(X,idx)返回輪廓向量s,元素對(duì)應(yīng)點(diǎn)的輪廓值。(3)[S,H]=
silhouette(X,idx)返回輪廓向量S和繪圖句柄H。(4)[S,H]=silhouette(X,idx,metric)
metric用來(lái)指定距離計(jì)算的方法,如'Euclidean'。7.3
k均值聚類例7.5在20世紀(jì)20年代,植物學(xué)家Fisher收集了150個(gè)inis標(biāo)本的萼片長(zhǎng)度、萼片寬度、花瓣長(zhǎng)度和花瓣寬度的測(cè)量值,其中50個(gè)來(lái)自3個(gè)物種中的每一個(gè)。解:計(jì)算過(guò)程如下。1)準(zhǔn)備模型:7.3
k均值聚類2)為了更好地理解聚類,首先以花瓣長(zhǎng)度和花瓣寬度繪制散點(diǎn)圖,如圖7-24所示。7.3
k均值聚類控制kmeans函數(shù)所用的迭代算法,可用的參數(shù)名和參數(shù)值讀者可以在Matlab的命令窗口運(yùn)行helpkmeans來(lái)學(xué)習(xí)。例7.4針對(duì)例7-1的數(shù)據(jù),利用kmeans函數(shù)進(jìn)行k均值聚類算法,代碼和結(jié)果如下:7.3
k均值聚類3)下面調(diào)用kmeans函數(shù)將數(shù)據(jù)集區(qū)分為三類,并繪制聚類輪廓圖。7.3
k均值聚類7.3
k均值聚類7.3
k均值聚類7.3.3k均值聚類算法的特點(diǎn)1)在k均值聚類算法中的k是事先給定的,這個(gè)k值的選定是非常難以估計(jì)的。2)在k均值聚類算法中,首先需要根據(jù)初始聚類中心來(lái)確定一個(gè)初始劃分,然后對(duì)初始劃分進(jìn)行優(yōu)化。3)k均值聚類算法需要不斷地進(jìn)行樣本分類調(diào)整,不斷地計(jì)算調(diào)整后新的聚類中心,因此當(dāng)數(shù)據(jù)量非常大時(shí),算法的時(shí)間開(kāi)銷也非常大。4)k均值聚類算法對(duì)一些離散點(diǎn)和初始k值敏感,不同的距離初始值對(duì)同樣的數(shù)據(jù)樣本可能得到不同的結(jié)果。7.3
k均值聚類7.3.4k均值聚類算法綜合應(yīng)用例7.6examp:3.xls表列出了43↑國(guó)家和地區(qū)3年(1990年、2000年、2006年)的嬰兒死亡率和出生時(shí)預(yù)期壽命數(shù)據(jù)。7.3
k均值聚類解:計(jì)算過(guò)程如下。1)讀取數(shù)據(jù):2)進(jìn)行標(biāo)準(zhǔn)化變換:3)選取初始凝聚點(diǎn)進(jìn)行聚類:7.3
k均值聚類4)繪制輪廓圖:7.3
k均值聚類5)查看聚類結(jié)果:7.4層次聚類7.4.1概述1)如何計(jì)算兩個(gè)點(diǎn)的距離?2)如何計(jì)算兩個(gè)類別之間的距離?①最鄰近距離(SingleLinkage),就是取兩個(gè)集合中距離最近的兩個(gè)點(diǎn)的距離作力這兩個(gè)集合的距離,容易造成一種叫做鏈接的效果,兩個(gè)聚類明明從“大局”上離得比較遠(yuǎn),但是由于其中個(gè)別的點(diǎn)距離比較近就被合并了,并且這樣合并之后鏈接效應(yīng)會(huì)進(jìn)一步擴(kuò)大,最后會(huì)得到比較松散的聚類。②CompleteLinkage。③GroupAverage。1)待分割的聚類記G,在G中取出一個(gè)到其他點(diǎn)的平均距離最遠(yuǎn)的點(diǎn)x,構(gòu)成新聚類H。2)在G中選取這樣的點(diǎn)x',使得x'到G中其他點(diǎn)的平均距離減去x'到H中所有點(diǎn)的平均距離這個(gè)差值最大,將其歸入H中。7.4層次聚類3)重復(fù)上一個(gè)步驟,直到差值為負(fù)。7.4.2層次聚類算法的Matlab實(shí)現(xiàn)例7.7這里仍然以上面的iris數(shù)據(jù)集來(lái)實(shí)現(xiàn)層次聚類。7.4層次聚類7.4層次聚類7.4.3層次聚類算法的特點(diǎn)1)在凝聚層次聚類算法和分裂層次聚類算法中,都需要用戶提供所希望得到的聚類的單個(gè)數(shù)量和閾值作為聚類分析的終止條件,但對(duì)于復(fù)雜的數(shù)據(jù)來(lái)說(shuō)這是很難事先判定的。2)由于層次聚類算法要使用距離矩陣,所以它的時(shí)間和空間復(fù)雜度都很高,幾乎不能在大數(shù)據(jù)集上使用。7.5高斯混合模型聚類7.5.1簡(jiǎn)介1)估計(jì)數(shù)據(jù)由每個(gè)Component生成的概率(并不是每個(gè)Component被選中的概率)。2)估計(jì)每個(gè)Component的參數(shù)。3)重復(fù)迭代前面兩步,直到似然函數(shù)的值收斂力止。7.5高斯混合模型聚類7.5.2高斯混合模型聚類算法的Matlab實(shí)現(xiàn)例7.8在Matlab中可以利用函數(shù)gmdistribution.fit來(lái)實(shí)現(xiàn)聚類。第8章分類8.1分類算法簡(jiǎn)介8.1.1邏輯回歸分類算法1)y是一個(gè)定量的變量,這時(shí)就用通常的regress函數(shù)對(duì)y進(jìn)行回歸。2)y是一個(gè)定性的變量,如y=0或1,這時(shí)就不能用常規(guī)的regress函數(shù)對(duì)y進(jìn)行回歸,而要使用邏輯回歸(LogisticRegression)。1.工作原理2.最佳使用時(shí)機(jī)8.1分類算法簡(jiǎn)介8.1.2K近鄰分類算法1.エ作原理2.最佳使用時(shí)機(jī)3.K近鄰分類算法的具體步驟1)初始化距離為最大值。2)計(jì)算未知樣本和每個(gè)訓(xùn)練樣本的距離dist。3)得到目前K個(gè)最鄰近樣本中的最大距離maxdist。4)如果dist<maxdist,則將訓(xùn)練樣本作為k最近鄰樣本。5)重復(fù)步驟2)~4),直到來(lái)知樣本和所有訓(xùn)練樣本的距離都算完。6)統(tǒng)計(jì)k個(gè)最近鄰樣本中每個(gè)類別出現(xiàn)的次數(shù)。7)選擇出現(xiàn)頻率最大的類別作未知類別出現(xiàn)的次數(shù)。8.1分類算法簡(jiǎn)介8.1.3支持向量機(jī)分類算法1.工作原理2.最佳使用時(shí)機(jī)8.1分類算法簡(jiǎn)介8.1.4人工神經(jīng)網(wǎng)絡(luò)分類算法1.工作原理2.最佳使用時(shí)機(jī)8.1分類算法簡(jiǎn)介8.1.5樸素貝葉斯分類算法1.工作原理2.最佳使用時(shí)機(jī)8.1分類算法簡(jiǎn)介8.1.6判別分析分類算法1.工作原理2.最佳使用時(shí)機(jī)8.1分類算法簡(jiǎn)介8.1.7決策樹(shù)分類算法1.工作原理2.最佳使用時(shí)機(jī)8.1分類算法簡(jiǎn)介8.1.8集成學(xué)習(xí)分類算法1)Bagging的訓(xùn)練集是隨機(jī)的,各訓(xùn)練集是獨(dú)立的;而B(niǎo)oosting訓(xùn)練集的選擇不是獨(dú)立的,每次選擇的訓(xùn)練集都依賴于上一次學(xué)習(xí)的結(jié)果。2)Bagging的每個(gè)預(yù)測(cè)函數(shù)都沒(méi)有權(quán)重;而B(niǎo)oosting根據(jù)每次訓(xùn)練的誤差得到該次預(yù)測(cè)函數(shù)的權(quán)重。3)Bagging的各個(gè)預(yù)測(cè)函數(shù)可以并行生成;而B(niǎo)oosting只能順序生成。1.工作原理2.最佳使用時(shí)機(jī)8.2分類的評(píng)判8.2.1評(píng)判指標(biāo)1)TruePositive(TP):指模型預(yù)測(cè)為正(1)的,并且實(shí)際上也的確是正(1)的觀察對(duì)象的數(shù)量。2)TrueNegative(TN):指模型預(yù)測(cè)為負(fù)(0)的,并且實(shí)際上也的確是負(fù)(0)的觀察對(duì)象的數(shù)量。3)FalsePositive(FP):指模型預(yù)測(cè)為正(1)的,并且實(shí)際上是負(fù)(0)的觀察對(duì)象的數(shù)量。4)FalseNegative(FN):指模型預(yù)測(cè)為負(fù)(0)的,并且實(shí)際上是正(1)的觀察對(duì)象的數(shù)量。8.2分類的評(píng)判(1)AccuracyRate(正確率)模型總體正確率,是指模型能正確預(yù)測(cè)、識(shí)別1和0的對(duì)象數(shù)量與預(yù)測(cè)對(duì)象總數(shù)的比值,公式為(2)Errorrate(錯(cuò)誤率)模型總體的錯(cuò)誤率,是指模型錯(cuò)誤預(yù)測(cè)、錯(cuò)誤識(shí)別1和0觀察對(duì)象與預(yù)測(cè)對(duì)象總數(shù)的比值,也即是1減去正確率,公式為(3)Sensitivity(靈敏性)又稱擊中率或真陽(yáng)率,模型正確識(shí)別為正(1)的對(duì)象占全部觀察對(duì)象中實(shí)際為正(1)的對(duì)象數(shù)量的比值,公式為8.2分類的評(píng)判(4)Specificity(特效性)又稱為真負(fù)率,模型正確識(shí)別為負(fù)(0)的對(duì)象占全部觀察對(duì)象中實(shí)際負(fù)(0)的對(duì)象數(shù)量的比值,公式為(5)Precision(精度)模型的精度是指模型正確識(shí)別正(1)的對(duì)象占模型識(shí)別正(1)的對(duì)象數(shù)量的比值,公式為(6)FalsePositiveRate(錯(cuò)正率)又稱假陽(yáng)率,模型錯(cuò)誤識(shí)別為正(1)的對(duì)象占實(shí)際為負(fù)(0)的對(duì)象數(shù)量的比值,即1減去真負(fù)率,公式為8.2分類的評(píng)判(7)NegativePredictiveValue(負(fù)元正確率)模型正確識(shí)別力負(fù)(0)的對(duì)象占模型識(shí)別為負(fù)(0)的觀察對(duì)象總數(shù)的比值,公式為(8)FalseDiscoveryValue(正元錯(cuò)誤率)模型錯(cuò)誤識(shí)別正(1)的對(duì)象占模型識(shí)別正(1)的觀察對(duì)象總數(shù)的比值,公式為8.2分類的評(píng)判8.2.2ROC曲線和AUC8.3判別分析分類的具體應(yīng)用8.3.1判別分析的定義、特點(diǎn)和類型1.定義2.特點(diǎn)3.判別分析類型(1)距離判別首先根據(jù)已知分類的數(shù)據(jù),分別計(jì)算各類的重心,計(jì)算新個(gè)體到每類的距離,確定最短的距離(歐幾里得距離、馬哈拉諾比斯距離)。(2)Fisher判別利用已知類別個(gè)體的指標(biāo)構(gòu)造判別式(同類差別較小、不同類差別較大),按照判別式的值判斷新個(gè)體的類別。(3)貝葉斯判別(Bayes判別)計(jì)算新樣品屬于各總體的條件概率,比較概率的大小,然后將新樣品判歸次來(lái)自概率最大的總體。8.3判別分析分類的具體應(yīng)用8.3.2距離判別1.直接使用馬哈拉諾比斯距離實(shí)現(xiàn)距離判別1)計(jì)算A、B兩類的均值向量與協(xié)方差陣,即2)計(jì)算總體的協(xié)方差矩陣,即3)計(jì)算未知樣本x到A、B兩類馬哈拉諾比斯平方距離之差4)作出結(jié)論:若d<0,則x屬于A類;若d>0,則x屬于B類。8.3判別分析分類的具體應(yīng)用例8.1(1989年國(guó)際數(shù)學(xué)競(jìng)賽A題)蠓的分類。解:根據(jù)上述計(jì)算過(guò)程,Matlab代碼如下:1)計(jì)算A、B兩類的均值向量與協(xié)方差陣力8.3判別分析分類的具體應(yīng)用2)計(jì)算總體的協(xié)方差矩陣,即3)計(jì)算未知樣本×到A、B兩類馬哈拉諾比斯距離之差,即4)若d<0,則x屬于A類;若d>0,則x屬于B類。2.使用Matlab統(tǒng)計(jì)工具箱的函數(shù)實(shí)現(xiàn)距離判別1)class=classify(sample,training,group)2)class=classify(samp
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 管弦樂(lè)隊(duì)的基本組成試題及答案
- 新能源汽車技術(shù)的參與性與包容性試題及答案
- 曲靖初中體育試題及答案
- 新能源汽車信息安全技術(shù)研究試題及答案
- 新能源汽車的法規(guī)遵循挑戰(zhàn)試題及答案
- 提高決策能力的試題與答案
- 河南扶貧考試題及答案
- 纖維檢驗(yàn)考試題及答案
- 水域生態(tài)學(xué)試題及答案
- 日語(yǔ)工程測(cè)試題及答案
- 河南省安陽(yáng)市林州市2023-2024學(xué)年八年級(jí)下學(xué)期6月期末歷史試題(解析版)
- 遼寧省沈陽(yáng)市2023-2024學(xué)年高一下學(xué)期期中考試數(shù)學(xué)試卷(解析版)
- 四年級(jí)語(yǔ)文國(guó)測(cè)模擬試題 (1)附有答案
- 輸變電工程施工質(zhì)量驗(yàn)收統(tǒng)一表式附件1:線路工程填寫(xiě)示例
- 物業(yè)進(jìn)場(chǎng)服務(wù)方案
- 鋰離子電池MSDS中英文版
- 快速入門(mén)穿越機(jī)-讓你迅速懂穿越機(jī)
- 水利安全生產(chǎn)風(fēng)險(xiǎn)防控“六項(xiàng)機(jī)制”右江模式經(jīng)驗(yàn)分享
- 人工智能對(duì)書(shū)法技法的革新
- MOOC 知識(shí)創(chuàng)新與學(xué)術(shù)規(guī)范-南京大學(xué) 中國(guó)大學(xué)慕課答案
- 淄博市2024屆高三二模地理試題卷(含答案)
評(píng)論
0/150
提交評(píng)論