《物聯(lián)網(wǎng)基礎(chǔ)技術(shù)及應(yīng)用》課件第4章-智能處理基礎(chǔ)技術(shù)修改02_第1頁(yè)
《物聯(lián)網(wǎng)基礎(chǔ)技術(shù)及應(yīng)用》課件第4章-智能處理基礎(chǔ)技術(shù)修改02_第2頁(yè)
《物聯(lián)網(wǎng)基礎(chǔ)技術(shù)及應(yīng)用》課件第4章-智能處理基礎(chǔ)技術(shù)修改02_第3頁(yè)
《物聯(lián)網(wǎng)基礎(chǔ)技術(shù)及應(yīng)用》課件第4章-智能處理基礎(chǔ)技術(shù)修改02_第4頁(yè)
《物聯(lián)網(wǎng)基礎(chǔ)技術(shù)及應(yīng)用》課件第4章-智能處理基礎(chǔ)技術(shù)修改02_第5頁(yè)
已閱讀5頁(yè),還剩254頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

如果從應(yīng)用層的角度來(lái)看物聯(lián)網(wǎng),物聯(lián)網(wǎng)可以看作是一個(gè)基于通信網(wǎng)?互聯(lián)網(wǎng)或?qū)S镁W(wǎng)絡(luò)的,以提高物理世界的運(yùn)行?管理?資源使用效率等水平為目標(biāo)的大規(guī)模信息系統(tǒng)。時(shí)效特征數(shù)據(jù)實(shí)時(shí)采集自助智能協(xié)同不可預(yù)見(jiàn)性事件高度并發(fā)基于海量信息的數(shù)據(jù)挖掘信息系統(tǒng)特征4.1大數(shù)據(jù)技術(shù)4.1大數(shù)據(jù)技術(shù)4.1.1大數(shù)據(jù)的基本概念4.1.3大數(shù)據(jù)處理流程4.1.2大數(shù)據(jù)價(jià)值探討什么是“大數(shù)據(jù)”?大數(shù)據(jù)很抽象,表示數(shù)據(jù)規(guī)模的龐大。大數(shù)據(jù)泛指巨量的數(shù)據(jù)集,因可從中挖掘出有價(jià)值的信息而受到重視?!度A爾街日?qǐng)?bào)》將大數(shù)據(jù)時(shí)代、智能化生產(chǎn)、無(wú)線網(wǎng)絡(luò)革命稱為引領(lǐng)未來(lái)繁榮發(fā)展的重大技術(shù)變革。目前對(duì)大數(shù)據(jù)尚未有一個(gè)公認(rèn)的定義,不同的定義基本上是從特征出發(fā),試圖給出大數(shù)據(jù)的定義。4.1.1大數(shù)據(jù)的基本概念

最早提出“大數(shù)據(jù)”時(shí)代到來(lái)的是全球知名咨詢公司麥肯錫。

麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。人們對(duì)于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!?.1.1大數(shù)據(jù)的基本概念4.1.1大數(shù)據(jù)的基本概念維基百科中將大數(shù)據(jù)定義為:所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取?管理?處理,并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。4.1.1大數(shù)據(jù)的基本概念I(lǐng)DC將大數(shù)據(jù)定義為:為更經(jīng)濟(jì)地從高頻率的?大容量的?不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值而設(shè)計(jì)的新一代架構(gòu)和技術(shù)。4.1.1大數(shù)據(jù)的基本概念信息專家涂子沛在著作《大數(shù)據(jù)》中認(rèn)為:”大數(shù)據(jù)”之”大”,并不僅僅指”容量大”,更大的意義在于通過(guò)對(duì)海量數(shù)據(jù)的交換?整合和分析,發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值,帶來(lái)”大知識(shí)”?”大科技”?”大利潤(rùn)”和”大發(fā)展”信息專家涂子沛4.1.1大數(shù)據(jù)的基本概念1982年世界預(yù)測(cè)大師?未來(lái)學(xué)家約翰·奈斯比特(JohnNaisbitt)在他的著作Megatrends:Tennewdirectionstransfor-mingourlive一書(shū)中所提到的:“我們現(xiàn)在大量生產(chǎn)信息,正如過(guò)去我們大量生產(chǎn)汽車一樣”?“人類正被信息淹沒(méi),卻饑渴知識(shí)”,等等諸如此類的預(yù)言均在當(dāng)下得到了充分的證實(shí),這也恰恰說(shuō)明,世界正處于一個(gè)信息爆炸的時(shí)代。JohnNaisbitt4.1.1大數(shù)據(jù)的基本概念2009年,谷歌推出“流感趨勢(shì)預(yù)測(cè)“項(xiàng)目,在甲型H1N1流感暴發(fā)的幾周前,“谷歌流感趨勢(shì)”成功預(yù)測(cè)了流感在美國(guó)境內(nèi)的傳播,其分析結(jié)果甚至具體到特定的地區(qū)和州,并且非常及時(shí),令公共衛(wèi)生官員備感震驚。4.1.1大數(shù)據(jù)的基本概念2014年,百度大數(shù)據(jù)預(yù)測(cè)團(tuán)隊(duì)通過(guò)對(duì)海量賽事信息的挖掘和分析,對(duì)2014年巴西世界杯全部64場(chǎng)比賽的勝負(fù)結(jié)果,以及冠軍和黑馬進(jìn)行預(yù)測(cè)。無(wú)論是四分之一決賽還是16強(qiáng)淘汰賽,百度預(yù)測(cè)結(jié)果準(zhǔn)確率都達(dá)到100%!13硬件成本的降低網(wǎng)絡(luò)帶寬的提升云計(jì)算的興起網(wǎng)絡(luò)技術(shù)的發(fā)展智能終端的普及電子商務(wù)、社交網(wǎng)絡(luò)、電子地圖等的全面應(yīng)用物聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代到來(lái)的必然性:4.1.1大數(shù)據(jù)的基本概念4.1.1大數(shù)據(jù)的基本概念

物聯(lián)網(wǎng)產(chǎn)生的大數(shù)據(jù)

就物聯(lián)網(wǎng)本質(zhì)而言,人與物?物與物的交互,大都是為了實(shí)現(xiàn)人與人之間的信息交互而產(chǎn)生的。在這種信息交互的過(guò)程中,催生了從信息傳送到信息感知再到面向分析處理的應(yīng)用。目前,物聯(lián)網(wǎng)在智能工業(yè)?智能農(nóng)業(yè)?智能交通?智能電網(wǎng)?節(jié)能建筑?安全監(jiān)控等行業(yè)都有應(yīng)用。巨大連接的網(wǎng)絡(luò)使得網(wǎng)絡(luò)上流通的數(shù)據(jù)大幅度增長(zhǎng),從而也催生了大數(shù)據(jù)的出現(xiàn)。15全球流量累計(jì)達(dá)到1EB(即10億GB)的時(shí)間一年(2001)一個(gè)月(2004)一周(2007)一天(2013)一天產(chǎn)生的信息量可刻滿1.88億張DVD光盤(pán)全球網(wǎng)民平均每月使用流量:1M(1998)10M(2000)100M(2003)1G(2008)10G(2014)大數(shù)據(jù)有多“大”?4.1.1大數(shù)據(jù)的基本概念16我國(guó)網(wǎng)民數(shù)量居世界之首,每天產(chǎn)生的數(shù)據(jù)量也位于世界前列淘寶網(wǎng)站單日數(shù)據(jù)產(chǎn)生量超過(guò)5萬(wàn)GB存儲(chǔ)量4000萬(wàn)GB百度公司目前數(shù)據(jù)總量10億GB存儲(chǔ)網(wǎng)頁(yè)1萬(wàn)億頁(yè)每天大約要處理60億次搜索請(qǐng)求一個(gè)8Mbps的攝像頭一小時(shí)能產(chǎn)生3.6GB的數(shù)據(jù)一個(gè)城市每月產(chǎn)生的數(shù)據(jù)達(dá)上千萬(wàn)GB醫(yī)院一個(gè)病人的CT影像數(shù)據(jù)量達(dá)幾十GB全國(guó)每年需保存的數(shù)據(jù)達(dá)上百億GB4.1.1大數(shù)據(jù)的基本概念17從數(shù)據(jù)庫(kù)(database,DB)到大數(shù)據(jù)(bigdata,BD)“池塘捕魚(yú)”VS“大海捕魚(yú)”

“魚(yú)”是待處理的數(shù)據(jù)數(shù)據(jù)規(guī)模?。ㄒ訫B為處理單位)大(以GB、TB、PB為處理單位)數(shù)據(jù)類型單一(結(jié)構(gòu)化為主)繁多(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)模式和數(shù)據(jù)的關(guān)系先有模式后有數(shù)據(jù)(先有池塘后有魚(yú))先有數(shù)據(jù)后有模式模式隨數(shù)據(jù)增多不斷演變處理對(duì)象數(shù)據(jù)(池塘中的魚(yú))(“魚(yú)”,通過(guò)某些“魚(yú)”判斷其他種類的“魚(yú)”是否存在)處理工具OnesizefitsallNosizefitsall4.1.1大數(shù)據(jù)的基本概念18

大數(shù)據(jù)就如同蜜蜂,其主要價(jià)值是傳播花粉,自己生產(chǎn)的蜂蜜價(jià)值并不大

2013年世界范圍內(nèi)狹義的大數(shù)據(jù)產(chǎn)業(yè)產(chǎn)值只有186億美元,但廣義的大數(shù)據(jù)應(yīng)用幾乎覆蓋所有產(chǎn)業(yè)。據(jù)麥肯錫公司預(yù)測(cè),開(kāi)放數(shù)據(jù)僅在教育、保健等7個(gè)行業(yè)便可釋放3.2萬(wàn)億~5.4萬(wàn)億美元的經(jīng)濟(jì)價(jià)值。4.1.2大數(shù)據(jù)的價(jià)值探討19

大數(shù)據(jù)是什么?投資者眼里是金光閃閃的兩個(gè)字:資產(chǎn)。比如,F(xiàn)acebook上市時(shí),評(píng)估機(jī)構(gòu)評(píng)定的有效資產(chǎn)中大部分都是其社交網(wǎng)站上的數(shù)據(jù)。如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。4.1.2大數(shù)據(jù)的價(jià)值探討20

1.Target超市以20多種懷孕期間孕婦可能會(huì)購(gòu)買的商品為基礎(chǔ),將所有用戶的購(gòu)買記錄作為數(shù)據(jù)來(lái)源,通過(guò)構(gòu)建模型分析購(gòu)買者的行為相關(guān)性,能準(zhǔn)確的推斷出孕婦的預(yù)產(chǎn)期,這樣Target的銷售部門就可以有針對(duì)的在每個(gè)懷孕顧客的不同階段寄送相應(yīng)的產(chǎn)品優(yōu)惠卷。4.1.2大數(shù)據(jù)的價(jià)值探討典型案例

2.通過(guò)采集駕駛員手機(jī)的GPS數(shù)據(jù),就可以分析出當(dāng)前哪些道路正在堵車,并可以及時(shí)發(fā)布道路交通提醒;通過(guò)采集汽車的GPS位置數(shù)據(jù),就可以分析城市的哪些區(qū)域停車較多,這也代表該區(qū)域有著較為活躍的人群,這些分析數(shù)據(jù)適合賣給廣告投放商。維克托·邁爾-舍恩伯格提過(guò)的一個(gè)很有指導(dǎo)意義的觀點(diǎn):通過(guò)找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,就可以預(yù)測(cè)未來(lái)。21

1.手握大數(shù)據(jù),但是沒(méi)有利用好;比較典型的是金融機(jī)構(gòu),電信行業(yè)等。4.1.2大數(shù)據(jù)的價(jià)值探討從大數(shù)據(jù)的價(jià)值鏈條來(lái)分析,存在三種模式2.沒(méi)有數(shù)據(jù),但是知道如何幫助有數(shù)據(jù)的人利用它;比較典型的是IT咨詢和服務(wù)企業(yè),比如,埃森哲,IBM,Oracle等。3.既有數(shù)據(jù),又有大數(shù)據(jù)思維;比較典型的是Google,Amazon,Mastercard等。22

1.擁有大數(shù)據(jù)思維的人,這種人可以將大數(shù)據(jù)的潛在價(jià)值轉(zhuǎn)化為實(shí)際利益;4.1.2大數(shù)據(jù)的價(jià)值探討未來(lái)在大數(shù)據(jù)領(lǐng)域最具有價(jià)值的是兩種事物2.還未有被大數(shù)據(jù)觸及過(guò)的業(yè)務(wù)領(lǐng)域。這些是還未被挖掘的油井,金礦,是所謂的藍(lán)海。23

1.擁有大數(shù)據(jù)思維的人,這種人可以將大數(shù)據(jù)的潛在價(jià)值轉(zhuǎn)化為實(shí)際利益;4.1.2大數(shù)據(jù)的價(jià)值探討未來(lái)在大數(shù)據(jù)領(lǐng)域最具有價(jià)值的是兩種事物2.還未有被大數(shù)據(jù)觸及過(guò)的業(yè)務(wù)領(lǐng)域。這些是還未被挖掘的油井,金礦,是所謂的藍(lán)海。24●

醫(yī)療機(jī)構(gòu)將實(shí)時(shí)的監(jiān)測(cè)用戶的身體健康狀況;●教育機(jī)構(gòu)更有針對(duì)的制定用戶喜歡的教育培訓(xùn)計(jì)劃;●服務(wù)行業(yè)為用戶提供即時(shí)健康的符合用戶生活習(xí)慣的食物和其他服務(wù);●社交網(wǎng)絡(luò)能為你提供合適的交友對(duì)象,并為志同道合的人群組織各種聚會(huì)活動(dòng);●政府能在用戶的心理健康出現(xiàn)問(wèn)題時(shí)有效的干預(yù),防范自殺,刑事案件的發(fā)生;●金融機(jī)構(gòu)能幫助用戶進(jìn)行有效的理財(cái)管理,為用戶的資金提供更有效的使用建議和規(guī)劃;●道路交通、汽車租賃及運(yùn)輸行業(yè)可以為用戶提供更合適的出行線路和路途服務(wù)安排;4.1.2大數(shù)據(jù)的價(jià)值探討大數(shù)據(jù)展望4.1.3大數(shù)據(jù)處理流程傳統(tǒng)意義上的數(shù)據(jù)處理方式數(shù)據(jù)挖掘數(shù)據(jù)倉(cāng)庫(kù)聯(lián)機(jī)分析處理(OLAP)......大數(shù)據(jù)處理流程數(shù)據(jù)采集數(shù)據(jù)處理與集成數(shù)據(jù)解釋數(shù)據(jù)分析大數(shù)據(jù)處理流程中最基礎(chǔ)的一步對(duì)數(shù)據(jù)信息用戶來(lái)講至關(guān)重要的一步。主要是完成對(duì)于已經(jīng)采集到的數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶幚?清洗去噪以及進(jìn)一步的集成存儲(chǔ)。整個(gè)大數(shù)據(jù)處理流程里最核心的部分,因?yàn)樵跀?shù)據(jù)分析的過(guò)程中,會(huì)發(fā)現(xiàn)數(shù)據(jù)的價(jià)值所在。12344.1.2大數(shù)據(jù)處理流程4.1.2大數(shù)據(jù)處理流程

數(shù)據(jù)采集是大數(shù)據(jù)處理流程中最基礎(chǔ)的一步,目前常用的數(shù)據(jù)采集手段有傳感器收取?射頻識(shí)別(RFID)?數(shù)據(jù)檢索分類工具如百度和谷歌等搜索引擎,以及條形碼技術(shù)等。1.數(shù)據(jù)采集2.數(shù)據(jù)處理與集成將整理好的數(shù)據(jù)進(jìn)行集成和存儲(chǔ)過(guò)濾掉離群數(shù)據(jù)設(shè)計(jì)數(shù)據(jù)過(guò)濾器4.1.2大數(shù)據(jù)處理流程4.1.2大數(shù)據(jù)處理流程3.數(shù)據(jù)分析(核心)Google作為互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用最為廣泛的公司,于2006年率先提出了”云計(jì)算”的概念,其內(nèi)部各種數(shù)據(jù)的應(yīng)用都是依托Google自己內(nèi)部研發(fā)的一系列云計(jì)算技術(shù),例如分布式文件系統(tǒng)GFS?分布式數(shù)據(jù)庫(kù)BigTable?批處理技術(shù)MapReduce,以及開(kāi)源實(shí)現(xiàn)平臺(tái)Ha-doop等。這些技術(shù)平臺(tái)的產(chǎn)生,提供了對(duì)大數(shù)據(jù)進(jìn)行處理?分析很好的手段。4.1.2大數(shù)據(jù)處理流程4.數(shù)據(jù)解釋

為了提升數(shù)據(jù)解釋?展示能力,現(xiàn)在大部分企業(yè)都引入了”數(shù)據(jù)可視化技術(shù)”作為解釋大數(shù)據(jù)最有力的方式。通過(guò)可視化結(jié)果分析,可以形象地向用戶展示數(shù)據(jù)分析結(jié)果,更方便用戶對(duì)結(jié)果的理解和接受。

常見(jiàn)的可視化技術(shù)有基于集合的可視化技術(shù)?基于圖標(biāo)的技術(shù)?基于圖像的技術(shù)?面向像素的技術(shù)和分布式技術(shù),等等。4.1.2大數(shù)據(jù)處理流程4.2云計(jì)算技術(shù)4.2.5云計(jì)算在物聯(lián)網(wǎng)中的應(yīng)用4.2.3云計(jì)算的關(guān)鍵技術(shù)4.2.4云計(jì)算平臺(tái)搭建4.2.2云計(jì)算的服務(wù)模式4.2.1云計(jì)算的特點(diǎn)云計(jì)算(CloudComputing),是一種基于互聯(lián)網(wǎng)的計(jì)算方式,通過(guò)這種方式,共享的軟硬件資源和信息可以按需提供給計(jì)算機(jī)和其他設(shè)備。云其實(shí)是網(wǎng)絡(luò)、互聯(lián)網(wǎng)的一種比喻說(shuō)法。云計(jì)算的核心思想,是將大量用網(wǎng)絡(luò)連接的計(jì)算資源統(tǒng)一管理和調(diào)度,構(gòu)成一個(gè)計(jì)算資源池向用戶按需服務(wù)。提供資源的網(wǎng)絡(luò)被稱為”云”。狹義云計(jì)算指IT基礎(chǔ)設(shè)施的交付和使用模式,指通過(guò)網(wǎng)絡(luò)以按需、易擴(kuò)展的方式獲得所需資源;廣義云計(jì)算指服務(wù)的交付和使用模式,指通過(guò)網(wǎng)絡(luò)以按需、易擴(kuò)展的方式獲得所需服務(wù)。云計(jì)算發(fā)展路線并行計(jì)算集群計(jì)算網(wǎng)格計(jì)算云計(jì)算*密不可分的大數(shù)據(jù)與云計(jì)算商業(yè)模式驅(qū)動(dòng)應(yīng)用需求驅(qū)動(dòng)云計(jì)算本身也是大數(shù)據(jù)的一種業(yè)務(wù)模式大數(shù)據(jù)是落地的云云計(jì)算的模式是業(yè)務(wù)模式,本質(zhì)是數(shù)據(jù)處理技術(shù)。數(shù)據(jù)是資產(chǎn),云為數(shù)據(jù)資產(chǎn)提供存儲(chǔ)、訪問(wèn)和計(jì)算。當(dāng)前云計(jì)算更偏重海量存儲(chǔ)和計(jì)算,以及提供的云服務(wù),運(yùn)行云應(yīng)用,但是缺乏盤(pán)活數(shù)據(jù)資產(chǎn)的能力,挖掘價(jià)值性信息和預(yù)測(cè)性分析,為國(guó)家、企業(yè)、個(gè)人提供決策和服務(wù),是大數(shù)據(jù)核心議題,也是云計(jì)算的最終方向。動(dòng)態(tài)可擴(kuò)展虛擬化技術(shù)按需部署高靈活性高性價(jià)比高可靠性4.2.1云計(jì)算的特點(diǎn)動(dòng)態(tài)可擴(kuò)展虛擬化技術(shù)按需部署高靈活性高性價(jià)比高可靠性4.2.1云計(jì)算的特點(diǎn)虛擬化技術(shù)是云計(jì)算最強(qiáng)調(diào)的特點(diǎn),包括資源虛擬化和應(yīng)用虛擬化。每一個(gè)應(yīng)用部署的環(huán)境和物理平臺(tái)是沒(méi)有關(guān)系的。通過(guò)虛擬平臺(tái)進(jìn)行管理達(dá)到對(duì)應(yīng)用進(jìn)行擴(kuò)展、遷移、備份,操作均通過(guò)虛擬化層次完成。動(dòng)態(tài)可擴(kuò)展虛擬化技術(shù)按需部署高靈活性高性價(jià)比高可靠性通過(guò)動(dòng)態(tài)擴(kuò)展虛擬化的層次達(dá)到對(duì)應(yīng)用進(jìn)行擴(kuò)展的目的??梢詫?shí)時(shí)將服務(wù)器加入到現(xiàn)有的服務(wù)器機(jī)群中,增加”云”的計(jì)算能力。4.2.1云計(jì)算的特點(diǎn)動(dòng)態(tài)可擴(kuò)展虛擬化技術(shù)按需部署高靈活性高性價(jià)比高可靠性用戶運(yùn)行不同的應(yīng)用需要不同的資源和計(jì)算能力。云計(jì)算平臺(tái)可以按照用戶的需求部署資源和計(jì)算能力。4.2.1云計(jì)算的特點(diǎn)動(dòng)態(tài)可擴(kuò)展虛擬化技術(shù)按需部署高靈活性高性價(jià)比高可靠性現(xiàn)在大部分的軟件和硬件都對(duì)虛擬化有一定支持,各種IT資源,例如,軟件、硬件、操作系統(tǒng)、存儲(chǔ)網(wǎng)絡(luò)等所有要素通過(guò)虛擬化,放在云計(jì)算虛擬資源池中進(jìn)行統(tǒng)一管理。同時(shí),能夠兼容不同硬件廠商的產(chǎn)品,兼容低配置機(jī)器和外設(shè)而獲得高性能計(jì)算。4.2.1云計(jì)算的特點(diǎn)動(dòng)態(tài)可擴(kuò)展虛擬化技術(shù)按需部署高靈活性高性價(jià)比高可靠性虛擬化技術(shù)使得用戶的應(yīng)用和計(jì)算分布在不同的物理服務(wù)器上面,即使單點(diǎn)服務(wù)器崩潰,仍然可以通過(guò)動(dòng)態(tài)擴(kuò)展功能部署新的服務(wù)器作為資源和計(jì)算能力添加進(jìn)來(lái),保證應(yīng)用和計(jì)算的正常運(yùn)轉(zhuǎn)。4.2.1云計(jì)算的特點(diǎn)動(dòng)態(tài)可擴(kuò)展虛擬化技術(shù)按需部署高靈活性高性價(jià)比高可靠性云計(jì)算采用虛擬資源池的方法管理所有資源,對(duì)物理資源的要求較低??梢允褂昧畠r(jià)的PC組成云,而計(jì)算性能卻可超過(guò)大型主機(jī)。4.2.1云計(jì)算的特點(diǎn)寬帶的發(fā)展為云計(jì)算提供了硬件基礎(chǔ)0512Kbps1Mbps5Mbps10Mbps100MbpsHongKongSouthKoreaSingaporeTaiwanAustraliaChinaIndiaGermanyU.K.FranceCanadaU.S.A.主流速度高速網(wǎng)絡(luò)2Mbps1GbpsJapan最大下載速度4.2.1云計(jì)算的特點(diǎn)互聯(lián)網(wǎng)發(fā)展:從硬件到社區(qū)MySpaceFacebook開(kāi)心網(wǎng)校內(nèi)網(wǎng)……4.2.1云計(jì)算的特點(diǎn)互聯(lián)網(wǎng)用戶的新需求為云計(jì)算提供了服務(wù)基礎(chǔ)4.2.1云計(jì)算的特點(diǎn)當(dāng)今互聯(lián)網(wǎng)用戶的需求:?接入能力可以從任何地點(diǎn)、任何設(shè)備接入服務(wù)和數(shù)據(jù)?共享能力數(shù)據(jù)的建立和存儲(chǔ)共享容易方便?自由不希望受數(shù)據(jù)的影響?簡(jiǎn)單容易學(xué)會(huì),容易使用?安全相信數(shù)據(jù)不會(huì)丟失或不會(huì)被不允許的人看到4.2.2云計(jì)算的服務(wù)模式SaaSPaaSIaaS云計(jì)算的三個(gè)服務(wù)模式(DeliveryModels)是:SaaS、PaaS和IaaS4.2.2云計(jì)算的服務(wù)模式SaaSPaaSIaaSSaaS(Software-as-a-Service):軟件即服務(wù)。提供給客戶的服務(wù)是運(yùn)營(yíng)商運(yùn)行在云計(jì)算基礎(chǔ)設(shè)施上的應(yīng)用程序,用戶可以在各種設(shè)備上通過(guò)瘦客戶端界面訪問(wèn),如瀏覽器。消費(fèi)者不需要管理或控制任何云計(jì)算基礎(chǔ)設(shè)施,包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、存儲(chǔ),等等。4.2.2云計(jì)算的服務(wù)模式PaaS(Platform-as-a-Service):平臺(tái)即服務(wù)。提供給消費(fèi)者的服務(wù)是把客戶采用提供的開(kāi)發(fā)語(yǔ)言和工具(例如Java、Python、.Net等)開(kāi)發(fā)的或收購(gòu)的應(yīng)用程序部署到供應(yīng)商的云計(jì)算基礎(chǔ)設(shè)施上??蛻舨恍枰芾砘蚩刂频讓拥脑苹A(chǔ)設(shè)施,包括網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、存儲(chǔ)等,但客戶能控制部署的應(yīng)用程序,也可能控制運(yùn)行應(yīng)用程序的托管環(huán)境配置。SaaSPaaSIaaS4.2.2云計(jì)算的服務(wù)模式SaaSPaaSIaaSIaaS(Infrastructure-as-a-Service):基礎(chǔ)設(shè)施即服務(wù)。提供給消費(fèi)者的服務(wù)是對(duì)所有設(shè)施的利用,包括處理、存儲(chǔ)、網(wǎng)絡(luò)和其他基本的計(jì)算資源,用戶能夠部署和運(yùn)行任意軟件,包括操作系統(tǒng)和應(yīng)用程序。消費(fèi)者不管理或控制任何云計(jì)算基礎(chǔ)設(shè)施,但能控制操作系統(tǒng)的選擇、儲(chǔ)存空間、部署的應(yīng)用,也有可能獲得有限制的網(wǎng)絡(luò)組件(例如,防火墻、負(fù)載均衡器等)的控制。4.2.2云計(jì)算的服務(wù)模式共性優(yōu)勢(shì)風(fēng)險(xiǎn)無(wú)浪費(fèi)費(fèi)用即時(shí)擴(kuò)展安全可靠APIs用戶花費(fèi)低減少底層管理職責(zé)允許意想不到的資源裝載業(yè)務(wù)應(yīng)用實(shí)現(xiàn)迅速安全性宕機(jī)問(wèn)題接入問(wèn)題獨(dú)立性協(xié)同互動(dòng)問(wèn)題IaaS、PaaS&SaaS總結(jié)4.2.3云計(jì)算的關(guān)鍵技術(shù)編程模型MapReduce是Google開(kāi)發(fā)的java、Python、C++編程模型,它是一種簡(jiǎn)化的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。嚴(yán)格的編程模型使云計(jì)算環(huán)境下的編程十分簡(jiǎn)單。海量數(shù)據(jù)分布存儲(chǔ)技術(shù)云計(jì)算系統(tǒng)中廣泛使用的數(shù)據(jù)存儲(chǔ)系統(tǒng)是Google的GFS和Hadoop團(tuán)隊(duì)開(kāi)發(fā)的GFS的開(kāi)源實(shí)現(xiàn)HDFS。海量數(shù)據(jù)管理技術(shù)云計(jì)算系統(tǒng)中的數(shù)據(jù)管理技術(shù)主要是Google的BT(BigTable)數(shù)據(jù)管理技術(shù)和Hadoop團(tuán)隊(duì)開(kāi)發(fā)的開(kāi)源數(shù)據(jù)管理模塊HBase。虛擬化技術(shù)通過(guò)虛擬化技術(shù)可實(shí)現(xiàn)軟件應(yīng)用與底層硬件相隔離,它包括將單個(gè)資源劃分成多個(gè)虛擬資源的裂分模式,也包括將多個(gè)資源整合成一個(gè)虛擬資源的聚合模式。云計(jì)算平臺(tái)管理技術(shù)云計(jì)算系統(tǒng)的平臺(tái)管理技術(shù)能夠使大量的服務(wù)器協(xié)同工作,方便的進(jìn)行業(yè)務(wù)部署和開(kāi)通,快速發(fā)現(xiàn)和恢復(fù)系統(tǒng)故障。4.2.4云計(jì)算平臺(tái)搭建Ubuntu14.04系統(tǒng)HadoopSSH框架Hadoop是一個(gè)開(kāi)源的可運(yùn)行于大規(guī)模集群上的分布式并行編程框架,其最核心的設(shè)計(jì)包括:MapReduce和HDFS?;贖adoop,可以輕松地編寫(xiě)可處理海量數(shù)據(jù)的分布式并行程序,并將其運(yùn)行于由成百上千個(gè)結(jié)點(diǎn)組成的大規(guī)模計(jì)算機(jī)集群上。4.2.4云計(jì)算平臺(tái)搭建Hadoop系統(tǒng)原理Hadoop是一個(gè)開(kāi)源的可運(yùn)行于大規(guī)模集群上的分布式并行編程框架,其最核心的設(shè)計(jì)包括:MapReduce和HDFS。4.2.4云計(jì)算平臺(tái)搭建MapReduce是Hadoop的核心技術(shù)之一,為分布式計(jì)算的程序設(shè)計(jì)提供了良好的編程接口,并且屏蔽了底層通信原理,使得程序員只需關(guān)心業(yè)務(wù)邏輯本事,就可輕易的編寫(xiě)出基于集群的分布式并行程序。從它名字上來(lái)看,大致可以看出個(gè)兩個(gè)動(dòng)詞Map和Reduce,“Map”就是將一個(gè)任務(wù)分解成為多個(gè)子任務(wù)并行的執(zhí)行,“Reduce”就是將分解后多任務(wù)處理的結(jié)果匯總起來(lái),得出最后的分析結(jié)果并輸出。4.2.4云計(jì)算平臺(tái)搭建MapReduce運(yùn)行機(jī)制mapreduce作業(yè)執(zhí)行涉及4個(gè)獨(dú)立的實(shí)體:客戶端(client):編寫(xiě)mapreduce程序,配置作業(yè),提交作業(yè),這就是程序員完成的工作;JobTracker:初始化作業(yè),分配作業(yè),與TaskTracker通信,協(xié)調(diào)整個(gè)作業(yè)的執(zhí)行;TaskTracker:保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù),TaskTracker和JobTracker的不同有個(gè)很重要的方面,就是在執(zhí)行任務(wù)時(shí)候TaskTracker可以有n多個(gè),JobTracker則只會(huì)有一個(gè)(JobTracker只能有一個(gè)就和hdfs里namenode一樣存在單點(diǎn)故障,我會(huì)在后面的mapreduce的相關(guān)問(wèn)題里講到這個(gè)問(wèn)題的)Hdfs:保存作業(yè)的數(shù)據(jù)、配置信息等等,最后的結(jié)果也是保存在hdfs上面4.2.4云計(jì)算平臺(tái)搭建4.2.4云計(jì)算平臺(tái)搭建(1)修改機(jī)器名:打開(kāi)/etc/hostname文件,將/etc/hostname文件中的Ubuntu改為用戶設(shè)置的機(jī)器名。(2)安裝ssh服務(wù):在terminal窗口中輸入:Sudoaapt-getinstallopenssh-server;建立ssh無(wú)密碼登錄本機(jī)在terminal窗口中輸入:ssh-keygen-tdsa-P''-f~/.ssh/id_dsacat~/.ssh/id_dsa.pub>>~/.ssh/authorized_keysHadopp系統(tǒng)部署4.2.4云計(jì)算平臺(tái)搭建Hadopp系統(tǒng)部署(3)登錄localhost:在terminal窗口中輸入:bin/start-all.sh(4)安裝Hadoop:下載Hadoop安裝包并解壓,打開(kāi)Hadoop/conf/Hadoop.sh文件,配置conf/Hadoop.sh:找到#exportJAVA_HOME=...一行,去掉#,然后加上本機(jī)JDK的路徑。打開(kāi)conf/core-site.XML文件,加入如下代碼:<configuration><property><name></name><value>hdfs://localhost:9000</value></property></configuration>打開(kāi)conf/mapred-site.XML文件,編輯如下:<configuration><property><name>mapred.job.tracker</name><value>localhost:9001</value></property></configuration>打開(kāi)conf/masters文件和conf/slaves文件,添加secondary的主機(jī)名,作為單機(jī)版環(huán)境,這里只需填寫(xiě)localhost就Ok了。4.2.4云計(jì)算平臺(tái)搭建Hadopp系統(tǒng)部署4.2.4云計(jì)算平臺(tái)搭建基于MapReduce的分布式云計(jì)算實(shí)驗(yàn)云計(jì)算實(shí)驗(yàn)結(jié)果普通PC機(jī)實(shí)驗(yàn)結(jié)果5倍4.2.5云計(jì)算在物聯(lián)網(wǎng)中的應(yīng)用(1)可用性:云計(jì)算數(shù)據(jù)管理技術(shù)中的存儲(chǔ)資源采用集中存放管理、分布式調(diào)度,能夠大大地提高物聯(lián)網(wǎng)數(shù)據(jù)的存取速度。(2)可靠性:主要是從對(duì)數(shù)據(jù)存儲(chǔ)的安全性方面來(lái)說(shuō)的。云計(jì)算數(shù)據(jù)管理技術(shù)通過(guò)以下兩種方法來(lái)保證物聯(lián)網(wǎng)數(shù)據(jù)存儲(chǔ)的可靠性:一是加強(qiáng)數(shù)據(jù)管理系統(tǒng)的容錯(cuò)性,增加備份數(shù)據(jù);二是通過(guò)全網(wǎng)全資源監(jiān)控管理來(lái)保障系統(tǒng)各環(huán)節(jié)的健壯性。(3)數(shù)據(jù)資源共享:云計(jì)算數(shù)據(jù)管理技術(shù)通過(guò)將收集到的海量感知信息按照物聯(lián)網(wǎng)的應(yīng)用需求統(tǒng)一存放在不同的數(shù)據(jù)中心中,這種集中存放的模式通過(guò)高速傳輸?shù)幕ヂ?lián)網(wǎng)使得物聯(lián)網(wǎng)平臺(tái)的數(shù)據(jù)共享更為方便,并可提高物聯(lián)網(wǎng)平臺(tái)共享數(shù)據(jù)的訪問(wèn)速度。4.3機(jī)器學(xué)習(xí)技術(shù)4.3.5人工神經(jīng)網(wǎng)絡(luò)4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介4.3.2聚類分析4.3.3貝葉斯分類器4.3.4決策樹(shù)吳恩達(dá),AndrewNg,斯坦福大學(xué)副教授,前“百度大腦”的負(fù)責(zé)人與百度首席科學(xué)家GeoffreyHinton,加拿大多倫多大學(xué)的教授,如今被聘為“Google大腦”的負(fù)責(zé)人YannLeCun,紐約大學(xué)教授,如今是Facebook人工智能實(shí)驗(yàn)室的主任4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介機(jī)器學(xué)習(xí)是專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。其中,系統(tǒng)S是我們研究的對(duì)象,它在給定一個(gè)輸入X的情況下,得到一定的輸出Y,LM是我們所求的學(xué)習(xí)機(jī),其輸出為Y'。4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介典型的機(jī)器學(xué)習(xí)系統(tǒng)框圖人類對(duì)生活中的經(jīng)驗(yàn)進(jìn)行“歸納”,獲得了生活的“規(guī)律”。當(dāng)人類遇到未知的問(wèn)題或者需要對(duì)未來(lái)進(jìn)行“推測(cè)”的時(shí)候,人類使用這些“規(guī)律”,對(duì)未知問(wèn)題與未來(lái)進(jìn)行“推測(cè)”,從而指導(dǎo)自己的生活和工作。機(jī)器學(xué)習(xí)中的“訓(xùn)練”與“預(yù)測(cè)”過(guò)程可以對(duì)應(yīng)到人類的“歸納”和“推測(cè)”過(guò)程。4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介無(wú)監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)強(qiáng)化學(xué)習(xí)在沒(méi)有老師的情況下,學(xué)生自學(xué)的過(guò)程;在機(jī)器學(xué)習(xí)中,基本上都是計(jì)算機(jī)在互聯(lián)網(wǎng)中自動(dòng)收集信息,并從中獲取有用信息利用一組已知類別的樣本調(diào)整分類器的參數(shù),使其達(dá)到所要求性能的過(guò)程,也稱為監(jiān)督訓(xùn)練或有教師學(xué)習(xí)是通過(guò)自主學(xué)習(xí),不斷嘗試錯(cuò)誤,目的是為了獲得更高的獎(jiǎng)勵(lì)4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介有監(jiān)督的學(xué)習(xí)(用于分類)-模型的學(xué)習(xí)在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類的“監(jiān)督”下進(jìn)行-新數(shù)據(jù)使用訓(xùn)練數(shù)據(jù)集中得到的規(guī)則進(jìn)行分類無(wú)監(jiān)督的學(xué)習(xí)(用于聚類)-每個(gè)訓(xùn)練樣本的類編號(hào)是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能是事先未知的-通過(guò)一系列的度量、觀察來(lái)建立數(shù)據(jù)中的類編號(hào)或進(jìn)行聚類有監(jiān)督的學(xué)習(xí)VS.無(wú)監(jiān)督的學(xué)習(xí)4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介數(shù)據(jù)集訓(xùn)練集(用于構(gòu)建模型)測(cè)試集(用于評(píng)估建好的模型)在機(jī)器學(xué)習(xí)過(guò)程中,把每個(gè)數(shù)據(jù)集分成兩個(gè)子集。4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介過(guò)擬合與欠擬合例用x1表示房間大小。通過(guò)線性回歸,在橫軸為房間大小,縱軸為價(jià)格的圖中,畫(huà)出擬合曲線?;貧w的曲線方程為:4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介

若定義特征集合為:x1表示房子大小,x2表示房子大小的平方,使用相同的算法,擬合得到一個(gè)二次函數(shù),在圖中即為一個(gè)拋物線,即:

以此類推,若訓(xùn)練集有7個(gè)數(shù)據(jù),則可擬合出最高6次的多項(xiàng)式,可以找到一條完美的曲線,該曲線經(jīng)過(guò)每個(gè)數(shù)據(jù)點(diǎn)。但是這樣的模型又過(guò)于復(fù)雜,擬合結(jié)果僅僅反映了所給的特定數(shù)據(jù)的特質(zhì),不具有通過(guò)房屋大小來(lái)估計(jì)房?jī)r(jià)的普遍性。而線性回歸的結(jié)果可能無(wú)法捕獲所有訓(xùn)練集的信息。

所以,對(duì)于一個(gè)監(jiān)督學(xué)習(xí)模型來(lái)說(shuō),過(guò)小的特征集合使得模型過(guò)于簡(jiǎn)單,過(guò)大的特征集合使得模型過(guò)于復(fù)雜。對(duì)于特征集過(guò)小的情況,稱之為欠擬合(underfitting);對(duì)于特征集過(guò)大的情況,稱之為過(guò)擬合(overfitting)4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介機(jī)器學(xué)習(xí)評(píng)價(jià)指標(biāo)混淆矩陣是用來(lái)評(píng)價(jià)監(jiān)督式學(xué)習(xí)模型的精確性,矩陣的每一列代表一個(gè)類的實(shí)例預(yù)測(cè),而每一行表示一個(gè)實(shí)際的類的實(shí)例。以二類分類問(wèn)題為例,如下表所示:P(PositiveSample):正例的樣本數(shù)量。N(NegativeSample):負(fù)例的樣本數(shù)量。TP(TruePositive):正確預(yù)測(cè)到的正例的數(shù)量。FP(FalsePositive):把負(fù)例預(yù)測(cè)成正例的數(shù)量。FN(FalseNegative):把正例預(yù)測(cè)成負(fù)例的數(shù)量。TN(TrueNegative):正確預(yù)測(cè)到的負(fù)例的數(shù)量。

預(yù)測(cè)的類實(shí)際的類類=1類=0類=1TPFNP類=0FPTNN4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介準(zhǔn)確度(Accuracy)指的是正負(fù)樣本分別被正確分類的概率4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介精確率(Precision)指的是模型判為正的所有樣本中有多少是真正的正樣本4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介召回率(Recall)指的是所有正確樣本有多少被模型判為正樣本4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介虛警率(FPrate)指的是所有負(fù)樣本有多少被模型錯(cuò)判為正樣本4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介微積分線性代數(shù)概率論統(tǒng)計(jì)學(xué)離散數(shù)學(xué)模糊數(shù)學(xué)機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)1.微積分

(1)非線性函數(shù)在以后的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中具有重要作用。由于這些非線性函數(shù)的幫助,神經(jīng)網(wǎng)絡(luò)才能對(duì)線性和非線性模型進(jìn)行學(xué)習(xí)。非線性激活函數(shù)要求處處可微,主要有Logistic函數(shù)和雙曲正切函數(shù)。

4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介在機(jī)器學(xué)習(xí)和數(shù)據(jù)分析領(lǐng)域,微積分是很多算法的理論基礎(chǔ)4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介L(zhǎng)ogistic函數(shù)定義為:雙曲正切函數(shù)定義為:

4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介1.微積分(2)梯度。梯度是一個(gè)向量場(chǎng),標(biāo)量場(chǎng)中某一點(diǎn)上的梯度指向標(biāo)量場(chǎng)增長(zhǎng)最快的方向,梯度的長(zhǎng)度是這個(gè)最大的變化率。定義為:4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介線性代數(shù)理論是計(jì)算技術(shù)的基礎(chǔ),在機(jī)器學(xué)習(xí)、數(shù)據(jù)分析、數(shù)學(xué)建模領(lǐng)域有著重要的地位,這些領(lǐng)域往往需要應(yīng)用線性方程組、矩陣、行列式等理論,并通過(guò)計(jì)算機(jī)完成計(jì)算。下面是幾個(gè)應(yīng)用線性代數(shù)的例子。4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介2.線性代數(shù)4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介(1)內(nèi)積(Innerproduct)任何滿足如下條件的關(guān)于向量和的標(biāo)量函數(shù)都可以定義為一個(gè)內(nèi)積:①②③,當(dāng)且僅當(dāng)是零向量時(shí)。對(duì)于中的向量而言,其標(biāo)準(zhǔn)內(nèi)積為當(dāng)然,內(nèi)積的形式并不是唯一的。因?yàn)闈M足內(nèi)積定義的表達(dá)形式有許多種。5/18/2024沿向量的二階導(dǎo)數(shù)為:(2)方向?qū)?shù)(Directionalderivative)給定多變量函數(shù),為n維向量空間內(nèi)沿所求導(dǎo)數(shù)方向上的一個(gè)向量,此方向一階導(dǎo)數(shù)為:4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介5/18/2024例

給定函數(shù),沿向量方向求在點(diǎn)處的導(dǎo)數(shù)。解首先求函數(shù)在處的梯度4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介5/18/2024然后求沿的導(dǎo)數(shù):根據(jù)內(nèi)積的定義可知,方向?qū)?shù)的分子是函數(shù)在處的梯度向量與方向向量的內(nèi)積。由于為零,說(shuō)明與正交。4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介(3)人口模型

描述人口系統(tǒng)中人的出生、死亡和遷移隨時(shí)間變化的情況,以及它們之間定量關(guān)系的數(shù)學(xué)方程式或方程組,分為連續(xù)模型和離散模型。其中離散模型適合于計(jì)算機(jī)仿真。在人口離散模型中,用x0(t),x1(t),x2(t),…,xm(t)表示t時(shí)刻的年齡構(gòu)成,其中xi(t)表示t年代年滿i周歲但不到i+1周歲的人口數(shù),寫(xiě)成向量形式如下:4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介則離散人口模型可寫(xiě)成:式中H(t),B(t)為以下相應(yīng)維數(shù)的矩陣:式中為按齡死亡率,m為人類能活到的最高年齡。4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介在這個(gè)模型中,通過(guò)矩陣的形式,將時(shí)間、出生、死亡和遷移4個(gè)因素及它們之間的定量關(guān)系進(jìn)行完全描述。(4)自回歸模型模型

自回歸模型是統(tǒng)計(jì)上一種處理時(shí)間序列的方法,從回歸分析中的線性回歸發(fā)展而來(lái),用同一變量例如x的前期進(jìn)行預(yù)測(cè)(即x1至xt-1預(yù)測(cè)本期xt的表現(xiàn)),并假設(shè)它們?yōu)榫€性關(guān)系,模型中X的當(dāng)前值Xt等于若干個(gè)后期值的線性組合,加常數(shù)項(xiàng),加隨機(jī)誤差,其公式定義為:其中:c是常數(shù)項(xiàng);p是階數(shù),i為1到p的值;φi是自相關(guān)系數(shù);εt被假設(shè)為平均數(shù)等于0、標(biāo)準(zhǔn)差等于σ的隨機(jī)誤差值;σ被假設(shè)為對(duì)于任何的都不變,即獨(dú)立于t。4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介可以寫(xiě)成向量的形式4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介概率論是研究隨機(jī)性或不確定性現(xiàn)象的數(shù)學(xué),用來(lái)模擬實(shí)驗(yàn)在同一環(huán)境下會(huì)產(chǎn)生不同結(jié)果的情況。4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介3.概率論4.3.1機(jī)器學(xué)習(xí)基本簡(jiǎn)介古典概率拉普拉斯試驗(yàn)中,事件A在事件空間S中的概率P(A)為:條件概率:一事件A在一事件B確定發(fā)生后會(huì)發(fā)生的概率稱為B給之A的條件概率,定義為:知識(shí)點(diǎn)回顧:4.3.1機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)概率分布包括二項(xiàng)分布、幾何分布、伯努利分布、泊松分布、均勻分布、正態(tài)分布、指數(shù)分布等。

樣本空間隨機(jī)變量的概率分布可用累積分布函數(shù)和概率密度函數(shù)進(jìn)行分析。隨機(jī)變量X的累積分布函數(shù)定義為:其中,x為任意實(shí)數(shù);P(X≤x)表示隨機(jī)變量小于或者等于某個(gè)數(shù)值的概率。設(shè)X為連續(xù)型隨機(jī)變量,其累積分布函數(shù)為Fx(x),若存在fX(x),滿足:則fX(x)是它的概率密度函數(shù)。知識(shí)點(diǎn)回顧:4.3.1機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)4.統(tǒng)計(jì)學(xué)

統(tǒng)計(jì)學(xué)是收集、分析、表述和解釋數(shù)據(jù)的科學(xué),作為數(shù)據(jù)分析的一種有效工具,統(tǒng)計(jì)方法已廣泛應(yīng)用于社會(huì)科學(xué)和自然科學(xué)的各個(gè)領(lǐng)域。統(tǒng)計(jì)學(xué)與概率論聯(lián)系緊密,前者以后者為理論基礎(chǔ)。統(tǒng)計(jì)學(xué)主要分為描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)。5.離散數(shù)學(xué)

離散數(shù)學(xué)是數(shù)學(xué)的幾個(gè)分支的總稱,研究基于離散空間而不是連續(xù)的數(shù)學(xué)結(jié)構(gòu),其研究?jī)?nèi)容非常廣泛,主要包括數(shù)理邏輯、集合論、信息論、數(shù)論、組合數(shù)學(xué)、圖論、抽象代數(shù)、理論計(jì)算機(jī)科學(xué)、拓?fù)鋵W(xué)、運(yùn)籌學(xué)、博弈論、決策論等。離散數(shù)學(xué)廣泛應(yīng)用于機(jī)器學(xué)習(xí)、算法設(shè)計(jì)、信息安全、數(shù)據(jù)分析等領(lǐng)域。4.3.2聚類分析

聚類就是將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過(guò)程。1.數(shù)據(jù)的距離和相似性度量

聚類分析按照樣本點(diǎn)之間的親疏遠(yuǎn)近程度進(jìn)行分類。為了使類分得合理,必須描述樣本之間的親疏遠(yuǎn)近程度??坍?huà)聚類樣本點(diǎn)之間的親疏遠(yuǎn)近程度主要的方法是利用距離度量的方法,常用的距離度量方法有歐幾里德距離、余弦距離和馬氏距離等。4.3.2聚類分析距離與度量相關(guān)距離閔可夫斯基距離歐氏距離曼哈頓距離切比雪夫距離改進(jìn)閔可夫斯基距離標(biāo)準(zhǔn)化歐氏距離(加權(quán))馬氏距離相似度度量余弦相似度改進(jìn):調(diào)整余弦相似度皮爾森相關(guān)系數(shù)Jaccard相似系數(shù)歐式距離和余弦相似度的比較4.3.2聚類分析一般而言,定義一個(gè)距離函數(shù)d(x,y),需要滿足下面幾個(gè)基本準(zhǔn)則:1)d(x,x)=0

//到自己的距離為0

2)d(x,y)>=0

//距離非負(fù)

3)d(x,y)=d(y,x)//對(duì)稱性:如果A到B距離是a,那么B到A的距離也應(yīng)該是a

4)d(x,k)+d(k,y)>=d(x,y)

//三角形法則:(兩邊之和大于第三邊)4.3.2聚類分析即:所有點(diǎn)的對(duì)應(yīng)維度之差的平方的求和再開(kāi)方。歐式距離相似度算法需要保證各個(gè)維度指標(biāo)在相同的刻度級(jí)別,比如對(duì)身高、體重兩個(gè)單位不同的指標(biāo)使用歐氏距離可能使結(jié)果失效。歐式距離4.3.2聚類分析曼哈頓距離來(lái)源于城市區(qū)塊距離,是將多個(gè)維度上的距離進(jìn)行求和后的結(jié)果曼哈頓距離4.3.2聚類分析切比雪夫距離(Chebyshevdistance)是向量空間中的一種度量,二個(gè)點(diǎn)之間的距離定義為其各坐標(biāo)數(shù)值差的最大值。從一個(gè)位置走到其他位置需要的步數(shù)恰為二個(gè)位置的切比雪夫距離,因此切比雪夫距離也稱為棋盤(pán)距離。切比雪夫距離4.3.2聚類分析閔可夫斯基距離(Minkowskidistance)不是一種距離,而是一組距離的定義。該距離最常用的p是2和1,無(wú)窮大P=2是歐幾里得距離(Euclideandistance),P=1是曼哈頓距離(Manhattandistance)。當(dāng)p趨近于無(wú)窮大時(shí),閔可夫斯基距離轉(zhuǎn)化成切比雪夫距離(Chebyshevdistance)閔可夫斯基距離4.3.2聚類分析缺點(diǎn):舉個(gè)例子二維樣本(身高,體重),其中身高范圍是150~190,體重范圍是50~60,有三個(gè)樣本:a(180,50),b(190,50),c(180,60)。那么a與b之間的閔氏距離(無(wú)論是曼哈頓距離、歐氏距離或切比雪夫距離)等于a與c之間的閔氏距離,但是身高的10cm等價(jià)于體重的10kg嗎?因此用閔氏距離來(lái)衡量這些樣本間的相似度有問(wèn)題。簡(jiǎn)單說(shuō)來(lái),閔氏距離的缺點(diǎn)主要有兩個(gè):

1.將各個(gè)分量的量綱(scale),也就是“單位”當(dāng)作相同的看待了。

2.沒(méi)有考慮各個(gè)分量的分布(期望,方差等)可能是不同的。4.3.2聚類分析引入標(biāo)準(zhǔn)化歐式距離的原因是一個(gè)數(shù)據(jù)xi的各個(gè)維度之間的尺度不一樣。

比如v1=(100,10,30),v2=(500,40,10)。對(duì)所有維度分別進(jìn)行處理,使得各個(gè)維度分別滿足標(biāo)準(zhǔn)正態(tài)分布。

如果將方差的倒數(shù)看成是一個(gè)權(quán)重,這個(gè)公式可以看成是一種加權(quán)歐氏距離(WeightedEuclideandistance)。標(biāo)準(zhǔn)化歐氏距離4.3.2聚類分析無(wú)量綱化標(biāo)準(zhǔn)化歸一化使不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格標(biāo)準(zhǔn)化:對(duì)不同特征維度的伸縮變換的目的是使得不同度量之間的特征具有可比性。同時(shí)不改變?cè)紨?shù)據(jù)的分布。特點(diǎn):1、保持各個(gè)特征維度對(duì)目標(biāo)函數(shù)的影響權(quán)重

2、對(duì)目標(biāo)函數(shù)的影響體現(xiàn)在幾何分布上

3、在已有樣本足夠多的情況下比較穩(wěn)定。歸一化(區(qū)間縮放):基于邊界值(最大值,最小值),將值的區(qū)間縮放到某個(gè)特點(diǎn)的范圍,如[0,1]

特點(diǎn):1、對(duì)不同特征維度進(jìn)行伸縮變換

2、改變?cè)紨?shù)據(jù)的分布。使各個(gè)特征維度對(duì)目標(biāo)函數(shù)的影響權(quán)重是一致的)

3、對(duì)目標(biāo)函數(shù)的影響體現(xiàn)在數(shù)值上

4、把有量綱表達(dá)式變?yōu)闊o(wú)量綱表達(dá)式。列行4.3.2聚類分析馬式距離若協(xié)方差矩陣是單位矩陣(各個(gè)樣本向量之間獨(dú)立同分布),則公式就成了:則Xi與Xj之間的馬氏距離等于他們的歐氏距離。即:若協(xié)方差矩陣是對(duì)角矩陣,公式變成了標(biāo)準(zhǔn)化歐氏距離。標(biāo)準(zhǔn)化歐氏距離是在假設(shè)數(shù)據(jù)各個(gè)維度不相關(guān)的情況下,利用數(shù)據(jù)分布的特性計(jì)算出不同的距離。如果維度相互之間數(shù)據(jù)相關(guān)(例如:身高較高的信息很有可能會(huì)帶來(lái)體重較重的信息,因?yàn)閮烧呤怯嘘P(guān)聯(lián)的),就要用到馬氏距離4.3.2聚類分析相似度度量

相似度度量(Similarity),即計(jì)算個(gè)體間的相似程度,與距離度量相反,相似度度量的值越小,說(shuō)明個(gè)體間相似度越小,差異越大。4.3.2聚類分析兩個(gè)向量越相似,向量夾角越小,余弦值的絕對(duì)值越大;值為負(fù),兩向量負(fù)相關(guān)。應(yīng)用:文本的相似度和推薦系統(tǒng)等。余弦相似度4.3.2聚類分析舉個(gè)簡(jiǎn)單例子:句子A:這只皮靴號(hào)碼大了。那只號(hào)碼合適句子B:這只皮靴號(hào)碼不小,那只更合適怎樣計(jì)算上面兩句話的相似程度?基本思路:如果這兩句話的用詞越相似,它們的內(nèi)容就應(yīng)該越相似。因此,可以從詞頻入手,計(jì)算它們的相似程度。第一步,分詞。句子A:這只/皮靴/號(hào)碼/大了。那只/號(hào)碼/合適。句子B:這只/皮靴/號(hào)碼/不/小,那只/更/合適。第二步,列出所有的詞。這只,皮靴,號(hào)碼,大了。那只,合適,不,小,很4.3.2聚類分析第三步,計(jì)算詞頻。句子A:這只1,皮靴1,號(hào)碼2,大了1。那只1,合適1,不0,小0,更0句子B:這只1,皮靴1,號(hào)碼1,大了0。那只1,合適1,不1,小1,更1第四步,寫(xiě)出詞頻向量。

句子A:(1,1,2,1,1,1,0,0,0)句子B:(1,1,1,0,1,1,1,1,1)第五步,使用公式計(jì)算相似度

計(jì)算結(jié)果:夾角的余弦值為0.81,非常接近于1,所以,上面的句子A和句子B是基本相似的4.3.2聚類分析pearson是一個(gè)介于-1和1之間的值,用來(lái)描述兩組線性的數(shù)據(jù)一同變化移動(dòng)的趨勢(shì)。相關(guān)系數(shù)>0,表明它們之間是正相關(guān)的。即當(dāng)一個(gè)變量增大,另一個(gè)變量也增大;相關(guān)系數(shù)<0,表明它們之間是負(fù)相關(guān)的,如果一個(gè)變量增大,另一個(gè)變量卻減小,;如果相關(guān)系數(shù)=0,表明它們之間不存在線性相關(guān)關(guān)系。皮爾森相關(guān)系數(shù)上面是總體相關(guān)系數(shù),估算樣本的協(xié)方差和標(biāo)準(zhǔn)差,可得到樣本相關(guān)系數(shù)(樣本皮爾遜系數(shù)),常用英文小寫(xiě)字母r代表:

4.3.2聚類分析Jaccard相似系數(shù)(JaccardCoefficient)Jaccard系數(shù)主要用于計(jì)算符號(hào)度量或布爾值度量的個(gè)體間的相似度,因?yàn)閭€(gè)體的特征屬性都是由符號(hào)度量或者布爾值標(biāo)識(shí),因此無(wú)法衡量差異具體值的大小,只能獲得“是否相同”這個(gè)結(jié)果,所以Jaccard系數(shù)只關(guān)心個(gè)體間共同具有的特征是否一致這個(gè)問(wèn)題。如果比較X與Y的Jaccard相似系數(shù),只比較xn和yn中相同的個(gè)數(shù),公式如下:4.3.2聚類分析2.聚類方法(1)基于層次的聚類方法

通過(guò)將數(shù)據(jù)組織為若干組并形成一個(gè)相應(yīng)的樹(shù)來(lái)進(jìn)行聚類的。層次聚類算法分裂的層次聚類凝聚的層次聚類自底向上自頂向下4.3.2聚類分析

采用自底向上的策略,首先將每個(gè)對(duì)象作為一個(gè)簇,然后合并這些原子簇為越來(lái)越大的簇,直到所有的對(duì)象都在一個(gè)簇中,或者某個(gè)終結(jié)條件被達(dá)到要求。大部分的層次聚類方法都屬于一類,它們?cè)诖亻g的相似度的定義有點(diǎn)不一樣。凝聚的層次聚類分裂的層次聚類

采用自頂向下的策略,它首先將所有對(duì)象放在一個(gè)簇中,然后慢慢地細(xì)分為越來(lái)越小的簇,直到每個(gè)對(duì)象自行形成一簇,或者直達(dá)滿足其他的一個(gè)終結(jié)條件,例如滿足了某個(gè)期望的簇?cái)?shù)目,又或者兩個(gè)最近的簇之間的距離達(dá)到了某一個(gè)閾值。(2)基于距離度量的方法1)單連鎖(SingleLinkage),又稱最近鄰(NearestNeighbor)方法。指兩個(gè)不一樣的簇之間任意兩點(diǎn)之間的最近距離。這里的距離是表示兩點(diǎn)之間的相異度,所以距離越近,兩個(gè)簇相似度越大。4.3.2聚類分析在凝聚和分裂的層次聚類之間,依據(jù)計(jì)算簇間的距離的不同,分為下面的幾類方法:

這種方法最善于處理非橢圓結(jié)構(gòu)。卻對(duì)于噪聲和孤立點(diǎn)特別的敏感,取出距離很遠(yuǎn)的兩個(gè)類之中出現(xiàn)一個(gè)孤立點(diǎn)時(shí),這個(gè)點(diǎn)就很有可能把兩類合并在一起。4.3.2聚類分析2)全連鎖(CompleteLinkage),又稱最遠(yuǎn)鄰(FurthestNeighbor)方法。指兩個(gè)不一樣的簇中任意的兩點(diǎn)之間的最遠(yuǎn)的距離。它面對(duì)噪聲和孤立點(diǎn)很不敏感,趨向于尋求某一些緊湊的分類,但是,有可能使比較大的簇破裂。3)組平均方法(GroupAverageLinkage),定義距離為數(shù)據(jù)兩兩距離的平均值。4.3.2聚類分析

其中是兩個(gè)類,為對(duì)象和之間的距離,分別為的對(duì)象個(gè)數(shù)。這個(gè)方法傾向于合并差異小的兩個(gè)類,產(chǎn)生的聚類具有相對(duì)的魯棒性。4)平均值方法(CentroidLinkage),先計(jì)算各個(gè)類的平均值,然后定義平均值之差為兩類的距離。4.3.2聚類分析

其中是兩個(gè)類,為對(duì)象和之間的距離,分別為的對(duì)象個(gè)數(shù),分別為類的平均值。4.3.2聚類分析(3)基于劃分的聚類方法

給定數(shù)據(jù)集其中zp是Nd維特征空間中的一個(gè)特征向量,而Np是特征空間Z中特征向量的個(gè)數(shù),以及數(shù)目K的即將生成的簇,一個(gè)劃分類的算法將對(duì)象分為K個(gè)劃分,其中,這里的每個(gè)劃分分別代表一個(gè)簇,并且K≤Np。其中的K需要人為指定。K-means

核心思想:以空間中K個(gè)點(diǎn)為中心進(jìn)行聚類,即K類:,對(duì)最靠近他們的對(duì)象歸類。通過(guò)迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。該算法的迭代的終止條件是直至中心點(diǎn)收斂。4.3.2聚類分析需要優(yōu)化的目標(biāo)函數(shù):其中隸屬函數(shù)和權(quán)重分別定義為:為聚類中心,

4.3.2聚類分析流程b圖,紅叉和藍(lán)叉為初始聚類中心,c圖,根據(jù)樣本到初始聚類中心的距離對(duì)樣本分類,d圖,根據(jù)分類后的樣本,得到新的聚類中心,這個(gè)新的聚類中心由各類樣本的中心(橫縱坐標(biāo)的平均值)確定。e圖是重復(fù)c圖的步驟,對(duì)樣本再次分類,f圖是重復(fù)d圖的步驟,劃分新的聚類中心,不斷重復(fù)這兩個(gè)步驟直到滿足某個(gè)終止條件。4.3.2聚類分析流程給定一組輸入數(shù)據(jù){x(1),x(2),...,x(n)}和預(yù)分類數(shù)k,算法如下:首先隨機(jī)指定k個(gè)類的中心μ1~μk,然后迭代地更新該centroid。其中,C(i)表示第i個(gè)數(shù)據(jù)離那個(gè)類中心最近,也就是將其判定為屬于那個(gè)類,然后將這k各類的中心分別更新為所有屬于這個(gè)類的數(shù)據(jù)的平均值。4.3.2聚類分析流程4.3.2聚類分析流程4.3.2聚類分析流程4.3.2聚類分析流程4.重復(fù)2~3直到K個(gè)簇的質(zhì)心點(diǎn)不再發(fā)生變化或準(zhǔn)則函數(shù)收斂例構(gòu)造了一個(gè)二維的數(shù)據(jù)集,并劃分為2個(gè)類別,選取O1和O5為兩個(gè)初始簇心4.3.2聚類分析OXY1112223344445554.3.2聚類分析然后計(jì)算剩余的每條記錄,根據(jù)其與各個(gè)簇中心的距離將它劃分給最近的簇:對(duì)于:所以因?yàn)椋赃@條記錄分給了類,4.3.2聚類分析對(duì)于:因?yàn)?,所以這條記錄分給了類對(duì)于:4.3.2聚類分析因?yàn)?/p>

,所以這條記錄分給了類,因此我們得到了一個(gè)新的分類簇4.3.2聚類分析然后計(jì)算平方誤差:所以總體的平均方差是:這一輪結(jié)束,然后我們?cè)俚淮?.3.2聚類分析計(jì)算新的簇心:然后我們重復(fù)上面計(jì)算距離的步驟;得到將和分給,,和分給了得到:4.3.2聚類分析計(jì)算平方誤差:所以總體的平均方差是:從第一次迭代后總體平均誤由:9~2.3467,大幅度的得到了減少,然后再計(jì)算簇心:4.3.2聚類分析由于簇心未發(fā)生變化,迭代停止;這就是我們常用的聚類算法K-MEANS4.3.2聚類分析習(xí)題:亞洲15只球隊(duì)在2005年-2010年間大型杯賽的戰(zhàn)績(jī),并且對(duì)數(shù)據(jù)進(jìn)行[0,1]規(guī)格化用k-means算法進(jìn)行聚類。設(shè)k=3,即將這15支球隊(duì)分成三個(gè)集團(tuán)。現(xiàn)抽取日本、巴林和泰國(guó)的值作為三個(gè)簇的簇心,以歐氏距離進(jìn)行度量,進(jìn)行聚類。

分類問(wèn)題4.3.3貝葉斯分類器4.3.3貝葉斯分類器知識(shí)回顧貝葉斯知識(shí)4.3.3貝葉斯分類器1.樣本空間的劃分4.3.3貝葉斯分類器2.全概率公式全概率公式4.3.3貝葉斯分類器圖示證明化整為零各個(gè)擊破4.3.3貝葉斯分類器說(shuō)明

全概率公式的主要用途在于它可以將一個(gè)復(fù)雜事件的概率計(jì)算問(wèn)題,分解為若干個(gè)簡(jiǎn)單事件的概率計(jì)算問(wèn)題,最后應(yīng)用概率的可加性求出最終結(jié)果.4.3.3貝葉斯分類器稱此為貝葉斯公式.

3.貝葉斯公式4.3.3貝葉斯分類器證明條件概率的概念乘法定理:4.3.3貝葉斯分類器由以往的數(shù)據(jù)分析得到的概率,叫做先驗(yàn)概率.而在得到信息之后再重新加以修正的概率叫做后驗(yàn)概率.先驗(yàn)概率與后驗(yàn)概率4.3.3貝葉斯分類器簡(jiǎn)單的說(shuō),貝葉斯定理是基于假設(shè)的先驗(yàn)概率、給定假設(shè)下觀察到不同數(shù)據(jù)的概率,提供了一種計(jì)算后驗(yàn)概率的方法。在人工智能領(lǐng)域,貝葉斯方法是一種非常具有代表性的不確定性知識(shí)表示和推理方法。貝葉斯理論4.3.3貝葉斯分類器貝葉斯定理:P(A)是A的先驗(yàn)概率或邊緣概率。之所以稱為“先驗(yàn)”是因?yàn)樗豢紤]任何B方面的因素。P(A|B)是已知B發(fā)生后A的條件概率,也由于得自B的取值而被稱作A的后驗(yàn)概率。P(B|A)是已知A發(fā)生后B的條件概率,也由于得自A的取值而被稱作B的后驗(yàn)概率。P(B)是B的先驗(yàn)概率或邊緣概率,也作標(biāo)準(zhǔn)化常量(normalizedconstant).4.3.3貝葉斯分類器貝葉斯公式在概率論方面的貝葉斯公式是在乘法公式和全概率公式的基礎(chǔ)上推導(dǎo)出來(lái)的,它是指設(shè)是樣本空間的一個(gè)分割,即互不相容,且,如果,則這就是貝葉斯公式,為后驗(yàn)概率,為先驗(yàn)概率,一般是已知先驗(yàn)概率來(lái)求后驗(yàn)概率,貝葉斯定理提供了”預(yù)測(cè)”的實(shí)用模型,即已知某事實(shí),預(yù)測(cè)另一個(gè)事實(shí)發(fā)生的可能性大小。

貝葉斯分類器是一種比較有潛力的數(shù)據(jù)挖掘工具,它本質(zhì)上是一種利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法。4.3.3貝葉斯分類器4.3.3貝葉斯分類器機(jī)器學(xué)習(xí)中的貝葉斯公式為:1.機(jī)器學(xué)習(xí)中的貝葉斯法則c表示的是隨機(jī)事件發(fā)生的一種情況。x表示的就是證據(jù)(evidence)\狀況(condition),泛指與隨機(jī)事件相關(guān)的因素。P(c|x):在x的條件下,隨機(jī)事件出現(xiàn)c情況的概率。(后驗(yàn)概率)P(c):(不考慮相關(guān)因素)隨機(jī)事件出現(xiàn)c情況的概率。(先驗(yàn)概率)P(x|c):在已知事件出現(xiàn)c情況的條件下,條件x出現(xiàn)的概率。(后驗(yàn)概率)P(x):x出現(xiàn)的概率。(先驗(yàn)概率)4.3.3貝葉斯分類器學(xué)習(xí)器考慮候選假設(shè)集合H并在其中尋找給定數(shù)據(jù)D時(shí)可能性最大的假設(shè),稱為MAP假設(shè),記為hMAP,則4.3.3貝葉斯分類器

貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡(luò)。貝葉斯分類器的優(yōu)勢(shì)不僅僅在于高分類準(zhǔn)確率,更重要的是,它會(huì)通過(guò)訓(xùn)練集學(xué)習(xí)一個(gè)因果關(guān)系圖(貝葉斯網(wǎng)絡(luò))。在面對(duì)未知問(wèn)題的情況下,可以從該因果關(guān)系圖入手分析,而貝葉斯分類器此時(shí)充當(dāng)?shù)氖且环N輔助分析問(wèn)題領(lǐng)域的工具。2.貝葉斯網(wǎng)絡(luò)

貝葉斯網(wǎng)是一個(gè)帶有概率注釋的有向無(wú)環(huán)圖(DirectedAcyclicGraph,DAG),圖中的每一個(gè)結(jié)點(diǎn)均表示一個(gè)隨機(jī)變量(類別和特征),圖中兩結(jié)點(diǎn)間若存在著一條弧,則表示這兩結(jié)點(diǎn)相對(duì)應(yīng)的隨機(jī)變量是概率相依的,反之則說(shuō)明這兩個(gè)隨機(jī)變量是條件獨(dú)立的。網(wǎng)絡(luò)中任意一個(gè)結(jié)點(diǎn)X均有一個(gè)相應(yīng)的條件概率表(ConditionalProbabilityTable,CPT),用以表示結(jié)點(diǎn)X在其父結(jié)點(diǎn)取各可能值時(shí)的條件概率。若結(jié)點(diǎn)X無(wú)父結(jié)點(diǎn),則X的CPT為其先驗(yàn)概率分布。貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)及各結(jié)點(diǎn)的CPT定義了網(wǎng)絡(luò)中各變量的概率分布。4.3.3貝葉斯分類器概念:4.3.3貝葉斯分類器

貝葉斯網(wǎng)絡(luò)有一條極為重要的性質(zhì),就是我們斷言每一個(gè)節(jié)點(diǎn)在其直接前驅(qū)節(jié)點(diǎn)的值制定后,這個(gè)節(jié)點(diǎn)條件獨(dú)立于其所有非直接前驅(qū)前輩節(jié)點(diǎn)。貝葉斯網(wǎng)絡(luò)是模擬人的認(rèn)知思維推理模式,用一組條件概率函數(shù)以及有向無(wú)環(huán)圖對(duì)不確定性的因果推理關(guān)系建模,因此其具有更高的實(shí)用價(jià)值。性質(zhì):4.3.3貝葉斯分類器構(gòu)造與訓(xùn)練貝葉斯網(wǎng)絡(luò):確定隨機(jī)變量間的拓?fù)潢P(guān)系,形成DAG12訓(xùn)練貝葉斯網(wǎng)絡(luò)4.3.3貝葉斯分類器例檢測(cè)某網(wǎng)絡(luò)社區(qū)中的不真實(shí)賬號(hào),我們的模型中存在四個(gè)隨機(jī)變量:賬號(hào)真實(shí)性R,頭像真實(shí)性H,日志密度L,好友密度F。其中H,L,F(xiàn)是可以觀察到的值,而我們最關(guān)系的R是無(wú)法直接觀察的。這個(gè)問(wèn)題就劃歸為通過(guò)H,L,F(xiàn)的觀察值對(duì)R進(jìn)行概率推理4.3.3貝葉斯分類器推理過(guò)程如下:1)形成DAG:

如圖所示,每個(gè)節(jié)點(diǎn)代表一個(gè)隨機(jī)變量,而弧則表示兩個(gè)隨機(jī)變量之間的聯(lián)系,表示指向結(jié)點(diǎn)影響被指向結(jié)點(diǎn)。不過(guò)僅有這個(gè)圖的話,只能定性給出隨機(jī)變量間的關(guān)系,如果要定量,還需要一些數(shù)據(jù),這些數(shù)據(jù)就是每個(gè)節(jié)點(diǎn)對(duì)其直接前驅(qū)節(jié)點(diǎn)的條件概率,而沒(méi)有前驅(qū)節(jié)點(diǎn)的節(jié)點(diǎn)則使用先驗(yàn)概率表示。4.3.3貝葉斯分類器4.3.3貝葉斯分類器假設(shè)通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集的統(tǒng)計(jì),得到下表(R表示賬號(hào)真實(shí)性,H表示頭像真實(shí)性):R=0R=10.110.89表1賬號(hào)真實(shí)性

H=0H=1R=00.90.1R=10.20.8表2頭像真實(shí)性與賬號(hào)真實(shí)性的關(guān)系

有了這些數(shù)據(jù),不但能順向推斷,還能通過(guò)貝葉斯定理進(jìn)行逆向推斷。例如,現(xiàn)隨機(jī)抽取一個(gè)賬戶,已知其頭像為假,求其賬號(hào)也為假的概率:4.3.3貝葉斯分類器

也就是說(shuō),在僅知道頭像為假的情況下,有大約35.7%的概率此賬戶也為假。如果給出所有節(jié)點(diǎn)的條件概率表,則可以在觀察值不完備的情況下對(duì)任意隨機(jī)變量進(jìn)行統(tǒng)計(jì)推斷。上述方法就是使用了貝葉斯網(wǎng)絡(luò)。4.3.3貝葉斯分類器4.貝葉斯分類器

貝葉斯分類器是用于分類的貝葉斯網(wǎng)絡(luò)。該網(wǎng)絡(luò)中應(yīng)包含類結(jié)點(diǎn)C,其中C的取值來(lái)自于類集合(c1,c2,...cm),還包含一組結(jié)點(diǎn)X=(X1,X2,...Xn),表示用于分類的特征。

對(duì)于貝葉斯網(wǎng)絡(luò)分類器,若某一待分類的樣本D,其分類特征值為x=(x1,x2,...,xm)則樣本D屬于類別的概率應(yīng)滿足:4.3.3貝葉斯分類器根據(jù)貝葉斯公式:葉斯網(wǎng)絡(luò)分類器的學(xué)習(xí)貝葉斯網(wǎng)絡(luò)分類器的推理從樣本數(shù)據(jù)中構(gòu)造分類器計(jì)算類結(jié)點(diǎn)的條件概率,對(duì)分類數(shù)據(jù)進(jìn)行分類4.3.3貝葉斯分類器例某個(gè)醫(yī)院早上收了六個(gè)門診病人,如下表癥狀職業(yè)疾病打噴嚏護(hù)士感冒打噴嚏農(nóng)夫過(guò)敏頭痛建筑工人腦震蕩頭痛建筑工人感冒打噴嚏教師感冒頭痛教師腦震蕩表3病人記錄數(shù)據(jù)表現(xiàn)在又來(lái)了第七個(gè)病人,是一個(gè)打噴嚏的建筑工人。請(qǐng)問(wèn)他患上感冒的概率有多大?4.3.3貝葉斯分類器解根據(jù)貝葉斯定理:

假定"打噴嚏"和"建筑工人"這兩個(gè)特征是獨(dú)立的,因此,上面的等式就變成了

可得:P(感冒|打噴嚏x建筑工人)=P(打噴嚏x建筑工人|感冒)xP(感冒)/P(打噴嚏x建筑工人)4.3.3貝葉斯分類器上式是可以計(jì)算的,即

P(感冒|打噴嚏x建筑工人)=0.66x0.33x0.5/(0.5x0.33)=0.66P(感冒|打噴嚏x建筑工人)=P(打噴嚏|感冒)xP(建筑工人|感冒)xP(感冒)/(P(打噴嚏)xP(建筑工人))因此,這個(gè)打噴嚏的建筑工人,有66%的概率是得了感冒。同理,可以計(jì)算這個(gè)病人患上過(guò)敏或腦震蕩的概率。比較這幾個(gè)概率,就可以知道他最可能得什么病。4.3.3貝葉斯分類器這就是貝葉斯分類器的基本方法:在統(tǒng)計(jì)資料的基礎(chǔ)上,依據(jù)某些特征,計(jì)算各個(gè)類別的概率,從而實(shí)現(xiàn)分類。假設(shè)某個(gè)體有n項(xiàng)特征(Feature),分別為F1、F2、...、Fn?,F(xiàn)有m個(gè)類別(Category),分別為C1、C2、...、Cm。貝葉斯分類器就是計(jì)算出概率最大的那個(gè)分類,也就是求下面這個(gè)算式的最大值:由于P(F1F2...Fn)對(duì)于所有的類別都是相同的,可以省略,問(wèn)題就變成了求P(F1F2...Fn|C)P(C)的最大值。4.3.3貝葉斯分類器5.樸素貝葉斯分類器

樸素貝葉斯分類器則是更進(jìn)一步,假設(shè)所有特征都彼此獨(dú)立,因此上式等號(hào)右邊的每一項(xiàng),都可以從統(tǒng)計(jì)資料中得到,由此就可以計(jì)算出每個(gè)類別對(duì)應(yīng)的概率,從而找出最大概率的那個(gè)類。雖然"所有特征彼此獨(dú)立"這個(gè)假設(shè),在現(xiàn)實(shí)中不太可能成立,但是它可以大大簡(jiǎn)化計(jì)算,而且有研究表明對(duì)分類結(jié)果的準(zhǔn)確性影響不大。4.3.3貝葉斯分類器4.3.3貝葉斯分類器例根據(jù)某社區(qū)網(wǎng)站的抽樣統(tǒng)計(jì),該站10000個(gè)賬號(hào)中有89%為真實(shí)賬號(hào)(設(shè)為C0),11%為虛假賬號(hào)(設(shè)為C1)。C0=0.89C1=0.11假定某一個(gè)賬號(hào)有以下三個(gè)特征:F1:日志數(shù)量/注冊(cè)天數(shù)F2:好友數(shù)量/注冊(cè)天數(shù)F3:是否使用真實(shí)頭像(真實(shí)頭像為1,非真實(shí)頭像為0)F1=0.1F2=0.2F3=0請(qǐng)問(wèn)該賬號(hào)是真實(shí)賬號(hào)還是虛假賬號(hào)?4.3.3貝葉斯分類器利用樸素貝葉斯分類器,計(jì)算下面這個(gè)計(jì)算式的值。

雖然上面這些值可以從統(tǒng)計(jì)資料得到,但是這里有一個(gè)問(wèn)題:F1和F2是連續(xù)變量,不適宜按照某個(gè)特定值計(jì)算概率。一個(gè)技巧是將連續(xù)值變?yōu)殡x散值,計(jì)算區(qū)間的概率。比如將F1分解成[0,0.05]、(0.05,0.2)、[0.2,+∞]三個(gè)區(qū)間,然后計(jì)算每個(gè)區(qū)間的概率。在本例中,F(xiàn)1等于0.1,落在第二個(gè)區(qū)間,所以計(jì)算的時(shí)候,就使用第二個(gè)區(qū)間的發(fā)生概率。4.3.3貝葉斯分類器解根據(jù)統(tǒng)計(jì)資料,可得:

因此,可以看到,雖然這個(gè)用戶沒(méi)有使用真實(shí)頭像,但是他是真實(shí)賬號(hào)的概率,比虛假賬號(hào)高出30多倍,因此判斷這個(gè)賬號(hào)為真。4.3.3貝葉斯分類器例下表是一組人類身體特征的統(tǒng)計(jì)資料性別身高(英尺)體重(磅)腳掌(英寸)男618012男5.9219011男5.5817012男5.9216510女51006女5.51508女5.421307女5.751509表4人類身體特征統(tǒng)計(jì)表已知某人身高6英尺、體重130磅,腳掌8英寸,請(qǐng)問(wèn)該人是男是女?4.3.3貝葉斯分類器根據(jù)樸素貝葉斯分類器,計(jì)算下面這個(gè)式子的值。P(身高|性別)xP(體重|性別)xP(腳掌|性別)xP(性別)這里的困難在于,由于身高、體重、腳掌都是連續(xù)變量,不能采用離散變量的方法計(jì)算概率。而且由于樣本太少,所以也無(wú)法分成區(qū)間計(jì)算。怎么辦?4.3.3貝葉斯分類器

這時(shí),可以假設(shè)男性和女性的身高、體重、腳掌都是正態(tài)分布,通過(guò)樣本計(jì)算出均值和方差,也就是得到正態(tài)分布的密度函數(shù)。有了密度函數(shù),就可以把值代入,算出某一點(diǎn)的密度函數(shù)的值。比如,男性的身高是均值5.855、方差0.035的正態(tài)分布。所以,男性的身高為6英尺的概率的相對(duì)值等于1.5789(大于1并沒(méi)有關(guān)系,因?yàn)檫@里是密度函數(shù)的值,只用來(lái)反映各個(gè)值的相對(duì)可能性)。4.3.3貝葉斯分類器有了上述數(shù)據(jù)以后,就可以計(jì)算性別的分類了。解P(身高=6|男)xP(體重=130|男)xP(腳掌=8|男)xP(男)=6.1984xe-9P(身高=6|女)xP(體重=130|女)xP(腳掌=8|女)xP(女)=5.3778xe-4可以看到,女性的概率比男性要高出將近10000倍,所以判斷該人為女性。4.3.3貝葉斯分類器例題:today=(Sunny,Hot,Normal,False)4.3.3貝葉斯分類器4.3.4決策樹(shù)小Y和小M約好3點(diǎn)鐘在某個(gè)麥當(dāng)勞門口見(jiàn)面,但是小M是個(gè)不怎們守時(shí)的人。小Y決定采取一個(gè)策略解決他所擔(dān)憂的問(wèn)題。我現(xiàn)在出發(fā)合適么?我會(huì)不會(huì)又到了地點(diǎn)后,花上30分鐘去等他?4.3.4決策樹(shù)①采用知識(shí):我搜尋能夠解決這個(gè)問(wèn)題的知識(shí)。但很遺憾,沒(méi)有人會(huì)把如何等人這個(gè)問(wèn)題作為知識(shí)傳授,因此小Y不可能找到已有的知識(shí)能夠解決這個(gè)問(wèn)題。②詢問(wèn)他人:去詢問(wèn)他人獲得解決這個(gè)問(wèn)題的能力。但是同樣的,這個(gè)問(wèn)題沒(méi)有人能夠解答,因?yàn)榭赡軟](méi)人碰上跟小Y一樣的情況。③準(zhǔn)則法:?jiǎn)栕约旱膬?nèi)心,有否設(shè)立過(guò)什么準(zhǔn)則去面對(duì)這個(gè)問(wèn)題?例如,無(wú)論別人如何,都會(huì)守時(shí)到達(dá)。但小Y不是個(gè)死板的人,他沒(méi)有設(shè)立過(guò)這樣的規(guī)則。4.3.4決策樹(shù)小Y把過(guò)往跟小M相約的經(jīng)歷在腦海中重現(xiàn)一下,看看跟他相約的次數(shù)中,遲到占了多大的比例。來(lái)預(yù)測(cè)他這次遲到的可能性。如果這個(gè)值超出了我心里的某個(gè)界限,那我選擇等一會(huì)再出發(fā)。假設(shè)我跟小M約過(guò)5次,他遲到的次數(shù)是1次,那么他按時(shí)到的比例為80%,我心中的閾值為70%,我認(rèn)為這次小M應(yīng)該不會(huì)遲到,因此我按時(shí)出門。如果小M在5次遲到的次數(shù)中占了4次,也就是他按時(shí)到達(dá)的比例為20%,由于這個(gè)值低于我的閾值,因此我選擇推遲出門的時(shí)間。4.3.4決策樹(shù)

這樣的圖就是一個(gè)最簡(jiǎn)單的機(jī)器學(xué)習(xí)模型,稱之為決策樹(shù)。決策樹(shù)是一種通過(guò)對(duì)歷史數(shù)據(jù)進(jìn)行測(cè)算實(shí)現(xiàn)對(duì)新數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)的算法。簡(jiǎn)單來(lái)說(shuō)決策樹(shù)算法就是通過(guò)對(duì)已有明確結(jié)果的歷史數(shù)據(jù)進(jìn)行分析,尋找數(shù)據(jù)中的特征。并以此為依據(jù)對(duì)新產(chǎn)生的數(shù)據(jù)結(jié)果進(jìn)行預(yù)測(cè)。決策樹(shù)由3個(gè)主要部分組成,分別為決策節(jié)點(diǎn),分支和葉子節(jié)點(diǎn)。其中決策樹(shù)最頂部的決策節(jié)點(diǎn)是根決策節(jié)點(diǎn)。每一個(gè)分支都有一個(gè)新的決策節(jié)點(diǎn)。決策節(jié)點(diǎn)下面是葉子節(jié)點(diǎn)。每個(gè)決策節(jié)點(diǎn)表示一個(gè)待分類的數(shù)據(jù)類別或?qū)傩?,每個(gè)葉子節(jié)點(diǎn)表示一種結(jié)果。整個(gè)決策的過(guò)程從根決策節(jié)點(diǎn)開(kāi)始,從上到下。根據(jù)數(shù)據(jù)的分類在每個(gè)決策節(jié)點(diǎn)給出不同的結(jié)果。決策樹(shù)定義4.3.4決策樹(shù)在學(xué)習(xí)過(guò)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論