Hadoop數(shù)據(jù)挖掘工具M(jìn)ahout_第1頁(yè)
Hadoop數(shù)據(jù)挖掘工具M(jìn)ahout_第2頁(yè)
Hadoop數(shù)據(jù)挖掘工具M(jìn)ahout_第3頁(yè)
Hadoop數(shù)據(jù)挖掘工具M(jìn)ahout_第4頁(yè)
Hadoop數(shù)據(jù)挖掘工具M(jìn)ahout_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Hadoop數(shù)據(jù)挖掘工具M(jìn)ahout,Mahout簡(jiǎn)介 數(shù)據(jù)挖掘基礎(chǔ),課程目標(biāo),Mahout,數(shù)據(jù)金字塔,數(shù)據(jù)統(tǒng)計(jì)分析,數(shù)據(jù)挖掘,數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí) 數(shù)據(jù)挖掘思想來(lái)源:假設(shè)檢驗(yàn),模式識(shí)別,人工智能,機(jī)器學(xué)習(xí) 數(shù)據(jù)挖掘涉及多學(xué)科技術(shù)的集成,包括數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)、機(jī)器學(xué)習(xí)、高性能計(jì)算、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息提取、圖象與信號(hào)處理和空間數(shù)據(jù)分析,數(shù)據(jù)挖掘系統(tǒng)的組成,數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、或其它信息庫(kù) 數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器 知識(shí)庫(kù) 數(shù)據(jù)挖掘引擎 模式評(píng)估模塊 圖形用戶界面,數(shù)據(jù)挖掘常用方法,數(shù)據(jù)挖掘任務(wù)可以分兩類: 描述和預(yù)測(cè) 特征分析 從數(shù)據(jù)庫(kù)中的一組數(shù)據(jù)中提取出關(guān)于

2、這些數(shù)據(jù)的特征式,這些特征式表達(dá)了該數(shù)據(jù)集的總體特征 關(guān)聯(lián)規(guī)則 描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間所存在的關(guān)系的規(guī)則 變化和偏差分析 偏差分析是探測(cè)數(shù)據(jù)現(xiàn)狀、歷史記錄或標(biāo)準(zhǔn)之間的顯著變化和偏離 偏差包括很大一類潛在有趣的知識(shí),如分類中的反常實(shí)例,模式的例外,觀察結(jié)果對(duì)期望的偏差等 分類和預(yù)測(cè) 回歸分析 聚類,數(shù)據(jù)挖掘常用方法 數(shù)據(jù)分析工具 Mahout支持的算法,課程目標(biāo),回歸分析,回歸分析方法反映的是事務(wù)數(shù)據(jù)庫(kù)中屬性值在時(shí)間上的特征 步驟:確定變量-建立預(yù)測(cè)模型-進(jìn)行相關(guān)分析-計(jì)算預(yù)測(cè)誤差-確定預(yù)測(cè)值,分類器,找出數(shù)據(jù)庫(kù)中一組數(shù)據(jù)對(duì)象的共同特點(diǎn)并按照分類模式將其劃分為不同的類 分類預(yù)測(cè)的方法訓(xùn)練:訓(xùn)練集

3、特征選取訓(xùn)練分類器分類:新樣本特征選取分類判定 常用算法:決策樹、KNN法、SVM法、VSM法、Bayes法、神經(jīng)網(wǎng)絡(luò),聚類,把一組數(shù)據(jù)按照相似性和差異性分為幾個(gè)類別 常見(jiàn)算法:K-means聚類,K-medoid聚類、GMM、層次聚類等,聚類,GMM 將k個(gè)高斯模型混合在一起,每個(gè)點(diǎn)出現(xiàn)的概率是幾個(gè)高斯混合的結(jié)果,層次聚類,假設(shè)有N個(gè)待聚類的樣本,對(duì)于層次聚類來(lái)說(shuō),基本步驟就是: 1、(初始化)把每個(gè)樣本歸為一類,計(jì)算每?jī)蓚€(gè)類之間的距離,也就是樣本與樣本之間的相似度 2、尋找各個(gè)類之間最近的兩個(gè)類,把他們歸為一類(這樣類的總數(shù)就少了一個(gè)) 3、重新計(jì)算新生成的這個(gè)類與各個(gè)舊類之間的相似度 4

4、、重復(fù)2和3直到所有樣本點(diǎn)都?xì)w為一類,結(jié)束 整個(gè)聚類過(guò)程其實(shí)是建立了一棵樹,在建立的過(guò)程中,可以通過(guò)在第二步上設(shè)置一個(gè)閾值,當(dāng)最近的兩個(gè)類的距離大于這個(gè)閾值,則認(rèn)為迭代可以終止。,常用數(shù)據(jù)挖掘算法分類,數(shù)據(jù)分析工具 常見(jiàn)算法的Map-Reduce化 Mahout的起源和特點(diǎn),課程目標(biāo),頻繁模式挖掘,數(shù)據(jù)分析工具,常用傳統(tǒng)數(shù)據(jù)分析工具排行,傳統(tǒng)數(shù)據(jù)分析工具的困境,R,SAS,SPSS等典型應(yīng)用場(chǎng)景為實(shí)驗(yàn)室工具 處理數(shù)據(jù)量受限于內(nèi)存,因此無(wú)法處理海量數(shù)據(jù) 使用Oracle數(shù)據(jù)庫(kù)等處理海量數(shù)據(jù),但缺乏有效快速專業(yè)的分析功能 可以采用抽樣等方法,但有局限性,比如對(duì)于聚類,推薦系統(tǒng)則無(wú)法使用抽樣 解決方

5、向:Hadoop集群和Map-Reduce并行計(jì)算,常見(jiàn)算法的Map-Reduce化,常見(jiàn)算法的Map-Reduce化,Mahout起源,Apache Mahout起源于2008年,當(dāng)時(shí)是Apache Lucene的子項(xiàng)目 使用Hadoop庫(kù),可以將其功能有效地?cái)U(kuò)展到Apache Hadoop云平臺(tái) Apache Lucene是一個(gè)著名的開(kāi)源搜索引擎,實(shí)現(xiàn)了先進(jìn)的信息搜索、文本挖掘功能 一些Apache Lucene的開(kāi)發(fā)者最終轉(zhuǎn)而開(kāi)發(fā)機(jī)器學(xué)習(xí)算法,這些算法也就形成了最初的Apache Mahout Mahout不久又吸收了名為Taste的開(kāi)源協(xié)同過(guò)濾算法的項(xiàng)目 2010年4月Apache M

6、ahout最終成為Apache的頂級(jí)項(xiàng)目,Mahout特點(diǎn),Mahout的主要母的是實(shí)現(xiàn)針對(duì)大規(guī)模數(shù)據(jù)集的可伸縮的機(jī)器學(xué)習(xí)算法(就是算法的M-R化) Mahout的算法運(yùn)行在Hadoop平臺(tái)下,通過(guò)MapReduce模式實(shí)現(xiàn)。 但并不嚴(yán)格要求算法的實(shí)現(xiàn)基于Hadoop平臺(tái),單個(gè)節(jié)點(diǎn)或非Hadoop平臺(tái)也可以 目標(biāo)是幫助開(kāi)發(fā)人員快速建立具有機(jī)器智能的應(yīng)用程序 目前比較成熟和活躍的主要包括 聚類 分類 推薦引擎 頻繁項(xiàng)集的挖掘,Mahout算法集,Apache Mahout優(yōu)點(diǎn) Mahout安裝 Mahout測(cè)試,課程目標(biāo),Apache Mahout優(yōu)點(diǎn),技術(shù)社區(qū)活躍 良好的擴(kuò)展性和容錯(cuò)性 文檔化

7、好,實(shí)例豐富 100%源代碼開(kāi)源 易于使用,Mahout安裝,下載: ,上傳并解壓,Mahout安裝,環(huán)境變量配置,修改.bashrc,添加如下內(nèi)容:,使配置生效$ source .bashrc 幾個(gè)重要的環(huán)境變量JAVA_HOMEMAHOUT_JAVA_HOMEHADOOP_CONF_DIRMAHOUT_LOCALMAHOUT_CONF_DIRMAHOUT_HEAPSIZE,Mahout安裝,驗(yàn)證安裝,Mahout測(cè)試,下載測(cè)試數(shù)據(jù)$ wget /ml/databases/synthetic_control/synthetic_control.data 啟動(dòng)hadoop集群$ start-dfs.sh$ start-mapred.sh 上傳測(cè)試數(shù)據(jù)到HDFS$ hadoop fs -mkdir testdata$ hadoop fs -put synthetic_control.data testda

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論