




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實戰(zhàn)應(yīng)用大數(shù)據(jù)BIG DATA主編張燕張重生張志立副主編教授,清華大學(xué)博士?,F(xiàn)任南京大數(shù)據(jù)研究院院長、中國信息協(xié)會大數(shù)據(jù)分會副會長、中國大數(shù)據(jù)技術(shù)與應(yīng)用聯(lián)盟副理事長。主持完成科研項目25項,發(fā)表論文80余篇,出版專業(yè)書籍15本。獲部級科技進步二等獎4項、三等獎4項。主編的云計算被全國高校普遍采用,被引用量排名中國計算機圖書第一名。創(chuàng)辦了知名的中國云計算()和中國大數(shù)據(jù)()網(wǎng)站。曾率隊奪得2002 PennySort國際計算機排序比賽冠軍,兩次奪得全國高??萍急荣愖罡擢?,并三次奪得清華大學(xué)科技
2、比賽最高獎。榮獲“全軍十大學(xué)習(xí)成才標兵”(排名第一)、南京“十大杰出青年”、江蘇省中青年科學(xué)技術(shù)帶頭人、清華大學(xué)“學(xué)術(shù)新秀”等稱號。 全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實戰(zhàn)應(yīng)用4 .1 4 .2 4 .3 習(xí)題MahoutSparkMLlib其他數(shù)據(jù)挖掘工具of344第四章大數(shù)據(jù)挖掘工具4.1Mahoutu Mahout 簡介定義:Apache Mahout 是一個由Java語言實現(xiàn)的開源的可擴展的機器學(xué)習(xí)算法庫大數(shù)據(jù)配套PPT課件 2008年之前Apache Lucene開源搜索引擎的子項目實現(xiàn)Lucene框架中的聚類以及分類算法吸納協(xié)調(diào)過濾項目Taste成為獨立子項目 20
3、10年以后成為Apache頂級項目實現(xiàn)聚類、分類和協(xié)同過濾等機器學(xué)習(xí)算法既可以單機運行也可在Hadoop平臺上運行 驅(qū)象人of444目標:機器學(xué)習(xí)平臺,提供類似R的DSL以支持線性代數(shù)運算(如分布式向量計算)、大數(shù)據(jù)統(tǒng)計等基本功能發(fā)展歷史4.1Mahoutu Mahout在各平臺支持的機器學(xué)習(xí)算法大數(shù)據(jù)配套PPT課件of544算法單機MapReduceSparkH2O聚類算法Canopydeprecateddeprecatedk-meansxx模糊k-meansxx流k-meansxx譜聚類x分類算法邏輯回歸x樸素貝葉斯xx隨機森林x隱馬爾可夫模型x多層感知器x協(xié)同過濾算法基于用戶的協(xié)同過濾x
4、x基于物品的協(xié)同過濾xxx基于ALS的矩陣分解xx基于ALS的矩陣分解(隱式反饋)xx加權(quán)矩陣分解x降維算法奇異值分解xxxxLanczosdeprecateddeprecated隨機SVDxxxxPCAxxxxQR分解xxxx4.1Mahout大數(shù)據(jù)配套PPT課件4.1.1 Mahout安裝安裝環(huán)境:Linux操作系統(tǒng)(CentOS 6.5 )、 Hadoop平臺(Hadoop 2.5.1)鏡像網(wǎng)站/apache/mahout/of6443. 啟動并驗證Mahout2. 解壓并安裝Mahout1.下載Mahout安裝包4.1Mahout大數(shù)據(jù)配套
5、PPT課件4.1.2 聚類算法本節(jié)重點基于Mahout命令運行k-means算法K-means聚類算法基于MahoutAPI運行k-means算法基于輸入數(shù)據(jù)運行k-means算法of744無監(jiān)督學(xué)習(xí)算法同一個簇中對象具有高相似度Canopy、k-means、模糊k-means、流k-means和譜聚類等都是聚類算法4.1Mahoutu 基于Mahout命令運行k-means算法大數(shù)據(jù)配套PPT課件12個二維數(shù)據(jù)聚類中心坐標(1.5,10.5)(10.5,1.5 )(10.5,10.5 )3次迭代運行聚類算法以上述3個坐標為中心,半徑為(0.5,0.5), 生成3個聚類,每個聚類4個成員of8
6、441 101 112 102 1110 110 24.1Mahoutu 基于Mahout API運行k-means算法大數(shù)據(jù)配套PPT課件給出初始聚類中心of944調(diào)用Mahout API運行k-means聚類算法,指定Hadoop配置信息、輸入數(shù)據(jù)、初始聚類中心,迭代2次得到聚類結(jié)果1 1010 110 104.1Mahout大數(shù)據(jù)配套PPT課件u 基于輸入數(shù)據(jù)運行k-means算法60維數(shù)據(jù)樣本n 600條60維趨勢數(shù)據(jù)(600行60列)n 表達了正常、循環(huán)、漸增、漸減、向上偏移和向下偏移6類趨勢n 每類100條n 每類取一條做初始聚類中心n 運行KmeansDemo類n 將計算出的聚類
7、中心數(shù)據(jù)導(dǎo)入到Excel文件6個聚類中心所代表的趨勢曲線of10444.1Mahout大數(shù)據(jù)配套PPT課件4.1.3 分類算法垃圾郵件廣告點擊分類預(yù)測金融詐騙用電異常垃圾郵件檢測of1144有監(jiān)督學(xué)習(xí)算法考察已被分類的樣本數(shù)據(jù),學(xué)習(xí)訓(xùn)練分類規(guī)則進行輸入數(shù)據(jù)的類別判定4.1Mahoutu 邏輯回歸算法大數(shù)據(jù)配套PPT課件)可視化表達訓(xùn)練學(xué)習(xí)模型評估樣本數(shù)據(jù)分類模型正確分類of1244Mahout下基于隨機梯度下降(SGD)實現(xiàn)的邏輯回歸(Logistic Regression算法是一種二元分類算法,只能在單機上運行,適合分類算法的入門學(xué)習(xí)。4.1Mahoutu 樸素貝葉斯算法大數(shù)據(jù)配套PPT課件
8、of1344 共53條測試數(shù)據(jù) 正確分類51條 未正確分類2條新聞類別判定訓(xùn)練分類模型數(shù)據(jù)清洗新聞網(wǎng)頁數(shù)據(jù)4.1Mahout大數(shù)據(jù)配套PPT課件4.1.4 協(xié)同過濾算法 通過收集大量用戶(協(xié)同)的喜好信息,以自動預(yù)測(過濾)用戶感興趣的商品of1444通過矩陣分解進行預(yù)測基于ALS的矩陣分解算法協(xié)同過濾算法計算物品相似性矩陣基于物品的協(xié)同過濾算法4.1Mahoutu 基于物品的協(xié)同過濾算法大數(shù)據(jù)配套PPT課件空白處未評分用戶評分矩陣物品相似度物品相似性矩陣預(yù)測評分用戶評分矩陣(補入預(yù)測評分)of1544物品1物品2物品3物品4用戶15524.25用戶223.335用戶33.6754.143用戶
9、434.03.555物品1物品2物品3物品4物品10.250.660.5物品20.250.330.25物品30.660.330.25物品5物品1物品2物品3物品4用戶1552用戶2235用戶353用戶4354.1Mahoutu 基于物品的協(xié)同過濾算法實現(xiàn)代碼public class ItemCFDemo extends Configured implements Toolpublic static void main(String args) throws ExceptionToolRunner.run(new Configuration(), new ItemCFDem
10、o(), args);Overridepublic int run(String args) throws Exception Configuration conf = getConf();try FileSystem fs = FileSystem.get(conf); String dir=/itemcfdemo;if (!fs.exists(new Path(dir) System.err.println(Please make director/itemcfdemo);return 2;String input=dir+/input;if (!fs.exists(new Path(in
11、put) System.err.println(Please make director/itemcfdemo/input); return 2;String output=dir+/output; Path p = new Path(output);if (fs.exists(p) fs.delete(p, true);大數(shù)據(jù)配套PPT課件String temp=dir+/temp;Path p2 = new Path(temp); if (fs.exists(p2) fs.delete(p2, true);RecommenderJob recommenderJob = new Recomm
12、enderJob();recommenderJob.setConf(conf);recommenderJob.run(new String- input,input,-output,output,-tempDir,temp,-similarityClassname, TanimotoCoefficientSimilarity.class.getName(),-numRecommendations,4); catch (Exception e) e.printStackTrace();return 0;of16444.1Mahoutu 基于ALS的矩陣分解算法大數(shù)據(jù)配套PPT課件A=UMT用戶特
13、征矩陣U物品特征矩陣M預(yù)測評分矩陣A_kof1744預(yù)測評分矩陣A_k物品1物品2物品3物品4用戶14.7965.0091.9693.614用戶21.9651.9582.8464.795用戶32.7464.7131.3952.942用戶42.9303.2972.7444.785用戶評分矩陣M用戶評分矩陣U特征維度1特征維度2特征維度3物品11.811.620.74物品22.661.71-1.08物品31.73-0.230.78物品43.16-0.240.90用戶評分矩陣A特征維度1特征維度2特征維度3用戶11.121.490.48用戶21.31-0.520.59用戶31.130.67-0.52
14、用戶41.390.050.45 全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實戰(zhàn)應(yīng)用4 .1 4 .2 4 .3 習(xí)題MahoutSparkMLlib其他數(shù)據(jù)挖掘工具of1844第四章大數(shù)據(jù)挖掘工具4.2SparkMLlib大數(shù)據(jù)配套PPT課件運行在Spark平臺上專為在集群上并行運行而設(shè)計MLlibSpark內(nèi)存中更快地實現(xiàn)多次迭代,適用于大規(guī)模數(shù)據(jù)集MLlib支持的機器學(xué)習(xí)算法of1944離散型連續(xù)型有監(jiān)督的機器學(xué)習(xí)分 類 邏輯回歸支持向量機(SVM) 樸素貝葉斯決策樹 隨機森林梯度提升決策樹 (GBT)回 歸 線性回歸決 策 樹 隨機森林梯度提升決策樹 (GBT)保序回歸無監(jiān)督的機
15、器學(xué)習(xí)聚類k-means高斯混合快速迭代聚類(PIC)隱含狄利克雷分布(LDA) 二分k-means流k-means協(xié)同過濾、降維交替最小二乘(ALS) 奇異值分解(SVD) 主成分分析(PCA)4.2SparkMLlib大數(shù)據(jù)配套PPT課件4.2.1 聚類算法實現(xiàn)代碼import org.apache.spark.mllib.clustering.KMeans, KMeansModel import org.apache.spark.mllib.linalg.Vectors/ Load and parse the dataval data = sc.textFile(data/mllib/p
16、oints.txt) val parsedData = data.map(s =Vectors.dense(s.split(s+).map(_.toDouble).cache()/ Cluster the data into three classes using KMeans val k = 3val numIterations = 20val clusters = KMeans.train(parsedData, k, numIterations)for(c - clusters.clusterCenters) println(c)clusters.predict(Vectors.dens
17、e(10,10)/ Evaluate clustering by computing Within Set Sum of Squared Errors val WSSSE = puteCost(parsedData)println(Within Set Sum of Squared Errors = + WSSSE)輸出結(jié)果1.5,10.510.5,1.510.5,10.52Within Set Sum of Squared Errors = 6.000000000000057of2044與Mahout下的k-means聚類應(yīng)用相比,無論在代碼量、易用性及運行方式上,M
18、Llib都具有明顯的優(yōu)勢4.2SparkMLlib大數(shù)據(jù)配套PPT課件4.2.2 回歸算法 線性回歸最常用的算法之一,使用輸入值的線性組合來預(yù)測輸出值 類LinearRegressionWithSGDMLlib實現(xiàn)線性回歸算法的常用類之一, 基于隨機梯度下降實現(xiàn)線性回歸輸入數(shù)據(jù)of2144輸入函數(shù)y=0.5*x1+0.2*x2輸出結(jié)果weights: 0.5000000000539042,0.1999999999989402,intercept:0.0training Mean Squared Error = 9.576567731363342E-20回歸算法和分類算法都是有監(jiān)督的學(xué)習(xí),分類算
19、法預(yù)測的結(jié)果是離散的類別,而回歸算法預(yù)測的結(jié)果是連續(xù)的數(shù)值4.2SparkMLlib大數(shù)據(jù)配套PPT課件4.2.3 分類算法Vector(0 0 9) s label is 2.0Accuracy: 1.0輸出程序 Scala代碼 加載訓(xùn)練數(shù)據(jù)文件解析每行數(shù)據(jù)訓(xùn)練模型預(yù)測分類of22440,1 0 00,2 0 00,3 0 00,4 0 01,0 1 01,0 2 01,0 3 01,0 4 02,0 0 12,0 0 22,0 0 32,0 0 44.2SparkMLlib大數(shù)據(jù)配套PPT課件4.2.4 協(xié)同過濾算法 MLlib中支持的是基于模型的協(xié)同過濾,即交替最小二乘(ALS)算法依舊
20、以4.1.4節(jié)中用戶物品數(shù)據(jù)為例: 先加載了訓(xùn)練數(shù)據(jù)文件,然后解析每行數(shù)據(jù),并將其轉(zhuǎn)換為Rating對象 定義特征矩陣的維度rank和算法迭代次數(shù)numIterations 調(diào)用ALS的類方法train(),根據(jù)訓(xùn)練數(shù)據(jù)ratings學(xué)習(xí)出評分模型 調(diào)用recommendProductsForUsers()向用戶推薦指定個數(shù)的物品of2344 全國高校標準教材云計算姊妹篇,剖析大數(shù)據(jù)核心技術(shù)和實戰(zhàn)應(yīng)用4 .1 4 .2 4 .3 習(xí)題MahoutSparkMLlib其他數(shù)據(jù)挖掘工具of2444第四章大數(shù)據(jù)挖掘工具4.3其他數(shù)據(jù)挖掘工具大數(shù)據(jù)配套PPT課件 提供標準算法,無法滿足個性化需求 提供
21、的并行化機器學(xué)習(xí)算法數(shù)量有限of2544其他數(shù)據(jù)挖掘工具 SystemMLGraphLabWEKAscikit-learnH2O Parameter Server基于R語言的機器學(xué)習(xí)庫 阿里數(shù)據(jù)挖掘平臺DT PAI 百度大規(guī)模機器學(xué)習(xí)框架ELF與機器學(xué)習(xí)云平臺BML 騰訊大規(guī)模主題模型訓(xùn)練系統(tǒng)Peacock與深度學(xué)習(xí)平臺MarianaMahout Spark MLlib4.3其他數(shù)據(jù)挖掘工具u SystemML IBM Waston Research Center 和 IBM Almaden Research Center聯(lián)合研發(fā)的大數(shù)據(jù)機器學(xué)習(xí)系統(tǒng)大數(shù)據(jù)配套PPT課件of2644具有較好的可
22、編程性和易用性,用戶不需要具備任何分布式系統(tǒng)的概念或編程經(jīng)驗,即可寫出可擴展的機器學(xué)習(xí)算法提供大量的監(jiān)督和非監(jiān)督的機器學(xué)習(xí)算法所需要的線性代數(shù)原語,統(tǒng)計功能和ML指定結(jié)構(gòu),可更容易也更原生地表達ML算法4.3其他數(shù)據(jù)挖掘工具u GraphLab大數(shù)據(jù)配套PPT課件卡內(nèi)基梅隆大學(xué)的Select實驗室開發(fā)的以頂點為計算單元的大規(guī)模圖處理系統(tǒng),是一個基于圖模型抽象的可擴展的機器學(xué)習(xí)框架解決高效處理大數(shù)據(jù)圖像算法問題或者可歸結(jié)為圖問題的機器學(xué)習(xí)和數(shù)據(jù)挖掘問題of2744 缺點提供的接口細節(jié)比較復(fù)雜,使用難度大優(yōu)點異步執(zhí)行迭代可收斂稀疏數(shù)據(jù)集4.3其他數(shù)據(jù)挖掘工具u Parameter Server大數(shù)
23、據(jù)配套PPT課件基于模型參數(shù)的抽象方法,即把所有機器學(xué)習(xí)算法抽象為對學(xué)習(xí)過程中一組模型參數(shù)的管理和控制, 并提供對大規(guī)模場景下大量模型參數(shù)的有效管理和訪問of2844缺少對大規(guī)模機器學(xué)習(xí)時的數(shù)據(jù)及編程計算模型的高層抽象缺點為大規(guī)模機器學(xué)習(xí)提供了非常靈活的模型參數(shù)調(diào)優(yōu)和控制機制優(yōu)點機器學(xué)習(xí)算法研究者、深度優(yōu)化機器學(xué)習(xí)算法的數(shù)據(jù)分析程序員適用4.3其他數(shù)據(jù)挖掘工具u scikit-learn大數(shù)據(jù)配套PPT課件基于Python的機器學(xué)習(xí)庫,建立在NumPy、SciPy和matplotlib基礎(chǔ)之上,使用BSD開源許可證開發(fā)案例of2944支持算法SVRLassorandom forestK-Mea
24、nsSVM主要模塊聚類數(shù)據(jù)降維模型選擇數(shù)據(jù)預(yù)處理回歸分類4.3其他數(shù)據(jù)挖掘工具u WEKA大數(shù)據(jù)配套PPT課件現(xiàn)今最完備的數(shù)據(jù)挖掘工具之一,數(shù)據(jù)挖掘和機器學(xué)習(xí)歷史上的里程碑分類歸類聚類關(guān)聯(lián)WEKA可視化GUI界面of30444.3其他數(shù)據(jù)挖掘工具u 基于R語言的機器學(xué)習(xí)庫大數(shù)據(jù)配套PPT課件R語言目前在數(shù)據(jù)分析應(yīng)用領(lǐng)域最廣為使用的數(shù)據(jù)分析、統(tǒng)計計算及制圖的開源軟件系統(tǒng),提供了大量的專業(yè)模塊和實用工具R中處理大數(shù)據(jù)R語言MapReduceSparkRRHadoopRHDFSRHBaseof31444.3其他數(shù)據(jù)挖掘工具u H2O大數(shù)據(jù)配套PPT課件服務(wù)于數(shù)據(jù)科學(xué)家和開發(fā)者的開源機器學(xué)習(xí)和深度學(xué)習(xí)
25、的平臺of32444.3其他數(shù)據(jù)挖掘工具大數(shù)據(jù)配套PPT課件u 騰訊大規(guī)模主題模型訓(xùn)練系統(tǒng)Peacock與深度學(xué)習(xí)平臺MarianaPeacock:大規(guī)模LDA主題模型訓(xùn)練系統(tǒng),用于語義理解、興趣挖掘、用戶拓展、QQ群推薦等Mariana:大規(guī)模并行化機器學(xué)習(xí)處理,用于微信語音和圖像識別的深度學(xué)習(xí)平臺Peacock大規(guī)模樣本數(shù)據(jù)處理大規(guī)模矩陣分解隱含語義學(xué)習(xí)Peacock應(yīng)用于QQ群推薦Mariana應(yīng)用于微信語音識別of3344Mariana多GPU的深度神經(jīng)網(wǎng)絡(luò)并行計算系統(tǒng)Mariana DNN CPU集群的深度神經(jīng)網(wǎng)絡(luò)并行計算系統(tǒng)Mariana Cluster 多GPU的深度卷積神經(jīng)網(wǎng)絡(luò)
26、并行計算系統(tǒng)Mariana CNN4.3其他數(shù)據(jù)挖掘工具u 百度大規(guī)模機器學(xué)習(xí)框架ELF與機器學(xué)習(xí)云平臺BML大數(shù)據(jù)配套PPT課件ELF:大規(guī)模分布式機器學(xué)習(xí)框架,基于Parameter Server模型的通用化大規(guī)模機器學(xué)習(xí)系統(tǒng)BML:大規(guī)模并行化機器學(xué)習(xí)處理,用于微信語音和圖像識別的深度學(xué)習(xí)平臺ELF(Essential LearningFramework)吸收了Hadoop、Spark和MPI等大數(shù)據(jù)平臺的優(yōu)點,用類似于Spark的全內(nèi)存DAG計算引擎,可基于數(shù)據(jù)流的編程模式,通過高度抽象的編程接口,讓用戶方便地完成各種機器學(xué)習(xí)算法的并行化設(shè)計和快速計算BML(Baidu MachineLearning)支持數(shù)據(jù)預(yù)處理算法、分類算法、聚類算法、深度學(xué)習(xí)等20多種機器學(xué)習(xí)算法,通過分布和并行化
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東初升高期末數(shù)學(xué)試卷
- 2025年河北石家莊市中醫(yī)醫(yī)院公開招聘藥劑師6名筆試歷年專業(yè)考點(難、易錯點)附帶答案詳解
- 2025至2030城市交通控制行業(yè)市場深度研究及發(fā)展前景投資可行性分析報告
- 甘肅公務(wù)員行測(A類)真題及答案
- 北京腫瘤醫(yī)院社會人員招聘考試真題2024
- 2025至2030草本化妝品行業(yè)市場深度研究與戰(zhàn)略咨詢分析報告
- 2025至2030采礦采石行業(yè)市場占有率及投資前景評估規(guī)劃報告
- 福清市蓮峰小學(xué)數(shù)學(xué)試卷
- 二年級設(shè)計數(shù)學(xué)試卷
- 廣東河源小升初數(shù)學(xué)試卷
- 沉淀法白炭黑的性能與運用課件
- 勝任力調(diào)查問卷
- 李善友顛覆式創(chuàng)新課件
- 商業(yè)租戶招商營運一戶一檔移交資料清單
- 分包單位過程施工進度款審批表
- 電白局設(shè)備采購4開標過程評標報告
- 比和比例綜合練習(xí)題及答案-
- 小學(xué)古詩詞大賽-九宮格練習(xí)課件
- 醫(yī)院(診所)門診病人登記簿表格模板
- 淺析如何提高高職院校行政管理效率2100字
- 上海電動汽車充電設(shè)施建設(shè)管理暫行規(guī)定
評論
0/150
提交評論