02全分布式安裝、hadoop高可用03筆記-day mr案例_第1頁
02全分布式安裝、hadoop高可用03筆記-day mr案例_第2頁
02全分布式安裝、hadoop高可用03筆記-day mr案例_第3頁
02全分布式安裝、hadoop高可用03筆記-day mr案例_第4頁
02全分布式安裝、hadoop高可用03筆記-day mr案例_第5頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、分布式云平臺(tái)加入尚學(xué)堂,一起進(jìn)步!Hadoop整體框架描述搭建環(huán)境 & hadoop-mapreduce-examples-2.6.5.jarMR設(shè)計(jì)理念手動(dòng)實(shí)現(xiàn)WordCount:粗粒度介紹計(jì)算框架源碼分析天氣案例:細(xì)粒度介紹計(jì)算框架FOF案例:MR與數(shù)據(jù)模型PageRank案例:TFIDF案例:HadoopHadoop MapReduce V2MR-API:PageRankPageRank是什么PR計(jì)算邏輯使用MR實(shí)現(xiàn)PageRank計(jì)算什么是pagerankPageRank是Google提出的算法,用于衡量特定網(wǎng)頁相對(duì)于搜索引擎索引中的其他網(wǎng)頁而言的重要程度。是Google創(chuàng)始人拉里佩奇

2、和謝爾蓋布林于1997年創(chuàng)造的PageRank實(shí)現(xiàn)了將鏈接價(jià)值概念作為排名因素。計(jì)算環(huán)境Hadoop-2.5.2四臺(tái)主機(jī)兩臺(tái)NN的HA兩臺(tái)RM的HA離線計(jì)算框架MapReducePageRank計(jì)算算法原理(1)思考超鏈接在互聯(lián)網(wǎng)中的作用?入鏈 =給?的投票PageRank讓鏈接來“投票“,到一個(gè)頁面的超鏈接相當(dāng)于對(duì)該頁投一票。入鏈數(shù)量如果一個(gè)頁面節(jié)點(diǎn)接收到的其他網(wǎng)頁指向的入鏈數(shù)量越多,那么這個(gè)頁面越重要。入鏈質(zhì)量指向頁面A的入鏈質(zhì)量不同,質(zhì)量高的頁面會(huì)通過鏈接向其他頁面?zhèn)鬟f更多的權(quán)重。所以越是質(zhì)量高的頁面指向頁面A,則頁面A越重要。PageRank計(jì)算網(wǎng)絡(luò)上各個(gè)頁面的鏈接圖ABCDPageR

3、ank計(jì)算站在A的角度:需要將自己的PR值分給B,D站在B的角度:收到來自A,C,D的PR值A(chǔ)BCD1111PageRank計(jì)算 1 3/8 b 1 3/8 c PR需要迭代計(jì)算其PR值會(huì)趨于穩(wěn)定ABCD1c:1/2=1/2c:3/4=3/41a:1/2,c:1/2,d:1/2=3/2a:1/4,c:3/4,d:1/4=5/41b:1,d:1/2=3/2b:3/2,d:1/4=7/41a:1/2=1/2a:1/4=1/4PageRank計(jì)算算法原理(2)初始值Google的每個(gè)頁面設(shè)置相同的頁面價(jià)值,即PR值pagerank算法給每個(gè)頁面的PR初始值為1。迭代計(jì)算(收斂)Google不斷的重復(fù)

4、計(jì)算每個(gè)頁面的PageRank。那么經(jīng)過不斷的重復(fù)計(jì)算,這些頁面的PR值會(huì)趨向于穩(wěn)定,也就是收斂的狀態(tài)。在具體企業(yè)應(yīng)用中怎么樣確定收斂標(biāo)準(zhǔn)?1、每個(gè)頁面的PR值和上一次計(jì)算的PR相等2、設(shè)定一個(gè)差值指標(biāo)(0.0001)。當(dāng)所有頁面和上一次計(jì)算的PR差值平均小于該標(biāo)準(zhǔn)時(shí),則收斂。3、設(shè)定一個(gè)百分比(99%),當(dāng)99%的頁面和上一次計(jì)算的PR相等PageRank計(jì)算算法原理(3)站在互聯(lián)網(wǎng)的角度:只出,不入:PR會(huì)為0只入,不出:PR會(huì)很高直接訪問網(wǎng)頁修正PageRank計(jì)算公式:增加阻尼系數(shù)在簡單公式的基礎(chǔ)上增加了阻尼系數(shù)(damping factor)d一般取值d=0.85。完整PageRan

5、k計(jì)算公式d:阻尼系數(shù)M(i):指向i的頁面集合L(j):頁面的出鏈數(shù)PR(pj):j頁面的PR值n:所有頁面數(shù)解需求思路*MR原語不被破壞PR計(jì)算是一個(gè)迭代的過程,首先考慮一次計(jì)算思考:頁面包含超鏈接每次迭代將pr值除以鏈接數(shù)后得到的值傳遞給所鏈接的頁面so:每次迭代都要包含頁面鏈接關(guān)系和該頁面的pr值mr:相同的key為一組的特征map:1,讀懂?dāng)?shù)據(jù):第一次附加初始pr值2,映射k:v1,傳遞頁面鏈接關(guān)系,key為該頁面,value為頁面鏈接關(guān)系2,計(jì)算鏈接的pr值,key為所鏈接的頁面,value為pr值reduce:*,按頁面分組1,兩類value分別處理2,最終合并為一條數(shù)據(jù)輸出:k

6、ey為頁面&新的pr值,value為鏈接關(guān)系A(chǔ) B DB CC A BD B Cmap:A:BDB:1/2D:1/2A:1/2reduce:A:1/2 B D map:A: 1/2, B D B:1/4C:1/4A:3/4reduce:/A: 1/2, B D /A:3/4A: 3/4,B,DHadoopHadoop MapReduce V2MR-API:TFIDF概念TF-IDF(term frequencyinverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重

7、要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降TF-IDF加權(quán)的各種形式常被搜尋引擎應(yīng)用作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。除了TF-IDF以外,因特網(wǎng)上的搜尋引擎還會(huì)使用基于鏈接分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序:PR。大白話:打開百度搜索:王者搜索:王者榮耀繼續(xù)搜索:王者榮耀 露娜繼續(xù)搜索:王者榮耀 露娜 連招用戶通過調(diào)整字詞來縮小范圍每個(gè)字詞都有對(duì)應(yīng)出現(xiàn)的頁面通過字詞數(shù)量縮小范圍最終通過字詞對(duì)于頁面的權(quán)重來進(jìn)行排序的詞頻 (term frequency, TF) 指的是某一個(gè)給定的詞語在一份給定的文件中出現(xiàn)的次數(shù)。

8、這個(gè)數(shù)字通常會(huì)被歸一化(分子一般小于分母 區(qū)別于IDF),以防止它偏向長的文件。(同一個(gè)詞語在長文件里可能會(huì)比短文件有更高的詞頻,而不管該詞語重要與否。)公式中:ni,j是該詞在文件dj中的出現(xiàn)次數(shù),而分母則是在文件dj中所有字詞的出現(xiàn)次數(shù)之和。逆向文件頻率 (inverse document frequency, IDF) 是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。|D|:語料庫中的文件總數(shù) 包含ti文件的數(shù)目TF-IDF:某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-I

9、DF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。TFIDF的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。mr:1樂_38238909485177232 3/微博:字詞的wc38238909485177232 40MR樂_38238909485177232 (3/40)/樂 逆向文件頻率 1065樂 4解需求思路:分詞面向文本計(jì)算詞頻:wc面向全量文本計(jì)算包含集合:wc套用公式MR第一次:詞頻統(tǒng)計(jì)+文本總數(shù)統(tǒng)計(jì)map:詞頻:key:字詞+文本,value:1文本總數(shù):key:count,value:1partition:4個(gè)reduce02號(hào)reduce并行計(jì)算詞頻3號(hào)reduce計(jì)算文本總數(shù)reduce:02:sum3:count:sum第二次:字詞集合統(tǒng)計(jì):逆向文件頻率map:key:字詞,value

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論