版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、分布式云平臺(tái)加入尚學(xué)堂,一起進(jìn)步!Hadoop整體框架描述搭建環(huán)境 & hadoop-mapreduce-examples-2.6.5.jarMR設(shè)計(jì)理念手動(dòng)實(shí)現(xiàn)WordCount:粗粒度介紹計(jì)算框架源碼分析天氣案例:細(xì)粒度介紹計(jì)算框架FOF案例:MR與數(shù)據(jù)模型PageRank案例:TFIDF案例:HadoopHadoop MapReduce V2MR-API:PageRankPageRank是什么PR計(jì)算邏輯使用MR實(shí)現(xiàn)PageRank計(jì)算什么是pagerankPageRank是Google提出的算法,用于衡量特定網(wǎng)頁相對(duì)于搜索引擎索引中的其他網(wǎng)頁而言的重要程度。是Google創(chuàng)始人拉里佩奇
2、和謝爾蓋布林于1997年創(chuàng)造的PageRank實(shí)現(xiàn)了將鏈接價(jià)值概念作為排名因素。計(jì)算環(huán)境Hadoop-2.5.2四臺(tái)主機(jī)兩臺(tái)NN的HA兩臺(tái)RM的HA離線計(jì)算框架MapReducePageRank計(jì)算算法原理(1)思考超鏈接在互聯(lián)網(wǎng)中的作用?入鏈 =給?的投票PageRank讓鏈接來“投票“,到一個(gè)頁面的超鏈接相當(dāng)于對(duì)該頁投一票。入鏈數(shù)量如果一個(gè)頁面節(jié)點(diǎn)接收到的其他網(wǎng)頁指向的入鏈數(shù)量越多,那么這個(gè)頁面越重要。入鏈質(zhì)量指向頁面A的入鏈質(zhì)量不同,質(zhì)量高的頁面會(huì)通過鏈接向其他頁面?zhèn)鬟f更多的權(quán)重。所以越是質(zhì)量高的頁面指向頁面A,則頁面A越重要。PageRank計(jì)算網(wǎng)絡(luò)上各個(gè)頁面的鏈接圖ABCDPageR
3、ank計(jì)算站在A的角度:需要將自己的PR值分給B,D站在B的角度:收到來自A,C,D的PR值A(chǔ)BCD1111PageRank計(jì)算 1 3/8 b 1 3/8 c PR需要迭代計(jì)算其PR值會(huì)趨于穩(wěn)定ABCD1c:1/2=1/2c:3/4=3/41a:1/2,c:1/2,d:1/2=3/2a:1/4,c:3/4,d:1/4=5/41b:1,d:1/2=3/2b:3/2,d:1/4=7/41a:1/2=1/2a:1/4=1/4PageRank計(jì)算算法原理(2)初始值Google的每個(gè)頁面設(shè)置相同的頁面價(jià)值,即PR值pagerank算法給每個(gè)頁面的PR初始值為1。迭代計(jì)算(收斂)Google不斷的重復(fù)
4、計(jì)算每個(gè)頁面的PageRank。那么經(jīng)過不斷的重復(fù)計(jì)算,這些頁面的PR值會(huì)趨向于穩(wěn)定,也就是收斂的狀態(tài)。在具體企業(yè)應(yīng)用中怎么樣確定收斂標(biāo)準(zhǔn)?1、每個(gè)頁面的PR值和上一次計(jì)算的PR相等2、設(shè)定一個(gè)差值指標(biāo)(0.0001)。當(dāng)所有頁面和上一次計(jì)算的PR差值平均小于該標(biāo)準(zhǔn)時(shí),則收斂。3、設(shè)定一個(gè)百分比(99%),當(dāng)99%的頁面和上一次計(jì)算的PR相等PageRank計(jì)算算法原理(3)站在互聯(lián)網(wǎng)的角度:只出,不入:PR會(huì)為0只入,不出:PR會(huì)很高直接訪問網(wǎng)頁修正PageRank計(jì)算公式:增加阻尼系數(shù)在簡單公式的基礎(chǔ)上增加了阻尼系數(shù)(damping factor)d一般取值d=0.85。完整PageRan
5、k計(jì)算公式d:阻尼系數(shù)M(i):指向i的頁面集合L(j):頁面的出鏈數(shù)PR(pj):j頁面的PR值n:所有頁面數(shù)解需求思路*MR原語不被破壞PR計(jì)算是一個(gè)迭代的過程,首先考慮一次計(jì)算思考:頁面包含超鏈接每次迭代將pr值除以鏈接數(shù)后得到的值傳遞給所鏈接的頁面so:每次迭代都要包含頁面鏈接關(guān)系和該頁面的pr值mr:相同的key為一組的特征map:1,讀懂?dāng)?shù)據(jù):第一次附加初始pr值2,映射k:v1,傳遞頁面鏈接關(guān)系,key為該頁面,value為頁面鏈接關(guān)系2,計(jì)算鏈接的pr值,key為所鏈接的頁面,value為pr值reduce:*,按頁面分組1,兩類value分別處理2,最終合并為一條數(shù)據(jù)輸出:k
6、ey為頁面&新的pr值,value為鏈接關(guān)系A(chǔ) B DB CC A BD B Cmap:A:BDB:1/2D:1/2A:1/2reduce:A:1/2 B D map:A: 1/2, B D B:1/4C:1/4A:3/4reduce:/A: 1/2, B D /A:3/4A: 3/4,B,DHadoopHadoop MapReduce V2MR-API:TFIDF概念TF-IDF(term frequencyinverse document frequency)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重
7、要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降TF-IDF加權(quán)的各種形式常被搜尋引擎應(yīng)用作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。除了TF-IDF以外,因特網(wǎng)上的搜尋引擎還會(huì)使用基于鏈接分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序:PR。大白話:打開百度搜索:王者搜索:王者榮耀繼續(xù)搜索:王者榮耀 露娜繼續(xù)搜索:王者榮耀 露娜 連招用戶通過調(diào)整字詞來縮小范圍每個(gè)字詞都有對(duì)應(yīng)出現(xiàn)的頁面通過字詞數(shù)量縮小范圍最終通過字詞對(duì)于頁面的權(quán)重來進(jìn)行排序的詞頻 (term frequency, TF) 指的是某一個(gè)給定的詞語在一份給定的文件中出現(xiàn)的次數(shù)。
8、這個(gè)數(shù)字通常會(huì)被歸一化(分子一般小于分母 區(qū)別于IDF),以防止它偏向長的文件。(同一個(gè)詞語在長文件里可能會(huì)比短文件有更高的詞頻,而不管該詞語重要與否。)公式中:ni,j是該詞在文件dj中的出現(xiàn)次數(shù),而分母則是在文件dj中所有字詞的出現(xiàn)次數(shù)之和。逆向文件頻率 (inverse document frequency, IDF) 是一個(gè)詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對(duì)數(shù)得到。|D|:語料庫中的文件總數(shù) 包含ti文件的數(shù)目TF-IDF:某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個(gè)文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-I
9、DF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。TFIDF的主要思想是:如果某個(gè)詞或短語在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語具有很好的類別區(qū)分能力,適合用來分類。mr:1樂_38238909485177232 3/微博:字詞的wc38238909485177232 40MR樂_38238909485177232 (3/40)/樂 逆向文件頻率 1065樂 4解需求思路:分詞面向文本計(jì)算詞頻:wc面向全量文本計(jì)算包含集合:wc套用公式MR第一次:詞頻統(tǒng)計(jì)+文本總數(shù)統(tǒng)計(jì)map:詞頻:key:字詞+文本,value:1文本總數(shù):key:count,value:1partition:4個(gè)reduce02號(hào)reduce并行計(jì)算詞頻3號(hào)reduce計(jì)算文本總數(shù)reduce:02:sum3:count:sum第二次:字詞集合統(tǒng)計(jì):逆向文件頻率map:key:字詞,value
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025廣告制作安裝與后期維護(hù)服務(wù)合同范本3篇
- 2025年度化學(xué)品包裝設(shè)計(jì)與安全認(rèn)證合同
- 2025年度裝修貸款合同法律效力確認(rèn)
- 2025年度個(gè)人教育儲(chǔ)蓄貸款合同范本分期還款細(xì)則
- 2025年度數(shù)據(jù)中心機(jī)房運(yùn)維服務(wù)合同
- 2025年度市政工程環(huán)氧地坪鋪設(shè)與質(zhì)量驗(yàn)收合同
- 2025年度惠州房地產(chǎn)項(xiàng)目工程造價(jià)咨詢合同
- 2025年度新能源產(chǎn)品供應(yīng)商一件代發(fā)銷售合同
- 2025年度成都市武侯區(qū)二手房買賣及配套設(shè)施租賃合同
- 2025年度文化旅游項(xiàng)目投資管理承包合同范本
- 小學(xué)高年級(jí)閱讀指導(dǎo)課教案(12篇)
- 英語新課標(biāo)(英文版)-20220602111643
- 屋頂分布式光伏電站施工組織設(shè)計(jì)方案
- 中職解剖學(xué)基礎(chǔ)知識(shí)重點(diǎn)筆記
- 藥品管理法律制度的創(chuàng)新與探索
- 蘇教版三年級(jí)下冊(cè)數(shù)學(xué)計(jì)算能手1000題帶答案
- 道路清障救援作業(yè)服務(wù)投標(biāo)方案(完整技術(shù)標(biāo))
- 醫(yī)療器械產(chǎn)品簡介
- 府谷縣田家寨鎮(zhèn)新田煤礦礦山地質(zhì)環(huán)境保護(hù)與土地復(fù)墾方案
- 邁瑞醫(yī)療 -醫(yī)療器械-從全球器械巨頭發(fā)展看邁瑞海外進(jìn)擊之路
- 2014年10月自考00567馬列文論選讀試題及答案含解析
評(píng)論
0/150
提交評(píng)論