版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Google云計(jì)算應(yīng)用場(chǎng)景分析主要內(nèi)容Google云計(jì)算技術(shù)框架應(yīng)用場(chǎng)景分析1:Google網(wǎng)站流量分析應(yīng)用場(chǎng)景分析2:Google搜索Google云計(jì)算的技術(shù)架構(gòu)Google的云計(jì)算應(yīng)用均依賴(lài)于四個(gè)基礎(chǔ)組件分布式文件存儲(chǔ),GFS并行數(shù)據(jù)處理模型MapReduce分布式鎖Chubby結(jié)構(gòu)化數(shù)據(jù)表BigTableGoogle云計(jì)算應(yīng)用MapReduceBigTableGFSChubbyGoogle云計(jì)算的技術(shù)架構(gòu)Google云計(jì)算應(yīng)用BigTableGFSMapReduceChubby組件調(diào)用關(guān)系分析Google云計(jì)算的技術(shù)架構(gòu)Chubby的作用為GFS提供鎖服務(wù),選擇Master節(jié)點(diǎn);記錄Master的相關(guān)描述信息通過(guò)獨(dú)占鎖記錄ChunkServer的活躍情況為BigTable提供鎖服務(wù),記錄子表元信息(如子表文件信息、子表分配信息、子表服務(wù)器信息)(可能)記錄MapReduce的任務(wù)信息為第三方提供鎖服務(wù)與文件存儲(chǔ)Google云計(jì)算應(yīng)用BigTableGFSMapReduceChubbyGoogle云計(jì)算的技術(shù)架構(gòu)GFS的作用存儲(chǔ)BigTable的子表文件為第三方應(yīng)用提供大尺寸文件存儲(chǔ)功能文件讀操作流程API與Master通信,獲取文件元信息根據(jù)指定的讀取位置和讀取長(zhǎng)度,API發(fā)起并發(fā)操作,分別從若干ChunkServer上讀取數(shù)據(jù)API組裝所得數(shù)據(jù),返回結(jié)果Google云計(jì)算應(yīng)用BigTableGFSMapReduceChubbyGoogle云計(jì)算的技術(shù)架構(gòu)BigTable的作用為Google云計(jì)算應(yīng)用(或第三方應(yīng)用)提供數(shù)據(jù)結(jié)構(gòu)化存儲(chǔ)功能類(lèi)似于數(shù)據(jù)庫(kù)為應(yīng)用提供簡(jiǎn)單數(shù)據(jù)查詢(xún)功能(不支持聯(lián)合查詢(xún))為MapReduce提供數(shù)據(jù)源或數(shù)據(jù)結(jié)果存儲(chǔ)Google云計(jì)算應(yīng)用BigTableGFSMapReduceChubbyGoogle云計(jì)算的技術(shù)架構(gòu)BigTable的存儲(chǔ)與服務(wù)請(qǐng)求的響應(yīng)劃分為子表存儲(chǔ),每個(gè)子表對(duì)應(yīng)一個(gè)子表文件,子表文件存儲(chǔ)于GFS之上BigTable通過(guò)元數(shù)據(jù)組織子表每個(gè)子表都被分配給一個(gè)子表服務(wù)器一個(gè)子表服務(wù)器可同時(shí)分配多個(gè)子表子表服務(wù)器負(fù)責(zé)對(duì)外提供服務(wù),響應(yīng)查詢(xún)請(qǐng)求Tablet1:<startRowKey1,endRowKey1>,root\bigtable\tablet1,……Tablet2:<startRowKey2,endRowKey2>,root\bigtable\tablet2,……Tablet3:<startRowKey3,endRowKey3>,root\bigtable\tablet3,……Tablet4:<startRowKey4,endRowKey4>,root\bigtable\tablet4,……Google云計(jì)算的技術(shù)架構(gòu)MapReduce的作用對(duì)BigTable中的數(shù)據(jù)進(jìn)行并行計(jì)算處理(如統(tǒng)計(jì)、歸類(lèi)等)使用BigTable或GFS存儲(chǔ)計(jì)算結(jié)果Google云計(jì)算應(yīng)用BigTableGFSMapReduceChubby應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析GoogleAnalytics免費(fèi)的企業(yè)級(jí)網(wǎng)絡(luò)分析解決方案幫助企業(yè)了解網(wǎng)站流量和營(yíng)銷(xiāo)效果能以靈活的方式(各類(lèi)報(bào)表)查看并分析流量數(shù)據(jù)應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析基本功能統(tǒng)計(jì)網(wǎng)站的基本數(shù)據(jù),包括會(huì)話、綜合瀏覽量、點(diǎn)擊量和字節(jié)流量等等分析網(wǎng)站頁(yè)面關(guān)注度,幫助企業(yè)調(diào)整或增刪頁(yè)面分析用戶(hù)瀏覽路徑,優(yōu)化頁(yè)面布局分析用戶(hù)訪問(wèn)來(lái)源鏈接,提高廣告投資回報(bào)分析用戶(hù)訪問(wèn)環(huán)境(如OS和Explorer),幫助美化頁(yè)面應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析應(yīng)用的特征海量數(shù)據(jù)需要存儲(chǔ)海量的用戶(hù)行為數(shù)據(jù)(如點(diǎn)擊時(shí)間、位置等)海量用戶(hù)需要為任意多的網(wǎng)站提供流量分析技術(shù)路線使用BigTable存儲(chǔ)和檢索數(shù)據(jù),使用MapReduce統(tǒng)計(jì)數(shù)據(jù)應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析BigTable中的表設(shè)計(jì)原始點(diǎn)擊數(shù)據(jù)表行鍵:點(diǎn)擊時(shí)間列鍵:網(wǎng)站URL、網(wǎng)站名稱(chēng)、用戶(hù)IP地址、來(lái)源URL、目標(biāo)URL……目前尺寸約200TB200910101210112009101012101220091010121013URL標(biāo)題IP地址來(lái)源URL目標(biāo)URL應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析BigTable中的表設(shè)計(jì)統(tǒng)計(jì)數(shù)據(jù)表行鍵:網(wǎng)站URL(倒排)列鍵:點(diǎn)擊次數(shù)(如記錄最近一個(gè)月每日的訪問(wèn)次數(shù)等)、頁(yè)面關(guān)注度(如記錄網(wǎng)站頁(yè)面的訪問(wèn)比率)、來(lái)源網(wǎng)站(如記錄TOP10)、目標(biāo)網(wǎng)站(如記錄TOP10)…每個(gè)列中記錄的內(nèi)容是字符串,Analytics在查詢(xún)后需要解析字符串獲得統(tǒng)計(jì)結(jié)果可根據(jù)統(tǒng)計(jì)內(nèi)容的增多增加新的列目前尺寸約20TB應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析業(yè)務(wù)流程分析數(shù)據(jù)采集原始點(diǎn)擊數(shù)據(jù)表數(shù)據(jù)處理統(tǒng)計(jì)數(shù)據(jù)表數(shù)據(jù)查詢(xún)MapReduce應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析基礎(chǔ)設(shè)施應(yīng)用服務(wù)器集群BigTable集群1BigTable集群2GFS集群Chubby集群MapReduce集群應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析數(shù)據(jù)采集數(shù)據(jù)來(lái)源頁(yè)面內(nèi)嵌腳本點(diǎn)擊行為腳本應(yīng)用服務(wù)器獲取到數(shù)據(jù)后,存入BigTable應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析數(shù)據(jù)采集數(shù)據(jù)存儲(chǔ)流程向BigTable中寫(xiě)入點(diǎn)擊信息尋找子表服務(wù)器向內(nèi)存臨時(shí)子表寫(xiě)入信息(含排序)如超過(guò)閾值則存儲(chǔ)為子表文件GFS:存儲(chǔ)子表文件子表合并、壓縮應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析數(shù)據(jù)處理例如,統(tǒng)計(jì)網(wǎng)站(如)過(guò)去一周網(wǎng)頁(yè)訪問(wèn)比例數(shù)據(jù)處理流程數(shù)據(jù)查詢(xún)MapReduce操作數(shù)據(jù)存儲(chǔ)點(diǎn)擊數(shù)據(jù)表統(tǒng)計(jì)數(shù)據(jù)表GFS應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析數(shù)據(jù)處理:MapReduceMap操作假設(shè)過(guò)去一周查詢(xún)結(jié)果文件在GFS中包含M個(gè)Chunk,那么Master尋找M個(gè)空閑的Worker,分別處理這M個(gè)Chunk,得到每個(gè)網(wǎng)站中頁(yè)面的訪問(wèn)次數(shù)<com.xxx,aaa.asp><com.yyy,bbb.asp><com.zzz,aaa.asp><com.xxx,bbb.asp><com.xxx,aaa.asp><com.zzz,bbb.asp><com.xxx,<aaa.asp,2><bbb.asp,1>><com.yyy,<bbb.asp,1>><com.zzz,<aaa.asp,1><bbb.asp,1>>應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析數(shù)據(jù)處理:MapReduce自動(dòng)排序?qū)個(gè)中間結(jié)果進(jìn)行排序<com.xxx,<aaa.asp,2><bbb.asp,1>><com.yyy,<bbb.asp,1>><com.zzz,<aaa.asp,1><bbb.asp,1>><com.yyy,<ccc.asp,10><ddd.asp,12>><com.xxx,<aaa.asp,100><ccc.asp,10>><com.zzz,<ddd.asp,1><ccc.asp,10>><com.xxx,<aaa.asp,2><bbb.asp,1>><com.xxx,<aaa.asp,100><ccc.asp,10>><com.yyy,<bbb.asp,1>><com.yyy,<ccc.asp,10><ddd.asp,12>><com.zzz,<aaa.asp,1><bbb.asp,1>><com.zzz,<ddd.asp,1><ccc.asp,10>>應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析數(shù)據(jù)處理:MapReduceReduce操作假設(shè)得到該網(wǎng)站含N個(gè)網(wǎng)站,那么可以分配N(xiāo)臺(tái)Worker分別處理單個(gè)網(wǎng)站的數(shù)據(jù)<com.xxx,<aaa.asp,2><bbb.asp,1>><com.xxx,<aaa.asp,100><ccc.asp,10>><com.yyy,<bbb.asp,1>><com.yyy,<ccc.asp,10><ddd.asp,12>><com.zzz,<aaa.asp,1><bbb.asp,1>><com.zzz,<ddd.asp,1><ccc.asp,10>><com.xxx,<aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>><com.yyy,<bbb.asp,0.0435><ccc.asp,0.4348><ddd.asp,0.5217>><com.zzz,<aaa.asp,0.0769><bbb.asp,0.0769><ddd.asp,0.0769><ccc.asp,0.7692>>應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析數(shù)據(jù)處理寫(xiě)入數(shù)據(jù)應(yīng)用程序?qū)⒎治鼋Y(jié)果寫(xiě)入統(tǒng)計(jì)數(shù)據(jù)表<com.xxx,<aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>><com.yyy,<bbb.asp,0.0435><ccc.asp,0.4348><ddd.asp,0.5217>><com.zzz,<aaa.asp,0.0769><bbb.asp,0.0769><ddd.asp,0.0769><ccc.asp,0.7692>>應(yīng)用場(chǎng)景分析1
——Google網(wǎng)站流量分析數(shù)據(jù)查詢(xún)從數(shù)據(jù)統(tǒng)計(jì)表中查詢(xún)行獲取對(duì)應(yīng)列的數(shù)據(jù),解析,得到并展示最終結(jié)果數(shù)據(jù)處理是定期的,非實(shí)時(shí)響應(yīng)查詢(xún)<aaa.asp,0.9027><bbb.asp,0.0088><ccc.asp,0.0885>應(yīng)用場(chǎng)景分析2
——Google搜索Google搜索的總體業(yè)務(wù)流程數(shù)據(jù)采集:Spider數(shù)據(jù)整理生成各類(lèi)子表,如音樂(lè)表、生活搜索表、學(xué)術(shù)搜索表等壓縮數(shù)據(jù)表,清洗失效數(shù)據(jù)數(shù)據(jù)檢索應(yīng)用場(chǎng)景分析2
——Google搜索數(shù)據(jù)采集通過(guò)若干Spider在網(wǎng)絡(luò)上搜集數(shù)據(jù)使用BigTable存儲(chǔ)數(shù)據(jù)行鍵:倒排的URL列鍵:網(wǎng)站名稱(chēng)、語(yǔ)言、HTML描述、圖片、鏈接……時(shí)間戳:記錄不同時(shí)刻的網(wǎng)頁(yè)快照應(yīng)用場(chǎng)景分析2
——Google搜索數(shù)據(jù)采集Spider可能的數(shù)據(jù)處理流程Spider獲取到網(wǎng)頁(yè)數(shù)據(jù)從Chubby的元數(shù)據(jù)中找到該URL所處的子表從子表服務(wù)器中尋找對(duì)應(yīng)的行如果該行不存在,則插入新的行讀取網(wǎng)頁(yè)內(nèi)容列,比較新舊數(shù)據(jù)增加時(shí)間戳,標(biāo)識(shí)新數(shù)據(jù)若當(dāng)前時(shí)間戳超過(guò)指定數(shù)目,刪除最舊內(nèi)容處理完畢存在對(duì)應(yīng)行對(duì)應(yīng)行鍵不存在數(shù)據(jù)未變化數(shù)據(jù)發(fā)生變化應(yīng)用場(chǎng)景分析2
——Google搜索數(shù)據(jù)整理Google搜索包括多個(gè)子類(lèi)生活搜索:租房、車(chē)票、酒店等資訊搜索:熱門(mén)新聞、分類(lèi)新聞等學(xué)術(shù)搜索:學(xué)術(shù)論文定期計(jì)算網(wǎng)站評(píng)價(jià)數(shù)據(jù)例如PageRank的計(jì)算具有統(tǒng)一的數(shù)據(jù)來(lái)源使用不同的表存儲(chǔ)數(shù)據(jù)可能使用MapReduce定期刷新數(shù)據(jù)應(yīng)用場(chǎng)景分析2
——Google搜索數(shù)據(jù)整理(Google學(xué)術(shù)搜索)應(yīng)用場(chǎng)景分析2
——Google搜索數(shù)據(jù)整理(Google學(xué)術(shù)搜索)數(shù)據(jù)抽取尋找包含學(xué)術(shù)(論文)信息的網(wǎng)頁(yè)數(shù)據(jù),并結(jié)構(gòu)化存儲(chǔ)學(xué)術(shù)(論文)信息抽?。ǚ治鰠⒖嘉墨I(xiàn)、摘要等)可能的技術(shù)方案:MapReduce+BigTable數(shù)據(jù)統(tǒng)計(jì)基于抽取的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析(如分析被引用次數(shù)等)可能的技術(shù)方案MapReduce+BigTable學(xué)術(shù)信息BigTable行鍵:論文標(biāo)題列鍵:作者、主題詞、摘要、參考文獻(xiàn)、期刊信息、被引用次數(shù)、下載鏈接……應(yīng)用場(chǎng)景分析2
——Google搜索數(shù)據(jù)整理(Google學(xué)術(shù)搜索)如何使用MapReduce抽取數(shù)據(jù)?生成抽取目標(biāo)(URL)文件將目標(biāo)文件分割為M塊尋找M個(gè)Worker分別做Map處理查詢(xún)網(wǎng)站的網(wǎng)頁(yè)數(shù)據(jù)是否包含論文描述信息抽取論文描述信息,輸出按論文標(biāo)題將輸出排序?qū)⒄撐拿枋鲂畔⒋嫒隑igTable尋找若干Worker做Reduce處理MapReduce自動(dòng)處理自動(dòng)處理應(yīng)用場(chǎng)景分析2
——Google搜索數(shù)據(jù)整理(Google學(xué)術(shù)搜索)如何獲取論文統(tǒng)計(jì)數(shù)據(jù)(如論文引用次數(shù))分析論文信息表,二次MapReduce論文A,參考文獻(xiàn):{論文B,論文C,論文D}論文B,參考文獻(xiàn):{論文Q,論文C,論文A}論文C,參考文獻(xiàn):{論文D,論文H,論文A}論文F,參考文獻(xiàn):{論文A,論文C}論文E,參考文獻(xiàn):{論文S,論文A,論文D}論文S,參考文獻(xiàn):{論文E,論文F}<論文B,1><論文C,1><論文D,1><論文Q,1><論文C,1><論文A,1><論文D,1><論文H,1><論文A,1><論文A,1><論文C,1><論文S,1><論文A,1><論文D,1><論文E,1><論文F,1>應(yīng)用場(chǎng)景分析2
——Google搜索數(shù)據(jù)整理(Google學(xué)術(shù)搜索)如何獲取論文統(tǒng)計(jì)數(shù)據(jù)(如論文引用次數(shù))歸納排序<論文B,1><論文C,1><論文D,1><論文Q,1><論文C,1><論文A,1><論文D,1><論文H,1><論文A,1><論文A,1><論文C,1><論文S,1><論文A,1><論文D,1><論文E,1><論文F,1><論文A,1><論文A,1><論文A,1><論文A,1><論文B,1><論文C,1><論文C,1><論文C,1><論文
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人借款合同樣本寶典
- 房屋買(mǎi)賣(mài)合同中當(dāng)事人死亡的處理方法
- 電子產(chǎn)品購(gòu)買(mǎi)合同案例
- 廉潔合同的簽訂展望
- 倉(cāng)儲(chǔ)配送業(yè)務(wù)合作合同
- 幼兒園物資選購(gòu)合同
- 經(jīng)濟(jì)實(shí)惠外包服務(wù)合同
- 會(huì)議廣告合作協(xié)議
- 家電采買(mǎi)協(xié)議
- 個(gè)人借款合同簡(jiǎn)單版樣式示例
- 園林設(shè)施維護(hù)方案
- 特種設(shè)備使用單位日管控、周排查、月調(diào)度示范表
- 供應(yīng)鏈成本控制與降本增效
- 大鎖孫天宇小品《時(shí)間都去哪了》臺(tái)詞劇本完整版-一年一度喜劇大賽
- 2024年云南開(kāi)放大學(xué)《多媒體技術(shù)基礎(chǔ)》形成性考核參考試題庫(kù)(含答案)
- 220kV~750kV油浸式電力變壓器使用技術(shù)條件
- MOOC 生物化學(xué)與分子生物學(xué)-中國(guó)藥科大學(xué) 中國(guó)大學(xué)慕課答案
- 金屬屋面工程防水技術(shù)規(guī)程
- 北京市平谷區(qū)2023-2024學(xué)年九年級(jí)上學(xué)期期末考試英語(yǔ)試卷
- 人工智能增強(qiáng)戰(zhàn)略規(guī)劃
- 特種設(shè)備使用單位變更登記表
評(píng)論
0/150
提交評(píng)論