![丨大規(guī)模數(shù)據(jù)處理初體驗(yàn)怎樣實(shí)現(xiàn)大型電商熱銷榜_第1頁(yè)](http://file4.renrendoc.com/view/020147814207e3722aa18328ee3752bd/020147814207e3722aa18328ee3752bd1.gif)
![丨大規(guī)模數(shù)據(jù)處理初體驗(yàn)怎樣實(shí)現(xiàn)大型電商熱銷榜_第2頁(yè)](http://file4.renrendoc.com/view/020147814207e3722aa18328ee3752bd/020147814207e3722aa18328ee3752bd2.gif)
![丨大規(guī)模數(shù)據(jù)處理初體驗(yàn)怎樣實(shí)現(xiàn)大型電商熱銷榜_第3頁(yè)](http://file4.renrendoc.com/view/020147814207e3722aa18328ee3752bd/020147814207e3722aa18328ee3752bd3.gif)
![丨大規(guī)模數(shù)據(jù)處理初體驗(yàn)怎樣實(shí)現(xiàn)大型電商熱銷榜_第4頁(yè)](http://file4.renrendoc.com/view/020147814207e3722aa18328ee3752bd/020147814207e3722aa18328ee3752bd4.gif)
![丨大規(guī)模數(shù)據(jù)處理初體驗(yàn)怎樣實(shí)現(xiàn)大型電商熱銷榜_第5頁(yè)](http://file4.renrendoc.com/view/020147814207e3722aa18328ee3752bd/020147814207e3722aa18328ee3752bd5.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
今天我們就以大型熱銷榜為例,來(lái)談一談從1萬(wàn)用戶到1億用戶,從GB數(shù)據(jù)到同樣的問(wèn)題舉一反三,可以應(yīng)用在淘寶熱賣,App榜,熱門,甚至是胡潤(rùn)百富假設(shè)你的銷售10億件商品,已經(jīng)了的銷售記錄:商品id和時(shí){product_id,timestamp},整個(gè)記錄是1000億行數(shù)據(jù),TB級(jí)。作為技術(shù),你會(huì)怎樣設(shè)計(jì)一個(gè)系統(tǒng),根據(jù)銷售記錄統(tǒng)計(jì)去年銷量前10的商品呢?我們可以把熱銷榜按product_id為:1,2,3O(nn1000TopKO(nPythondef"""Calculatenumberofsalesforeachproduct3sales_records:listofSaleRecord,SaleRecordisanamede.g.{product_id:“1”, dictof{product_id:num_of_sales}.E.g.{“1”:1,“2”:sales_count=forrecordinsales_count[record[product_id]]+= returndefTopSellingItems(sale_records,"""Calculatethebestsellingksales_records:listofSaleRecord,SaleRecordisanamede.g.{product_id:“1”, K:numoftopproductsyouwanttoListofkproduct_id,sortedbynumofsales_count=returnheapq.nlargest(k,sales_count,1014TopK對(duì)于TB級(jí)的記錄數(shù)據(jù),很難找到單臺(tái)計(jì)算機(jī)容納那么大的哈希表了。你可能想到,那比如,就用一個(gè)1000I/O題。一次磁盤大概需要10ms的時(shí)間。O(n*logk*10^9=10^7s=115天的時(shí)間。你可能需要賈躍亭附體,才能接受這樣的設(shè)例如,100012找出銷量前這里我們不妨把問(wèn)題抽象一下,抽象出是銷量前K的產(chǎn)品。因?yàn)槟愕碾S時(shí)可能把產(chǎn)品需求改成前20銷量,而不是前10了。分布在各個(gè)機(jī)器分散的產(chǎn)品銷量匯總出來(lái)。例如,把所有product_id=1的銷量全部疊下圖示例是K=1的情況,每臺(tái)機(jī)器先把所有product_id=1的銷量疊加在了一起,再找出自己機(jī)器上銷量前K=1的商品??梢钥吹綄?duì)于每臺(tái)機(jī)器而言,他們的輸出就是最終前K=1的商品候選者。K前K=1的商品候選者中找出真正的銷量前K=1的商品。1000當(dāng)你辛辛苦苦設(shè)計(jì)了應(yīng)對(duì)1億用戶的數(shù)據(jù)處理系統(tǒng)時(shí),可能你就要另一個(gè)維度的規(guī)?;╯caling)。那就是應(yīng)用場(chǎng)景數(shù)量從1個(gè)變成1000個(gè)。每一次都為不同的應(yīng)用場(chǎng)景單在第二講“MapReduce忘掉MapReduce,忘掉ApacheSpark,忘掉ApacheBeam。1sales_count=這樣簡(jiǎn)單的描述,在我們框架設(shè)計(jì)層面,就要能自動(dòng)構(gòu)建成上文描述的“銷量統(tǒng)計(jì)計(jì)算集1top_k_sales=這行代碼需要自動(dòng)構(gòu)建成上文描述的“找出銷量前K集群”。GBTBTB據(jù)場(chǎng)景到1000個(gè)應(yīng)用場(chǎng)景,我們探索了大規(guī)模數(shù)據(jù)處理框架的設(shè)計(jì)。 不得售賣。頁(yè)面已增加防盜追蹤,將依法其上一 02|MapReduce后誰(shuí)主沉?。涸鯓釉O(shè)計(jì)下一代數(shù)據(jù)處理技術(shù)下一 04|分布式系統(tǒng)(上):學(xué)會(huì)用服務(wù)等級(jí)協(xié)議SLA來(lái)評(píng)估你的系言言青 Liu 好。于是我用了非常hack的:先使用randomprojection算法降低一定維度,這是Mr 6老師好,我目前是做NLP感。另外由于的ERT橫空出世,感覺(jué)NPP 孫稚 4尾的,少量的item占據(jù)大多數(shù)量,很容易發(fā)送數(shù)據(jù)傾斜,需要設(shè)計(jì)更新的hash-sharding 4 Top1的情況,只統(tǒng)計(jì)每臺(tái)機(jī)器的top1是不是可能會(huì)確呢?比如數(shù)據(jù)按時(shí)間段分片,某個(gè)商品銷量很大很穩(wěn)定,累計(jì)總數(shù)第一但很少是top1 3我們?cè)谧錾唐酚唵谓y(tǒng)計(jì)的時(shí)候,會(huì)按itemidorderyearordermonthhash來(lái)做group的key,分割成更小塊,防止popularitem堆積造成的瓶頸 3關(guān)鍵問(wèn)題是怎么切,切多大?怎么不全切碎,讓它完整的,讓人知道是條魚 3= 2 朱同 1大規(guī)模的topk在計(jì)算過(guò)程中很容易數(shù)據(jù)傾斜的問(wèn)題,在實(shí)際業(yè)務(wù)里,計(jì)算的優(yōu)化是一 1我的思考是:如果K=,而produtd=,produtd=, produtd=(rdtd有種而且每種rdtd可能會(huì)重復(fù)出現(xiàn),個(gè)數(shù)是動(dòng)態(tài)的),那么在統(tǒng)計(jì)銷量集群,分配計(jì)算的方法不變,但是在找出銷量前K的集群,每臺(tái)機(jī)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年安全準(zhǔn)入考試練習(xí)試卷附答案
- 稽核人員上崗考試練習(xí)卷含答案
- 產(chǎn)房練習(xí)測(cè)試題附答案
- 9萬(wàn)合同寫合同范本
- 農(nóng)村無(wú)證土地合同范本
- 保安公司勞務(wù)合同范本
- 2025年度房地產(chǎn)經(jīng)紀(jì)合同服務(wù)內(nèi)容與傭金收費(fèi)標(biāo)準(zhǔn)規(guī)范
- 山東密封用填料及類似品制造市場(chǎng)前景及投資研究報(bào)告
- 買賣合同范本買方
- 1986電站用工合同范本
- 北京市房山區(qū)2024-2025學(xué)年七年級(jí)上學(xué)期期末英語(yǔ)試題(含答案)
- 安全生產(chǎn)事故調(diào)查與案例分析(第3版)課件 呂淑然 第5、6章 事故案例評(píng)析、相關(guān)法律法規(guī)
- 2025年南陽(yáng)科技職業(yè)學(xué)院高職單招數(shù)學(xué)歷年(2016-2024)頻考點(diǎn)試題含答案解析
- 加油站復(fù)工復(fù)產(chǎn)方案
- 2025-2030年中國(guó)增韌劑(MBS高膠粉)行業(yè)發(fā)展現(xiàn)狀及前景趨勢(shì)分析報(bào)告
- 2025年高考物理復(fù)習(xí)新題速遞之萬(wàn)有引力與宇宙航行(2024年9月)
- 2025年首都機(jī)場(chǎng)集團(tuán)公司招聘筆試參考題庫(kù)含答案解析
- 2025云南省貴金屬新材料控股集團(tuán)限公司面向高校畢業(yè)生專項(xiàng)招聘144人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 蘇州市區(qū)2024-2025學(xué)年五年級(jí)上學(xué)期數(shù)學(xué)期末試題一(有答案)
- 暑期預(yù)習(xí)高一生物必修二知識(shí)點(diǎn)
- (高清版)DB43∕T 1147-2015 太陽(yáng)能果蔬烘干機(jī)
評(píng)論
0/150
提交評(píng)論