




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
?數(shù)據(jù)平臺(tái)架構(gòu)技術(shù)選型與場(chǎng)景運(yùn)?導(dǎo)讀::本?將?數(shù)據(jù)的?作??分為三種類型,包括業(yè)務(wù)相關(guān)、數(shù)據(jù)科學(xué)相關(guān)和數(shù)據(jù)?程。?數(shù)據(jù)平臺(tái)偏向于?程??,?數(shù)據(jù)平臺(tái)?般包括數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析等??。講師從數(shù)據(jù)來源、數(shù)據(jù)源結(jié)構(gòu)、數(shù)據(jù)變化程度和數(shù)據(jù)規(guī)模等4個(gè)維度對(duì)數(shù)據(jù)源進(jìn)?分類,數(shù)據(jù)源分類維度的不同決定最后的技術(shù)選型。講師還對(duì)數(shù)據(jù)源分類的定義及選型?式進(jìn)?詳細(xì)講解,最終聯(lián)系到?數(shù)據(jù)的應(yīng)?場(chǎng)景,讓數(shù)據(jù)應(yīng)??式更加直觀。?、?數(shù)據(jù)平臺(tái)?數(shù)據(jù)在?作中的應(yīng)?有三種:與業(yè)務(wù)相關(guān),?如?戶畫像、風(fēng)險(xiǎn)控制等;與決策相關(guān),數(shù)據(jù)科學(xué)的領(lǐng)域,了解統(tǒng)計(jì)學(xué)、算法,這是數(shù)據(jù)科學(xué)家的范疇;與?程相關(guān),如何實(shí)施、如何實(shí)現(xiàn)、解決什么業(yè)務(wù)問題,這是數(shù)據(jù)?程師的?作。數(shù)據(jù)?程師在業(yè)務(wù)和數(shù)據(jù)科學(xué)家之間搭建起實(shí)踐的橋梁。本?要分享的?數(shù)據(jù)平臺(tái)架構(gòu)技術(shù)選型及場(chǎng)景運(yùn)?偏向于?程??。如圖所?,?數(shù)據(jù)平臺(tái)第?個(gè)要素就是數(shù)據(jù)源,我們要處理的數(shù)據(jù)源往往是在業(yè)務(wù)系統(tǒng)上,數(shù)據(jù)分析的時(shí)候可能不會(huì)直接對(duì)業(yè)務(wù)的數(shù)據(jù)源進(jìn)?處理,?是先經(jīng)過數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ),之后才是數(shù)據(jù)分析和數(shù)據(jù)處理。從整個(gè)?的?態(tài)圈可以看出,要完成數(shù)據(jù)?程需要?量的資源;數(shù)據(jù)量很?需要集群;要控制和協(xié)調(diào)這些資源需要監(jiān)控和協(xié)調(diào)分派;?對(duì)?規(guī)模的數(shù)據(jù)怎樣部署更?便更容易;還牽扯到?志、安全、還可能要和云端結(jié)合起來,這些都是?數(shù)據(jù)圈的邊緣,同樣都很重要。?、數(shù)據(jù)源的特點(diǎn)數(shù)據(jù)源的特點(diǎn)決定數(shù)據(jù)采集與數(shù)據(jù)存儲(chǔ)的技術(shù)選型,我根據(jù)數(shù)據(jù)源的特點(diǎn)將其分為四?類:第?類:從來源來看分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù);第?類:從結(jié)構(gòu)來看分為?結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù);第三類:從可變性來看分為不可變可添加數(shù)據(jù)和可修改刪除數(shù)據(jù);第四類,從規(guī)模來看分為?量數(shù)據(jù)和?量數(shù)據(jù)。內(nèi)部數(shù)據(jù)來?企業(yè)內(nèi)部系統(tǒng),可以采?主動(dòng)寫?技術(shù)(push),從?保證變更數(shù)據(jù)及時(shí)被采集。外部數(shù)據(jù)企業(yè)要做?數(shù)據(jù)的話肯定不會(huì)只局限于企業(yè)內(nèi)部的數(shù)據(jù),?如銀?做征信,就不能只看銀?系統(tǒng)?的交易數(shù)據(jù)和?戶信息,還要到互聯(lián)?上去拉取外部數(shù)據(jù)。外部數(shù)據(jù)分為兩類:?類是要獲取的外部數(shù)據(jù)本?提供API,可以調(diào)?API獲取,?如微信;另?類是數(shù)據(jù)本?不提供API,需要通過爬?爬取過來。這兩類數(shù)據(jù)都不是我們可控制的,需要我們?nèi)カ@得,它的結(jié)構(gòu)也可能跟我們企業(yè)內(nèi)部數(shù)據(jù)的結(jié)構(gòu)不?樣,還需要進(jìn)?轉(zhuǎn)換,爬?爬取的數(shù)據(jù)結(jié)構(gòu)更亂,因此?數(shù)據(jù)平臺(tái)?需要做ETL,由ETL進(jìn)?數(shù)據(jù)提取、轉(zhuǎn)換、加載,清洗、去重、去噪,這個(gè)過程?較?煩。爬?爬過來的數(shù)據(jù)往往是?結(jié)構(gòu)性的、?檔型的數(shù)據(jù),還有視頻、?頻,這就更?煩了。結(jié)構(gòu)化數(shù)據(jù)&?結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化和?結(jié)構(gòu)化數(shù)據(jù)在存儲(chǔ)時(shí)的選型完全不同,?結(jié)構(gòu)化數(shù)據(jù)偏向于?件,或者選擇NoSQL數(shù)據(jù)庫;考慮到事務(wù)的?致性,我們也可能選擇傳統(tǒng)的數(shù)據(jù)庫。不變可添加數(shù)據(jù)如果數(shù)據(jù)源的數(shù)據(jù)是不變的,或者只允許添加(通常,數(shù)據(jù)分析的事實(shí)表,例如銀?交易記錄等都不允許修改或刪除),則采集會(huì)變得?常容易,同步時(shí)只需要考慮最簡單的增量同步策略,維持?jǐn)?shù)據(jù)的?致性也相對(duì)變得容易。對(duì)于?數(shù)據(jù)分析來說,我們每天在處理的數(shù)據(jù)?部分是不可變更的。正如Datomic數(shù)據(jù)庫的設(shè)計(jì)哲學(xué)就是數(shù)據(jù)為事實(shí)(fact),它是不可變的,即數(shù)據(jù)是曾經(jīng)發(fā)?的事實(shí),事實(shí)是不可以被篡改的,哪怕改?個(gè)地址,從設(shè)計(jì)的?度來說也不是改動(dòng)?個(gè)地址,?是新增了?個(gè)地址。交易也是如此??尚薷目蓜h除數(shù)據(jù)銀?的交易記錄、保險(xiǎn)單的交易記錄,互聯(lián)?的訪客訪問記錄、下單記錄等都是不可變的。但是數(shù)據(jù)源的數(shù)據(jù)有些可能會(huì)修改或刪除,尤其是許多維表經(jīng)常需要變動(dòng)。要對(duì)這樣的數(shù)據(jù)進(jìn)?分析處理,最簡單的辦法就是采?直連形式,但直連可能會(huì)影響數(shù)據(jù)分析的效率與性能,且多數(shù)數(shù)據(jù)模型與結(jié)構(gòu)可能不符合業(yè)務(wù)?員進(jìn)?數(shù)據(jù)分析的業(yè)務(wù)訴求。如果采?數(shù)據(jù)采集的?式,就要考慮同步問題。?數(shù)據(jù)量針對(duì)?數(shù)據(jù)量,如果屬于?延遲的業(yè)務(wù),可以采?batch的處理?式,實(shí)時(shí)分析則需要使?流式處理,將兩者結(jié)合就是Lambda架構(gòu),即有實(shí)時(shí)處理、?能滿??定的?數(shù)據(jù)量,這是現(xiàn)在?較流?的?數(shù)據(jù)處理?式。三、數(shù)據(jù)存儲(chǔ)的技術(shù)選型?數(shù)據(jù)平臺(tái)特征:相同的業(yè)務(wù)數(shù)據(jù)會(huì)以多種不同的表現(xiàn)形式,存儲(chǔ)在不同類型的數(shù)據(jù)庫中,形成?種poly-db的數(shù)據(jù)冗余?態(tài)。先把數(shù)據(jù)源進(jìn)?分類,然后根據(jù)其特點(diǎn)判斷?什么?式采集,采集之后要進(jìn)?存儲(chǔ)。數(shù)據(jù)存儲(chǔ)的技術(shù)選型依據(jù)有三點(diǎn):第?點(diǎn)取決于數(shù)據(jù)源的類型和采集?式。?如?結(jié)構(gòu)化的數(shù)據(jù)不可能拿?個(gè)關(guān)系數(shù)據(jù)庫去存儲(chǔ)。采集?式如果是流失處理,那么傳過來放到Kafka是最好的?式。第?點(diǎn)取決于采集之后數(shù)據(jù)的格式和規(guī)模。?如數(shù)據(jù)格式是?檔型的,能選的存儲(chǔ)?式就是?檔型數(shù)據(jù)庫,例如MongoDB;采集后的數(shù)據(jù)是結(jié)構(gòu)化的,則可以考慮關(guān)系型數(shù)據(jù)庫;如果數(shù)據(jù)量達(dá)到很?規(guī)模,?選放到HDFS?。第三點(diǎn)是分析數(shù)據(jù)的應(yīng)?場(chǎng)景。根據(jù)數(shù)據(jù)的應(yīng)?場(chǎng)景來判定存儲(chǔ)技術(shù)選型。場(chǎng)景?:輿情分析做輿情分析的時(shí)候客戶要求所有數(shù)據(jù)存放兩年,?天600多萬,兩年就是700多天×600多萬,??億的數(shù)據(jù)。?且爬?爬過來的數(shù)據(jù)是輿情,做了分詞之后得到的可能是?段的?友評(píng)論,客戶要求對(duì)輿情進(jìn)?查詢,做全?本搜索,并要求響應(yīng)時(shí)間控制在10s以內(nèi)。我們后來選擇?ES,在單機(jī)上做了?個(gè)簡單的測(cè)試,?概三億多條數(shù)據(jù),?最壞的查詢條件進(jìn)?搜索,保證這個(gè)搜索是全表搜索(基于Lucence創(chuàng)建了索引,使得這種搜索更?效),整個(gè)查詢時(shí)間能控制在?秒以內(nèi)。如圖所?,爬?將數(shù)據(jù)爬到Kafka?,在??做流處理,去重去噪做語?分析,寫到ElasticSearch?。我們做?數(shù)據(jù)的?個(gè)特點(diǎn)是多數(shù)據(jù)庫,會(huì)根據(jù)不同的場(chǎng)景選擇不同的數(shù)據(jù)庫,所以會(huì)產(chǎn)??量的冗余。場(chǎng)景?:商業(yè)智能產(chǎn)品BI產(chǎn)品主要針對(duì)數(shù)據(jù)集進(jìn)?的數(shù)據(jù)分析以聚合運(yùn)算為主,?如求合、求平均數(shù)、求同?、求環(huán)?、求其他的平?差或之類的標(biāo)準(zhǔn)?差。我們既要滿??數(shù)據(jù)量的?平可伸縮,?要滿??性能的聚合運(yùn)算。選擇Parquet列式存儲(chǔ),可以同時(shí)滿?這兩個(gè)需求。場(chǎng)景三:Airbnb的?數(shù)據(jù)平臺(tái)Airbnb的?數(shù)據(jù)來?兩塊:?是本?的業(yè)務(wù)數(shù)據(jù),?是?量的事件。數(shù)據(jù)源不同,采集?式也不?樣。?志數(shù)據(jù)通過發(fā)送Kafka事件,?線上數(shù)據(jù)則通過Sqoop同步。數(shù)據(jù)存儲(chǔ)選擇HDFS集群,然后通過Presto對(duì)Hive表執(zhí)?即席查詢。S3是?個(gè)獨(dú)?的存儲(chǔ)系統(tǒng)。四、數(shù)據(jù)處理數(shù)據(jù)處理分為三?類:第?類是從業(yè)務(wù)的?度,細(xì)分為查詢檢索、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、深度分析,其中深度分析分為機(jī)器學(xué)習(xí)和神經(jīng)?絡(luò)。第?類是從技術(shù)的?度,細(xì)分為Batch、SQL、流式處理、machinelearning、Deeplearning。第三類是編程模型,細(xì)分為離線編程模型、內(nèi)存編程模型、實(shí)時(shí)編程模型。結(jié)合前?講述的數(shù)據(jù)源特點(diǎn)、分類、采集?式、存儲(chǔ)選型、數(shù)據(jù)分析、數(shù)據(jù)處理,我在這?給出?個(gè)總體的?數(shù)據(jù)平臺(tái)的架構(gòu)。值得注意的是,架構(gòu)圖中去掉了監(jiān)控、資源協(xié)調(diào)、安全?志等。左側(cè)是數(shù)據(jù)源,有實(shí)時(shí)流的數(shù)據(jù)(可能是結(jié)構(gòu)化、?結(jié)構(gòu)化,但其特點(diǎn)是實(shí)時(shí)的),有離線數(shù)據(jù),離線數(shù)據(jù)?般采?的多為ETL的?具,常見的做法是在?數(shù)據(jù)平臺(tái)?使?Sqoop或Flume去同步數(shù)據(jù),或調(diào)?些NIO的框架去讀取加載,然后寫到HDFS??,當(dāng)然也有?些特別的技術(shù)存儲(chǔ)的類型,?如HAWQ就是?個(gè)?持分布式、?持事務(wù)?致性的開源數(shù)據(jù)庫。從業(yè)務(wù)場(chǎng)景來看,如果我們做統(tǒng)計(jì)分析,就可以使?SQL或MapR
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 科技推動(dòng)下的現(xiàn)代服務(wù)業(yè)人才培訓(xùn)策略
- 知識(shí)產(chǎn)權(quán)利用效率的提升與管理流程再造
- 生產(chǎn)部門質(zhì)量管理體系的持續(xù)改進(jìn)策略
- 科技發(fā)展下的生產(chǎn)安全教育與培訓(xùn)新模式
- 知識(shí)產(chǎn)權(quán)視角下的知識(shí)共享經(jīng)濟(jì)發(fā)展趨勢(shì)研究
- 1.1.2集合的基本關(guān)系課件 高一上學(xué)期數(shù)學(xué)人教B版(2019)必修第一冊(cè)
- 科技醫(yī)療中電動(dòng)工具的使用技巧和注意事項(xiàng)
- 科技企業(yè)成功經(jīng)驗(yàn)分享創(chuàng)新驅(qū)動(dòng)發(fā)展
- 電商直播模式下的消費(fèi)者互動(dòng)與購買行為
- 知識(shí)產(chǎn)權(quán)與數(shù)字化文化產(chǎn)品的保護(hù)
- 2024年養(yǎng)老護(hù)理員(三級(jí))資格理論考試題庫(濃縮500題)
- 鐵路專用線設(shè)計(jì)規(guī)范(試行)(TB 10638-2019)
- 濰坊環(huán)境工程職業(yè)學(xué)院單招職業(yè)技能測(cè)試參考試題庫(含答案)
- 2024年山東司法警官職業(yè)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 物業(yè)客服課件培訓(xùn)模板
- 人教版PEP四年級(jí)英語下冊(cè)全冊(cè)教學(xué)設(shè)計(jì)表格教案
- 制造業(yè)面臨的挑戰(zhàn)與發(fā)展對(duì)策
- 高速公路綠化工程施工
- 發(fā)展?jié)h語-初級(jí)讀寫-第一課-你好
- 化工公司原址污染場(chǎng)地污染土壤治理修復(fù)方案
- 法蘭標(biāo)準(zhǔn)尺寸表(美標(biāo)、日標(biāo)、德標(biāo))
評(píng)論
0/150
提交評(píng)論