Redshift Spectrum架構(gòu)介紹及最佳實(shí)踐_第1頁
Redshift Spectrum架構(gòu)介紹及最佳實(shí)踐_第2頁
Redshift Spectrum架構(gòu)介紹及最佳實(shí)踐_第3頁
Redshift Spectrum架構(gòu)介紹及最佳實(shí)踐_第4頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 Redshift Spectrum 架構(gòu)介紹及最佳實(shí)踐隨著數(shù)據(jù)存儲技術(shù)的快速發(fā)展,眾多企業(yè)客戶可以以低成本存儲 PB 級別甚者 EB 級別的數(shù)據(jù)。這使得大數(shù)據(jù)分析在近幾年來不但成為現(xiàn)實(shí)而且愈發(fā)火熱。然而真正實(shí)現(xiàn)海量數(shù)據(jù)的分析既要有存儲海量數(shù)據(jù)的資源,又要有足夠強(qiáng)大的分析能力。近年來,我們看到數(shù)據(jù)分析能力的發(fā)展并沒有追趕上存儲技術(shù)的發(fā)展速度 ?,F(xiàn)實(shí)中企業(yè)客戶雖然有了可以收集并存儲大量數(shù)據(jù)的能力,但很多數(shù)據(jù)并不能被有效的分析甚至根本未作任何分析,形成了所謂的暗數(shù)據(jù)。這使得數(shù)據(jù)分析能力成為實(shí)現(xiàn)大數(shù)據(jù)分析的真正瓶頸。作為一個(gè)托管的數(shù)據(jù)倉庫服務(wù),Amazon Redshift 從它發(fā)布至今已經(jīng)幫助全球

2、成千上萬的客戶解決了 PB 級別數(shù)據(jù)的分析能力,實(shí)現(xiàn)了復(fù)雜 SQL 的快速查詢。但隨著數(shù)據(jù)的飛速增長,我們看到越來越多的客戶數(shù)據(jù)開始逼近 EB 級別。對于這樣體量的大數(shù)據(jù),雖然 Redshift 也可以支持快速的復(fù)雜 SQL 查詢,但畢竟我們需要啟動更多的 Redshift 集群,消耗更多的 CPU 和存儲成本,同時(shí)還要付出更多的數(shù)據(jù)加載時(shí)間。相反如果我們?yōu)榱斯?jié)省資源和成本把數(shù)據(jù)放在 S3 上,通過 EMR 集群也可以實(shí)現(xiàn)快速低成本的數(shù)據(jù)清理,但針對復(fù)雜的(諸如 Join 類)的查詢速度會很慢,不能很好支持。這形成了一個(gè)魚與熊掌不可兼得的選擇題。為了真正擺脫數(shù)據(jù)分析的瓶頸、消滅暗數(shù)據(jù),我們的客

3、戶需要既能高效執(zhí)行復(fù)雜的查詢,又能享受高度可擴(kuò)展的數(shù)據(jù)并行處理,也能利用近乎無限的、低成本的 S3 存儲資源,還要可以支持多種常用的數(shù)據(jù)格式。滿足這種”既又也還”的任性就是我們的新服務(wù)Redshift Spectrum的使命。Redshift Spectrum 介紹Redshift Spectrum 可以幫助客戶通過 Redshift 直接查詢 S3 中的數(shù)據(jù)。如同 Amazon EMR,通過 Redshift Spectrum 客戶可以方便的使用多種開放數(shù)據(jù)格式并享有低廉的存儲成本,同時(shí)還可以輕松擴(kuò)展到上千個(gè)計(jì)算節(jié)點(diǎn)實(shí)現(xiàn)數(shù)據(jù)的提取、篩選、投影、聚合、group、排序等等操作。Redshift

4、 Spectrum 采用了無服務(wù)器架構(gòu),所以客戶不需要額外配置或管理任何資源,而只需為 Redshift Spectrum 的用量付費(fèi)。使用方面,Redshift Spectrum 享有和 Amazon Redshift 一樣的復(fù)雜查詢的優(yōu)化機(jī)制、本地?cái)?shù)據(jù)的快速讀取以及對標(biāo)準(zhǔn) SQL 的支持。結(jié)合上述功能特點(diǎn),Redshift Spectrum 可以在幾分鐘內(nèi)完成對 EB 級別的數(shù)據(jù)的復(fù)雜查詢,這使它在眾多大數(shù)據(jù)分析服務(wù)中脫穎而出。我們做了一個(gè)實(shí)驗(yàn),在對一個(gè) EB 的數(shù)據(jù)做涉及四個(gè)表的 join、filter 和 group 的查詢時(shí),1000個(gè)節(jié)點(diǎn)的 Hive 集群預(yù)估需要耗時(shí)5年,而 Re

5、dshift Spectrum只用了173秒。另外 Redshift Spectrum 是 Amazon Redshift 的一個(gè)內(nèi)置功能,所以使用 Redshift Spectrum 對 Redshift 客戶現(xiàn)有的查詢服務(wù)和 BI 工具不會有任何影響。在 Redshift Spectrum 的底層,我們負(fù)責(zé)管理著成千上萬的跨多個(gè)可用區(qū)的計(jì)算節(jié)點(diǎn)。這些節(jié)點(diǎn)根據(jù)客戶查詢?nèi)蝿?wù)的復(fù)雜度和數(shù)據(jù)量實(shí)現(xiàn)透明的擴(kuò)展和分配,前端的客戶無需做任何資源部署和配置。Redshift Spectrum 也很好的支持了高并發(fā) 客戶可以通過任何多個(gè) Amazon Redshift 集群同時(shí)訪問 S3 上的數(shù)據(jù)。Reds

6、hift Spectrum 上一個(gè)查詢?nèi)蝿?wù)的生命周期一切從 Redshift Spectrum 的查詢?nèi)蝿?wù)提交給 Amazon Redshift 集群的領(lǐng)導(dǎo)節(jié)點(diǎn)開始。首先,領(lǐng)導(dǎo)節(jié)點(diǎn)負(fù)責(zé)優(yōu)化、編譯、并推送查詢?nèi)蝿?wù)給 Amazon Redshift 集群的計(jì)算節(jié)點(diǎn)。然后,計(jì)算節(jié)點(diǎn)從外部表獲得數(shù)據(jù)目錄,并基于查詢?nèi)蝿?wù)里的 join 和 filter 動態(tài)移除不相關(guān)的數(shù)據(jù)分區(qū)。這些計(jì)算節(jié)點(diǎn)同時(shí)也會檢測在 Redshift 本地是否已有部分查詢數(shù)據(jù),從而只從 S3上 掃描本地沒有的數(shù)據(jù)以提升效率。接下來,Amazon Redshift 的計(jì)算節(jié)點(diǎn)會基于需要處理的數(shù)據(jù)對象生成多個(gè)查詢需求,并行提交給 Re

7、dshift Spectrum、Redshift Spectrum 再據(jù)此啟動上千個(gè)工作線程。 這些工作線程進(jìn)一步從 S3 上掃描、篩選并聚合數(shù)據(jù),將處理好的結(jié)果數(shù)據(jù)傳回 Amazon Redshift 集群。最后,傳回的結(jié)果數(shù)據(jù)在 Redshift 集群本地作 join 和 merge 操作,然后將最終結(jié)果返回給客戶。Redshift Spectrum 的優(yōu)勢Redshift Spectrum 的架構(gòu)設(shè)計(jì)有很多優(yōu)勢。第一,剝離計(jì)算與 S3 上的存儲,使計(jì)算資源可以獨(dú)立彈性擴(kuò)展。第二,大幅提升了并發(fā)效率,因?yàn)榭蛻艨梢杂枚鄠€(gè) Redshift 集群訪問同一組 S3 上的數(shù)據(jù)。第三, Redshift Spectrum 沿用了 Amazon Redshift 的查詢優(yōu)化機(jī)制,可以生成高效的查詢規(guī)劃,即便面對諸如多表 join 或者帶統(tǒng)計(jì)函數(shù)(window function)的復(fù)雜查詢也能勝任。第四,可以對多種格式的數(shù)據(jù)源直接查詢 Parquet, RCFile, CSV, TSV, Sequence, Avro, RegexSerDe 等等。這意味著我們無需再做數(shù)據(jù)加載和轉(zhuǎn)化,同時(shí)也消除了存儲重復(fù)數(shù)據(jù)帶來的成本浪費(fèi)。第五,通過對開放數(shù)據(jù)格式的支持,客戶的不同團(tuán)隊(duì)也可以借助其他的 AWS 服務(wù)訪問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論