基于AWS和Apache Kylin實現(xiàn)數(shù)據(jù)分析服務(wù)_第1頁
基于AWS和Apache Kylin實現(xiàn)數(shù)據(jù)分析服務(wù)_第2頁
基于AWS和Apache Kylin實現(xiàn)數(shù)據(jù)分析服務(wù)_第3頁
基于AWS和Apache Kylin實現(xiàn)數(shù)據(jù)分析服務(wù)_第4頁
基于AWS和Apache Kylin實現(xiàn)數(shù)據(jù)分析服務(wù)_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、基于AWS和Apache Kylin實現(xiàn)數(shù)據(jù)分析服務(wù)技術(shù)創(chuàng)新 變革未來創(chuàng)立于 2012 年提供一站式建站服務(wù)實現(xiàn)盈利的時間: 兩個月服務(wù)全球數(shù)百萬客戶月均訪問量達到千萬級別2016年推出本土服務(wù)上線了已為數(shù)十萬中國用戶提供建站服務(wù)2017年率先推出微信小程序上線服務(wù)領(lǐng)先的微信小程序平臺提供商Strikingly Analytics是什么?訪問者流 (ClickStream) 分析服務(wù)使用 Strikingly/上線了 建站的客戶和發(fā)布微信小程序的 客戶實現(xiàn)多維分析,為商業(yè)智能 (BI) 決策提供支撐提供全面的一站式建站服務(wù)方便客戶查詢和訪問數(shù)據(jù),使得 不了解相關(guān)技術(shù)的人也可以從大 數(shù)據(jù)分析當(dāng)中

2、獲益掌握原始數(shù)據(jù),支撐更為靈活細(xì) 致的商業(yè)分析需求為什么?Strikingly Analytics處理超大規(guī)模數(shù)據(jù)運維數(shù)據(jù)平臺的基礎(chǔ)設(shè)施響應(yīng)通用類型的查詢請求快速支持新增需求( 快速迭代 )支撐多租戶、亞秒級查詢挑戰(zhàn)功能強大的云服務(wù)豐富而全面的開源生態(tài)系統(tǒng)成熟的相關(guān)技術(shù)分析報告和論文從前端到后端各個部門的配合可以利用的資源使用云服務(wù) (AWS) 和開源工具 (Hadoop、Kylin)可以快速實現(xiàn)相關(guān)數(shù)據(jù)分析服務(wù)!Amazon Web Services構(gòu)一致AWS 相關(guān)技術(shù)文檔非常豐富。一 般的使用問題都可以使用 Google 解決第三方工具鏈比較豐富和完善運維方面Strikingly/上線了

3、自創(chuàng)立起即采 用 AWS 向全球客戶提供服務(wù)。在 中國區(qū)仍使用 AWS 以保持系統(tǒng)架生態(tài)系統(tǒng)繁榮,許多開源大數(shù)據(jù) 工具提供針對 AWS 相關(guān)服務(wù)的官 方擴展和技術(shù)文檔AWS Java SDK 功能覆蓋完整,使 用方便,EMR 等服務(wù)默認(rèn)集成各 類 Jar 包,可以直接使用S3,DynamoDB 等服務(wù)在全球范圍內(nèi)久經(jīng)考驗,值得信賴開發(fā)方面Apache Kylin運維方面基于 Hadoop 生態(tài)環(huán)境,方便與EMR 配合使用,減輕了維護基礎(chǔ) 設(shè)施的壓力節(jié)點數(shù)據(jù)主要儲存在 HBase 等外 部儲存中,容易實現(xiàn)容器化節(jié)點類型簡單 (Job、Query 等) 相互耦合較低,數(shù)據(jù) Rebalance 由底

4、層儲存實現(xiàn)支持 SQL 接口,提供多維度上接近 Ad-hoc 的查詢支持在預(yù)定義的模型上提供亞秒級、 多租戶并發(fā)查詢的服務(wù)支持 JDBC 和 RESTful API 兩種 查詢模式可以使用 RESTful API 進行部分 數(shù)據(jù)維護操作開發(fā)方面Strikingly Analytics真正的挑戰(zhàn)提供真實可靠的數(shù)據(jù)自動化的故障處理和恢復(fù)協(xié)調(diào)系統(tǒng)架構(gòu)當(dāng)中各個組件的運行實現(xiàn)穩(wěn)定的用戶服務(wù)和較低的數(shù)據(jù)傳達延遲實現(xiàn)從數(shù)據(jù)收集到服務(wù)用戶整條管線的正確運行!系統(tǒng)架構(gòu)系統(tǒng)架構(gòu)Application Load Balancer穩(wěn)定、高可用、可自 動擴展自動導(dǎo)出 Access Log 到 S3導(dǎo)出延遲 5- 10

5、分鐘方便結(jié)合 ECS 服務(wù)數(shù)據(jù)收集Elastic MapReduce簡單配置即可自動部 署運行完整支持 Hadoop 生 態(tài)環(huán)境默認(rèn)集成讀寫 S3、 DynamoDB 等服務(wù)的 Java Library自動備份到 S3數(shù)據(jù)處理Elastic Container Service快速部署運行可自動擴展、緊密集 成 ALBTask 級別權(quán)限管理, 方便控制其他服務(wù)的 訪問數(shù)據(jù)服務(wù)數(shù)據(jù)收集數(shù)據(jù)收集第三方服務(wù)研發(fā)成本低數(shù)據(jù)延遲較大可定制性和靈活性較差昂貴Application Load Balancer研發(fā)成本稍高數(shù)據(jù)延遲較低可定制性和靈活性高便宜(10 x)數(shù)據(jù)平臺數(shù)據(jù)平臺自行部署靈活性高配置和運維成

6、本高需要自己安裝 AWS 相關(guān)服務(wù)的Java LibraryElastic MapReduce靈活性略低配置和運維成本低自動集成 AWS 相關(guān)服務(wù) Jar 包,方便部署自研的 ETL 過程自動備份到 S3數(shù)據(jù)處理數(shù)據(jù)處理Apache Kylin模型簡單易用兼容 EMR 部署的 Hadoop 環(huán)境接近 Ad-hoc 的 SQL 查詢多租戶、亞秒級數(shù)據(jù)查詢易用的 RESTful API 接口開源!容器化 (降低部署成本)改進運維方式,方便在容器化和 云部署的環(huán)境下執(zhí)行運維任務(wù)增強的錯誤隔離和錯誤處理能力將 Kylin 嵌入數(shù)據(jù)處理管線TODO(開源版本)需要方便的工具處理 Kylin 和各種 AW

7、S 服務(wù)的交互!任務(wù)調(diào)度與協(xié)調(diào)任務(wù)調(diào)度與協(xié)調(diào)激發(fā)和監(jiān)控 Job 節(jié)點 完成構(gòu)建任務(wù),負(fù)責(zé) 通知 Query 節(jié)點集成備份和垃圾清理 任務(wù),直接備份數(shù)據(jù) 到 S3 和操作儲存在HBase/HDFS 上的數(shù)據(jù)集成運維任務(wù)根據(jù)系統(tǒng)狀態(tài)自動批 量規(guī)劃構(gòu)建任務(wù)確保在分布式環(huán)境下 各類構(gòu)建任務(wù)的有序 激發(fā)與運行智能控制任務(wù)構(gòu)建順 序,降低集群死鎖概 率并提高資源的利用 率集成調(diào)度策略實現(xiàn)錯誤隔離,防止 全量構(gòu)建失敗導(dǎo)致查 詢端觀察到查詢錯誤 或數(shù)據(jù)不一致自動錯誤恢復(fù),發(fā)現(xiàn) 上游數(shù)據(jù)刷新時,自 動刷新下游有依賴關(guān) 系的 Segment集成錯誤處理數(shù)據(jù)查詢數(shù)據(jù)查詢Elastic Container Service集成服務(wù)監(jiān)控支持 Auto-Scale方便對接到 ALB仍需要維護 EC2 實例數(shù)據(jù)導(dǎo)出延遲較低埋點數(shù)據(jù) P99 響應(yīng)時間低于 4 ms誤處理機制,多數(shù)問 題無需人工參與即可 自動恢復(fù)ClickStream 查詢總結(jié)數(shù)據(jù)收集數(shù)據(jù)處理數(shù)據(jù)服務(wù)穩(wěn)定高可用較為穩(wěn)定可用強穩(wěn)定可用可自適應(yīng)擴展強運維自動化可自適應(yīng)擴展強數(shù)據(jù)真實性完

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論