關于云-云數據管理與挑戰(zhàn)@淘寶商學院_第1頁
關于云-云數據管理與挑戰(zhàn)@淘寶商學院_第2頁
關于云-云數據管理與挑戰(zhàn)@淘寶商學院_第3頁
關于云-云數據管理與挑戰(zhàn)@淘寶商學院_第4頁
關于云-云數據管理與挑戰(zhàn)@淘寶商學院_第5頁
已閱讀5頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

云數據管理技術與挑戰(zhàn) 中國人民大學 主要內容 2 云計算與云數據管理概述 各大公司的云數據管理技術 人民大學研究團隊的工作 云數據管理的研究挑戰(zhàn) 云數據管理的新思維 云數據管理準則 ( 1) Partition Everything and key-value storage 切分萬物以治之 數據庫的第一范式無法滿足 云數據管理準則 ( 2) Embrace Inconsistency 容不同乃成大同 數據庫的 ACID的屬性無法滿足 云數據管理準則 ( 3) Backup everything with three copies 狡兔三窟方高枕 每個數據都有三個備份,達到 99.999999%的保障度 云數據管理準則 ( 4) Scalable and high performance 運籌滄海量兼容 提供一個可伸縮的,處理和分析海量數據的平臺 撥云見日 切分萬物以治之 容不同乃成大同 狡兔三窟方高枕 運籌滄海量兼容 主要內容 11 云計算與云數據管理概述 各大公司的云數據管理技術 人民大學研究團隊的工作 云數據管理的研究挑戰(zhàn) 主要內容 Google 文件系統(tǒng) (GFS) 適用于大規(guī)模數據密集型應用程序的可擴展分布式文件系統(tǒng) 多個部署 GFS的集群已經建成 目前最大的集群為: 10000多個存儲節(jié)點 300+PB的存儲容量 可供不同機器上的上百用戶同時讀取 介紹:觀察 1 控件的故障時常發(fā)生 系統(tǒng)集成了實時監(jiān)控、錯誤檢測、容錯性和自動恢復等功能 超大文件(與普通文件相比) GB大小的文件很正常 介紹:觀察 2 大部分文件修改都是添加新的內容 需要考慮優(yōu)化性能和保證原子性 協(xié)同設計應用程序和 API有利于增加整個系統(tǒng)的靈活性 設計 集群包含一個 master和多個 chunkservers,并且可供多個用戶讀取 GAE Web應用 GAE Web服務基礎設施 分布式存儲服務 應用程序運行時 環(huán)境 應用開發(fā)套件 管理控制臺 Google App Engine 分布式存儲服務 GAE提供的分布式存儲服務基于 BigTable技術 通過 Java JDO/JPA接口或 Python數據庫標準接口訪問和操作數據庫 優(yōu)勢:成本低、支持伸縮、并發(fā)性好、易管理 采用樂觀的并發(fā)控制 應用程序運行時環(huán)境 GAE的應用程序運行時環(huán)境是一個可伸縮的Web程序運行平臺 目前支持 Python和 Java 可以使用 Google提供的豐富的應用服務,如分布式存儲服務、網頁抓取、郵件、圖像、 Google賬戶等 云端應用 Google Docs是基于 Web的文字處理和電子表格程序,支持在線協(xié)作、文檔恢復、文檔檢索 Gmail是有效的電子郵件工具,支持即時消息、視頻聊天、會話檢索等 IBM Ensembles IBM TSAM IBM WebSphere CloudBurst IBM LotusLive IBM RC2 云環(huán)境管理解決方案 IBM TSAM IBM Tivoli Service Automation Manager(TSAM) 管理應用服務生命周期的方案 IBM WebSphere CloudBurst IBM WebSphere CloudBurst Application(WCA) 幫助用戶創(chuàng)建和管理面向服務的私有云平臺 有效整合了云基礎設施層和云平臺層 Web控制臺 基礎設施管理 虛擬化解決方案部署 用戶合格組管理 虛擬器件鏡像模板管理 監(jiān)控、審計和計費 腳本包管理 數據中心資源 管理 CRM系統(tǒng) ERP系統(tǒng) 網上銀行 WebSphere Application Server WebSphere Process Server WebSphere Porial DB2 數據中心管理員 應用系統(tǒng) SOA環(huán)境 WebSphere Cloudburst Appliance IBM LotusLive 通過 Web方式交付的服務 會議服務 LotusLive Meetings LotusLive Events 辦公協(xié)作服務 LotusLive Engage LotusLive Connections 電子郵件服務 LotusLive Notes IBM RC2 IBM Research Compute Cloud 東京 北京 新德里 海法 蘇黎世 紐約 奧斯丁 阿爾瑪登 Amazon Web Service Amazon S3 Amazon EC2 Amazon SimpleDB Amazon SQS Amazon S3 Amazon Simple Storage Service(S3) 云計算平臺提供的可靠的網絡存儲服務 通過互聯(lián)網訪問和管理 安全性 賬戶認證 訪問控制列表 查詢字符串認證 可靠性 冗余備份的存儲機制 Amazon SimpleDB Amazon SimpleDB是一種支持結構化數據存儲和查詢操作的輕量級數據庫服務 存儲模型:域 (Domain)、項 (Item)、屬性(Attribute) 現有不足 延遲較大 不能保證順序執(zhí)行用戶更新 與關系型數據庫兼容有限 Amazon EC2 Amazon EC2是一種云基礎設施服務 用戶根據業(yè)務的需求自由地申請或者終止資源使用 優(yōu)勢 可伸縮性 節(jié)省成本 使用靈活 安全可靠 容錯 基礎服務 數據庫服務 應用開發(fā)服務 應用打包服務 基礎服務 F基礎服務為上層服務和應用提供了安全、可靠的支撐環(huán)境 三個關鍵技術 多租戶 元數據 安全架構 數據庫服務 F數據庫服務 數據模型 數據對象持久化 采用關系屬性定義數據對象間的關系 數據操作 Web頁面接口 編程接口 訪問控制 管理安全 記錄安全 Windows Azure .NET服務 SQL Azure Live服務 Microsoft Windows Azure Azure Fabric 控制器 存儲服務 計算服務 開發(fā)環(huán)境 Windows Live Office Live Exchange Online SharePoint Online Dynamic CRM Online Live服務 .NET服務 SQL服務 SharePoint服務 Dynamic CRM 服務 應用 Azure服務平臺 Windows Azure Microsoft SQL Azure 云環(huán)境的數據管理系統(tǒng) 不支持 CLR、空間數據及一些系統(tǒng)管理功能(如啟動、停止 SQL Server) 優(yōu)勢 無需對數據庫進行定期備份 提供統(tǒng)一數據訪問接口 提供更健壯的服務 主要內容 36 云計算與云數據管理概述 各大公司的云數據管理技術 人民大學研究團隊的部分工作 云數據管理的研究挑戰(zhàn) 人大 阿里巴巴 云 項目簡介: 由人大多個學院和教授共同合作 針對淘寶 阿里巴巴 海量的交易 數據進行分析和挖掘 研究任務 適合研究任務: 宏觀經濟指數分析 -參照人大三大發(fā)布項目 開發(fā)指數平臺,集成多種統(tǒng)計算法模型,提供橫向對比分析 設計周期性自動指數計算系統(tǒng),可以按月、周、天自動計算指數,發(fā)布類似 K線圖的動態(tài)指數 38 人民大學新開的 分布式系統(tǒng)與云計算 課程 ( 2010年教育部 IBM精品課程) 39 分布式系統(tǒng)概述 分布式云計算技術綜述 分布式云計算平臺 分布式云計算程序開發(fā) 已編寫教材介紹 分布式系統(tǒng)及云計算概論 清華大學出版社 Hadoop實戰(zhàn) 機械工業(yè)出版社 Coming soon 課程網站 網址: /xnh 下載教學課件 下載模擬試卷 觀看課程 視頻 獲取課程內容 主要內容 42 云計算與云數據管理概述 各大公司的云數據管理技術 人民大學研究團隊的工作 云數據管理的研究挑戰(zhàn) 基于云上的數據管理的特點 計算資源是可伸縮的 數據具有備份 數據存儲在大量分布的結點之上 基于云上的數據管理的挑戰(zhàn)(一) 數據的自我管理和自調優(yōu) 基于云上的數據管理的挑戰(zhàn)(二) 基于大量節(jié)點的查詢優(yōu)化算法 基于大量節(jié)點的索引結構 基于云上的數據管理的挑戰(zhàn)(三) 資源調度和負載均衡 多租戶情況中 總結 47 海量數據管理:新的挑戰(zhàn)和機遇; 企業(yè)和學術界共同面對的課題 云數據管理技術方興未艾 國產數據庫企業(yè)發(fā)展的一個新的機遇和挑戰(zhàn) Further Reading F. Chang et al. Bigtable: A distributed storage system for structured data. In OSDI, 2006. J. Dean and S. Ghemawat. MapReduce: Simplified data processing on large clusters. In OSDI, 2004. G. DeCandia et al. Dynamo: Amazons highly available key-value store. In SOSP, 2007. S. Ghemawat, H. Gobioff, and S.-T. Leung. The Google File System. In Proc. SOSP, 2003. D. Kossmann. The state of the art in distributed query processing. ACM Computing Surveys, 32(4):422469, 2000. Further Reading Efficient Bulk Insertion into a Distributed Ordered Table (SIGMOD 2008) Adam Silberstein, Brian Cooper, Utkarsh Srivastava, Erik Vee, Ramana Yerneni, Raghu Ramakrishnan PNUTS: Yahoo!s Hosted Data Serving Platform (VLDB 2008) Brian Cooper, Raghu Ramakrishnan, Utkarsh Srivastava, Adam Silberstein, Phil Bohannon, Hans-Arno Jacobsen, Nick Puz, Daniel Weaver, Ramana Yerneni Asynchronous View Maintenance for VLSD Databases, Parag Agrawal, Adam Silberstein, Brian F. Cooper, Utkarsh Srivastava and Raghu Ramakrishnan SIGMOD 2009 Cloud Storage Design in a PNUTShell Brian F. Cooper, Raghu Ramakrishnan, and Utkarsh Srivastava Beautiful Data, OReilly Media, 2009 Further Reading F. Chang et al. Bigtable: A distributed storage system for structured data. In OSDI, 2006. J. Dean and S. Ghemawat. MapReduce: Simplified data processing on large clusters. In OSDI, 2004. G. DeCandia et al. Dynamo: Amaz

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論