




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、 cstorcstor超低功耗超低功耗云存儲系統(tǒng)云存儲系統(tǒng)google文件系統(tǒng)(gfs)google48%msn19%yahoo33%客戶端客戶端客戶端互為備份管理節(jié)點(diǎn)gfs主節(jié)點(diǎn)gfs主節(jié)點(diǎn)c0c1c2c5數(shù)據(jù)結(jié)點(diǎn)1c0c2c5數(shù)據(jù)結(jié)點(diǎn)nc1c5數(shù)據(jù)結(jié)點(diǎn)2客戶端客戶端客戶端客戶端客戶端客戶端c1 google需要一個(gè)支持海量存儲的文件系統(tǒng)需要一個(gè)支持海量存儲的文件系統(tǒng) 購置昂貴的分布式文件系統(tǒng)與硬件?google設(shè)計(jì)gfs的動機(jī)是否可以在一堆廉價(jià)且不可靠的硬件上構(gòu)建可靠的分布式文件系統(tǒng)? 硬件出錯是正常而非異常硬件出錯是正常而非異常 系統(tǒng)應(yīng)當(dāng)由大量廉價(jià)、易損的硬件組成 必須保持文件系統(tǒng)整體的
2、可靠性 主要負(fù)載是流數(shù)據(jù)讀寫主要負(fù)載是流數(shù)據(jù)讀寫 主要用于程序處理批量數(shù)據(jù),而非與用戶的交互或隨機(jī)讀寫 數(shù)據(jù)寫主要是“追加寫”,“插入寫”非常少 需要存儲大尺寸的文件需要存儲大尺寸的文件 存儲的文件尺寸可能是gb或tb量級,而且應(yīng)當(dāng)能支持存儲成千上萬的大尺寸文件gfs的假設(shè)與目標(biāo) 將文件劃分為若干塊(將文件劃分為若干塊(chunk)存儲)存儲 每個(gè)塊固定大?。?4m) 通過冗余來提高可靠性通過冗余來提高可靠性 每個(gè)數(shù)據(jù)塊至少在3個(gè)數(shù)據(jù)塊服務(wù)器上冗余 數(shù)據(jù)塊損壞概率? 通過單個(gè)通過單個(gè)master來協(xié)調(diào)數(shù)據(jù)訪問、元數(shù)據(jù)存儲來協(xié)調(diào)數(shù)據(jù)訪問、元數(shù)據(jù)存儲 結(jié)構(gòu)簡單,容易保持元數(shù)據(jù)一致性 無緩存無緩存
3、why?gfs的設(shè)計(jì)思路 單一master, 若干chunkservergfs的架構(gòu)1、文件存儲方式2、數(shù)據(jù)讀寫流程 分布式系統(tǒng)設(shè)計(jì)告訴我們:分布式系統(tǒng)設(shè)計(jì)告訴我們: 這是單點(diǎn)故障 這是性能瓶頸 gfs的解決辦法的解決辦法 單點(diǎn)故障問題單一master問題采用多個(gè)(如3個(gè))影子master節(jié)點(diǎn)進(jìn)行熱備,一旦主節(jié)點(diǎn)損壞,立刻選舉一個(gè)新的主節(jié)點(diǎn)服務(wù) gfs的解決辦法 性能瓶頸問題單一master問題盡可能減少數(shù)據(jù)存取中master的參與程度不使用master讀取數(shù)據(jù),僅用于保存元數(shù)據(jù)客戶端緩存元數(shù)據(jù)采用大尺寸的數(shù)據(jù)塊(64m)數(shù)據(jù)修改順序交由primary chunk server完成simple
4、, and good enough! 存儲元數(shù)據(jù)存儲元數(shù)據(jù) 文件系統(tǒng)目錄管理與加鎖文件系統(tǒng)目錄管理與加鎖 與與chunkserver進(jìn)行周期性通信進(jìn)行周期性通信 發(fā)送指令,搜集狀態(tài),跟蹤數(shù)據(jù)塊的完好性 數(shù)據(jù)塊創(chuàng)建、復(fù)制及負(fù)載均衡數(shù)據(jù)塊創(chuàng)建、復(fù)制及負(fù)載均衡 對chunkserver的空間使用和訪問速度進(jìn)行負(fù)載均衡 對數(shù)據(jù)塊進(jìn)行復(fù)制、分散到chunkserver上 一旦數(shù)據(jù)塊冗余數(shù)小于最低數(shù),就發(fā)起復(fù)制操作 平滑數(shù)據(jù)存儲和訪問請求的負(fù)載master節(jié)點(diǎn)的任務(wù) 垃圾回收垃圾回收 在日志中記錄刪除操作,并將文件改名隱藏 緩慢地回收隱藏文件 與傳統(tǒng)文件刪除相比更簡單、更安全 陳舊數(shù)據(jù)塊刪除陳舊數(shù)據(jù)塊刪除
5、 探測陳舊的數(shù)據(jù)塊,并刪除master節(jié)點(diǎn)的任務(wù) 采用中心服務(wù)器模式采用中心服務(wù)器模式 可以方便地增加chunk server master掌握系統(tǒng)內(nèi)所有chunk server的情況,方便進(jìn)行負(fù)載均衡 不存在元數(shù)據(jù)的一致性問題gfs架構(gòu)的特點(diǎn) 不緩存數(shù)據(jù)不緩存數(shù)據(jù) gfs的文件操作大部分是流式讀寫,不存在大量的重復(fù)讀寫,使用cache對性能提高不大 chunk server上的數(shù)據(jù)存取使用本地文件系統(tǒng),如果某個(gè)chunk讀取頻繁,文件系統(tǒng)具有cache 從可行性看,cache與實(shí)際數(shù)據(jù)的一致性維護(hù)也極其復(fù)雜gfs架構(gòu)的特點(diǎn) 在用戶態(tài)下實(shí)現(xiàn)在用戶態(tài)下實(shí)現(xiàn) 直接利用chunk server的文件
6、系統(tǒng)存取chunk,實(shí)現(xiàn)簡單 用戶態(tài)應(yīng)用調(diào)試較為簡單,利于開發(fā) 用戶態(tài)的gfs不會影響chunk server的穩(wěn)定性 提供專用的訪問接口提供專用的訪問接口 未提供標(biāo)準(zhǔn)的posix訪問接口 降低gfs的實(shí)現(xiàn)復(fù)雜度gfs架構(gòu)的特點(diǎn) gfs的容錯機(jī)制的容錯機(jī)制 chunk server容錯 每個(gè)chunk有多個(gè)存儲副本(通常是3個(gè)),分別存儲于不通的服務(wù)器上 每個(gè)chunk又劃分為若干block(64kb),每個(gè)block對應(yīng)一個(gè)32bit的校驗(yàn)碼,保證數(shù)據(jù)正確(若某個(gè)block錯誤,則轉(zhuǎn)移至其他chunk副本)gfs的容錯方法 gfs的容錯機(jī)制的容錯機(jī)制 master容錯 三類元數(shù)據(jù):命名空間(
7、目錄結(jié)構(gòu))、chunk與文件名的映射以及chunk副本的位置信息 前兩類通過日志提供容錯,chunk副本信息存儲于chunk server,master出現(xiàn)故障時(shí)可恢復(fù)gfs的容錯方法 超過50個(gè)gfs集群 每個(gè)集群包含數(shù)千個(gè)存儲節(jié)點(diǎn) 管理著pb(1015byte)級的數(shù)據(jù)gfs在google中的部署巨型、廉價(jià)、穩(wěn)定的數(shù)據(jù)中心cstor云存儲硬件架構(gòu)云存儲硬件架構(gòu)cstor云存儲軟件架構(gòu)云存儲軟件架構(gòu)cstor云存儲云存儲硬件硬件 master server (管理服務(wù)器管理服務(wù)器 ) 管理整個(gè)文件系統(tǒng),存儲各文件的元數(shù)據(jù)信息,調(diào)度各數(shù)據(jù)存儲服務(wù)器 data server (數(shù)據(jù)存儲服務(wù)器數(shù)據(jù)
8、存儲服務(wù)器 ) 存儲文件數(shù)據(jù),接受管理服務(wù)器的調(diào)度,為客戶端提供數(shù)據(jù)傳輸 client (客戶端客戶端) 從管理服務(wù)器上獲取修改元數(shù)據(jù)信息,并向數(shù)據(jù)服務(wù)器讀寫數(shù)據(jù)cstor云存儲軟件架構(gòu)云存儲軟件架構(gòu) 支持支持master節(jié)點(diǎn)雙機(jī)鏡像節(jié)點(diǎn)雙機(jī)鏡像 控制流與數(shù)據(jù)流的分離控制流與數(shù)據(jù)流的分離 cache機(jī)制機(jī)制 支持支持posix接口接口 支持加入節(jié)點(diǎn)動態(tài)擴(kuò)展支持加入節(jié)點(diǎn)動態(tài)擴(kuò)展 支持節(jié)點(diǎn)損失實(shí)時(shí)自適應(yīng)容錯支持節(jié)點(diǎn)損失實(shí)時(shí)自適應(yīng)容錯核心技術(shù)核心技術(shù) 使用主備雙節(jié)點(diǎn)方式解決單節(jié)點(diǎn)故障問題使用主備雙節(jié)點(diǎn)方式解決單節(jié)點(diǎn)故障問題 主備切換時(shí)間短,且無數(shù)據(jù)丟失主備切換時(shí)間短,且無數(shù)據(jù)丟失 數(shù)據(jù)訪問不間斷,而
9、且性能不受影響數(shù)據(jù)訪問不間斷,而且性能不受影響支持支持master節(jié)點(diǎn)雙機(jī)鏡像節(jié)點(diǎn)雙機(jī)鏡像 解決了解決了master節(jié)點(diǎn)的性能瓶頸問題節(jié)點(diǎn)的性能瓶頸問題控制流與數(shù)據(jù)流的分離控制流與數(shù)據(jù)流的分離 master節(jié)點(diǎn)在內(nèi)存中保存節(jié)點(diǎn)在內(nèi)存中保存metadata chunkserver節(jié)點(diǎn)利用本身的文件系統(tǒng)提供的節(jié)點(diǎn)利用本身的文件系統(tǒng)提供的 cache client 節(jié)點(diǎn)緩存節(jié)點(diǎn)緩存metadatacache機(jī)制機(jī)制 客戶無需學(xué)習(xí)專門的客戶無需學(xué)習(xí)專門的api接口接口 可應(yīng)用在可應(yīng)用在linux和和windows等各種平臺下等各種平臺下支持支持posix接口接口 可以任意加入節(jié)點(diǎn)(包括硬盤)以擴(kuò)展容量
10、可以任意加入節(jié)點(diǎn)(包括硬盤)以擴(kuò)展容量 采用負(fù)載均衡策略重新分布數(shù)據(jù)采用負(fù)載均衡策略重新分布數(shù)據(jù)支持加入節(jié)點(diǎn)動態(tài)擴(kuò)展支持加入節(jié)點(diǎn)動態(tài)擴(kuò)展 1:1 容錯技術(shù)容錯技術(shù) 1:2 容錯技術(shù)容錯技術(shù) 高頑存容錯技術(shù)高頑存容錯技術(shù)支持節(jié)點(diǎn)損失實(shí)時(shí)自適應(yīng)容錯支持節(jié)點(diǎn)損失實(shí)時(shí)自適應(yīng)容錯cstor云存儲界面云存儲界面cstor的性能的性能cstor性能性能 在某數(shù)據(jù)中心已經(jīng)成功應(yīng)用在某數(shù)據(jù)中心已經(jīng)成功應(yīng)用2年,期間未出現(xiàn)年,期間未出現(xiàn)系統(tǒng)故障,節(jié)點(diǎn)故障均自動屏蔽。系統(tǒng)故障,節(jié)點(diǎn)故障均自動屏蔽。 另外還用于數(shù)字地球、視頻監(jiān)控、視頻點(diǎn)播另外還用于數(shù)字地球、視頻監(jiān)控、視頻點(diǎn)播等領(lǐng)域。等領(lǐng)域。cstor云存儲的應(yīng)用云存
11、儲的應(yīng)用基于基于cstor的云分發(fā)系統(tǒng)的云分發(fā)系統(tǒng)基于基于cstor的云處理系統(tǒng)的云處理系統(tǒng)hbasemap-reducezookeepernamenodedatanodeshmasterregionserverhdfshive/pigjobtrackertasktracker 自研的超低功耗云存儲硬件節(jié)點(diǎn),功耗僅自研的超低功耗云存儲硬件節(jié)點(diǎn),功耗僅約為約為10w(不含硬盤),支持(不含硬盤),支持16塊硬盤,容量達(dá)到塊硬盤,容量達(dá)到32tb以上。以上。 在在1個(gè)標(biāo)準(zhǔn)的個(gè)標(biāo)準(zhǔn)的42u機(jī)架上集成總?cè)萘扛哌_(dá)機(jī)架上集成總?cè)萘扛哌_(dá)1024tb。下一代下一代cstor云存儲硬件說明云存儲硬件說明超低功耗云存儲節(jié)點(diǎn)超低功耗云存儲節(jié)點(diǎn)emc atmosemc atmos云存儲云存儲名稱名稱單機(jī)單機(jī)架最架最大容大容量量是否是否支持支持posix接口接口能耗能耗易用易用性性應(yīng)用適應(yīng)用適用性用性是否支是否支持對文持對文件進(jìn)行件進(jìn)行修改修改是否可是否可以單獨(dú)以單獨(dú)出售云出售云存儲產(chǎn)存儲
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 光伏發(fā)電融資租賃合同范例
- 關(guān)于展會框架合同范例
- 臨時(shí)供貨大米合同范例
- 人力輸送合同范例
- 保密加工合同范例
- 加盟分店轉(zhuǎn)讓合同范例
- 節(jié)后復(fù)工安全教育培訓(xùn)
- 企業(yè)向員工集資合同范例
- 個(gè)人水泵維修合同范例
- 三方倉儲配送合同范例
- 2023-2024全國初中物理競賽試題第09講杠桿(原卷版)
- 2024年新大象版四年級下冊科學(xué)全冊精編知識點(diǎn)總結(jié)
- 風(fēng)險(xiǎn)管理組織架構(gòu)課件
- 2023-2024學(xué)年人教版新教材必修第二冊 第七章第一節(jié) 認(rèn)識有機(jī)化合物(第1課時(shí)) 教案
- 新概念二-第24課課件
- 《土地管理法》課件
- 項(xiàng)目使用林地可行性報(bào)告
- 網(wǎng)絡(luò)安全技術(shù)服務(wù)方案
- 明天版幼兒園大班語言領(lǐng)域《尖嘴巴和短尾巴》課件
- 文旅項(xiàng)目招商方案
- AC800M特點(diǎn)優(yōu)勢課件
評論
0/150
提交評論