基于云計算的海量圖片存儲管理系統(tǒng)研究[圖]_第1頁
基于云計算的海量圖片存儲管理系統(tǒng)研究[圖]_第2頁
基于云計算的海量圖片存儲管理系統(tǒng)研究[圖]_第3頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、基于云計算的海量圖片存儲管理系統(tǒng)研究圖隨著計算機網(wǎng)絡、網(wǎng)格計算、WEB服務、新型 WEB應用等理念和技術的發(fā)展,萬維網(wǎng)己經(jīng)從一個傳統(tǒng)的 HTML文件共享、交換、訪問平臺轉變?yōu)槿我庑畔①Y源的共享平臺, 架構與互聯(lián)網(wǎng)之上的云計算模式成為了大勢所趨。云計算中最重要一類是數(shù)據(jù)密集型的計 算,其核心內涵是數(shù)據(jù)管理。傳統(tǒng)的數(shù)據(jù)管理技術難以滿足這些應用所提出的對數(shù)據(jù)管理的 需求。本文借鑒傳統(tǒng)數(shù)據(jù)管理技術的理念,研究、設計了一個基于CouchDB的高可擴展、高可靠的海量圖片存儲管理系統(tǒng)。1云計算的定義及特點云計算是以一種融合的方式,通過網(wǎng)絡作載體,以虛擬化技術為基礎, 以提供基礎架構、平臺、軟件等服務為形式,

2、整合大規(guī)??蓴U展的計算、存儲、數(shù)據(jù)、應用、IT資源等分布式計算資源進行協(xié)同工作的超級計算模式。在云計算模式下,用戶不再需要購買復雜的硬件和軟件,而只需要支付相應的費用給云計算”服務提供商,通過網(wǎng)絡就可以方便地獲取所需要的計算和存儲等資源。在計價上采用了更靈活的方式。從管理視角,云計算提供了一種管 理大量虛擬化資源的方式,它們可以被自動的匯聚并提供服務,可以彈性的進行服務的提供和擴展。云計算是一種新的用戶體驗和業(yè)務模式,具備服務標準化、快速部署、靈活的計費、容易訪問獲得的特點。云計算作為一種基礎架構管理和服務提供方法,具備虛擬化資源、 彈性擴展的提供服務、按照一個大資源池的方式進行管理的特點。云

3、計算是一種計算模式,利用互聯(lián)網(wǎng)技術把大量可擴展(和彈性)的IT相關的能力作為一種服務提供給多個用戶按照運營模式可以分為公共云、私有云、混合云3種。公共云:通過自己的基礎架構直接向用戶提供服務。用戶通過互聯(lián)網(wǎng)訪問服務,并不擁 有云計算資源。私有云:企業(yè)自己搭建云計算基礎架構,面向內部用戶或外部客戶提供云計算服務。企 業(yè)擁有基礎架構的自主權,并且可以基于自己的需求改進服務,進行自主創(chuàng)新。混合云:也就是既有自已的云計算基礎架構,也使用外部公共云提供的服務。2云計算的關鍵技術云計算是以數(shù)據(jù)為中心的一種數(shù)據(jù)密集型的超級計算模式。在數(shù)據(jù)存儲、數(shù)據(jù)管理、編 程模式、并發(fā)控制、系統(tǒng)管理等 5個方面具有自身獨特

4、的技術。1)海量分布式存儲技術為保證保證存儲數(shù)據(jù)的可靠性、高可用性和經(jīng)濟性,云計算的存儲數(shù)據(jù)采取分布式冗余存儲存儲方式,以高可靠軟件來彌補硬件的不足,從而對外提供廉價可靠的系統(tǒng)。為了滿足大量用戶的需求,數(shù)據(jù)存儲技術必須具有高吞吐率和高傳輸率的特點。云計算的數(shù)據(jù)存儲系統(tǒng)主要有 Google 的GFS(Google File System) 和Hadoop 開發(fā) 團隊開發(fā)的開源系統(tǒng) HDFS(Hadoop Distr4buted File System) 。大部分 IT 廠商, 包括 Yahoo 、 Intel 的云計劃采用的都是 HDFS 的數(shù)據(jù)存儲技術。2) 并行編程模式為了高效利用云計算的資

5、源,使用戶能夠更輕松地享受云計算帶來的服務,云計算的編 程模式必須保證后臺復雜的并行執(zhí)行和任務調度對用戶和編程人員來說是透明的。 云計算采 用 Map-Reduce 編程模式,將任務自動分成多個子任務,通過 Map 和 Reduce 兩步實現(xiàn) 任務在大規(guī)模計算節(jié)點中的調度與分配。3) 數(shù)據(jù)管理技術云計算對大數(shù)據(jù)集進行分析、處理,向用戶提供高效服務,因此,數(shù)據(jù)管理技術必須能 夠高效地管理大數(shù)據(jù)集。 另外, 如何在規(guī)模巨大的數(shù)據(jù)中找到特定的數(shù)據(jù), 也是云計算數(shù)據(jù) 管理技術所必須解決的問題。 云計算系統(tǒng)的數(shù)據(jù)管理往往采用列存儲的數(shù)據(jù)管理模式, 保證 海量數(shù)據(jù)存儲和分析性能。4) 分布式資源管理技術在

6、多節(jié)點并發(fā)執(zhí)行環(huán)境,分布式資源管理技術是保證系統(tǒng)狀態(tài)正確的關鍵技術。系統(tǒng)狀 態(tài)需要在多節(jié)點之間同步, 關鍵節(jié)點出現(xiàn)故障時需要能夠自動遷移服務。 分布式資源管理技 術通過 “鎖 ”機制來協(xié)凋多任務對資源的使用,從而保證數(shù)據(jù)操作的一致性。5) 云計算平臺管理技術云計算資源規(guī)模龐大,一個系統(tǒng)的服務器數(shù)量可能會高達 10 萬臺,且很有可能跨越幾 個坐落于不同物理地點的數(shù)據(jù)中心, 同時還在其上運行著成千上萬種應用。 如何有效地管理 這些服務器, 保證這些服務器組成的系統(tǒng)能夠提供每天 24 小時不間斷服務是一個巨大的挑 戰(zhàn)。云計算系統(tǒng)管理技術是云計算的 “神經(jīng)網(wǎng)絡 ”,它能使大量的服務器協(xié)同工作, 方便地

7、進 行業(yè)務部署和開通, 快速地發(fā)現(xiàn)和恢復系統(tǒng)故障, 使云計算系統(tǒng)通過自動化、 智能化的手段 實現(xiàn)大規(guī)模的可運營、可管理。3 云計算中數(shù)據(jù)管理系統(tǒng)應具備的特征大規(guī)模云存儲技術與分布式數(shù)據(jù)管理系統(tǒng)結合, 能夠為各行各業(yè)提供了一個海量存儲空 間,并支持靈活擴展、高性能訪問的文件共享存儲平臺。平臺具有的一些屬性和特征1) 高效性云計算是一種隨用隨付費的模式,耶么使用云計算資源的費用會隨著所需要的存儲、網(wǎng) 絡帶寬和計算機能源線性增長。因此,如果數(shù)據(jù)分析軟件產(chǎn)品 A 比 B 需要更多的計算單元 去執(zhí)行相同的任務,那么產(chǎn)品 A 就需要比 B 花費更多。因此,能用盡量少的資源去完成盡 量多的任務的系統(tǒng)也就是我

8、們所要尋找的。2) 容錯性容錯性在分析型數(shù)據(jù)工作環(huán)境中的度量與在傳統(tǒng)工作環(huán)境中不同。對于傳統(tǒng)的工作,一 個具有容錯性的 DBMS 可以從一個錯誤中恢復而不會丟失任何數(shù)據(jù)或恢復到最近一次完成 的事務;而在一個分布式數(shù)據(jù)庫環(huán)境中,則可以成功的提交事務并在一個工作負載中前進, 甚至面對工作節(jié)點錯誤。 對于分析型工作負載中只讀的請求, 沒有寫事務的提交, 也沒有在 節(jié)點失效時更新的失敗。因此,對一個具有容錯性的分析型 DBMS 簡單的來說,如果一個 與請求處理失敗關聯(lián)的節(jié)點失效,則不需要重發(fā)一個請求。3) 操作加密數(shù)據(jù)的能力如敏感數(shù)據(jù)在上傳到云中之前有可能被加密。為了防止對這些敏感數(shù)據(jù)未經(jīng)授權的訪 問

9、,任何運行在云上的應用都不應該能夠在訪問之前直接解密數(shù)據(jù)。 然而, 為了進行解密而 把整個表或列從云中傳輸出來對帶寬來說也是個挑戰(zhàn)。因此, 數(shù)據(jù)分析系統(tǒng)應該具有能夠直接操作加密數(shù)據(jù)的能力, 使得最終只有較少的數(shù)據(jù)需要被傳輸?shù)絼e的地方進行解密, 這樣就 明顯提高了性能。4) 提供接口的能力有很多面向用戶的商業(yè)智能工具是與數(shù)據(jù)庫軟件協(xié)同工作并在形象化、查詢生成、結果 統(tǒng)計和高級數(shù)據(jù)分析方面起到一定幫助作用的。 這些工具是分析型數(shù)據(jù)管理系統(tǒng)的一個重要 組成部分, 因為商業(yè)分析師通常在技術上不是很精通并且并不喜歡直接面對數(shù)據(jù)庫軟件。 這 些工具一般通過 ODBC 或 JDBC 與數(shù)據(jù)庫進行連接,因此希

10、望處理這些產(chǎn)品的數(shù)據(jù)庫軟件 必須通過這些連接接收 SQL 請求。4 圖片數(shù)據(jù)存儲管理系統(tǒng)設計與實現(xiàn)4 1 需求分析隨著網(wǎng)絡技術的普及應用和人們生活方式的改變,在線交易和服務需求的不斷增長,對 企業(yè)存儲、 保護和管理數(shù)據(jù)的能力提出了更高的要求。 尤其是對淘寶網(wǎng)這樣的訪問量極高的 電子交易網(wǎng)站來說, 對圖片系統(tǒng)的要求更高。 根據(jù)對淘寶網(wǎng)流量分析, 圖片的訪問流量會占 到 90 以上,而主站的網(wǎng)頁則占到不到10 。淘寶整體圖片存儲系統(tǒng)容量1 800TB(LSPB) ,已經(jīng)占用空間 990 TB( 約 IPB) ,平均圖片大小是 18 45 K ;大規(guī)模的小文 件存儲與讀取, 磁頭需要頻繁的尋道和換道

11、, 因此在讀取上容易帶來較長的延時。 這就給淘 寶網(wǎng)的系統(tǒng)帶來了一個巨大的挑戰(zhàn)。 傳統(tǒng)的存儲架構由于擴展性較差, 當用戶量及性能需求 增加時,只能一味地添加高端存儲設備。 長此以往,存儲環(huán)境就會變得日益復雜, 管理和運 營成本更高, 并造成了過高的能源消耗。 同時, 過于復雜的存儲架構和備份方式也很難滿足 用戶日漸增長的數(shù)據(jù)管理和容災需求。 而云存儲作為一種新興的技術理念, 正在改變著傳統(tǒng) 存儲的提供與使用方式, 也對存儲行業(yè)帶來了深遠影響。 經(jīng)過長時間的摸索, 我們發(fā)現(xiàn)這些 具有海量存儲需求的用戶, 只有應用了更低成本、 具有更高可擴展性的云數(shù)據(jù)管理體系, 才 能滿足其爆炸性增長的存儲需求。

12、4 2 系統(tǒng)設計目標為了解決大規(guī)模小圖片文件的高效存儲和訪問的問題, 我們在己有的云平臺上設計并實 現(xiàn)了一個高可擴展、高可靠的海量圖片存儲、管理系統(tǒng)。該系統(tǒng)的設計目標:1) 大規(guī)模、支持靈活擴展我們要構建的圖片云存儲系統(tǒng)能夠支持 TB 規(guī)模的存儲容量,且非常容易進行擴展,整 個擴展過程又不能影響服務的持續(xù)運行。 這樣圖片云存儲系統(tǒng)良好的伸縮性可以讓使用的用 戶靈活的投資存儲基礎架構,減少投資風險。2) 高可靠性在用戶實際應用環(huán)境中,各種不同類型的軟硬件故障發(fā)生的概率非常大,如硬件損壞、 網(wǎng)絡中斷、 系統(tǒng)崩潰等異常都會引起存儲服務中斷, 甚至造成數(shù)據(jù)丟失。 圖片云系統(tǒng)是一個 構建在云之上的海量圖

13、片存儲管理系統(tǒng), 因此它可利用云計算環(huán)境一些特有的容錯性來保障 服務的高可靠性。4 3 系統(tǒng)體系結構設計根據(jù)上述設計目標,圖片云系統(tǒng)應該是一個能夠提供海量存儲空間,并支持靈活擴展、 高性能訪問以及容災和備份的圖片文件存儲管理平臺。 其系統(tǒng)結構由客戶端 (ClientAgent , CA) 、負載均衡服務器 (Load Balancing Server , LBS) 、元數(shù)據(jù)服務器 (Meta data Server ,MDS) 和對象存儲節(jié)點 (ObjectStorage Node 簡稱 OSN)4 大部分組成??蛻舳?(CA) 向外為客戶提供各種應用服務, CA 安裝在用戶服務器上。用戶通過

14、 CA 訪 問系統(tǒng),進行讀、寫、修改等操作。如萬維網(wǎng)服務、數(shù)據(jù)庫、文件服務、科學計算等。負載均衡服務器 (LBS) 位于客戶端與元數(shù)據(jù)管理服務器集群的中間。 LBS 在這個位置上 除了能夠支持系統(tǒng)的水平伸縮外, 還能夠保證大量客戶高效、 穩(wěn)定的訪問該系統(tǒng)。 多臺元數(shù) 據(jù)管理服務器都部署上 CouchDB 數(shù)據(jù)庫, 因此每臺機器都能向外提供相同的服務。 如當客 戶端發(fā)出請求時, LBS 會根據(jù)下一層各元數(shù)據(jù)管理服務器的負載情況來將請求分留給適合 的元數(shù)據(jù)管理服務器, 達到集群負載均衡的目的, 這樣當請求的數(shù)量比較大的時候, 就不會 出現(xiàn)請求長時間不被處理,因而客戶對系統(tǒng)的訪問就會更高效。元數(shù)據(jù)服

15、務器 (MDS) 部署著 CouchDB 數(shù)據(jù)庫,它管理著整個系統(tǒng)的元數(shù)據(jù)和對象數(shù)據(jù) 的布局信息,數(shù)據(jù)庫用來存儲圖片文件系統(tǒng)中所有的元數(shù)據(jù), 包括圖片名稱、圖片規(guī)格、訪 問控制信息、存儲位置等。傳統(tǒng)的存儲集群系統(tǒng)里元數(shù)據(jù)存儲只有一份,通常由中心節(jié)點來管理,因而很容易成為 系統(tǒng)的瓶頸。對于圖片云系統(tǒng), 不存在中心管理節(jié)點,元數(shù)據(jù)存儲在無中心的、完全分布式的元數(shù)據(jù)服務器集群中。 集群中的元數(shù)據(jù)服務器都是完全對等的,通過CouchDB的相互備份,使得系統(tǒng)讀寫性能大大增強,且易于擴展。對象存儲節(jié)點(OSN)用來存儲用戶的圖片。每個存儲節(jié)點都是獨立的存儲設備, 負責對 象數(shù)據(jù)的存儲、備份、遷移和恢復,并

16、負責監(jiān)控其它存儲設備的運行狀況和資源情況。同時,存儲節(jié)點上運行著虛擬化存儲管理軟件,并存儲了應用程序所需的數(shù)據(jù)。當用戶訪問該系統(tǒng)時, 首先會向CA以Web Service 形式提供一個數(shù)據(jù)庫請求(增、刪、 改、查),并提供一個 UUID ;該系統(tǒng)的核心管理模塊MDS根據(jù)UUID得出要訪問的元數(shù)據(jù)服務器節(jié)點ID和要訪問的圖片ID :之后MDS會訪問CouchDB中對應的元數(shù)據(jù)信息, 讀取圖片存儲位置信息,然后便直接訪問對應的OSN完成數(shù)據(jù)存取或訪問等操作;在該過程中,有效地防止了 MDS負載過重,大大提高了系統(tǒng)效率。4 . 4系統(tǒng)功能分析基于云計算環(huán)境的高可擴展、高可靠的海量圖片存儲管理系統(tǒng)旨在

17、為用戶提供一個解決 海量圖片存儲的平臺。 平臺通過提供公用的訪問接口,和客戶端的各種應用程序組成一個復雜的系統(tǒng),通過應用程序來對外提供數(shù)據(jù)存儲和業(yè)務訪問服務。系統(tǒng)包括數(shù)據(jù)管理模塊和平臺管理模塊兩部分,平臺管理模塊包括數(shù)據(jù)備份和數(shù)據(jù)遷移。數(shù)據(jù)管理模塊包括圖片存儲、 圖片刪除、圖片信息查看和圖片信息更新。具體功能結構如圖1所示。其中,元數(shù)據(jù)管理模塊的具體功能就是實現(xiàn)對圖片的存儲、查看、更新和刪除4個基本功能,是提供給客戶端的可見的功能;而平臺管理模塊則是為實現(xiàn)系統(tǒng)的可擴展性和高可靠 性而提供的一種內部機制, 其中數(shù)據(jù)備份主要是通過使用冗余機制來保證文件系統(tǒng)的數(shù)據(jù)不 會丟失,例如發(fā)生一臺MDS突然崩

18、潰,這時多點備份就可以保證整個系統(tǒng)還能夠繼續(xù)正常 運行,用戶的操作不會受到影響。 在圖片云系統(tǒng)中,數(shù)據(jù)備份主要是通過元數(shù)據(jù)管理服務器 的分布式復制來實現(xiàn)的。元數(shù)據(jù)管理界面采用完全分布式的元數(shù)據(jù)管理服務器集群,每臺元數(shù)據(jù)管理服務器上都部署上CouchDB數(shù)據(jù)庫。該模塊主要管理圖片存儲系統(tǒng)的元數(shù)據(jù)和進行存儲對象的分配和 布局。元數(shù)據(jù)管理包括圖片文件名稱、格式、大小、創(chuàng)建時間、訪問權限、存儲位置等等。數(shù)據(jù)遷移主要是實現(xiàn)數(shù)據(jù)在不同的存儲節(jié)點之間的遷移。例如,當系統(tǒng)中的一臺服務器 需要暫時停止工作進行維護, 而它上面的數(shù)據(jù)還希望能夠被訪問, 從而不會影響整個系統(tǒng)的 正常運行,那么這個時候就需要將該服務器

19、上的數(shù)據(jù)動態(tài)(不需要停服務器 ) 的完全復制到另外一臺備用服務器上, 此過程對客戶端是透明的, 即客戶端完全不知道系統(tǒng)發(fā)生了什么。 該 系統(tǒng)中,數(shù)據(jù)遷移的實現(xiàn)主要依賴于元數(shù)據(jù)管理服務器上 CouchDB 的分布式復制和完全同 步機制。在該系統(tǒng)中,負載均衡我們采用軟件技術來實現(xiàn),主要通過在客戶端和元數(shù)據(jù)管理服務 器集群中間添加一臺機器作為負載均衡服務器,而負載均衡服務器上部署 Apache 服務器, 基于 Apache 的 mod_jk 和 mod_Proxy 來實現(xiàn)負載均衡。例如,當客戶端發(fā)出請求時, LBS 會根據(jù)負載均衡算法來將請求分留給適當?shù)脑獢?shù)據(jù)管理服務器,達到集群負載均衡的 目的, 這樣當請求的數(shù)量比較大的時候, 就不會出現(xiàn)請求長時一間不被處理的情況, 從而實 現(xiàn)高效訪問。為了解決海量小圖片存儲管理的高可靠性和高可擴展性的問題, 構建了圖片云系統(tǒng)作為 一個分布式的海量圖片存儲管理系統(tǒng)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論