




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、主流重復(fù)數(shù)據(jù)刪除產(chǎn)品的全面對(duì)比解析作者:IT168 李雋目錄文件級(jí)與數(shù)據(jù)塊級(jí)的重復(fù)數(shù)據(jù)刪除 2定長(zhǎng)切割模式VS 非定長(zhǎng)切割模式 3基于備份源與基于目標(biāo)端的重復(fù)數(shù)據(jù)刪除 4不同重復(fù)數(shù)據(jù)刪除方案的對(duì)比 5不同條件下重復(fù)數(shù)據(jù)刪除效果對(duì)比 6重復(fù)數(shù)據(jù)刪除如今已經(jīng)不是新鮮的話題了,基本我們看到,市面上大部分備份產(chǎn)品已經(jīng)具備重復(fù)數(shù)據(jù)刪除功能,基本上已經(jīng)成為備份領(lǐng)域產(chǎn)品的一項(xiàng)必備的選項(xiàng)。但是市面上重復(fù)數(shù)據(jù)刪除的產(chǎn)品林林總總,有備份軟件類的,也有集成在虛擬帶庫(kù)中的重復(fù)數(shù)據(jù)刪除,而一些重復(fù)數(shù)據(jù)刪除的概念也讓用戶感到迷惑,比如全局重復(fù)數(shù)據(jù)刪除?比如帶內(nèi)和帶外重復(fù)數(shù)據(jù)刪除對(duì)于用戶來(lái)說(shuō),面對(duì)如此繁多的產(chǎn)品究竟該如何選
2、擇呢?本文將梳理市場(chǎng)上大部分主流重復(fù)數(shù)據(jù)刪除的產(chǎn)品的特點(diǎn),并分析優(yōu)劣勢(shì),幫助用戶選擇合適的重復(fù)數(shù)據(jù)刪除產(chǎn)品。文件級(jí)與數(shù)據(jù)塊級(jí)的重復(fù)數(shù)據(jù)刪除首先我們看一下重復(fù)數(shù)據(jù)刪除的定義。所謂重復(fù)數(shù)據(jù)刪除,就是說(shuō)我們要把一些相關(guān)的數(shù)據(jù),它是一些重復(fù)性的,把它從一些生產(chǎn)上刪除掉,這樣可以大大節(jié)省我們生產(chǎn)空間的增長(zhǎng)速度,從而降低我們的電耗,而且降低整個(gè)管理成本。目前來(lái)說(shuō),大部分重復(fù)數(shù)據(jù)刪除都采用了相似的處理過(guò)程,首先是通過(guò)特定的算法,把一個(gè)文件切割成不同的小塊,其次是比較這些塊的不同性,把一些重復(fù)的刪除掉。對(duì)于文件級(jí)的數(shù)據(jù)來(lái)說(shuō),組成文件的數(shù)據(jù)塊其實(shí)是存在重復(fù)的,當(dāng)文件被切割成更小的數(shù)據(jù)塊后,重復(fù)率就大大增加了,然
3、后系統(tǒng)在每個(gè)切割的數(shù)據(jù)塊前面增加指針和索引,記錄這些塊是怎樣組合成文件的。再有文件記錄進(jìn)來(lái),文件被打碎成小的數(shù)據(jù)塊,系統(tǒng)就只會(huì)記錄和已經(jīng)存儲(chǔ)的數(shù)據(jù)塊不同的數(shù)據(jù)塊。并能夠根據(jù)數(shù)據(jù)塊前面的索引信息,將打碎后保存的唯一的數(shù)據(jù)塊組合成文件。將文件打碎成小的數(shù)據(jù)塊,刪除重復(fù)的數(shù)據(jù)塊后,只存儲(chǔ)唯一的數(shù)據(jù)塊。文件打碎前需要保存39個(gè)數(shù)據(jù)塊,打碎后唯一的數(shù)據(jù)塊只有6個(gè)以上是大部分重復(fù)數(shù)據(jù)刪除的工作過(guò)程,當(dāng)然也有不打碎成數(shù)據(jù)塊的重復(fù)數(shù)據(jù)刪除技術(shù),但那樣只能對(duì)整個(gè)文件進(jìn)行比對(duì),在文件級(jí)別進(jìn)行掃描,比如文件的特性、文件的修改時(shí)間,通過(guò)這些小的不同對(duì)文件進(jìn)行相應(yīng)的備份,保證每次只備份同一個(gè)文件。如果說(shuō)這個(gè)文件做了一些
4、小的修改,整個(gè)文件還是需要備份的,所以它的力度是非常低的,它是文件級(jí)的。目前來(lái)說(shuō),采用文件級(jí)重復(fù)數(shù)據(jù)刪除技術(shù)的產(chǎn)品主要是一些歸檔的產(chǎn)品,例如EMC的centera,就是文件級(jí)進(jìn)行相應(yīng)的歸檔,把相應(yīng)的重復(fù)的文件只留一個(gè)小的存根,每次恢復(fù)的時(shí)候只需要根據(jù)指針把相應(yīng)的數(shù)據(jù)進(jìn)行恢復(fù)。當(dāng)然更多的重復(fù)數(shù)據(jù)刪除都是針對(duì)我們剛才所講的子對(duì)象級(jí),也就是數(shù)據(jù)塊級(jí)的。這種重復(fù)數(shù)據(jù)刪除技術(shù)擁有更高的效率,有非常突出的刪除比。定長(zhǎng)切割模式VS 非定長(zhǎng)切割模式數(shù)據(jù)塊級(jí)的重復(fù)數(shù)據(jù)刪除就會(huì)有更多更復(fù)雜的做法。比如定長(zhǎng)切割,與非定長(zhǎng)切割。上一個(gè)部分我們講到數(shù)據(jù)塊級(jí)的重復(fù)數(shù)據(jù)刪除第一部都是將文件打碎成數(shù)據(jù)塊,但打碎的規(guī)則各有不同
5、。有的公司采用了同一大小的數(shù)據(jù)塊,例如所有的數(shù)據(jù)塊都打碎成12K、64K、128K、256K的數(shù)據(jù)塊大小,這種就屬于定長(zhǎng)切割的數(shù)據(jù)塊。對(duì)于定長(zhǎng)切割的重復(fù)數(shù)據(jù)刪除,切割的數(shù)據(jù)塊越小,粒度越細(xì),重復(fù)數(shù)據(jù)刪除的比率會(huì)更高。與之相對(duì)應(yīng)的就是非定長(zhǎng)切割模式的重復(fù)數(shù)據(jù)刪除,就是在切割文件的時(shí)候,會(huì)先對(duì)文件做整體的掃描,然后比對(duì)重復(fù)的數(shù)據(jù)塊,將重復(fù)率高的數(shù)據(jù)塊切割出來(lái),這樣的話每個(gè)數(shù)據(jù)塊不一定是一樣長(zhǎng)的,就是非定長(zhǎng)的數(shù)據(jù)切割模式。變長(zhǎng)切割模式的重復(fù)數(shù)據(jù)刪除對(duì)非結(jié)構(gòu)化數(shù)據(jù)是更有效的數(shù)據(jù)去重模式,變長(zhǎng)的切割方式不會(huì)因?yàn)槲募牟糠衷黾踊騽h除而完全重新計(jì)算,只有真正的新單元被備份走;定長(zhǎng)的切割方式會(huì)因?yàn)槲募黾踊騽h
6、除引起整個(gè)文件循序改變而要重新計(jì)算所以單元,整個(gè)文件對(duì)于備份軟件是個(gè)新文件變長(zhǎng)的數(shù)據(jù)切割方式通過(guò)相應(yīng)的塊的長(zhǎng)度,再加上相應(yīng)的字母順序,通過(guò)一個(gè)三維的算法進(jìn)行切割。比如damonst切割一塊,然后把rate切割一塊,會(huì)按一個(gè)單詞的組合特性進(jìn)行切割。它是變長(zhǎng)的,比如第一個(gè)是七個(gè)字母,第二個(gè)是四個(gè)字母,第三個(gè)又變成八個(gè)字母,再往后變成十幾個(gè)字母,這往后就是一個(gè)變長(zhǎng)的切割。右邊的Veritas PureDisk、CommVault是按照128K的標(biāo)準(zhǔn)定長(zhǎng)來(lái)切割,切完以后對(duì)得很齊,但是每一行里是沒有任何含義的,可以認(rèn)為它是一個(gè)隨機(jī)性地切割下來(lái)的字母組合。如果這時(shí)文件進(jìn)行改變,比如插一個(gè)S在前面,變長(zhǎng)切割
7、模式就變成九個(gè)字母一組,剩下的又按照raid是有含義的一個(gè)字、切割方法沒有變。最后掃描下來(lái),只有第一行是變化的,只需要備份第一行這一小小的變化量。但對(duì)于定長(zhǎng)的,由于插入一個(gè)字母以后,整個(gè)順序就改變了,再按照128K切的話,掃描以后,所有行都是一個(gè)全新的數(shù)據(jù)塊對(duì)于備份軟件來(lái)說(shuō),所有行都要重新做備份。變長(zhǎng)切割模式一般來(lái)說(shuō)重復(fù)數(shù)據(jù)刪除的比率會(huì)更高,但指針的復(fù)雜度也會(huì)更高,也需要消耗更多的計(jì)算資源。目前來(lái)說(shuō)Veritas的puredisk、Commvault Simpana、飛康、的重復(fù)數(shù)據(jù)刪除都是采用的定長(zhǎng)切割,EMC Avarma、IBM Diligent、Data Domain采用了變長(zhǎng)切割的方
8、式。基于備份源與基于目標(biāo)端的重復(fù)數(shù)據(jù)刪除此外,我們還需要注意的是重復(fù)數(shù)據(jù)刪除的另外兩個(gè)概念,一種是基于備份源的,一種是基于目標(biāo)端的重復(fù)數(shù)據(jù)刪除?;趥浞菰吹闹貜?fù)數(shù)據(jù)刪除,可以在備份的時(shí)候,在備份端上agent就有重復(fù)數(shù)據(jù)刪除的算法和功能,它可以在備份以前進(jìn)行相應(yīng)的切割和對(duì)比,只把一些新變化的數(shù)據(jù)傳送到備份服務(wù)器上,這樣可以大大降低我們的備份數(shù)據(jù)量,在網(wǎng)絡(luò)傳輸過(guò)程中的數(shù)據(jù)量也會(huì)大大降低,這樣可以降低整個(gè)備份網(wǎng)絡(luò)的帶寬要求,對(duì)企業(yè)來(lái)說(shuō)也會(huì)減少它很大的日常運(yùn)維成本?;谀繕?biāo)端的重復(fù)數(shù)據(jù)刪除,主要是數(shù)據(jù)按正常的備份,備份到相應(yīng)的磁帶設(shè)備、磁帶庫(kù)或者是虛擬帶庫(kù)上,在那里進(jìn)行相應(yīng)的重復(fù)數(shù)據(jù)刪除的算法、對(duì)比
9、,然后把一些相應(yīng)新的數(shù)據(jù)塊元素保留下來(lái),然后把相應(yīng)的DNA圖也保留下來(lái),這樣保證在存儲(chǔ)目標(biāo)端的數(shù)據(jù)是沒有重復(fù)的?,F(xiàn)在主要的產(chǎn)品有幾類。像基于備份源的有EMC的Avarma,它是基于備份源的。Veritas、PureDisk是可以實(shí)現(xiàn)基于備份源也可以基于備份目標(biāo)的。針對(duì)備份目標(biāo)的主要有datadomain、IBM diligent、CommVault的simpana。CommVault的simpana實(shí)際上它的實(shí)現(xiàn)方法是,它有一個(gè)media server,通過(guò)它實(shí)現(xiàn)重復(fù)數(shù)據(jù)刪除,但它實(shí)際上可以認(rèn)為是備份目標(biāo)的,因?yàn)樗趥浞輗aid的時(shí)候并沒有做重復(fù)數(shù)據(jù)刪除,只是做一個(gè)相應(yīng)的切割算法,然后把所有切
10、割下來(lái)的片再加上這個(gè)文件的組成DNA指針一起傳到media server,在media server上進(jìn)行相應(yīng)的對(duì)比,只把一些唯一的數(shù)據(jù)塊傳下來(lái),然后再把DNA圖傳下來(lái),所以說(shuō)它還是一個(gè)基于目標(biāo)的重復(fù)數(shù)據(jù)刪除解決方案。此外重復(fù)數(shù)據(jù)刪除的另外一種解釋是帶內(nèi)和帶外。所謂帶內(nèi),就是說(shuō)重復(fù)數(shù)據(jù)刪除這個(gè)過(guò)程發(fā)生在備份這個(gè)流程過(guò)程中,比如像EMC的Avarma,它就是在備份的時(shí)候先做重復(fù)數(shù)據(jù)刪除,然后把重復(fù)數(shù)據(jù)刪除過(guò)以后的基準(zhǔn)數(shù)據(jù)塊備份走,這樣的話等于在備份過(guò)程中進(jìn)行了重復(fù)數(shù)據(jù)刪除的過(guò)程。另外一種是帶外,在備份過(guò)程中是沒有做重復(fù)數(shù)據(jù)刪除這個(gè)動(dòng)作的,只有說(shuō)這個(gè)數(shù)據(jù)備份到了目標(biāo)端,在目標(biāo)端的設(shè)備里,通過(guò)重復(fù)數(shù)
11、據(jù)算法,只保留一些基準(zhǔn)的數(shù)據(jù)塊源,這叫做帶外的。實(shí)際上可以看到,帶內(nèi)的效率反而比帶外的高,因?yàn)閹?nèi)計(jì)算以后,可以大大降低數(shù)據(jù)的備份量和網(wǎng)絡(luò)帶寬的需求,和在目標(biāo)端的效果是一樣的,同樣只保留UNIX的數(shù)據(jù)塊。實(shí)際上帶內(nèi)的方法比帶外的效率高。不同重復(fù)數(shù)據(jù)刪除方案的對(duì)比接下來(lái)看一下整體的重復(fù)數(shù)據(jù)刪除解決方案不同產(chǎn)品的一些特點(diǎn)。從左邊到右邊我們可以看到,這邊有幾類重復(fù)數(shù)據(jù)刪除的解決方案。一個(gè)是在線數(shù)據(jù)保存的重復(fù)數(shù)據(jù)刪除解決方案,主要是有NetApp的NAS,還有EMC的NAS,它實(shí)際上是在一級(jí)存儲(chǔ)上實(shí)現(xiàn)對(duì)重復(fù)數(shù)據(jù)刪除,重復(fù)數(shù)據(jù)刪除率一般只能達(dá)到1.2:1。還有一些我們常見的壓縮的方法,一般能達(dá)到壓縮率是
12、2:1,是基于壓縮技術(shù)的重復(fù)數(shù)據(jù)刪除比率。另外一些專業(yè)的重復(fù)數(shù)據(jù)刪除的解決方案,比如datadomain、IBM Diligent,還包括Veritas PureDisk目標(biāo)端的重復(fù)數(shù)據(jù)刪除,這些產(chǎn)品正常情況下可以實(shí)現(xiàn)20:1的重復(fù)數(shù)據(jù)刪除率。還有一些基于數(shù)據(jù)源的重復(fù)數(shù)據(jù)刪除,因?yàn)榛跀?shù)據(jù)源,整個(gè)在網(wǎng)絡(luò)上和目標(biāo)端上都會(huì)大大提高重復(fù)數(shù)據(jù)刪除率,所以重復(fù)數(shù)據(jù)刪除應(yīng)用效果更好。例如EMC承諾可以實(shí)現(xiàn)300:1的重復(fù)數(shù)據(jù)刪除率,Veritas的PureDisk壓縮比達(dá)到500:1,但具體的重復(fù)數(shù)據(jù)刪除比率根據(jù)環(huán)境不同還有不同的表現(xiàn)。具體需要以實(shí)際測(cè)試為準(zhǔn)。不同條件下重復(fù)數(shù)據(jù)刪除效果對(duì)比以下在實(shí)驗(yàn)室中,
13、在不同環(huán)境下應(yīng)用重復(fù)數(shù)據(jù)刪除的效果對(duì)比。大家可以看到,相同率最高的是Windows文件,可以達(dá)到將近600:1的重復(fù)數(shù)據(jù)刪除比率。比較低的應(yīng)該是數(shù)據(jù)庫(kù)文件、Linux文件,可以達(dá)到75:1的重復(fù)數(shù)據(jù)刪除比率。如果是NAS文件,比較好的情況下也可以實(shí)現(xiàn)135:1的比率。以上是不同環(huán)境下應(yīng)用重復(fù)數(shù)據(jù)刪除技術(shù)的刪除比率,需要注意的是,以上僅為實(shí)驗(yàn)數(shù)據(jù),具體需要根據(jù)用戶實(shí)際情況評(píng)估需要注意的是,以上是實(shí)驗(yàn)室環(huán)境下的測(cè)試數(shù)據(jù),在用戶自身的環(huán)境中,建議用戶對(duì)整個(gè)重復(fù)數(shù)據(jù)刪除的應(yīng)用效果作整體的評(píng)估,做到心中有數(shù)?,F(xiàn)有數(shù)據(jù)可以達(dá)到多高的重復(fù)數(shù)據(jù)刪除比率,做相應(yīng)規(guī)劃的時(shí)候,采購(gòu)相應(yīng)規(guī)格和容量的具有重復(fù)數(shù)據(jù)刪除功能的解決方案,保證所有的采購(gòu)設(shè)備是物盡其用。選擇重復(fù)數(shù)據(jù)刪除的原則實(shí)際上,上頁(yè)給出的圖是在實(shí)驗(yàn)室環(huán)境下的測(cè)試數(shù)據(jù)。我們無(wú)法使用這個(gè)比率來(lái)評(píng)估日常的生產(chǎn)數(shù)據(jù)的重復(fù)數(shù)據(jù)刪除。但重復(fù)數(shù)據(jù)刪除的應(yīng)用仍然有一些經(jīng)驗(yàn)性的數(shù)據(jù),基本上我們認(rèn)為大概正常的文件應(yīng)用可以達(dá)到50%以上的重復(fù)數(shù)據(jù)刪除。通常我們用25%就可以來(lái)評(píng)估重復(fù)數(shù)據(jù)刪除率。以下是選擇重復(fù)刪除技術(shù)為獲得高刪除比的一些原則,但需要注意的是,僅僅為了追求高刪除比并不可取,我們?cè)谶x擇產(chǎn)品的時(shí)候還需要考慮到實(shí)際的環(huán)境和現(xiàn)有的設(shè)備。此外,本文我們僅從重復(fù)數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度車輛事故環(huán)境損害賠償協(xié)議
- 二零二五年度退租協(xié)議書及舊房裝修拆除工程合同
- 2025年度期刊發(fā)行權(quán)轉(zhuǎn)讓認(rèn)刊書審核及執(zhí)行合同
- 二零二五年度房屋租賃合同租賃房屋租賃合同解除程序
- 二零二五年度品牌形象維護(hù)營(yíng)銷人員保密及合作協(xié)議
- 2025年度科技研發(fā)領(lǐng)域自愿出資入股協(xié)議
- 2025年度貴金屬首飾典當(dāng)借款服務(wù)協(xié)議
- 二零二五年度互聯(lián)網(wǎng)企業(yè)職工勞動(dòng)合同優(yōu)化方案
- 二零二五年度電子行業(yè)經(jīng)典實(shí)習(xí)期勞動(dòng)合同模板
- 《物流系統(tǒng)分析》課件 項(xiàng)目七任務(wù)四 了解物流系統(tǒng)仿真實(shí)踐
- 一年級(jí)下冊(cè)地方課程教案
- 第二章 航空飛行常見疾病
- 牛羊定點(diǎn)屠宰廠項(xiàng)目可行性研究報(bào)告-甲乙丙資信
- 03SG520-1實(shí)腹式鋼吊車梁(中輕級(jí)工作制A1~A5_Q235鋼_跨度6.0m、7.5m、9.0m)
- 妊娠糖尿病-楊慧霞.ppt
- (完整word版)消化系統(tǒng)知識(shí)點(diǎn)整理
- 煤礦綜采工作面配套設(shè)備選型設(shè)計(jì)
- 全國(guó)防返貧監(jiān)測(cè)信息系統(tǒng)業(yè)務(wù)管理子系統(tǒng)操作手冊(cè)
- 工程施工項(xiàng)目明細(xì)表-改(5)
- 出差行程計(jì)劃表(模版)
- 《Lou's Flu》RAZ分級(jí)閱讀繪本pdf資源
評(píng)論
0/150
提交評(píng)論