Facebook數(shù)據(jù)倉(cāng)庫(kù)揭秘_第1頁(yè)
Facebook數(shù)據(jù)倉(cāng)庫(kù)揭秘_第2頁(yè)
Facebook數(shù)據(jù)倉(cāng)庫(kù)揭秘_第3頁(yè)
Facebook數(shù)據(jù)倉(cāng)庫(kù)揭秘_第4頁(yè)
Facebook數(shù)據(jù)倉(cāng)庫(kù)揭秘_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Facebbook數(shù)數(shù)據(jù)倉(cāng)庫(kù)揭揭秘:RCCFilee高效存儲(chǔ)儲(chǔ)結(jié)構(gòu)本文介紹了了Faceebookk公司數(shù)據(jù)據(jù)分析系統(tǒng)統(tǒng)中的RCCFilee存儲(chǔ)結(jié)構(gòu)構(gòu),該結(jié)構(gòu)構(gòu)集行存儲(chǔ)儲(chǔ)和列存儲(chǔ)儲(chǔ)的優(yōu)點(diǎn)于于一身,在在MapRReducce環(huán)境下下的大規(guī)模模數(shù)據(jù)分析析中扮演重重要角色。Facebbook曾曾在20110 ICCDE(IIEEE Inteernattionaal Coonferrencee on Dataa Enggineeeringg)會(huì)議上上介紹了數(shù)數(shù)據(jù)倉(cāng)庫(kù)HHive。Hivee存儲(chǔ)海量量數(shù)據(jù)在HHadooop系統(tǒng)中中,提供了了一套類數(shù)數(shù)據(jù)庫(kù)的數(shù)數(shù)據(jù)存儲(chǔ)和和處理機(jī)制制。它采用用類 SQQL語(yǔ)言對(duì)

2、對(duì)數(shù)據(jù)進(jìn)行行自動(dòng)化管管理和處理理,經(jīng)過(guò)語(yǔ)語(yǔ)句解析和和轉(zhuǎn)換,最最終生成基基于Haddoop的的MapRReducce任務(wù),通通過(guò)執(zhí)行這這些任務(wù)完完成數(shù)據(jù)處處理。圖11顯 示了了Hivee數(shù)據(jù)倉(cāng)庫(kù)庫(kù)的系統(tǒng)結(jié)結(jié)構(gòu)。圖1 Hiive數(shù)據(jù)據(jù)倉(cāng)庫(kù)的系系統(tǒng)結(jié)構(gòu)基于MappReduuce的數(shù)數(shù)據(jù)倉(cāng)庫(kù)在在超大規(guī)模模數(shù)據(jù)分析析中扮演了了重要角色色,對(duì)于典典型的Weeb服 務(wù)務(wù)供應(yīng)商,這這些分析有有助于它們們快速理解解動(dòng)態(tài)的用用戶行為及及變化的用用戶需求。數(shù)據(jù)存儲(chǔ)儲(chǔ)結(jié)構(gòu)是影影響數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)性能的的關(guān)鍵因素素之一。HHadooop系統(tǒng)中中常用的文文件存 儲(chǔ)儲(chǔ)格式有支支持文本的的TexttFilee和支持二二進(jìn)制的SSe

3、queenceFFile等等,它們都都屬于行存存儲(chǔ)方式。Faceebookk工程師發(fā)發(fā)表的RCCFilee: A Fastt andd Spaaceeffficiient Dataa Plaacemeent SStruccturee in MapRReduccebassed WWarehhousee Sysstemss一文,介介紹了一種種高效的數(shù)數(shù)據(jù)存儲(chǔ)結(jié)結(jié)構(gòu)RRCFille(Reecordd Collumnaar Fiile),并并將其應(yīng)用用于Facceboook的數(shù)據(jù)據(jù)倉(cāng)庫(kù)Hiive中。與傳統(tǒng)數(shù)數(shù)據(jù)庫(kù)的數(shù)數(shù)據(jù)存儲(chǔ)結(jié)結(jié)構(gòu)相比,RRCFille更有效效地滿足了了基于MaapRedduce的的

4、數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的四個(gè)個(gè)關(guān)鍵需求求,即Faast ddata loadding、Fastt queery pproceessinng、Hiighlyy effficieent sstoraage sspacee utiilizaationn和Strrong adapptiviity tto hiighlyy dynnamicc worrkloaad paatterrns。數(shù)據(jù)倉(cāng)庫(kù)的的需求基于Facceboook系統(tǒng)特特征和用戶戶數(shù)據(jù)的分分析,在MMapReeducee計(jì)算環(huán)境境下,數(shù)據(jù)據(jù)倉(cāng)庫(kù)對(duì)于于數(shù)據(jù)存儲(chǔ)儲(chǔ)結(jié)構(gòu)有四四個(gè)關(guān)鍵需需求。Fast dataa loaadingg對(duì)于Facceboook的產(chǎn)品

5、品數(shù)據(jù)倉(cāng)庫(kù)庫(kù)而言,快快速加載數(shù)數(shù)據(jù)(寫數(shù)數(shù)據(jù))是非非常關(guān)鍵的的。每天大大約有超過(guò)過(guò)20TBB的數(shù)據(jù)上上傳到Faaceboook的數(shù)數(shù)據(jù)倉(cāng)庫(kù),由由于數(shù)據(jù)加加載期間網(wǎng)網(wǎng)絡(luò)和磁盤盤流量會(huì)干干擾正常的的查詢執(zhí)行行,因此縮縮短數(shù)據(jù)加加載時(shí)間是是非常必要要的。Fast querry prrocesssingg為了滿足實(shí)實(shí)時(shí)性的網(wǎng)網(wǎng)站請(qǐng)求和和支持高并并發(fā)用戶提提交查詢的的大量讀負(fù)負(fù)載,查詢?cè)冺憫?yīng)時(shí)間間是非常關(guān)關(guān)鍵的,這這要求底層層存儲(chǔ)結(jié)構(gòu)構(gòu)能夠隨著著查詢數(shù)量量的增加而而保持高速速的查詢處處理。Highlly effficiient storrage spacce uttilizzatioon高速增長(zhǎng)的的用戶

6、活動(dòng)動(dòng)總是需要要可擴(kuò)展的的存儲(chǔ)容量量和計(jì)算能能力,有限限的磁盤空空間需要合合理管理海海量數(shù)據(jù)的的存儲(chǔ)。實(shí)實(shí)際上,該該問(wèn)題的解解決方案就就是最大化化磁盤空間間利用率。Stronng addaptiivityy to highhly ddynammic wworklload pattternss同一份數(shù)據(jù)據(jù)集會(huì)供給給不同應(yīng)用用的用戶,通通過(guò)各種方方式來(lái)分析析。某些數(shù)數(shù)據(jù)分析是是例行過(guò)程程,按照某某種固定模模式周期性性執(zhí)行;而而另一些則則是從中間間平臺(tái)發(fā)起起的查 詢?cè)?。大多?shù)數(shù)負(fù)載不遵遵循任何規(guī)規(guī)則模式,這這需要底層層系統(tǒng)在存存儲(chǔ)空間有有限的前提提下,對(duì)數(shù)數(shù)據(jù)處理中中不可預(yù)知知的動(dòng)態(tài)數(shù)數(shù)據(jù)具備高高度

7、的適應(yīng)應(yīng)性,而不不是專注于于某種特殊殊的負(fù) 載載模式。MapReeducee存儲(chǔ)策略略要想設(shè)計(jì)并并實(shí)現(xiàn)一種種基于MaapRedduce數(shù)數(shù)據(jù)倉(cāng)庫(kù)的的高效數(shù)據(jù)據(jù)存儲(chǔ)結(jié)構(gòu)構(gòu),關(guān)鍵挑挑戰(zhàn)是在MMapReeducee計(jì)算環(huán)境境中滿足上上述四個(gè)需需求。在傳傳統(tǒng)數(shù)據(jù)庫(kù)庫(kù) 系統(tǒng)中中,三種數(shù)數(shù)據(jù)存儲(chǔ)結(jié)結(jié)構(gòu)被廣泛泛研究,分分別是行存存儲(chǔ)結(jié)構(gòu)、列存儲(chǔ)結(jié)結(jié)構(gòu)和PAAX混合存存儲(chǔ)結(jié)構(gòu)。上面這三三種結(jié)構(gòu)都都有其自身身特點(diǎn),不不過(guò)簡(jiǎn)單移移植這些數(shù)數(shù)據(jù)庫(kù)導(dǎo)向向的 存儲(chǔ)儲(chǔ)結(jié)構(gòu)到基基于MappReduuce的數(shù)數(shù)據(jù)倉(cāng)庫(kù)系系統(tǒng)并不能能很好地滿滿足所有需需求。行存儲(chǔ)如圖2所示示,基于HHadooop系統(tǒng)行行存儲(chǔ)結(jié)構(gòu)構(gòu)的優(yōu)點(diǎn)在在于快

8、速數(shù)數(shù)據(jù)加載和和動(dòng)態(tài)負(fù)載載的高適應(yīng)應(yīng)能力,這這是因?yàn)樾行写鎯?chǔ)保證證了相同記記錄的所有有域都在同同一個(gè)集群群 節(jié)點(diǎn),即即同一個(gè)HHDFS塊塊。不過(guò),行行存儲(chǔ)的缺缺點(diǎn)也是顯顯而易見(jiàn)的的,例如它它不能支持持快速查詢?cè)兲幚?,因因?yàn)楫?dāng)查詢?cè)儍H僅針對(duì)對(duì)多列表中中的少數(shù)幾幾列時(shí),它它不能跳過(guò)過(guò)不必要 的列讀取?。淮送?,由由于混合著著不同數(shù)據(jù)據(jù)值的列,行行存儲(chǔ)不易易獲得一個(gè)個(gè)極高的壓壓縮比,即即空間利用用率不易大大幅提高。盡管通過(guò)過(guò)熵編碼和和利用列相相關(guān)性能夠夠獲得一個(gè)個(gè)較好 的的壓縮比,但但是復(fù)雜數(shù)數(shù)據(jù)存儲(chǔ)實(shí)實(shí)現(xiàn)會(huì)導(dǎo)致致解壓開(kāi)銷銷增大。圖2 HDDFS塊內(nèi)內(nèi)行存儲(chǔ)的的例子列存儲(chǔ)圖3顯示了了在HDFFS上按照

9、照列組存儲(chǔ)儲(chǔ)表格的例例子。在這這個(gè)例子中中,列A和和列B存儲(chǔ)儲(chǔ)在同一列列組,而列列C和列DD分別存儲(chǔ)儲(chǔ)在單獨(dú)的的列組。查查詢時(shí)列存存儲(chǔ)能夠避避 免讀不不必要的列列,并且壓壓縮一個(gè)列列中的相似似數(shù)據(jù)能夠夠達(dá)到較高高的壓縮比比。然而,由由于元組重重構(gòu)的較高高開(kāi)銷,它它并不能提提供基于HHadooop系統(tǒng)的的快速查詢?cè)兲幚?。列?存儲(chǔ)不不能保證同同一記錄的的所有域都都存儲(chǔ)在同同一集群節(jié)節(jié)點(diǎn),例如如圖2的例例子中,記記錄的4個(gè)個(gè)域存儲(chǔ)在在位于不同同節(jié)點(diǎn)的33個(gè)HDFFS塊中。因此,記記錄的重構(gòu)構(gòu)將導(dǎo)致通通過(guò) 集群群節(jié)點(diǎn)網(wǎng)絡(luò)絡(luò)的大量數(shù)數(shù)據(jù)傳輸。盡管預(yù)先先分組后,多多個(gè)列在一一起能夠減減少開(kāi)銷,但但是對(duì)于

10、高高度動(dòng)態(tài)的的負(fù)載模式式,它并不不具備很好好的適應(yīng)性性。除非所所有列組根根據(jù)可能的的 查詢預(yù)預(yù)先創(chuàng)建,否否則對(duì)于一一個(gè)查詢需需要一個(gè)不不可預(yù)知的的列組合,一一個(gè)記錄的的重構(gòu)或許許需要2個(gè)個(gè)或多個(gè)列列組。再者者由于多個(gè)個(gè)組之間的的列交疊,列列組可能會(huì)會(huì)創(chuàng)建多余余的列 數(shù)數(shù)據(jù)存儲(chǔ),這這導(dǎo)致存儲(chǔ)儲(chǔ)利用率的的降低。圖3 HDDFS塊內(nèi)內(nèi)列存儲(chǔ)的的例子PAX混合合存儲(chǔ)PAX存儲(chǔ)儲(chǔ)模型(用用于Datta Moorphiing存儲(chǔ)儲(chǔ)技術(shù))使使用混合存存儲(chǔ)方式,目目的在于提提升CPUU Cacche性能能。對(duì)于記記錄中來(lái)自自不同列的的多個(gè)域,PPAX將它它們放在一一個(gè)磁盤頁(yè)頁(yè)中。在每每個(gè)磁盤頁(yè)頁(yè)中,PAAX使

11、用一一個(gè)迷你頁(yè)頁(yè)來(lái)存儲(chǔ)屬屬于每個(gè)列列的所有域域,并使用用 一個(gè)頁(yè)頁(yè)頭來(lái)存儲(chǔ)儲(chǔ)迷你頁(yè)的的指針。類類似于行存存儲(chǔ),PAAX對(duì)多種種動(dòng)態(tài)查詢?cè)冇泻軓?qiáng)的的適應(yīng)能力力。然而,它它并不能滿滿足大型分分布式系統(tǒng)統(tǒng)對(duì)于高存存儲(chǔ)空間利利用率和快快速查詢處處 理的需需求,原因因在于:首首先,PAAX沒(méi)有數(shù)數(shù)據(jù)壓縮的的相關(guān)工作作,這部分分與Cacche優(yōu)化化關(guān)系不大大,但對(duì)于于大規(guī)模數(shù)數(shù)據(jù)處理系系統(tǒng)是非常常關(guān)鍵的,它它提供了列列維度數(shù)據(jù)據(jù) 壓縮的的可能性;其次,PPAX不能能提升I/O性能,因因?yàn)樗荒苣芨淖儗?shí)際際的頁(yè)內(nèi)容容,該限制制使得大規(guī)規(guī)模數(shù)據(jù)掃掃描時(shí)不易易實(shí)現(xiàn)快速速查詢處理理;再次,PPAX用固固定的頁(yè) 作

12、為數(shù)據(jù)據(jù)組織的基基本單位,按按照這個(gè)大大小,在海海量數(shù)據(jù)處處理系統(tǒng)中中,PAXX將不會(huì)有有效存儲(chǔ)不不同大小類類型的數(shù)據(jù)據(jù)域。本文文介紹的是是RCF i l e 數(shù)據(jù)據(jù)存儲(chǔ)結(jié)構(gòu)構(gòu)在Haddoop系系統(tǒng)上的實(shí)實(shí)現(xiàn)。該結(jié)結(jié)構(gòu)強(qiáng)調(diào):第一,RRCFille存儲(chǔ)的的表是水平平劃分的,分分為多個(gè)行行組, 每每個(gè)行組再再被垂直劃劃分, 以以便每列單單獨(dú)存儲(chǔ);第二,RRCFille在每個(gè)個(gè)行組中利利用一個(gè)列列維度的數(shù)數(shù)據(jù)壓縮,并并提供一種種Lazyy解壓(ddecommpresssionn)技術(shù)來(lái)來(lái)在查詢執(zhí)執(zhí)行時(shí) 避避免不必要要的列解壓壓;第三,RRCFille支持彈彈性的行組組大小,行行組大小需需要權(quán)衡數(shù)數(shù)據(jù)

13、壓縮性性能和查詢?cè)冃阅軆煞椒矫?。RCFille的設(shè)計(jì)計(jì)與實(shí)現(xiàn)RCFille(Reecordd Collumnaar Fiile)存存儲(chǔ)結(jié)構(gòu)遵遵循的是“先水平劃劃分,再垂垂直劃分”的設(shè)計(jì)理理念,這個(gè)個(gè)想法來(lái)源源于PAXX。它結(jié)合合了行存儲(chǔ)儲(chǔ)和列存儲(chǔ)儲(chǔ)的優(yōu)點(diǎn):首先,RRCFille保證同同一行 的的數(shù)據(jù)位于于同一節(jié)點(diǎn)點(diǎn),因此元元組重構(gòu)的的開(kāi)銷很低低;其次,像像列存儲(chǔ)一一樣,RCCFilee能夠利用用列維度的的數(shù)據(jù)壓縮縮,并且能能跳過(guò)不必必要的列讀讀取。圖44是一個(gè) HDFSS塊內(nèi)RCCFilee方式存儲(chǔ)儲(chǔ)的例子。圖4 HDDFS塊內(nèi)內(nèi)RCFiile方式式存儲(chǔ)的例例子數(shù)據(jù)格式RCFille在HDDF

14、S分布布式文件系系統(tǒng)之上設(shè)設(shè)計(jì)并實(shí)現(xiàn)現(xiàn),如圖44所示,RRCFille按照下下面的數(shù)據(jù)據(jù)格式來(lái)存存儲(chǔ)一張表表。RCFille基于HHDFS架架構(gòu),表格格占用多個(gè)個(gè)HDFSS塊。每個(gè)HDFFS塊中,RRCFille以行組組為基本單單位來(lái)組織織記錄。也也就是說(shuō),存存儲(chǔ)在一個(gè)個(gè)HDFSS塊中的所所有記錄被被劃分為多多個(gè)行組。對(duì)于一張張表,所有有行組大小小都相同。一個(gè)HDDFS塊會(huì)會(huì)有一個(gè)或或多個(gè)行組組。一個(gè)行組包包括三個(gè)部部分。第一一部分是行行組頭部的的同步標(biāo)識(shí)識(shí),主要用用于分隔HHDFS塊塊中的兩個(gè)個(gè)連續(xù)行組組;第二部部分是行組組的元數(shù)據(jù)據(jù)頭部,用用于存儲(chǔ)行行組單元的的 信息,包包括行組中中的記錄

15、數(shù)數(shù)、每個(gè)列列的字節(jié)數(shù)數(shù)、列中每每個(gè)域的字字節(jié)數(shù);第第三部分是是表格數(shù)據(jù)據(jù)段,即實(shí)實(shí)際的列存存儲(chǔ)數(shù)據(jù)。在該部分分中,同一一列的所有有域順序存存儲(chǔ)。從圖圖 4可以以看出,首首先存儲(chǔ)了了列A的所所有域,然然后存儲(chǔ)列列B的所有有域等。壓縮方式RCFille的每個(gè)個(gè)行組中,元元數(shù)據(jù)頭部部和表格數(shù)數(shù)據(jù)段分別別進(jìn)行壓縮縮。對(duì)于所有元元數(shù)據(jù)頭部部,RCFFile使使用RLEE(Runn Lenngth Encoodingg)算法來(lái)來(lái)壓縮數(shù)據(jù)據(jù)。由于同同一列中所所有域的長(zhǎng)長(zhǎng)度值都順順序存儲(chǔ)在在該部分,RRLE算法法能夠找到到重復(fù)值的的長(zhǎng)序列,尤尤其對(duì)于固固定的域長(zhǎng)長(zhǎng)度。表格數(shù)據(jù)段段不會(huì)作為為整個(gè)單元元來(lái)壓縮;

16、相反每個(gè)個(gè)列被獨(dú)立立壓縮,使使用Gziip壓縮算算法。RCCFilee使用重量量級(jí)的Gzzip壓縮縮算法,是是為了獲得得較好的壓壓 縮比,而而不使用RRLE算法法的原因在在于此時(shí)列列數(shù)據(jù)非排排序。此外外,由于LLazy壓壓縮策略,當(dāng)當(dāng)處理一個(gè)個(gè)行組時(shí),RRCFille不需要要解壓所有有列。因此此,相對(duì)較較高的 GGzip解解壓開(kāi)銷可可以減少。盡管RCFFile對(duì)對(duì)表格數(shù)據(jù)據(jù)的所有列列使用同樣樣的壓縮算算法,不過(guò)過(guò)如果使用用不同的算算法來(lái)壓縮縮不同列或或許效果會(huì)會(huì)更好。RRCFille將來(lái)的的工作之一一可能就是是根據(jù)每列列的數(shù)據(jù)類類型和數(shù)據(jù)據(jù)分布來(lái)自自適應(yīng)選擇擇最好的壓壓縮算法。數(shù)據(jù)追加RCFi

17、lle不支持持任意方式式的數(shù)據(jù)寫寫操作,僅僅提供一種種追加接口口,這是因因?yàn)榈讓拥牡腍DFSS當(dāng)前僅僅僅支持?jǐn)?shù)據(jù)據(jù)追加寫文文件尾部。數(shù)據(jù)追加加方法描述述如下。RCFille為每列列創(chuàng)建并維維護(hù)一個(gè)內(nèi)內(nèi)存collumn holdder,當(dāng)當(dāng)記錄追加加時(shí),所有有域被分發(fā)發(fā),每個(gè)域域追加到其其對(duì)應(yīng)的ccolummn hoolderr。此外,RRCFille在元數(shù)數(shù)據(jù)頭部中中記錄每個(gè)個(gè)域?qū)?yīng)的的元數(shù)據(jù)。RCFille提供兩兩個(gè)參數(shù)來(lái)來(lái)控制在刷刷寫到磁盤盤之前,內(nèi)內(nèi)存中緩存存多少個(gè)記記錄。一個(gè)個(gè)參數(shù)是記記錄數(shù)的限限制,另一一個(gè)是內(nèi)存存緩存的大大小限制。RCFille首先壓壓縮元數(shù)據(jù)據(jù)頭部并寫寫到磁盤,然

18、然后分別壓壓縮每個(gè)ccolummn hoolderr,并將壓壓縮后的ccolummn hoolderr刷寫到底底層文件系系統(tǒng)中的一一個(gè)行組中中。數(shù)據(jù)讀取和和Lazyy解壓在MapRReducce框架中中,mappper將將順序處理理HDFSS塊中的每每個(gè)行組。當(dāng)處理一一個(gè)行組時(shí)時(shí),RCFFile無(wú)無(wú)需全部讀讀取行組的的全部?jī)?nèi)容容到內(nèi)存。相反,它僅僅僅讀元數(shù)數(shù)據(jù)頭部和和給定查詢?cè)冃枰牧辛?。因此,它它可以跳過(guò)過(guò)不必要的的列以獲得得列存儲(chǔ)的的I/O優(yōu)優(yōu)勢(shì)。例如如,表tbbl(c11, c22, c33, c44)有4個(gè)個(gè)列,做一一次查詢“SELEECT cc1 FRROM ttbl WWHEREE

19、 c4 = 1”,對(duì)每個(gè)個(gè)行組,RRCFille僅僅讀讀取c1和和c4列的的內(nèi)容。在在元數(shù)據(jù)頭頭部和需要要的列數(shù)據(jù)據(jù)加載到內(nèi)內(nèi)存中后,它它們需要解解壓。元數(shù)數(shù)據(jù)頭部總總會(huì)解壓并并在內(nèi)存中中維 護(hù)直直到RCFFile處處理下一個(gè)個(gè)行組。然然而,RCCFilee不會(huì)解壓壓所有加載載的列,相相反,它使使用一種LLazy解解壓技術(shù)。Lazy解解壓意味著著列將不會(huì)會(huì)在內(nèi)存解解壓,直到到RCFiile決定定列中數(shù)據(jù)據(jù)真正對(duì)查查詢執(zhí)行有有用。由于于查詢使用用各種WHHERE條條件,Laazy解壓壓非常有 用。如果果一個(gè)WHHERE條條件不能被被行組中的的所有記錄錄滿足,那那么RCFFile將將不會(huì)解壓壓WH

20、ERRE條件中中不滿足的的列。例如如,在上述述查詢中,所所有行組中中的列 cc4都解壓壓了。然而而,對(duì)于一一個(gè)行組,如如果列c44中沒(méi)有值值為1的域域,那么就就無(wú)需解壓壓列c1。行組大小I/O性能能是RCFFile關(guān)關(guān)注的重點(diǎn)點(diǎn),因此RRCFille需要行行組夠大并并且大小可可變。行組組大小和下下面幾個(gè)因因素相關(guān)。行組大的話話,數(shù)據(jù)壓壓縮效率會(huì)會(huì)比行組小小時(shí)更有效效。根據(jù)對(duì)對(duì)Faceebookk日常應(yīng)用用的觀察,當(dāng)當(dāng)行組大小小達(dá)到一個(gè)個(gè)閾值后,增增加行組大大小并不能能進(jìn)一步增增加Gziip算法下下的壓縮比比。行組變大能能夠提升數(shù)數(shù)據(jù)壓縮效效率并減少少存儲(chǔ)量。因此,如如果對(duì)縮減減存儲(chǔ)空間間方面有強(qiáng)強(qiáng)烈需求,則則不建議選選擇使用小小行組。需需要注意的的是,當(dāng)行行組的大小小超過(guò)4MMB,數(shù)據(jù)據(jù)的壓縮比比將趨于一一致。盡管行組變變大有助于于減少表格格的存儲(chǔ)規(guī)規(guī)模,但是是可能會(huì)損損害數(shù)據(jù)的的讀性能,因因?yàn)檫@樣減減少了Laazy解壓壓帶來(lái)的性性能提升。而且行組組變大會(huì)占占用更多的的內(nèi)存, 這會(huì)影響響并發(fā)執(zhí)行行的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論