構(gòu)建海量數(shù)據(jù)倉庫解決方案_第1頁
構(gòu)建海量數(shù)據(jù)倉庫解決方案_第2頁
構(gòu)建海量數(shù)據(jù)倉庫解決方案_第3頁
構(gòu)建海量數(shù)據(jù)倉庫解決方案_第4頁
構(gòu)建海量數(shù)據(jù)倉庫解決方案_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、構(gòu)建海量數(shù)據(jù)倉庫解決方案沈強(qiáng)顧問咨詢部微軟(中國)有限公司議程介紹邏輯設(shè)計計物理設(shè)計計硬件問題題ETL開發(fā)運(yùn)行T3OperationalData Store數(shù)據(jù)倉庫庫系統(tǒng)的的組成部部分?數(shù)據(jù)倉庫庫系統(tǒng)= ETL+關(guān)系型數(shù)數(shù)據(jù)存儲儲+ OLAP+客戶端+元數(shù)據(jù)?+數(shù)據(jù)集市市?+數(shù)據(jù)挖掘掘?+ Operational DataStore(ODS)?數(shù)據(jù)集市市和多維維數(shù)據(jù)集集關(guān)系型數(shù)據(jù)存儲儲源系統(tǒng)客戶端數(shù)據(jù)倉庫庫系統(tǒng)包包括OLAP和客戶端端數(shù)據(jù)倉庫庫系統(tǒng)= ETL+關(guān)系型數(shù)數(shù)據(jù)存儲儲+ OLAP+客戶端為什么使使用OLAP?豐富的查查詢功能能速度對客戶端端多維模模型的支支持AnalysisServi

2、ces應(yīng)當(dāng)是幾幾乎所有有數(shù)據(jù)倉倉庫的組組成部分分海量數(shù)據(jù)據(jù)倉庫的的特征數(shù)據(jù)量數(shù)以TB計的數(shù)據(jù)據(jù)量需要要深思熟熟慮的管管理用戶數(shù)上百乃至至上千的的用戶,要求很很高的穩(wěn)穩(wěn)定性和和查詢性性能大型的服服務(wù)器或或分布式式系統(tǒng)需要數(shù)據(jù)據(jù)中心級級的運(yùn)作作管理基于因特特網(wǎng)的訪訪問意味著多多服務(wù)器器和負(fù)載載均衡需要為內(nèi)內(nèi)部、外外部和公公共用戶戶提供服服務(wù)關(guān)鍵任務(wù)務(wù)仔細(xì)的數(shù)數(shù)據(jù)管理理以防止止數(shù)據(jù)丟丟失,保保證數(shù)據(jù)據(jù)的可用用性大型數(shù)據(jù)據(jù)倉庫的的常見問問題ETL:在分配的的時間槽槽內(nèi)完成成數(shù)據(jù)處處理查詢性能能小型數(shù)據(jù)據(jù)倉庫總總是比大大型的要要快管理的復(fù)復(fù)雜性索引的備備份, “裁剪”等.硬件成本本和管理理問題議程介紹邏

3、輯設(shè)計計物理設(shè)計計硬件問題題ETL開發(fā)運(yùn)行T3構(gòu)建大型型數(shù)據(jù)倉倉庫的替替代方法法清除無用用的數(shù)據(jù)據(jù)采用適當(dāng)當(dāng)?shù)臄?shù)據(jù)據(jù)粒度僅將細(xì)粒粒度的詳詳細(xì)信息息用于:統(tǒng)計取樣樣(例如:5%的客戶)一段很短短的時間間(如一天)對于Web日志是很很好的方方式設(shè)計范例例點(diǎn)擊流數(shù)數(shù)據(jù)倉庫庫,從代理服服務(wù)器日日志取數(shù)數(shù)據(jù).需求:內(nèi)部站點(diǎn)點(diǎn)的訪問問起點(diǎn)是是什么?訂閱者訪訪問哪些些內(nèi)部網(wǎng)網(wǎng)頁?訂閱者訪訪問的頻頻率有多多高,訪訪問時間間有多長長?解決方法法:清除所有的圖圖像點(diǎn)擊擊,僅保存主主要的頁頁面訪問問(清除90%的數(shù)據(jù))以日為單單位聚集頁面點(diǎn)擊擊,按用戶、頁面和和參照頁頁面分組組(再削減75%數(shù)據(jù))為詳細(xì)的的連接歷歷

4、史建立立單獨(dú)的模模型(用一條記記錄表達(dá)達(dá)每一次次連接或或訪問)90天后將詳詳細(xì)數(shù)據(jù)據(jù)歸檔超大型維維度超大型維維度(5百萬以上上的成員員)是數(shù)據(jù)倉倉庫面臨臨的巨大大挑戰(zhàn)在關(guān)系數(shù)數(shù)據(jù)庫或或多維數(shù)數(shù)據(jù)庫中中都是挑挑戰(zhàn)大型服務(wù)務(wù)的每一一個客戶戶(例如:AT&T的電信客客戶; M的訪問者者)一個服務(wù)務(wù)中的每每一個Web頁面(例如:AOL或WebTV)隨著時間間的增長長,用2型慢速變變化維度度對付超超大型維維度(50萬 500萬個成員員)的特征用戶的應(yīng)應(yīng)用程序序需要成成員級的的詳細(xì)信信息嗎?通過Drillthrough提供對單單個成員員的詳細(xì)細(xì)信息訪訪問議程介紹邏輯設(shè)計計物理設(shè)計計硬件問題題ETL開發(fā)運(yùn)行

5、T3關(guān)系數(shù)據(jù)據(jù)庫中的的鍵和索索引代理(整型)鍵總是推薦薦使用代代理鍵選用經(jīng)可可能小的的整數(shù)減減小事實(shí)實(shí)表的尺尺寸用于維護(hù)護(hù)鍵和索索引的代代價很高高索引的需需求ETL過程和數(shù)數(shù)據(jù)的完完整性Cube數(shù)據(jù)裝載載查詢Cube的drillthrough查詢索引技巧巧使用索引引調(diào)節(jié)向向?qū)?IndexTuning Wizard)!DistinctCountCube數(shù)據(jù)裝載載查詢中中包含ORDERBY子句優(yōu)化事實(shí)實(shí)表的索索引例子Cube1包含DistinctCount度量值Cube2包含相同同的維度度和其他他度量值值用虛擬Cube將二者組組合在一一起數(shù)據(jù)倉庫庫的分區(qū)區(qū)RDBMS中的分區(qū)區(qū)意味著著將實(shí)施施表分割

6、割為多個個表、最適合的的情況:分區(qū)和和業(yè)務(wù)功功能的分分割一致致利用時間間段進(jìn)行行分區(qū)好處:索引,備份,數(shù)據(jù)“裁剪”和數(shù)據(jù)裝裝載在AnalysisServices中, cube也可以進(jìn)進(jìn)行分區(qū)區(qū)推薦在大大型Cube中使用并行數(shù)據(jù)據(jù)處理(CubeProcessing),尤其是初初始數(shù)據(jù)據(jù)裝載查詢性能能,提高高查詢的的選擇性性議程介紹邏輯設(shè)計計物理設(shè)計計硬件問題題ETL開發(fā)運(yùn)行T3RDBMS硬件:內(nèi)存,處理器,網(wǎng)絡(luò),存儲大內(nèi)存!大內(nèi)存!大內(nèi)存!RDBMS可通過Windows AWE使用大內(nèi)內(nèi)存(3GB以上)處理器將數(shù)據(jù)加加載(ETL)程序設(shè)計計為并行行裝載和和處理數(shù)數(shù)據(jù)網(wǎng)絡(luò)帶寬寬在源數(shù)據(jù)據(jù)系統(tǒng)和和R

7、DBMS間建立高高速連接接將事實(shí)數(shù)數(shù)據(jù)分布布在多個個控制器器和多個個磁盤上上使用文件件分區(qū)提提高數(shù)據(jù)據(jù)備份和和恢復(fù)的的性能AnalysisServices硬件:內(nèi)存和網(wǎng)網(wǎng)絡(luò)內(nèi)存:分析服務(wù)務(wù)器一般般最多使使用4 GB內(nèi)存(64位硬件解解決了這這個問題題)維度內(nèi)存存處理緩沖沖區(qū)結(jié)果集緩緩存網(wǎng)絡(luò)帶寬寬在RDBMS和Analysisserver建立高速速帶寬AnalysisServices硬件:存儲存儲空間間需求通常MOLAPU的數(shù)據(jù)大大小是源源數(shù)據(jù)的的20%-40%ROLAP會更多但但都在RDBMS中HOLAP會更少磁盤配置置一個邏輯輯驅(qū)動器器使用RAID和條帶集集使用多個個控制器器以獲得得更高的的

8、帶寬邏輯驅(qū)動動器物理驅(qū)動動器物理驅(qū)動動器物理驅(qū)動動器AnalysisServices硬件:處理器對于查詢詢一個查詢詢可能使使用多個個處理器器部門級或或更大的的cube:“日?!钡牡?路服務(wù)器器企業(yè)級cube (基于750GB或更多的的源數(shù)據(jù)據(jù)):考慮使用用高性能能8路服務(wù)器器對于Cube處理Cube處理過程程僅使用用2個處理器器,除非應(yīng)用程序序設(shè)計為為并行處處理分區(qū)區(qū)或者RDBMS和AnalysisServices位于同一一臺機(jī)器器上議程介紹邏輯設(shè)計計物理設(shè)計計硬件問題題ETL開發(fā)運(yùn)行T3事實(shí)表的的數(shù)據(jù)轉(zhuǎn)轉(zhuǎn)換面對極大大的數(shù)據(jù)據(jù)量,用最高效效的代碼碼(通常是定定制的代代碼)進(jìn)行:清除“無無用”數(shù)

9、數(shù)據(jù)預(yù)聚集(調(diào)整粒度度)執(zhí)行其他他基于記記錄行的的操作代理鍵查查找可能使用用自定義義的代碼碼可用于在在刪除無無用數(shù)據(jù)據(jù)和粒度度調(diào)整后后裝載數(shù)數(shù)據(jù)到中中間表數(shù)據(jù)裝載載技術(shù)從文本文文件中Bulk Insert:使用TSQL使用DTSExecSQL任務(wù)Bulk InsertDTS任務(wù)BCPDTS數(shù)據(jù)傳輸輸任務(wù)僅使用拷拷貝傳輸輸,最小化日日志使用預(yù)定定義的數(shù)數(shù)據(jù)轉(zhuǎn)換換使用一個個或多個個ActiveX腳本從關(guān)系數(shù)數(shù)據(jù)庫中中T-SQLSELECTINTO從DTSExecuteSQL任務(wù)中執(zhí)執(zhí)行DTS數(shù)據(jù)傳輸輸任務(wù)僅使用拷拷貝傳輸輸,最小化日日志使用預(yù)定定義的數(shù)數(shù)據(jù)轉(zhuǎn)換換使用一個個或多個個ActiveX腳本

10、RDBMS:更新事實(shí)實(shí)表不要更新新!寫入沖紅紅事實(shí)記記錄!例子:Jane在Jan-15賣了5件widgets給JoeJan-16, Joe說他只需需要3件2條事實(shí)表表記錄:Jane |Joe |widget |Jan-15 |5| original saleJane |Joe |widget |Jan-16 |-2|revision變更將自自然地反反映到cube中Cube處理初始數(shù)據(jù)據(jù)裝載技巧是-并行處理理!需要并行行處理工工具最近發(fā)布布的SQL2000resourcekit中包含該該工具h(yuǎn)ttp:/ LoadBalancing何時使用用群集選選項(xiàng)后端系統(tǒng)統(tǒng)的完整整性(RDBMS)MSCS數(shù)據(jù)

11、只有有一份拷拷貝前端的可可伸縮性性/可用性(AnalysisServices)NLB有效的使使用多臺臺服務(wù)器器所有服務(wù)務(wù)器需要要相同的的數(shù)據(jù)拷拷貝管理AnalysisServices的安全性性注意很多多角色管理上的的問題注意在大大維度上上過多的的成員安安全性設(shè)設(shè)置多份維度度數(shù)據(jù)是是潛在消消耗內(nèi)存存的因素素應(yīng)用程序序安全性性在Web客戶端的的場景下下, IIS可以管理理安全性性Cube安全性議程介紹邏輯設(shè)計計物理設(shè)計計硬件問題題ETL開發(fā)運(yùn)行T3T3項(xiàng)目目標(biāo)標(biāo)展示AnalysisServices的可伸縮縮性從1TB+的源數(shù)據(jù)據(jù)構(gòu)建Cube描述在此此規(guī)模數(shù)數(shù)據(jù)量上上進(jìn)行操操作的技技術(shù)使用cube展

12、示快速速的查詢詢能力概念驗(yàn)證證系統(tǒng)解決實(shí)際際業(yè)務(wù)問問題:模式,數(shù)據(jù),目標(biāo)T3合作伙伴伴UnisysHTTP瀏覽器WebServerOLEDB for OLAPT3數(shù)據(jù)流MOLAPCubeOLE DBTerminalServerRDPPC 客戶端OLEDB for OLAP數(shù)據(jù)倉庫數(shù)據(jù)提供者的磁帶Unisys ES7000 e-ction Enterprise ServersT3硬件配置置OLAPServer16CPUDataWarehouse8 CPUWebServer8 CPUTerminalServer4 CPUcLANBackboneInternetClient SystemsEMC2

13、Enterprise Storage3Symmetrix 3830-36EnterpriseStorageNetworkEMCConnectrix3.4 TB3.4 TB3.4 TBEMCControlCenterEDMBackupServer數(shù)據(jù)概述述于實(shí)際生生產(chǎn)數(shù)據(jù)據(jù)庫系統(tǒng)統(tǒng)的擴(kuò)展展維度市場(80個市場)時間(268星期, 67月, 5年)產(chǎn)品(710,000個產(chǎn)品, 130,000個品牌, 1000個類別, 500小組, 100個分組, 9各部門)8個事實(shí)表表:在不同級級別上的的聚合對應(yīng)于8個cube,組成一個個虛擬Cube與當(dāng)前生生產(chǎn)系統(tǒng)統(tǒng)的表完完全一致致按月分區(qū)區(qū)維度和cube基于雪片片型結(jié)構(gòu)構(gòu)異質(zhì)的數(shù)數(shù)據(jù)粒度度T3的分區(qū)設(shè)設(shè)計星期月部門No source dataNo source data大類No source dataNo source data小類67月67月子類67月67月品牌67月67月項(xiàng)目 67月x 9部門67月存儲需求求39%性能處理77億條記錄錄, 50小時153million/hr42Krows/sec60-70%CPU利用率查詢50-用戶的工工作負(fù)載載, 1350種查詢, 30秒思考時時間冷cache中值響應(yīng)應(yīng)時間0.08秒,平均1.2秒低CP

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論