數(shù)據(jù)處理平臺解決方案設(shè)計(jì)_第1頁
數(shù)據(jù)處理平臺解決方案設(shè)計(jì)_第2頁
數(shù)據(jù)處理平臺解決方案設(shè)計(jì)_第3頁
數(shù)據(jù)處理平臺解決方案設(shè)計(jì)_第4頁
數(shù)據(jù)處理平臺解決方案設(shè)計(jì)_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)處理平臺解決方案設(shè)計(jì)數(shù)據(jù)采集、處理及信息構(gòu)造化相關(guān)技術(shù)數(shù)據(jù)源定位、采集過濾、格式轉(zhuǎn)換、排重、多路并發(fā)等策略??汀⑽募到y(tǒng)、數(shù)據(jù)庫等信息源不干擾原有業(yè)務(wù)系統(tǒng)的正常運(yùn)行制,保證內(nèi)容的質(zhì)量與完善;滿足對權(quán)限的把握;頻、視頻等。支持批量上傳多種格式的文檔,包括txt、html、rtf、word、pdf、MP3、MPEG等。visio的圖片文件,word的圖文框等〕;支持對各種壓縮文件、嵌套壓縮文件的采集;等多種數(shù)據(jù)源,導(dǎo)入后可自動解析數(shù)據(jù)源中的學(xué)問條目。配置好之后可以完全自動化的運(yùn)行,無需人工干預(yù);用戶可指定抓取網(wǎng)站列表,可進(jìn)展自定義、刪除、更改等操作;用戶可自定義開頭時(shí)間,循環(huán)次數(shù),傳送數(shù)據(jù)庫等參數(shù);自動檢測網(wǎng)頁鏈接,可自動下載更頁面,自動刪除無效鏈接;URL、網(wǎng)頁內(nèi)容、網(wǎng)頁頭、名目等的信息過濾;模塊,支持認(rèn)證的網(wǎng)站內(nèi)容抓取;可分布式部署,擴(kuò)展性強(qiáng);信息智能處理的智能效勞息效勞體系。一、非/半構(gòu)造化數(shù)據(jù)處理(Hadoop)層次組成:數(shù)據(jù)源層:主要包含內(nèi)外部信息系統(tǒng)?!不ヂ?lián)網(wǎng),內(nèi)部數(shù)據(jù)庫系統(tǒng)〕等;、XML、WVM、RM等、大型應(yīng)用系統(tǒng)等內(nèi)部信息進(jìn)展數(shù)據(jù)采集,全部的過濾策略、周期設(shè)定、周期更采集境外屏蔽網(wǎng)站信息。塊所調(diào)用。核心處理層,是整個(gè)系統(tǒng)建設(shè)的關(guān)鍵。內(nèi)容智能處理平臺供給的智能信息業(yè)務(wù)應(yīng)用功能供給強(qiáng)有力的技術(shù)支持。信息智能采集分析系統(tǒng)承受多層構(gòu)造,實(shí)現(xiàn)客戶機(jī)只存放表示層軟件,應(yīng)WebWebService,后臺是數(shù)據(jù)庫。在多層分布式體系中,系統(tǒng)資源被統(tǒng)一治理和使用,用戶可以通過統(tǒng)一門各功能層涉及技術(shù)需求說明智能檢索:支持海量的信息檢索,千萬級用戶訪問。具有自然語言檢索,自動抽取上下文摘要/內(nèi)容摘要,檢索結(jié)果自動分組和自動生成相關(guān)內(nèi)容。體系。聚類分析:聚類、趨勢分析自動地依其把握的專家學(xué)問體系,對大形成形象直觀的聚類分析圖;橫向比對,覺察趨勢,形成趨勢走向圖。的鏈接維護(hù)。性,降低信息冗余度。多個(gè)信息源中進(jìn)展分析,形成數(shù)據(jù)、分析圖形及對應(yīng)的文檔。效勞。二、并行數(shù)據(jù)倉庫〔PDW〕一體機(jī)體系構(gòu)造概述1/4工作負(fù)荷或數(shù)據(jù)量的要求,可以將其升級到一個(gè)完整的機(jī)柜,最多可升級到6個(gè)機(jī)柜。PDW體系構(gòu)造的各組件如以以下圖所示:PDW內(nèi)部的軟件體系構(gòu)造如以以下圖所示:虛擬機(jī)中治理效勞器W治理節(jié)點(diǎn)1,虛擬機(jī)治理MW域把握器〔〕把握節(jié)點(diǎn)〔:“把握”W平臺,該節(jié)點(diǎn)將整個(gè)基PDWADO.Net、的連接。把握節(jié)點(diǎn)為一體機(jī)供給了把握、治理和用戶界面功能。“AdminConsole”的基于掃瞄器的有用工具為該一體機(jī)供給了全面的監(jiān)控。MPP引擎在把握節(jié)點(diǎn)中運(yùn)行,它會分析傳入的懇求。它利用數(shù)據(jù)智能來創(chuàng)立的元數(shù)據(jù)和數(shù)據(jù)庫配置數(shù)據(jù)也存儲在把握節(jié)點(diǎn)內(nèi)。DMS〔DataMovementService,數(shù)據(jù)移動效勞〕作為一種效勞在把握節(jié)點(diǎn)中的查詢操作,它的主要功能是優(yōu)化數(shù)據(jù)傳輸速度,從而能夠提高性能。Server的一個(gè)實(shí)例運(yùn)行,它可以治理一體機(jī)的元數(shù)據(jù)。治理節(jié)點(diǎn)〔MAD0治理節(jié)點(diǎn)負(fù)責(zé)治理一體機(jī)中的硬件和軟件。它供給了Windows〔WSUS〕接收軟件更程序并將軟件更程序部署到一PDW配置治理器,可進(jìn)展配置治理。虛擬機(jī)治理〔M:W通過虛擬機(jī)治理節(jié)點(diǎn)對整個(gè)集群內(nèi)不同角色的虛機(jī)進(jìn)展集中治理。W域把握器〔:W集群內(nèi)的域把握器。計(jì)算效勞器計(jì)算節(jié)點(diǎn)效勞器是該解決方案的存儲功能和可伸縮性的一個(gè)根本組成局部。每個(gè)計(jì)算節(jié)點(diǎn)都作為SQLServer的一個(gè)實(shí)例運(yùn)行,如其名稱所示,大SQLServer數(shù)性能〔如上文所述。它以無共享體系構(gòu)造為根底,不與其它計(jì)算節(jié)點(diǎn)共享存儲MSCS〔微軟移到備用效勞器。WindowsStorageSpaces技術(shù)來處理磁盤的鏡像和熱備。Hyper-v的虛擬機(jī)。高可用熱備效勞器PDW1〔HA〕PDWHyper-V技術(shù)來處理磁盤的鏡像和熱備其他效勞器節(jié)點(diǎn)〔可選〕數(shù)據(jù)裝載區(qū):裝載區(qū)可支持持續(xù)的數(shù)據(jù)倉庫加載。通過DWLoader加載平面SQLServerPDW中。第三方軟件和工具〔ETL或其它〕可下載到裝載區(qū)并在此安裝。備份節(jié)點(diǎn):它是PDW的一個(gè)可選組件。其存儲容量相當(dāng)大,除了備份功能效勞器間的網(wǎng)絡(luò)連接依據(jù)網(wǎng)絡(luò)的流量特性,PDW效勞器集群內(nèi)節(jié)點(diǎn)間承受了兩種不同的連接方式,以提高系統(tǒng)的性能和穩(wěn)定性:接訪問數(shù)據(jù)訪問連接集中地治理PDW數(shù)據(jù)庫治理員可以查看目前正在運(yùn)行的查詢〔在單獨(dú)節(jié)點(diǎn)的分布/分區(qū)級別也供給了統(tǒng)計(jì)數(shù)據(jù),監(jiān)控正在進(jìn)展的加載,查看歷史查詢并進(jìn)展其它相關(guān)操作。治理PDW進(jìn)展高級治理。這樣,存儲治理〔包括警報(bào)〕HPC工具〔已經(jīng)過預(yù)配置,可監(jiān)控整個(gè)解決方案〕對存儲狀況進(jìn)展全方位的監(jiān)控。另外,通過合并的SQLServerDynamicManagementViews(DMVs),數(shù)SQLPDW系統(tǒng)的狀態(tài),這對于批處理流程的自動化是最抱負(fù)的。存儲治理不會帶來額外的費(fèi)用。圖:AdminConsole例如PDW也可以通過系統(tǒng)中心操作治理器〔SystemCenterOperationsManager〕進(jìn)展監(jiān)控和操作。我們供給了一個(gè)治理包t,它具有以下功能:SQLServer一體機(jī)的根本治理包進(jìn)展快照處理,以便在全部一體機(jī)之間供給全都的覺察模型。PDW一體機(jī)的硬件和軟件組件。能夠跨越硬件和軟件組件匯總整體的運(yùn)行狀況信息。PDW群集的節(jié)點(diǎn)〔多機(jī)架支持。題。PDW一體機(jī),以便進(jìn)展覺察和監(jiān)控操作。PDW一體機(jī)的層次構(gòu)造〔包括硬件和軟件組件。視圖一共有三種狀態(tài),包括:一體機(jī)視圖–供給了整個(gè)一體機(jī)的運(yùn)行狀況及其各個(gè)節(jié)點(diǎn)的高級信息。一體機(jī)節(jié)點(diǎn)–表示每個(gè)節(jié)點(diǎn)的運(yùn)行狀況及角色的視圖。–IT操作人員可以使用該視圖來查看警報(bào)并實(shí)行適當(dāng)?shù)拇胧?。自定義的電子郵件模板供給了關(guān)于警報(bào)的具體信息。三、流數(shù)據(jù)處理〔CEP〕?強(qiáng)大的平臺,可用于開發(fā)和部署簡潔大事處理(CEP)應(yīng)用程序。它具有高吞吐Microsoft.NETFrameworkWebStreamInsightCEP掘數(shù)據(jù)中的條件、機(jī)遇和缺陷,進(jìn)而從那些原始數(shù)據(jù)中獲得直接業(yè)務(wù)價(jià)值。StreamInsightCEP應(yīng)用程序,可以為企業(yè)實(shí)現(xiàn)以下戰(zhàn)術(shù)和戰(zhàn)略目標(biāo):監(jiān)控多來源數(shù)據(jù)中有意義的模式、趨勢、特別和機(jī)遇。簡潔度分析。(KPI)所定義的響應(yīng)操作來治理業(yè)務(wù)。通過將KPI定義納入CEP應(yīng)用程序的規(guī)律中來快速響應(yīng)機(jī)遇或威逼的各個(gè)方面,從而提高運(yùn)營效率以及快速響應(yīng)商機(jī)的力氣。挖掘大事以查找的業(yè)務(wù)KPI。KPIMicrosoftStreamInsightStreamInsight效勞器。它包括大事源、一組使用查詢檢查大事流的固定進(jìn)程,以及處理結(jié)果的大事接收器。StreamInsight〔Web感器、股票行情顯示器或聞源〕和大事使用者〔KPI儀表板、交易所或數(shù)據(jù)庫〕StreamInsight效勞于觸發(fā)特定操作。StreamInsight體系構(gòu)造:Figure流數(shù)據(jù)處理體系構(gòu)造StreamInsight具有以下主要優(yōu)點(diǎn):〔1〕高度優(yōu)化的性能和數(shù)據(jù)吞吐量滯后時(shí)間。借助StreamInsigt可以訪問靜態(tài)引用或歷史數(shù)據(jù),這些內(nèi)容包括在低滯后時(shí)間分析中?!?〕.NET開發(fā)人員可以使用Microsof的.NET〔VisualCEP應(yīng)用程序,從而利用高級語言平臺LIN〔LanguageIntegratedQur語言集成查詢版本中,StreamInsightC#作為宿主語言。LINQSQL的開發(fā)人員可以很快以聲明方式編寫查詢,將來自多個(gè)流的數(shù)據(jù)處理并關(guān)聯(lián)到有意義的結(jié)果中。StreamInsight效勞器中的優(yōu)化器和打算程序相繼確保優(yōu)化查詢性能。靈敏的開發(fā)功能StreamInsight支持三種部署方案:作為托管〔嵌入式〕DLL完全集成到應(yīng)用程序中。立配置中,StreamInsight效勞器在一個(gè)包裝〔如可執(zhí)行文件〕中運(yùn)行,也可以將效勞器打包為一項(xiàng)Windows效勞。StreamInsight效勞器可作為效勞器場的一局部??芍卫硇許treamInsightCEP應(yīng)用程序(TCO)StreamInsight效勞器中供給的治理界面和診斷視圖允許治理員監(jiān)控和治理CEPISV和系統(tǒng)StreamInsight部署的系統(tǒng)。StreamInsight供給獨(dú)立的大事流調(diào)試程序,可用來分析、診斷和排查StreamInsight中使用的查詢。四、微軟大數(shù)據(jù)平臺的主要優(yōu)勢用于數(shù)據(jù)倉庫、抽取、轉(zhuǎn)換和加載功能〔ETL〕和商業(yè)智能〔BI〕的完整的〔TCO〕向市場供給領(lǐng)先的門Week和IDCBI、數(shù)據(jù)倉庫領(lǐng)域的領(lǐng)先者。特性的大量并發(fā)用戶。庫。AnalysisServices。線性的可伸縮模型,可增加數(shù)據(jù)量和分析處理需求。性能。ETLPDWDWLoaderSQLIntegrationServicesSQLIntegrationServices30分1TB的數(shù)據(jù)。處理器U〕和隨機(jī)存取內(nèi)存〔M。ETLPDW數(shù)據(jù)倉庫進(jìn)展有效的利用。ETL、備份等操作全部并發(fā)執(zhí)行并并行處理。PDW引擎和端到端解決方案具有低廉的總擁有本錢。〔nene對LPDW一體機(jī)進(jìn)展監(jiān)控。PDW自動、透亮的故障轉(zhuǎn)移功能。能。更快的查詢、報(bào)表響應(yīng)時(shí)間和功能,可進(jìn)展更好的趨勢分析和推想分析。Vertipaq引擎和列索引實(shí)現(xiàn)了高速的性能。PDW可選內(nèi)置的備份節(jié)點(diǎn),支持并行的備份機(jī)制,提高數(shù)據(jù)庫備份和恢復(fù)Server供給了內(nèi)置的備份軟件。指標(biāo)I、趨勢分析等;富有創(chuàng)意的特色功能,如深化、分解樹等。PowerViewPowerPivotServicesforSharePoint、。1層的企業(yè)級技術(shù)支持。使用該解決方案。等功能,從任何類型的數(shù)據(jù)中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論