某某高校數(shù)字化校園數(shù)據(jù)中心建設方案設計_第1頁
某某高校數(shù)字化校園數(shù)據(jù)中心建設方案設計_第2頁
某某高校數(shù)字化校園數(shù)據(jù)中心建設方案設計_第3頁
某某高校數(shù)字化校園數(shù)據(jù)中心建設方案設計_第4頁
某某高校數(shù)字化校園數(shù)據(jù)中心建設方案設計_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

./XXX高校數(shù)字校園數(shù)據(jù)中心建設方案建議書目錄一、項目概述41.1建設背景41.2建設目標51.3建設原則61.4云平臺技術打造大數(shù)據(jù)與高性能優(yōu)勢7二、需求分析92.1現(xiàn)狀分析92.2總體建設9XXX高校校園云平臺需求10大數(shù)據(jù)分析需求10高性能需求12三、數(shù)據(jù)中心總體規(guī)劃14四、云數(shù)據(jù)中心建設規(guī)劃174.1資源池規(guī)劃184.2資源池規(guī)劃內容204.3虛擬化軟件選型規(guī)劃234.4云管理平臺建設規(guī)劃244.5數(shù)據(jù)中心統(tǒng)一管理平臺規(guī)劃27五、大數(shù)據(jù)建設規(guī)劃295.1大數(shù)據(jù)平臺規(guī)劃295.2大數(shù)據(jù)架構介紹345.3新型分布式處理技術基礎355.4分布式文件系統(tǒng)355.5MapReduce計算框架365.6數(shù)據(jù)管理與分析385.7分布式數(shù)據(jù)庫385.8Hive數(shù)據(jù)倉庫395.9大數(shù)據(jù)調優(yōu)服務39六、高性能建設規(guī)劃426.1高性能平臺建設內容426.2高性能平臺總體性能要求426.3節(jié)點配置詳解43計算節(jié)點〔大數(shù)據(jù)DataNode節(jié)點43GPU節(jié)點43八路胖節(jié)點44管理節(jié)點〔NameNode節(jié)點456.3.5IO節(jié)點〔JobTracker、TaskTracker節(jié)點45存儲系統(tǒng)46計算網絡466.3.8TSDM集群部署軟件介紹516.3.9備份還原軟件介紹53集群并行環(huán)境介紹54七、機房建設規(guī)劃55八、方案配置清單56項目概述1.1建設背景遍布全球的互聯(lián)網絡正在無時無刻、無所不在地滲透到人們工作、生活和學習中,成為推動社會發(fā)展的強大動力。在商業(yè)化的世界中,眾多企業(yè)正在把自己轉變成一種稱為"數(shù)字神經系統(tǒng)"的新型組織,讓企業(yè)能夠以數(shù)字神經系統(tǒng)的方式對內部業(yè)務流程、知識共享和網絡商務進行整合,快速響應全球化的競爭。高校不僅承擔著人才培養(yǎng)的重任,還承擔了一些前沿科技和技術的研究。同樣,作為培養(yǎng)和造就新世紀人才的教育系統(tǒng)和學校,也面臨同樣的社會環(huán)境變化趨勢。然而,很多學校卻明顯落在了互聯(lián)網絡時代的后面,盡管學校已經采用了一些先進的設備和工具,但是還在沿用千百年來的傳統(tǒng)教學方法和管理模式。電化教學設備、電腦乃至校園網都變成了利用率很低的簡單擺設,真正起決定性變化的管理和教學的方法和模式卻沒有隨著社會發(fā)展的大趨勢進行相應變革。面對知識全球化和民族素質提高的教育要求,以及一系列的教育市場化競爭的挑戰(zhàn),"數(shù)字化校園"正在日臻成熟并發(fā)揮越來越重要的作用。"數(shù)字化校園"的目標就是為了使校園的使用者可以更有效的利用校園來開展教學、科研活動并更方便快捷地進行學習、生活。因此校園的主人:學生——教師——管理人員就成為數(shù)字化校園的服務對象,他們的主要校園活動:教學——科研——管理——生活就成為數(shù)字化校園的內容主體。"數(shù)字化校園"的目標用一個詞來表示就是服務",為學生、教師、管理人員提供更好的服務就是數(shù)字化校園的宗旨。目前云計算、互聯(lián)網+、大數(shù)據(jù)分析、移動和物聯(lián)網發(fā)展迅猛,數(shù)以億計的用戶通過互聯(lián)網服務時時刻刻都產生大量的交互,這些交互通過手持設備、RFID、無線傳感器產生大量的數(shù)據(jù),IDC預計到2020年全球數(shù)據(jù)將增加到35ZB〔1ZB=1024EB、1EB=1024PB,是2009年的45倍,其中80%以上為非結構化數(shù)據(jù)。這些需要處理的數(shù)據(jù)量越來越大、增長迅猛,而業(yè)務需求和競爭壓力對數(shù)據(jù)處理的實時性、有效性又提出來更高的要求,常規(guī)的數(shù)據(jù)庫技術手段根本無法應付與處理。由此而生產了BigData技術來處理此類問題。大數(shù)據(jù)技術將是IT領域新一代的技術與架構,他將幫助人類從大量、復雜的數(shù)據(jù)中提取價值,它可以幫助決策者在儲存的海量信息中挖掘出需要的信息,并且對這些信息進行分析研究,從而發(fā)現(xiàn)重要的趨勢信息。因此大數(shù)據(jù)的有效管理和挖掘將成為未來競爭和增長的基礎,并日益成為企業(yè)的生產要素和戰(zhàn)略資產,預計也將帶來新一輪生產率的提升和消費者體驗改善,類似工業(yè)革命的大數(shù)據(jù)時代已經來臨,我們有理由相信未來大數(shù)據(jù)的產業(yè)規(guī)模將會至少以萬億美元來進行衡量。大數(shù)據(jù)將給IT行業(yè)開拓一個新的黃金時代,作為XX重要的高校我們有義務在這些前沿科技上做出對人類、社會、XX、XX有幫助的研究并造福人類、造福XX和XX。云計算是一種新型的信息資源管理和計算服務模式,是繼大型計算機、個人電腦、互聯(lián)網之后信息產業(yè)的一次革命。云計算可將分散的計算、存儲、服務資源有機整合起來管理和服務,轉變了傳統(tǒng)IDC運行管理理念,是未來計算的發(fā)展方向。云計算以其資源動態(tài)分配、按需服務的設計理念,具有低成本解決海量信息處理的獨特魅力。云計算+大數(shù)據(jù)將會為現(xiàn)有的數(shù)據(jù)中心增加可用性特點能高效地、安全地運營;另一方面,并能降低數(shù)據(jù)中心的能源消耗和運行成本;我們對云計算的理解是:云計算一種基于網絡的支持異構設施和資源流轉的服務供給模型,它提供給客戶可自治的服務,實現(xiàn)資源的按需分配、按量計費。云計算導致資源規(guī)模化,促進分工的專業(yè)化,使得資源供應商和用戶都更加關注于自己的業(yè)務,有利于降低單位資源成本,促進全社會的開拓創(chuàng)新。浪潮從事教育行業(yè)已經有數(shù)十年經驗,致力于幫助教育用戶提供一體化的數(shù)字化校園解決方案,在教育行業(yè)有數(shù)量眾多的成功案例,浪潮承諾站在用戶角度,尋求最為合理的解決方案,最大限度滿足客戶需求。1.2建設目標本次建設目標為:利用云計算技術打造XXX高校大數(shù)據(jù)分析、高性能應用等高??蒲谢A平臺。云計算資源中心建設后,將包括校園云計算虛擬化中心、大數(shù)據(jù)分析、和高性能計算中心,并為此三個中心提供統(tǒng)一管理平臺。通過云計算資源中心的建設,物理資源將被組織起來統(tǒng)一調配和供應,提供給學校各學院、部門、教師及學生使用。并且通過云數(shù)據(jù)中心為學校提供大數(shù)據(jù)分析和高性能計算服務。通過資源集中化,資源的共享得以實現(xiàn),應用在資源之間的遷移也成為可能。當資源集中后,對于相同資源進行管理的代價將大幅度降低,而資源的使用率將成倍提升。從而解決數(shù)據(jù)中心當前面臨的問題,更有效的推動信息化的發(fā)展。基于云計算的大數(shù)據(jù)和高性能中心建設目標主要有以下幾個方面:1、資源緯度集約化。通過虛擬化方式,為各學院、部門和師生提供基礎計算服務和數(shù)據(jù)存儲。2、數(shù)據(jù)緯度一體化。方便數(shù)據(jù)共享,為大規(guī)模數(shù)據(jù)整合和交換提供可能。3、管理緯度服務化。利用云計算方式,實現(xiàn)基礎軟硬件資源的統(tǒng)一管理、按需分配、綜合利用,降低各部門系統(tǒng)建設成本和日常運行維護費用。高校數(shù)字校園云計算平臺建設著重點為:提供IAAS服務的服務器虛擬化中心,提供校園師生教學辦公用的校園云盤中心和提供高性能計算服務的高性能計算中心。建設完成后的高校云計算平臺實現(xiàn)以下功能:1、建設服務器虛擬化中心;為學校各大業(yè)務平臺提供IAAS服務,以虛擬服務器的方式為校園各大業(yè)務平臺提供業(yè)務支撐服務;2、建設大數(shù)據(jù)分析;為前沿的大數(shù)據(jù)分析和研究提供服務,為部分在校學生課題提供服務;3、建設校園高性能計算中心;為學校一些需要進行高性能計算的部門提供高性能計算基礎平臺,為業(yè)務部門高性能計算需求提供服務;4、建設云計算中心統(tǒng)一管理平臺;為校園云計算中心中的業(yè)務云平臺、大數(shù)據(jù)分析系統(tǒng)、高性能計算中心提供統(tǒng)一的管理平臺,為不同管理用戶和業(yè)務用戶提供統(tǒng)一入口;5、通過建設云計算平臺,學校實現(xiàn)對資源的大集中統(tǒng)一管理并提升整體計算能力;通過虛擬化技術提高資源利用率,避免重復建設,節(jié)約整體成本。1.3建設原則結合本項目的實際應用和發(fā)展要求,在進行云計算+大數(shù)據(jù)+高性能平臺方案設計過程中,應始終堅持以下原則:〔1可擴展性原則為了保護已有的投資以及不斷增長的業(yè)務需求,系統(tǒng)必須具有靈活的結構并留有合理的擴充余地,以便根據(jù)需要進行適當?shù)淖儎雍蛿U充;主要業(yè)務平臺系統(tǒng)應采用開放的結構,符合國際標準、工業(yè)標準和行業(yè)標準,適應技術的發(fā)展和變化?!?合理性原則在一定的資金條件下,以適當?shù)耐度?建立性能價格比高的、先進的、完善的業(yè)務系統(tǒng)。所有軟硬件的選型和配置要堅持性能價格比最優(yōu)原則,同時兼顧與已有設備和系統(tǒng)的互聯(lián)互通能力,以及與目前操作系統(tǒng)和應用系統(tǒng)的兼容性。在滿足系統(tǒng)性能、功能以及考慮到在可預見的未來不失去先進性的條件下,盡量取得整個系統(tǒng)的投入合理性,以構成一個性能價格比優(yōu)化的應用系統(tǒng)。系統(tǒng)架構的設計應盡可能地運用虛擬化、云計算等新技術,以符合未來的技術發(fā)展方向。這種設計方法可以最大化地利用投資,并在利用率、管理、能源等各方面提高用戶投資的效率,降低總體擁有成本,減少浪費的發(fā)生。結合新技術的運用,也可以讓各應用系統(tǒng)更好地融入未來整體IT建設規(guī)劃中,避免發(fā)生推到重建的現(xiàn)象,從而更好地保護學校在信息系統(tǒng)上的投入?!?可靠性原則系統(tǒng)要具有高可靠性及強大的容錯能力。該系統(tǒng)必須保證7×24全天候不間斷地工作,核心設備比如數(shù)據(jù)庫服務器和存儲設備具有全容錯結構,并具有熱插拔功能,可帶電修復有關故障而不影響整個系統(tǒng)的工作,設計應保持一定數(shù)量的冗余以保證整體系統(tǒng)的高可靠性和高可用性。即便是在系統(tǒng)建設初期也要著重考慮系統(tǒng)可用性、可靠性問題,防止出現(xiàn)系統(tǒng)停頓等問題造成信息系統(tǒng)的中斷服務。通過結合云計算等新技術,可以更好地提高系統(tǒng)的可靠性和可用性?!?可管理性原則選擇基于國際標準和開放的技術,采用標準化、規(guī)范化設計;同時采用先進的設備,易于日后擴展,便于向更新技術的升級與銜接,實現(xiàn)系統(tǒng)較長的生命力;保證在系統(tǒng)上進行有效的開發(fā)和使用,并為今后的發(fā)展提供一個良好的環(huán)境;在設計、組建中心機房系統(tǒng)時,采用先進的、標準的設備;在選購服務器、存儲和連接設備時,選用同一家公司的系列產品,確保系統(tǒng)部件間的嚴密配合和無縫聯(lián)接,并獲得良好的售后服務和技術支持;整個系統(tǒng)建成后按照整理一套完整的文檔資料,以便提高整個系統(tǒng)的可管理性與可維護性。1.4云平臺技術打造高校數(shù)字化校園優(yōu)勢通過建立云計算平臺,通過服務的方式交付對物理硬件的需求,代替?zhèn)鹘y(tǒng)硬件設備跟隨著應有系統(tǒng)的增加而增加的模式,對現(xiàn)有應用系統(tǒng)進行整合,實現(xiàn)IT服務的快速交付,節(jié)能響應國家號召,提升業(yè)務系統(tǒng)安全。1、合理利用硬件資源,減少運行消耗云計算平臺可將服務器物理資源轉換成池化的可動態(tài)分配的計算單元,從學校業(yè)務具體需求出發(fā),在資源池中劃分出適合具體業(yè)務需要的服務計算單元,不再受限于物理上的界限,從而提高資源的利用率,簡化系統(tǒng)管理,讓信息化建設對學校業(yè)務工作的變化更具適應力,從而構建出信息系統(tǒng)平臺的基礎。云平臺建成后,可減少物理服務器數(shù)量至原有數(shù)量的一半以上,機房空間占用面積大大減少,機房相應配套設施建設也可能夠相應減少,在實際工作中預計可節(jié)省能源達到70%以上,響應國家節(jié)能減排的要求。2、增強業(yè)務部署速度,提高即時響應能力云平臺能夠對學校業(yè)務系統(tǒng)提出的建設需求做到快速響應、快速部署,部署更新工作時間由原來數(shù)天或數(shù)星期縮短為只需幾分鐘即可完成。如果總資源池中的硬件計算資源告急,只需要添加相應的物理服務器,簡單的將新購的服務器部署到資源池集群中,云平臺會根據(jù)整體資源池的動態(tài)資源平衡來自動分配新增加的計算資源給應用程序,真正的實現(xiàn)新服務器的即插即用。3、完善應急安全機制云平臺可以自動監(jiān)控資源池中計算單元和應用單元的可用性,檢測物理服務器故障,如果檢測到故障,可重新在資源池中其他物理服務器上重新啟動相關業(yè)務,整個過程無需人工干預。通過專線光纖將同城異地的兩個云平臺連接起來,既可形成一個穩(wěn)定的基于云平臺技術的容災系統(tǒng)??梢詫崿F(xiàn)應用級數(shù)據(jù)備份和業(yè)務系統(tǒng)的應用級容災,容災系統(tǒng)切換時間可以實現(xiàn)分鐘級,并且能進行容災演練操作。4、提供便捷的管理運維方式。云平臺可以通過一個統(tǒng)一的管理平臺,來進行對平臺中運行的各項業(yè)務設立不同權限的管理賬號,根據(jù)工作需要設置不同的管理權限,并可通過其管理日志追溯操作過程。還可以通過在平臺上安裝第三方安全軟件的方式,一次性解決平臺內所有計算單元的病毒防護、木馬查殺、補丁升級等工作。需求分析2.1現(xiàn)狀分析隨著信息技術的不斷發(fā)展,學校在信息化建設方面加大投入,各部門陸續(xù)購置了相關業(yè)務軟件和服務器,越來越多的業(yè)務實現(xiàn)了信息化。學校目前使用的服務器多數(shù)為一路、兩路的小型PC架構服務器,每臺服務器僅僅只能運行單一操作系統(tǒng)和單個應用程序,且服務器使用時間基本上都在5年以上。目前的平臺建設模式導致服務器數(shù)量越來越多,產生了如下問題:1.服務器使用效率低。由于一臺物理服務器對應一個應用系統(tǒng),服務器的計算、存儲等資源得不到充分利用。2.系統(tǒng)存在安全隱患。大多數(shù)服務器購置于5、6年前,設備老化,可靠性下降;相當一部分服務器管理權在學院或者部門,缺乏技術人員管理;除學校一卡通服務器采用雙機熱備模式以外,其余的應用沒有做任何保護,每周需要做一次手工備份,數(shù)據(jù)丟失危險時刻存在。3.機房空間緊張。4.電力系統(tǒng)告急,能耗增加,空調功率跟不上。5.系統(tǒng)不便管理,新業(yè)務部署時間長。6.校園師生對云盤的應用需求日益強烈,對移動辦公、數(shù)據(jù)備份等需求明顯。7.一些院系有高性能計算的業(yè)務需求,自建高性能中心涉及重復投資且高性能計算中心維護復雜,分散維護困難。2.2總體建設現(xiàn)有應用系統(tǒng)與底層硬件之間存在的"豎井式"結構,需要根據(jù)海量數(shù)據(jù)處理、實現(xiàn)應用彈性、構建多活數(shù)據(jù)中心等關鍵技術的發(fā)展,漸進式的對基礎架構進行全方位規(guī)劃。現(xiàn)有的服務器、網絡、存儲、終端需要根據(jù)云計算平臺的發(fā)展需求,對硬件資源進行動態(tài)的統(tǒng)籌劃分,充分發(fā)揮了現(xiàn)有硬件的整體效能,以滿足云計算平臺的發(fā)展需要。通過云計算中心平臺建設,利用虛擬化技術、集中建設服務器虛擬化中心、大數(shù)據(jù)分析系統(tǒng)和高性能計算中心,為校園提供彈性,即時,可定制的云計算服務。節(jié)約建設成本,提升云計算服務質量,為校園內廣大師生和業(yè)務部門提供基于云計算的IAAS,云盤,高性能計算等業(yè)務支撐服務。XXX高校數(shù)字化校園云平臺需求在信息化建設的不斷發(fā)展過程中,校園中業(yè)務不斷發(fā)展,對服務器數(shù)量需求不斷增加,同時各部門各院系分散申購服務器,浪費極大,維護不方便,集中部署服務器又造成機房空間壓力不斷增大,維護難度不斷增大,服務器數(shù)量不斷增加等一系列問題?;诜掌魈摂M化技術為基礎的服務器虛擬化中心提供彈性、可擴展、可定制的虛擬服務器系統(tǒng),即IAAS服務。2.2.2XXX高校常見業(yè)務系統(tǒng)分析需求一卡通業(yè)務系統(tǒng)校園"一卡通"系統(tǒng)是指利用智能卡技術、網絡技術、數(shù)據(jù)存儲技術、數(shù)據(jù)加密技術、系統(tǒng)與網絡安全技術、計算機控制技術和軟件工程等技術;采用銀行卡社會金融功能與校園卡校務管理功能相結合的方式;遵循國家金融、技術標準和行業(yè)規(guī)范;在校園內提供身份認證和金融服務的管理信息系統(tǒng)。一卡通系統(tǒng)〔以下簡稱"一卡通"是數(shù)字化校園的基礎工程和重要的有機組成部分,旨在為廣大師生員工的教學、科研和生活提供方便、快捷的電子化服務,使其既可以代替學校目前使用的各種證件,又可以應用于各個消費場所,還可以應用于需要身份認證的場所,同時又可通過銀行轉帳系統(tǒng)與指定的銀行進行轉帳、圈存,實現(xiàn)校園無現(xiàn)金流通,從根本上實現(xiàn)"一卡在手,走遍校園"的設想。給師生帶來一種全新方便的現(xiàn)代生活,從而有效提升工作效率,提高學校的現(xiàn)代化管理水平。"一卡通"系統(tǒng)是以軟件、硬件集成的綜合信息集成系統(tǒng),構建在數(shù)字化校園之上的統(tǒng)一身份認證、數(shù)據(jù)中心平臺、統(tǒng)一信息門戶等基礎平臺,與學校其它業(yè)務管理信息系統(tǒng)緊密結合,實現(xiàn)數(shù)據(jù)共享和交換,組成數(shù)字化校園的重要信息采集網絡,為學校提供實時可靠的信息來源和決策依據(jù)。綜合信息服務系統(tǒng)綜合信息服務系統(tǒng)以學校數(shù)據(jù)中心為基礎,將分散在各部門的數(shù)據(jù)集中到一起,以師、生角色為主線,提供跨部門立體式的人事、教學、學工、科研、設備資產、財務經費等綜合查詢服務。查詢服務以學校基表〔由教育部制定的,用以反映高等教育的各級各類學?;厩闆r的基層統(tǒng)計報表為基礎,支持面向主題的多維查詢。個人用戶也可以查詢自身相關基本情況〔個人數(shù)字檔案。同時通過全面的數(shù)據(jù)分析,給院系領導、校領導決策提供數(shù)據(jù)支持,可以對學校的基本情況有一個全面的了解,通過其掌握學校發(fā)展的宏觀情況。校園網站系統(tǒng)校園網站系統(tǒng)主要提供Web頁面的瀏覽服務。整個網站系統(tǒng)提供了對外及對外接口。對外訪問接口提供了外界了解學校的途徑,展示學校形象以及師資力量,招生最新信息等。對內接口的主要適用對象為校內師生,為在校師生提供內部信息展示,課程安排,最新活動咨詢等相關信息。另外,目前Web、FTP、BBS三類應用有極大的相關性,方便教師和學生進行課內外交流和授課內容、課外輔導資料等的下載等。同時,可以將圖書館供公開使用的資料在Web服務器上公布,即整合圖書館信息系統(tǒng)和校園網系統(tǒng)。郵件系統(tǒng)E-Mail服務器是一套電子郵局系統(tǒng)和信件發(fā)送、接收系統(tǒng),主要為校園廣大的教師及學生提供方便、及時的電子通信手段。郵件系統(tǒng)主要使用對象為校內教師,如果應用資源條件允許,可以考慮為學生開設獨立的郵箱賬戶,方便師生溝通。辦公OA系統(tǒng)辦公自動化服務器只為學校日常辦公服務,現(xiàn)在的OA技術能夠提供文字處理、表格制作、公文流轉、會議安排等等服務。教務系統(tǒng)主要承擔教務處日常新聞發(fā)布、學生沒學期課程安排和選課等應用,考慮峰值同時選課學生在線人數(shù)。數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)庫系統(tǒng)是整個系統(tǒng)中的核心業(yè)務系統(tǒng),推薦使用兩臺物理服務器做RAC部署,保證業(yè)務的連續(xù)穩(wěn)定以及性能的充足。數(shù)據(jù)庫主要存放師生注冊信息,一卡通消費信息記錄,日常報表學生成績等校園核心信息,是整個系統(tǒng)最為關鍵的部分,推薦采用OracleRAC。2.2.3大數(shù)據(jù)分析需求當前中國正面臨從粗放到可持續(xù)發(fā)展方式的轉變挑戰(zhàn)。大數(shù)據(jù)技術能夠將隱藏于海量數(shù)據(jù)中的信息和知識挖掘出來,為人類的社會經濟活動提供依據(jù),從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。在我國,大數(shù)據(jù)將重點應用于以下三大領域:商業(yè)智能商務智能可有效提高企業(yè)運營活動的效率。如在零售行業(yè),由于同類產品的差異小,可替代性強的特點,零售企業(yè)銷售收入的提高離不開出色的購物體驗和客戶服務。零售企業(yè)需要根據(jù)銷售有特色的本地化商品并增加流行款式和生命周期短的產品,零售企業(yè)需要運用最先進的計算機和各種通信技術對變化中的消費需求迅速做出反應。通過對大數(shù)據(jù)的挖掘,零售企業(yè)在選擇上架產品時,為確保提供式樣新穎的商品,需要對消費者的消費行為以及趨勢進行分析;在制定定價、廣告等策略時,需進行節(jié)假日、天氣等大數(shù)據(jù)分析;在穩(wěn)定收入源時,需要對消費群體進行大數(shù)據(jù)分析,零售企業(yè)可以利用電話、Web、電子郵件等所有聯(lián)絡渠道的客戶的數(shù)據(jù)進行分析,并結合客戶的購物習慣,提供一致的個性化購物體驗,以提高客戶忠誠度。同時,從微博等社交媒體中挖掘實時數(shù)據(jù),再將它們同實際銷售信息進行整合,能夠為企業(yè)提供真正意義上的智能,了解市場發(fā)展趨勢、理解客戶的消費行為并為將來制定更加有針對性的策略。政府決策通過對大數(shù)據(jù)的挖掘,可有效提高政府決策的科學性和時效性。如:日本大地震發(fā)生后僅9分鐘,美國國家海洋和大氣管理局〔NOAA就發(fā)布了詳細的海嘯預警。隨即,NOAA通過對海洋傳感器獲得的實時數(shù)據(jù)進行計算機模擬,制定了詳細的應急方案,并將制作的海嘯影響模型發(fā)布在YouTube等網站。公共服務一方面,政府利用大數(shù)據(jù)技術把積累的海量歷史數(shù)據(jù)進行挖掘利用,可以提供更為廣深的公共服務,另一方面,政府可以通過對衛(wèi)生、環(huán)保等領域的大數(shù)據(jù)實時分析,提高危機的預判能力,為實現(xiàn)更好、更科學的危機響應提供了技術基礎。如在交通系統(tǒng),隨著汽車工業(yè)的發(fā)展,車輛保有量的不斷攀升,車與路,車與環(huán)境之間的矛盾日趨加劇,諸如交通堵塞、事故增多、能源浪費和環(huán)境污染等問題的惡化,需要通過對歷史以及現(xiàn)在的車輛情況、路網情況的實時大數(shù)據(jù)分析,制定更為優(yōu)化的系統(tǒng)方案,使車輛行駛在最佳路徑上,縮小行車時間、節(jié)省燃料、減少環(huán)境污染,提高路網通行能力和服務質量。大數(shù)據(jù)雖然極具價值,但由于類型復雜、規(guī)模巨大,不論傳統(tǒng)的OLAP數(shù)據(jù)倉庫技術還是新興的分布式處理技術等單一方案都有特定的短板,不可能滿足所有的需求,因此,要真正釋放大數(shù)據(jù)的能量,推動大數(shù)據(jù)應用并非易事,主要面臨著以下問題和挑戰(zhàn)。挑戰(zhàn)一:基礎設施的持續(xù)擴展問題IDC公司2012年發(fā)布的數(shù)據(jù)顯示,數(shù)據(jù)總量每兩年至少增長一倍,但是硬件基礎設施由于摩爾定律失效很難進行無限制擴展,即使是MapReduce等分布式技術的擴展性比OLAP等技術有了重大的提高,但是仍存在擴展上限,如OracleRAC最大支持100個節(jié)點,Hadoop集群技術理論支持4000個節(jié)點,并且其設計初衷是建立在大量廉價、低端服務器上的,在充分橫向擴展架構的同時也需要縱向擴展才能進一步提升整體性能。與此同時,基礎設施規(guī)模不斷增大也會帶來其他的問題,首先是系統(tǒng)的可用性,因為大規(guī)模分布系統(tǒng)只要其中一個節(jié)點出現(xiàn)故障,就會引起整個系統(tǒng)的恢復,所以分布式系統(tǒng)應該采取多副本、檢查點等容錯技術。另外,隨著系統(tǒng)節(jié)點規(guī)模的擴展,網絡流量的增加是指數(shù)級的,網絡瓶頸也會制約系統(tǒng)性能的提升,限制系統(tǒng)的可擴展性。挑戰(zhàn)二:數(shù)據(jù)處理的個性化、一體化需求問題大數(shù)據(jù)時代同時催生了多種數(shù)據(jù)類型結構,無論是結構化、半結構化還是非結構化的數(shù)據(jù),從采集到挖掘都需要精細劃分,形成準結構化數(shù)據(jù),并在此基礎上進行關聯(lián)性分析,最后呈現(xiàn)挖掘后的結果。在上述過程中,每一個環(huán)節(jié)對于數(shù)據(jù)、軟件和硬件的要求是不一樣的,用單一的軟硬件無法滿足所有類型應用。更為重要的是,作為大數(shù)據(jù)應用的主體的行業(yè)用戶并非都是IT方面的專家,不可能獨立實現(xiàn)上述過程以及大數(shù)據(jù)相關技術方案的整合部署和應用的移植、二次開發(fā),因此就需要一個涵蓋數(shù)據(jù)采集、歸類、挖掘、呈現(xiàn)、部署和移植的一體化解決方案??傊?多類型、多維度數(shù)據(jù)處理環(huán)節(jié)的復雜性決定了無法依靠單一類型的設備完美處理,為不同的應用類型和數(shù)據(jù)處理階段提供針對性的軟硬件一體化方案也是大數(shù)據(jù)應用面臨的挑戰(zhàn)。挑戰(zhàn)三:天價成本問題目前數(shù)據(jù)存儲越來越頻繁,相對于存儲的低廉價格,大規(guī)模數(shù)據(jù)處理成本仍然較高,特別采用傳統(tǒng)的方法,比如構建數(shù)據(jù)倉庫技術通常需花費幾千萬元,而能夠處理數(shù)據(jù)規(guī)模不過是TB級的,平均每TB的成本超過十萬元。以此推算,若要處理PB級數(shù)據(jù)大概需100億元,這個成本對于很多用戶來說無法接受。如何尋找低成本的方案幫助用戶實現(xiàn)大數(shù)據(jù)的處理技術,也將為大數(shù)據(jù)的應用帶來挑戰(zhàn)。研究大數(shù)據(jù)領域對社會和人類、還有學校都具有很大的意義,所以XXX高校建立大數(shù)據(jù)分析系統(tǒng)是很有必要性的。2.2.4高性能需求XXX高校作為人才培訓和學術研究的重要機構,學科主要研究方向有:"網絡與通信技術"研究新型網絡體系架構,轉發(fā)與控制分離技術系列標準、關鍵設備、產業(yè)化應用;"信息安全與量子通信"研究量子信息、密碼技術、網絡和系統(tǒng)安全;"系統(tǒng)建模和先進控制"研究系統(tǒng)建模、智能檢測、綜合自動化、非線性控制、Petri網;"信息傳輸與無線網絡"研究泛在網絡、計算機視覺、融合網絡;"信號檢測與智能信息處理"研究信號檢測、RFID、人工智能、模糊神經系統(tǒng)等。隨著研究的加深和項目的增多,現(xiàn)有的設備無法滿足教學和研究的需求,有效提升了和增加設備迫在眉睫。數(shù)據(jù)中心總體規(guī)劃云資源中心加大數(shù)據(jù)分析與高性能主要分為計算資源、內存資源、存儲資源、網絡資源,大數(shù)據(jù)分析系統(tǒng),高性能作業(yè)調度系統(tǒng),本項目在充分整合XXX高校數(shù)據(jù)中心資源的基礎上,配置必要軟硬件設備,為XXX高校信息系統(tǒng)提供統(tǒng)一的基礎設施服務,在IaaS層構建較為完整的XXX高校云計算平臺。建設內容包括以下幾部分:硬件設備:服務器、存儲、、SAN交換機、交換機、負載均衡、VPN網關。軟件設備:物理服務器和虛擬服務器的操作系統(tǒng)、虛擬化軟件、中間件、大型數(shù)據(jù)庫系統(tǒng)、云計算管理平臺、Hadoop組件、高性能管理軟件、高性能作業(yè)調度軟件、高性能集群存儲系統(tǒng)。安全系統(tǒng):防火墻、入侵防御、防毒墻、網頁防篡改、身份認證系統(tǒng)、運維安全審計系統(tǒng)、數(shù)據(jù)庫安全審計系統(tǒng)、漏洞掃描系統(tǒng)。同時采購專業(yè)機構提供的云安全服務等。機房配套設備:UPS、精密空調、標準機架。如上圖,XXX高校云計算中心將建設三大塊業(yè)務中心,分別是云平臺虛擬化中心、大數(shù)據(jù)分析系統(tǒng)和高性能計算中心。并且通過統(tǒng)一管理平臺提供對整體云計算中心的統(tǒng)一軟硬件管理,為學校云平臺虛擬化應用、大數(shù)據(jù)分析系統(tǒng)、高性能計算業(yè)務和管理提供統(tǒng)一界面入口,對服務器虛擬化中心軟硬件設施、大數(shù)據(jù)分析平臺硬件設施、高性能計算軟硬件設施以及三大業(yè)務中心的業(yè)務管理提供統(tǒng)一管理運維平臺。為學校云計算用戶提供業(yè)務發(fā)布、業(yè)務使用、業(yè)務管理等功能。服務器虛擬化云中心:在校園云計算資源中心中利用服務器虛擬化技術、存儲虛擬化技術和網絡虛擬化技術等建設集中統(tǒng)一的服務器虛擬化中心,利用高性能云計算服務器組成虛擬化集群,為各院系提供數(shù)以百計,數(shù)以千計的彈性虛擬服務器架構,并且提供虛擬服務器的生命周期管理、利用服務器虛擬化的高可用技術提供業(yè)務連續(xù)性保障。為各院系和校園各業(yè)務系統(tǒng)提供彈性可擴展、快速可恢復、安全可靠的服務器基礎架構。為舊業(yè)務的遷移、新業(yè)務的部署提供快速、安全、自動化的業(yè)務部署模式。大數(shù)據(jù)分析系統(tǒng):高校研究項目眾多,教師教學任務等很多都會用到大數(shù)據(jù)分析平臺,大數(shù)據(jù)將給IT行業(yè)開拓一個新的黃金時代,作為XX重要的高校我們有義務在這些前沿科技上做出對人類、社會、XX、XX有幫助的研究并造福人類、造福XX和XX,為提高資源利用率所一建議建立統(tǒng)一的大數(shù)據(jù)分析平臺供學校各學科教學和個科研方向研究使用。高性能計算中心:高校有很多院系都存在需要進行高性能計算的相關業(yè)務需求,比如水文分析、化學分子分析、機械模型分析、數(shù)據(jù)建模等都有高性能計算的需要。如果各院系都自己建設高性能計算平臺的話,會造資源的極大浪費。通過在云數(shù)據(jù)中心建設一套統(tǒng)一的高性能平臺,在各院系需要進行相關計算時,進行對應的軟件部署,并進行相關業(yè)務運算。即可以提高硬件的使用效率,又可以節(jié)約資源。本期方案將為學校在云數(shù)據(jù)中心建設一套高性能計算中心,以便為學校各院系服務。統(tǒng)一管理平臺:高校云計算資源中心包括服務器虛擬化中心、校園云盤系統(tǒng)、高性能計算中心等云計算系統(tǒng),這些系統(tǒng)的維護均有自己的維護頁面,再加上云計算中心的硬件設施,維護會非常復雜,為了降低維護和使用難度,提供統(tǒng)一管理平臺,為各系統(tǒng)管理員提供統(tǒng)一管理的界面。對各系統(tǒng)進行統(tǒng)一維護,且提供安全保障。在硬件上實現(xiàn)散熱、電源、管理功能等非IT資源的集中化和模塊化,并利用軟件虛擬化技術實現(xiàn)計算、存儲等IT資源的池化和集中管理;將非計算部分的存儲、網絡等IO設備進行池化,機柜內采用高速網絡互聯(lián),并以軟件定義的計算、軟件定義的存儲和軟件定義的網絡來滿足業(yè)務需求,并實現(xiàn)完全的軟件定義;將CPU、內存等所有的IT資源完全池化,從硬件上可實現(xiàn)任意組合,根據(jù)應用需求智能地分配和組合相關資源,實現(xiàn)完全意義上業(yè)務驅動的軟件定義數(shù)據(jù)中心,軟件上實現(xiàn)業(yè)務驅動和應用感知。云數(shù)據(jù)中心建設規(guī)劃云計算平臺邏輯架構圖云設施即服務<IaaS,CloudInfrastructureasaService>:系統(tǒng)供應商可以向用戶提供同顆粒度的可度量的計算、存儲、網絡和單機操作系統(tǒng)等基礎資源,用戶可以在之上部署或運行各種軟件,包括客戶操作系統(tǒng)和應用業(yè)務。云平臺即服務<PaaS,CloudPlatformasaService>:云計算平臺供應商將業(yè)務軟件的開發(fā)環(huán)境、運行環(huán)境作為一種服務,通過互聯(lián)網提交給用戶。云平臺即服務,需要構建在云基礎設施之上。用戶可以在云平臺供應商提供的開發(fā)環(huán)境下創(chuàng)建自己業(yè)務應用,而且可以直接在云平臺的運行環(huán)境中上運營自己的業(yè)務。云軟件即服務<SaaS,CloudSoftwareasaService>:運營商通過互聯(lián)網,向用戶提供軟件服務的一種軟件應用模式。傳統(tǒng)的SaaS與云SaaS,在客戶體驗上基本類似,如新浪郵箱和Gmail郵箱,客戶感受是類似的。但傳統(tǒng)的SaaS直接構建在硬件設備之上,不能實現(xiàn)后臺資源的多租戶共享,也無法實現(xiàn)資源的動態(tài)流轉,實際并不屬于云計算的范疇。云SaaS,要求這些軟件業(yè)務運行在云平臺服務層或構建在云基礎設施層之上。云SaaS的優(yōu)勢,體現(xiàn)在后臺資源的動態(tài)伸縮和流轉上,資源可擴展性更強,這一重大優(yōu)勢是傳統(tǒng)SaaS所不具備的。本方案中云計算平臺由資源池、虛擬化平臺、云管理平臺組成。資源池部分主要有物理設備組成,包括服務器,存儲和網絡等基礎架構資源,通過虛擬化平臺對基礎架構設備進行池化,從而形成資源池;虛擬化平臺就是將物理資源進行池化的軟件組合;云計算管理平臺就是對底層資源池和虛擬化軟件進行管理,并且,針對管理和運維需要,云計算管理平臺實現(xiàn)云計算服務的交付和云計算中心用戶和流程的管理以及數(shù)據(jù)中心的監(jiān)控。4.1資源池規(guī)劃什么是資源池云計算的核心特性是利用規(guī)?;档蛦挝毁Y源的管理成本和使用成本,而規(guī)模化的一個前提是資源的物理集中,因此被管理的資源最好集中在少數(shù)幾個中心,而不是分布在很多物理位置。云計算資源池是采用池化的辦法,把服務器、存儲、網絡等資源按照不同的標準組織成不同的資源池。通過資源池的管理模式,云計算管理員無需去考慮具體的服務器、存儲和網絡配置。在一個資源池內,通??梢园ǚ掌?、存儲空間、網絡端口等,這樣,在一個資源池中我們就可以為某一個應用系統(tǒng)提供它所需要的所有計算資源。通過云計算的自動化功能,云計算平臺管理員可以方便、快速的在資源池中定制化的選擇應用系統(tǒng)需要的計算資源數(shù)目,根據(jù)業(yè)務的應用類型進行云計算平臺資源的分配。資源池的特征〔1多實例通過服務器虛擬化,在一個物理服務器上可以運行多個虛擬服務器,即可以支持多個客戶操作系統(tǒng)。服務器虛擬化將服務器的邏輯整合到虛擬機中,而物理系統(tǒng)的資源,如CPU,內存,硬盤和網絡等,是以可控方式分配給虛擬機的?!?隔離性在多實例的服務器虛擬化中,一個虛擬機與其他虛擬機完全隔離。通過隔離機制,即便其中的一個或者多個虛擬機崩潰,其他的虛擬機也不會受到影響,虛擬機之間也不會泄露數(shù)據(jù)。如果多個虛擬機內的進程或者應用程序之間想互相訪問,只能通過所配置的網絡進行通信,就如同采用虛擬化之前的幾個獨立的物理服務器之間需要通過網絡來訪問一樣?!?封裝性即相對硬件獨立性。在采用了服務器虛擬化智慧,一個完整的虛擬機環(huán)境對外表現(xiàn)為一個單一的實體〔例如一個虛擬機文件、一個邏輯分區(qū),這樣的實體非常便于再不同的硬件間備份、移動和復制等。同時,服務器虛擬化將物理機的硬件封裝為標準化的虛擬硬件設備,提供給虛擬機內的操作系統(tǒng)和應用程序,保證了虛擬機的兼容性。〔4高性能與之間在物理機上運行的系統(tǒng)相比,虛擬機與硬件之間多了一個虛擬化抽象層。虛擬化抽象層通過虛擬機監(jiān)視器VMM或者虛擬化平臺來實現(xiàn),并會產生一定的開銷。這些開銷為服務器虛擬化的性能損耗。服務器虛擬化的高性能是指虛擬機監(jiān)視器VMM的開銷要被控制在可承受的范圍之內?!?兼容性隨著技術的不斷推進,新的服務器無法運行原來比較古老的操作系統(tǒng),例如,某客戶很久之前在某個服務器上安裝了win2000的操作系統(tǒng),應用的開發(fā)團隊因為某些原因解散了,因而用戶失去了應用升級的支持。隨著時間的發(fā)展,原來的服務器已經損耗非常嚴重,用戶希望對服務器進行升級。在沒有做相應新的驅動開發(fā)的情況下,無法在新的服務器上安裝win2000。通過虛擬化技術可以虛擬出一個標準的虛擬硬件設備,兼容稍微陳舊的操作系統(tǒng)。這樣就能實現(xiàn)用戶應用運行在原有的系統(tǒng)環(huán)境中,但是支持用戶應用系統(tǒng)是最新架構的、性能強勁的新的服務器。資源池規(guī)劃要素〔1硬件類型。應該支持同樣的虛擬化引擎。例如X86服務器和Power服務器的虛擬化技術不同,它們不能劃入同一資源池?!?性能差異。高端和低端服務器在性能上存在較大差異,如果劃入統(tǒng)一資源池,會導致上面的應用體驗到不同的性能指標。因此,應該采用統(tǒng)一檔次、統(tǒng)一類型的服務器?!?網絡分區(qū)。同一資源池應該位于一個局域網,這樣可以避免大量數(shù)據(jù)的跨局域網傳輸。因此,對于多個數(shù)據(jù)中心的資源,推薦為每個數(shù)據(jù)中心獨立創(chuàng)建一個資源池?!?靈活擴展。能夠對云計算平臺進行設備的熱添加。在業(yè)務不中斷的情況下對資源池進行擴充、對業(yè)務進行擴展,確保云計算平臺資源池滿足當下應用及未來三至五年業(yè)務增長的需求。〔5安全隔離。生產系統(tǒng)一般對應用的安全性有很強的要求,因此對服務器及存儲資源進行不同程度的隔離,如物理隔離、邏輯隔離〔如VLAN等。云計算的引入不能破壞現(xiàn)有的安全要求,因此資源池的組織也需要按照相應的規(guī)則進行。4.2資源池規(guī)劃內容資源池建設硬件部分圍繞著計算、存儲和網絡三個方面進行,包括服務器、存儲空間、網絡端口等。資源池示意圖計算資源池建設規(guī)劃方案規(guī)劃為用戶云計算平臺建設一個高性能計算能力的虛擬機的云計算平臺,從而滿足用戶業(yè)務的IT需求。云計算平臺要求具備超高的擴展性,動態(tài)地對云計算平臺進行擴展,以滿足業(yè)務快速增長的需求。方案采用虛擬化技術,在虛擬化技術中物理服務器計算能力影響著虛擬機性能。將單臺物理服務器的計算能力最大化,以便于進行資源池資源動態(tài)分配,有別于傳統(tǒng)的部門級和企業(yè)級服務器。云計算中心的數(shù)據(jù)庫較傳統(tǒng)模式更大,所處理的數(shù)據(jù)規(guī)模也將會十倍于、甚至百倍千倍于現(xiàn)在的系統(tǒng),這些系統(tǒng)需要更大的集中式處理的服務器,而不是集群系統(tǒng)。因此對于底層的硬件資源我們應該從更大規(guī)模和尺度去考慮,系統(tǒng)需要有更高的計算性能、更大的內存、更好的可擴展性,本方案中我們建議選擇性能更加強勁、擴展性更好的x86八路服務器平臺。目前浪潮4路服務器服務器,具備60個計算核心、120個邏輯核心,是傳統(tǒng)服務器計算能力的20倍以上。服務器整機采用模塊化設計,支持物理分區(qū),具備高性能、高可靠、高擴展、高可用等特性。在性能及可靠性等方面均可與IBM、HP、SUN等傳統(tǒng)UNIX小型機競爭,填補了國產品牌的空白,是構建云計算和物聯(lián)網的最佳選擇。存儲資源池建設規(guī)劃統(tǒng)一SAN存儲系統(tǒng):成熟的SAN網絡技術,使用存儲虛擬化技術進行不同SAN協(xié)議和網絡的融合,最終向云計算平臺提供統(tǒng)一的數(shù)據(jù)存放接口。目前主流采用8GbFC主機接口,提供海量存儲空間,適合于對于海量數(shù)據(jù)存放的性能和安全性有較高要求的高校業(yè)務應用系統(tǒng)。業(yè)務高可用建設規(guī)劃業(yè)務高可用示意圖由上圖可以看出,系統(tǒng)采用多臺x86服務器,每臺服務器運行多個業(yè)務系統(tǒng),后端共同連接一個磁盤陣列。高可用方案能夠不間斷地監(jiān)控資源池中的所有服務器并監(jiān)測服務器故障。放置在每臺服務器上的代理會不斷向資源池中的其他服務器發(fā)送"心跳信號",而心跳信號的中止會導致所有受影響的業(yè)務應用在其他服務器上重新啟動。高可用方案確保資源池中始終有充足的資源,以便能夠在出現(xiàn)服務器故障時在不同的物理服務器上重新啟動業(yè)務應用。當服務器上的任意一個業(yè)務系統(tǒng)運行出現(xiàn)故障的時候,通過高可用方案管理節(jié)點可以在其他兩臺服務器上按照資源利用情況,重啟一個故障的業(yè)務應用環(huán)境,使業(yè)務繼續(xù)運行下去。即使當一臺服務器出現(xiàn)故障的時候,其他兩臺服務器仍然能夠根據(jù)資源利用的情況,通過高可用方案管理節(jié)點重啟已宕服務器上的所有業(yè)務應用環(huán)境,這樣就使整個系統(tǒng)都處于一種HA狀態(tài),進而保證了整個系統(tǒng)業(yè)務運行的連續(xù)性。同時減少了硬件投入數(shù)量和開銷。4.3虛擬化軟件選型規(guī)劃虛擬化技術的誕生已經有將近30年的歷史。它曾經用于一些大規(guī)模的、預算充足的單位,而如今已經應用于計算機的方方面面,包括硬件、軟件、通信等等方面。在許多情況下,這項技術是免費的、開源的,或者是包含在一些收費的產品中,例如操作系統(tǒng)或存儲硬件中。在應用軟件和硬件之間加入了一層抽象的層。能夠降低IT設施的成本和復雜度。提供相互獨立的計算資源,從而增加穩(wěn)定性和安全性。提高服務層次以及服務質量〔QoS。能夠使IT流程與單位目標相一致。盡可能減少IT設施中的冗余,最大化IT設施的利用率。當今最常見的虛擬化形式都聚焦于服務器硬件平臺的虛擬化,而這項技術的實現(xiàn)及其實現(xiàn)目標其實對數(shù)據(jù)中心中關鍵而昂貴的組件也很有意義,例如存儲和網絡基礎設施。虛擬化技術能夠允許在一臺計算機上同時運行多個操作系統(tǒng)實例。每個操作系統(tǒng)實例都共享了同一物理硬件上的一定量的資源,就像下圖所展示的那樣。一個稱作虛擬機監(jiān)視器〔VirtualMachineMonitor,VMM的軟件控制著底層CPU、內存、存儲和網絡資源的使用和許可。虛擬化示意圖作為中國領先的云計算服務提供商,和業(yè)界領先的云計算解決方案供應商,浪潮和vmware在2006年就開始在云計算領域進行深度合作,并于2008年與VMware公司正式簽訂戰(zhàn)略合作伙伴關系。與此同時,浪潮近些年投入強大的研發(fā)科技力量著力進行云計算軟件的開發(fā),目前已開發(fā)出浪潮云海平臺。其中iVirtual3.2是浪潮云海虛擬化管理軟件。浪潮虛擬化產品架構圖浪潮云海?服務器虛擬化系統(tǒng)是數(shù)據(jù)中心虛擬化基石,是業(yè)界最完善的虛擬化平臺。該產品不僅僅將IT硬件轉變?yōu)榭煽康脑朴嬎銛?shù)據(jù)中心后臺,而且還能為用戶的應用服務提供最高級別的可用性,安全性和擴展性。浪潮云?!し掌魈摂M化系統(tǒng)基于服務器,存儲和網絡設備構建資源池,在資源池上通過資源的管理、調度和鏡像管理實現(xiàn)系統(tǒng)的各種高級功能,例如計算層面的系統(tǒng)負載均衡和虛擬機高可用,存儲層面的鏡像復制和冗余。系統(tǒng)支持以主機或者虛擬群集為單位管理資源,虛擬群集為一組共享存儲資源的物理主機。

浪潮云?!し掌魈摂M化iVirtual3.2系統(tǒng)為B/S架構,用戶可以通過瀏覽器訪問并使用系統(tǒng)。具體系統(tǒng)使用功能包括:概覽、主機、虛擬機、集群、網絡、日志、系統(tǒng)拓撲等等。另外系統(tǒng)對外提供API,支持用戶進行二次開發(fā)。4.4云管理平臺建設規(guī)劃本方案中推薦采用浪潮云計算操作系統(tǒng)云海OSV3.2作為云計算平臺的云管理平臺。浪潮云海OSV3.2產品架構圖浪潮云海OSV3.2是云數(shù)據(jù)中心資源管理及資源交付軟件,兼容不同的虛擬化架構,監(jiān)控、管理云資源和數(shù)據(jù)中心軟、硬件資源,實現(xiàn)基礎設施的服務化。平臺提供豐富的功能組件和API接口,幫助用戶快速部署企業(yè)服務,有效提升云數(shù)據(jù)中心管理運維效率。浪潮云海OSV3.2為用戶構建一個資源共享、安全可控的云計算平臺,對云計算平臺內異構資源進行統(tǒng)一管理。通過添加VMWarevCenter、iVirtualcenter,實現(xiàn)對異構虛擬化資源池的集中管理,可橫向、動態(tài)擴展云資源規(guī)模和容量,以適應未來發(fā)展的需求。浪潮云海OSV3.2以模塊化的設計理念,涵蓋云數(shù)據(jù)中心的所有需求:云海OSV3.2涵蓋了服務提供所需各個環(huán)節(jié)的管理,可輕松實現(xiàn)用戶對數(shù)據(jù)中心各類資源的統(tǒng)一管理,提供一站式運維,便于用戶維護,降低維護成本;通過云資源管理主要實現(xiàn)對數(shù)據(jù)中心云資源的統(tǒng)一管理,包括虛擬控制中心管理、集群管理、存儲管理、虛擬數(shù)據(jù)中心管理、虛擬網絡管理及鏡像管理;通過云海OSV3.2平臺采用開放、靈活的架構設計和模塊化設計,客戶可以功能模塊按需組合,滿足不同層次用戶需求,便于擴展及定制化開發(fā);云海OSV3.2具備大規(guī)模、細粒度、高精度的監(jiān)控系統(tǒng),對資源進行完善的監(jiān)控管理、故障報警、日志記錄等;系統(tǒng)支持自定義角色類型,可定義擁有不同權限的角色,實現(xiàn)靈活而安全的系統(tǒng)權限管理,且擁有基于權限的用戶控制技術和組織網絡隔離技術,可以保持多租戶環(huán)境下的安全性和可靠性。針對用戶業(yè)務,云海OSV3.2提供靈活的業(yè)務審批流程,可自定義業(yè)務流程,實現(xiàn)業(yè)務申請審批流程的可視化、自動化管理;精確的計費管理,終端用戶可以通過Web界面在線自助申請所需的計算、存儲、網絡資源,實現(xiàn)資源的按需獲取并通過實時的資源使用情況統(tǒng)計,讓用戶精確掌控自身資源和費用使用情況。4.5數(shù)據(jù)中心統(tǒng)一管理平臺規(guī)劃計算資源中心包括硬件基礎設施、服務器虛擬化中心、大數(shù)據(jù)分析系統(tǒng)和高性能計算中心,采用統(tǒng)一管理平臺統(tǒng)一管理接口,保證統(tǒng)一管理平臺,實施基于ITIL的運維流程非常重要,同時,云計算資源中心提供包括IAAS、PASS〔高性能計算業(yè)務和SAAS〔云盤業(yè)務等多種云業(yè)務,通過統(tǒng)一管理平臺提供業(yè)務發(fā)布平臺,所有的云業(yè)務均通過業(yè)務發(fā)布平臺進行業(yè)務發(fā)布,為用戶提供統(tǒng)一訪問入口,將為用戶提供極大的方便性。統(tǒng)一管理平臺方統(tǒng)一管理平臺基礎架構如下:統(tǒng)一管理平臺通過配置數(shù)據(jù)庫,調用底層各應用系統(tǒng)的API接口,和底層各應用系統(tǒng)進行對接。運維人員通過統(tǒng)一界面對各業(yè)務系統(tǒng)進行監(jiān)控和維護,調用各業(yè)務系統(tǒng)的功能,進行相關業(yè)務發(fā)布。通過工作流引擎定義運維流程和發(fā)布流程,為用戶提供云業(yè)務。云計算中心統(tǒng)一管理平臺提供了管理框架,通過此管理框架,可以集成多種不同的云業(yè)務,并通過集成工作流引擎,靈活配置管理和發(fā)布流程,和企業(yè)OA和ERP平臺進行集成,提供符合公司企業(yè)業(yè)務流程的管理平臺。統(tǒng)一管理平臺基礎功能底層平臺多云配置及管理添加和管理平臺支持的多個云業(yè)務平臺,其中云業(yè)務平臺接口集成需要定制開發(fā);管理每個客戶項目需要的虛擬化平臺;Openstack接口集成集成Openstack的常規(guī)管理接口,封裝成可以直接被業(yè)務層調用的API。通過API調用具體云平臺業(yè)務。虛擬化層監(jiān)控組件監(jiān)控平臺計劃中包括物理層、虛擬化層和應用層監(jiān)控,其中虛擬化層監(jiān)控的功能從底層平臺接入,物理層通過第三方廠商業(yè)務集成接入,應用層通過業(yè)務定制組件集成接入。需要管理的監(jiān)控項通過虛擬化平臺接口集成實現(xiàn)客戶自服務中心云業(yè)務管理分數(shù)據(jù)中心、分不同云業(yè)務類型對云業(yè)務平臺進行管理。對所有的云業(yè)務管理提供三個維度的標簽管理,業(yè)務類型、監(jiān)控優(yōu)先級管理功能分類如下:日常運維管理類當前用戶權限范圍內的已有資源數(shù)量、使用情況、資源池總量和使用情況、報警信息、歷史記錄、操作日志網絡類網絡相關的設置和管理,VPN、子網等配置資源變化類資源池內資源的新建、擴容和銷毀。提供申請"資源擴容"的入口,低級管理員向高級管理員申請,頂級管理員不提供功能入口物理層管理數(shù)據(jù)中心、機柜、服務器、交換機等物理資源的管理和關系建立。建立虛擬化平臺和物理層的關聯(lián)關系。監(jiān)控展現(xiàn)監(jiān)控工具的功能展現(xiàn),包括①報警項列表及管理②分資源監(jiān)控頁面用戶及權限對應到用戶、角色、權限組的管理,包括角色之間的層級關系。系統(tǒng)內各功能權限的設定基于角色建立,資源池配額基于用戶建立。工單管理系統(tǒng)提供工單和工作流管理,為用戶發(fā)現(xiàn)問題,提交問題,云業(yè)務中心管理員解決問題提供了跟蹤流程。為業(yè)務上線、業(yè)務發(fā)布、業(yè)務回收提供了完整的流程管理。配置管理系統(tǒng)管理員具備權限,設定系統(tǒng)內可以操作的虛擬化資源配置模板以及非標模板資源的關聯(lián)關系〔CPU、內存、硬盤等的限制條件大數(shù)據(jù)建設規(guī)劃5.1大數(shù)據(jù)平臺規(guī)劃本次計劃將分散在網絡中的數(shù)據(jù)歸集起來,為分析機構提供數(shù)據(jù)提取和查詢服務;本項目計劃實現(xiàn)網絡信息的綜合查詢與分析,實現(xiàn)綜統(tǒng)報表、監(jiān)管報表、業(yè)務日報表、綜合報表的信息共享;信息預警系統(tǒng),實現(xiàn)網絡信息的聯(lián)動查詢統(tǒng)計。通過建立邏輯數(shù)據(jù)模型,并建立適合各類專題分析需要的數(shù)據(jù)集市,形成企業(yè)級中央數(shù)據(jù)倉庫,以中央數(shù)據(jù)倉庫為紐帶完成業(yè)務數(shù)據(jù)向管理信息的過渡;大數(shù)據(jù)ETL和數(shù)據(jù)倉庫隨著信息技術運用的不斷深入,互聯(lián)網上積累了大量原始數(shù)據(jù),而這些數(shù)據(jù)是按照關系型數(shù)據(jù)庫結構存儲,在更新,刪除,有效存儲<少冗余數(shù)據(jù)>方面表現(xiàn)出色,但在復雜查詢方面效率卻十分低下。為充分利用已有數(shù)據(jù),提供復雜查詢,提供更好的決策支持,就需要采用數(shù)據(jù)倉庫<DataWarehouse>技術。數(shù)據(jù)倉庫與數(shù)據(jù)庫<這里的數(shù)據(jù)庫指關系型數(shù)據(jù)庫>的區(qū)別在于,數(shù)據(jù)倉庫以方便查詢<或稱為按主題查詢>為目的,打破關系型數(shù)據(jù)庫理論中標準泛式的約束,將數(shù)據(jù)庫的數(shù)據(jù)重新組織和整理,為查詢,報表,聯(lián)機分析等提供數(shù)據(jù)支持。數(shù)據(jù)倉庫建立起來后,定期的數(shù)據(jù)裝載<ETL>成為數(shù)據(jù)倉庫系統(tǒng)一個主要的日常工作。數(shù)據(jù)倉庫的數(shù)據(jù)組織是商業(yè)智能中最重要的課題,中央數(shù)據(jù)倉庫不是各系統(tǒng)數(shù)據(jù)簡單的堆積,而是業(yè)務數(shù)據(jù)的有組織的存儲,來支持異源異構數(shù)據(jù)的聯(lián)動分析和挖掘。它必須具有靈活性和可擴展性,適應將來的業(yè)務需求的增加和變動。1、數(shù)據(jù)倉庫的邏輯結構在數(shù)據(jù)層前是數(shù)據(jù)源和轉換區(qū),數(shù)據(jù)源是業(yè)務信息庫中的原始數(shù)據(jù),轉換區(qū)用于存放從數(shù)據(jù)源抽取到的數(shù)據(jù),并在轉換區(qū)進行轉換,是ETL的工作區(qū)域。數(shù)據(jù)層負責所有數(shù)據(jù)的持久存儲,包含中央數(shù)據(jù)倉庫〔DW,數(shù)數(shù)據(jù)源據(jù)集市〔DM和多維模型OLAP<MDB>。中央數(shù)據(jù)倉庫<DM>存放從各個數(shù)據(jù)源抽取的數(shù)據(jù),是經過轉換后的細節(jié)數(shù)據(jù)。數(shù)據(jù)集市〔DM>存放的是面向業(yè)務應用宏觀的匯總數(shù)據(jù),基于實用化和運行效率的考慮,數(shù)據(jù)集市ETL采用數(shù)據(jù)庫存儲過程來實現(xiàn)。多維模型〔MDB>是將數(shù)據(jù)數(shù)據(jù)集市中的數(shù)據(jù)加載到OLAPSERVER中,為多維分析提供數(shù)據(jù)。2、邏輯數(shù)據(jù)模型邏輯數(shù)據(jù)模型LDM是數(shù)據(jù)倉庫體系結構的基礎。數(shù)據(jù)模型的設計既要滿足本項目的業(yè)務需求,同時要充分考慮未來業(yè)務發(fā)展的需要,也就是說,數(shù)據(jù)模型應具有較強的擴展性;數(shù)據(jù)模型的設計應充分考慮最終用戶的查詢/分析效率和數(shù)據(jù)抽取、轉換和加載的速度,保證系統(tǒng)具有較高的運行效率;數(shù)據(jù)模型的設計應充分考慮當今數(shù)據(jù)庫技術和數(shù)據(jù)建模技術的發(fā)展動態(tài),保證數(shù)據(jù)模型的設計方法、設計過程、設計結果的科學性和先進性;數(shù)據(jù)模型的設計應具有較強的可讀性,數(shù)據(jù)模型應便于業(yè)務人員和技術人員理解,項目投入運行后,數(shù)據(jù)模型便于技術人員維護。中央數(shù)據(jù)倉庫存儲所有最詳細的業(yè)務數(shù)據(jù),數(shù)據(jù)的組織方式依關系型數(shù)據(jù)庫的第三范式規(guī)則。數(shù)據(jù)倉庫邏輯數(shù)據(jù)模型主要包括六個主題域:客戶、產品、帳戶、交易、渠道和機構。3、數(shù)據(jù)集市模型根據(jù)業(yè)務需求將中央數(shù)據(jù)倉庫數(shù)據(jù)分類成幾個不同的數(shù)據(jù)集市,每個數(shù)據(jù)集市完成不同的分析和查詢需求,數(shù)據(jù)集市中的數(shù)據(jù)通常由中央數(shù)據(jù)倉庫的數(shù)據(jù)聚合而來,根據(jù)數(shù)據(jù)聚合程度的不同包含輕度聚合、中度聚合和高度聚合三種不同的層次。匯總的方式將依據(jù)數(shù)據(jù)量的大小和使用頻率綜合考慮。4、ETL的設計ETL指源系統(tǒng)數(shù)據(jù)經過數(shù)據(jù)抽取、轉換和加載處理進入數(shù)據(jù)倉庫的整個過程。ETL流程主要包括以下主要步驟:數(shù)據(jù)抽?。簲?shù)據(jù)抽取就是將數(shù)據(jù)倉庫需要的業(yè)務數(shù)據(jù)抽取到數(shù)據(jù)轉換區(qū)的過程;數(shù)據(jù)檢查和出錯處理:在數(shù)據(jù)轉換區(qū)中,對源系統(tǒng)數(shù)據(jù)質量進行檢查,形成檢查報告,并進行相應的出錯處理,對于嚴重錯誤,需要系統(tǒng)維護人員現(xiàn)場做出相應的處理。數(shù)據(jù)轉換:數(shù)據(jù)轉換包括對源系統(tǒng)數(shù)據(jù)進行整理、剔除、合并、驗證等一系列轉換工作,最后形成數(shù)據(jù)倉庫物理數(shù)據(jù)結構所需的數(shù)據(jù),存放在轉換區(qū)的數(shù)據(jù)表中。數(shù)據(jù)加載:數(shù)據(jù)加載將數(shù)據(jù)轉換的結果數(shù)據(jù)加載到數(shù)據(jù)倉庫,并形成數(shù)據(jù)加載情況的報告。ETL工具需包括下列模塊:EXTRACT模塊〔數(shù)據(jù)抽取,TXTLOAD模塊〔文本裝載,TRANSFER模塊〔數(shù)據(jù)轉換,DWLOAD模塊〔數(shù)據(jù)倉庫裝載,QUALITY模塊<質量檢查,CODEMANAGER模塊〔標準代碼管理和WADMIN模塊<總控。從各個數(shù)據(jù)源到中央數(shù)據(jù)倉庫的ETL可以由ETL工具實現(xiàn)。首先在各個源系統(tǒng)安裝extract模塊,將源數(shù)據(jù)抽取為文本數(shù)據(jù),打包后通過ftp傳送到數(shù)據(jù)倉庫主機上。在數(shù)據(jù)倉庫主機上通過txtload將文本數(shù)據(jù)裝入交換區(qū),然后通過在交換區(qū)內通過Transfer模塊進行數(shù)據(jù)轉換,最后將交換區(qū)的數(shù)據(jù)通過dwload裝入中央數(shù)據(jù)倉庫。ETL每個模塊都是現(xiàn)了參數(shù)化配置,通過配置相應的ini配置文件實現(xiàn)。從中央數(shù)據(jù)倉庫到數(shù)據(jù)集市的數(shù)據(jù)裝載利用存儲過程實現(xiàn)。在開發(fā)過程中針對每個數(shù)據(jù)集市設計相應的存儲過程,實現(xiàn)數(shù)據(jù)從中央數(shù)據(jù)倉庫到數(shù)據(jù)集市的裝載。BI體系構建通過引入先進的商業(yè)智能工具,提高數(shù)據(jù)挖掘水平,是迅速改變信息工作無法滿足業(yè)務發(fā)展需要的必由之路。數(shù)據(jù)挖掘系統(tǒng)將以原始數(shù)據(jù)為基礎,以先進的數(shù)據(jù)建模理論對業(yè)務信息庫進行重新規(guī)劃,建立信息管理的基礎數(shù)據(jù)支持平臺。隨著數(shù)據(jù)量的不斷擴大以及新的應用系統(tǒng)不斷上線,一期建設的大數(shù)據(jù)系統(tǒng)在不能滿足需求的情況下,需要對大數(shù)據(jù)系統(tǒng)進行擴容。浪潮云海大數(shù)據(jù)一體機采用ShareNothing架構,可以靈活擴展,并且在擴展的基礎上能夠保證性能的近線性提升。浪潮目前支持兩種擴容方式:一:增加節(jié)點實現(xiàn)擴容,將節(jié)點添加到原有系統(tǒng)中,實現(xiàn)整個系統(tǒng)性能和存儲能力的提升。二:增加新的大數(shù)據(jù)一體機,與原有系統(tǒng)形成互相獨立的兩套大數(shù)據(jù)系統(tǒng)。方式一適用的場景:數(shù)據(jù)量增大,原有系統(tǒng)存儲量無法滿足要求。方式二適用的場景:客戶需要重新搭建一套大數(shù)據(jù)平臺,實現(xiàn)業(yè)務和數(shù)據(jù)的隔離。5.2大數(shù)據(jù)架構介紹本次大數(shù)據(jù)平臺系統(tǒng)包括硬件、操作系統(tǒng)層和軟件層三部分。1、硬件層大數(shù)據(jù)一體機硬件層分為計算、存儲和網絡三個模塊,其主要特征包括:①適用于大數(shù)據(jù)處理的計算單元。針對視頻數(shù)據(jù)挖掘、在線交易這樣的應用,由于這類應用對于計算量要求高,因此采用CPU多、內存多的重載節(jié)點,并增加專用的加速芯片,針對對計算、存儲和IO均衡的應用,采用通用數(shù)據(jù)單元,第三類則是針對對數(shù)據(jù)處理快速響應的應用場景,提供輕量計算單元。②適用于大數(shù)據(jù)處理的存儲單元。采用整體一體解決方案,充分發(fā)揮新型存儲節(jié)制的作用,比如閃存盤的技術,將閃存盤放在整個計算緩存里面做高速緩存,針對不同應用類型,實現(xiàn)全局的算法,降低冗余率。③大數(shù)據(jù)互聯(lián)交換芯片?;ミB核心交換融合了數(shù)據(jù)通信與存儲網絡,實現(xiàn)對系統(tǒng)級消息通信、數(shù)據(jù)交換、以及I/O操作的統(tǒng)一支持,提高系統(tǒng)通信性能和擴展能力。④全局交換網絡?;ミB核心交換融合了數(shù)據(jù)通信與存儲網絡,實現(xiàn)對系統(tǒng)級消息通信、數(shù)據(jù)交換、以及I/O操作的統(tǒng)一支持,提高系統(tǒng)通信性能和擴展能力。2、操作系統(tǒng)層大數(shù)據(jù)一體機采用專門面向關鍵應用業(yè)務開發(fā)的操作系統(tǒng),不僅針對架構進行了專門的優(yōu)化,性能大幅提升,而且在安全性和容錯性方面能力突出。3、軟件層大數(shù)據(jù)一體機軟件層包括分布式文件系統(tǒng)HDFS、分布式數(shù)據(jù)庫HBase、并行數(shù)據(jù)處理引擎MapReduce,數(shù)據(jù)倉庫Hive、數(shù)據(jù)分析、挖掘工具Mahout和管理系統(tǒng)等幾個模塊。本次在開源Hadoop之上開發(fā)了管理和監(jiān)控工具,可簡化Hadoop集群的安裝、部署、使用與管理,主要功能包括:①節(jié)點動態(tài)增減②集群部署卸載③MapReduce作業(yè)管理④平臺配置與參數(shù)更改⑤集群監(jiān)控報警系統(tǒng)5.3新型分布式處理技術基礎浪潮云海大數(shù)據(jù)一體機所采用的分布式處理技術核心基礎包含兩部分:1是用于海量數(shù)據(jù)存儲與吞吐的分布式文件系統(tǒng);2是用于海量數(shù)據(jù)處理的分布式運算框架。5.4分布式文件系統(tǒng)HDFS分布式文件系統(tǒng)是一個高度容錯性的系統(tǒng),適合部署在廉價的機器上,能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。HDFS的特點主要包括:使用低成本存儲和服務器構建,能夠存放PB以上級數(shù)據(jù)高可擴展性,實際生產環(huán)境可擴展至4000個節(jié)點高可靠性和容錯性,數(shù)據(jù)自動復制,可自我修復高帶寬,支持高并發(fā)I/O訪問分布式文件系統(tǒng)HDFS運行在使用低端通用服務器構建的大規(guī)模集群之上,采用鍵值對〔key/value模型進行數(shù)據(jù)存儲。整個HDFS系統(tǒng)采用元數(shù)據(jù)集中管理、數(shù)據(jù)塊分布存儲的架構,包括一個主服務器和多個塊服務器,支持多個客戶端訪問。大規(guī)模數(shù)據(jù)被分割成固定大小的塊〔64MB或128MB,塊服務器將塊以文件形式保存至硬盤,并根據(jù)塊句柄和字節(jié)范圍讀寫數(shù)據(jù)。為了實現(xiàn)容錯以確??煽啃?每個塊被缺省的復制3個備份。主服務器采用B+樹管理文件系統(tǒng)的名字空間、文件映射、塊物理位置等元數(shù)據(jù)。此外,HDFS的設計充分考慮了互聯(lián)網應用負載和環(huán)境特征,通過服務端與客戶端的聯(lián)合設計,使性能和可用性達到最優(yōu),主要體現(xiàn)在四個方面:1>考慮到節(jié)點的失效問題,以軟件方式實現(xiàn)系統(tǒng)故障恢復功能;2>采用特殊的文件系統(tǒng)參數(shù),文件大小以GB計并支持大量小文件;3>適應應用特征,增加追加寫文件操作以優(yōu)化磁盤順序讀寫速度;4>部分文件操作不再透明,由應用程序完成。5.5MapReduce計算框架為滿足對海量數(shù)據(jù)的智能分析和深度挖掘需求,采用HadoopMapReduce并行計算框架對各類結構化、非結構化數(shù)據(jù)進行離線分析。Hadoop是一個利用key/value數(shù)據(jù)并行性進行分布運算而后匯總結果的計算框架,適合作用于具有可劃分屬性〔時間、空間等的數(shù)據(jù)集合的,利于線性擴展;采用數(shù)據(jù)本地化處理優(yōu)化,通過移動計算,而非移動數(shù)據(jù)來實現(xiàn)高效數(shù)據(jù)處理;同時,Hadoop通過與HDFS配合使用和容錯設計,具有高可靠性。為了簡化集群環(huán)境下的并行編程負擔,Hadoop實現(xiàn)了MapReduce編程模型,使得程序員只需關注應用處理邏輯,而由運行環(huán)境負責集群應用的任務調度、數(shù)據(jù)通信、可靠性和可伸縮性保障等底層處理細節(jié)。MapReduce把數(shù)據(jù)處理過程分解為Map階段和Reduce階段兩個階段,程序員只需編寫map和reduce方法即可實現(xiàn)對海量數(shù)據(jù)的并行處理。map方法處理key/value鍵值對數(shù)據(jù)生成一系列key/value中間結果,reduce方法合并具有相同鍵值的中間結果得到最終結果。MapReduce的執(zhí)行過程如圖1.6所示,首先對數(shù)據(jù)進行分塊并分配給多個Map任務執(zhí)行map方法,然后根據(jù)某種規(guī)則對中間結果進行劃分〔partition并寫入本地硬盤;Map階段完成后進入Reduce階段,具有相同key值的中間結果被從多個Map任務節(jié)點收集〔shuffle到Reduce節(jié)點進行合并排序〔sort,并執(zhí)行reduce方法,輸出結果寫入分布式文件系統(tǒng)。MapReduce模型為Map:k1,v1List<k2,v2>Reduce:k2,List<v2>list<v2>其中,Map方法將key/value數(shù)據(jù)[k1,v1]轉換為[k2,v2],Reduce方法針對每個k2的值列表List<v2>做list操作。此外,MapReduce模型中還包括partition、combine和sort等方法,可根據(jù)需要進行定制。將已有智能分析和挖掘應用MapReduce化的一般過程為:分析問題并行性,即輸入數(shù)據(jù)集是否可被切分處理編寫Map函數(shù),在第一階段計算<Key,Value>對。Map方法可以完成選擇、投影等運算編寫Reduce函數(shù),在第二階段用于匯總Map函數(shù)的結果,Reduce方法可以完成表中定義的其他key/value代數(shù)運算5.6數(shù)據(jù)管理與分析為滿足海量數(shù)據(jù)的分布式計算和處理需求,采用基于無共享集群架構的并行化數(shù)據(jù)處理方式完成海量數(shù)據(jù)的組織、檢索、傳輸?shù)裙ぷ?提高業(yè)務效率。同時,建立標準統(tǒng)一的開發(fā)平臺向編成人員屏蔽底層分布式計算細節(jié),提高業(yè)務實現(xiàn)效率。5.7分布式數(shù)據(jù)庫HBase是一個分布式的、按列存儲的、多維表結構的實時數(shù)據(jù)庫,為高速在線數(shù)據(jù)服務而設計,HBase的特點主要包括:1采用NoSQL數(shù)據(jù)庫結構面向列存儲、可壓縮,有效降低磁盤I/O,提高利用率多維表結構,在四個維度中三個維度可變,適合描述復雜嵌套關系靈活的表結構,可動態(tài)改變和增加〔包括行、列和時間戳支持單行的ACID事務處理2基于分布式架構高性能,支持高速并發(fā)寫入和高并發(fā)查詢可擴展,數(shù)據(jù)自動切分和分布,可動態(tài)擴容,無需停機高可用性,建立在HDFS分布式文件系統(tǒng)之上為了支持互聯(lián)網應用的格式化和半格式化數(shù)據(jù),可構建了弱一致性要求的大規(guī)模數(shù)據(jù)庫系統(tǒng)HBase。HBase數(shù)據(jù)模型包括行、列以及時間戳,多個行組成一個子表〔Tablet,保存在子表服務器中。為使性能最大程度地適應需求,HBase體系結構也是基于客戶端和服務器架構設計的〔如圖-HBase體系結構。HBase依賴于集群任務調度器、HDFS文件系統(tǒng)以及分布式鎖服務ZooKeeper。HBase使用具有魯棒性的分布式鎖ZooKeeper來保存根元數(shù)據(jù)表的指針,客戶端應用首先通過程序庫從ZooKeeper中獲得根表的位置,然后與主服務器進行元數(shù)據(jù)通信,進而與子表服務器進行數(shù)據(jù)通信。HBase使用一臺服務器作為主服務器管理元數(shù)據(jù),并對子表服務器進行監(jiān)控、故障處理和負載調度。圖-HBase體系結構5.8Hive數(shù)據(jù)倉庫為支持進一步開發(fā)針對海量數(shù)據(jù)的智能分析和深度挖掘應用,在HDFS/HBase之上建立數(shù)據(jù)倉庫Hive。Hive是建立在Hadoop上的數(shù)據(jù)倉庫基礎構架。它提供了一系列的工具,可以用來進行數(shù)據(jù)提取轉化加載〔ETL,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù)的機制。并提供完整的SQL查詢功能,可以將SQL語句轉換為MapReduce任務進行運行。Hive的主要特點包括:采用HDFS進行數(shù)據(jù)存儲,采用Map/Reduce進行數(shù)據(jù)操作提供類似于SQL的查詢語言高擴展性<scale-out>,動態(tài)擴容無須停機針對海量數(shù)據(jù)的高性能查詢和分析系統(tǒng)提供靈活的語言擴展,支持復雜數(shù)據(jù)類型,擴展函數(shù)和腳本等5.9大數(shù)據(jù)調優(yōu)服務在本次項目中需要具有軟硬一體化、專業(yè)化方面的優(yōu)勢,借鑒大量實際案例和生產實踐經驗,提供下列增值服務。1、Hadoop調優(yōu)浪潮在Hadoop發(fā)行版提供的平臺之外,還具備進一步優(yōu)化的能力,具體包括硬件優(yōu)化、操作系統(tǒng)優(yōu)化、Hadoop配置優(yōu)化和應用優(yōu)化。硬件優(yōu)化:采用硬件加速技術,包括采用FPGA卡將某些功能通過微碼的形式固化,直接與硬件交互,大大提高處理速度。還可以采用存儲加速技術,將某些頻繁使用、直接影響性能的操作進行存儲加。操作系統(tǒng)優(yōu)化:采用內核優(yōu)化,提高內存訪問速度,減少進程切換和減少使用非本地內存,以及緩存技術等進行操作系統(tǒng)層面的優(yōu)化。Hadoop配置優(yōu)化:對Hadoop底層及應用的精通幫助進行Hadoop配置優(yōu)化,優(yōu)化方向包括操作系統(tǒng)參數(shù)優(yōu)化、網絡優(yōu)化、HDFS優(yōu)化、Map/Reduce優(yōu)化、HBase優(yōu)化等。在大的集群規(guī)模和數(shù)據(jù)量的實際場景下的優(yōu)化經驗是十分寶貴的,是實測得出的經驗。應用優(yōu)化:包括數(shù)據(jù)模型優(yōu)化和應用邏輯重構,由于非常熟悉Hadoop技術的優(yōu)勢所在,將針Hadoop的特點對數(shù)據(jù)模型進行優(yōu)化。另外的一個優(yōu)化方面是將針Hadoop的特點對應用邏輯重構,保障應用邏輯正確的條件下,結合對銀行應用的精確理解,進行應用邏輯重構,優(yōu)化系統(tǒng)性能。2、Hadoop數(shù)據(jù)導入工具從本地磁盤導入到Hadoop集群和HBase數(shù)據(jù)庫,是一個非常復雜的過程,如果沒有工具支持,很難保證性能,而且容易出錯。根據(jù)過去的項目經驗,浪潮開發(fā)了Hadoop數(shù)據(jù)導入工具,實現(xiàn)高性能的數(shù)據(jù)導入。具體功能包括:任務調度:以pipe的方式,進行任務調度。按批次導入的方法的缺點是系統(tǒng)利用率無法達到最優(yōu),會出現(xiàn)資源浪費。按pipe方式導入可以避免按批次導入的方法的缺點,最大限度利用資源。另外,通過對任務資源代價排序,可以實現(xiàn)集群資源的平衡使用。數(shù)據(jù)分發(fā):根據(jù)各節(jié)點的資源列表,將數(shù)據(jù)平均分發(fā)到各節(jié)點。并發(fā)控制:以可配置方式,實現(xiàn)并發(fā)數(shù)的控制,提供并行執(zhí)行任務的能力。配置工具:提供參數(shù)配置,以參數(shù)形式控制導入的過程,避免硬編碼帶來的靈活性問題。日志管理:提供豐富的日志信息,對于出錯日志單獨記錄,便于分析問題和采取糾正措施。3、HBase開發(fā)工具采用面向對象的設計和開發(fā)方法,并采用分層模型,對HBase的操作進行封裝,想HBase的復雜性對開發(fā)者透明,并提高開發(fā)效率,減少開發(fā)中的BUG。具體特點包括:Java對象化將HBase的數(shù)據(jù)進行Java對象化,開發(fā)者只要定義JavaBean,并通過HBase開發(fā)工具提供的簡單接口就可以實現(xiàn)select,insert,update,delete.HBase底層抽象把HBase的會話連接,HTable操作,SCAN操作等進行抽象,形成dbo類和query類,結合Java對象化實現(xiàn)優(yōu)雅地開發(fā)HBase應用程序。HBase表維護進行HBase表創(chuàng)建、刪除等。特別是進行HBaseRegion預分配等增值服務。其他工具類如文件操作,日期操作等4、Hadoop應用開發(fā)能力浪潮利用多個項目的積累形成了很強的Hadoop的應用開發(fā)能力。體現(xiàn)如下:多個大型項目經驗:包括幾個大型國有銀行、省級交通局、公安局的大型項目,在海量數(shù)據(jù)量和集群規(guī)模上具備了實戰(zhàn)經驗,能完成大型客戶的復雜需求。開發(fā)流程:積累和提煉出Hadoop應用開發(fā),特別是HBase開發(fā)的流程規(guī)范,形成一套方法論,對于指導未來的Hadoop應用項目具有很好的指導作用。有經驗的開發(fā)團隊〔規(guī)模:浪潮形成了一個具有相當規(guī)模的有經驗的開發(fā)團隊,并且是本地開發(fā),具有人員的規(guī)模效應和成本優(yōu)勢。高性能建設規(guī)劃6.1高性能平臺建設內容浪潮集團針對此次高性能項目需求,并結合多年來對科學計算領域高性能應用的深刻理解,特別推出了基于22nm制程工藝的全新英特爾?微體系架構〔代碼IvyBridge的英特爾?至強?E5-2600v3系列處理器的TS10000高性能集群系統(tǒng),本集群具有計算性能優(yōu)越、功耗控制領先、監(jiān)控管理系統(tǒng)方便易用、系統(tǒng)開放易于擴展、服務體系完善等特點。除此之外,頗受廣大用戶認可的浪潮高性能集群培訓服務體系,將為此次項目錦上添花,免除用戶的后顧之憂。建設一下內容:普通的計算機節(jié)點GPU的計算機節(jié)點具有強大性能的8路計算節(jié)點6.2高性能平臺總體性能要求此次建設規(guī)劃中,遵循業(yè)主方高校重點基礎設施實施建設,為XXX高校計算機學院日常教學、科研和承擔政府項目運行支撐系統(tǒng)提供保障。其中XXX高校計算機學院高性能項目將采用云的方式進行搭建,XXX高校計算機學院高性能項目將主要采用高性能機架式集群的方式進行搭建。分別從云高性能平臺個模塊對XXX高校計算機學院支撐介紹。高性能總體要求:在采用"機架式計算節(jié)點"的架構,浮點運算能力的峰值計算需同時考慮CPU的核心數(shù)、核心主頻及時鐘頻率〔按照浮點計算峰值=核心數(shù)×核心主頻×時鐘周期的計算方式〔此為單核的值,還需要乘以總核數(shù)量,因此,配置目前x86體系中計算速度最快的IntelXeonE52600v3〔及以上系列處理器,雙精度浮點計算能力達到12Tflops〔11.9萬億次/秒,Linpack測試不低于70%。針對跨網格及緊急任務的處理,配置了少量功能更強大的八路機架式計算節(jié)點,雙精度浮點計算能力達到7Tflops〔7.06萬億次/秒。同時,配置GPU的雙精度浮點,雙精度浮點計算能力達到23Tflops〔23.18萬億次/秒,目前一張TESLAGPUK80理論峰值為2.91Tflops,所以我們需要配置8個K80的GPU計算機節(jié)點。同時,高性能內部計算網絡采用全線速、無阻塞的56GbFDRInfiniband,是目前最先進的通信網絡,能極大提升數(shù)值模式計算的速度和擴展性。建成后的高性能計算系統(tǒng)將支持XXX高校的各科研教學的數(shù)值模型計算,滿足XXX高校分梯度的教學任務和科研項目,實現(xiàn)在小時級別內計算出各位科研和教學的算法,并可展望未來幾年我們學校新設置的一些教學和科研項目。6.3節(jié)點配置詳解6.3.1計算節(jié)點〔大數(shù)據(jù)DataNode節(jié)點作為整套集群的主體結構,計算節(jié)點是整套系統(tǒng)的基礎,其性能直接決定了整套系統(tǒng)的整體性能。為此,我們這次采用基于全新的IntelE5-2600V3處理器。其憑著架構上的進步,在相同的芯片大小下能容納更多的運算核心,使得CPU具有八個或十個運算核心;每個時鐘周期的浮點運算次數(shù)有原來的8次提升為16次,從而使其浮點運算性能翻倍提升;同時功耗表現(xiàn)亦得到改善。在高性能計算中,為了節(jié)省空間、降低能耗、簡化管理,采用刀片服務器已經是大勢所趨。而NF5280M4服務器是面向高性能計算〔HighPerformanceComputing而量身打造的高性能刀片服務器。計算刀片采用基于IntelE5-2600v3系列處理器,強勁性能無與倫比。每個計算節(jié)點都是一個完整的計算系統(tǒng),離不開各個部件的協(xié)同工作。所有的高性能計算,都需要CPU與內存頻繁通信,超高性能的CPU只有匹配了相應的內存才可以發(fā)揮最佳的優(yōu)勢。在全新的架構中,Intel集成的是DDR4內存控制器,顯著地提高了內存帶寬,降低了內存延遲,提升了性能,從而為每個CPU提供了訪問本地內存資源的快速通道。GPU節(jié)點目前,使用GPU+CPU異構系統(tǒng)來執(zhí)行通用科學與工程計算已經成為一個比較熱門的研究方向,GPU〔圖形處理器計算模型在一個異構計算模型中同時使用了CPU和GPU。應用程序的順序部分在CPU上運行,計算密集型部分在GPU上運行。雖然應用程序使用了GPU的卓越性能來提升運行性能,但對用戶而言,他們所能感知到的將僅僅是運行速度更快的應用程序。NVDIAK80是新一代CUDA架構,包含有專為科學應用程序優(yōu)化的特性,如IEEE標準雙精度浮點硬件支持、以分布于GPU中的共享內存形式存在的本地數(shù)據(jù)高速緩存、以及結合內存訪問的P2P技術等。利用GPU做并行計算,可以大幅度提高計算效率,但是目前也存在著一些問題,比如,這需要對客戶的CUDA編程能力有很高的要求,需要客戶對目前的軟件進行移植,而這對于大多數(shù)的客戶要求還是比較高的。但是,不容否認,CPU+GPU異構計算,在未來會有一個比較快速的發(fā)展。NF5568M4服務器是面向高性能計算〔HighPerformanceComputing而量身打造的高性能服務器,其采用2顆IntelXeonE5-2620v3<2.4GHz/6c>/8GT/15ML3/1866處理器;64GB內存,1張八通道高性能SASRAID卡〔512M緩存,配置8塊900G2.5"10KrpmSAS硬盤,2口千兆網卡,配置1張雙端口10Gbps萬兆卡含SFP+模塊,配置1張雙端口FC8GbpsHBA卡,配置配置單端口FDR56GbpsHCA卡,配置1張NvidiaK80GPU加速卡,配置2000W1+1冗余服務器電源。八路胖節(jié)點一套

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論