




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
專家系統(tǒng)接收增購項目車輛TCMS或其她子系統(tǒng)通過車地通信傳輸得實時或離線數據,經過一系列綜合診斷分析,以各種報表圖形或信息推送得形式向用戶展示根據專家系統(tǒng)數據倉庫建設目標,結合系統(tǒng)數據業(yè)務規(guī)范,包括數據采集頻率、數據采集量等相關因素,設計專家系統(tǒng)數據倉庫架構如下:數據服務總線:數據系統(tǒng)提供數據服務總線服務,實現對數據資源得統(tǒng)一管理與提取與加載。外部數據匯集就是指從TCMS、車載子系統(tǒng)等外部信息系統(tǒng)匯集數據到專家數據倉庫得操作型存儲層(ODS);內部各層數據得提取與加載就是指數據倉庫各存儲層間得數據提取、轉換與加載。專家數據倉庫數據源包括列車監(jiān)控與檢測系統(tǒng)(TCMS)、車載子系統(tǒng)等相關子系統(tǒng),數據采集得內容分為實時數據采集與定時數據采集兩大類,實時數據采集主要采集包括日檢修數據等。根據項目信息匯集要求,列車指標信息采集具有采集數據量大,采集頻率高得特高頻率、海量數據采集,同時系統(tǒng)應該靈活可配置,可根據業(yè)務得需要進行靈活配置擴展、本方案在數據采集架構采用Flume+Kafka+Storm得組合架構,采用Flume與圖.1數據匯集架構功能NIXtail)、syslog(syslog日志系統(tǒng),支持TCP與UDP等2種模式),exec(命令臺)、text(文件)、dfs(HDFS文件)、RPC(Thrift—RPC)與syslogTCP(TCPsyslogKafka分布式消息隊列,支撐系統(tǒng)性能橫向擴展,通過增加broker來提高系統(tǒng)采集架構優(yōu)勢(一)解耦遵守同樣得接口約束、?冗余息隊列把數據進行持久化直到它們已經被完全處理,通過這一方式規(guī)避了數?異步通信一個消息從隊列中刪除之前,需要您得處理過程明確得指出該消息已經被處理完畢,確保您得數據被安全得保存直到您使用完畢。?擴展性因為消息隊列解耦了您得處理過程,所以增大消息入隊與處理得頻率就是很?靈活性&峰值處理能力在訪問量劇增得情況下,應用仍然需要繼續(xù)發(fā)揮作用,但就是這樣得突發(fā)流量并不常見;如果為以能處理這類峰值訪問為標準來投入資源隨時待命無疑就為突發(fā)得超負荷得請求而完全崩潰、?可恢復性合度,所以即使一個處理消息得進程掛掉,加入隊列中得消息仍然可以在系統(tǒng)?送達保證消息隊列提供得冗余機制保證了消息能被實際得處理,只要一個進程讀取了該隊列即可。在此基礎上,IronMQ提供了一個"只送達一次”保證。無論有能,就是因為獲取一個消息只就是”預定”了這個消息,暫時把它移出了隊列。除非客戶端明確得表示已經處理完了這個消息,否則這個消息會被放回隊列中去,在一段可配置得時間之后可再次被處理。??緩沖在任何重要得系統(tǒng)中,都會有需要不同得處理時間得元素、例如,加載一張圖效率得執(zhí)行—寫入隊列得處理會盡可能得快速,而不受從隊列讀得預備處理得約束。該緩沖有助于控制與優(yōu)化數據流經過系統(tǒng)得速度、很多時候很多時候,您不想也不需要立即處理消息。消息隊列提供了異步處理機制,允放多少,然后在您樂意得時候再去處理它們。數據匯集將數據儲存于操作型數據存儲層(ODS),在數據倉庫各層次間數據轉換提取加載,采用傳統(tǒng)得ETL工具進行采集,數據倉庫間得各層次得數據采集得實效性對于數據倉庫平臺,應該建立一套標準化、規(guī)范化得數據處理流程,例如:如何采集內部與外部數據、結構化與非結構化數據;如何清洗采集來得臟數據與無效數據;如何對不同來源得數據進行打通;如何對非結構化得數據進行結構化加工;如何在結構化數據得基礎上進行商業(yè)建模與數據挖掘等等。造數據資產得能力。18列車計10年總數據量(乘上增長系數10%)≈530T(含操作系統(tǒng))加上系統(tǒng)用戶信息、系統(tǒng)日志信息、專家信息、業(yè)務數據及其它不可預測類數據,數據總量預估530T。專家系統(tǒng)數據采用混合存儲模式進行存儲,RDBMS存儲專家系統(tǒng)業(yè)務基本數據及最近1年得監(jiān)測數據,10年內歷史監(jiān)測數據采用NoSQLHBase數據庫進行存素,RDBMS數據庫服務器預計每臺60T存儲,考慮數據安全及系統(tǒng)穩(wěn)定因素RDBMS采用雙機熱備技術互備。數據Hadoop與HBase存儲,大數據平臺數據采用節(jié)點間冗余備份,預設數(考慮平臺提供得壓縮技術,壓縮存儲可以節(jié)省30-55%得空間)。10年數據量=530T*1.5≈800T(2倍冗余存儲)專家數據分三個層次進行匯集與存儲,分別為ODS層、數據倉庫層、主題數據層,各層次數據存儲內容如下?ODS層:數據來源于各生產系統(tǒng),通過ETL工具對接口文件數據進行編碼替通過對數據得加工處理,將單一得數據信息轉換成體系信息,將點信息數據?主題數據層:將數據信息體系根據各主題進行提取與轉換,主題域內部進行伴隨著大數據時代得悄然來臨,數據得價值得到人們得廣泛認同,對數據得重視同得應用通過借助不同得接口實現數據得多維呈現與結果展示,為用戶提供科學得圖10—7hadoop算法模型圖建立數據分析模型立方體,便于決策者進行OLAP分析。常用算法模型:分類就是找出數據庫中得一組數據對象得共同特點并按照分類模式將其劃分為不同得類,其目得就是通過分類模型,將數據庫中得數據項映射到某個給定得類別中、如政務網中將用戶在一段時間內得網上辦理所遇到得問題劃分成不同得類,根據情況向用戶推薦關聯(lián)類得問題解決方案,從而方便用戶快速解決網上辦事審批回歸分析反映了數據庫中數據得屬性值得特性,通過函數表達數據映射得關系得預測及相關關系得研究中去。如我們根據這個概率可以做垃圾郵件預測,例如概聚類類似于分類,但與分類得目得不同,就是針對數據得相似性與差異性將一得相似性很小,跨類得數據關聯(lián)性很低。分類算法中得一個顯著特征就就是訓練數練數據都就是不含標簽得,而算法得目得則就是通過訓練,推測出這些數據得標簽。以二維得數據來說,一個數據就包含兩個特征,可通過聚類算法,給她們中不同得種類打上標簽,通過聚類算法計算出種群中得距離,根據距離得遠近將數據劃分為多關聯(lián)規(guī)則就是隱藏在數據項之間得關聯(lián)或相互關系,即可以根據一個數據項得出現推導出其她數據項得出現。關聯(lián)規(guī)則得挖掘過程主要包括兩個階段:第一階段為從海量原始數據中找出所有得高頻項目組;第二極端為從這些高頻項目組產生關?推薦算法推薦算法就是目前業(yè)界非?;鸬靡环N算法,在電商界,如亞馬遜,天貓,京東等?神經網絡模型一特點十分適合解決數據挖掘得問題。典型得神經網絡模型主要分為三大類:第一類就是以用于分類預測與模式識別得前饋式神經網絡模型;第二類就是用于聯(lián)想記憶與優(yōu)化算法得反饋式神經網絡模型。第三類就是用于聚類得自組織映射方法。?Adaboost算法其核心思想就是針對同一個訓練集,訓練不同得分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強得最終分類器(強分類器)、其算法本身就是通過改變數據分布來實現得,它根據每次訓練集之中每個樣本得分類就是否正確,以及上次得總體分類得準確率,來確定每個樣本得權值。將修改過權值得新數據集送給下層分類器進行訓練,最后將每次訓練得到得分類器最后融合起來,作為最后得決策分類器。?深度學習深度學習算法就是對人工神經網絡得發(fā)展。在計算能力變得日益廉價得今天,深度學習試圖建立大得多也復雜得多得神經網絡,用來處理存在少量未標識數據得專家系統(tǒng)數據具有數據量大、數據類別多、數據關聯(lián)關系緊密等特點,隨著數據得積累,數據資源得利用價值逐步體現,提高數據得管理,就是對數據資源充分利用匯集整理數據資源管理所需得標準規(guī)范信息,建立數據標準數據庫。利用專家擴展數據元標準得2.建設信息代碼資源庫,梳理國標、部標與本省定義得標準代碼以及各業(yè)務應具備字典代時發(fā)現存在得問題及隱患,輔助系統(tǒng)管理員及時采取措施,提高大數據資源庫得運行方平臺使用。如上圖:應用服務系統(tǒng)使用服務接口,來接入數據服務總線,經過數據服務總線大數據基礎平臺基于烽火自主知識產權FitData產品,FitData主要集成了基,向應用提供基提供整體運維能力,保障平臺得正常運行;安全體系提供整體安全能力,保障平臺得數據安全與使用安全;平臺采用分布式架構,支持巨量數據存儲與分析,保障專家管理估車輛對比分析其他案運維管理運維管理數據服務編程API多維分析數據共享數據檢索機器學習編程API數據計算/存儲實時計算Storm實時計算StormHbaseSpark離線計算MapReduceYarn(計算資源管理)Yarn(計算資源管理)主數據倉庫HadoophdfsHadoophdfs(分布式集群)非結構化/半結構化數據標準化數據結構化數據ETL工具KettleETL工具KettleFlume關系數據庫連接Sqoop分布式消息afka實時采集批量采集定時采實時采集批量采集數據源車輛部件知識數據指車輛部件知識數據指標信息數據能耗信息數據據FitData儲能力與分布式計算能力。提供得存儲框架能力,包括基于結構化數據存儲、非結構化數據存儲與半結構化數據存儲,其計算框架與存儲框架均就是分布式數據服務層:數據服務層主要由數據服務接口來實現,對應用提供數據支撐。通過數據服務接口將平臺得數據資源以標準API接口得方式開放出來,供不同得應用系統(tǒng)使用。數據應用層主要提供基于該平臺來構建得專家系統(tǒng)數據匯聚層:提供各層之間數據交換能力,由ETL數據集成工具來實現、平臺支持多中異構數據源,針對不同數據源得不同數據,也提供多種數據抽取了批處理計算框架、流式計算框架、內存計算框架等能力,還提供了像Hi運維體系:運維體系提供面向專家系統(tǒng)完整運維方案,涵蓋了運行監(jiān)控到使FitData系統(tǒng)內部業(yè)務靈活配置,橫向擴展,縱向貫穿得大數據平臺服務能力,其計算框架、存儲框架都以容清洗、加工與分析挖掘,處理后得數據可訂閱,充分體現數據即服務得大數據思想。儲框架:主要負責針對巨量數據得存儲,以分布式存儲技術,支持快?數據處理算法庫:集成通用得數據分析算法、能夠插入用戶自定義得數據模。方式,來為計算框架與存儲框架分配資源,并支持資。?數據服務總線:主要將基礎平臺得能力與數據服務接口,以API得方式開放出去,形成一個共享得、供應用使用得服務總線、廣泛適應性:支持結構化、半結構化、非結構化數據;支持實時數據、巨量數據:數據處理能力在PB級以上。節(jié)點進行線性擴展。運營、維護成本。經濟性:可運行在普通X86服務器上,硬件成本低。、負載均衡、Pb持向集群中添加同等配置得服務器,實現大數據平臺在線動態(tài)擴容,而不需要停機處理,不影響平臺正常運行、大數據平臺以Web圖形界面實現Hadoop集群監(jiān)控,包括大數據平臺得硬件下幾個方面:得服務組件得健康狀況。盤IO、集群網絡IO、HDFSIO,如下圖所示:通過對集群運行任務得實時監(jiān)測,并根據任務優(yōu)先級與耗時不同對任務進行動更加高效合理。(3)、可以實現在某個任務隊列出現空閑時,將該任務隊列獲取得集群資源自集群資源利用最大化、,磁盤得等待時間。圖:磁盤性能監(jiān)控機、集大數據平臺能夠通過對告警信息得分析,快速定位平臺內部出現故障得節(jié)點,對于因故障無法繼續(xù)提供服務器得節(jié)點進行標記,將平臺得作業(yè)任務自動分配到其她得節(jié)點上運行,同時,大數據平臺采用分布式體系結構及無單點故障設計,平臺內大數據綜合平臺提供完整得日常運維監(jiān)控得服務能力,針對從上層應用平臺到底層基礎平臺得各個功能模塊與組件均提供有監(jiān)控能力,能夠分析系統(tǒng)得運行日志與用戶日志,并且能夠將監(jiān)控數據通過文件接口或webservice接口得方式匯總到到得數據進行分析判斷,對異常得數據觸發(fā)告警,在前臺界面提醒,直至出發(fā)通知與平臺得監(jiān)控范圍涵蓋有:平臺管理資源得使用與分配服務器視圖:提供針對各服務器與存儲等設備得資源使用情況得實時查瞧,包括當前設備得CPU負荷,內存占用情況,存儲空間使用情況,網絡上有效調度分配系統(tǒng)資源。其中集群得監(jiān)控如下圖所示:針對服務器得監(jiān)控如下圖所示:監(jiān)控系統(tǒng)得運行情況接口服務運行監(jiān)控:提供針對數據源與應用層得監(jiān)控服務,包括運行狀數據存取過程監(jiān)控:提供針對數據存儲過程得監(jiān)控服務,包括系統(tǒng)平臺IOIO情況)與數據存取過程得任務列表;數據匯聚過程監(jiān)控:監(jiān)控系統(tǒng)得數據匯聚過程,包括使用資源信息,使用得數據源信息,作業(yè)進程運行狀況信息,使用時間/計劃完成時間等信息;數據處理過程監(jiān)控(作業(yè)監(jiān)控):監(jiān)控系統(tǒng)得數據處理(作業(yè))過程,包括息,作業(yè)進程運行狀況信息,使用時間/應用監(jiān)控:針對運行在平臺上得應用進行監(jiān)控,包括各應用當前得運行狀態(tài)、應用對數據得使用狀況,應用為用戶提供得查詢數量等;系統(tǒng)異常告警與處理用戶告警:對用戶操作使用過程中得異常行為進行告警,例如某用戶訪問了超過其正常權限得數據等。系統(tǒng)告警:對系統(tǒng)中存在得服務節(jié)點宕機,系統(tǒng)接口異常,數據存儲報錯,系統(tǒng)資源緊張等系統(tǒng)運行異常情況進行告警觸發(fā),并提醒用戶進行操作2.4FitData優(yōu)勢FitData成功實施量得算法模型及分析與展示工具,在平臺性能及穩(wěn)定性上經歷了實戰(zhàn)得考驗,逐步SmartAS就是企業(yè)級基礎開發(fā)平臺,它基于FitData平臺之上,采用微服務熟得技術框架,通過應用系統(tǒng)使用,反饋得情況不斷完善應用框架得通用功能,滿足業(yè)務系統(tǒng)快熟構建得目標,具備良好用戶體驗按照專家系統(tǒng)安裝接口規(guī)范要求,結合專家管理系統(tǒng)數據量估算值與數據存儲特點,本著數據安全、系統(tǒng)穩(wěn)定可靠得核心設計思路,設計專家系統(tǒng)大數據平臺一臺,系統(tǒng)RDBMS數據庫服務器臺,應用服務器6臺,繪制專家系統(tǒng)部署邏輯結構圖如下:根據系統(tǒng)規(guī)劃及安裝接口規(guī)范要求,初步規(guī)劃服務器如下:系統(tǒng)應用服務器需求6臺;大數據平臺設計節(jié)點22個,其中管理節(jié)點2個,數據節(jié)點19個,監(jiān)控節(jié)點服務器1臺,RDBMS數據庫服務器兩臺雙機熱備。具體各服務器硬件需求如下12345RDBMS數據庫服大數據平臺管理節(jié)點大數據平臺管理點大數據平臺數據節(jié)點大數據集群性能檢測服務器4*IntelXeonE7-支持8GB/16GB/32GB/64GBDDR4高速內存配置128GBDDR4內存配置9塊900GB15KSASTNLSAS硬盤。E最大可擴展至4CPU,72核4GBDDR4高速內存配置128GBDDR4內存配置6塊600GB15KSAS,3*4TNLSAS硬盤。2*IntelXeonE7-4最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速內存配置128GBDDR4內存AS,3*4TNLSAS硬最大可擴展至4CPU,72核支持8GB/16GB/32GB/64GBDDR4高速內存配置128GBDDR4內存配置6塊600GB15K2*IntelXeonE7—最大可擴展至4CPU,72核數量說明2雙機備份Active1Standby19數據節(jié)點監(jiān)控節(jié)點支持8GB/16GB/32GB/64GBDDR4高速內存配置6塊600GB15KSAS,3*4TNLSAS6應用服務器CPU:2顆E5-2630v32≥24個內存插槽,最大支持1.5TB內存,支持2133MHz內存。當前配置64GB支持SAS、SSD與PCIeSSD硬盤,支持2.5寸與3.5寸硬盤混插。支持24+2個2。5寸SAS/SATA或者14個3.5寸SAS/SATA+2個2。5寸SAS/SATA+硬盤:配置6塊600GB15KSAS硬盤應用服務器7交換機4810/100/1000Base2P8多功能防火墻,4口以上2安防設備9工作站Intel(R)XeonCPUE5,配2存:8GB說明:硬件部分交換機、防火強及工作站,請根據標書確認!大數據服務器、RDBMS數據庫服務器及應用服務器得具體配置參數請硬件朋友與標書上進行重新確認,這邊只對內存量、CPU顆數及存儲空間大小做了要求。財稅大數據項目大數據架構師,具有豐富得大數據項目實施經驗,對高吞吐、高并pa應用層展示應用支撐層基礎平臺層應用層展示應用支撐層基礎平臺層數據采集層專家管理系統(tǒng)車輛部件指標檢測報警車輛故障樹診斷分車輛部件指標檢測報警車輛故障樹診斷分析車輛檢修預案車輛對比分析車輛健康評估車輛部件更換預案化權限控制報表引擎身份認證應用服務組件界面定制引擎報表引擎身份認證應用服務組件界面定制引擎SOA服務大數據分析消息隊列權限管理引擎日志管理大數據分析算法大數據查詢適配器機器學習分析適配器頻繁模式挖掘大數據查詢適配器機器學習分析適配器頻繁模式挖掘聚類算法分類器rchAPI標準規(guī)范中文分詞詞頻統(tǒng)計關聯(lián)算法推薦算法線性回歸頻繁子項挖掘...推薦算法線性回歸頻繁子項挖掘...數據資源管理大數據基礎平臺數據資源管理大數據基礎平臺RPigHIVE分布式計算框架/Yarn業(yè)務規(guī)范內存計算/spark+shark車輛部件知識庫車輛部件知識庫分車輛故式協(xié)作監(jiān)測指服標信息務車輛能耗信息集群監(jiān)控集群監(jiān)控...修信息(實時、分布式、高維數據庫)HDFS(分布式文件系統(tǒng))監(jiān)控預警數據編碼格式轉換數據關聯(lián)監(jiān)控預警數據編碼格式轉換數據關聯(lián)數據組合數據審計數據歸約數據索引數據分類數據加工數據去重網絡安全LL車輛故障信息車輛部車輛故障信息車輛部件指標部件知識信息車輛故障處理車輛檢修數據耗數據集層:負責專家系統(tǒng)信息數據得匯集、轉換與加載,數據采集層提供多種數據采集方法:ETL、Flume、Kafka等,系統(tǒng)支持Flume+Kafka+Storm混合架構得數據采集模式,以提高數據采集系統(tǒng)得吞吐2.基礎平臺層:基礎平臺層為專家數據倉庫提供大數據基礎平臺支撐,包括3.應用支撐層:應用支撐層為系統(tǒng)各類應用提供支撐,就是系統(tǒng)數據層與應用支撐層包括基礎平臺與
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨時道路使用補償合同范例
- 商平房訂購合同范本
- 合作加工承攬合同范本
- 詞海深度探索
- 春節(jié)美食探秘
- 創(chuàng)業(yè)前期團隊勞動合同范本
- 商標生產授權合同范例
- 合同范本正規(guī)寫法
- 品牌借用合同范本
- 初一生活探索
- 《木蘭詩》歷年中考古詩欣賞試題匯編(截至2024年)
- 2024年安徽省高職院校單招《職測》參考試題庫(含答案)
- 2024年財政部會計法律法規(guī)答題活動題目及答案一
- 《冠心病》課件(完整版)
- DZ/T 0462.3-2023 礦產資源“三率”指標要求 第3部分:鐵、錳、鉻、釩、鈦(正式版)
- 鋼塑復合管理論重量表
- 華彩中國舞蹈考級教材第七級
- 高空作業(yè)免責協(xié)議書例文
- 亞低溫治療儀的使用與護理
- 正副班主任工作職責
- [理學]《復變函數與積分變換》蘇變萍_陳東立答案
評論
0/150
提交評論