物流大數(shù)據(jù)平臺可行性研究報告_第1頁
物流大數(shù)據(jù)平臺可行性研究報告_第2頁
物流大數(shù)據(jù)平臺可行性研究報告_第3頁
物流大數(shù)據(jù)平臺可行性研究報告_第4頁
物流大數(shù)據(jù)平臺可行性研究報告_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

項目概述項目名稱項目名稱:XX項目承擔單位項目承擔單位:XX項目負責人:編制依據(jù)本報告的編制依據(jù)主要包括以下內(nèi)容:《國務(wù)院關(guān)于積極推進“互聯(lián)網(wǎng)+”行動的指導意見》(國發(fā)〔2015〕40號);《促進大數(shù)據(jù)發(fā)展行動綱要》(國發(fā)〔2015〕50號);《北京市大數(shù)據(jù)和云計算發(fā)展行動計劃(2016—2020年)》;《計算機信息網(wǎng)絡(luò)國際聯(lián)網(wǎng)保密管理規(guī)定》國家保密局;《計算機軟件產(chǎn)品開發(fā)文件編制指南》(GB8567-88);《計算機軟件開發(fā)規(guī)范》(GB8566-88);《計算機軟件質(zhì)量保證計劃規(guī)范》(GB/T12504-90);《計算機病毒防治管理辦法》中華人民共和國公安部令第51號;其他法律法規(guī)、相關(guān)文件等。項目建設(shè)內(nèi)容本項目行業(yè)大數(shù)據(jù)平臺主要建設(shè)內(nèi)容為:物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第8頁。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第8頁。項目建設(shè)原則系統(tǒng)的總體設(shè)計應(yīng)遵循高標準嚴要求的原則,具備技術(shù)的穩(wěn)定性和業(yè)務(wù)系統(tǒng)的實用、方便性。1.先進性和前瞻性在應(yīng)用系統(tǒng)實用、高效的基礎(chǔ)上,采用先進的信息技術(shù),適應(yīng)未來6-8年技術(shù)發(fā)展趨勢,具備一定的前瞻性,并保證系統(tǒng)管理、維護、升級和擴展的方便性。2.開放性及可擴展性由于本項目中建設(shè)的平臺將為今后幾年全國XX相關(guān)數(shù)據(jù)收集分析工作提供支撐,因此要求軟件平臺應(yīng)具有良好的可擴充、擴展能力,能夠方便進行系統(tǒng)升級和更新,以適應(yīng)今后業(yè)務(wù)的不斷發(fā)展。安全可靠性選用的主機服務(wù)器要求能夠支持高可用的持續(xù)服務(wù)技術(shù),能夠連續(xù)7×24小時不間斷工作,出現(xiàn)故障及時告警,具有完整的操作權(quán)限管理功能和完善的系統(tǒng)安全機制,保證系統(tǒng)正常可靠運行。保護投資保護既往投資、整合現(xiàn)有資源。系統(tǒng)建設(shè)立足對已有業(yè)務(wù)應(yīng)用系統(tǒng)和數(shù)據(jù)庫等資源的完善與整合,重視業(yè)務(wù)流與信息流的結(jié)合和重組優(yōu)化,使既往投資和現(xiàn)有資源發(fā)揮更大作用。5.易于管理維護物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第9頁。建設(shè)時充分考慮到管理維護的需要,保證系統(tǒng)建成后易于管理和維護。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第9頁。投資估算主要依據(jù)原國家發(fā)展計劃委員會、信息產(chǎn)業(yè)部:《電信建設(shè)管理辦法》信息產(chǎn)業(yè)部《通信建設(shè)工程投資估算指標》(試行)《關(guān)于認真開展電子工程監(jiān)理的通知》信息產(chǎn)業(yè)部信規(guī)(2000第206號文件)《信息系統(tǒng)工程造價指導書》中國市場出版社項目需求及市場調(diào)研。投資估算物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第10頁。根據(jù)項目建設(shè)的內(nèi)容和規(guī)模,依據(jù)國家有關(guān)部門的相關(guān)規(guī)定,在市場調(diào)研的基礎(chǔ)上,綜合考慮需求分析費、系統(tǒng)設(shè)計費、應(yīng)用軟件開發(fā)費、系統(tǒng)集成和調(diào)試費等,XX行業(yè)大數(shù)據(jù)平臺建設(shè)總投資估算為XX萬元,各分項價格如下表所示:物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第10頁。序號分項分項描述金額(萬元)1需求分析項目需求調(diào)研,解決方案討論,產(chǎn)品原型圖設(shè)計與確認2UI、UE設(shè)計所有頁面、交互設(shè)計、UI效果圖設(shè)計與確認3系統(tǒng)開發(fā)系統(tǒng)程序開發(fā)4數(shù)據(jù)移植現(xiàn)有數(shù)據(jù)移植5項目管理、測試與發(fā)布項目管理、集成測試、部署與培訓、產(chǎn)品發(fā)布GrandTotal總計:項目總投資估算表效益目標績效目標質(zhì)量目標:系統(tǒng)建設(shè)之前,項目組會充分研究討論,并廣泛收集專家意見制定出最適合本項目的質(zhì)量控制標準,保證承建方嚴格按照質(zhì)量要求建設(shè)。時效目標:與系統(tǒng)建設(shè)之前相比,系統(tǒng)建設(shè)投入使用以后可提高工作效率70%以上。成本目標:軟件及實施、培訓等投入控制在XXX萬元人民幣以內(nèi)。效果目標經(jīng)濟效益目標:系統(tǒng)不直接產(chǎn)生經(jīng)濟效益。但系統(tǒng)運行以后可增加中心影響力,提高服務(wù)能力,為XX行業(yè)發(fā)展等提供數(shù)據(jù)支撐,為各單相關(guān)企業(yè)節(jié)省支出,按照目前行業(yè)發(fā)展水平及相關(guān)服務(wù)費用計算,每年可增加收入約XX萬元。社會效益目標:提高管理水平,降低管理層管理難度,提高用戶滿意度,促進行業(yè)發(fā)展。環(huán)境效益目標:本項目作為信息化建設(shè)的重要組成部分,在提高數(shù)字化水平,改善管理環(huán)境中起到至關(guān)重要的作用??沙掷m(xù)目標:經(jīng)過充分的系統(tǒng)論證,前瞻性的建設(shè)規(guī)劃,開放式的平臺接口,在國家相關(guān)政策下本系統(tǒng)使用期限在6-8年以上。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第11頁。滿意度目標:項目建設(shè)完成投入使用以后,要達到所有使用者滿意度不低于80%。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第11頁。建設(shè)背景及可行性建設(shè)背景時代背景當今人類社會已經(jīng)進入數(shù)字化和信息化時代,主要特征就表現(xiàn)在高效性、多樣性、綜合性等,在這樣的時代背景之下,人們的生活質(zhì)量顯著提高,計算機技術(shù)的發(fā)展是數(shù)字化和信息化時代出現(xiàn)的根本原因,在社會的各行各業(yè)之中,由于計算機技術(shù)的廣泛應(yīng)用,企事業(yè)單位開始建立計算機網(wǎng)絡(luò)平臺,實現(xiàn)了信息的數(shù)字化管理,同時各企事業(yè)單位之間可利用互聯(lián)網(wǎng)進行信息的交流與溝通,進一步擴展了數(shù)字化和信息化的普及范圍,數(shù)字化和信息化在世界范圍內(nèi)迅速普及,正在對經(jīng)濟、政治、文化、科技、軍事等各個領(lǐng)域產(chǎn)生重大影響,深刻改變著人們的生產(chǎn)、工作和生活方式,并將繼續(xù)對人類精神文明和物質(zhì)文明產(chǎn)生深遠影響,引發(fā)人類社會生活層面的各種變革。政策背景2015年9月5日,經(jīng)李克強總理簽批,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》(以下簡稱《綱要》),系統(tǒng)部署大數(shù)據(jù)發(fā)展工作。《綱要》是到目前為止我國促進大數(shù)據(jù)發(fā)展的第一份權(quán)威性、系統(tǒng)性文件,從國家大數(shù)據(jù)發(fā)展戰(zhàn)略全局的高度,提出了我國大數(shù)據(jù)發(fā)展的頂層設(shè)計,是指導我國未來大數(shù)據(jù)發(fā)展的綱領(lǐng)性文件。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第12頁?!毒V要》提出,要加強頂層設(shè)計和統(tǒng)籌協(xié)調(diào),加大大數(shù)據(jù)關(guān)鍵技術(shù)研發(fā)、產(chǎn)業(yè)發(fā)展和人才培養(yǎng)力度,著力推進數(shù)據(jù)匯集和發(fā)掘,深化大數(shù)據(jù)在各行業(yè)創(chuàng)新應(yīng)用,促進大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展;完善法規(guī)制度和標準體系,科學規(guī)范利用大數(shù)據(jù),切實保障數(shù)據(jù)安全。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第12頁。2017年1月17日工業(yè)和信息化部印發(fā)《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,規(guī)劃指出創(chuàng)新大數(shù)據(jù)技術(shù)服務(wù)模式。加快大數(shù)據(jù)服務(wù)模式創(chuàng)新,培育數(shù)據(jù)即服務(wù)新模式和新業(yè)態(tài),提升大數(shù)據(jù)服務(wù)能力,降低大數(shù)據(jù)應(yīng)用門檻和成本。圍繞數(shù)據(jù)全生命周期各階段需求,發(fā)展數(shù)據(jù)采集、清洗、分析、交易、安全防護等技術(shù)服務(wù)。推進大數(shù)據(jù)與云計算服務(wù)模式融合,促進海量數(shù)據(jù)、大規(guī)模分布式計算和智能數(shù)據(jù)分析等公共云計算服務(wù)發(fā)展,提升第三方大數(shù)據(jù)技術(shù)服務(wù)能力。推動大數(shù)據(jù)技術(shù)服務(wù)與行業(yè)深度結(jié)合,培育面向垂直領(lǐng)域的大數(shù)據(jù)服務(wù)模式。業(yè)務(wù)背景XX是現(xiàn)代經(jīng)濟的核心之一,國務(wù)院印發(fā)的《XX業(yè)發(fā)展中長期規(guī)劃(2014~2020年)》明確提出要以提高XX效率、降低XX成本為重點。因此,在大數(shù)據(jù)時代背景下,XX行業(yè)也必須高度重視統(tǒng)計數(shù)據(jù)。

XX大數(shù)據(jù)可以劃分為三類:第一是微觀層面,包括運輸、倉儲、配送、包裝、流通加工等,第二是中觀層面,最顯著的影響是橫向流程延拓,縱向流程壓縮簡化;從供需平衡角度出發(fā),為供方(XX企業(yè))提供最大化的利潤,為需方提供最佳的服務(wù);第三是頂層設(shè)計,利用大數(shù)據(jù)技術(shù)把握行業(yè)動態(tài),預(yù)測發(fā)展趨勢,實現(xiàn)行業(yè)頂層規(guī)劃設(shè)計。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第13頁。XX大數(shù)據(jù)發(fā)展比較緩慢。從細分市場來看,醫(yī)藥XX、冷鏈XX、電商XX等都在嘗試趕乘大數(shù)據(jù)這輛高速列車,大數(shù)據(jù)在XX中的應(yīng)用貫穿了整個XX的各個環(huán)節(jié)。主要表現(xiàn)在XX決策、XX企業(yè)行政管理、XX客戶管理及智能預(yù)警等過程中。XX業(yè)務(wù)具有突發(fā)性、隨機性、不均衡性等特點,通過大數(shù)據(jù)分析,可以有效了解用戶偏好,市場情況,預(yù)判可能,提前做好準備,從而為行業(yè)健康快速發(fā)展奠定基礎(chǔ)。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第13頁。XX現(xiàn)行網(wǎng)站及相關(guān)業(yè)務(wù)系統(tǒng)建設(shè)時間較早,在當前使用過程中,存在諸多問題,包含如下:業(yè)務(wù)邊界較窄:中心工作任務(wù)相對系統(tǒng)建設(shè)初期有了較大變化,現(xiàn)有系統(tǒng)所支撐業(yè)務(wù)范圍較窄,如政策信息、XX數(shù)據(jù)的采集、統(tǒng)計分析等,現(xiàn)有信息系統(tǒng)已無法滿足新的需求;業(yè)務(wù)模式不足:中心工作任務(wù)涵蓋省市級、地市級、地方社團三級體系相關(guān)數(shù)據(jù)報送,現(xiàn)有系統(tǒng)所支撐業(yè)務(wù)的業(yè)務(wù)流程相對單一,已無法更快更準確的對用戶需求做出響應(yīng);業(yè)務(wù)規(guī)模較?。含F(xiàn)有信息系統(tǒng)所支撐業(yè)務(wù)的業(yè)務(wù)量、用戶量較小,并發(fā)量達到一定規(guī)模時系統(tǒng)會發(fā)生卡頓甚至崩潰;數(shù)據(jù)安全無法保障:由于系統(tǒng)建設(shè)時間較長,為數(shù)據(jù)處理系統(tǒng)建立和采用的技術(shù)和管理的安全保護手段已無法更新維護,計算機硬件、軟件和數(shù)據(jù)會有遭到破壞、更改和泄露的危險,其中數(shù)據(jù)包含各企業(yè)詳細信息、統(tǒng)計數(shù)據(jù)及相關(guān)保密數(shù)據(jù)等,發(fā)生泄漏后會造成不可預(yù)估的損失。綜上所述,在當前背景下,為了強化經(jīng)濟、XX等數(shù)據(jù)監(jiān)測分析,建立規(guī)范化指標體系,推進數(shù)據(jù)共享和業(yè)務(wù)協(xié)同,為決策提供及時、準確、可靠的信息依據(jù),提高工作的前瞻性和針對性,加大宏觀調(diào)控力度,XX中心行業(yè)大數(shù)據(jù)平臺建設(shè)顯的非常必要和迫切。項目可行性政策環(huán)境可行性物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第14頁。2015年9月,經(jīng)李克強總理簽批,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》,自此“大數(shù)據(jù)”“云平臺”等政策措施密集出臺,自“大數(shù)據(jù)”上升為國家戰(zhàn)略以來,國家部委和地方政府紛紛發(fā)布“大數(shù)據(jù)”領(lǐng)域的政策文件。2017年1月工業(yè)和信息化部印發(fā)《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,提出全面提升我國大數(shù)據(jù)的資源掌控能力、技術(shù)支撐能力和價值挖掘能力,“大數(shù)據(jù)”環(huán)境愈加堅實,為XX行業(yè)大數(shù)據(jù)平臺建設(shè)指明了方向。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第14頁。技術(shù)可行性目前,XX行業(yè)大數(shù)據(jù)平臺的核心是對數(shù)據(jù)的收集、處理與分析,通過整合數(shù)據(jù)和業(yè)務(wù)流程流轉(zhuǎn)控制實現(xiàn)業(yè)務(wù)系統(tǒng)相關(guān)功能,架構(gòu)一個能夠提供數(shù)據(jù)采集、流程控制和挖掘分析服務(wù)的大數(shù)據(jù)技術(shù)處理平臺,并具有健壯性、可擴展性和技術(shù)先進性,目前國內(nèi)相關(guān)技術(shù)已達到實用水平,并有了相對成熟的產(chǎn)品,為上述實現(xiàn)提供了可能。本平臺建成后與現(xiàn)有系統(tǒng)比較主要優(yōu)越性有:簡單性:在實現(xiàn)平臺的功能的同時,盡量讓平臺操作簡單易懂,這對于一個平臺來說是非常重要的。針對性:該平臺設(shè)計包含網(wǎng)上數(shù)據(jù)報送及后臺管理等定向開發(fā)設(shè)計,具有專業(yè)突出和很強的針對性。實用性:該平臺能完成相關(guān)數(shù)據(jù)采集、調(diào)查、報送等,具有良好的實用性。經(jīng)濟可行性物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第15頁。XX行業(yè)大數(shù)據(jù)平臺建設(shè)將本著減少重復(fù)建設(shè)、節(jié)約投資、充分利用已有資源、協(xié)調(diào)利用已有互聯(lián)網(wǎng)管理系統(tǒng)資源的原則進行建設(shè)。本項目作為信息中心的主要保障條件建設(shè)項目,建成后可提升中心的服務(wù)環(huán)境、提高工作效率和科學管理水平,直接和間接地產(chǎn)生效益。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第15頁。一次性收益縮短各業(yè)務(wù)人員數(shù)據(jù)報送、審核周期,提高工作效率,可以依據(jù)縮短時間的天數(shù)和工作量的減少,酌情不再新增辦公人員,使勞動力資源得到更合理的利用,從而降低了信息化建設(shè)項目成本,避免了消耗,減少了管理費用的支出等。不可定量收益使管理人員決策及時、準確、更科學化;使信息中心上下級的信息流通結(jié)構(gòu)更趨合理;提高中心公信力,擴大影響力,增強競爭力;提高用戶滿意度等。以上這些方面的效益一般不能通過定量計算得到,具有一定的隱含性質(zhì)和延遲性,但對于XX的管理以及發(fā)展、壯大都具有不可定量的收益。需求分析非功能性需求靈活性需求本部分主要說明XX行業(yè)大數(shù)據(jù)平臺要具備適應(yīng)需求發(fā)生變化(業(yè)務(wù)變化及機構(gòu)變化)的能力。(1)平臺在設(shè)計時,應(yīng)充分考慮XX業(yè)務(wù)需求的變化和功能整合的可擴展性、方便性、快捷性,以適應(yīng)可能的各種變化和發(fā)展。(2)應(yīng)充分考慮系統(tǒng)與機構(gòu)的無關(guān)性、與硬件的無關(guān)性及處理存儲分布性,當業(yè)務(wù)需求發(fā)生變化時,能快速修改業(yè)務(wù)過程,對已有系統(tǒng)的影響盡可能小,對程序的改變只涉及相對獨立的局部,而不會對其他部分或整體造成影響。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第16頁。(3)平臺應(yīng)具有獨立性,應(yīng)充分考慮使用開放性標準來確保相對獨立于硬件和軟件產(chǎn)品廠商,同時易于實現(xiàn)軟硬件系統(tǒng)集成。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第16頁。安全性需求數(shù)據(jù)安全(1)數(shù)據(jù)在傳輸過程中,對敏感數(shù)據(jù)進行加密;(2)所有對敏感數(shù)據(jù)的存取權(quán)限應(yīng)該嚴格控制,并利用日志進行全程記錄跟蹤;(3)對登錄過程進行監(jiān)管、記錄以控制對敏感數(shù)據(jù)的存取。應(yīng)用安全(1)為開發(fā)、測試、培訓和運行提供各自獨立的環(huán)境,以便軟件集成的維護和版本的有效控制;(2)建立程序改進過程,以便加強軟件版本控制;(3)在控制和審計狀態(tài)下完成計算機設(shè)備和軟件的安裝;(4)在確認測試成功后運行系統(tǒng)。系統(tǒng)存取權(quán)限控制(1)定義與登錄系統(tǒng)活動相關(guān)的日志文件,比如成功登錄和不成功登錄活動、授權(quán)用戶賬號活動、用戶存取權(quán)限變更、軟件密碼的改變和修改等活動;(2)系統(tǒng)保存的日志可以提供充分的信息以支持審計和安全度量;(3)日志需要保存一定的時間;物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第17頁。(4)采取嚴格的密碼設(shè)定策略,比如:最小的密碼長度、最初的任務(wù)、限制詞和格式、密碼聲明周期、用戶密碼指南等;物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第17頁。(5)用戶在授權(quán)下訪問網(wǎng)絡(luò)資源;(6)對遠程系統(tǒng)的連接進行驗證;(7)實施嚴格的系統(tǒng)監(jiān)管,以確保各類操作滿足存取權(quán)限標準。數(shù)據(jù)保密需求XX行業(yè)大數(shù)據(jù)平臺中包含大量企業(yè)數(shù)據(jù)和敏感信息。因此系統(tǒng)在設(shè)計時要求制定一套有效的保密措施以確保這些信息的保密性,同時需要預(yù)防外部侵擾的破壞,防止信息泄露。(1)系統(tǒng)須防止非法訪問、修改數(shù)據(jù)。除根據(jù)有關(guān)法律、法規(guī)而進行的數(shù)據(jù)披露外,這些數(shù)據(jù)不能被泄露;(2)系統(tǒng)須采取“錄入—復(fù)核”雙人操作,確保變更的準確性和有效性,所有的歷史信息必須被保存并能夠被查詢,同時要采用詳細的日志記載修改的操作。災(zāi)難恢復(fù)需求XX行業(yè)大數(shù)據(jù)平臺包含敏感信息,所以必須有較高的健壯性,有完整的數(shù)據(jù)備份及災(zāi)難恢復(fù)機制。這里所說的災(zāi)難,是指計算機系統(tǒng)受火災(zāi)、水災(zāi)或人為破壞而產(chǎn)生的嚴重的后果,災(zāi)難恢復(fù)是指災(zāi)難產(chǎn)生后迅速采取措施恢復(fù)計算機系統(tǒng)的正常運行。(1)本系統(tǒng)中的重要網(wǎng)絡(luò)和計算機設(shè)備、以及重要的通信線路,需要采用冗余備份措施(冷備份、熱備份和負載均衡相結(jié)合);(2)本系統(tǒng)中的數(shù)據(jù),除了要采取各種備份措施之外,還必須設(shè)立一整套完善的災(zāi)難恢復(fù)機制;物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第18頁。(3)在數(shù)據(jù)備份過程系統(tǒng)應(yīng)對數(shù)據(jù)進行壓縮,以便使數(shù)據(jù)量盡可能小,減少存儲空間;物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第18頁。(4)數(shù)據(jù)在恢復(fù)時要指定介質(zhì)、時間、數(shù)據(jù)類型、機構(gòu)等相關(guān)信息,經(jīng)過確認后才可以恢復(fù),以避免錯誤覆蓋現(xiàn)象;(5)備份的介質(zhì)要編寫序號,歸檔管理,專人負責保管。系統(tǒng)集成需求平臺數(shù)據(jù)吞吐量大,計算密集度高。在系統(tǒng)集成里,要充分考慮整個系統(tǒng)數(shù)據(jù)量大小、數(shù)據(jù)流量和處理量的大小,在此基礎(chǔ)上對整個系統(tǒng)的基礎(chǔ)設(shè)施、業(yè)務(wù)系統(tǒng)和安全體系進行集成,涵蓋了總體技術(shù)架構(gòu)設(shè)計、主機和存儲設(shè)計、各種系統(tǒng)的選型與集成、已有系統(tǒng)及數(shù)據(jù)的遷移、各種硬件設(shè)備配置和報價、所提供的各種服務(wù)等?;A(chǔ)設(shè)施類集成基礎(chǔ)設(shè)施類的集成包括:網(wǎng)絡(luò)系統(tǒng)集成、計算設(shè)備安裝調(diào)試、系統(tǒng)軟件或工具的部署調(diào)試。基礎(chǔ)設(shè)施的集成主要體現(xiàn)在設(shè)備的采購、物理連接、安裝、部署、調(diào)試、驗收等方面。網(wǎng)絡(luò)連接可分解成內(nèi)網(wǎng)連接、外網(wǎng)連接、網(wǎng)絡(luò)設(shè)備安裝調(diào)試等。計算設(shè)備集成可分解成主機系統(tǒng)、存儲系統(tǒng)、備份系統(tǒng)的安裝和調(diào)試。軟件開發(fā)工具和支撐環(huán)境可分解成數(shù)據(jù)庫管理系統(tǒng)、智能檢索系統(tǒng)等。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第19頁。建設(shè)XX行業(yè)大數(shù)據(jù)平臺局域網(wǎng),進行軟硬件系統(tǒng)集成,系統(tǒng)應(yīng)該具有平臺獨立性,應(yīng)充分考慮使用開放性標準來確保相對獨立于硬件和軟件產(chǎn)品廠商,同時易于實現(xiàn)軟硬件系統(tǒng)集成。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第19頁。業(yè)務(wù)應(yīng)用類集成應(yīng)用集成是在不同的應(yīng)用系統(tǒng)之間實現(xiàn)功能的調(diào)用,通過應(yīng)用集成實現(xiàn)不同系統(tǒng)功能和信息共享;還有一類應(yīng)用集成是具有數(shù)據(jù)分析應(yīng)用的子項系統(tǒng)需要調(diào)用支撐平臺上面部署的統(tǒng)計分析工具提供的功能,實現(xiàn)工具的集中部署,分布應(yīng)用。這些功能的調(diào)用需要按照不同工具提供的訪問模式和信息交換格式進行。安全體系集成安全體系涉及系統(tǒng)的所有層面,集成時要通盤考慮。其中,網(wǎng)絡(luò)的安全管理和網(wǎng)絡(luò)建設(shè)息息相關(guān)。應(yīng)用安全體系和應(yīng)用系統(tǒng)的建設(shè)和集成關(guān)系緊密。XX行業(yè)大數(shù)據(jù)平臺要實現(xiàn)穩(wěn)定、持續(xù)運行,實現(xiàn)用戶認證、權(quán)限管理、數(shù)據(jù)安全備份和災(zāi)難性恢復(fù)等安全保障功能。功能性需求整體用例圖建設(shè)內(nèi)容通過對XX業(yè)務(wù)的梳理,本項目主要建設(shè)內(nèi)容分為以下幾個模塊:一體化網(wǎng)站:數(shù)據(jù)報送:網(wǎng)絡(luò)信息采集:整合企業(yè)資源物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第20頁。靈活可控的統(tǒng)計指標體系管理;物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第20頁。依據(jù)數(shù)據(jù)挖掘、機器學習平臺等實現(xiàn)對XX數(shù)據(jù)、倉儲數(shù)據(jù)的深度挖掘統(tǒng)計,實現(xiàn)數(shù)據(jù)統(tǒng)計可視化展示等。數(shù)據(jù)遷移:已有數(shù)據(jù)庫(包括數(shù)據(jù)庫和文件)完整移植(導入、校驗)等。方案設(shè)計建設(shè)目標項目以“技術(shù)引領(lǐng),應(yīng)用為本”為核心導向,以政企用戶為主要服務(wù)對象,以分布式并行計算框架為基礎(chǔ),充分應(yīng)用多元數(shù)據(jù)存儲、大規(guī)模數(shù)據(jù)檢索和智能文本挖掘、機器學習等先進技術(shù),構(gòu)建XX行業(yè)大數(shù)據(jù)平臺。大數(shù)據(jù)平臺包括數(shù)據(jù)預(yù)處理系統(tǒng)、海量數(shù)據(jù)存儲檢索、數(shù)據(jù)智能挖掘分析。數(shù)據(jù)預(yù)處理系統(tǒng)實現(xiàn)對多源數(shù)據(jù)的接入、預(yù)處理和數(shù)據(jù)入庫等功能;數(shù)據(jù)統(tǒng)一存儲在海量數(shù)據(jù)存儲檢索系統(tǒng)中,實現(xiàn)數(shù)據(jù)的統(tǒng)一存儲、管理、檢索等功能;同時,為應(yīng)用層提供數(shù)據(jù)智能挖掘分析服務(wù),及對數(shù)據(jù)進行準確分析,提供潛在的有價值的信息。設(shè)計理念物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第21頁。XX行業(yè)大數(shù)據(jù)平臺的建設(shè)應(yīng)當采?。骸爸贫ㄒ?guī)范——搭建框架——業(yè)務(wù)開發(fā)——集成”的模式,其中“制定規(guī)范、搭建框架”最為重要。具體的開發(fā)模式如下圖所示:物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第21頁。開發(fā)模式示意圖采用這種模式是出于以下幾點考慮:項目設(shè)計和建設(shè)過程中,必須加強標準化建設(shè),發(fā)揮標準化的指導、協(xié)調(diào)和優(yōu)化作用,少走彎路,提高效率,確保系統(tǒng)運行安全,發(fā)揮預(yù)期效能。平臺建設(shè)任務(wù)重、業(yè)務(wù)專業(yè)性強,要想高效地完成實施,必然要并行展開,分步實施。為此需要首先搭建整體框架。各個子系統(tǒng)的實施必須在整體框架中進行。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第22頁。行業(yè)大數(shù)據(jù)平臺面臨集成問題,包括新建各個業(yè)務(wù)系統(tǒng)的集成、與現(xiàn)有地方協(xié)會系統(tǒng)和其它部門的數(shù)據(jù)交換等。為此,采用首先搭建框架,在框架解決集成接口的問題,各個業(yè)務(wù)系統(tǒng)也通過框架接口與外部交互,從而統(tǒng)一了要集成系統(tǒng)與平臺的交互界面,簡化了業(yè)務(wù)系統(tǒng)的接口工作。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第22頁。大數(shù)據(jù)平臺建設(shè)是個不斷發(fā)展完善的過程,功能將會不斷修改、擴充,一個好的框架可以確保系統(tǒng)在修改、擴充時,影響范圍最小。設(shè)計原則大數(shù)據(jù)平臺建設(shè)要做到“兩結(jié)合一兼顧”。首先是技術(shù)先進性與成熟性相結(jié)合,既要保持一定時期內(nèi)技術(shù)領(lǐng)先性,又要實現(xiàn)系統(tǒng)運行的穩(wěn)定性。其次是應(yīng)用需求和客觀條件相結(jié)合,設(shè)計低成本高效用的建設(shè)方案,同時兼顧系統(tǒng)的可擴展性、可靠性、安全性等要求。實用性與可行性:根據(jù)業(yè)務(wù)需求,既要最大限度地滿足業(yè)務(wù)上的各項功能要求,又要確保實用性,具有良好的性能價格比;先進性:采用先進、成熟、實用的技術(shù),既要實現(xiàn)各業(yè)務(wù)部門的功能,又要確保在未來幾年內(nèi)其技術(shù)仍能滿足應(yīng)用發(fā)展的需求;開放性:采用的各種設(shè)備(軟、硬件)均應(yīng)符合通用標準,符合開放設(shè)計原則,使用的技術(shù)要與技術(shù)發(fā)展的潮流吻合,具有良好的開放性、技術(shù)延伸性、技術(shù)親合性,要充分考慮后期工程的需要。能夠滿足業(yè)務(wù)不斷增長的需求。在軟件、協(xié)議、服務(wù)和傳輸方面提供更多選擇,使用模塊化設(shè)計、集群分布方案,可根據(jù)需求變動適當取舍;安全性:保證數(shù)據(jù)的高安全性,從設(shè)備和技術(shù)上采取必要的防范措施(物理隔離、防火墻和防毒墻技術(shù)),使整個網(wǎng)站在受到有意、無意的非法侵入時,被破壞的可能達到最小程度;可靠性和容錯性:在設(shè)計中要考慮整體的可靠性,根據(jù)設(shè)備的功能、重要性等分別采用冗余、容錯等技術(shù),以保證局部的錯誤不影響整體運行;物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第23頁??缮炜s性:支持多種硬件平臺以及不斷發(fā)展的業(yè)務(wù)和用戶需求;物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第23頁。靈活性:易于修改,并可在軟件、協(xié)議、服務(wù)和傳輸方面提供更多選擇,使用模塊化設(shè)計方案,可根據(jù)需求變動適當取舍。可管理性:能夠?qū)崟r地管理網(wǎng)站運行,動態(tài)配置資源,構(gòu)成高效安全的運行環(huán)境,監(jiān)視系統(tǒng)中的錯誤,及時排除故障,使整個系統(tǒng)能夠堅持長時間的無故障運行;易維護性:系統(tǒng)的管理、維護和維修應(yīng)具有簡易性和可行性??傮w架構(gòu)設(shè)計根據(jù)大數(shù)據(jù)處理技術(shù)平臺項目的建設(shè)要求,總體架構(gòu)圖如下圖所示:系統(tǒng)架構(gòu)圖數(shù)據(jù)源:包括各子系統(tǒng)應(yīng)用數(shù)據(jù)、報送數(shù)據(jù)、網(wǎng)絡(luò)信息采集數(shù)據(jù)及系統(tǒng)運行數(shù)據(jù)等。大數(shù)據(jù)計算:包括數(shù)據(jù)清洗、數(shù)據(jù)入庫、數(shù)據(jù)計算、數(shù)據(jù)挖掘等。服務(wù)接口:web服務(wù)、rest服務(wù)、標準接口(包括API、HTTP、WebService、微服務(wù)等)。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第24頁。業(yè)務(wù)應(yīng)用:根據(jù)權(quán)限模型對各用戶(各業(yè)務(wù)部門、服務(wù)使用者及決策者等)提供高效完善的系統(tǒng)應(yīng)用服務(wù)。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第24頁。技術(shù)架構(gòu)設(shè)計技術(shù)架構(gòu)技術(shù)架構(gòu)主要包括數(shù)據(jù)集成、數(shù)據(jù)存儲、數(shù)據(jù)處理計算、數(shù)據(jù)智能挖掘分析。數(shù)據(jù)集成采用sqoop、flume、kettle等實現(xiàn)數(shù)據(jù)的接入、轉(zhuǎn)換、入庫等操作,同時采用文本挖掘系統(tǒng)對數(shù)據(jù)進行預(yù)處理操作。數(shù)據(jù)存儲采用Hadoop分布式文件系統(tǒng)(HDFS),分布式數(shù)據(jù)庫HBase進行數(shù)據(jù)存儲,并通過rdbms關(guān)系數(shù)據(jù)庫管理系統(tǒng)對關(guān)系型數(shù)據(jù)庫進行管理,支持海量數(shù)據(jù)存儲、高效索引和檢索等服務(wù)。數(shù)據(jù)處理計算基于yarn、zookeeper的Hadoop集群安裝,通過ooize、spark、hive等提供數(shù)據(jù)處理計算服務(wù)。數(shù)據(jù)智能挖掘分析物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第25頁。主要是實現(xiàn)大規(guī)模數(shù)據(jù)的挖掘分析功能,由實時計算框架(SparkStreaming)、離線計算框架(MapReduce)以分布式消息隊列(Kafka)、數(shù)據(jù)挖掘引擎(Mahout)構(gòu)成。針對數(shù)據(jù)特點,智能分析模型系統(tǒng)結(jié)合了業(yè)界最領(lǐng)先的技術(shù)提供豐富的數(shù)據(jù)挖掘、機器學習服務(wù),可以滿足各種數(shù)據(jù)處理存儲的應(yīng)用場景。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第25頁。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第26頁。整個系統(tǒng)中的各個分系統(tǒng)都提供接口服務(wù),接口方式包括包括API、HTTP、WebService、微服務(wù)等,通過接口的調(diào)用,可以靈活構(gòu)建豐富的上層系統(tǒng)功能應(yīng)用。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第26頁。網(wǎng)絡(luò)拓撲設(shè)計物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第27頁。平臺通過數(shù)據(jù)接收服務(wù)器接收不同數(shù)據(jù)源的數(shù)據(jù),接收到的數(shù)據(jù)會臨時落地,再經(jīng)由數(shù)據(jù)推送服務(wù)器創(chuàng)建數(shù)據(jù)推送任務(wù),調(diào)用預(yù)處理服務(wù)器的數(shù)據(jù)預(yù)處理子系統(tǒng)和智能分析服務(wù)器的智能分析子系統(tǒng)進行數(shù)據(jù)推送、數(shù)據(jù)處理及數(shù)據(jù)入庫服務(wù),數(shù)據(jù)入庫后進行數(shù)據(jù)存儲、索引,并可對外提供檢索服務(wù)和智能分析服務(wù)。各服務(wù)平臺均提供對外接口,供系統(tǒng)間及第三方平臺調(diào)用,接口詳細設(shè)計系統(tǒng)接口設(shè)計。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第27頁。系統(tǒng)非功能性設(shè)計跨平臺性大數(shù)據(jù)處理技術(shù)平臺具有跨平臺性,可以運行在常見操作系統(tǒng)(Windows或Linux)和應(yīng)用服務(wù)器中間件平臺上,支持私有云和公有云平臺部署。系統(tǒng)安全設(shè)計數(shù)據(jù)層安全物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第28頁。數(shù)據(jù)層的安全主要是指保護數(shù)據(jù)庫以防止不合法使用造成的數(shù)據(jù)泄露更改或者破壞,用來保證數(shù)據(jù)庫中數(shù)據(jù)的完整性,一致性以及數(shù)據(jù)庫備份與恢復(fù)。數(shù)據(jù)庫的安全性和計算機系統(tǒng)的安全性(包括操作系統(tǒng)、網(wǎng)絡(luò)系統(tǒng)的安全性)相互聯(lián)系,相互支持,只有各個環(huán)節(jié)都安全,才能保證數(shù)據(jù)庫的安全性。當前對數(shù)據(jù)庫安全的威脅主要分為物理上的威脅和邏輯上的威脅。物理上的威脅指水災(zāi)火災(zāi)等造成的硬件故障,從而導致數(shù)據(jù)的損壞和丟失等。為了消除物理上的威脅通常采用備份和恢復(fù)的策略。邏輯上的威脅主要是指對信息的未被授權(quán)的存取。為了消除邏輯上的威脅,DBMS必須提供可靠地安全側(cè)羅,以確保數(shù)據(jù)庫的安全性。當前所采用的數(shù)據(jù)庫安全技術(shù)主要有標志和鑒別、訪問控制、信息流控制、推理控制、審計和加密等,其中目前應(yīng)用最廣也最為有效的是訪問控制技術(shù)。訪問控制就是當主體請求對客體訪問時,系統(tǒng)根據(jù)主體(進程)的用戶和組的標識符、安全級和權(quán)限,客體的安全級、訪問權(quán)限以及存取訪問的檢查規(guī)則,決定是否允許主體對客體請求的存取訪問方式(讀、寫、修改、刪除、加入記錄等)的訪問。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第28頁。Web層安全Web層安全致力于解決諸如如何有效進行介入控制,以及如何保證數(shù)據(jù)傳輸?shù)陌踩缘募夹g(shù)手段,防護方法包括四個方面:防火墻、VPN、反病毒軟件,以及入侵檢測系統(tǒng)(IDS)。防火墻(作為阻塞點、控制點)能極大地提高一個內(nèi)部網(wǎng)絡(luò)的安全性,并通過過濾不安全的服務(wù)而降低風險。通過以防火墻為中心的安全方案配置,能將所有安全軟件(如口令、加密、身份認證、審計等)配置在防火墻上。與將網(wǎng)絡(luò)安全問題分散到各個主機上相比,防火墻的集中安全管理更經(jīng)濟。例如在網(wǎng)絡(luò)訪問時,一次一密口令系統(tǒng)和其它的身份認證系統(tǒng)完全可以不必分散在各個主機上,而集中在防火墻一身上。VPN是利用開放的公共網(wǎng)絡(luò)建立一個安全的專用數(shù)據(jù)傳輸通道,采用加密和認證技術(shù),利用公共通信網(wǎng)絡(luò)設(shè)施的一部分來發(fā)送專用信息,為相互通信的節(jié)點建立一個相對封閉的、邏輯的專用網(wǎng)絡(luò)。目前VPN主要采用4項技術(shù),分別是隧道技術(shù)、加解密技術(shù)、密鑰管理技術(shù)、使用者與設(shè)備身份鑒別技術(shù)。入侵檢測系統(tǒng)通過網(wǎng)絡(luò)上的所有報文,分析處理后,報告異常和重要的數(shù)據(jù)模式和行為模式。應(yīng)用層安全應(yīng)用層是開放系統(tǒng)的最高層,是直接為應(yīng)用進程提供服務(wù)的。其作用是在實現(xiàn)多個系統(tǒng)應(yīng)用進程相互通信的同時,完成一系列業(yè)務(wù)處理所需的服務(wù)。保障應(yīng)用層的安全包括使用FTP、SMTP、HTTP、DNS等協(xié)議。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第29頁。平臺開發(fā)及應(yīng)用安全防護設(shè)計物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第29頁。采用分層的體系架構(gòu),使得Web層、應(yīng)用層、數(shù)據(jù)層有效地分離,用戶不會直接訪問到核心數(shù)據(jù)庫系統(tǒng)。全文檢索、分析和發(fā)布系統(tǒng)基于EJB/J2EE技術(shù)平臺進行開發(fā),通過跨平臺的應(yīng)用服務(wù)保證系統(tǒng)能夠進行穩(wěn)定地部署,提高系統(tǒng)安全性。為了保證數(shù)據(jù)實時更新,以及符合動態(tài)權(quán)限管理要求,系統(tǒng)采用動態(tài)發(fā)布的方式,在系統(tǒng)后臺提供應(yīng)用程序。輔助提供密碼加密措施,即用戶信息、密碼等私密數(shù)據(jù)需要以密文方式存儲,即使黑客訪問到后臺數(shù)據(jù)庫,也無法獲得私人信息。提供用戶身份標識唯一和鑒別信息復(fù)雜度檢查功能,保證應(yīng)用系統(tǒng)中不存在重復(fù)用戶身份標識,身份鑒別信息不易被冒用。提供登錄失敗處理功能,可采取結(jié)束會話、限制非法登錄次數(shù)和自動退出等措施。啟用身份鑒別,用戶身份標識唯一性檢查、用戶身份鑒別信復(fù)雜度檢查以及登錄失敗處理功能,并根據(jù)安全策略配置相關(guān)參數(shù)。建立完整的系統(tǒng)管理、欄目授權(quán)認證體系、數(shù)據(jù)審核機制。采用權(quán)限管理機制,使得只有有權(quán)限的用戶才能對相關(guān)信息進行操作。并且,將操作的權(quán)限進行細分,可以對瀏覽、編輯、管理單獨授權(quán)物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第30頁。同時,在數(shù)據(jù)量增大的情況下,為了保證平臺能夠提供優(yōu)異的訪問性能,在系統(tǒng)設(shè)計中采用了自動分庫的手段,不同類型的分析數(shù)據(jù)分庫進行存放,這樣的設(shè)計模式一方面保證了分析工具不至于承擔很大的分析負荷,另一方面數(shù)據(jù)分庫存儲,也減少了數(shù)據(jù)庫被破壞的風險。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第30頁。備份和恢復(fù)根據(jù)數(shù)據(jù)要求及運行情況,提供本地數(shù)據(jù)備份與恢復(fù)功能,完全數(shù)據(jù)備份至少每天一次,備份介質(zhì)場外存放。本項目在不降低業(yè)務(wù)系統(tǒng)性能的條件下保證數(shù)據(jù)完整性、業(yè)務(wù)連續(xù)性、運行不間斷性和快速恢復(fù)性。備份方式:邏輯備份簡述:邏輯備份包括讀一個數(shù)據(jù)庫記錄集和將記錄集寫入一個文件中。這些記錄的讀出與其物理位置無關(guān)。備份模式:完全備份模式邏輯備份分為三種模式:表備份、用戶備份和完全備份。完全備份模式3種導出方式1.完全增量導出(CompleteExport)把整個數(shù)據(jù)庫文件導出備份。2.增量型增量導出(IncrementalExport)只備份上一次備份后改變的結(jié)果。3.累積型增量導出(CumulateExport)導出自上次完全增量導出后數(shù)據(jù)庫變化的信息。(三)備份方案采用下面的方式進行每天的增量備份。周一:完全備份(A);周二:增量導出(B);周三:增量導出(C);周四:增量導出(D);周五:累計導出(E);周六:增量導出(F);物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第31頁。周日:增量導出(G);物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第31頁。這樣可以保證每周數(shù)據(jù)的完整性,以及恢復(fù)時的快捷和最大限度的數(shù)據(jù)損失。系統(tǒng)穩(wěn)定性和高可用性設(shè)計系統(tǒng)的穩(wěn)定性、高可用性即數(shù)據(jù)報送子系統(tǒng)、數(shù)據(jù)采集子系統(tǒng)、數(shù)據(jù)預(yù)處理子系統(tǒng)、海量數(shù)據(jù)存儲檢索子系統(tǒng)、數(shù)據(jù)智能挖掘分析子系統(tǒng)等,各系統(tǒng)滿足7×24小時不間斷工作,不存在單點故障。數(shù)據(jù)預(yù)處理系統(tǒng)穩(wěn)定性和高可用性設(shè)計數(shù)據(jù)預(yù)處理服務(wù)器支持雙機備份,當主機發(fā)生宕機時,備機自動接管該服務(wù)器管理的數(shù)據(jù)處理任務(wù),以及遠程執(zhí)行引擎列表。由此保證了數(shù)據(jù)接入、轉(zhuǎn)換、入庫等操作的穩(wěn)定性和高可用性。接入數(shù)據(jù)后對數(shù)據(jù)進行預(yù)處理時使用文本挖掘系統(tǒng),同時對服務(wù)器進行任務(wù)的調(diào)度,當某一個服務(wù)器發(fā)生故障時,調(diào)度器會啟動另外一個服務(wù)器進行數(shù)據(jù)的預(yù)處理操作,實現(xiàn)了熱備,保證數(shù)據(jù)預(yù)處理環(huán)節(jié)的穩(wěn)定性和高可用性。海量數(shù)據(jù)存儲檢索系統(tǒng)穩(wěn)定性和高可用性設(shè)計物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第32頁。海量數(shù)據(jù)存儲檢索系統(tǒng)采用多副本機制,一個索引可由多個子集組成,分布在不同的節(jié)點上,實現(xiàn)分布式檢索;索引的各個子集可在不同的節(jié)點上存儲多個副本,索引子集多副本實現(xiàn)了容災(zāi)備份,避免單點故障,同時也實現(xiàn)了負載均衡,提高并發(fā)檢索能力。由此保證海量數(shù)據(jù)存儲檢索系統(tǒng)的穩(wěn)定性和高可用性。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第32頁。數(shù)據(jù)智能挖掘分析系統(tǒng)穩(wěn)定性和高可用性設(shè)計數(shù)據(jù)智能挖掘分析系統(tǒng)采用CKMSTA架構(gòu)對CKM服務(wù)器進行任務(wù)的調(diào)度,當某一個CKM服務(wù)器發(fā)生故障時,STA調(diào)度器會啟動另外一個CKM服務(wù)器進行數(shù)據(jù)的挖掘分析,實現(xiàn)了熱備,保證數(shù)據(jù)智能挖掘分析環(huán)節(jié)的穩(wěn)定性和高可用性。系統(tǒng)擴展性設(shè)計系統(tǒng)需要滿足至少6-8年使用需求,擴展性要求是系統(tǒng)設(shè)計需要首要考慮的問題,我們按照以下原則進行系統(tǒng)設(shè)計,以達到系統(tǒng)可靈活擴展?jié)M足隨著時間推移和技術(shù)進步等出現(xiàn)的新需求。1. 高效管理服務(wù)器的數(shù)量、性能系統(tǒng)提供自動管理機制滿足高效管理服務(wù)器數(shù)量靈活增加及性能控制。2. 快速提高存儲容量,加快響應(yīng)速度系統(tǒng)存儲容量可根據(jù)實際情況便捷、靈活擴展,以滿足要求和提高響應(yīng)速度。3. 保證功能模塊的獨立性,可根據(jù)用戶需求自由增刪模塊各模塊間采取松耦合方式運作,更有利于系統(tǒng)維護管理,相互間互不影響,并且可提高靈活配置和自由增刪模塊的便捷性。4. 與現(xiàn)行系統(tǒng)進行數(shù)據(jù)對接,實現(xiàn)數(shù)據(jù)的共享與交換系統(tǒng)提供二次開發(fā)接口,可靈活定制與其他系統(tǒng)進行數(shù)據(jù)對接和數(shù)據(jù)共享和交換。能夠?qū)⑵渌到y(tǒng)數(shù)據(jù)接入大數(shù)據(jù)平臺。低耦合設(shè)計物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第33頁。平臺總體軟件體系結(jié)構(gòu)遵循J2EE標準,運行在J2EE應(yīng)用服務(wù)器平臺上;采用面向服務(wù)體系結(jié)構(gòu)設(shè)計;系統(tǒng)采用三層架構(gòu)的體系結(jié)構(gòu),具有靈活的擴展性和良好的移植性。業(yè)務(wù)開發(fā)和建設(shè)遵循XML、WebService標準規(guī)范。大數(shù)據(jù)處理技術(shù)平臺各個系統(tǒng)都提供接口,以便于二次開發(fā)。各模塊間采取松耦合方式運作,更有利于系統(tǒng)維護管理,相互間互不影響,并且可提高靈活配置和自由增刪模塊的便捷性。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第33頁。系統(tǒng)的實用性該系統(tǒng)能達到好用、易用和實用的標準。實用性包括當前實用性和未來實用性。因此需要最大限度地滿足當前的業(yè)務(wù)需求,同時又要兼顧未來發(fā)展的需求。因此,應(yīng)采取總體設(shè)計、分步實施的技術(shù)路線,在總體設(shè)計的指導下,首先實現(xiàn)帶有普遍意義和具有核心價值的(用戶急需的)系統(tǒng)功能,并優(yōu)先實施系統(tǒng)可靠性設(shè)計。最終能與用戶的實際需求緊密聯(lián)系,同時也保障了系統(tǒng)擴充和升級的連貫性和平滑性。技術(shù)路線和關(guān)鍵技術(shù)平臺總體軟件體系結(jié)構(gòu)遵循J2EE標準,運行在J2EE應(yīng)用服務(wù)器平臺上;采用面向服務(wù)體系結(jié)構(gòu)設(shè)計;系統(tǒng)采用三層架構(gòu)的體系結(jié)構(gòu),具有靈活的擴展性和良好的移植性。業(yè)務(wù)開發(fā)和建設(shè)遵循XML、WebService標準規(guī)范。面向服務(wù)(SOA)的架構(gòu)物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第34頁。本項目總體應(yīng)用框架采用SAO架構(gòu),SOA是一種面向企業(yè)級服務(wù)的系統(tǒng)架構(gòu),簡單來說,SOA就是一種進行系統(tǒng)開發(fā)的新的體系架構(gòu),在基于SOA架構(gòu)的系統(tǒng)中,具體應(yīng)用程序的功能是由一些松耦合并且具有統(tǒng)一接口定義方式的組件(也就是service)組合構(gòu)建起來的。因此,基于SOA的架構(gòu)也一定是從企業(yè)的具體需求開始構(gòu)建的。但是,SOA和其它企業(yè)架構(gòu)的不同之處就在于SOA提供的業(yè)務(wù)靈活性。業(yè)務(wù)靈活性是指企業(yè)能對業(yè)務(wù)變更快速和有效地進行響應(yīng)、并且利用業(yè)務(wù)變更來得到競爭優(yōu)勢的能力。對企業(yè)級架構(gòu)設(shè)計師來說,創(chuàng)建一個業(yè)務(wù)靈活的架構(gòu)意味著創(chuàng)建一個可以滿足當前還未知的業(yè)務(wù)需求的IT架構(gòu)。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第34頁。利用基于SOA的系統(tǒng)構(gòu)建方法,一個基于SOA架構(gòu)的系統(tǒng)中的所有的程序功能都被封裝在一些功能模塊中,我們就是利用這些已經(jīng)封裝好的功能模塊組裝構(gòu)建我們所需要的程序或者系統(tǒng),而這些功能模塊就是SOA架構(gòu)中的不同的服務(wù)(services)。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第35頁。從面向服務(wù)的架構(gòu)(SOA)示意圖來看,SOA是一個典型的MVC模式的架構(gòu)。但是,與傳統(tǒng)方法相比,SOA更加強調(diào)以下優(yōu)勢:基于標準、松散耦合、共享服務(wù)、粗粒度和聯(lián)合控制。通過不斷地構(gòu)筑業(yè)務(wù)需要的各種標準服務(wù),實實在在地形成一個“服務(wù)倉庫“,按需服務(wù),最終實現(xiàn)業(yè)務(wù)自主。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第35頁。遵循XML數(shù)據(jù)標準內(nèi)容整合系統(tǒng)要求數(shù)據(jù)采用統(tǒng)一規(guī)范的標準,目前通常采用XML規(guī)范標準??蓴U展標記語言(XML)是Web上的數(shù)據(jù)通用語言。XML是一種開放的標準,XML語言不受任何實體的控制也不歸任何實體所有。XML可以擴展,XML標簽可以被任何人創(chuàng)建并被其他人所采用。它使開發(fā)人員能夠?qū)⒔Y(jié)構(gòu)化數(shù)據(jù),從許多不同的應(yīng)用程序傳遞到桌面,進行本地計算和演示。XML允許為特定應(yīng)用程序創(chuàng)建唯一的數(shù)據(jù)格式。它還是在服務(wù)器之間傳輸結(jié)構(gòu)化數(shù)據(jù)的理想格式。在系統(tǒng)應(yīng)用中使用XML技術(shù)有以下的優(yōu)勢:提供用于本地計算的數(shù)據(jù)傳遞到桌面的數(shù)據(jù)可以進行本地計算。XML分析器可以讀取數(shù)據(jù),并將它遞交給本地應(yīng)用程序(例如瀏覽器)進一步查看或處理。數(shù)據(jù)也可以由使用XML對象模型的腳本或其他編程語言來處理。向用戶提供正確的結(jié)構(gòu)化數(shù)據(jù)視圖傳遞到桌面的數(shù)據(jù)可以以多種方式表示。本地數(shù)據(jù)集,可以根據(jù)用戶喜好和配置等因素,以適當?shù)男问?,在視圖中動態(tài)表現(xiàn)給用戶。允許集成不同來源的結(jié)構(gòu)化數(shù)據(jù)一般情況下,使用代理,在中間層服務(wù)器上集成來自后端數(shù)據(jù)庫和其他應(yīng)用程序的數(shù)據(jù),使該數(shù)據(jù)能夠傳遞給桌面或者其他服務(wù)器,做進一步聚合、處理和分布。描述來自多種應(yīng)用程序的數(shù)據(jù)物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第36頁。由于XML是可擴展的,因此它可以用于描述來自多種應(yīng)用程序的數(shù)據(jù),從描述Web頁面集合到數(shù)據(jù)記錄。由于數(shù)據(jù)是自描述的,因此不需要數(shù)據(jù)的內(nèi)置描述,也能夠接收和處理數(shù)據(jù)。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第36頁。通過粒度更新來提高性能XML允許粒度更新。開發(fā)人員不必在每次有改動時都發(fā)送整個結(jié)構(gòu)化數(shù)據(jù)集。有了粒度更新后,只有改變的元素才必須從服務(wù)器發(fā)送到客戶機。改變的數(shù)據(jù)可以在不必刷新整個頁面或表的情況下顯示?;赪ebService技術(shù)WebService技術(shù)可以讓地理上分布在不同區(qū)域的計算機和設(shè)備一起工作,以便為用戶提供各種各樣的服務(wù)。用戶可以控制要獲取信息的內(nèi)容、時間、方式,而不必像現(xiàn)在這樣在無數(shù)個信息孤島中瀏覽,去尋找自己所需要的信息。從發(fā)展趨勢上看毫無疑問,WebService將成為下一代Web的主流技術(shù)。選擇WebService技術(shù)還基于如下的技術(shù)優(yōu)點:WebService是創(chuàng)建可互操作的分布式應(yīng)用程序的新平臺。WebService的主要目標是跨平臺的可互操作性。為了達到這一目標,WebService是完全基于XML、XSD等獨立于平臺、獨立于軟件供應(yīng)商的標準的。WebService在應(yīng)用程序跨平臺和跨網(wǎng)絡(luò)進行通信的時候是非常有用的。WebService非常適用于應(yīng)用程序集成、B2B和G2G集成、代碼和數(shù)據(jù)重用,以及通過Web進行客戶端和服務(wù)器的通信的場合即WebService技術(shù)對新一代因特網(wǎng)協(xié)議標準的支持是其他技術(shù)不能望其項背的,這也是WebService技術(shù)倍受推崇,并取得成功的原因所在。組件技術(shù)和模塊化構(gòu)造物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第37頁。組件是獨立于特定的程序設(shè)計語言和應(yīng)用系統(tǒng)、可重用和自包含的軟件成分,這些軟件成分可以很容易的被組合到更大的程序當中而不用考慮其本身的實現(xiàn)細節(jié)。在一個系統(tǒng)中,組件是一個可替換單元,因此,軟件系統(tǒng)更易于開發(fā)且具有更大的靈活性。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第37頁。組件技術(shù)是在面向?qū)ο蟮拈_發(fā)技術(shù)基礎(chǔ)上發(fā)展起來的,可以說是面向?qū)ο蠹夹g(shù)在系統(tǒng)設(shè)計級別上的延伸。與面向?qū)ο蠹夹g(shù)相比,組件技術(shù)繼承了面向?qū)ο蟮姆庋b性,而忽略了繼承性和多態(tài)性。組件是對象有機結(jié)合,不需要關(guān)心組件中的對象和實現(xiàn)細節(jié)。組件有其固定的特征,即軟件重用和互操作性、可擴展性、組件接口的穩(wěn)定性和組件基礎(chǔ)設(shè)施穩(wěn)固性而且無論是靜態(tài)還是動態(tài)的引用都可以穩(wěn)定的提供組件的功能和接口。同時系統(tǒng)采用模塊化構(gòu)造,具有良好的開放性、可擴展性,可以根據(jù)業(yè)務(wù)拓展需求不斷進行調(diào)整、組合、開拓新功能。反爬蟲機制網(wǎng)絡(luò)爬蟲,從功能上講一般分為數(shù)據(jù)采集,處理,儲存三個部分,是一個自動提取網(wǎng)頁的程序,它為搜索引擎從網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。但是當網(wǎng)絡(luò)爬蟲被濫用后,互聯(lián)網(wǎng)上就出現(xiàn)太多同質(zhì)的東西,原創(chuàng)得不到保護。由于本系統(tǒng)及網(wǎng)站涉及大量行業(yè)、統(tǒng)計信息,為最大程度保護數(shù)據(jù),需建立反爬蟲機制,可根據(jù)ip訪問頻率,瀏覽網(wǎng)頁速度,flash封裝,ajax混淆,js加密等技術(shù)來反對網(wǎng)絡(luò)爬蟲。網(wǎng)絡(luò)反爬蟲手段可分為兩種:一是從客戶端的角度進行反爬,二是從服務(wù)端進行反爬。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第38頁。從客戶端的角度進行反爬蟲,常見的如微博、QQ空間等復(fù)雜登陸流程和ajax動態(tài)加載,會讓爬蟲工程師的工作量增加,同時配合動態(tài)生成url,主要是動態(tài)生成構(gòu)成該url的key阻止爬蟲爬取。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第38頁。從服務(wù)器的角度進行反爬蟲可分為兩類。一類是實時反爬蟲方式,另外一種是非實時反爬蟲方式。實時的反爬蟲方式可以直接通過requestheaders頭信息阻擋一些簡單小爬蟲,配合通用的采用滑動時間窗口驗證,增加爬取成本。非實時的反爬蟲方式即在Nginx等WebServer中獲取所有IP的訪問記錄,或根據(jù)頁面嵌入的JS統(tǒng)計流量的數(shù)據(jù),基于這兩點拿流量統(tǒng)計記錄的IP和服務(wù)器日志記錄的IP進行比較,如果服務(wù)器日志里面某個IP發(fā)起了大量請求,但是流量統(tǒng)計里沒有,或者訪問量只有很少幾個,那么來源于該IP的請求則是爬蟲。爬蟲與反爬蟲是一個博弈的過程。爬蟲不能絕對的禁掉,只能盡可能的增加爬取成本,避免爬蟲對于正常業(yè)務(wù)的影響。反爬蟲的效果取決于使用的策略的復(fù)雜度,但是策略越復(fù)雜可能對于接口或者頁面的性能影響越大,因此需掌握好平衡度后實施。反反爬蟲采集行業(yè)信息、統(tǒng)計信息等采集是系統(tǒng)服務(wù)的基礎(chǔ),為更好的解放勞動力,實現(xiàn)信息的自動化采集是重要的手段,然而在采集過程中,目標網(wǎng)站大都設(shè)置反爬蟲策略,爬取難度增大,故需對此設(shè)置反反爬蟲策略以更好的爬取相關(guān)內(nèi)容。常見的反爬蟲策略及應(yīng)對方法如下:通過Headers反爬蟲物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第39頁。從用戶請求的Headers反爬蟲是最常見的反爬蟲策略。很多網(wǎng)站都會對Headers的User-Agent進行檢測,還有一部分網(wǎng)站會對Referer進行檢測(一些資源網(wǎng)站的防盜鏈就是檢測Referer)。遇到此反爬蟲機制時可以直接在爬蟲中添加Headers,將瀏覽器的User-Agent復(fù)制到爬蟲的Headers中;或者將Referer值修改為目標網(wǎng)站域名。對于檢測Headers的反爬蟲,在爬蟲中修改或者添加Headers即可繞過。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第39頁。基于用戶行為反爬蟲部分網(wǎng)站是通過檢測用戶行為,例如同一IP短時間內(nèi)多次訪問同一頁面,或者同一賬戶短時間內(nèi)多次進行相同操作。對于第一種情況,使用IP代理即可解決。首先需寫一個爬蟲程序,爬取網(wǎng)上公開的代理ip,檢測后保存起來,然后可以每請求幾次更換一個ip,這樣就能繞過第一種反爬蟲。對于第二種情況,可以在每次請求后隨機間隔幾秒再進行下一次請求。有些有邏輯漏洞的網(wǎng)站,可以通過請求幾次,退出登錄,重新登錄,繼續(xù)請求來繞過同一賬號短時間內(nèi)不能多次進行相同請求的限制。動態(tài)頁面的反爬蟲部分網(wǎng)站需要爬取的數(shù)據(jù)是通過ajax請求得到,或者通過JavaScript生成的。針對這種反爬蟲,首先用Firebug或者HttpFox對網(wǎng)絡(luò)請求進行分析,找到ajax請求,分析出具體的參數(shù)和響應(yīng)的具體含義,然后采用上面的方法,利用requests或者urllib2模擬ajax請求,對響應(yīng)的json進行分析得到需要的數(shù)據(jù)。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第40頁。部分網(wǎng)站會將ajax請求的所有參數(shù)全部加密以應(yīng)對爬蟲,造成無法構(gòu)造所需要的數(shù)據(jù)的請求,遇到此種網(wǎng)站,可采用selenium+phantomJS框架,調(diào)用瀏覽器內(nèi)核,并利用phantomJS執(zhí)行js來模擬人為操作以及觸發(fā)頁面中的js腳本。從填寫表單到點擊按鈕再到滾動頁面,全部都可以模擬,不考慮具體的請求和響應(yīng)過程,只是完完整整的把人瀏覽頁面獲取數(shù)據(jù)的過程模擬一遍。因為phantomJS就是一個沒有界面的瀏覽器,只是操控這個瀏覽器的不是人。利用selenium+phantomJS即可完成識別點觸式(12306)或者滑動式的驗證碼,對頁面表單進行暴力破解等,已完成數(shù)據(jù)的采集。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第40頁。業(yè)務(wù)流程控制建立靈活的業(yè)務(wù)流程控制,使信息中心可以隨著商業(yè)環(huán)境的變化而方便迅速的改變自身的業(yè)務(wù)流程。系統(tǒng)在配置階段,定義的流程在基于流程的信息系統(tǒng)中實施;在流程運行實施階段,業(yè)務(wù)流程開始利用在配置階段的內(nèi)容開始實施;在診斷階段,系統(tǒng)開始分析業(yè)務(wù)流程以發(fā)現(xiàn)其中的問題和需要改進的地方,在流程設(shè)計階段重新定義,往返循環(huán)不斷的優(yōu)化業(yè)務(wù)流程。業(yè)務(wù)流程的定義充分利用硬件環(huán)境的優(yōu)勢,將任務(wù)合理分配到User端和Server端來實現(xiàn),在流程定義階段,用戶只需定義組織結(jié)構(gòu),流程和表單就能夠完成流程的設(shè)計,流程頁面主要有兩種:1.表單頁表單頁的流程是根據(jù)信息中心的實際情況制定,流程表單也是根據(jù)實際情況進行后臺表的設(shè)計和前臺界面的繪制,這也是工作流的基本使用。2.接口頁接口頁是對于已有的頁面提供接口,使頁面在工作流系統(tǒng)中流轉(zhuǎn),使用接口頁真正實現(xiàn)了業(yè)務(wù)的隨需應(yīng)變,可以隨意的對于信息管理系統(tǒng)進行流程的按需設(shè)計按需管理。工作流配置流程模板管理工作流配置流程模板管理流程節(jié)點模板管理節(jié)點候選人管理節(jié)點場景配置異常流程處理發(fā)起流程根據(jù)模板初始化初始化表單數(shù)據(jù)初始化場景臨時保存流程保存代辦任務(wù)流程轉(zhuǎn)初始化場景節(jié)點候選人管理修改并保存流程物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第41頁。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第41頁。采用業(yè)務(wù)流程控制達到以下目標:實現(xiàn)可視化流程自定義功能,可以無限量的去添加流程,流程以列表的形式顯示,在流程列表中,可以修改、刪除所選定流程。實現(xiàn)工作流分類的增加、刪除和修改。針對審批表單的項目進行統(tǒng)計,包含按照時間段、業(yè)務(wù)類型、表單狀態(tài)等。系統(tǒng)支持純WEB的管理監(jiān)控工具,對于當前流程的審批狀態(tài)進行監(jiān)控。通過對流程的監(jiān)控可以讓用戶了解當前流程的進度。可以自定義的流程設(shè)定,使系統(tǒng)在易用性上有所增強,工作流引擎的引入加大了系統(tǒng)的實用性,用戶不需要再為變動的申請流程特意改變系統(tǒng)架構(gòu)。大數(shù)據(jù)處理分析技術(shù)云存儲系統(tǒng)設(shè)計物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第42頁。云存儲系統(tǒng)(分布式存儲系統(tǒng))采用通用X86架構(gòu)或ARM架構(gòu)存儲服務(wù)器作為硬件載體,而非自身定制化硬件實體,通過在其上部署自身的分布式軟件以實現(xiàn)分布式云存儲的功能。所有硬件設(shè)備,如存儲服務(wù)器、交換機、磁盤以及相應(yīng)的附件,均可在市場上采購,且不限于特定廠家或必須使用某種特定專有設(shè)備。分布式存儲軟件支持通過X86架構(gòu)或者ARM架構(gòu)的硬件,但又獨立于特定的硬件,而不是和特定硬件平臺或者設(shè)備綁定。云存儲系統(tǒng)具有高度可靠、性能優(yōu)異、無限容量、在線伸縮等特點。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第42頁。分布式存儲服務(wù)在性能和容量上需具備具有高擴展性和線性增長能力。支持多種擴容方式,可通過增加磁盤、服務(wù)節(jié)點以及磁盤柜等多種靈活的方式,實時對云存儲容量進行擴充,并且在動態(tài)擴容期間服務(wù)不中斷。分布式數(shù)據(jù)庫系統(tǒng)設(shè)計數(shù)據(jù)庫服務(wù)包括傳統(tǒng)的關(guān)系型數(shù)據(jù)庫服務(wù)和分布式數(shù)據(jù)庫。分布式數(shù)據(jù)庫系統(tǒng)使用計算機網(wǎng)絡(luò)將物理位置分散而管理和控制又需要不同程度集中的多個邏輯單位(通常是集中式數(shù)據(jù)庫系統(tǒng))連接起來,共同組成一個統(tǒng)一的數(shù)據(jù)庫系統(tǒng),因此,分布式數(shù)據(jù)庫系統(tǒng)可以看成是計算機網(wǎng)絡(luò)與數(shù)據(jù)庫系統(tǒng)的有機結(jié)合。結(jié)合大數(shù)據(jù)系統(tǒng)的特點,分布式數(shù)據(jù)庫服務(wù)主要可分為2種:第一種主要面向的是采用結(jié)構(gòu)化數(shù)據(jù)的關(guān)系型數(shù)據(jù)庫系統(tǒng)。第二種主要面向的是采用非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫系統(tǒng)。分布式計算架構(gòu)設(shè)計物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第43頁。分布式計算框架為用戶提供容易使用的并行編程模式、處理海量數(shù)據(jù)的處理框架,用于對大規(guī)模數(shù)據(jù)集的并行處理。處理能力可以通過增加或減少機器達到動態(tài)調(diào)整。分布式計算框架采用先進的容錯技術(shù),確保處理任務(wù)的可靠性,即使在異常情況下,如機器宕機、斷網(wǎng)的情況下,確保處理任務(wù)的實時性和準確性。分布式處理框架是建立在分布式存儲和分布式數(shù)據(jù)庫的基礎(chǔ)之上。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第43頁。安全保障體系設(shè)計大數(shù)據(jù)基礎(chǔ)平臺從數(shù)據(jù)、應(yīng)用和虛擬化三個層面對傳輸安全、存儲安全、恢復(fù)安全和審計安全進行控制,通過對流量的清洗和監(jiān)控以及基于計算、存儲和網(wǎng)絡(luò)的虛擬化技術(shù),實現(xiàn)多用戶之間的資源隔離,明晰安全邊界,降低系統(tǒng)的安全風險,確保用戶的隱私保護。與此同時,制定標準規(guī)范體系,提高標準化意識,發(fā)揮標準化的導向作用,在確保技術(shù)協(xié)調(diào)一致和整體效能實現(xiàn)的前提下,增強系統(tǒng)的擴展性、數(shù)據(jù)共享性和互聯(lián)互通性。HDFS分布式文件系統(tǒng)物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第44頁。分布式文件系統(tǒng)(DistributedFileSystem)是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連。分布式文件系統(tǒng)的設(shè)計基于客戶機/服務(wù)器模式。一個典型的網(wǎng)絡(luò)可能包括多個供多用戶訪問的服務(wù)器。分布式文件系統(tǒng)HDFS(HadoopDistributedFileSystem)是一個開源云處理平臺Hadoop框架的底層實現(xiàn)部分,適合運行在通用硬件上的分布式文件系統(tǒng),具有高容錯性,能提高吞吐量的數(shù)據(jù)訪問,非常適合于大規(guī)模數(shù)據(jù)集上的應(yīng)用。HDFS對外部客戶機而言,HDFS就像一個傳統(tǒng)的分級文件系統(tǒng)??梢詣?chuàng)建、刪除、移動或重命名文件等。但是HDFS的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的,這些節(jié)點包括NameNode(僅一個),它在HDFS內(nèi)部提供元數(shù)據(jù)服務(wù);DataNode,它為HDFS提供存儲塊。由于僅存在一個NameNode,因此這是HDFS的一個缺點(單點失?。4鎯υ贖DFS中的文件被分成塊,然后將這些塊復(fù)制到多個計算機中(DataNode)。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大?。ㄍǔ?4MB)和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標準的TCP/IP協(xié)議。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第44頁。MAP/REDUCE分布式并行數(shù)據(jù)處理MapReduce在HDFS的基礎(chǔ)上實現(xiàn)的并行框架,為用戶提供容易使用的并行編程模式,MapReduce處理包括兩個階段,Map(映射)階段和Reduce(規(guī)范)階段。首先,Map函數(shù)把一組(Key,Value)輸入,映射為一組中間結(jié)果(Key,Value),然后通過Reduce函數(shù)把具有相同Key值的中間結(jié)果,進行合并化簡。MapReduce將處理作業(yè)分成許多小的單元,同時數(shù)據(jù)也會被HDFS分為多個Block,并且每個數(shù)據(jù)塊被復(fù)制多份,保證系統(tǒng)的可靠性,HDFS按照一定的規(guī)則將數(shù)據(jù)塊放置在集群中的不同機器上,以便MapReduce在數(shù)據(jù)宿主機器上進行處理。Spark實時計算框架Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎,Spark擁有HadoopMapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第45頁。SparkStreaming構(gòu)建在Spark上,基本原理是將Stream數(shù)據(jù)分成小的時間片斷(幾秒),以類似批量處理的方式來處理這小部分數(shù)據(jù)。優(yōu)點在于,第一Spark可以低延遲執(zhí)行(100ms+),另一方面相比基于Record的其它處理框架(如Storm),一部分窄依賴的RDD數(shù)據(jù)集可以從源數(shù)據(jù)重新計算達到容錯處理目的。此外小批量處理的方式使得它可以同時兼容批量和實時數(shù)據(jù)處理的邏輯和算法。方便了一些需要歷史數(shù)據(jù)和實時數(shù)據(jù)聯(lián)合分析的特定應(yīng)用場合。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第45頁。ZOOKEEPER協(xié)調(diào)調(diào)度系統(tǒng)ZOOKEEPER是一個針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標就是封裝好復(fù)雜易出錯的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。Zookeeper分為2個部分:服務(wù)器端和客戶端,客戶端只連接到整個ZooKeeper服務(wù)的某個服務(wù)器上??蛻舳耸褂貌⒕S護一個TCP連接,通過這個連接發(fā)送請求、接受響應(yīng)、獲取觀察的事件以及發(fā)送心跳。啟動Zookeeper服務(wù)器集群環(huán)境后,多個Zookeeper服務(wù)器在工作前會選舉出一個Leader,在接下來的工作中這個被選舉出來的Leader死了,而剩下的Zookeeper服務(wù)器會知道這個Leader死掉了,在活著的Zookeeper集群中會繼續(xù)選出一個Leader,選舉出leader的目的是為了可以在分布式的環(huán)境中保證數(shù)據(jù)的一致性。如圖所示:物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第46頁。另外,ZooKeeper支持watch(觀察)的概念??蛻舳丝梢栽诿總€znode結(jié)點上設(shè)置一個觀察。如果被觀察服務(wù)端的znode結(jié)點有變更,那么watch就會被觸發(fā),這個watch所屬的客戶端將接收到一個通知包被告知結(jié)點已經(jīng)發(fā)生變化。若客戶端和所連接的ZooKeeper服務(wù)器斷開連接時,其他客戶端也會收到一個通知,也就說一個Zookeeper服務(wù)器端可以對于多個客戶端,當然也可以多個Zookeeper服務(wù)器端可以對于多個客戶端。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第46頁。大數(shù)據(jù)分析大數(shù)據(jù)分析需建立相應(yīng)的統(tǒng)計分析模型,大數(shù)據(jù)建模是通過多個學科技術(shù)融合,實現(xiàn)數(shù)據(jù)的抽取、管理和分析,達到發(fā)現(xiàn)新知識和規(guī)律的目的,其步驟包含模型建立、模型訓練、模型驗證、模型預(yù)測,利用數(shù)據(jù)挖掘進行數(shù)據(jù)分析常用的方法主要有分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等,它們分別從不同的角度對數(shù)據(jù)進行挖掘。分類:分類是找出數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別。它可以應(yīng)用到用戶的分類、用戶的屬性和特征分析、用戶滿意度分析等,如一個XX企業(yè)將用戶按照對XX的速度、價格等因素劃分成不同的類,這樣營銷人員就可以將廣告手冊直接郵寄到相關(guān)用戶手中,從而大大增加了商業(yè)機會。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第47頁?;貧w分析:回歸分析方法反映的是事務(wù)數(shù)據(jù)庫中屬性值在時間上的特征,產(chǎn)生一個將數(shù)據(jù)項映射到一個實值預(yù)測變量的函數(shù),發(fā)現(xiàn)變量或?qū)傩蚤g的依賴關(guān)系,其主要研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預(yù)測以及數(shù)據(jù)間的相關(guān)關(guān)系等。它可以應(yīng)用到市場營銷的各個方面,如客戶尋求、保持和預(yù)防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預(yù)測及有針對性的促銷活動等。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第47頁。聚類:聚類分析是把一組數(shù)據(jù)按照相似性和差異性分為幾個類別,其目的是使得屬于同一類別的數(shù)據(jù)間的相似性盡可能大,不同類別中的數(shù)據(jù)間的相似性盡可能小。它可以應(yīng)用到客戶群體的分類、客戶背景分析、市場的細分等。關(guān)聯(lián)規(guī)則:關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在的關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項的出現(xiàn)可導出另一些項在同一事務(wù)中也出現(xiàn),即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。在客戶關(guān)系管理中,通過對企業(yè)的大量數(shù)據(jù)進行挖掘,可以從大量的記錄中發(fā)現(xiàn)有趣的關(guān)聯(lián)關(guān)系,找出影響市場的關(guān)鍵因素,為決策支持提供參考依據(jù)。特征:特征分析是從數(shù)據(jù)庫中的一組數(shù)據(jù)中提取出關(guān)于這些數(shù)據(jù)的特征式,這些特征式表達了該數(shù)據(jù)集的總體特征。如通過對客戶流失因素的特征提取,可以得到導致客戶流失的一系列原因和主要特征,利用這些特征可以有效地預(yù)防客戶的流失。變化和偏差分析:偏差包括很大一類潛在有趣的知識,如分類中的反常實例,模式的例外,觀察結(jié)果對期望的偏差等,其目的是尋找觀察結(jié)果與參照量之間有意義的差別。在企業(yè)危機管理及其預(yù)警中,管理者更感興趣的是那些意外規(guī)則。意外規(guī)則的挖掘可以應(yīng)用到各種異常信息的發(fā)現(xiàn)、分析、識別、評價和預(yù)警等方面。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第48頁。Web頁挖掘:隨著Internet的迅速發(fā)展及Web的全球普及,使得Web上的信息量無比豐富,通過對Web的挖掘,可以利用Web的海量數(shù)據(jù)進行分析,收集政治、經(jīng)濟、科技、金融、市場等有關(guān)的信息,集中精力分析和處理對行業(yè)有重大或潛在重大影響的外部環(huán)境信息和內(nèi)部信息,并根據(jù)分析結(jié)果找出管理過程中出現(xiàn)的各種問題和可能引起危機的先兆,對這些信息進行分析和處理,以便識別、分析、評價和管理危機。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第48頁。模型的建立是一個反復(fù)的過程,需要仔細考察不同的模型及分析方法以判斷哪個模型對問題研究最有利,此部分工作需結(jié)合各部門業(yè)務(wù)及應(yīng)用需要。機器學習機器學習的主旨是使用計算機模擬人類的學習活動,它是研究計算機識別現(xiàn)有知識、獲取新知識、不斷改善性能和實現(xiàn)自身完善的方法。學習意味著從數(shù)據(jù)中學習,通過對已知的樣本進行訓練得到算法模型,然后對未知樣本的度量結(jié)果(或者標簽)進行預(yù)測。機器學習處理過程基于大數(shù)據(jù)的機器學習物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第49頁。傳統(tǒng)的機器學習算法,由于技術(shù)和單機存儲的限制,只能在少量數(shù)據(jù)上使用,機器學習依賴于數(shù)據(jù)抽樣,而實際中樣本往往很難做好隨機,導致學習模型不是很準確,在測試數(shù)據(jù)上效果存在偏差。隨著HDFS等分布式文件系統(tǒng)出現(xiàn),存儲海量數(shù)據(jù)成為可能。XX行業(yè)大數(shù)據(jù)平臺采用sparkmllib及TensorFlow實現(xiàn)機器學習。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第49頁。Spark機器學習庫MLLibSpark提供了一個基于海量數(shù)據(jù)的ML庫(MLLib),MLLib提供了常用機器學習算法的分布式實現(xiàn),可以通過調(diào)用相應(yīng)的API來實現(xiàn)基于海量數(shù)據(jù)的ML過程。其次,Spark-Shell的即席查詢使得工程師可以邊寫代碼,邊運行,邊看結(jié)果。MLlib(Spark的機器學習庫)旨在簡化機器學習的工程實踐工作,并方便擴展到更大規(guī)模。MLlib由一些通用的學習算法和工具組成,包括分類、回歸、聚類、協(xié)同過濾、降維等,同時還包括底層的優(yōu)化原語和高層的管道API。具體來說,其主要包括以下幾方面的內(nèi)容:算法工具:常用的學習算法,如分類、回歸、聚類和協(xié)同過濾;特征化公交:特征提取、轉(zhuǎn)化、降維和選擇公交;管道(Pipeline):用于構(gòu)建、評估和調(diào)整機器學習管道的工具;持久性:保存和加載算法,模型和管道;實用工具:線性代數(shù),統(tǒng)計,數(shù)據(jù)處理等工具。使用MLPipelineAPI可以很方便的把數(shù)據(jù)處理,特征轉(zhuǎn)換,正則化,以及多個機器學習算法聯(lián)合起來,構(gòu)建一個單一完整的機器學習流水線。TensorFlowTensorFlow是基于DistBelief進行研發(fā)的人工智能學習系統(tǒng),Tensor(張量)意味著N維數(shù)組,F(xiàn)low(流)意味著基于數(shù)據(jù)流圖的計算,TensorFlow為張量從流圖的一端流動到另一端計算過程。TensorFlow是將復(fù)雜的數(shù)據(jù)結(jié)構(gòu)傳輸至人工智能神經(jīng)網(wǎng)中進行分析和處理過程的系統(tǒng)。其使用方式包含:物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第50頁。使用圖(graph)

來表示計算任務(wù)物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第50頁。使用

tensor

表示數(shù)據(jù)通過變量(Variable)

維護狀態(tài)使用

feed

fetch

可以為任意的操作(arbitraryoperation)賦值或者從其中獲取數(shù)據(jù)自然語言處理基于大數(shù)據(jù)分析、機器學習技術(shù),對采集數(shù)據(jù)、行業(yè)數(shù)據(jù)等進行文本處理,包括自動分詞、關(guān)鍵詞提取、文本摘要、命名實體識別、自動分類、拼音檢索、短語檢索等。自動分詞系統(tǒng)在接入數(shù)據(jù)后進行預(yù)處理時可采用分詞技術(shù)對文本內(nèi)容進行分詞,分詞是指將文本切分成詞語,在詞語切分的基礎(chǔ)上可以方便地進行各種文本挖掘工作。采用基于規(guī)則與統(tǒng)計相結(jié)合的分詞技術(shù),將中文的漢字序列切分成有意義的詞,能夠支持多種詞典,并保證分詞的快速性、準確性與實用性;可應(yīng)用于文獻檢索、搜索引擎等諸多領(lǐng)域,提高檢索的相關(guān)性排序的準確度等。主要功能還包括:1.將文本進行切割形成分詞效果2.用戶可自行定義分詞的分隔符3.分詞結(jié)果可以連同詞性一起作為結(jié)果顯示關(guān)鍵詞提取物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第51頁。在接入數(shù)據(jù)后進行預(yù)處理時可采用關(guān)鍵詞提取技術(shù)對文本的關(guān)鍵詞進行提取等操作,可自定義關(guān)鍵詞個數(shù),保證關(guān)鍵詞提取的快速性和準確性。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第51頁。文本摘要在接入數(shù)據(jù)后進行預(yù)處理時可采用摘要技術(shù)對文本的摘要進行提取等操作,通過調(diào)節(jié)摘要百分比控制摘要占文章的長度的百分比,保證文本摘要的快速性和準確性。命名實體識別實體識別技術(shù)主要是對文本的實體詞進行識別操作,對文本抽取出其中包含的人名、地名、組織機構(gòu)名、身份證號碼、電話、時間、Email、車牌號、專有名詞等實體信息?;谝?guī)則與統(tǒng)計相結(jié)合的技術(shù),從非結(jié)構(gòu)的文本信息中抽取有意義的實體信息,保證命名實體識別的快速性和準確性,被抽取的實體信息以結(jié)構(gòu)化的形式進行描述,并可以存入結(jié)構(gòu)化數(shù)據(jù)庫中,供分析和利用。自動分類文本自動分類技術(shù)支持兩種分類方式:基于內(nèi)容的文本自動分類和基于規(guī)則的文本分類。自動分類支持置信度限制,可根據(jù)置信度對分類的結(jié)果進行過濾,支持分類結(jié)果和置信度共同輸出?;谝?guī)則的文本分類可輸入相關(guān)分類規(guī)則,如按行業(yè)、地域等,系統(tǒng)能基于規(guī)則實現(xiàn)類別的劃分。分類可同時使用,滿足自動分類的快速性、準確性。文本內(nèi)容抽取物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第52頁。文本內(nèi)容抽取可將doc、pdf等文檔文件中的文字內(nèi)容進行抽取,即提取文檔的純文本數(shù)據(jù)。支持多種抽取服務(wù),并可以進行擴展,適應(yīng)在不同條件下,使用不同的抽取服務(wù),也可以輪詢多種服務(wù),直到成功為止。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第52頁。數(shù)據(jù)入庫數(shù)據(jù)經(jīng)過接入、處理后對數(shù)據(jù)進行入庫操作,為后續(xù)的統(tǒng)計分析及可視化提供基礎(chǔ)的數(shù)據(jù)源。支持多線程裝庫,保證數(shù)據(jù)入庫快速高效、數(shù)據(jù)完整性、一致性。支持數(shù)據(jù)入庫到多種關(guān)系型數(shù)據(jù)庫中,包括MySQL、SQLServer、DB2、Oracle、Sybase等常見數(shù)據(jù)庫類型。數(shù)據(jù)可視化基本概念數(shù)據(jù)可視化,是關(guān)于數(shù)據(jù)視覺表現(xiàn)形式的科學技術(shù)研究??梢暬夹g(shù)是利用計算機圖形學及圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像形式顯示到屏幕上,并進行交互處理的理論、方法和技術(shù)。它涉及計算機視覺、圖像處理、計算機輔助設(shè)計、計算機圖形學等多個領(lǐng)域,成為一項研究數(shù)據(jù)表示、數(shù)據(jù)處理、決策分析等問題的綜合技術(shù)。其基本概念包含以下維度:1)數(shù)據(jù)空間。由n維屬性、m個元素共同組成的數(shù)據(jù)集構(gòu)成的多維信息空間。2)數(shù)據(jù)開發(fā)。利用一定的工具及算法對數(shù)據(jù)進行定量推演及計算。3)數(shù)據(jù)分析。對多維數(shù)據(jù)進行切片、塊、旋轉(zhuǎn)等動作剖析數(shù)據(jù),從而可以多角度多側(cè)面的觀察數(shù)據(jù)。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第53頁。4)數(shù)據(jù)可視化。將大型數(shù)據(jù)集中的數(shù)據(jù)通過圖形圖像方式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第53頁。數(shù)據(jù)可視化標準為實現(xiàn)信息的有效傳達,數(shù)據(jù)可視化應(yīng)兼顧美學與功能,直觀的傳達出關(guān)鍵的特征,便于挖掘數(shù)據(jù)背后隱藏的價值??梢暬夹g(shù)應(yīng)用標準應(yīng)該包含以下4個方面:1)直觀化。將數(shù)據(jù)直觀、形象的呈現(xiàn)出來。2)關(guān)聯(lián)化。突出的呈現(xiàn)出數(shù)據(jù)之間的關(guān)聯(lián)性。3)藝術(shù)性。使數(shù)據(jù)的呈現(xiàn)更具有藝術(shù)性,更加符合審美規(guī)則。4)交互性。實現(xiàn)用戶與數(shù)據(jù)的交互,方便用戶控制數(shù)據(jù)。數(shù)據(jù)可視化數(shù)據(jù)可視化允許利用圖形、圖像處理、計算機視覺以及用戶界面,通過表達、建模以及對立體、表面、屬性以及動畫的顯示,對數(shù)據(jù)加以可視化解釋。數(shù)據(jù)可視化技術(shù)的基本思想,是將數(shù)據(jù)庫中每一個數(shù)據(jù)項作為單個圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時將數(shù)據(jù)的各個屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對數(shù)據(jù)進行更深入的觀察和分析??梢暬瘮?shù)據(jù)通常分為:一維數(shù)據(jù)、二維數(shù)據(jù)、三維數(shù)據(jù)、高維數(shù)據(jù)、時態(tài)數(shù)據(jù)、層次數(shù)據(jù)和網(wǎng)絡(luò)數(shù)據(jù)。其中一維數(shù)據(jù)較為簡單,為直觀的展示,二維數(shù)據(jù)、三維數(shù)據(jù)應(yīng)用最為廣泛,高維數(shù)據(jù)、層次數(shù)據(jù)、網(wǎng)絡(luò)數(shù)據(jù)、時態(tài)數(shù)據(jù)則處于發(fā)展前期。一維數(shù)據(jù)就是一條線,線上的每個點可以用一個數(shù)值來表示。如:a1:A99,B:B(A1:A99就如同數(shù)學里的線段,它是直線的一段,B:B就是直線化的數(shù)據(jù))。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第54頁。二維數(shù)據(jù)就是一組平面化的數(shù)據(jù),平面中的某個點的位置可以用兩個坐標值來表示,如:A1:E5,A:D。常見的二維數(shù)據(jù)表示方法如柱形圖、條形圖等。物流大數(shù)據(jù)平臺可行性研究報告全文共69頁,當前為第54頁。三維數(shù)據(jù)是一個立方體,立方體內(nèi)的某個位置需要三個坐標值來表示,是多個二維平面數(shù)據(jù)的層疊,就如同若干張紙(二維的面)形成一本書(立體三維),常見的如氣泡圖、熱力圖等。高維數(shù)據(jù)是指每一個樣本數(shù)據(jù)包含p(p≥4)維空間特征。如果單從高維數(shù)據(jù)的抽象數(shù)據(jù)值上進行分析很難得到有用的信息。相對于對數(shù)據(jù)的高維模擬,低維空間的可視化技術(shù)顯得更簡單、直截。而且高維空間包含的元素相對于低維空間來說更加更復(fù)雜,容易造成人們的分析混亂。將高維數(shù)據(jù)信息映射到二三維空間上,方便高維數(shù)據(jù)進行人與數(shù)據(jù)的交互,有助于對數(shù)據(jù)進行聚類以及分類。層次數(shù)據(jù)具有等級或?qū)蛹夑P(guān)系。層次數(shù)據(jù)的可視化方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論