大數(shù)據(jù)應(yīng)用項目解決方案_第1頁
大數(shù)據(jù)應(yīng)用項目解決方案_第2頁
大數(shù)據(jù)應(yīng)用項目解決方案_第3頁
大數(shù)據(jù)應(yīng)用項目解決方案_第4頁
大數(shù)據(jù)應(yīng)用項目解決方案_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)應(yīng)用解決方案目錄888913大數(shù)據(jù)應(yīng)用闡述13大數(shù)據(jù)應(yīng)用架構(gòu)14大數(shù)據(jù)行業(yè)應(yīng)用14醫(yī)療行業(yè)14能源行業(yè)15通信行業(yè)15161717171717..PAGEPAGE40/4017181819202121導(dǎo)入/22統(tǒng)計/2222-Hadoop22的組成23的優(yōu)點:25。25。25高效性。25高容錯性。25的不足26"26IBMInfoSphere3.3.2.6.OracleBigDataApplianc283.3.2.7.MicrosoftSQLServer283.3.2.8.SybaseIQ29其他"292930大數(shù)據(jù)"3031313132將加速發(fā)展323232333334343434343434353536363737錯誤未定義書簽。38平臺技術(shù)路線錯誤!未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。平臺性能要求錯誤!未定義書簽。錯誤未定義書簽。錯誤未定義書簽。平臺數(shù)據(jù)流程錯誤!未定義書簽。平臺業(yè)務(wù)主流程錯誤!未定義書簽。短信下發(fā)審批流程錯誤!未定義書簽。信令分析處理流程錯誤!未定義書簽。短信發(fā)送流程錯誤!未定義書簽。錯誤未定義書簽。信令分析子系統(tǒng)錯誤!未定義書簽。短信發(fā)送子系統(tǒng)錯誤!未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。管理子系統(tǒng)錯誤!未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。內(nèi)容數(shù)據(jù)庫子系統(tǒng)錯誤!未定義書簽。錯誤未定義書簽。信令采集接口錯誤!未定義書簽。錯誤未定義書簽。錯誤未定義書簽。短信發(fā)送接口錯誤!未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽?;疚恢眯畔⒔涌阱e誤!未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。39錯誤未定義書簽。3939X圍錯誤未定義書簽。方案特點錯誤未定義書簽。錯誤未定義書簽。系統(tǒng)關(guān)系錯誤未定義書簽。40錯誤未定義書簽。Web錯誤未定義書簽。數(shù)據(jù)采集錯誤未定義書簽。業(yè)務(wù)分析錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。錯誤未定義書簽。界面功能介紹錯誤!未定義書簽。錯誤未定義書簽。錯誤未定義書簽。Portal錯誤未定義書簽。錯誤未定義書簽。大數(shù)據(jù)概述概述大數(shù)據(jù),IT行業(yè)的又一次技術(shù)變革,大數(shù)據(jù)的浪潮洶涌而至,對國家治理、決策和個人生活都在產(chǎn)生深遠(yuǎn)的影響,并將成為云計算、物聯(lián)網(wǎng)之后信息技術(shù)產(chǎn)。未來的十年將是一個"大數(shù)據(jù)"引領(lǐng)的智慧科技的時代、隨著社交網(wǎng)絡(luò)的逐漸成熟,移動帶寬迅速提升、云計算、物聯(lián)網(wǎng)應(yīng)用更加豐富、更多的傳感設(shè)備、移動終端接入到網(wǎng)絡(luò),由此而產(chǎn)生的數(shù)據(jù)與增長速度將比歷史上的任何時期都要多、都要快。數(shù)據(jù)技術(shù)發(fā)展歷史如圖一所示:圖一大數(shù)據(jù)定義"大數(shù)據(jù)"是一個涵蓋多種技術(shù)的概念,簡單地說,是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。IBM將"大數(shù)據(jù)"念定義為4個即大量化多樣化快速化與由此產(chǎn)生的價值如圖二;圖二要理解大數(shù)據(jù)這一概念,首先要從"大"入手,"大"是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在10TB<1TB=1024GB>規(guī)模以上的數(shù)據(jù)量。大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,4V來總結(jié)、、Value即體量大、多樣性、價值密度低、速度快。數(shù)據(jù)體量巨大。TB級別,PB級別。數(shù)據(jù)類型繁多,如前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息,等等。價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,有一兩秒。處理速度快。1秒定律。最后這一點也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以與遍布地球各個角落的各種各樣的傳感器,源或者承載的方式。大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中,快速獲得有價值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的"大數(shù)據(jù)"不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過解決巨量數(shù)據(jù)處理問題促進(jìn)其突破性發(fā)展。因此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時代發(fā)展的前沿。大數(shù)據(jù)技術(shù)發(fā)展大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和構(gòu)架,用于以很經(jīng)濟(jì)的方式、以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價值,而且未來急劇增長的數(shù)據(jù)迫切需要尋求新的處理技術(shù)手段。如圖三所示:圖三在"大數(shù)據(jù)"<Bigdata>時代,通過互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、物聯(lián)網(wǎng),人們能夠與時全面地獲得大信息。同時,信息自身存在形式的變化與演進(jìn),體的數(shù)據(jù)以遠(yuǎn)超人們想象的速度迅速膨脹。云時代的到來使得數(shù)據(jù)創(chuàng)造的主體由企業(yè)逐漸轉(zhuǎn)向個體,而個體所產(chǎn)生的絕大部分?jǐn)?shù)據(jù)為圖片、文檔、視頻等非結(jié)構(gòu)化數(shù)據(jù)。信息化技術(shù)的普與使得企業(yè)更多的辦公流程通過網(wǎng)絡(luò)得以實現(xiàn),由此產(chǎn)生的數(shù)據(jù)也以非結(jié)構(gòu)化數(shù)據(jù)為主20xx,75%以上。的"大數(shù)據(jù)",往往是這些非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)倉庫系統(tǒng)、BI、鏈路挖掘等應(yīng)用對數(shù)據(jù)處理的時間要求往往以小時或天為單位。但"大數(shù)據(jù)"應(yīng)用突出強(qiáng)調(diào)數(shù)據(jù)處理的實時性。在線個性化推薦、股票交易處理、實時路況信息等數(shù)據(jù)處理時間要求在分鐘甚至秒級。Gartner將"大數(shù)據(jù)"20xx對眾多公司和組織機(jī)構(gòu)具有戰(zhàn)略意義的十大技術(shù)與趨勢之一,而其他領(lǐng)域的研究,如云計算、一代分析、內(nèi)存計算等也都與"大數(shù)據(jù)"。Gartner在其新興技術(shù)成熟度曲線中將"大數(shù)據(jù)"技術(shù)視為轉(zhuǎn)型技術(shù)這意味著"大數(shù)據(jù)"5年內(nèi)進(jìn)入主流。而"大數(shù)據(jù)"的多樣性決定了數(shù)據(jù)采集來源的復(fù)雜性,從智能傳感器到社交網(wǎng)絡(luò)數(shù)據(jù),從聲音圖片到在線交易數(shù)據(jù),可能性是無窮無盡的。選擇正確的數(shù)據(jù)來源并進(jìn)行交叉分析可以為企業(yè)創(chuàng)造最顯著的利益。隨著數(shù)據(jù)源的爆發(fā)式增長,數(shù)據(jù)的多樣性成為"大數(shù)據(jù)"應(yīng)用亟待解決的問題。例如如何實時地與通過各種數(shù)據(jù)庫管理系統(tǒng)來安全地訪問數(shù)據(jù),如何通過優(yōu)化存儲策略,評估當(dāng)前的數(shù)據(jù)存儲技術(shù)并改進(jìn)、加強(qiáng)數(shù)據(jù)存儲能力,最大限度地利用現(xiàn)有的存儲投資。從某種意義上說,數(shù)據(jù)將成為企業(yè)的核心資產(chǎn)。"大數(shù)據(jù)"不僅是一場技術(shù)變革,更是一場商業(yè)模式變革。在"大數(shù)據(jù)"概念提出之前,盡管互聯(lián)網(wǎng)為傳統(tǒng)企業(yè)提供了一個新的銷售渠道,但總體來看,二者平行發(fā)展,鮮有交集。我們可以看到,無論是Google通過分析用戶個人信息,根據(jù)用戶偏好提供精準(zhǔn)廣告,還是Facebook將用戶的線下社會關(guān)系遷移在線上,半真實的實名帝國,但這些商業(yè)和消費模式仍不能脫離互聯(lián)網(wǎng),傳統(tǒng)企業(yè)仍無法嫁接到互聯(lián)網(wǎng)中。同時,傳統(tǒng)企業(yè)通過傳統(tǒng)的用戶分析工具卻很難獲得大X圍用戶的真實需求。企業(yè)從大規(guī)模制造過渡到大規(guī)模定制,必須掌握用戶的需求特點。在互聯(lián)網(wǎng)時代,這些需求特征往往是在用戶不經(jīng)意的行為中透露出來的。通過對信息進(jìn)行關(guān)聯(lián)、參照、聚類、分類等方法分析,才能得到答案。"大數(shù)據(jù)"在互聯(lián)網(wǎng)與傳統(tǒng)企業(yè)間建立一個交集。它推動互聯(lián)網(wǎng)企業(yè)融合進(jìn)傳統(tǒng)企業(yè)的供應(yīng)鏈,并在傳統(tǒng)企業(yè)種下互聯(lián)網(wǎng)基因。傳統(tǒng)企業(yè)與互聯(lián)網(wǎng)企業(yè)的結(jié)合,網(wǎng)民和消費者的融合,必將引發(fā)消費模式、制造模式、管理模式的巨大變革。大數(shù)據(jù)正成為IT行業(yè)全新的制高點,各企業(yè)和組織紛紛助推大數(shù)據(jù)的發(fā)展,相關(guān)技術(shù)呈現(xiàn)百花齊放局面,并在互聯(lián)網(wǎng)應(yīng)用領(lǐng)域嶄露頭角,具體情況如下圖四所示:圖四大數(shù)據(jù)將帶來巨大的技術(shù)和商業(yè)機(jī)遇,大數(shù)據(jù)分析挖掘和利用將為企業(yè)帶來巨大的商業(yè)價值,而隨著應(yīng)用數(shù)據(jù)規(guī)模急劇增加,,模數(shù)據(jù)處理和行業(yè)應(yīng)用需求日益增加和迫切出現(xiàn)越來越多的大規(guī)模數(shù)據(jù)處理應(yīng)用需求,傳統(tǒng)系統(tǒng)難以提供足夠的存儲和計算資源進(jìn)行處理,云計算技術(shù)是最理想的解決方案。調(diào)查顯示:目前,IT專業(yè)人員對云計算中諸多關(guān)鍵技術(shù)最為關(guān)心的是大規(guī)模數(shù)據(jù)并行處理技術(shù)大數(shù)據(jù)并行處理沒有通用和現(xiàn)成的解決方案對于應(yīng)用行業(yè)來說,云計算平臺軟件、虛擬化軟件都不需要自己開發(fā),但行業(yè)的大規(guī)模數(shù)據(jù)處理應(yīng)用沒有現(xiàn)成和通用的軟件,需要針對特定的應(yīng)用需求專門開發(fā),多并行化算法、索引查詢優(yōu)化技術(shù)研究、以與系統(tǒng)的設(shè)計實現(xiàn),這些都為大數(shù)據(jù)處理技術(shù)的發(fā)展提供了巨大的驅(qū)動力,大數(shù)據(jù)應(yīng)用大數(shù)據(jù)應(yīng)用闡述大數(shù)據(jù)能做什么?我們那么多地方探討大數(shù)據(jù),無非總結(jié)下來就做三件事:第一,對信息的理解。你發(fā)的每一X圖片、每一個新聞、每一個廣告,都是信息,你對這個信息的理解是大數(shù)據(jù)重要的領(lǐng)域。第二,用戶的理解,每個人的基本特征,你的潛在的特征,每個用戶上網(wǎng)的習(xí)慣等等,這些都是對用戶的理解。第三,關(guān)系。關(guān)系才是我們的核心,信息與信息之間的關(guān)系,一條微博和另外一條微博之間的關(guān)系,一個廣告和另外一個廣告的關(guān)系。一條微博和一個視頻之間的關(guān)系,這些在我們?nèi)庋廴タ吹臅r候是相對簡單的。比如有條微博說這兩天朝鮮綁架我們船的事,那條微博也大概是談這件事的。人眼一眼就能看出來。但是用機(jī)器怎么能看出來這是一件事,以與他們之間的因果關(guān)系,這是很有難度的。然后就是用戶與用戶之間的關(guān)系。哪些人你愿意收聽,是你的朋友,哪些是你感興趣的領(lǐng)域,你是一個音樂達(dá)人,你是一個吃貨,那個用戶也是一個吃貨,你愿意收聽他。這就是用戶與用戶之間的關(guān)系理解。還有用戶與信息之間的理解,就是你對哪一類型的微博感興趣,你對哪一類型的信息感興趣,如果牽扯到商業(yè)化,你對哪一類的廣告或者商品感興趣。其實就是用戶與信息之間的關(guān)系,他無非是做這件事。大數(shù)據(jù)說的那么懸,其實主要是做三件事:對用戶的理解、對信息的理解、對關(guān)系的理解。如果我們在這三件事之間還要提一件事的話,一個叫趨勢。他也是關(guān)系的一種變種,只是關(guān)系稍微遠(yuǎn)一點,情感之間的分析,還有我們政府部門做的輿情監(jiān)控。他可以監(jiān)控大規(guī)模的數(shù)據(jù),可以分析出人的動向。在美國的好萊塢,這兩年也是基于FACEBOOK和TIWTTER的數(shù)據(jù)來預(yù)測即將上映的電影的票房。他也是一個趨勢的分析,只是我們把這個趨勢提前來。核心就是這三件事。大數(shù)據(jù)應(yīng)用架構(gòu)大數(shù)據(jù)行業(yè)應(yīng)用醫(yī)療行業(yè)SetonHealthcare是采用IBM最新沃森技術(shù)醫(yī)療保健內(nèi)容分析預(yù)測的首個客戶。,通過大數(shù)據(jù)處理,好地分析病人的信息。在加拿大多倫多的一家醫(yī)院,針對早產(chǎn)嬰兒,每秒鐘有超過3000取。通過這些數(shù)據(jù)分析,醫(yī)院能夠提前知道哪些早產(chǎn)兒出現(xiàn)問題并且有針對性地采取措施,避免早產(chǎn)嬰兒夭折。它讓更多的創(chuàng)業(yè)者更方便地開發(fā)產(chǎn)品,比如通過社交網(wǎng)絡(luò)來收集數(shù)據(jù)的健康類App。也許未來數(shù)年后,它們搜集的數(shù)據(jù)能讓醫(yī)生給你的診斷變得更為精確,比方說不是通用的成人每日三次一次一片,經(jīng)代謝完成會自動提醒你再次服藥。能源行業(yè)智能電網(wǎng)現(xiàn)在歐洲已經(jīng)做到了終端,也就是所謂的智能電表。在德國,為了鼓勵利用太陽能,會在家庭安裝太陽能,除了賣電給你,當(dāng)你的太陽能有多余電的時候還可以買回來。通過電網(wǎng)收集每隔五分鐘或十分鐘收集一次數(shù)據(jù),收集來的這些數(shù)據(jù)可以用來預(yù)測客戶的用電習(xí)慣等,從而推斷出在未來2~3時間里,整個電網(wǎng)大概需要多少電。有了這個預(yù)測后,就可以向發(fā)電或者供電企業(yè)購買一定數(shù)量的電。因為電有點像期貨一樣,如果提前買就會比較便宜買現(xiàn)貨就比較貴。通過這個預(yù)測后,可以降低采購成本。維斯塔斯風(fēng)力系統(tǒng),BigInsightsIBM超級計算機(jī),然后對氣象數(shù)據(jù)進(jìn)行分析,。利用大數(shù)據(jù)以往需要數(shù)周的分析工作,1小時便可完成。通信行業(yè)XOCommunicationsIBMSPSS預(yù)測分析軟件,減少了將近一半的客戶流失率。XO現(xiàn)在可以預(yù)測客戶的行為,發(fā)現(xiàn)行為趨勢,并找出存在缺陷的環(huán)節(jié),從而幫助公司與時采取措施,保留客戶。此外,IBMNetezza網(wǎng)絡(luò)分析加速器,將通過提供單個端到端網(wǎng)絡(luò)、服務(wù)、客戶分析視圖的可擴(kuò)展平臺,幫助通信企業(yè)制定更科學(xué)、合理決策。電信業(yè)者透過數(shù)以千萬計的客戶資料,能分析出多種使用者行為和趨勢,需要的企業(yè),這是全新的資料經(jīng)濟(jì)。中國移動通過大數(shù)據(jù)分析,對企業(yè)運營的全業(yè)務(wù)進(jìn)行針對性的監(jiān)控、預(yù)警、跟蹤。系統(tǒng)在第一時間自動捕捉市場變化,再以最快捷的方式推送給指定負(fù)責(zé)人,使他在最短時間內(nèi)獲知市場行情。NTTdocomo把手機(jī)位置信息和互聯(lián)網(wǎng)上的信息結(jié)合起來,為顧客提供附近的餐飲店信息,接近末班車時間時,提供末班車信息服務(wù)。零售業(yè)"我們的某個客戶,是一家領(lǐng)先的專業(yè)時裝零售商,通過當(dāng)?shù)氐陌儇浬痰?、網(wǎng)絡(luò)與其郵購目錄業(yè)務(wù)為客戶提供服務(wù)。,如何定位公司的差異化,他們通過從Twitter和Facebook上收集社交信息,更深入的理解化妝品的營銷模式,隨后他們認(rèn)識到必須保留兩類有價值的客戶:高消費者和高影響者。希望通過接受免費化妝服務(wù),讓用戶進(jìn)行口碑宣傳,這是交易數(shù)據(jù)與交互數(shù)據(jù)的完美結(jié)合為業(yè)務(wù)挑戰(zhàn)提供了解決方案。"Informatica的技術(shù)幫助這家零售商用社交平臺上的數(shù)據(jù)充實了客戶主數(shù)據(jù),使他的業(yè)務(wù)服務(wù)更具有目標(biāo)性。零售企業(yè)也監(jiān)控客戶的店內(nèi)走動情況以與與商品的互動。它們將這些數(shù)據(jù),從而在銷售哪些商品、如何擺放貨品以與何時調(diào)整售價上給出意見,此類方法已經(jīng)幫助某領(lǐng)先零售企業(yè)減少了17%貨,同時在保持市場份額的前提下,增加了高利潤率自有品牌商品的比例。大數(shù)據(jù)解決方案大數(shù)據(jù)技術(shù)組成大數(shù)據(jù)技術(shù)由四種技術(shù)構(gòu)成,它們包括:分析技術(shù)分析技術(shù)意味著對海量數(shù)據(jù)進(jìn)行分析以實時得出答案,由于大數(shù)據(jù)的特殊性,大數(shù)據(jù)分析技術(shù)還處于發(fā)展階段,老技術(shù)會日趨完善,新技術(shù)會更多出現(xiàn)。大數(shù)據(jù)分析技術(shù)涵蓋了以下的的五個方面可視化分析數(shù)據(jù)可視化無論對于普通用戶或是數(shù)據(jù)分析專家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說話,讓用戶直觀的感受到結(jié)果。數(shù)據(jù)挖掘算法圖像化是將機(jī)器語言翻譯給人看,而數(shù)據(jù)挖掘就是機(jī)器的母語。分割、集群、孤立點分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù),挖掘價值。這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量,同時還具有很高的處理速度。預(yù)測分析能力數(shù)據(jù)挖掘可以讓分析師對數(shù)據(jù)承載信息更快更好地消化理解,進(jìn)而提升判斷的準(zhǔn)確性,而預(yù)測性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。語義引擎非結(jié)構(gòu)化數(shù)據(jù)的多元化給數(shù)據(jù)分析帶來新的挑戰(zhàn),我們需要一套工具系統(tǒng)的去分析,提煉數(shù)據(jù)。語義引擎需要設(shè)計到有足夠的人工智能以足以從數(shù)據(jù)中主動地提取信息。數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理數(shù)據(jù)質(zhì)量與管理是管理的最佳實踐,透過標(biāo)準(zhǔn)化流程和機(jī)器對數(shù)據(jù)進(jìn)行處理可以確保獲得一個預(yù)設(shè)質(zhì)量的分析結(jié)果。我們知道大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁存檔、用戶點擊、商品信息、用戶關(guān)系等數(shù)據(jù)形成了持續(xù)增長的海量數(shù)據(jù)集。這些大數(shù)據(jù)中蘊(yùn)藏著大量可以用于增強(qiáng)用戶體驗、提高服務(wù)質(zhì)量和開發(fā)新型應(yīng)用的知識,而如何高效和準(zhǔn)確的發(fā)現(xiàn)這些知識就基本決定了各大互聯(lián)網(wǎng)公司在激烈競爭環(huán)境中的位置。首先,以Google為首的技術(shù)型互聯(lián)網(wǎng)公司提出了MapReduce的技術(shù)框架,利用廉價的PC服務(wù)器集群,大規(guī)模并發(fā)處理批量事務(wù)。利用文件系統(tǒng)存放非結(jié)構(gòu)化數(shù)據(jù),加上完善的備份和容災(zāi)策略,這套經(jīng)濟(jì)實惠的大數(shù)據(jù)解決方案與之前昂貴的企業(yè)小型機(jī)集群+商業(yè)數(shù)據(jù)庫方案相比,不僅沒有丟失性能,而且還贏在了可擴(kuò)展性上。之前,我們在設(shè)計一個數(shù)據(jù)中心解決方案的前期,就要考慮到方案實施后的可擴(kuò)展性。通常的方法是預(yù)估今后一段時期內(nèi)的業(yè)務(wù)量和數(shù)據(jù)量,加入多余的計算單元〔CPU〕和存儲,以備不時只需。這樣的方式直接導(dǎo)致了前期一次性投資的巨大,并且即使這樣也依然無法保證計算需求和存儲超出設(shè)計量時的系統(tǒng)性能。而一旦需要擴(kuò)容,問題就會接踵而來。首先是商業(yè)并行數(shù)據(jù)庫通常需要各節(jié)點物理同構(gòu),也就是具有近似的計算和存儲能力。而隨著硬件的更新,我們通常加入的新硬件都會強(qiáng)于已有的硬件。這樣,舊硬件就成為了系統(tǒng)的瓶頸。為了保證系統(tǒng)性能,我們不得不把舊硬件逐步替換掉經(jīng)濟(jì)成本損失巨大。其次,即使是當(dāng)前最強(qiáng)的商業(yè)并行數(shù)據(jù)庫,其所能管理的數(shù)據(jù)節(jié)點也只是在幾十或上百這個數(shù)量級,這主要是由于架構(gòu)上的設(shè)計問題,所以其可擴(kuò)展性必然有限。MapReduce+GFS框架不受上述問題的困擾。需要擴(kuò)容了,只需增加個機(jī)柜,加入適當(dāng)?shù)挠嬎銌卧痛鎯?集群系統(tǒng)會自動分配和調(diào)度這些資源,絲毫不影響現(xiàn)有系統(tǒng)的運行存儲數(shù)據(jù)庫存儲數(shù)據(jù)庫<In-MemoryDatabases>讓信息快速流通,大數(shù)據(jù)分析經(jīng)常會用到存儲數(shù)據(jù)庫來快速處理大量記錄的數(shù)據(jù)流通。比方說,它可以對某個全國性的連鎖店某天的銷售記錄進(jìn)行分析,得出某些特征進(jìn)而根據(jù)某種規(guī)則與時為消費者提供獎勵回饋。但傳統(tǒng)的關(guān)系型數(shù)據(jù)庫嚴(yán)格的設(shè)計定式、為保證強(qiáng)一致性而放棄性能、擴(kuò)展性差等問題在大數(shù)據(jù)分析中被逐漸暴露。隨之而來,NoSQL數(shù)據(jù)存儲模型開始風(fēng)行。NoSQL,NotOnlySQL并不是一種特定的數(shù)據(jù)存儲模型,。其特點是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對關(guān)系型數(shù)據(jù)庫,而是針對其缺點的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數(shù)據(jù)庫、列存儲等NoSQL,NoSQL在很多情況下又叫做云數(shù)據(jù)庫。由于其處理數(shù)據(jù)的模式完全是分布于各種低成本服務(wù)器和存儲磁盤,因此它可以幫助網(wǎng)頁和各種交互性應(yīng)用快速處理過程中的海量數(shù)據(jù)。、、Cisco以與其它一些企業(yè)提供網(wǎng)頁應(yīng)用支持。正常的數(shù)據(jù)庫需要將數(shù)據(jù)進(jìn)行歸類組織,XXXX化。NoSQL數(shù)據(jù)庫則完全不關(guān)心這些,它能處理各種類型的文檔。在處理海量數(shù)據(jù)同時請求時,它也不會有任何問題。比方說,如果有1000萬人同時登錄某個Zynga游戲,來進(jìn)行數(shù)據(jù)處理,結(jié)果與1?,F(xiàn)今有多種不同類型的NoSQL模式。商業(yè)化的模式如Couchbase、10gen的mongoDB以與Oracle的NoSQL;開源免費的模式如CouchDB和Cassandra;還有亞馬遜最新推出的NoSQL云服務(wù)。分布式計算技術(shù)分布式計算結(jié)合了NoSQL與實時分析技術(shù),如果想要同時處理實時分析與NoSQL數(shù)據(jù)功能,那么你就需要分布式計算技術(shù)。分布式技術(shù)結(jié)合了一系列技術(shù)可以對海量數(shù)據(jù)進(jìn)行實時分析。更重要的是,它所使用的硬件非常便宜,因而讓這種技術(shù)的普與變成可能。SGISunnySundstrom解釋說,通過對那些看起來沒什么關(guān)聯(lián)和組織的數(shù)據(jù)進(jìn)行分析,我們可以獲得很多有價值的結(jié)果。比如說可以分發(fā)現(xiàn)一些新的模式或者新的行為。運用分布式計算技術(shù),銀行可以從消費者的一些消費行為和模式中識別網(wǎng)上交易的欺詐行為。分布式計算技術(shù)讓不可能變成可能,分布式計算技術(shù)正引領(lǐng)著將不可能變?yōu)榭赡?。SkyboxImaging就是一個很好的例子。這家公司通過對衛(wèi)星圖片的分析得出一些實時結(jié)果,比如說某個城市有多少可用停車空間,或者某個港口目前有多少船只。它們將這些實時結(jié)果賣給需要的客戶。沒有這個技術(shù),要想快速便宜的分析這么大量衛(wèi)星圖片數(shù)據(jù)將是不可能的。如圖五所示:圖五Google的核心,Yahoo的基礎(chǔ),目前分布式計算技術(shù)Google創(chuàng)建的技術(shù),Yahoo所建立。Google總共發(fā)表了兩篇論文,20xx發(fā)表的叫做MapReduce的論文介紹了如何在多計算機(jī)之間進(jìn)行數(shù)據(jù)處理;另一篇于20xx發(fā)表,主要是關(guān)于如何在多服務(wù)器上存儲數(shù)據(jù)。來自于YahooDougCutting在讀了這兩篇論文后建立了分布式計算平臺,以他兒子的玩具大象命名。如圖六所示圖六而Hadoop作為一個重量級的分布式處理開源框架已經(jīng)在大數(shù)據(jù)處理領(lǐng)域有所作為大數(shù)據(jù)處理過程采集大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端〔、App傳感器形式等〕的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,RedisMongoDBNoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進(jìn)行訪問和操作,比如火車票售票和淘寶,它們并發(fā)的訪問量在峰值時達(dá)到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計。導(dǎo)入/預(yù)處理雖然采集端本身會有很多數(shù)據(jù)庫,但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫,布式存儲集群,。也有一些用戶會在導(dǎo)入時使用來自Twitter的Storm來對數(shù)據(jù)進(jìn)行流式計算,來滿足部分業(yè)務(wù)的實時計算需求。導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆,甚至千兆級別。統(tǒng)計/分析統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫,或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求,在這方面一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以與基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉與的數(shù)據(jù)量大,其對系統(tǒng)資源,特別是I/O會有極大的占用。挖掘與前面統(tǒng)計和分析過程不同的是,數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計算,從而起到預(yù)測〔Predict〕的效果,從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求 。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計算涉與的數(shù)據(jù)量和計算量都很大,常用數(shù)據(jù)挖掘算法都以單線程為主。整個大數(shù)據(jù)處理的普遍流程至少應(yīng)該滿足這四個方面的步驟,才能算得上是一個比較完整的大數(shù)據(jù)處理大數(shù)據(jù)處理的核心技術(shù)-Hadoop大數(shù)據(jù)技術(shù)涵蓋了硬軟件多個方面的技術(shù),目前各種技術(shù)基本都獨立存在于存儲、開發(fā)、平臺架構(gòu)、數(shù)據(jù)分析挖掘的各個相對獨立的領(lǐng)域。這一部分主要介紹和分析大數(shù)據(jù)處理的核心技術(shù)——Hadoop。Hadoop的組成大數(shù)據(jù)不同于傳統(tǒng)類型的數(shù)據(jù),TBPB級信息組成,既包括結(jié)構(gòu)化數(shù)據(jù),也包括文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)類型缺乏一致性,使得標(biāo)準(zhǔn)存儲技術(shù)無法對大數(shù)據(jù)進(jìn)行有效存儲,而且我們也難以使用傳統(tǒng)的服務(wù)器和SAN方法來有效地存儲和處理龐大的數(shù)據(jù)量。這些都決定了"大數(shù)據(jù)"需要不同的處理方法,而Hadoop目前正是廣泛應(yīng)用的大數(shù)據(jù)處理技術(shù)。Hadoop是一個基于Java的分布式密集數(shù)據(jù)處理和數(shù)據(jù)分析的軟件框架。該框架在很大程度上Google20xxMapReduce的技術(shù)啟發(fā)。Hadoop主要組件包含如圖七:圖七HadoopCommon:通用模塊,支持其他Hadoop模塊HadoopDistributedFileSystemHDFS〕:分布式文件系統(tǒng),用以提供高流量的應(yīng)用數(shù)據(jù)訪問HadoopYARN:支持工作調(diào)度和集群資源管理的框架HadoopMapReduce:針對大數(shù)據(jù)的、靈活的并行數(shù)據(jù)處理框架其他相關(guān)的模塊還有:ZooKeeper:高可靠性分布式協(xié)調(diào)系統(tǒng)Oozie:負(fù)責(zé)MapReduce作業(yè)調(diào)度HBase:可擴(kuò)展的分布式數(shù)據(jù)庫,可以將結(jié)構(gòu)性數(shù)據(jù)存儲為大表Hive:構(gòu)建在MapRudece之上的數(shù)據(jù)倉庫軟件包Pig:架構(gòu)在Hadoop之上的高級數(shù)據(jù)處理層Hadoop框架中,HDFSHadoop集群中所有存儲節(jié)點上的文件。HDFS的架構(gòu)是基于一組特定的節(jié)點構(gòu)建的〔如圖八〕,圖八NameNodeDataNode。HDFS中的文件被分成塊,然后將這些塊復(fù)制到多個計算機(jī)中〔DataNode〕。這與傳統(tǒng)的RAID架構(gòu)大不相同。塊的大小〔通常為64MB〕和復(fù)制的塊數(shù)量在創(chuàng)建文件時由客戶機(jī)決定。NameNode可以控制所有文件操作。HDFS內(nèi)部的所有通信都基于標(biāo)準(zhǔn)的TCP/IP協(xié)議。NameNode在HDFS,負(fù)責(zé)管理文件系統(tǒng)名稱空間和控制外部客戶機(jī)的訪問。它決定是否將文件映射到DataNode復(fù)制塊上。DataNode通常以機(jī)架的形式組織,機(jī)架通過一個交換機(jī)將所有系統(tǒng)連接起來。HadoopMapReduceGoogleMapReduce。MapReduce,它在系統(tǒng)層面解決了擴(kuò)展性、容錯性等問題,MapReduce函數(shù),自動地在可伸縮的大規(guī)模集群上并行執(zhí)行,從而可以處理和分析大規(guī)模的數(shù)據(jù)[6]。Hadoop提供了大量的接口和抽象類,Hadoop應(yīng)用程序開發(fā)人員提供許多工具,可用于調(diào)試和性能度量等。Hadoop應(yīng)用實例中,一個代表客戶機(jī)在單個主系統(tǒng)上啟MapReduce。NameNode,Hadoop集群中唯一負(fù)責(zé)控制MapReduce。在應(yīng)用程序提交之后,HDFS中的輸入和輸出目錄。JobTracker使用文件塊信息〔物理量和位置〕TaskTracker。MapReduce應(yīng)用程序被復(fù)制到每個出現(xiàn)輸入文件塊的節(jié)點,將為特定節(jié)點上的每個文件塊創(chuàng)建一個唯一的從屬任務(wù)。每個TaskTracker將狀態(tài)和完成信息報告給。如圖顯示一個示例集群中的工作分布,如圖九:圖九Hadoop的優(yōu)點:Hadoop能夠使用戶輕松開發(fā)和運行處理大數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點:。Hadoop按位存儲和處理數(shù)據(jù)的能力值得人們信賴。。Hadoop是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的,以方便地擴(kuò)展到數(shù)以千計的節(jié)點中。高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非???。。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。Hadoop帶有用Java語言編寫的框架,因此運行在Linux生產(chǎn)平臺上是非常理想的。Hadoop上的應(yīng)用程序也可以使用其他語言編寫,比如C++。Hadoop的不足Hadoop作為一個處理大數(shù)據(jù)的軟件框架,雖然受到眾多商業(yè)公司的青睞,但是其自身的技術(shù)特點也決定了它不能完全解決大數(shù)據(jù)問題。在當(dāng)前Hadoop的設(shè)計中,所有的metadata操作都要通過集中式的NameNode來進(jìn)行,NameNode有可能是性能的瓶頸。HadoopNameNode、Jobtracker的設(shè)計嚴(yán)重制約了整個Hadoop可擴(kuò)展性和可靠性。首先,NameNode和JobTracker是整個系統(tǒng)中明顯的單點故障源。再次,單一NameNode的內(nèi)存容量有限,使得Hadoop2000個左右,能支持的文件系統(tǒng)大小被限制在10-50PB,最多能支持的文件數(shù)量大約為1.5億左右。實際上,有用戶抱怨其集群的NameNode,這大大降低了系統(tǒng)的可用性。隨著Hadoop被廣泛使用,面對各式各樣的需求,人們期望Hadoop能提供更多特性,比如完全可讀寫的文件系統(tǒng)、Snapshot、Mirror等等。Hadoop不支持,但是用戶又有強(qiáng)烈需求的。主要商業(yè)性"大數(shù)據(jù)"處理方案"大數(shù)據(jù)"被科技企業(yè)看作是云計算之后的另一個巨大商機(jī),包括IBM、谷歌、。此外,很多初創(chuàng)企業(yè)也開始加入到大數(shù)據(jù)的淘金隊伍中。Hadoop是非結(jié)構(gòu)數(shù)據(jù)庫的代表,低成本、高擴(kuò)展性和靈活性等優(yōu)勢使其成為各種面向大數(shù)據(jù)處理分析的商業(yè)服務(wù)方案的首選。Oracle、IBM、Microsoft三大商業(yè)數(shù)據(jù)提供商是Hadoop的主要支持者。很多知名企業(yè)都以Hadoop技術(shù)為基礎(chǔ)提供自己的商業(yè)性大數(shù)據(jù)解決方案。這一部分主要介紹以Hadoop為基礎(chǔ)的典型商業(yè)性大數(shù)據(jù)解決方案。IBMInfoSphere大數(shù)據(jù)分析平臺IBM20115InfoSphere大數(shù)據(jù)分析平臺是一款定位為企業(yè)級的大數(shù)據(jù)分析產(chǎn)品。該產(chǎn)品包括BigInsights和Streams,二者互補(bǔ),BiglnsightsHadoop,對大規(guī)模的靜態(tài)數(shù)據(jù)進(jìn)行分析,它提供多節(jié)點的分布式計算,可以隨時增加節(jié)點,提升數(shù)據(jù)處理能力。Streams采用內(nèi)存計算方式分析實時數(shù)據(jù)。HadoopMapReduceIBM系統(tǒng)集成起來。Hadoop這樣開源技術(shù)的人很多,IBM這次是真正將其變成了企業(yè)級的應(yīng)用,針對不同的人員增加不同的價值。InfoSphereBigInsights1.3HadoopMapReduc,Hadoop框架進(jìn)行了改造,IBM特有的通用并行文件系統(tǒng)——GPFS。GPFS的目的是為了避免單點故障,保證可用性。BigInsights中還有兩個分析產(chǎn)品——CognosSPSS,這兩個分析產(chǎn)品在傳統(tǒng)功能上加強(qiáng)了文本分析的功能,提供了一,并使用高級語言進(jìn)行自定義規(guī)則,。目前BigInsights提供兩種版本,一種是企業(yè)版〔EnterpriseEdition〕,用于企業(yè)級的大數(shù)據(jù)分析解決方案。另一種是基礎(chǔ)版〔BasicEdition〕,去掉了企業(yè)版中的大部分功能,用戶可以免費下載,主要提供給開發(fā)人員和合作伙伴試用。Streams最大的特點就是內(nèi)存分析,利用多節(jié)點PC服務(wù)器的內(nèi)存來處理大批量的數(shù)據(jù)分析請求。Streams的特點就是"小快靈",,其分析反應(yīng)速度可以控制在毫秒級別,BigInsights的分析是批處理,Streams相比??傮w來說,二者的設(shè)計架構(gòu)不同,也用于處理不同的大數(shù)據(jù)分析需求,并可以形成良好的互補(bǔ)。InfoSphereIBM大數(shù)據(jù)解決方案中的一部分。IBM4大部分:信息整合與治理組件、ApacheHadoop的框架BigInsights平臺、加速器,以與包含可視化與發(fā)現(xiàn)、發(fā)、系統(tǒng)管理的上層應(yīng)用。通過IBM的解決方案可以看出,Hadoop。OracleBigDataAppliancOracleBigDataAppliance準(zhǔn)確地說是一款硬件產(chǎn)品,Hadoop裝載器、OracleNoSQL數(shù)據(jù)庫,主要目的是為了將非結(jié)構(gòu)化數(shù)據(jù)加載到關(guān)系型數(shù)據(jù)庫中去,并對軟硬件的集成做了一些優(yōu)化。OracleBigData機(jī)包括開源Apache、OracleNoSQL數(shù)據(jù)庫、Oracle數(shù)據(jù)集成Hadoop應(yīng)用適配器、OracleHadoop裝載器、OpenSourceDistributionof、OracleLinuxOracleJavaHotSpot虛擬機(jī)。它能夠快速、Oracle數(shù)11g、OracleExadataOracleExalytics商務(wù)智能云服務(wù)器集成。R應(yīng)用,R客戶端直接處理存Oracle11g中的數(shù)據(jù),從而極大地提高可擴(kuò)展性、性能和安全性。MicrosoftSQLServer微軟已經(jīng)發(fā)布HadoopConnectorforSQLServerParallelDataWarehouseHadoopConnectorforSQLServer社區(qū)技術(shù)預(yù)覽版本的連接器。該連接器是雙向的,用戶可以在Hadoop向后遷移數(shù)據(jù)。SQLServer2012Hadoop分布式計算平臺,微軟HadoopWindowsServerAzure〔微軟的云服務(wù)〕。SybaseIQSybaseIQSybase公司推出的特別為數(shù)據(jù)倉庫設(shè)計的關(guān)系型數(shù)據(jù)庫,添加了Hadoop的集成,MapReduceAPI。相比于傳統(tǒng)的"行式存儲"的關(guān)系型數(shù)據(jù)庫,SybaseIQ使用了獨特的列式存儲方式,在進(jìn)行分析查詢時,僅需讀取查詢所需的列,其垂直分區(qū)策略不僅能夠支持大量的用戶、大規(guī)模數(shù)據(jù),還可以提交對商業(yè)信息的高速訪問,其速度可達(dá)到傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的百倍甚至千倍。其他"大數(shù)據(jù)"解決方案"大數(shù)據(jù)"Hadoop一種,方案。EMCEMC提供了兩種大數(shù)據(jù)存儲方案,IsilonAtmos。Isilon能夠提供無限的橫向擴(kuò)展能力,Atmos是一款云存儲基礎(chǔ)架構(gòu),在內(nèi)容服務(wù)方面,Atmos是很好的解決方案在數(shù)據(jù)分析方面,EMC提供的解決方案提供的產(chǎn)品是Greenplum,Greenplum有兩個產(chǎn)品,第一是GreenplumDatabase,GreenplumDatabase,它可以管理、存儲、分析PB量級的一些結(jié)構(gòu)性數(shù)據(jù),它下載的速度非常高,10TB,速度非常驚人。EMC可以提供給企業(yè)、政府,用來分析海量的數(shù)據(jù)。GreenplumDatabas面對的是結(jié)構(gòu)化數(shù)據(jù)。很多數(shù)據(jù)超過90%是非結(jié)構(gòu)化數(shù)據(jù),EMC有另外一個產(chǎn)品是GreenplumHD,GreenplumHD可以把非結(jié)構(gòu)化的數(shù)據(jù)或者是半結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),GreenplumDatabase去處理。BigQueryBigQueryGoogleWeb服務(wù),用來在云端處理大數(shù)據(jù)。GoogleSQL語句對超級大的數(shù)據(jù)庫進(jìn)行操作。BigQuery允許用戶上傳他們的超大量數(shù)據(jù)并通過其直接進(jìn)行交互式分析,從而不必投資建立自己的數(shù)據(jù)中心。GoogleBigQuery引擎可以快速掃描高達(dá)70TB未經(jīng)壓縮處理的數(shù)據(jù),并且可馬上得到分析結(jié)果。大數(shù)據(jù)在云端模型具備很多優(yōu)勢,BigQuery服務(wù)無需組織提供或建立數(shù)據(jù)倉庫。而BigQuery在安全性和數(shù)據(jù)備份服務(wù)方面也相當(dāng)完善。免費XX可以讓用戶每月100GB的數(shù)據(jù),用戶也可以付費使用額外查詢和存儲空間。大數(shù)據(jù)"與科技文獻(xiàn)信息處理"大數(shù)據(jù)"目前主要指醫(yī)學(xué)、天文、地理、Web日志、多媒體信息等數(shù)據(jù),鮮有提與文獻(xiàn)信息。事實上,現(xiàn)在的科技文獻(xiàn)信息日益凸顯出"大數(shù)據(jù)"的特征,主要表現(xiàn)在以下幾個方面:更新周期縮短;數(shù)量龐大;文獻(xiàn)的類型多樣;文獻(xiàn)載體數(shù)字化;文獻(xiàn)語種多樣化;文獻(xiàn)內(nèi)容交叉;文獻(xiàn)信息密度大??萍嘉墨I(xiàn)中所含的信息類型多樣,既有結(jié)構(gòu)性數(shù)據(jù),也有非結(jié)構(gòu)性文本和公式,如何利用"大數(shù)據(jù)"技術(shù)對文獻(xiàn)內(nèi)容進(jìn)行分析,挖掘用戶訪問日志、評價反饋等數(shù)據(jù)的價值,為用戶提供服務(wù)成為科技信息服務(wù)業(yè)急需思考和解決的問題。在科技文獻(xiàn)信息處理中,文本分析技術(shù)、語義計算技術(shù)、數(shù)據(jù)安全需要與"大數(shù)據(jù)"解決方案結(jié)合起來考慮實施,這樣才能更有效地提供知識服務(wù)。大數(shù)據(jù)處理技術(shù)發(fā)展前景隨著大數(shù)據(jù)時代的來臨,應(yīng)用越來越廣,其發(fā)展前景是很光明的。大數(shù)據(jù)復(fù)雜度降低大數(shù)據(jù)技術(shù)的落地將會有兩個特點:一個是對MapReduce依賴越來越少,另外一個是會把Hadoop技術(shù)深入的應(yīng)用到企業(yè)的軟件架構(gòu)中。點,ClouderaImpalaPolyBase這樣的軟件會得到充分發(fā)展,他們繞開了MapReduce,直接對存在HDFS中的數(shù)據(jù)進(jìn)行處理。對于第二個特點,大規(guī)Hadoop是個必然趨勢,漸漸的就會形成行業(yè)的標(biāo)準(zhǔn),的軟件基礎(chǔ),而不僅是自己內(nèi)部使用。大數(shù)據(jù)細(xì)分市場大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展,將會創(chuàng)造出一些新的細(xì)分市場。例如,以數(shù)據(jù)分析和處理為主的高級數(shù)據(jù)服務(wù),將出現(xiàn)以數(shù)據(jù)分析作為服務(wù)產(chǎn)品提交的分析即服務(wù)<AnalyzeasaService>業(yè)務(wù);將多種信息整合管理,創(chuàng)造對大數(shù)據(jù)統(tǒng)一的訪問和分析的組件產(chǎn)品;基于社交網(wǎng)絡(luò)的社交大數(shù)據(jù)分析;甚至?xí)霈F(xiàn)大數(shù)據(jù)技能的培訓(xùn)市場,教授數(shù)據(jù)分析課程等。大數(shù)據(jù)開源開源軟件為大數(shù)據(jù)市場帶來更多機(jī)會。與人們的傳統(tǒng)理解不同,大數(shù)據(jù)市場開源軟件的盛行不會抑制市場的商業(yè)機(jī)會,相反開源軟件將會給基礎(chǔ)架構(gòu)硬件、應(yīng)用程序開發(fā)工具、應(yīng)用、服務(wù)等各個方面的相關(guān)領(lǐng)域帶來更多的機(jī)會。Hadoop將加速發(fā)展做為大數(shù)據(jù)領(lǐng)域的代表技術(shù),許多企業(yè)都把明年的計劃聚焦在Hadoop之上。據(jù)預(yù)測,用戶對Hadoop,同時,對企業(yè)友好的Hadoop技術(shù)市場將達(dá)到前所未有的高峰。從整體上說,不僅是Hadoop本身本會得到迅猛的發(fā)展,同時Hadoop在多個數(shù)據(jù)中心中的配置和無縫集成技術(shù)也將成為熱門。Hadoop的專業(yè)知識正在飛速增長,但是這方面優(yōu)秀的人才仍然很缺乏?;赟QLHadoop工具將會得到持續(xù)發(fā)展"。打包的大數(shù)據(jù)行業(yè)分析應(yīng)用隨著大數(shù)據(jù)逐漸走向各個行業(yè),基于行業(yè)的大數(shù)據(jù)分析應(yīng)用需求也日益增長。未來幾年中針對特定行業(yè)和業(yè)務(wù)流程的分析應(yīng)用將會以預(yù)打包的形式出現(xiàn),這將為大數(shù)據(jù)技術(shù)供應(yīng)商打開新的市場。這些分析應(yīng)用內(nèi)容還會覆蓋很多行業(yè)的專業(yè)知識,也會吸引大量行業(yè)軟件開發(fā)公司的投入。大數(shù)據(jù)分析的革命性方法出現(xiàn)在大數(shù)據(jù)分析上,將出現(xiàn)革命性的新方法。就像計算機(jī)和互聯(lián)網(wǎng)一樣,大數(shù)據(jù)可能是新一波技術(shù)革命。從前的很多算法和基礎(chǔ)理論可能會產(chǎn)生理論級別的突破。大數(shù)據(jù)與云計算:深度融合大數(shù)據(jù)處理離不開云計算技術(shù),云計算為大數(shù)據(jù)提供彈性可擴(kuò)展的基礎(chǔ)設(shè)施支撐環(huán)境以與數(shù)據(jù)服務(wù)的高效模式,大數(shù)據(jù)則為云計算提供了新的商業(yè)價值,大數(shù)據(jù)技術(shù)與云計算技術(shù)必有更完美的結(jié)合。同樣的,云計算、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等新興計算形態(tài),既是產(chǎn)生大數(shù)據(jù)的地方,也是需要大數(shù)據(jù)分析方法的領(lǐng)域。大數(shù)據(jù)一體機(jī)陸續(xù)發(fā)布自云計算和大數(shù)據(jù)概念被提出后,針對該市場推出的軟硬件一體化設(shè)備就層出不窮。在未來幾年里,數(shù)據(jù)倉庫一體機(jī)、NoSQL術(shù)結(jié)合的一體化設(shè)備將進(jìn)一步快速發(fā)展。基于基站大數(shù)據(jù)應(yīng)用與案例氣象災(zāi)害應(yīng)急短信發(fā)布平臺概述項目背景為有效預(yù)防,、,減輕或者避免氣象災(zāi)害造成的人員傷亡、財產(chǎn)損失以與對經(jīng)濟(jì)社會發(fā)展和生態(tài)環(huán)境保護(hù)產(chǎn),,。平臺概述本平臺是利用手機(jī)進(jìn)出特定小區(qū)需與交換機(jī)交換位置信息的特性,結(jié)合目前移動通信網(wǎng)絡(luò)與短消息發(fā)布平臺,實現(xiàn)在特定區(qū)域、特定時間對特定客戶群,發(fā)送特定服務(wù)短信的個性化信息服務(wù)。平臺建設(shè)特點與原則建設(shè)特點平臺具有以下特點:針對性強(qiáng):、、、,投放準(zhǔn)確,;,;發(fā)布便捷:,,可以與時修改;,。建設(shè)原則:具有互操作性,可用性,可靠性,可擴(kuò)充性,可管理性,建立一個開放式,遵循國際標(biāo)準(zhǔn)的網(wǎng)絡(luò)系統(tǒng)。:既要保證網(wǎng)絡(luò)的先進(jìn)性,同時也要兼顧技術(shù)的成熟性。:對于安全性我們將通過對用戶的區(qū)域劃分,建議選用專用防火墻實現(xiàn)對本地資源的安全保護(hù)。:網(wǎng)絡(luò)設(shè)計必須為今后的擴(kuò)充留有足夠的余地,以保護(hù)用戶的投資,保證今后的網(wǎng)絡(luò)擴(kuò)充升級能力。:每個設(shè)備都進(jìn)行嚴(yán)格的選型,在滿足設(shè)計原則的功能前提下,提供最經(jīng)濟(jì)的設(shè)備配置方案。:。大數(shù)據(jù)管理平臺特點獨特的云任務(wù)管理技術(shù)——使系統(tǒng)的并行效率提升顯著、硬件資源被充分用于大數(shù)據(jù)處理,縮短處理時間、節(jié)約硬件成本。——,,可靠。雙引擎技術(shù)——云計算引

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論