大數(shù)據(jù)分析與處理方法解讀_第1頁(yè)
大數(shù)據(jù)分析與處理方法解讀_第2頁(yè)
大數(shù)據(jù)分析與處理方法解讀_第3頁(yè)
大數(shù)據(jù)分析與處理方法解讀_第4頁(yè)
大數(shù)據(jù)分析與處理方法解讀_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析與處理方法解讀【文章摘要】要知道,大數(shù)據(jù)已不再是數(shù)據(jù)大,最重要的現(xiàn)實(shí)就是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過(guò)分析才能獲取很多智能的,深入的,有價(jià)值的信息。越來(lái)越多的應(yīng)用涉及到大數(shù)據(jù),這些大數(shù)據(jù)的屬性,包括數(shù)量,速度,多樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要,可以說(shuō)是決定最終信息是否有價(jià)值的決定性因素?;诖耍髷?shù)據(jù)分析的方法理論有哪些呢?大數(shù)據(jù)分析的五個(gè)基本方面PredictiveAnalyticCapabilities(預(yù)測(cè)性分析能力)數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù),而預(yù)測(cè)性分析可以讓分析員根據(jù)可視化分析和數(shù)據(jù)挖掘的結(jié)果做出一些預(yù)測(cè)性的判斷。DataQualityandMasterDataManagement(數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐。通過(guò)標(biāo)準(zhǔn)化的流程和工具對(duì)數(shù)據(jù)進(jìn)行處理可以保證一個(gè)預(yù)先定義好的高質(zhì)量的分析結(jié)果。AnalyticVisualizations(可視化分析)不管是對(duì)數(shù)據(jù)分析專(zhuān)家還是普通用戶(hù),數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求??梢暬梢灾庇^的展示數(shù)據(jù),讓數(shù)據(jù)自己說(shuō)話(huà),讓觀眾聽(tīng)到結(jié)果。SemanticEngines(語(yǔ)義弓|擎)我們知道由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)。語(yǔ)義引擎需要被設(shè)計(jì)成能夠從“文檔”中智能提取信息。DataMiningAlgorithms(數(shù)據(jù)挖掘算法)可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法讓我們深入數(shù)據(jù)內(nèi)部,挖掘價(jià)值。這些算法不僅要處理大數(shù)據(jù)的量,也要處理大數(shù)據(jù)的速度。假如大數(shù)據(jù)真的是下一個(gè)重要的技術(shù)革新的話(huà),我們最好把精力關(guān)注在大數(shù)據(jù)能給我們帶來(lái)的好處,而不僅僅是挑戰(zhàn)。大數(shù)據(jù)處理大數(shù)據(jù)處理數(shù)據(jù)時(shí)代理念的三大轉(zhuǎn)變:要全體不要抽樣,要效率不要絕對(duì)精確,要相關(guān)不要因果。具體的大數(shù)據(jù)處理方法其實(shí)有很多,但是根據(jù)長(zhǎng)時(shí)間的實(shí)踐,筆者總結(jié)了一個(gè)基本的大數(shù)據(jù)處理流程,并且這個(gè)流程應(yīng)該能夠?qū)Υ蠹依眄槾髷?shù)據(jù)的處理有所幫助。整個(gè)處理流程可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,以及挖掘。采集大數(shù)據(jù)的采集是指利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶(hù)端的數(shù)據(jù),并且用戶(hù)可以通過(guò)這些數(shù)據(jù)庫(kù)來(lái)進(jìn)行簡(jiǎn)單的查詢(xún)和處理工作。比如,電商會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)MySQL和Oracle等來(lái)存儲(chǔ)每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB八樣的NoSQL數(shù)據(jù)庫(kù)也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過(guò)程中,其主要特點(diǎn)和挑戰(zhàn)是并發(fā)數(shù)高,因?yàn)橥瑫r(shí)有可能會(huì)有成千上萬(wàn)的用戶(hù)來(lái)進(jìn)行訪問(wèn)和操作,比如火車(chē)票售票網(wǎng)站和淘寶,它們并發(fā)的訪問(wèn)量在峰值時(shí)達(dá)到上百萬(wàn),所以需要在采集端部署大量數(shù)據(jù)庫(kù)才能支撐。并且如何在這些數(shù)據(jù)庫(kù)之間進(jìn)行負(fù)載均衡和分片的確是需要深入的思考和設(shè)計(jì)。統(tǒng)計(jì)/分析統(tǒng)計(jì)與分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來(lái)對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類(lèi)匯總等,以滿(mǎn)足大多數(shù)常見(jiàn)的分析需求,在這方面,一些實(shí)時(shí)性需求會(huì)用到EMQ的GreenPlum、Oracle的Exadata,以及基于MySQL勺列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。導(dǎo)入/預(yù)處理雖然采集端本身會(huì)有很多數(shù)據(jù)庫(kù),但是如果要對(duì)這些海量數(shù)據(jù)進(jìn)行有效的分析,還是應(yīng)該將這些來(lái)自前端的數(shù)據(jù)導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù),或者分布式存儲(chǔ)集群,并且可以在導(dǎo)入基礎(chǔ)上做一些簡(jiǎn)單的清洗和預(yù)處理工作。也有一些用戶(hù)會(huì)在導(dǎo)入時(shí)使用來(lái)自Twitter的Storm來(lái)對(duì)數(shù)據(jù)進(jìn)行流式計(jì)算,來(lái)滿(mǎn)足部分業(yè)務(wù)的實(shí)時(shí)計(jì)算需求。導(dǎo)入與預(yù)處理過(guò)程的特點(diǎn)和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大,每秒鐘的導(dǎo)入量經(jīng)常會(huì)達(dá)到百兆,甚至千兆級(jí)別。挖掘與前面統(tǒng)計(jì)和分析過(guò)程不同的是,數(shù)據(jù)挖掘一般沒(méi)有什么預(yù)先設(shè)定好的主題,主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計(jì)算,從而起到預(yù)測(cè)的效果,從而實(shí)現(xiàn)一些高級(jí)別數(shù)據(jù)分析的需求。比較典型算法有用于聚類(lèi)的K-Means、用于統(tǒng)計(jì)學(xué)習(xí)的SVM和用于分類(lèi)的NaiveBayes,主要使用的工具有Hadoop的Mahout等。該過(guò)程的特點(diǎn)和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜,并且計(jì)算涉及的數(shù)據(jù)量和計(jì)算量都很大,還有,常用數(shù)據(jù)挖掘算法都以單線(xiàn)程為主大數(shù)據(jù)及其智能處理技術(shù)的分析論文發(fā)表(點(diǎn)擊進(jìn)入)匡|圉論及檢測(cè)摘要:隨著社會(huì)的進(jìn)步,科學(xué)技術(shù)的不斷發(fā)展,信息技術(shù)成了目前最受關(guān)注,也是發(fā)展最快的科學(xué)技術(shù)。世界各國(guó)都在致力于信息化,而各國(guó)對(duì)于信息化的巨大需求又反過(guò)來(lái)不斷促進(jìn)信息技術(shù)的革新,可以說(shuō),我們已經(jīng)進(jìn)入了信息時(shí)代。數(shù)據(jù)的密集爆發(fā)是信息時(shí)代的重要特征之一,更令人驚訝的是,這種數(shù)據(jù)的變化并不是一個(gè)循序漸進(jìn)的過(guò)程,而是一個(gè)跨越式的過(guò)程。我們的社會(huì)已經(jīng)被各種各樣的龐雜的數(shù)據(jù)圍繞了,可以看出,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)臨了。本文將對(duì)大數(shù)據(jù)及其智能處理技術(shù)作簡(jiǎn)要的分析。大數(shù)據(jù)處理技術(shù)的發(fā)展研究作者:張慧琴來(lái)源:月壇統(tǒng)計(jì)分會(huì)發(fā)布日期:2013-07-0315:08:00一、大數(shù)據(jù)的涵義與起源大數(shù)據(jù)(bigdata),或稱(chēng)巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)的4V特點(diǎn):Volume、Velocity,Variety,Veracity。大數(shù)據(jù)”作為時(shí)下最火熱的IT行業(yè)的詞匯,隨之?dāng)?shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)安全、數(shù)據(jù)分析、數(shù)據(jù)挖掘等等圍繞大數(shù)量的商業(yè)價(jià)值的利用逐漸成為行業(yè)人士爭(zhēng)相追捧的利潤(rùn)焦點(diǎn)。早在1980年,著名未來(lái)學(xué)家阿爾及托夫勒便在《第三次浪潮》一書(shū)中,將大數(shù)據(jù)熱情地贊頌為第三次浪潮的華彩樂(lè)章”不過(guò),大約從2009年開(kāi)始,大數(shù)據(jù)”才成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯。美國(guó)互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長(zhǎng)50%,每?jī)赡瓯銓⒎环?,而目前世界?0%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。此外,數(shù)據(jù)又并非單純指人們?cè)诨ヂ?lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設(shè)備、汽車(chē)、電表上有著無(wú)數(shù)的數(shù)碼傳感器,隨時(shí)測(cè)量和傳遞著有關(guān)位置、運(yùn)動(dòng)、震動(dòng)、溫度、濕度乃至空氣中化學(xué)物質(zhì)的變化,也產(chǎn)生了海量的數(shù)據(jù)信息。大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專(zhuān)業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的加工能力”通過(guò)加工”實(shí)現(xiàn)數(shù)據(jù)的增值”且中國(guó)物聯(lián)網(wǎng)校企聯(lián)盟認(rèn)為,物聯(lián)網(wǎng)的發(fā)展離不開(kāi)大數(shù)據(jù),依靠大數(shù)據(jù)提供足夠有利的資源。隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Bigdata)也吸引了越來(lái)越多的關(guān)注?!吨婆_(tái)》的分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢(qián)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用,具有數(shù)據(jù)量大、查詢(xún)分析復(fù)雜等特點(diǎn)?!队?jì)算機(jī)學(xué)報(bào)》刊登的“架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望”一文列舉了大數(shù)據(jù)分析平臺(tái)需要具備的幾個(gè)重要特性,對(duì)當(dāng)前的主流實(shí)現(xiàn)平臺(tái)一并行數(shù)據(jù)庫(kù)、MapReduce及基于兩者的混合架構(gòu)進(jìn)行了分析歸納,指出了各自的優(yōu)勢(shì)及不足,同時(shí)也對(duì)各個(gè)方向的研究現(xiàn)狀及作者在大數(shù)據(jù)分析方面的努力進(jìn)行了介紹,對(duì)未來(lái)研究做了展望。對(duì)于大數(shù)據(jù)”研究機(jī)構(gòu)Gartner給出了這樣的定義。大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)”這個(gè)術(shù)語(yǔ)最早期的引用可追溯到apacheorg的開(kāi)源項(xiàng)目Nutch。當(dāng)時(shí),大數(shù)據(jù)用來(lái)描述為更新網(wǎng)絡(luò)搜索索引需要同時(shí)進(jìn)行批量處理或分析的大量數(shù)據(jù)集。隨著谷歌MapReduce和GoogleFileSystem(GFS)的發(fā)布,大數(shù)據(jù)不再僅用來(lái)描述大量的數(shù)據(jù),還涵蓋了處理數(shù)據(jù)的速度。從某種程度上說(shuō),大數(shù)據(jù)是數(shù)據(jù)分析的前沿技術(shù)。簡(jiǎn)言之,從各種各樣類(lèi)型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。明白這一點(diǎn)至關(guān)重要,也正是這一點(diǎn)促使該技術(shù)具備走向眾多企業(yè)的潛力。大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問(wèn)題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營(yíng)管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系。大數(shù)據(jù)的4個(gè)“V,或者說(shuō)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。從TB級(jí)別,躍升到PB級(jí)別;第二,數(shù)據(jù)類(lèi)型繁多。前文提到的網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低,商業(yè)價(jià)值高。以視頻為例,連續(xù)不間斷監(jiān)控過(guò)程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四,處理速度快。1秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將其歸納為4個(gè)“V”Volume,Variety,Value,Velocity。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車(chē)聯(lián)網(wǎng)、手機(jī)、平板電腦、PC以及遍布地球各個(gè)角落的各種各樣的傳感器,無(wú)一不是數(shù)據(jù)來(lái)源或者承載的方式。最早提出“大數(shù)據(jù)”時(shí)代已經(jīng)到來(lái)的機(jī)構(gòu)是全球知名咨詢(xún)公司麥肯錫。麥肯錫在研究報(bào)告中指出,數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對(duì)于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。“麥肯錫的報(bào)告發(fā)布后,大數(shù)據(jù)迅速成為了計(jì)算機(jī)行業(yè)爭(zhēng)相傳誦的熱門(mén)概念,也引起了金融界的高度關(guān)注?!彪S著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身是資產(chǎn),這一點(diǎn)在業(yè)界已經(jīng)形成共識(shí)。“如果說(shuō)云計(jì)算為數(shù)據(jù)資產(chǎn)提供了保管、訪問(wèn)的場(chǎng)所和渠道,那么如何盤(pán)活數(shù)據(jù)資產(chǎn),使其為國(guó)家治理、企業(yè)決策乃至個(gè)人生活服務(wù),則是大數(shù)據(jù)的核心議題,也是云計(jì)算內(nèi)在的靈魂和必然的升級(jí)方向?!笔聦?shí)上,全球互聯(lián)網(wǎng)巨頭都已意識(shí)到了大數(shù)據(jù)”時(shí)代,數(shù)據(jù)的重要意義。包括EMC、惠普(微博卜舊M、微軟(微博)在內(nèi)的全球IT巨頭紛紛通過(guò)收購(gòu)“大數(shù)據(jù)”相關(guān)廠商來(lái)實(shí)現(xiàn)技術(shù)整合,亦可見(jiàn)其對(duì)“大數(shù)據(jù)”的重視?!按髷?shù)據(jù)”作為一個(gè)較新的概念,目前尚未直接以專(zhuān)有名詞被我國(guó)政府提出來(lái)給予政策支持。不過(guò),在12月8日工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃上,把信息處理技術(shù)作為4項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程之一被提出來(lái),其中包括了海量數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分。而另外3項(xiàng)關(guān)鍵技術(shù)創(chuàng)新工程,包括信息感知技術(shù)、信息傳輸技術(shù)、信息安全技術(shù),也都與“大數(shù)據(jù)”密切相關(guān)。二、大數(shù)據(jù)技術(shù)大數(shù)據(jù)時(shí)代的超大數(shù)據(jù)體量和占相當(dāng)比例的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在,已經(jīng)超越了傳統(tǒng)數(shù)據(jù)庫(kù)的管理能力,大數(shù)據(jù)技術(shù)將是IT領(lǐng)域新一代的技術(shù)與架構(gòu),它將幫助人們存儲(chǔ)管理好大數(shù)據(jù)并從大體量、高復(fù)雜的數(shù)據(jù)中提取價(jià)值,相關(guān)的技術(shù)、產(chǎn)品將不斷涌現(xiàn),將有可能給IT行業(yè)開(kāi)拓一個(gè)新的黃金時(shí)代。大數(shù)據(jù)本質(zhì)也是數(shù)據(jù),其關(guān)鍵的技術(shù)依然逃不脫:1)大數(shù)據(jù)存儲(chǔ)和管理;2)大數(shù)據(jù)檢索使用(包括數(shù)據(jù)挖掘和智能分析)。圍繞大數(shù)據(jù),一批新興的數(shù)據(jù)挖掘、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理與分析技術(shù)將不斷涌現(xiàn),讓我們處理海量數(shù)據(jù)更加容易、更加便宜和迅速,成為企業(yè)業(yè)務(wù)經(jīng)營(yíng)的好助手,甚至可以改變?cè)S多行業(yè)的經(jīng)營(yíng)方式。(一)大數(shù)據(jù)的商業(yè)模式與架構(gòu)云計(jì)算及其分布式結(jié)構(gòu)是重要途徑大數(shù)據(jù)處理技術(shù)正在改變目前計(jì)算機(jī)的運(yùn)行模式,正在改變著這個(gè)世界:它能處理幾乎各種類(lèi)型的海量數(shù)據(jù),無(wú)論是微博、文章、電子郵件、文檔、音頻、視頻,還是其它形態(tài)的數(shù)據(jù);它工作的速度非??焖伲簩?shí)際上幾乎實(shí)時(shí);它具有普及,性:因?yàn)樗玫亩际亲钇胀ǖ统杀镜挠布?,而云?jì)算它將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使用戶(hù)能夠按需獲取計(jì)算力、存儲(chǔ)空間和信息服務(wù)。云計(jì)算及其技術(shù)給了人們廉價(jià)獲取巨量計(jì)算和存儲(chǔ)的能力,云計(jì)算分布式架構(gòu)能夠很好地支持大數(shù)據(jù)存儲(chǔ)和處理需求。這樣的低成本硬件+低成本軟件+低成本運(yùn)維,更加經(jīng)濟(jì)和實(shí)用,使得大數(shù)據(jù)處理和利用成為可能。(二)大數(shù)據(jù)的存儲(chǔ)和管理云數(shù)據(jù)庫(kù)的必然:很多人把NoSQL叫做云數(shù)據(jù)庫(kù),因?yàn)槠涮幚頂?shù)據(jù)的模式完全是分布于各種低成本服務(wù)器和存儲(chǔ)磁盤(pán),因此它可以幫助網(wǎng)頁(yè)和各種交互性應(yīng)用快速處理過(guò)程中的海量數(shù)據(jù)。它采用分布式技術(shù)結(jié)合了一系列技術(shù),可以對(duì)海量數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,滿(mǎn)足了大數(shù)據(jù)環(huán)境下一部分業(yè)務(wù)需求。但我說(shuō)這是錯(cuò)誤的,至少是片面的,是無(wú)法徹底解決大數(shù)據(jù)存儲(chǔ)管理需求的。云計(jì)算對(duì)關(guān)系型數(shù)據(jù)庫(kù)的發(fā)展將產(chǎn)生巨大的影響,而絕大多數(shù)大型業(yè)務(wù)系統(tǒng)(如銀行、證券交易等)、電子商務(wù)系統(tǒng)所使用的數(shù)據(jù)庫(kù)還是基于關(guān)系型的數(shù)據(jù)庫(kù),隨著云計(jì)算的大量應(yīng)用,勢(shì)必對(duì)這些系統(tǒng)的構(gòu)建產(chǎn)生影響,進(jìn)而影響整個(gè)業(yè)務(wù)系統(tǒng)及電子商務(wù)技術(shù)的發(fā)展和系統(tǒng)的運(yùn)行模式?;陉P(guān)系型數(shù)據(jù)庫(kù)服務(wù)的云數(shù)據(jù)庫(kù)產(chǎn)品將是云數(shù)據(jù)庫(kù)的主要發(fā)展方向,云數(shù)據(jù)庫(kù)(CloudDB),提供了海量數(shù)據(jù)的并行處理能力和良好的可伸縮性等特性,提供同時(shí)支持在在線(xiàn)分析處理(OLAP)和在線(xiàn)事務(wù)處理(OLTP)能力,提供了超強(qiáng)性能的數(shù)據(jù)庫(kù)云服務(wù),并成為集群環(huán)境和云計(jì)算環(huán)境的理想平臺(tái)。它是一個(gè)高度可擴(kuò)展、安全和可容錯(cuò)的軟件,客戶(hù)能通過(guò)整合降低IT成本,管理位于多個(gè)數(shù)據(jù),提高所有應(yīng)用程序的性能和實(shí)時(shí)性做出更好的業(yè)務(wù)決策服務(wù)。這樣的云數(shù)據(jù)庫(kù)要能夠滿(mǎn)足:A.海量數(shù)據(jù)處理:對(duì)類(lèi)似搜索引擎和電信運(yùn)營(yíng)商級(jí)的經(jīng)營(yíng)分析系統(tǒng)這樣大型的應(yīng)用而言,需要能夠處理PB級(jí)的數(shù)據(jù),同時(shí)應(yīng)對(duì)百萬(wàn)級(jí)的流量。B.大規(guī)模集群管理:分布式應(yīng)用可以更加簡(jiǎn)單地部署、應(yīng)用和管理。C.低延遲讀寫(xiě)速度:快速的響應(yīng)速度能夠極大地提高用戶(hù)的滿(mǎn)意度。D建設(shè)及運(yùn)營(yíng)成本:云計(jì)算應(yīng)用的基本要求是希望在硬件成本、軟件成本以及人力成本方面都有大幅度的降低。所以云數(shù)據(jù)庫(kù)必須采用一些支撐云環(huán)境的相關(guān)技術(shù),比如數(shù)據(jù)節(jié)點(diǎn)動(dòng)態(tài)伸縮與熱插拔、對(duì)所有數(shù)據(jù)提供多個(gè)副本的故障檢測(cè)與轉(zhuǎn)移機(jī)制和容錯(cuò)機(jī)制、SN(ShareNothing)體系結(jié)構(gòu)、中心管理、節(jié)點(diǎn)對(duì)等處理實(shí)現(xiàn)連通任一工作節(jié)點(diǎn)就是連入了整個(gè)云系統(tǒng)、與任務(wù)追蹤、數(shù)據(jù)壓縮技術(shù)以節(jié)省磁盤(pán)空間同時(shí)減少磁盤(pán)IO時(shí)間等。云數(shù)據(jù)庫(kù)路線(xiàn)是基于傳統(tǒng)數(shù)據(jù)庫(kù)不斷升級(jí)并向云數(shù)據(jù)庫(kù)應(yīng)用靠攏,更好的適應(yīng)云計(jì)算模式,如自動(dòng)化資源配置管理、虛擬化支持以及高可擴(kuò)展性等,才能在未來(lái)將會(huì)發(fā)揮不可估量的作用。(三)大數(shù)據(jù)的處理和使用新型商業(yè)智能的產(chǎn)生傳統(tǒng)針對(duì)海量數(shù)據(jù)的存儲(chǔ)處理,通過(guò)建立數(shù)據(jù)中心,建設(shè)包括大型數(shù)據(jù)倉(cāng)庫(kù)及其支撐運(yùn)行的軟硬件系統(tǒng),設(shè)備(包括服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等)越來(lái)越高檔、數(shù)據(jù)倉(cāng)庫(kù)、OLAP及ETL、BI等平臺(tái)越來(lái)越龐大,但這些需要的投資越來(lái)越大,而面對(duì)數(shù)據(jù)的增長(zhǎng)速度,越來(lái)越力不從心,所以基于傳統(tǒng)技術(shù)的數(shù)據(jù)中心建設(shè)、運(yùn)營(yíng)和推廣難度越來(lái)越大。另外一般能夠使用傳統(tǒng)的數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和BI工具能夠完成的處理和分析挖掘的數(shù)據(jù),還不能稱(chēng)為大數(shù)據(jù),這些技術(shù)也不能叫大數(shù)據(jù)處理技術(shù)。面對(duì)大數(shù)據(jù)環(huán)境,包括數(shù)據(jù)挖掘在內(nèi)的商業(yè)智能技術(shù)正在發(fā)生巨大的變化。傳統(tǒng)的傳統(tǒng)商業(yè)智能技術(shù),包括數(shù)據(jù)挖掘,主要任務(wù)舒建立比較復(fù)雜的數(shù)據(jù)倉(cāng)庫(kù)模型、數(shù)據(jù)挖掘模型,來(lái)進(jìn)行分析和處理不太多的數(shù)據(jù)。也許由于云計(jì)算模式、分布式技術(shù)和云數(shù)據(jù)庫(kù)技術(shù)的應(yīng)用,我們不需要這么復(fù)雜的模型,不用考慮復(fù)雜的計(jì)算算法,就能夠處理大數(shù)據(jù),對(duì)于不斷增長(zhǎng)的業(yè)務(wù)數(shù)據(jù),用戶(hù)也可以通過(guò)添加低成本服務(wù)器甚至是PC機(jī)也可以,來(lái)處理海量數(shù)據(jù)記錄的掃描、統(tǒng)計(jì)、分析、預(yù)測(cè)。如果商業(yè)模式變化了,需要一分為二,那么新商業(yè)智能系統(tǒng)也可以很快地、相應(yīng)地一分為二,繼續(xù)強(qiáng)力支撐商業(yè)智能的需求。所以實(shí)際是對(duì)傳統(tǒng)商業(yè)智能的發(fā)展和促進(jìn),商業(yè)智能將出現(xiàn)新的發(fā)展機(jī)遇,面對(duì)風(fēng)云變幻的市場(chǎng)環(huán)境,快速建模,快速部署是新商業(yè)智能平臺(tái)的強(qiáng)力支撐。而不像過(guò)去那樣艱難前行,難以承受商業(yè)運(yùn)作的變化。三、未來(lái)大數(shù)據(jù)的處理和發(fā)展的五個(gè)趨勢(shì)(一)數(shù)據(jù)科學(xué)越來(lái)越大眾化隨著像Coursera、Udacity和Edx等這些和數(shù)據(jù)分析相關(guān)的網(wǎng)絡(luò)教育平臺(tái)的流行,越來(lái)越多的人不用花一分錢(qián)便可以學(xué)到所有的知識(shí),從基礎(chǔ)的統(tǒng)計(jì)學(xué)知識(shí)到自然語(yǔ)言處理和機(jī)器學(xué)習(xí)。除了這個(gè),Oxdata化簡(jiǎn)和集成了R語(yǔ)言后推出的分析產(chǎn)品,Quid正在做的具有機(jī)器學(xué)習(xí)和人工智能概念的工具也設(shè)計(jì)了傻瓜式的使用界面和形象具體的用戶(hù)展示方法。更有像Kaggle這樣的公司推出了關(guān)于預(yù)測(cè)模型的眾包平臺(tái)。所以大數(shù)據(jù)的處理的趨勢(shì)之一便是像Datahero,Infogram和Statwing他們一樣,把數(shù)據(jù)分析變得易用,大眾。二)Hadoop對(duì)MapReduce的依賴(lài)越來(lái)越小Hadoop平臺(tái)只為MapReduce服務(wù)的時(shí)代從Hadoop的2.0版本開(kāi)始正式結(jié)束了。新版本支持的產(chǎn)品和服務(wù)將會(huì)和Cloudera的Impala一樣用一個(gè)SQL查詢(xún)引擎,或者其他的方法來(lái)替代MapReduce。HBaseNoSQL數(shù)據(jù)庫(kù)就是Hadoop離開(kāi)MapReduce約束后的一個(gè)很好的例子。大型的網(wǎng)絡(luò)公司,像Facebook、eBay等都已經(jīng)用HBase去處理事務(wù)型的應(yīng)用了。(三)大數(shù)據(jù)越來(lái)越多的被用到了我們身邊的應(yīng)用中首先是大數(shù)據(jù)應(yīng)用對(duì)我們的開(kāi)發(fā)者的要求變低了,有時(shí)候開(kāi)發(fā)大數(shù)據(jù)應(yīng)用就像在你的應(yīng)用的代碼中加入幾行,或者像是寫(xiě)一段兒腳本一樣。其次,大數(shù)據(jù)的應(yīng)用范圍也得到了拓展,用戶(hù)習(xí)慣分析,網(wǎng)絡(luò)安全,人工智能,售后服務(wù)等等都可以通過(guò)將大數(shù)據(jù)處理做成產(chǎn)品或者應(yīng)用而實(shí)現(xiàn)?,F(xiàn)在的大數(shù)據(jù)技術(shù)已經(jīng)被帶入了許多網(wǎng)絡(luò)和手機(jī)的應(yīng)用中,從購(gòu)物推薦到找到和自己有關(guān)聯(lián)的人等等。(四)機(jī)器學(xué)習(xí)無(wú)處不在很容易就可以看到機(jī)器學(xué)習(xí)越來(lái)越流行,從我們身邊的小應(yīng)用Prismatic、Summly、Trifacta、CloudFlare、Twitter、Google、Facebook、Bidgely、Healthrageous、Predilytics、BloomReach、DataPop、Gravity…如今很難想象一個(gè)沒(méi)有機(jī)器學(xué)習(xí)技術(shù)的科技公司可以生存。Heck,甚至是微軟都在機(jī)器學(xué)習(xí)上下了很大賭注它將成為一個(gè)重要的收入來(lái)源。(五)手機(jī)將成為人工智能的數(shù)據(jù)來(lái)源我們的手機(jī)和手機(jī)中的應(yīng)用目前可能是最大的私人信息來(lái)源。通過(guò)機(jī)器學(xué)習(xí),語(yǔ)音識(shí)別和其他一些技術(shù),這些應(yīng)用可以知道我們?nèi)ツ膬?,我們的朋友都是誰(shuí),我們的日歷上都有哪些提醒,我們上網(wǎng)都瀏覽什么。通過(guò)新一代的私人助理應(yīng)用(Siri,Saga和GoogleNow等)我們的手機(jī)更能夠理解我們的言論,知道我們經(jīng)常出入的地方,我們平時(shí)吃什么,我們?cè)诩?、工作和郊游的時(shí)間等等。大數(shù)據(jù)”的本質(zhì)實(shí)際上是數(shù)據(jù)生產(chǎn)的社會(huì)化,其對(duì)統(tǒng)計(jì)尤其是政府統(tǒng)計(jì)的沖擊是重大的,不僅涉及到整個(gè)統(tǒng)計(jì)流程,更加對(duì)當(dāng)前的政府統(tǒng)計(jì)管理體制、機(jī)構(gòu)設(shè)置、數(shù)據(jù)價(jià)值等方面形成了挑戰(zhàn)??梢源竽戭A(yù)測(cè),未來(lái)政府統(tǒng)計(jì)的政府角色會(huì)被統(tǒng)計(jì)專(zhuān)業(yè)性取代,經(jīng)濟(jì)分析的職能會(huì)被更為專(zhuān)業(yè)的經(jīng)濟(jì)分析部門(mén)取代,宏觀數(shù)據(jù)的重要性會(huì)讓位于更有信息價(jià)值的微觀數(shù)據(jù)。統(tǒng)計(jì)部門(mén)需要正視這種變革,順應(yīng)這種潮流,并借助于大數(shù)據(jù)”的變革的有利形勢(shì),加快提高統(tǒng)計(jì)能力,使得統(tǒng)計(jì)在大變革中處于優(yōu)勢(shì)地位。參考文獻(xiàn)1林蔭,盧瑩,王洪元,數(shù)據(jù)庫(kù)技術(shù)實(shí)驗(yàn)教學(xué)的探索與實(shí)踐,《時(shí)代教育(教育教學(xué)版)》2008年05期2.初文科,《數(shù)據(jù)處理技術(shù)發(fā)展的研究〉〉

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論