大數(shù)據(jù)研究綜述_第1頁
大數(shù)據(jù)研究綜述_第2頁
大數(shù)據(jù)研究綜述_第3頁
大數(shù)據(jù)研究綜述_第4頁
大數(shù)據(jù)研究綜述_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)文獻(xiàn)綜述隨著以博客、社交網(wǎng)絡(luò)、基于位置的服務(wù)LBS為代表的新型信息發(fā)布方式的不斷涌現(xiàn),以及云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起,數(shù)據(jù)正以前所未有的速度在不斷地增長(zhǎng)和累積,國(guó)際數(shù)據(jù)公司(IDC)的數(shù)字宇宙研究報(bào)告稱[1]:2011年全球被創(chuàng)建和被復(fù)制的數(shù)據(jù)總量超過1.8ZB,且增長(zhǎng)趨勢(shì)遵循新摩爾定律(全球數(shù)據(jù)量大約每?jī)赡攴环?,預(yù)計(jì)2020年將達(dá)到35ZB.與此同時(shí),數(shù)據(jù)復(fù)雜性也急劇增長(zhǎng),其多樣性、低價(jià)值密度、實(shí)時(shí)性等復(fù)雜特征日益顯著,大數(shù)據(jù)時(shí)代已經(jīng)來到。學(xué)術(shù)界、產(chǎn)業(yè)界甚至于政府機(jī)構(gòu)都已經(jīng)開始密切關(guān)注大數(shù)據(jù)問題,并對(duì)其產(chǎn)生濃厚的興趣。一、大數(shù)據(jù)國(guó)內(nèi)外發(fā)展現(xiàn)狀對(duì)于學(xué)術(shù)界,1989年在美國(guó)底特律召開的第11屆國(guó)際人工智能聯(lián)合會(huì)議專題討論會(huì)上,首次提出了“數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KDD)”的概念。在1995年召開了第一屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際會(huì)議,隨著與會(huì)人員的增加,KDD國(guó)際學(xué)術(shù)成為年會(huì)。大數(shù)據(jù)的興起,主要是國(guó)際頂尖期刊《Nature》早在2008年推出了Bigdata專刊[2]。計(jì)算社區(qū)聯(lián)盟(computingcommunityconsortium)在2008年發(fā)表了報(bào)告“bigdatacomputing:creatingrevolutionarybreakthroughsincommerce,scienceandsociety”[3],闡述了在數(shù)據(jù)驅(qū)動(dòng)的研究背景下,解決大數(shù)據(jù)問題所需的技術(shù)以及面臨的一些挑戰(zhàn)?!秙cience》在2011年2月推出??癲ealingwithdata”[4],主要圍繞著科學(xué)研究中大數(shù)據(jù)的問題展開討論,說明大數(shù)據(jù)對(duì)于科學(xué)研究的重要性.美國(guó)一些知名的數(shù)據(jù)管理領(lǐng)域的專家學(xué)者則從專業(yè)的研究角度出發(fā),聯(lián)合發(fā)布了一份白皮書《challengesandopportunitieswithbigdata》[5]。該白皮書從學(xué)術(shù)的角度出發(fā)介紹了大數(shù)據(jù)的產(chǎn)生,分析了大數(shù)據(jù)的處理流程,并提出大數(shù)據(jù)所面臨的若干挑戰(zhàn)。全球知名的咨詢公司麥肯錫(McKinsey)2011年6月份發(fā)布了一份關(guān)于大數(shù)據(jù)的詳盡報(bào)告“bigdata:thenextfrontierforinnovation,competiton,andproductivity”[6],對(duì)大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行了詳盡的分析。進(jìn)入2012年以來,大數(shù)據(jù)的關(guān)注度與日俱增1月份的達(dá)沃斯世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,該次會(huì)議還特別針對(duì)大數(shù)據(jù)發(fā)布了報(bào)告“bigdata,bigcompat:newpossibilitiesforinternationaldevelopment”[7],探討了新的數(shù)據(jù)產(chǎn)生方式下,如何更好地利用數(shù)據(jù)來產(chǎn)生良好的社會(huì)效益.該報(bào)告重點(diǎn)關(guān)注了個(gè)人產(chǎn)生的移動(dòng)數(shù)據(jù)與其他數(shù)據(jù)的融合與利用.3月份美國(guó)奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”[8](bigdataresearchanddevelopmentinitiative),投資2億以上美元,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”.計(jì)劃在科學(xué)研究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破.奧巴馬政府的這一計(jì)劃被視為美國(guó)政府繼信息高速公路計(jì)劃之后在信息科學(xué)領(lǐng)域的又一重大舉措.與此同時(shí),聯(lián)合國(guó)一個(gè)名為“globalpulse”的倡議項(xiàng)目在今年5月發(fā)布報(bào)告“bigdatafordevelopment:challengesoropportunities”[9],該報(bào)告主要闡述大數(shù)據(jù)時(shí)代各國(guó)特別是發(fā)展中國(guó)家在面臨數(shù)據(jù)洪流(datadeluge)的情況下所遇到的機(jī)遇與挑戰(zhàn),同時(shí)還對(duì)大數(shù)據(jù)的應(yīng)用進(jìn)行了初步的解讀.《紐約時(shí)報(bào)》的文章“theageofbigdata”[10]。則通過主流媒體的宣傳使普通民眾開始意識(shí)到大數(shù)據(jù)的存在,以及大數(shù)據(jù)對(duì)于人們?nèi)粘I畹挠绊?。在產(chǎn)業(yè)界,經(jīng)濟(jì)利益成為主要的推動(dòng)力,IBM、ORACLE、微軟、谷歌、亞馬遜、Facebook、Teradata、EMC、惠普等跨國(guó)巨頭也因大數(shù)據(jù)技術(shù)的發(fā)展而更加具有競(jìng)爭(zhēng)力[11]。僅2009年一年,谷歌公司通過大數(shù)據(jù)業(yè)務(wù)對(duì)美國(guó)經(jīng)濟(jì)貢獻(xiàn)540億美元;2005年以來,IBM投資160億美元進(jìn)行30多次與大數(shù)據(jù)相關(guān)的收購,使業(yè)績(jī)穩(wěn)定高速增長(zhǎng),2012年,IBM股價(jià)每股突破200美元大關(guān),3年內(nèi)翻了3番;eBay通過數(shù)據(jù)挖掘精確計(jì)算出廣告中每個(gè)關(guān)鍵字帶來的回報(bào),2007年以來,廣告費(fèi)降低了99%,同時(shí)頂級(jí)賣家占總銷售額的百分比上升至32%;2011年,F(xiàn)acebook首次公開新數(shù)據(jù)處理分析平臺(tái)PUMA,通過對(duì)數(shù)據(jù)多處理環(huán)節(jié)區(qū)分優(yōu)化,相比之前單純采用Hadoop和Hive進(jìn)行處理的技術(shù),數(shù)據(jù)分析周期從2天降到10秒以內(nèi),效率提高數(shù)萬倍。與國(guó)外相比,我國(guó)大數(shù)據(jù)的發(fā)展還稍落后。我國(guó)國(guó)家自然科學(xué)基金于1993年首次支持對(duì)數(shù)據(jù)挖掘領(lǐng)域的研究項(xiàng)目。1999年,在北京召開第三屆亞太地區(qū)知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際會(huì)議(PAKDD),收到論文158篇。2011年,第十五屆PAKDD在深圳舉辦,會(huì)議就數(shù)據(jù)挖掘、知識(shí)發(fā)現(xiàn)、人工智能、機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域的主題進(jìn)行交流討論,反響熱烈。2012年5月,香山科學(xué)會(huì)議組織了以“大數(shù)據(jù)科學(xué)與工程——一門新興的交叉學(xué)科?”為主題的第424次學(xué)術(shù)討論會(huì),來自國(guó)內(nèi)外35個(gè)單位橫跨IT、經(jīng)濟(jì)、管理、社會(huì)、生物等多個(gè)不同學(xué)科領(lǐng)域的43位專家代表參會(huì),并就大數(shù)據(jù)的理論與工程技術(shù)研究、應(yīng)用方向以及大數(shù)據(jù)研究的組織方式與資源支持形式等重要問題進(jìn)行了深入討論。6月,中國(guó)計(jì)算機(jī)學(xué)會(huì)青年計(jì)算機(jī)科技論壇(CCFYOCSEF)舉辦了“大數(shù)據(jù)時(shí)代,智謀未來”學(xué)術(shù)報(bào)告會(huì),決定成立大數(shù)據(jù)專家委員會(huì),就大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘、體系架構(gòu)理論、大數(shù)據(jù)安全、大數(shù)據(jù)平臺(tái)開發(fā)與大數(shù)據(jù)現(xiàn)實(shí)案例進(jìn)行了全面的討論。2012年10月,成立了首個(gè)專門研究大數(shù)據(jù)應(yīng)用和發(fā)展的學(xué)術(shù)咨詢組織--中國(guó)通信學(xué)會(huì)大數(shù)據(jù)專家委員會(huì),推動(dòng)了我國(guó)大數(shù)據(jù)的科研與發(fā)展。2012年11月,“Hadoop與大數(shù)據(jù)技術(shù)大會(huì)”以“大數(shù)據(jù)共享與開放技術(shù)”為主題,總結(jié)了八個(gè)熱點(diǎn)問題:數(shù)據(jù)科學(xué)與大數(shù)據(jù)的學(xué)科邊界、數(shù)據(jù)計(jì)算的基本模式與范式、大數(shù)據(jù)的作用力和變換反對(duì)、大數(shù)據(jù)特性與數(shù)據(jù)態(tài)、大數(shù)據(jù)安全和隱私問題、大數(shù)據(jù)對(duì)IT技術(shù)架構(gòu)的挑戰(zhàn)、大數(shù)據(jù)的生態(tài)環(huán)境問題以及大數(shù)據(jù)的應(yīng)用及產(chǎn)業(yè)鏈。大會(huì)還成立了“大數(shù)據(jù)共享聯(lián)盟”,旨在搜集大數(shù)據(jù)、展示大數(shù)據(jù)、促進(jìn)大數(shù)據(jù)的研究與開發(fā)。在產(chǎn)業(yè)界,國(guó)內(nèi)主要以百度、騰訊、華為、淘寶、中國(guó)移動(dòng)等企業(yè)為首的大數(shù)據(jù)布局與商業(yè)活動(dòng)。百度作為中國(guó)最大的搜索引擎,在中國(guó)和中文互聯(lián)網(wǎng)領(lǐng)域各項(xiàng)排行中不是最大就是最多。2012年,百度日均抓取約10億網(wǎng)頁,處理超過100PB(1PB=1024TB)的數(shù)據(jù)。過去10年,百度網(wǎng)頁搜索庫已從500萬猛增到了500億個(gè)頁面。從公開的材料看,百度的大數(shù)據(jù)戰(zhàn)略往往與云計(jì)算綁定在一起,強(qiáng)調(diào)大數(shù)據(jù)儲(chǔ)存與處理能力。2011年8月,百度宣布將用三年的時(shí)間建立一個(gè)全國(guó)最大的數(shù)據(jù)中心,并且主打“綠色”。通過對(duì)大數(shù)據(jù)流量的把握,百度經(jīng)過設(shè)計(jì),降低設(shè)備能耗、減少服務(wù)器、日間側(cè)重商業(yè)業(yè)務(wù)、夜間側(cè)重?cái)?shù)據(jù)業(yè)務(wù),從而讓“百度的單體十萬臺(tái)服務(wù)器的數(shù)據(jù)中心,PUE每降低0.1,一年就可為百度節(jié)省上千萬元的成本?!彬v訊自稱“目前中國(guó)最大的互聯(lián)網(wǎng)綜合服務(wù)提供商之一,也是中國(guó)服務(wù)用戶最多的互聯(lián)網(wǎng)企業(yè)之一”,擁有超過7.52億QQ即時(shí)通訊活躍賬戶,1億微信用戶、4.25億微博用戶和超過1億的視頻用戶。在積累了個(gè)人用戶多方面的海量數(shù)據(jù)后,2012年騰訊提出了“大數(shù)據(jù)營(yíng)銷”的概念。騰訊網(wǎng)總編輯陳菊紅表示“將從這些海量數(shù)據(jù)中挖掘、分辨出用戶的行為模式、興趣偏好等,打造專屬于每個(gè)人的智慧門戶。”騰訊不僅在各大產(chǎn)品線中都設(shè)置了數(shù)據(jù)挖掘團(tuán)隊(duì),還在和一些第三方數(shù)據(jù)挖掘公司、營(yíng)銷公司展開合作洽談,充分挖掘用戶在網(wǎng)上的行為、關(guān)系、UGC(用戶產(chǎn)生的內(nèi)容)等數(shù)據(jù),“通過合理的方法找到對(duì)企業(yè)有幫助的數(shù)據(jù),并且將營(yíng)銷預(yù)算合理的分配在為數(shù)眾多的數(shù)據(jù)來源平臺(tái)上”,從而提高營(yíng)銷效率。2011年4月騰訊追加在天津的數(shù)據(jù)中心建設(shè)投資,欲建立亞洲最大的數(shù)據(jù)儲(chǔ)備處理中心。相比中國(guó)用戶最多的兩家互聯(lián)網(wǎng)企業(yè),淘寶在大數(shù)據(jù)方面的舉措絲毫不遜色,因?yàn)閹缀跛刑詫殬I(yè)務(wù)都依賴淘寶數(shù)據(jù)庫。每天大約有6000萬用戶登錄淘寶網(wǎng),約20億頁面瀏覽量(PV)。淘寶所使用的OceanBase分布式數(shù)據(jù)庫,在基準(zhǔn)數(shù)據(jù)和增量數(shù)據(jù)基礎(chǔ)上,實(shí)現(xiàn)不同部門對(duì)數(shù)千億條記錄、數(shù)百TB數(shù)據(jù)上的跨行跨表事務(wù)共同完成,并支持每天4000~5000萬的更新操作。早在2009年淘寶便自建大型數(shù)據(jù)庫,并通過對(duì)全國(guó)淘寶購買數(shù)據(jù)的挖掘發(fā)布了2011年淘寶中國(guó)地圖,對(duì)其掌握的大量用戶交易數(shù)據(jù)進(jìn)行了形象的展示。在利用大數(shù)據(jù)為提高用戶購物體驗(yàn)的旗號(hào)下,淘寶根據(jù)長(zhǎng)尾原理充分利用大數(shù)據(jù)挖掘技術(shù),建設(shè)開放平臺(tái),提供各種增值服務(wù)。中國(guó)移動(dòng)作為中國(guó)最大的移動(dòng)通訊運(yùn)營(yíng)商,截至2012年4月底,中國(guó)移動(dòng)用戶數(shù)已經(jīng)達(dá)到6.7億。同時(shí),中國(guó)移動(dòng)正在謀求從移動(dòng)運(yùn)營(yíng)商的管道角色向客戶端制造和云端服務(wù)兩個(gè)方向發(fā)展。而大數(shù)據(jù)業(yè)務(wù)的投入,為此提供了機(jī)遇。2011年第四季度中國(guó)移動(dòng)先后與內(nèi)蒙古自治區(qū)和黑龍江省簽署合作協(xié)議,在呼和浩特、哈爾濱建設(shè)全國(guó)規(guī)模最大、技術(shù)最先進(jìn)、能耗最低定在成都建立西部最大數(shù)據(jù)中心,完成了其在國(guó)內(nèi)數(shù)據(jù)中心的三大數(shù)據(jù)基地布局。通過對(duì)國(guó)內(nèi)外學(xué)術(shù)期刊SCI與SSCI檢索研究中發(fā)現(xiàn),目前國(guó)外對(duì)大數(shù)據(jù)的研究主要集中在如何進(jìn)行大數(shù)據(jù)的存儲(chǔ)、處理、分析以及管理的技術(shù)及軟件的應(yīng)用上,而關(guān)于大數(shù)據(jù)與管理科學(xué)的結(jié)合幾乎很少,國(guó)內(nèi)學(xué)者對(duì)大數(shù)據(jù)的研究主要集中大數(shù)據(jù)的商業(yè)模式的探討、大數(shù)據(jù)分析處理技術(shù)、大數(shù)據(jù)的應(yīng)用領(lǐng)域等,而對(duì)關(guān)于大數(shù)據(jù)與云計(jì)算結(jié)合的研究幾乎處于理論摸索階段。二、大數(shù)據(jù)的國(guó)內(nèi)外研究綜述對(duì)于大數(shù)據(jù)的定義,學(xué)術(shù)界和產(chǎn)業(yè)界目前尚未形成公認(rèn)的準(zhǔn)確定義。維基百科的定義[12]:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策目的的信息。麥肯錫的定義[13]:大數(shù)據(jù)是指無法在一定時(shí)間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對(duì)其內(nèi)容進(jìn)行采集、存儲(chǔ)、管理和分析的數(shù)據(jù)集合。權(quán)威IT研究將大數(shù)據(jù)定義為“在一個(gè)或多個(gè)維度上超出傳統(tǒng)信息技術(shù)的處理能力的極端信息管理和處理問題”[14]。美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)則將大數(shù)據(jù)定義為“由科學(xué)儀器、傳感設(shè)備、互聯(lián)網(wǎng)交易、電子郵件、音視頻軟件、網(wǎng)絡(luò)點(diǎn)擊流等多種數(shù)據(jù)源生成的大規(guī)模、多元化、復(fù)雜、長(zhǎng)期的分布式數(shù)據(jù)集”[15]。研究機(jī)構(gòu)Gartner的定義:大數(shù)據(jù)是指需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。無論是哪一種定義,我們可以看出,均體現(xiàn)了大數(shù)據(jù)具有的四種特性:數(shù)據(jù)體量巨大(Volume)、數(shù)據(jù)種類繁多(Varity)、流動(dòng)速度快(Velocity)、價(jià)值密度低(Value)。其實(shí),對(duì)于大數(shù)據(jù)的4V特征其不僅僅是海量數(shù)據(jù),更追求的是實(shí)時(shí)性、動(dòng)態(tài)性、全貌性。1.關(guān)于大數(shù)據(jù)的商業(yè)模式方面的研究“假如我們有了一個(gè)數(shù)據(jù)預(yù)報(bào)臺(tái),就像為企業(yè)裝上了一個(gè)GPS和雷達(dá),企業(yè)的出海將會(huì)更有把握?!瘪R云在2012年網(wǎng)商大會(huì)上的演講中形象地表示了數(shù)據(jù)的重要性。在麥肯錫發(fā)布《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》報(bào)告之后,大數(shù)據(jù)的商業(yè)價(jià)值迅速受到銀行、零售等行業(yè)的關(guān)注。如今,銀行業(yè)中的實(shí)時(shí)欺詐監(jiān)測(cè)和風(fēng)險(xiǎn)管理、電信業(yè)的客戶細(xì)分和業(yè)務(wù)波動(dòng)分析、醫(yī)療業(yè)中的疾病診斷和分析、零售業(yè)的價(jià)格優(yōu)化和購買分析等已經(jīng)開始應(yīng)用大數(shù)據(jù)分析的結(jié)果,大數(shù)據(jù)已經(jīng)開始創(chuàng)造著價(jià)值。目前從管理學(xué)的角度應(yīng)用大數(shù)據(jù)技術(shù)以支持商業(yè)分析和決策,已經(jīng)成為商學(xué)院教育的熱點(diǎn)方向。國(guó)家自然科學(xué)基金委員馮芷艷從商務(wù)管理在大數(shù)據(jù)背景下所面臨的時(shí)代挑戰(zhàn)出發(fā),給出了社會(huì)化的價(jià)值創(chuàng)造、網(wǎng)絡(luò)化的企業(yè)運(yùn)作、實(shí)時(shí)化的市場(chǎng)洞察三個(gè)重要研究視角。同時(shí),描述了社會(huì)化網(wǎng)絡(luò)環(huán)境中的行為機(jī)理與社會(huì)資本結(jié)構(gòu)、企業(yè)網(wǎng)絡(luò)生態(tài)系統(tǒng)及其協(xié)同共生機(jī)制、大數(shù)據(jù)環(huán)境下的顧客洞察與市場(chǎng)營(yíng)銷策略、基于大數(shù)據(jù)的商業(yè)模式創(chuàng)新等研究方向[16]。此外國(guó)內(nèi)學(xué)者陳曉霞對(duì)大數(shù)據(jù)業(yè)務(wù)的商業(yè)模式進(jìn)行了探討,通過對(duì)大數(shù)據(jù)產(chǎn)業(yè)鏈自底向下的三層構(gòu)成提出了基于大數(shù)據(jù)的六種商業(yè)模式[17],(第一層是企業(yè)內(nèi)部交易數(shù)據(jù)和企業(yè)外部的用戶行為數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等,這一層次的主要任務(wù)是數(shù)據(jù)的采集、存儲(chǔ)和傳輸?shù)裙ぷ鳎坏诙哟问切畔?,去粗取精,提煉后形成價(jià)值密度更高的信息,這一層可以產(chǎn)生諸如數(shù)據(jù)包銷售、租賃等業(yè)務(wù)模式,也會(huì)誕生一批靠搜集各類數(shù)據(jù)為主業(yè)的公司,如區(qū)域數(shù)據(jù)提供商;第三個(gè)層次是知識(shí)層,對(duì)于知識(shí)的利用需要人工介入以外,主要還需要融合行業(yè)信息。)主要包括租售數(shù)據(jù)模式、租售信息模式、數(shù)字媒體模式、數(shù)據(jù)使能模式、數(shù)據(jù)空間出租模式、大數(shù)據(jù)技術(shù)提供商模式。就產(chǎn)業(yè)界而言,騰云天下數(shù)據(jù)挖掘總監(jiān)張夏天雖然大數(shù)據(jù)目前在國(guó)內(nèi)還處于初級(jí)階段,但是商業(yè)價(jià)值已經(jīng)顯現(xiàn)出來。首先,手中握有數(shù)據(jù)的公司如同站在金礦上,基于數(shù)據(jù)交易即可產(chǎn)生很好的效益;其次,基于數(shù)據(jù)挖掘會(huì)有很多商業(yè)模式誕生,定位角度不同,或側(cè)重?cái)?shù)據(jù)分析。比如幫企業(yè)做內(nèi)部數(shù)據(jù)挖掘,或側(cè)重優(yōu)化,幫企業(yè)更精準(zhǔn)找到用戶,降低營(yíng)銷成本,提高企業(yè)銷售率,增加利潤(rùn)。百分點(diǎn)的聯(lián)合創(chuàng)始人蘇萌表示,未來,數(shù)據(jù)可能成為最大的交易商品。大數(shù)據(jù)的價(jià)值是通過數(shù)據(jù)共享、交叉復(fù)用后獲取最大的數(shù)據(jù)價(jià)值。在他看來,未來大數(shù)據(jù)將會(huì)如基礎(chǔ)設(shè)施一樣,有數(shù)據(jù)提供方、管理者、監(jiān)管者,數(shù)據(jù)的交叉復(fù)用將大數(shù)據(jù)變成一大產(chǎn)業(yè)。目前,百分點(diǎn)所做的就是通過分析用戶在網(wǎng)絡(luò)上的消費(fèi)行為數(shù)據(jù),幫助電商企業(yè)實(shí)現(xiàn)“千人千面”精準(zhǔn)營(yíng)銷。據(jù)了解,作為全球最大的中文搜索引擎,百度已經(jīng)覆蓋5億中國(guó)網(wǎng)民,擁有千億級(jí)用戶行為數(shù)據(jù),在分析消費(fèi)者行為與對(duì)接企業(yè)營(yíng)銷階段需求方面,已經(jīng)構(gòu)建起相對(duì)完善的商業(yè)產(chǎn)品布局和藍(lán)圖。2.關(guān)于大數(shù)據(jù)分析處理的研究基于社交網(wǎng)絡(luò)、移動(dòng)互聯(lián)、電子商務(wù)、物聯(lián)網(wǎng)等諸多應(yīng)用領(lǐng)域,數(shù)據(jù)量正在以極快的速度增長(zhǎng),包括結(jié)構(gòu)化的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù),其規(guī)?;驈?fù)雜程度超出了常用傳統(tǒng)數(shù)據(jù)庫和軟件技術(shù)所能管理和處理的數(shù)據(jù)集范圍大數(shù)據(jù)廣泛存在,如企業(yè)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、科學(xué)數(shù)據(jù)、醫(yī)療數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、移動(dòng)數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù),等等,并且各行各業(yè)都可得益于大數(shù)據(jù)的應(yīng)用按其應(yīng)用類型,可將大數(shù)據(jù)分為海量交易數(shù)據(jù)(企業(yè)OLTP應(yīng)用)、海量交互數(shù)據(jù)(社網(wǎng)、傳感器、GPS、Web信息)和海量處理數(shù)據(jù)(企業(yè)OLAP應(yīng)用)這3類為了分析和利用這些龐大的數(shù)據(jù)資源,必須依賴有效的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)管理系統(tǒng)。目前,Hadoop是最為流行的大數(shù)據(jù)處理平臺(tái)。Hadoop最先是DougCtting模仿GFS,MapReduce實(shí)現(xiàn)的一個(gè)云計(jì)算開源平臺(tái),后貢獻(xiàn)給Apache.Hadoop已經(jīng)發(fā)展成為包括文件系統(tǒng)(HDFS)、數(shù)據(jù)庫(HBase、Cassandra)、數(shù)據(jù)處理(MapReduce)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)。對(duì)Hadoop改進(jìn)并將其應(yīng)用于各種場(chǎng)景的大數(shù)據(jù)處理已經(jīng)成為新的研究熱點(diǎn)。主要的研究成果集中在對(duì)Hadoop平臺(tái)性能的改進(jìn)、高效的查詢處理、索引構(gòu)建和使用、在Hadoop之上構(gòu)建數(shù)據(jù)倉庫、Hadoop和數(shù)據(jù)庫系統(tǒng)的連接、數(shù)據(jù)挖掘、推薦系統(tǒng)等。國(guó)內(nèi)學(xué)者王珊、王會(huì)舉等人通過提出了大數(shù)據(jù)分析平臺(tái)應(yīng)具備的特性(高度可擴(kuò)展性、高性能、高度容錯(cuò)性、支持異構(gòu)環(huán)境、較低的分析延遲等特性),分析了并行數(shù)據(jù)庫、MapReduce技術(shù)、并行數(shù)據(jù)庫和MapReduce技術(shù)的混合架構(gòu)優(yōu)勢(shì)及不足。該團(tuán)隊(duì)提出了另一種思路,從數(shù)據(jù)的組織和查詢的執(zhí)行兩個(gè)核心層次入手,融合關(guān)系數(shù)據(jù)庫和MapReduce兩種技術(shù),設(shè)計(jì)高性能的可擴(kuò)展的抽象數(shù)據(jù)倉庫查詢處理框架.該框架在支持高度可擴(kuò)展的同時(shí),又具有關(guān)系數(shù)據(jù)庫的性能[18]。團(tuán)隊(duì)嘗試過兩個(gè)研究方向:(1)借鑒MapReduce的思想,使OLAP查詢的處理能像MapReduce一樣高度可擴(kuò)(LinearDB原型);(2)利用關(guān)系數(shù)據(jù)庫的技術(shù),使MapReduce在處理OLAP查詢時(shí),逼近關(guān)系數(shù)據(jù)庫的性能(Dumbo原型)。周傲英等人提出基于MapReduce的列存儲(chǔ)數(shù)據(jù)的連接優(yōu)化方法,極大地加快了連接的速度[19].除此之外,NoSQL是目前云環(huán)境下支持海量數(shù)據(jù)管理的新模式,NoSQL是指那些非關(guān)系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲(chǔ)系統(tǒng)。典型的NoSQL產(chǎn)品有Google的BigTable[20]、基于HadoopHDFS[21]的HBase[22]、Amazon的Dynamo[23]等。國(guó)內(nèi)學(xué)者申德榮等人提出了基于key-value數(shù)據(jù)模型的NoSQL數(shù)據(jù)管理系統(tǒng),解決了傳統(tǒng)數(shù)據(jù)管理系統(tǒng)不具有的可擴(kuò)展性、彈性、容錯(cuò)性等問題,提高了海量數(shù)據(jù)管理的效率[24]。國(guó)外學(xué)者DittrichJ等人,研究了非侵入式的MapReduce性能提升技術(shù),包括特洛伊索引(Trojanindex)和分區(qū)數(shù)據(jù)并置co-partition,即把需要連接的數(shù)據(jù)分區(qū)保存到同一個(gè)節(jié)點(diǎn)或者在網(wǎng)絡(luò)拓?fù)渖辖咏墓?jié)點(diǎn),以加快數(shù)據(jù)分區(qū)之間的Join操作)技術(shù)等[25]。IuMY等人通過對(duì)MapReduce執(zhí)行函數(shù)的分析,對(duì)MapReduce查詢進(jìn)行改寫,充分利用SQL數(shù)據(jù)庫的索引、聚集函數(shù)等功能,提高M(jìn)apReduce函數(shù)的執(zhí)行效率[26]。研究了MapReduce架構(gòu)下面向日志處理的連接操作的性能,在100個(gè)節(jié)點(diǎn)組成的Hadoop集群上進(jìn)行若干連接技術(shù)的性能研究,包括標(biāo)準(zhǔn)的重新分區(qū)連接方法(standardrepartitionjoin)、改進(jìn)的重新分區(qū)連接方法(improvedrepartitionjoin)、直接連接方法(directedjoin)、廣播連接方法(broadcastjoin)、半連接(semi-join)、基于分片的半連接(per-splitsemi-join)等,為不同應(yīng)用場(chǎng)景下使用不同的連接技術(shù)提供了參考在產(chǎn)業(yè)界,大數(shù)據(jù)在美國(guó)也是很前沿的技術(shù),OperaSolutionss公司2008年轉(zhuǎn)向大數(shù)據(jù)服務(wù),目前是典型的大數(shù)據(jù)融合服務(wù)性公司,他本身不擁有數(shù)據(jù),通過購買或者搜集用戶的行為信息為客戶的商業(yè)決策提供精準(zhǔn)的信息,并協(xié)助客戶設(shè)計(jì)新產(chǎn)品。SAS公司是全球商業(yè)智能和分析軟件與服務(wù)領(lǐng)袖。全球50000多家企業(yè)都在通過SAS軟件對(duì)數(shù)據(jù)進(jìn)行深入挖掘,幫助企業(yè)更快、更準(zhǔn)確地進(jìn)行業(yè)務(wù)決策。SAS在綜合的企業(yè)智能平臺(tái)內(nèi)提供一流的數(shù)據(jù)整合、存儲(chǔ)、分析和商業(yè)智能應(yīng)用。國(guó)內(nèi)企業(yè)在大數(shù)據(jù)處理技術(shù)上呈現(xiàn)良好勢(shì)頭,主要以華為、阿里巴巴、百度為首。華為提供了基于x86服務(wù)器的SmartVision大數(shù)據(jù)處理解決方案[11],催生數(shù)據(jù)基礎(chǔ)架構(gòu)的革新,。在“2012華為云計(jì)算大會(huì)”上,推出了OceanStorMVX大數(shù)據(jù)存儲(chǔ)解決方案[12],存儲(chǔ)系統(tǒng)是融合了Scale-outNAS、Scale-outDatabase和Scale-outBackup,實(shí)現(xiàn)存儲(chǔ)、分析、備份多位一體,面向大數(shù)據(jù)存儲(chǔ)的集群存儲(chǔ)系統(tǒng)。3、關(guān)于大數(shù)據(jù)的應(yīng)用領(lǐng)域2012年6~9月份的時(shí)候,IBM公商業(yè)價(jià)值研究院和牛津大學(xué)賽德商學(xué)院聯(lián)合開展研究,針對(duì)大數(shù)據(jù)的應(yīng)用,對(duì)全球95個(gè)國(guó)家、26個(gè)行業(yè)、1144名企業(yè)高管和專業(yè)人士做了調(diào)研。結(jié)果顯示,在全球各行各業(yè)中,企業(yè)高管都意識(shí)到自身需要更多地了解大數(shù)據(jù)、使用大數(shù)據(jù)。提到大數(shù)據(jù)的應(yīng)用,首先必須提到的就是阿里巴巴的金融微貸業(yè)務(wù),阿里金融拿到金融執(zhí)照短短幾年時(shí)間,到2012年6月份其微貸企業(yè)已經(jīng)達(dá)到12.9萬家企業(yè),貸款總額260億萬元,到2012年年底其服務(wù)的微小企業(yè)已經(jīng)超過20萬家。阿里金融利用網(wǎng)上的客戶信用數(shù)據(jù)與行為數(shù)據(jù),建立網(wǎng)絡(luò)數(shù)據(jù)模型及信用體系。借此給每一個(gè)商鋪、每一個(gè)店家做信用等級(jí)的評(píng)分,根據(jù)這個(gè)評(píng)分阿里金融去發(fā)放微貸,從500塊錢到100萬不等,并開發(fā)了很多業(yè)務(wù)產(chǎn)品,包括訂單貸款、信用貸款等等。阿里金融打破了銀行的傳統(tǒng)做法,不需要抵押,不需要擔(dān)保,只依賴于大數(shù)據(jù),通過大數(shù)據(jù)應(yīng)用和業(yè)務(wù)創(chuàng)新,改變了一個(gè)行業(yè),改變了游戲規(guī)則。大數(shù)據(jù)目前在全球已經(jīng)用于各行各業(yè),主要包括金融服務(wù)業(yè)、銀行業(yè)、計(jì)算機(jī)行業(yè)、國(guó)內(nèi)外的咨詢公司、電商企業(yè)、零售業(yè)等等。下面主要從四個(gè)方面闡述大數(shù)據(jù)在不同行業(yè)較成功的應(yīng)用。一是從傳感器、網(wǎng)絡(luò)日志、網(wǎng)上點(diǎn)擊流實(shí)時(shí)采集下來,制定一些業(yè)務(wù)規(guī)則,實(shí)時(shí)滿足業(yè)務(wù)規(guī)則的東西摘錄出來,實(shí)時(shí)判斷。比如某人在一天中打通了20個(gè)電話,但不到2分鐘就掛斷了,這個(gè)電話可能是欺詐電話,這就是業(yè)務(wù)規(guī)則,當(dāng)下一個(gè)電話的數(shù)據(jù)流發(fā)生時(shí),就會(huì)自動(dòng)判斷,這個(gè)是一個(gè)異常的話單,是一個(gè)欺詐的單位,這在電信企業(yè)中已經(jīng)應(yīng)用了。銀行也一樣,開展了信用卡的實(shí)時(shí)監(jiān)測(cè)。另外一種手段是內(nèi)容計(jì)算。傳統(tǒng)處理都是數(shù)據(jù)庫表格的方式,而現(xiàn)在要處理內(nèi)容。一是社交媒體跟輿情的分析。首先,從微博、社交媒體中把需要的文檔、文章,通過爬蟲從網(wǎng)上爬下來,放在非結(jié)構(gòu)化的數(shù)據(jù)平臺(tái)中,對(duì)內(nèi)容進(jìn)行分詞、句法分析、情感分析,同時(shí)做一些關(guān)系實(shí)體的識(shí)別,通過這些內(nèi)容、關(guān)系分析企業(yè)聲譽(yù)度、品牌、服務(wù)質(zhì)量,跟蹤產(chǎn)品評(píng)價(jià)和市場(chǎng)動(dòng)態(tài),做企業(yè)層面輿情的監(jiān)控。二是利用360度全景客戶視圖開展?fàn)I銷、銷售。傳統(tǒng)的客戶視圖基于客戶在本企業(yè)的交易數(shù)據(jù),但是新的技術(shù)手段出現(xiàn)后,很多企業(yè)考慮全景的客戶視圖,除了企業(yè)本身的交易數(shù)據(jù)以外,把客戶在社交網(wǎng)絡(luò)上、媒體、交互數(shù)據(jù)上的一些信息集成起來,和原來傳統(tǒng)的數(shù)據(jù)集中在一起,做全景的客戶視圖,全面了解客戶。目前在銀行、電信行業(yè),很多企業(yè)都在做這個(gè)事情。360度全景視圖怎么做?利用外部的社交網(wǎng)絡(luò)數(shù)據(jù),對(duì)客戶社交網(wǎng)絡(luò)進(jìn)行畫像,對(duì)客戶在網(wǎng)絡(luò)上的信息進(jìn)行歸類,有些是客戶的評(píng)價(jià)討論,有些是客戶的傾向性信息,還有客戶情緒的信息、行為的數(shù)據(jù),全面整合,對(duì)客戶進(jìn)行網(wǎng)絡(luò)的畫像。基于這個(gè)畫像,企業(yè)可以實(shí)現(xiàn)微觀的客戶細(xì)分、營(yíng)銷活動(dòng)管理、信譽(yù)風(fēng)險(xiǎn)的評(píng)估以及競(jìng)爭(zhēng)對(duì)手的分析。三是通過大數(shù)據(jù)開展關(guān)聯(lián)企業(yè)、交易對(duì)手風(fēng)險(xiǎn)暴露分析和事件監(jiān)測(cè)。將交易所、證監(jiān)會(huì)、銀監(jiān)會(huì)、安全部門、公安部門的監(jiān)管文件,以及新聞、出版物、社交媒體數(shù)據(jù)爬下來,刻畫企業(yè)的社交網(wǎng)絡(luò)圖,實(shí)時(shí)展示企業(yè)與外界的聯(lián)系。四是客戶的信用風(fēng)險(xiǎn)評(píng)估。比如花旗銀行本身掌握客戶的很多交易的數(shù)據(jù),同時(shí)也會(huì)采集客戶的一些外部信息,以及交易對(duì)手信息、市場(chǎng)信息、新聞評(píng)論,并且把這些數(shù)據(jù)關(guān)聯(lián)起來。當(dāng)客戶貸款時(shí),系統(tǒng)通過模型能自動(dòng)判斷貸款利率(因?yàn)槊绹?guó)的利率是浮動(dòng)的,這個(gè)利率會(huì)給信貸員提供參考)。這與阿里金融異曲同工。這方面的應(yīng)用還有很多,比如保險(xiǎn)公司獲取客戶體檢的信息以及病歷,從而判斷客戶大概得了什么病,應(yīng)該用什么藥,并把這些結(jié)論提供給醫(yī)生做實(shí)時(shí)參考。4、大數(shù)據(jù)與云計(jì)算結(jié)合的研究云計(jì)算受到學(xué)術(shù)界和工業(yè)界的熱捧,隨后,大數(shù)據(jù)橫空出世,更是炙手可熱,經(jīng)常有人把大數(shù)據(jù)和云計(jì)算相提并論。大數(shù)據(jù)與云計(jì)算確實(shí)有一些相同之處。它們都是為數(shù)據(jù)存儲(chǔ)和處理服務(wù)的,都需要占用大量的存儲(chǔ)和計(jì)算資源,而且大數(shù)據(jù)用到的海量數(shù)據(jù)存儲(chǔ)技術(shù)、海量數(shù)據(jù)管理技術(shù)、MapReduce等并行處理技術(shù)也都是云計(jì)算的關(guān)鍵技術(shù)。但是,大數(shù)據(jù)與云計(jì)算也有很多方面的差異。云計(jì)算的目的是通過互聯(lián)網(wǎng)更好地調(diào)用、擴(kuò)展和管理計(jì)算及存儲(chǔ)資源和能力,以節(jié)省企業(yè)的IT部署成本,其處理對(duì)象是IT資源、處理能力和各種應(yīng)用。云計(jì)算從根本上改變了企業(yè)的IT架構(gòu),產(chǎn)業(yè)發(fā)展的主要推動(dòng)力量是存儲(chǔ)及計(jì)算設(shè)備的生產(chǎn)廠商和擁有計(jì)算及存儲(chǔ)資源的企業(yè)。而大數(shù)據(jù)的目的是充分挖掘海量數(shù)據(jù)中的信息,發(fā)現(xiàn)數(shù)據(jù)中的價(jià)值,其處理對(duì)象是各種數(shù)據(jù)。大數(shù)據(jù)使得企業(yè)從“業(yè)務(wù)驅(qū)動(dòng)”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動(dòng)”,從而改變了企業(yè)的業(yè)務(wù)架構(gòu),其直接受益者不是IT部門,而是業(yè)務(wù)部門或企業(yè)CEO,產(chǎn)業(yè)發(fā)展的主要推動(dòng)力量是從事數(shù)據(jù)存儲(chǔ)與處理的軟件廠商和擁有大量數(shù)據(jù)的企業(yè)。學(xué)者余從國(guó)認(rèn)為云計(jì)算和大數(shù)據(jù)實(shí)際上是工具與用途的關(guān)系,即云計(jì)算為大數(shù)據(jù)提供了有力的工具和途徑,大數(shù)據(jù)為云計(jì)算提供了很有價(jià)值的用武之地[]。大數(shù)據(jù)若與云計(jì)算相結(jié)合,將相得益彰,互相都能發(fā)揮最大的優(yōu)勢(shì)。云計(jì)算能為大數(shù)據(jù)提供強(qiáng)大的存儲(chǔ)和計(jì)算能力,更加迅速地處理大數(shù)據(jù)的豐富信息,并更方便地提供服務(wù);而來自大數(shù)據(jù)的業(yè)務(wù)需求,能為云計(jì)算的落地找到更多更好的實(shí)際應(yīng)用。評(píng)述:大數(shù)據(jù)是指一般的軟件工具難以捕捉、管理和分析的大容量數(shù)據(jù),一般以“太字節(jié)”為單位,大數(shù)據(jù)之“大”,并不僅僅在于“容量之大”,更大的意義在于:通過對(duì)海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識(shí),創(chuàng)造新的價(jià)值,帶來“大知識(shí)”、“大科技”、“大利潤(rùn)”和“大發(fā)展”。大數(shù)據(jù)大數(shù)據(jù)作為一種重要的戰(zhàn)略資產(chǎn),已經(jīng)不同程度地滲透到每個(gè)行業(yè)領(lǐng)域和部門,其深度應(yīng)用不僅有助于企業(yè)經(jīng)營(yíng)活動(dòng),還有利于推動(dòng)國(guó)民經(jīng)濟(jì)發(fā)展。目前,關(guān)于大數(shù)據(jù)的存儲(chǔ)處理技術(shù)研究中有6種數(shù)據(jù)管理技術(shù)普遍被關(guān)注,即分布式存儲(chǔ)與計(jì)算、內(nèi)存數(shù)據(jù)庫技術(shù)、列式數(shù)據(jù)庫技術(shù)、云數(shù)據(jù)庫、NoSQL、移動(dòng)數(shù)據(jù)庫技術(shù)。其中分布式存儲(chǔ)與計(jì)算受關(guān)注度最高。參考文獻(xiàn):GantzJ,ReinselD.2011DigitalUniverseStudy:ExtractingValuefromChaos[M].IDCGo-to-MarketService,2011.Nature.BigData[EB/OL].[2012-10-02]./new/special/bigdata/index.htmlBryantRE,KatzRH,LazowskaED.Big-Datacomputing:Creatingrevolutionarybreakthroughsincommerce,science,andsociety[R].[2012-10-02]./ccc/docs/init/Big_Data.PdfScinece.Specicalonlinecollection:Dealingwithdata[EB/OL].[2012-10-02]./site/special/data/,2011AgrawalD,BernsteinP,BertinoE,etal.Challengesandopportunitieswithbigdata-AcommunitywhitepaperdevelopedbyleadingresearchersacrosstheUnitedStates[R/OL].[2012-10-02],/ccc/docs/init/bigdatawhitepaper.pdfManyikaJ,ChuiM,BrownB,etal.Biddata:Thenextfrontierforinnovation,competion,andproductivity[R/OL].[2012-10-02].http://www.M/Insights/MGI/Research/Technology_and_Innovation

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論