PB級(jí)大數(shù)據(jù)存儲(chǔ)技術(shù)與分析技術(shù)解析_第1頁
PB級(jí)大數(shù)據(jù)存儲(chǔ)技術(shù)與分析技術(shù)解析_第2頁
PB級(jí)大數(shù)據(jù)存儲(chǔ)技術(shù)與分析技術(shù)解析_第3頁
PB級(jí)大數(shù)據(jù)存儲(chǔ)技術(shù)與分析技術(shù)解析_第4頁
PB級(jí)大數(shù)據(jù)存儲(chǔ)技術(shù)與分析技術(shù)解析_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、PB級(jí)大數(shù)據(jù)存儲(chǔ)技術(shù)與分析技術(shù)解析2013年122月2日目錄TOC o 1-3 h z u HYPERLINK l _Toc 一、PB級(jí)大數(shù)數(shù)據(jù)存儲(chǔ)技術(shù)術(shù)解析 PAGEREF _Toc h 2 HYPERLINK l _Toc 二、大數(shù)據(jù)分析析系統(tǒng)應(yīng)規(guī)避避的問題 PAGEREF _Toc h 5 HYPERLINK l _Toc 三、剖析Haddoop和大大數(shù)據(jù)的七誤誤解 PAGEREF _Toc h 8 HYPERLINK l _Toc 四、6個(gè)優(yōu)秀的的開源文件系系統(tǒng)助力大數(shù)數(shù)據(jù)分析 PAGEREF _Toc h 133 HYPERLINK l _Toc 五、大數(shù)據(jù)與關(guān)關(guān)系型數(shù)據(jù)庫(kù)庫(kù)是否水火

2、不不容?NO PAGEREF _Toc h 17 HYPERLINK l _Toc 六、大數(shù)據(jù)探討討:如何整理理1700億條條Twittter發(fā)布信信息? PAGEREF _Toc h 21 HYPERLINK l _Toc 七、暢談阿里巴巴巴的大數(shù)據(jù)據(jù)夢(mèng) PAGEREF _Toc h 26 HYPERLINK l _Toc 八、Twittter利用Storrm系統(tǒng)處理理實(shí)時(shí)大數(shù)據(jù)據(jù) PAGEREF _Toc h 35PB級(jí)大數(shù)據(jù)存存儲(chǔ)技術(shù)解析析對(duì)于存儲(chǔ)管理人人員來說,大大數(shù)據(jù)應(yīng)該分分為大數(shù)據(jù)存存儲(chǔ)和大數(shù)據(jù)據(jù)分析,這兩兩者的關(guān)系是是大數(shù)據(jù)存存儲(chǔ)是用于大大數(shù)據(jù)分析的的。然而,到到目前為止這這是兩

3、種截然然不同的計(jì)算算機(jī)技術(shù)領(lǐng)域域。本文就重重點(diǎn)解析一下下PB級(jí)大數(shù)數(shù)據(jù)存儲(chǔ)技術(shù)術(shù),希望對(duì)您您有所幫助。越來越多的存儲(chǔ)儲(chǔ)產(chǎn)品都在融融入大數(shù)據(jù)的的概念和功能能,并使之成成為產(chǎn)品的一一大賣點(diǎn)。但但對(duì)于從事存存儲(chǔ)管理的專專業(yè)人員來說說,對(duì)“大數(shù)據(jù)”在具體應(yīng)用用場(chǎng)景中的特特點(diǎn)和區(qū)別有有所了解。大數(shù)據(jù)存儲(chǔ)致力力于研發(fā)可以以擴(kuò)展至PBB甚至EB級(jí)級(jí)別的數(shù)據(jù)存存儲(chǔ)平臺(tái);大數(shù)據(jù)分析析關(guān)注在最短短時(shí)間內(nèi)處理理大量不同類類型的數(shù)據(jù)集集。在快速變化的技技術(shù)趨勢(shì)中有有兩個(gè)特點(diǎn)需需要存儲(chǔ)管理理人員重視起起來。第一,大數(shù)據(jù)分分析流程和傳傳統(tǒng)的數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的方式完完全不同,其其已經(jīng)變成了了業(yè)務(wù)部門級(jí)級(jí)別和數(shù)據(jù)中中心級(jí)別的關(guān)關(guān)鍵

4、應(yīng)用。這這也是存儲(chǔ)管管理員的切入入點(diǎn)。隨著基基礎(chǔ)平臺(tái)(分分布式計(jì)算或或其它架構(gòu))變得業(yè)務(wù)關(guān)關(guān)鍵化,用戶戶群較以往更更加地依賴這這一平臺(tái),這這也使得其成成為企業(yè)安全全性、數(shù)據(jù)保保護(hù)和數(shù)據(jù)管管理策略的關(guān)關(guān)鍵課題。第二,通常用于于數(shù)據(jù)分析平平臺(tái)的分布式式計(jì)算平臺(tái)內(nèi)內(nèi)的存儲(chǔ)不是是你以往面對(duì)對(duì)的網(wǎng)絡(luò)附加加存儲(chǔ)(NAAS)和存儲(chǔ)儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)其通常是是內(nèi)置的直連連存儲(chǔ)(NAAS)以及組組成集群的分分布式計(jì)算節(jié)節(jié)點(diǎn)。這使得得管理大數(shù)據(jù)據(jù)變得更為復(fù)復(fù)雜,因?yàn)槟隳銦o法像以前前那樣對(duì)這些些數(shù)據(jù)部署安安全、保護(hù)和和保存流程。然而,執(zhí)行行這些流程策策略的必要性性被集成在管管理分布式計(jì)計(jì)算集群之中中,并且改變變了

5、計(jì)算和存存儲(chǔ)層交互的的方式。大數(shù)據(jù)分析和傳傳統(tǒng)的數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)的不同大數(shù)據(jù)分析中包包含了各種快快速成長(zhǎng)中的的技術(shù)。因此此,簡(jiǎn)單用某某一種技術(shù)嘗嘗試對(duì)其定義義,比如分布布式計(jì)算,會(huì)會(huì)比較困難。不過,這些些定義大數(shù)據(jù)據(jù)分析的通用用性技術(shù)可以以用如下特征征闡述:對(duì)于傳統(tǒng)數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)處理流程程效率和擴(kuò)展展性方面限制制的感知。將將數(shù)據(jù),不論論是結(jié)構(gòu)化還還是非結(jié)構(gòu)化化數(shù)據(jù)從多個(gè)個(gè)數(shù)據(jù)源匯聚聚的能力。以以及認(rèn)識(shí)到數(shù)數(shù)據(jù)的及時(shí)性性是擴(kuò)展非結(jié)結(jié)構(gòu)化數(shù)據(jù)源源的關(guān)鍵,其其中包括移動(dòng)動(dòng)設(shè)備,RFFID,網(wǎng)絡(luò)絡(luò)和不斷增長(zhǎng)長(zhǎng)的自動(dòng)化感感知技術(shù)。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)庫(kù)系統(tǒng)通常從從現(xiàn)有的關(guān)系系型數(shù)據(jù)庫(kù)中中抓取數(shù)據(jù)。然而,據(jù)估估計(jì)超過80

6、0%的企業(yè)數(shù)數(shù)據(jù)是非結(jié)構(gòu)構(gòu)化的,即無無法關(guān)系型數(shù)數(shù)據(jù)庫(kù)管理系系統(tǒng)(RDBBMS),比比如DB2和和Oraclle完成的數(shù)數(shù)據(jù)。一般而而言,處于此此次討論的目目的,非結(jié)構(gòu)構(gòu)化數(shù)據(jù)可以以看成所有無無法簡(jiǎn)單轉(zhuǎn)化化到結(jié)構(gòu)化關(guān)關(guān)系型數(shù)據(jù)庫(kù)庫(kù)中的所有數(shù)數(shù)據(jù)。而企業(yè)業(yè)現(xiàn)在希望從從這些非結(jié)構(gòu)構(gòu)化數(shù)據(jù)類型型中抽取有價(jià)價(jià)值的信息,包包括:郵件和其它形式式的電子通訊訊記錄網(wǎng)站上的資料,包包括點(diǎn)擊量和和社交媒體相相關(guān)的內(nèi)容數(shù)字視頻和音頻頻設(shè)備產(chǎn)生的數(shù)據(jù)據(jù)(RFIDD,GPS,傳傳感器產(chǎn)生的的數(shù)據(jù),日志志文件等)以以及物聯(lián)網(wǎng)在大數(shù)據(jù)分析的的情況下,查查看遠(yuǎn)多于RRDBMS的的數(shù)據(jù)類型十十分必要這代表了各各種重要的新新信

7、息源。并并且隨著每年年非結(jié)構(gòu)化數(shù)數(shù)據(jù)存儲(chǔ)總量量較結(jié)構(gòu)化數(shù)數(shù)據(jù)增長(zhǎng)率高高出10到550倍,從業(yè)業(yè)務(wù)角度看這這些數(shù)據(jù)也變變得更為重要要。更重要的數(shù)據(jù)需需要更專業(yè)的的人員進(jìn)行分分析。但傳統(tǒng)統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)庫(kù)技術(shù)對(duì)海量量非結(jié)構(gòu)化數(shù)數(shù)據(jù)的處理根根本無法滿足足大數(shù)據(jù)的需需求。所以,存存儲(chǔ)管理人員員也應(yīng)該更快快的跟隨技術(shù)術(shù)潮流,更新新自己的技術(shù)術(shù)和知識(shí)結(jié)構(gòu)構(gòu),提高自己己對(duì)大數(shù)據(jù)的的管理和分析析能力。大數(shù)據(jù)分析系統(tǒng)統(tǒng)應(yīng)規(guī)避的問問題隨著互聯(lián)網(wǎng)技術(shù)術(shù)的不斷發(fā)展展,數(shù)據(jù)本身身是資產(chǎn),這這一點(diǎn)在業(yè)界界已經(jīng)形成共共識(shí)。越來越越多的企業(yè)涉涉足到大數(shù)據(jù)據(jù),但是大數(shù)數(shù)據(jù)沒有想象象中的那么簡(jiǎn)簡(jiǎn)單,所有大大數(shù)據(jù)的屬性性,包括數(shù)量量,

8、速度,多多樣性等反映映了數(shù)據(jù)庫(kù)不不斷增長(zhǎng)的復(fù)復(fù)雜性。本文文從安裝、搭搭建等方面展展示了大數(shù)據(jù)據(jù)分析系統(tǒng)的的應(yīng)該規(guī)避的的系列問題。大數(shù)據(jù)分析前期期要做的事其實(shí),每一個(gè)數(shù)數(shù)據(jù)都有一個(gè)個(gè)ETL,就就是抽取、轉(zhuǎn)轉(zhuǎn)化,然后去去加載,包括括做數(shù)據(jù)的清清洗。如果數(shù)數(shù)據(jù)大批量進(jìn)進(jìn)來的話,有有些數(shù)據(jù)可能能是有問題的的,馬先生舉舉了個(gè)例子:比如說,好好多地址會(huì)寫寫得比較模糊糊,如果要搜搜索北京這個(gè)個(gè)詞的時(shí)候,數(shù)數(shù)據(jù)倉(cāng)庫(kù)里可可能只有一個(gè)個(gè)京字,這些些都要統(tǒng)一整整理成一個(gè),比比如說北京,這這樣后面分析析就會(huì)簡(jiǎn)單,比比如山東,有有人會(huì)輸入“魯”字來進(jìn)行搜搜索,而不是是山東,這就就需要在大數(shù)數(shù)據(jù)分析前期期做好數(shù)據(jù)清清理工

9、作,做做規(guī)范化,這這樣后面的 HYPERLINK t _blank 數(shù)數(shù)據(jù)分析起來來就方便很多多。搭建大數(shù)據(jù)分析析系統(tǒng)的注意意事項(xiàng)在搭建大數(shù)據(jù)分分析系統(tǒng)時(shí),有有哪些需要注注意的事項(xiàng)?馬老師提到到:首先要弄弄明白你所在在企業(yè)需要什什么樣的數(shù)據(jù)據(jù),或者你想想得到什么價(jià)價(jià)值,想明白白了再去做。因?yàn)樽鰯?shù)據(jù)據(jù)不像做別的的東西,一定定明確知道要要知道你要干干什么,不然然這個(gè)系統(tǒng)搭搭的時(shí)候會(huì)有有很多困難,不不知道該怎么么搭,不知道道用什么技術(shù)術(shù),也不知道道數(shù)據(jù)進(jìn)去是是否在浪費(fèi)。而目前的情情況是:很多多企業(yè)可能會(huì)會(huì)先把架構(gòu)搭搭出來,實(shí)際際上這數(shù)據(jù)每每天在算,但但是不知道這這數(shù)據(jù)帶來什什么價(jià)值,所所以更多是一一

10、個(gè)業(yè)務(wù)驅(qū)動(dòng)動(dòng)的。再舉個(gè)個(gè)例子:比如如說中國(guó)移動(dòng)動(dòng)就想挖一挖挖,到底是哪哪一個(gè)用戶老老欠費(fèi),哪一一個(gè)用戶用得得多,用的多多的就給他優(yōu)優(yōu)惠多一點(diǎn)如果他有有這個(gè)需求,你你再把這個(gè)需需求下轉(zhuǎn)給下下面的人,按按照這個(gè)需求求去開發(fā);其次,需要選擇擇適當(dāng)?shù)募夹g(shù)術(shù)。比如說你你一臺(tái)機(jī)器夠夠用的,不要要用兩臺(tái)機(jī)器器,能夠進(jìn)來來報(bào)表就不要要用交互報(bào)表表,因?yàn)槟莻€(gè)個(gè)都是有技術(shù)術(shù)成本的,并并且上線的速速度會(huì)慢很多多。所以建議議任何一個(gè)企企業(yè)在搭建數(shù)數(shù)據(jù)分析以前前,要特別清清晰地知道其其搭建的需求求和目的,選選擇什么方案案,搭它來解解決什么問題題,針對(duì)需求求你去做一個(gè)個(gè)數(shù)據(jù)分析;再次,在沒有時(shí)時(shí)時(shí)性要求時(shí)時(shí),你不要自自作

11、主張,向向老大提這個(gè)個(gè)。因?yàn)榇蠊镜呐恳岩呀?jīng)做得非常常完美了,可可能批量已經(jīng)經(jīng)帶來35%的收入增加加了,他要再再做時(shí)時(shí),再再增加5%,而而你現(xiàn)在什么么都沒有。如如果說先要做做時(shí)時(shí),或者者先要全部搞搞出來的話,可可能要先一步步一部把355%做好,把把那個(gè)批量先先做出來,然然后再做時(shí)時(shí)時(shí),這樣效果果會(huì)更好。不要濫搭大數(shù)據(jù)據(jù)分析系統(tǒng)技術(shù)這個(gè)東西都都是相通的,沒沒有一項(xiàng)改進(jìn)進(jìn)都是說完全全是重新造出出來的,都是是在改的,但但是它帶來的的價(jià)值不一樣樣,它帶來的的人的思考,就就跟人從零售售店買東西和和網(wǎng)商這種不不一樣,但是是技術(shù),零售售店也會(huì)用一一些數(shù)據(jù)庫(kù),網(wǎng)網(wǎng)上也可能用用,要在這個(gè)個(gè)上面做一些些轉(zhuǎn)變。

12、馬老老師談到,好好多國(guó)企(這這里就不點(diǎn)名名),就是為為了上項(xiàng)目去去上項(xiàng)目,稱稱自己有 HYPERLINK t _blank 海量量數(shù)據(jù)。當(dāng)問問他需要搭建建的大數(shù)據(jù)系系統(tǒng)是用來干干什么,他們們的答案很出出乎意料:先先給搭起來,先先存起來,需需要的時(shí)候再再用,就這種種思想。其實(shí)實(shí)這個(gè)是沒有有必要的??偨Y(jié)雖然大數(shù)據(jù)現(xiàn)在在炙手可熱,大大數(shù)據(jù)分析越越來越火爆,很很多企業(yè)都在在試圖擁抱大大數(shù)據(jù)技術(shù)。但還是應(yīng)該該具體問題具具體分析,因因?yàn)榇髷?shù)據(jù)分分析系統(tǒng)并非非適合所有的的企業(yè),一些些小型規(guī)模的的企業(yè)在舊系系統(tǒng)能滿足需需求的時(shí)候,就就不要盲目地地去追隨潮流流,舍棄舊的的系統(tǒng)重新搭搭建,也可能能解決了這個(gè)個(gè)小缺

13、口,但但是可能會(huì)滋滋生其它更大大的問題,這這就得不償失失了。剖析Hadooop和大數(shù)據(jù)據(jù)的七誤解如今,Hadooop成為解解決大數(shù)據(jù)需需求的主要投投資領(lǐng)域之一一,而類似FFaceboook等互聯(lián)聯(lián)網(wǎng)巨頭在都都公開的吹捧捧Hadooop上取得的的成功,同樣樣初入大數(shù)據(jù)據(jù)領(lǐng)域的公司司也必先著眼眼于Hadooop。但對(duì)對(duì)于Hadooop技術(shù)而而言,是一個(gè)個(gè)多維的解決決方案,可以以通過不同的的方式進(jìn)行部部署和使用。下面就了解解一些關(guān)于HHadoopp和大數(shù)據(jù)的的七大錯(cuò)誤理理念。對(duì)于Hadooop技術(shù)而言言,可以說是是開源領(lǐng)域的的傳奇,然而而如今業(yè)界還還伴隨著一些些流言,這些些流言可能會(huì)會(huì)導(dǎo)致IT高高管

14、們帶著“有色”的觀點(diǎn)去制制定策略。如今,數(shù)據(jù)量在在以驚人的速速度增長(zhǎng),從從IDC分析析師報(bào)告中22013年數(shù)數(shù)據(jù)存儲(chǔ)上的的增長(zhǎng)速度將將達(dá)到53.4%,ATT&T更是聲聲稱無線數(shù)據(jù)據(jù)的流量在過過去的5年內(nèi)內(nèi)增長(zhǎng)2000倍,從互聯(lián)聯(lián)網(wǎng)內(nèi)容、電電子郵件、應(yīng)應(yīng)用通知、社社交消息以及及每天接收的的消息都在顯顯著的增長(zhǎng),這這也是眾多大大企業(yè)都聚焦焦大數(shù)據(jù)的原原因所在。毫無疑問,Haadoop成成為解決大數(shù)數(shù)據(jù)需求的主主要投資領(lǐng)域域之一,而類類似Faceebook等等互聯(lián)網(wǎng)巨頭頭在都公開的的吹捧Haddoop上取取得的成功,同同樣初入大數(shù)數(shù)據(jù)領(lǐng)域的公公司也必先著著眼于Haddoop。但但對(duì)于Haddoop技

15、術(shù)術(shù)而言,是一一個(gè)多維的解解決方案,可可以通過不同同的方式進(jìn)行行部署和使用用。下面就了了解一些關(guān)于于Hadooop和大數(shù)據(jù)據(jù)的七大錯(cuò)誤誤理念:大數(shù)據(jù)僅僅是容容量對(duì)大數(shù)據(jù)來說,除除了指體積之之外,還經(jīng)常常提到Varriety(多多樣)、Vaariabiility(可可變)、Veelocitty(速度)和和Valuee(價(jià)值)。關(guān)鍵點(diǎn)在于于大數(shù)據(jù)并不不是體積上的的增長(zhǎng),更多多是未來的實(shí)實(shí)時(shí)分析、結(jié)結(jié)構(gòu)化和非結(jié)結(jié)構(gòu)化數(shù)據(jù)的的發(fā)展,并被被企業(yè)CIOO用于更好的的決策。綜上所述,并不不是只有分析析大數(shù)據(jù)才會(huì)會(huì)獲得價(jià)值。舉個(gè)例子,存存儲(chǔ)和分析11PB的超時(shí)時(shí)限數(shù)據(jù)的價(jià)價(jià)值可能比不不上實(shí)時(shí)分析析1GB的數(shù)數(shù)

16、據(jù),而從“新鮮”的數(shù)據(jù)上獲獲得價(jià)值比解解剖過時(shí)的數(shù)數(shù)據(jù)更具價(jià)值值。傳統(tǒng)SQL不能能在Hadooop上使用用眾多廠商在Haadoop上上投入精力,布布局市場(chǎng)戰(zhàn)略略時(shí),十分清清楚HDFSS和MapRReducee受限于處理理類似SQLL語言的能力力,這也是HHive、PPig和Sqqoop最終終得以推廣的的原因。更多多企業(yè)通過HHadoopp和SQL兼兼容來管理大大量的數(shù)據(jù),PPivotaal HD是是結(jié)合SQLL并行處理資資料庫(kù)與Haadoop 2.0,針針對(duì)企業(yè)資料料分析需求而而優(yōu)化的Haadoop強(qiáng)強(qiáng)化版本。Hadoop是是唯一的新IIT數(shù)據(jù)平臺(tái)臺(tái)談到數(shù)據(jù)平臺(tái),大大型機(jī)在ITT投資組合里里有

17、是一個(gè)長(zhǎng)長(zhǎng)期投資,與與ERP、CCRM和SCCM這些系統(tǒng)統(tǒng)一樣演變至至今。而面對(duì)對(duì)大數(shù)據(jù)時(shí)代代,大型機(jī)不不想被架構(gòu)遺遺棄,必須展展示在現(xiàn)有IIT投資環(huán)境境中的價(jià)值,而而許多客戶遇遇到速度、規(guī)規(guī)模和成本的的問題,通過過vFabrric SQQLFiree這樣的內(nèi)存存大數(shù)據(jù)網(wǎng)絡(luò)絡(luò)去解決高速速數(shù)據(jù)存取,促促進(jìn)大型機(jī)批批處理或?qū)崟r(shí)時(shí)分析報(bào)告這這些問題。虛擬化會(huì)導(dǎo)致性性能下降Hadoop最最初的設(shè)計(jì)只只是運(yùn)行實(shí)體體服務(wù)器上,然然而隨著云計(jì)計(jì)算發(fā)展,許許多企業(yè)都希希望能作為云云數(shù)據(jù)中心提提供服務(wù)。之之所以虛擬化化Hadooop,企業(yè)首首先要考慮管管理基礎(chǔ)設(shè)施施的擴(kuò)展性,認(rèn)認(rèn)識(shí)到擴(kuò)展計(jì)計(jì)算資源,比比如虛擬H

18、aadoop節(jié)節(jié)點(diǎn)在數(shù)據(jù)和和計(jì)算分開時(shí)時(shí)會(huì)對(duì)性能有有所幫助,否否則如果你關(guān)關(guān)閉某個(gè)Haadoop節(jié)節(jié)點(diǎn)將丟失上上面的所有數(shù)數(shù)據(jù)或者添加加一個(gè)沒有數(shù)數(shù)據(jù)的空節(jié)點(diǎn)點(diǎn)。Hadoop只只可以在數(shù)據(jù)據(jù)中心運(yùn)行對(duì)于在SaaSS云服務(wù)解決決方案,許多多云服務(wù)允許許云端運(yùn)行HHadoopp、SQL,這這無疑可以幫幫助企業(yè)省下下數(shù)據(jù)中心建建造投資的時(shí)時(shí)間和金錢。特別是對(duì)于于公有云情況況下,Javva開發(fā)者可可以從Sprring DData ffor Haadoop以以及一些其它它的GitHHub用例中中獲益。大數(shù)據(jù)復(fù)雜性Hadoop對(duì)對(duì)虛擬化無經(jīng)經(jīng)濟(jì)價(jià)值Hadoop被被很多人認(rèn)為為,盡管在商商用服務(wù)器上上運(yùn)行,

19、添加加一個(gè)虛擬層層在帶來額外外支出的同時(shí)時(shí)并不會(huì)有額額外的價(jià)值收收益,但其實(shí)實(shí)這個(gè)說法并并沒有考慮到到數(shù)據(jù)和數(shù)據(jù)據(jù)分析事實(shí)上上都是動(dòng)態(tài)的的。虛擬化基基礎(chǔ)設(shè)施同樣樣可以減少物物理硬件數(shù)量量,讓CAPPEX(資本本支出)直接接等于商用硬硬件成本,而而通過自動(dòng)以以及高效利用用共享基礎(chǔ)設(shè)設(shè)施同樣可以以減少OPEEX(運(yùn)營(yíng)成成本)。Hadoop不不能運(yùn)行在SSAN或NAAS上盡管Hadooop在本地磁磁盤上運(yùn)行,對(duì)對(duì)于中小型集集群一樣可以以在一個(gè)共享享的SAN環(huán)環(huán)境下體現(xiàn)良良好的性能表表現(xiàn),而高帶帶寬比如100GB以太網(wǎng)網(wǎng)、PoE以以及iSCSSI對(duì)性能同同樣有很好的的支持。由此,大數(shù)據(jù)成成為行業(yè)追逐逐

20、的熱點(diǎn),以以上七大有關(guān)關(guān)大數(shù)據(jù)“誤解”問題的客觀觀看待。如同同不同項(xiàng)目需需求不同,HHadoopp是一個(gè)工具具來幫助企業(yè)業(yè)更好的應(yīng)對(duì)對(duì)大數(shù)據(jù)問題題。無論是面面對(duì)數(shù)據(jù)網(wǎng)格格的GemFFire或SQLFFire,還還是面向消息息的RabbbitMQ中中間件,一個(gè)個(gè)完整的SaaaS解決方方案如今比在在Hadooop環(huán)境更容容易實(shí)現(xiàn)。6個(gè)優(yōu)秀的開源源文件系統(tǒng)助助力大數(shù)據(jù)分分析“大數(shù)據(jù)”作為為時(shí)下最火熱熱的IT行業(yè)業(yè)的詞匯,個(gè)個(gè)人、企業(yè)和和政府機(jī)構(gòu)之之間的互動(dòng)創(chuàng)創(chuàng)造了數(shù)據(jù)的的海洋,我們們51CTOO傳媒在4月月26日-227日也將舉舉行20133大數(shù)據(jù)全球球技術(shù)峰會(huì),分分享大數(shù)據(jù)技技術(shù)趨勢(shì)和最最佳實(shí)踐,

21、是是一場(chǎng)重新認(rèn)認(rèn)識(shí)數(shù)據(jù)價(jià)值值的技術(shù)盛宴宴。大數(shù)據(jù)需需要大量的儲(chǔ)儲(chǔ)存空間,本本文分享了66個(gè)優(yōu)秀的開開源文件系統(tǒng)統(tǒng),助力大數(shù)數(shù)據(jù)深入分析析。大數(shù)據(jù)在今天吸吸引了大量關(guān)關(guān)注,個(gè)人、企業(yè)和政府府機(jī)構(gòu)之間的的互動(dòng)創(chuàng)造了了數(shù)據(jù)的海洋洋,通過有效效識(shí)別、訪問問、篩選和分分析其中部分分?jǐn)?shù)據(jù)能帶來來新的見解和和益處。大數(shù)數(shù)據(jù)需要大量量的儲(chǔ)存空間間,先進(jìn)的存存儲(chǔ)基礎(chǔ)設(shè)施施必不可少,需需要能在多臺(tái)臺(tái)服務(wù)器上伸伸縮自如的存存儲(chǔ)解決方案案。有許多優(yōu)優(yōu)秀的開源文文件系統(tǒng)能用用于深入分析析大數(shù)據(jù),其其中包括:QFSQuantcaast (QFS) 是一個(gè)高性性能、容錯(cuò)、 HYPERLINK t _blank 分布式的文文

22、件系統(tǒng),其其開發(fā)是用于于支持 MaapReduuce 處理理或者需要順順序讀寫大文文件的應(yīng)用。HDFSHadoop Distrributeed ,簡(jiǎn)稱稱 HYPERLINK t _blank HDFS,是是一個(gè) HYPERLINK t _blank 分布式式文件系統(tǒng)。HDFS有有著高容錯(cuò)性性(faullt-tollerentt)的特點(diǎn),并并且設(shè)計(jì)用來來部署在低廉廉的(loww- cosst)硬件上上。而且它提提供高吞吐量量(highh throoughpuut)來訪問問應(yīng)用程序的的數(shù)據(jù),適合合那些有著超超大數(shù)據(jù)集(llarge data set)的的應(yīng)用程序。HDFS放放寬了(reelax)P

23、POSIX的的要求(reequireementss)這樣可以以實(shí)現(xiàn)流的形形式訪問(sstreamming aaccesss)文件系統(tǒng)統(tǒng)中的數(shù)據(jù)。HDFS開開始是為開源源的apacche項(xiàng)目nnutch的的基礎(chǔ)結(jié)構(gòu)而而創(chuàng)建,HDDFS是 HYPERLINK t _blank haadoop項(xiàng)項(xiàng)目的一部分分,而 haadoop又又是luceene的一部部分。CephCeph是加州州大學(xué)Sannta Crruz分校的的Sage Weil(DDreamHHost的聯(lián)聯(lián)合創(chuàng)始人)專專為博士論文文設(shè)計(jì)的新一一代自由軟件件分布式文件件系統(tǒng)。自22007年畢畢業(yè)之后,SSage開始始全職投入到到Ceph開開

24、發(fā)之中,使使其能適用于于生產(chǎn)環(huán)境。Ceph的的主要目標(biāo)是是設(shè)計(jì)成基于于POSIXX的沒有單點(diǎn)點(diǎn)故障的分布布式文件系統(tǒng)統(tǒng),使數(shù)據(jù)能能容錯(cuò)和無縫縫的復(fù)制。22010年33 月,Liinus TTorvallds將Ceeph cllient合合并到內(nèi) 核核2.6.334中。IBBM開發(fā)者園園地的一篇文文章探討了CCeph的架架構(gòu),它的容容錯(cuò)實(shí)現(xiàn)和簡(jiǎn)簡(jiǎn)化海量數(shù)據(jù)據(jù)管理的功能能。Lustre HYPERLINK t _blank Lustre是是一個(gè)大規(guī)模模的、安全可可靠的,具備備高可用性的的集群文件系系統(tǒng),它是由由SUN公司司開發(fā)和維護(hù)護(hù)的。該項(xiàng)目主要的目目的就是開發(fā)發(fā)下一代的集集群文件系統(tǒng)統(tǒng),可以支

25、持持超過100000個(gè)節(jié)點(diǎn)點(diǎn),數(shù)以PBB的數(shù)據(jù)量存存儲(chǔ)系統(tǒng)。GlusterrFSGlusterrFS 是一一個(gè)集群的文文件系統(tǒng),支支持 HYPERLINK t _blank PB 級(jí)的數(shù)據(jù)量量。GlussterFSS 通過 RRDMA 和和 TCP/IP 方式式將分布到不不同服務(wù)器上上的存儲(chǔ)空間間匯集成一個(gè)個(gè)大的網(wǎng)絡(luò)并并行文件系統(tǒng)統(tǒng)。PVFSPVFS 是一一個(gè)高性能、開源的并行行文件系統(tǒng),主主要用于并行行計(jì)算環(huán)境中中的應(yīng)用。特特別為超大數(shù)數(shù)量的客戶端端和服務(wù)器端端設(shè)計(jì)。模塊塊化結(jié)構(gòu)設(shè)計(jì)計(jì),可輕松的的添加新的硬硬件和算法支支持。PVFS 側(cè)重重高性能訪問問大數(shù)據(jù)集,包包含一個(gè)服務(wù)務(wù)器進(jìn)程和客客戶

26、端開發(fā)庫(kù)庫(kù),完全基于于用戶級(jí)代碼碼編寫。特征:基于對(duì)象的設(shè)計(jì)計(jì)思路 Optimizzed foor reggular stridded acccess 獨(dú)立數(shù)據(jù)和元數(shù)數(shù)據(jù)的存儲(chǔ) 優(yōu)化的 MPII-IO 支支持 多種網(wǎng)絡(luò)支持 無狀態(tài)的服務(wù)器器 用戶級(jí)的實(shí)現(xiàn)方方案 系統(tǒng)級(jí)接口 可在很多 Liinux 版版本上構(gòu)建 支持多數(shù)平臺(tái),包包括 IA332, IAA64, OOpteroon, PoowerPCC, Alppha, aand MIIPS 大數(shù)據(jù)與關(guān)系型型數(shù)據(jù)庫(kù)是否否水火不容?NO在大多數(shù)IT觀觀察家的眼里里,大數(shù)據(jù)通通常是指那些些規(guī)模大到難難以用傳統(tǒng)關(guān)關(guān)系型數(shù)據(jù)庫(kù)庫(kù)處理的數(shù)據(jù)據(jù)集。但隨著著大

27、數(shù)據(jù)時(shí)代代的到來,越越來越多的數(shù)數(shù)據(jù)庫(kù)并非建建筑在“關(guān)系”之上,且具具有更高的可可擴(kuò)展性。那那么,大數(shù)據(jù)據(jù)與關(guān)系型數(shù)數(shù)據(jù)庫(kù)是否水水火不容?MMariaDDB的創(chuàng)始人人之一Monnty Wiideniuus駁斥了這這個(gè)觀點(diǎn)。一直以來,人們們都認(rèn)為 HYPERLINK t _blank 大數(shù)數(shù)據(jù)和NoSSQL數(shù)據(jù)庫(kù)庫(kù)是天作之合合,而 HYPERLINK t _blank 關(guān)系型型數(shù)據(jù)庫(kù)則被被打上OUTT的標(biāo)簽,但但有一位數(shù)據(jù)據(jù)庫(kù)老兵并不不這么認(rèn)為。在大多數(shù)IT觀觀察家的眼里里,大數(shù)據(jù)通通常是指那些些規(guī)模大到難難以用傳統(tǒng)關(guān)關(guān)系型數(shù)據(jù)庫(kù)庫(kù)處理的數(shù)據(jù)據(jù)集。雖然今今天關(guān)系模型型和SQL依依然是數(shù)據(jù)庫(kù)庫(kù)世界

28、的統(tǒng)治治者,但隨著著大數(shù)據(jù)時(shí)代代的到來,越越來越多的數(shù)數(shù)據(jù)庫(kù)并非建建筑在“關(guān)系”之上,且具具有更高的可可擴(kuò)展性。那么,大數(shù)據(jù)時(shí)時(shí)代關(guān)系型數(shù)數(shù)據(jù)庫(kù)何去何何從?最近MMySQL HYPERLINK t _blank 開開源數(shù)據(jù)庫(kù)最最初版本的開開發(fā)者,以及及MySQLL社區(qū)開發(fā)分分支版本MariaaDB的創(chuàng)始始人之一Moonty WWideniius接受RReadWrrite的采采訪,他駁斥斥了大數(shù)據(jù)與與SQL數(shù)據(jù)據(jù)庫(kù)水火不容容的常見觀點(diǎn)點(diǎn)。以下是對(duì)對(duì)Widennius的采采訪實(shí)錄,摘摘錄如下:?jiǎn)枺耗躈oSSQL和大數(shù)數(shù)據(jù)的歷史嗎嗎?為什么它它們會(huì)成為人人們熱議的話話題?答:所謂的“新新NoSQL

29、L運(yùn)動(dòng)”的起源來自自三年前Twwitterr一位員工的的博客,此人人在博客中稱稱MySQLL不夠好,他他們需要更好好的數(shù)據(jù)庫(kù)技技術(shù),例如CCassanndra。其實(shí)Twittter當(dāng)時(shí)在在MySQLL上遇到麻煩煩是因?yàn)樗麄儌儧]有正確使使用。奇怪的的是, HYPERLINK t _blank Twiitter給給出的問題解解決方法在CCassanndra和MMySQL里里都能輕松實(shí)實(shí)現(xiàn)。這篇文章的原文文已經(jīng)找不到到了,但可以以參考這篇隨隨后的文章“MySQLL將被Casssandrra替代”。目前的情況是這這樣:三年過去了,TTwitteer還在用MMySQL存存儲(chǔ)它最寶貴貴的資產(chǎn)推文。Caas

30、sanddra最終也也沒能取代了了MySQLL。NoSQL流行行的原因是,與與SQL相比比,NoSQQL非常容易易上手,你不不需要任何設(shè)設(shè)計(jì)就能開始始使用它。但但這也是有代代價(jià)的,很快快你就會(huì)發(fā)現(xiàn)現(xiàn)對(duì)數(shù)據(jù)失去去了控制(如如果你不是足足夠小心的話話)。所以,大多數(shù)NNoSQL解解決方案的優(yōu)優(yōu)點(diǎn)(在MaariaDBB出現(xiàn)之前)是是: 快速訪問數(shù)數(shù)據(jù)(只要你你舍得把文件件都丟進(jìn)內(nèi)存存) 快速?gòu)?fù)制/多個(gè)節(jié)點(diǎn)的的數(shù)據(jù)擴(kuò)展 彈性架構(gòu)(可可以快速增加加新的列)問:大數(shù)據(jù)(技技術(shù))能幫人人們解決什么么問題?更高性能和更靈靈活的架構(gòu)是是推動(dòng)NoSSQL發(fā)展的的兩大動(dòng)力。問:你個(gè)人怎么么看待大數(shù)據(jù)據(jù),有什么預(yù)預(yù)測(cè)

31、嗎?我覺得大多數(shù)看看好NoSQQL的用戶都都是跟風(fēng)者。大多數(shù)公司司根本沒有像像Facebbook和GGooglee那么大規(guī)模模的數(shù)據(jù),而而且他們其實(shí)實(shí)也根本就支支付不起優(yōu)化化和持續(xù)開發(fā)發(fā)數(shù)據(jù)庫(kù)所需需的專家人力力成本。SQL不會(huì)消亡亡。NoSQQL無法取代代它。因?yàn)閹讕缀跛腥硕级夹枰P(guān)系型型數(shù)據(jù)庫(kù)來管管理數(shù)據(jù)。眼下NoSQLL也有其用武武之地。我認(rèn)認(rèn)為未來將更更多的是SQQL和NoSSQL的混合合應(yīng)用。問:為什么人們們還在使用NNoSQL?主要有哪些些原因?因?yàn)镹oSQLL上手很容易易。你甚至不不需要學(xué)習(xí)SSQL,使用用前也不需要要定義數(shù)據(jù)庫(kù)庫(kù)架構(gòu)。當(dāng)然然也有一些人人使用NoSSQL是因?yàn)闉楸?/p>

32、SQL的的擴(kuò)展性更好好。問:SQL在性性能上能超過過NoSQLL嗎?SQLL哪些方面由由于NoSQQL?只要數(shù)據(jù)不能載載入內(nèi)存,SSQL通常性性能都超過NNoSQL。同樣的,NoSSQL相比SSQL還存在在很多不足之之處,例如大大多數(shù)NoSSQL方案都都是為單一鍵鍵值訪問(ssinglee key accesss)優(yōu)化的的。對(duì)于更復(fù)復(fù)雜的事情來來說,你必須須編寫專門的的程序,而且且性能與SQQL無法相比比,尤其是那那些需要自動(dòng)動(dòng)響應(yīng)用戶請(qǐng)請(qǐng)求的服務(wù)(大大多數(shù)網(wǎng)站提提供的服務(wù))在單機(jī)上的性能能表現(xiàn),NooSQL通常常都不是SQQL的對(duì)手。在集群環(huán)境境中,當(dāng)所有有數(shù)據(jù)都載入入內(nèi)存,NooSQL在鍵

33、鍵值查找的速速度上通常會(huì)會(huì)比SQL快快。大數(shù)據(jù)探討:如如何整理17700億條TTwitteer發(fā)布信息息?截至目前,美國(guó)國(guó)國(guó)會(huì)圖書館館所保存的TTwitteer信息數(shù)量量已達(dá)到17700億條、存儲(chǔ)文件體體積更到達(dá)1133TB由于每一一條信息都已已經(jīng)在這套社社交網(wǎng)絡(luò)中分分享及轉(zhuǎn)載,這這么龐大的數(shù)數(shù)據(jù)改如何整整理?隨著社交網(wǎng)絡(luò)蒸蒸蒸日上,美美國(guó)國(guó)會(huì)圖書書館不得不面面對(duì)達(dá)到1333TB之巨巨的 HYPERLINK t _blank Twittter發(fā)布布信息文件;好在經(jīng)過實(shí)實(shí)踐,他們已已經(jīng)找到了管管理此類數(shù)據(jù)據(jù)的辦法。截至目前,美國(guó)國(guó)國(guó)會(huì)圖書館館所保存的TTwitteer信息數(shù)量量已達(dá)到17700億

34、條、存儲(chǔ)文件體體積更到達(dá)1133TB由于每一一條信息都已已經(jīng)在這套社社交網(wǎng)絡(luò)中分分享及轉(zhuǎn)載,圖圖書館的技術(shù)術(shù)團(tuán)隊(duì)需要想想辦法為用戶戶拿出切實(shí)可可行的檢索方方案。在現(xiàn)階段的項(xiàng)目目報(bào)告中,圖圖書館管理人人員指出目前前市場(chǎng)上提供供的此類 HYPERLINK t _blank 大數(shù)數(shù)據(jù)管理工具具無法解決他他們的實(shí)際困困難。很顯顯然,現(xiàn)有技技術(shù)還只能滿滿足獎(jiǎng)學(xué)金信信息等規(guī)模化化數(shù)據(jù)集的訪訪問需求,而而在創(chuàng)建及發(fā)發(fā)布此類數(shù)據(jù)據(jù)方面則表現(xiàn)現(xiàn)乏力,館館方表示。由于此類任任務(wù)的復(fù)雜性性及對(duì)資源的的極高要求,私私營(yíng)部門尚無無法拿出具備備合理性價(jià)比比的商業(yè)方案案。如果私營(yíng)企業(yè)都都難以搞定大大數(shù)據(jù)管理工工作,那么預(yù)預(yù)

35、算拮據(jù)、全全靠政府資金金支持的非營(yíng)營(yíng)利性機(jī)構(gòu)包括全球球最大的圖書書館在內(nèi)又該如何解解決這一難題題?要拿出一一套實(shí)用、經(jīng)經(jīng)濟(jì)、便捷且且有能力處理理1700億億條Twittter信息息的索引系統(tǒng)統(tǒng)無異于癡人人說夢(mèng)。Twitterr曾簽署一份份協(xié)議,允許許美國(guó)國(guó)會(huì)圖圖書館訪問該該社交媒體網(wǎng)網(wǎng)站中所發(fā)布布的全部更新新信息。館方方官員坦言,他他們必須建立立一套幫助研研究人員訪問問社交平臺(tái)數(shù)數(shù)據(jù)的系統(tǒng),因因?yàn)殡S著網(wǎng)絡(luò)絡(luò)化交流趨勢(shì)勢(shì)的不斷普及及,以期刊及及出版物為代代表的傳統(tǒng)溝溝通方式已經(jīng)經(jīng)被逐漸取代代。國(guó)會(huì)圖書館杰弗弗遜大廈在Twitteer剛剛誕生生的20066年到20110年間,首首批數(shù)據(jù)轉(zhuǎn)儲(chǔ)儲(chǔ)文件為

36、200TB,其中中囊括了2110億條Twwitterr信息(包括括用戶當(dāng)前位位置及消息描描述等元數(shù)據(jù)據(jù))。最近,館館方剛剛迎來來第二批轉(zhuǎn)儲(chǔ)儲(chǔ)數(shù)據(jù)-總總體而言,這這部分副本壓壓縮文件總體體積為1333.2TB。在此之后,圖圖書館將與GGnip公司司展開合作,以以小時(shí)為單位位收集全部TTwitteer發(fā)布信息息。20111年2月公布布的統(tǒng)計(jì)數(shù)字字顯示,當(dāng)時(shí)時(shí)每天經(jīng)由TTwitteer發(fā)布的信信息約為1.4億條;而而到去年100月,這一數(shù)數(shù)字已經(jīng)增長(zhǎng)長(zhǎng)到約5億條條。研究人員強(qiáng)烈要要求國(guó)會(huì)圖書書館盡快開放放數(shù)據(jù)訪問功功能-館方方稱已經(jīng)接到到超過四百次次此類請(qǐng)求。該項(xiàng)目由圖圖書館與Twwitterr雙方

37、并行實(shí)實(shí)施,將為用用戶提供Twwitterr使用的歷史史記錄,能夠夠逐項(xiàng)列出他他們通過賬戶戶發(fā)布過的每每條信息。美國(guó)國(guó)會(huì)圖書館館在大數(shù)據(jù)管管理方面算得得上經(jīng)驗(yàn)豐富富:根據(jù)工作作人員的說法法,館方自22000年開開始就一直在在為政府網(wǎng)站站進(jìn)行數(shù)據(jù)歸歸檔整理工作作,數(shù)據(jù)總量量超過3000TB。然而而Twittter的出現(xiàn)現(xiàn)令歸檔工作作陷入僵局,因因?yàn)轲^方實(shí)在在找不到合適適的辦法保證證信息易于搜搜索。如果繼繼續(xù)使用館方方長(zhǎng)期以來一一直所倚仗的的磁帶存儲(chǔ)方方案,那么僅僅查詢一條22006到22010之間間的Twittter信息息就需要耗費(fèi)費(fèi)最多24個(gè)個(gè)小時(shí)-而而這批轉(zhuǎn)儲(chǔ)數(shù)數(shù)據(jù)還僅占數(shù)數(shù)據(jù)總量的八八分之

38、一。Twittter信息之之所以難于整整理,一方面面是由于數(shù)據(jù)據(jù)量過于龐大大,另一方面面則是因?yàn)槊棵刻於紩?huì)有新新數(shù)據(jù)不斷加加入進(jìn)來,而而這種增長(zhǎng)速速度仍在不斷斷提升,官官方指出。此外,Twwitterr信息的種類類也越來越多多樣。普通TTwiiteer信息、利利用軟件客戶戶端發(fā)出的自自動(dòng)回復(fù)信息息、手動(dòng)回復(fù)復(fù)信息、包含含鏈接或者圖圖片的信息等等等,這一切切讓我們無從從下手。尋找解決方案的的道路是曲折折的。國(guó)會(huì)圖圖書館已經(jīng)開開始考慮分布布式及并行計(jì)計(jì)算方案,但但這兩類系統(tǒng)統(tǒng)實(shí)在太過昂昂貴。要想想真正實(shí)現(xiàn)搜搜索時(shí)間的顯顯著降低,我我們需要構(gòu)建建起由數(shù)百乃乃至數(shù)千臺(tái)服服務(wù)器組成的的龐大基礎(chǔ)設(shè)設(shè)施。這

39、對(duì)于于我們這種毫毫無商業(yè)收益益的機(jī)構(gòu)來說說成本過高、根本不切實(shí)實(shí)際。那么館方到底該該如何應(yīng)對(duì)?大數(shù)據(jù)專家家們給出了一一系列參考方方案。就國(guó)會(huì)會(huì)圖書館的情情況而言,技技術(shù)團(tuán)隊(duì)也許許最好進(jìn)行分分類處理的方方式,即利用用一款工具處處理 HYPERLINK t _blank 數(shù)據(jù)存儲(chǔ)儲(chǔ)、一款工具具負(fù)責(zé)檢索工工作、另一款款則用于回應(yīng)應(yīng)查詢請(qǐng)求,MMark PPhilliips指出。他既在Baasho擔(dān)任任社區(qū)及開發(fā)發(fā)推廣主管,同同時(shí)也是開源源數(shù)據(jù)庫(kù)工具具Raik的的創(chuàng)始人(該該工具在鍵-值存儲(chǔ)方面面便利而極具具可擴(kuò)展性)。大數(shù)據(jù)管理工具具已經(jīng)構(gòu)建起起欣欣向榮的的新興行業(yè),用用戶可以根據(jù)據(jù)不同的使用用需求

40、與預(yù)期期成本選擇專專有軟件或者者開源方案。國(guó)會(huì)圖書館館的技術(shù)人員員所面臨的最最大問題在于于,他們?cè)撊缛绾伍_始整套套系統(tǒng)的創(chuàng)建建和管理工作作。如果館方方希望走開源源的道路,那那么可選的數(shù)數(shù)據(jù)庫(kù)創(chuàng)建及及管理工具可可謂百花齊放放-從Haadoop集集群到專門針針對(duì)高輸入/輸出讀寫操操作的Greeenpluum數(shù)據(jù)庫(kù)可可謂應(yīng)有盡有有。二者還能能夠與Apaache SSolar一款開源源搜索工具加以整合合。 HYPERLINK t _blank 開源為開發(fā)者者們指明了一一條免費(fèi)獲取取源代碼的光光明道路,能能夠在商業(yè)硬硬件上構(gòu)建起起理想中的系系統(tǒng)成品,然然而采用開源源也意味著我我們需要在后后端開發(fā)工作作中

41、投入大量量人力物力。當(dāng)然,國(guó)會(huì)會(huì)圖書館也完完全可以走更更昂貴但更省省心的專有軟軟件道路,從從甲骨文或者者SAP這些些業(yè)界巨頭那那里直接采購(gòu)購(gòu)數(shù)據(jù)庫(kù)產(chǎn)品品。不過無論采取哪哪種方式,TTwitteer項(xiàng)目中那那碩大無朋的的數(shù)據(jù)總量仍仍然難以攻克克。不過Phhillipps的態(tài)度給給了我們一定定信心。他指指出,雖然TTwitteer目前的數(shù)數(shù)據(jù)量已經(jīng)達(dá)達(dá)到133TTB且仍處于于快速增長(zhǎng)之之中,但Baasho公司司已經(jīng)接觸過過數(shù)據(jù)量達(dá)到到PB級(jí)別的的客戶,并且且在自己的平平臺(tái)上順利完完成了任務(wù)。只要國(guó)會(huì)圖圖書館能夠追追蹤并總結(jié)出出數(shù)據(jù)庫(kù)容量量每個(gè)月或每每個(gè)季度的增增長(zhǎng)幅度,并并根據(jù)結(jié)果為為數(shù)據(jù)存儲(chǔ)配配

42、備充足的硬硬件資源,那那么Bashho的數(shù)據(jù)庫(kù)庫(kù)軟件將有能能力解決館方方的難題。那么使用云方案案可不可行呢呢?從理論上上講,國(guó)會(huì)圖圖書館可以采采用以Amaazon WWeb Seervicees為代表的的公共云資源源保存這些數(shù)數(shù)據(jù),而且隨隨著Twittter信息息總量的不斷斷增長(zhǎng),AWWS會(huì)自動(dòng)處處理必要的硬硬件擴(kuò)容工作作。然而在BBasho公公司工程師SSeth TThomass看來,這種種方案的長(zhǎng)期期性價(jià)比值得得商榷。由于于館方顯然打打算永久保存存這些數(shù)據(jù),所所以混合式架架構(gòu)可能更具具經(jīng)濟(jì)效益。也許更好的的辦法是將數(shù)數(shù)據(jù)保存在本本地,然后利利用云服務(wù)實(shí)實(shí)現(xiàn)分析功能能。如此一來來,館方只需需

43、根據(jù)搜索量量為響應(yīng)請(qǐng)求求所投入的動(dòng)動(dòng)態(tài)資源支付付費(fèi)用即可,而而終端系統(tǒng)也也只需處理與與請(qǐng)求量相對(duì)對(duì)應(yīng)的工作負(fù)負(fù)載。無論如何,國(guó)會(huì)會(huì)圖書館已經(jīng)經(jīng)下決心將這這些Twittter信息息納入檢索體體系。而身為為普通用戶,我我們要注意的的則是-只只要更新Twwitterr,信息就會(huì)會(huì)被記錄下來來。暢談阿里巴巴的的大數(shù)據(jù)夢(mèng)2012年111月11日,各各大電商風(fēng)云云大戰(zhàn),淘寶寶雙十一總交交易金額1991億,訂單單1億零5880萬筆??煽梢钥吹?,從從數(shù)據(jù)中掘金金,已經(jīng)成為為各大互聯(lián)網(wǎng)網(wǎng)公司的共識(shí)識(shí)。但在這個(gè)個(gè)即將到來的的大數(shù)據(jù)時(shí)代代,這些公司司具體將如何何推進(jìn)呢?本本文帶你一起起暢談阿里巴巴巴的大數(shù)據(jù)據(jù)夢(mèng)。“

44、為了迎接即將將到來的大數(shù)數(shù)據(jù)時(shí)代,各各大互聯(lián)網(wǎng)公公司都在爭(zhēng)分分奪秒。阿里里巴巴在公布布大數(shù)據(jù)分享享平臺(tái)之后的的半年中,也也全面啟動(dòng)了了攻勢(shì)。但即即使是這個(gè)行行業(yè)的先行者者,離大數(shù)據(jù)據(jù)時(shí)代也還有有不小的距離離?!眲倓傔^去的20012年,秦秦予有個(gè)很大大的遺憾,就就是沒能招聘聘到自己想要要的數(shù)據(jù)科學(xué)學(xué)家,浪費(fèi)了了公司給的招招人名額。他他是支付寶用用戶價(jià)值創(chuàng)新新中心的負(fù)責(zé)責(zé)人。這個(gè)中中心是支付寶寶大數(shù)據(jù)業(yè)務(wù)務(wù)的核心部門門。阿里巴巴20112年的進(jìn)人人指標(biāo)只有2200個(gè),具具體到支付寶寶公司,基本本是只出不進(jìn)進(jìn),只有秦予予所在的部門門得到了難得得的兩個(gè)進(jìn)人人名額。但她她只招到了一一個(gè)合適的。事實(shí)上,各

45、大互互聯(lián)網(wǎng)公司都都在尋找這樣樣的人。騰訊訊網(wǎng)絡(luò)媒體事事業(yè)群總裁劉劉勝義20112年年中就就公開表示:隨著用戶各各類數(shù)據(jù)的累累積,大數(shù)據(jù)據(jù)時(shí)代已經(jīng)來來臨。騰訊各各大產(chǎn)品線中中都擁有自己己的數(shù)據(jù)挖掘掘團(tuán)隊(duì)。而騰騰訊最新財(cái)報(bào)報(bào)顯示,QQQ用戶數(shù)接近近8億人,活活躍用戶數(shù)近近2億人。阿里集團(tuán)20112年7月110日就已宣宣布,設(shè)立首首席數(shù)據(jù)官崗崗位(CDOO),負(fù)責(zé)推推進(jìn)“數(shù)據(jù)分享平平臺(tái)”戰(zhàn)略。同日日,阿里發(fā)布布“聚石塔”平臺(tái),為天天貓、淘寶平平臺(tái)上的電商商及電商服務(wù)務(wù)商等提供數(shù)數(shù)據(jù)云服務(wù)。阿里巴巴集團(tuán)表表示,如何挖挖掘、分析和和運(yùn)用這些數(shù)數(shù)據(jù),并和全全社會(huì)分享,是是這個(gè)戰(zhàn)略的的核心所在。阿里巴巴是是

46、年交易額過過萬億元的中中國(guó)最大的電電子商務(wù)平臺(tái)臺(tái),目前有兩兩萬人左右,其其中近千人從從事數(shù)據(jù)業(yè)務(wù)務(wù)工作。可以看到,從數(shù)數(shù)據(jù)中掘金,已已經(jīng)成為各大大互聯(lián)網(wǎng)公司司的共識(shí)。但但在這個(gè)即將將到來的大數(shù)數(shù)據(jù)時(shí)代,這這些公司具體體將如何推進(jìn)進(jìn)呢?“離大數(shù)據(jù)時(shí)代代還有不小距距離”秦予要找的并不不是一般的數(shù)數(shù)據(jù)分析師?!皣?guó)內(nèi)不缺數(shù)據(jù)據(jù)挖掘人才,但但很難找到數(shù)數(shù)據(jù)科學(xué)家?!鼻赜鑼?duì)南方方周末記者說說,秦予的團(tuán)團(tuán)隊(duì)有7個(gè)人人,他們?cè)谥еЦ秾殐?nèi)部被被稱為“數(shù)據(jù)科學(xué)家家”。一般的數(shù)據(jù)分析析師是根據(jù)支支付寶的各種種數(shù)據(jù)進(jìn)行分分析,給公司司決策層和各各個(gè)業(yè)務(wù)部門門提供咨詢支支持。這也是是目前很多公公司都設(shè)有的的商業(yè)智能部部

47、的主要職能能。但數(shù)據(jù)科科學(xué)家們做的的事情是開發(fā)發(fā)出具體可以以銷售的商用用化的大數(shù)據(jù)據(jù)產(chǎn)品。所謂大數(shù)據(jù),一一般是10000T以上的的數(shù)據(jù),如果果按照一般機(jī)機(jī)器配置,相相當(dāng)于4000臺(tái)到5000臺(tái)電腦。對(duì)對(duì)這些數(shù)據(jù)信信息的商業(yè)化化開發(fā)就是大大數(shù)據(jù)產(chǎn)業(yè)鏈鏈。大數(shù)據(jù)時(shí)代一書中提到到,未來,數(shù)數(shù)據(jù)將會(huì)像土土地、石油和和資本一樣,成成為經(jīng)濟(jì)運(yùn)行行中的根本性性資源。數(shù)據(jù)據(jù)科學(xué)家被認(rèn)認(rèn)為是下一個(gè)個(gè)十年最熱門門的職業(yè)。而大數(shù)據(jù)跟個(gè)人人最為密切的的關(guān)系是對(duì)隱隱私的可能侵侵入。比如,亞亞馬遜監(jiān)視著著我們的購(gòu)物物習(xí)慣,谷歌歌監(jiān)視著我們們的網(wǎng)頁瀏覽覽習(xí)慣,微博博似乎對(duì)我們們和我們朋友友的關(guān)系無所所不知,QQQ圈子能給你

48、你推薦你不愿愿意再見面的的某個(gè)女生的的照片和動(dòng)態(tài)態(tài)信息。秦予是從美國(guó)歸歸國(guó)的計(jì)算機(jī)機(jī)模擬博士后后,在摩根大大通和匯豐銀銀行工作過多多年,20110年加入支支付寶公司,負(fù)負(fù)責(zé)支付寶和和淘寶集市的的大數(shù)據(jù)業(yè)務(wù)務(wù)。支付寶公公司擁有中國(guó)國(guó)僅次于銀行行業(yè)的個(gè)人數(shù)數(shù)據(jù)信息?!鞍⒗锇桶陀泻:A康臄?shù)據(jù),對(duì)對(duì)于做大數(shù)據(jù)據(jù)的人來說,阿阿里巴巴是中中國(guó)最好的平平臺(tái),很吸引引人。因?yàn)槲椅业慕鹑诒尘熬八赃x擇支支付寶?!鼻赜鑼?duì)南方方周末記者說說。回國(guó)進(jìn)入大數(shù)據(jù)據(jù)行業(yè)之后,秦秦予參加了很很多大數(shù)據(jù)的的論壇和研討討會(huì),她最大大的體會(huì)是,看看到的新東西西很少?!皠e說大數(shù)據(jù),連連小數(shù)據(jù)都很很少?,F(xiàn)在很很多公司說的的大數(shù)據(jù),大大

49、都是數(shù)據(jù)的的搜集和整理理。這是底層層的工作?!鼻赜枵f,“中國(guó)離大數(shù)數(shù)據(jù)時(shí)代還有有不小距離?!奔词故亲鳛閲?guó)內(nèi)內(nèi)大數(shù)據(jù)業(yè)務(wù)務(wù)的先行者阿阿里巴巴,其其大數(shù)據(jù)業(yè)務(wù)務(wù)發(fā)展也依然然是分散在各各個(gè)子公司,并并在20122年下半年才才開始推出少少量的商用產(chǎn)產(chǎn)品。 “從人出發(fā),先先去找人”支付寶曾經(jīng)在八八年前公司成成立第二天就就建立了數(shù)據(jù)據(jù)部門,但真真正有大數(shù)據(jù)據(jù)業(yè)務(wù),是在在2010年年的事情。正正是那時(shí)候,支支付寶從招商商銀行信用卡卡中心招來一一批專業(yè)的金金融人才。秦秦予也是那時(shí)時(shí)候加入支付付寶的。“金融行業(yè)的大大數(shù)據(jù)業(yè)務(wù)已已經(jīng)很成熟了了。”秦予說。支付寶的數(shù)據(jù)科科學(xué)家每天做做的工作就是是,把客戶分分成50個(gè)

50、族族群進(jìn)行研究究。比如,細(xì)細(xì)分出都市輕輕熟男群體,這這個(gè)群體的特特征是每次買買的不貴,均均價(jià)七八十元元,收入中等等,但很喜歡歡在網(wǎng)上買東東西。還有一個(gè)族群被被稱作“千金美少女女”,其特征是是收入并不高高,但家里有有錢,買得多多,買得貴。按照分群研究的的思路,秦予予的團(tuán)隊(duì)把淘淘寶、天貓、支付寶和聚聚劃算的用戶戶做系統(tǒng)研究究,通過觀察察他們喜歡看看什么媒體,上上什么網(wǎng),來來“生動(dòng)地”知道用戶是是個(gè)怎樣的人人,進(jìn)而推薦薦商品供用戶戶購(gòu)買。能識(shí)別用戶之后后,在寫商品品推薦文字的的時(shí)候,不再再是過去那樣樣千篇一律地地使用“親”作為開頭。“今天很多網(wǎng)站站犯的錯(cuò)誤就就是,根據(jù)個(gè)個(gè)人購(gòu)買記錄錄,推薦一個(gè)個(gè)類似

51、的產(chǎn)品品。其實(shí)用戶戶很可能買過過了。用戶要要的是你給他他推薦一個(gè)跟跟他相似的人人買的東西?!鼻赜鑼?duì)南方方周末記者說說,以前的數(shù)數(shù)據(jù)研究思路路是從產(chǎn)品出出發(fā),大數(shù)據(jù)據(jù)時(shí)代是從人人出發(fā),先去去找人。支付寶發(fā)展大數(shù)數(shù)據(jù)業(yè)務(wù),目目前主要是為為內(nèi)部服務(wù)。比如,過去去支付寶很重重視新客戶的的獲取,但后后來發(fā)現(xiàn)開賬賬戶的人多,關(guān)關(guān)賬戶的人也也不少,通過過數(shù)據(jù)分析,支支付寶建立了了一個(gè)流失預(yù)預(yù)警模型,預(yù)預(yù)測(cè)每一個(gè)人人未來三個(gè)月月是否會(huì)離開開支付寶,并并對(duì)潛在的流流失用戶做一一些喚醒?!爸Ц秾毷菧?zhǔn)金金融行業(yè),數(shù)數(shù)據(jù)比較敏感感,涉及用戶戶隱私,還沒沒有到開放的的階段。”秦予對(duì)南方方周末記者說說,支付寶非非常忌諱提

52、供供商用化產(chǎn)品品給商戶,很很多合作方惦惦記著的是支支付寶的數(shù)據(jù)據(jù),但這是支支付寶的高壓壓線?!爸Ц秾毎l(fā)展大大數(shù)據(jù)的目的的,跟淘寶和和天貓有點(diǎn)偏偏差。我們更更多地是為內(nèi)內(nèi)部服務(wù),淘淘寶和天貓更更多地強(qiáng)調(diào)商商業(yè)化?!鼻赜鑼?duì)南方方周末記者說說,阿里巴巴巴集團(tuán)的大數(shù)數(shù)據(jù)業(yè)務(wù)商用用主要是淘寶寶平臺(tái)的幾個(gè)個(gè)公司在推進(jìn)進(jìn)。 “數(shù)據(jù)分享平臺(tái)臺(tái)”戰(zhàn)略淘寶平臺(tái)的數(shù)據(jù)據(jù)大概可以分分成三塊,一一是離線的數(shù)數(shù)據(jù),比如什什么地方的人人最愛吃大閘閘蟹。另外一一些在線數(shù)據(jù)據(jù),主要是圖圖片,淘寶一一些大的賣家家都把圖片存存在淘寶里面面。還有一些些信息是用戶戶的淘寶收藏藏夾。2010年3月月,淘寶宣布布將面向全球球首度開放數(shù)數(shù)據(jù)

53、,并制定定了兩條大原原則:數(shù)據(jù)分分層次開放;涉及消費(fèi)者者個(gè)人或者企企業(yè)隱私的數(shù)數(shù)據(jù)絕對(duì)保護(hù)護(hù)。淘寶的數(shù)據(jù)開放放一是對(duì)公眾眾的免費(fèi)信息息,比如推出出類似于宏觀觀經(jīng)濟(jì)數(shù)據(jù)的的“淘寶指數(shù)”。商家可以以根據(jù)以往的的銷售信息和和“淘寶指數(shù)”進(jìn)行生產(chǎn)、庫(kù)存決策。對(duì)于大眾來來說,淘寶的的數(shù)據(jù)發(fā)布就就像是統(tǒng)計(jì)局局和價(jià)格監(jiān)測(cè)測(cè)機(jī)構(gòu)的功能能,淘寶指數(shù)數(shù)相當(dāng)于行業(yè)業(yè)和宏觀經(jīng)濟(jì)濟(jì)的各項(xiàng)指標(biāo)標(biāo)。作為針對(duì)企業(yè)的的數(shù)據(jù)開放的的商用產(chǎn)品,淘淘寶推出了數(shù)數(shù)據(jù)魔方產(chǎn)品品,通過淘寶寶數(shù)據(jù)魔方平平臺(tái),商家可可以直接通過過數(shù)據(jù)魔方產(chǎn)產(chǎn)品獲取行業(yè)業(yè)宏觀情況、自己品牌的的市場(chǎng)狀況、消費(fèi)者行為為情況等,但但是不能獲得得競(jìng)爭(zhēng)對(duì)手的的數(shù)據(jù)。20

54、11年4月月,數(shù)據(jù)魔方方正式上線。在“店小二”的推廣下,林林氏木業(yè)成為為第一批使用用者。林氏木木業(yè)是一家完完全依靠互聯(lián)聯(lián)網(wǎng)平臺(tái)銷售售家具的電商商公司。該公司一位市場(chǎng)場(chǎng)推廣人員對(duì)對(duì)南方周末記記者介紹了數(shù)數(shù)據(jù)魔方的具具體運(yùn)用過程程:依據(jù)數(shù)據(jù)據(jù)魔方關(guān)于熱熱詞的各項(xiàng)數(shù)數(shù)據(jù)變化,及及時(shí)調(diào)整優(yōu)化化商品標(biāo)題,提提高寶貝排名名,進(jìn)而獲取取更多流量,提提高銷量。以銷售面膜為主主的素野天貓貓旗艦店的運(yùn)運(yùn)營(yíng)經(jīng)理陳林林告訴南方周周末記者,素素野選擇數(shù)據(jù)據(jù)魔方專業(yè)版版本,支付33600元/年的費(fèi)用,除除魔方外,還還可以使用量量子恒道(淘淘寶官方推出出的一款免費(fèi)費(fèi)數(shù)據(jù)分析工工具)?!皵?shù)據(jù)魔方帶來來的更多是虛虛的概念,對(duì)對(duì)

55、流量、銷售售額這種具體體指標(biāo)意義不不大?!标惲终f。2011年6月月,淘寶一分分為三,變成成天貓、淘寶寶集市和一淘淘網(wǎng)。這之后后,淘寶系的的 HYPERLINK t _blank 大數(shù)據(jù)發(fā)展的的主要任務(wù)放放到了商家已已經(jīng)形成了付付費(fèi)習(xí)慣的天天貓平臺(tái)。目目前天貓的主主打大數(shù)據(jù)商商用產(chǎn)品是聚聚石塔。2012年7月月,阿里巴巴巴集團(tuán)的“聚石塔”正式發(fā)布,“數(shù)據(jù)分享平平臺(tái)”戰(zhàn)略全面展展開。聚石塔塔是阿里巴巴巴首次聯(lián)合全全集團(tuán)大數(shù)據(jù)據(jù)力量打造的的一款大數(shù)據(jù)據(jù)商用產(chǎn)品。其中,天貓貓及淘寶網(wǎng)主主要負(fù)責(zé)尋找找合作伙伴,發(fā)發(fā)展商家,阿阿里云負(fù)責(zé)提提供云主機(jī),萬萬網(wǎng)負(fù)責(zé)客戶戶服務(wù)。同時(shí),阿里巴巴巴B2B公司司CEO

56、陸兆兆禧出任集團(tuán)團(tuán)首席數(shù)據(jù)官官崗位,向CCEO馬云直直接匯報(bào)。馬馬云在聚石塔塔發(fā)布的時(shí)候候宣布了阿里里集團(tuán)未來新新戰(zhàn)略:平臺(tái)臺(tái)、金融、數(shù)數(shù)據(jù)。聚石塔提供數(shù)據(jù)據(jù)存儲(chǔ)、數(shù)據(jù)據(jù)計(jì)算兩類服服務(wù)。根據(jù)官官網(wǎng)上的指導(dǎo)導(dǎo)價(jià)格,若需需要內(nèi)存為11200M、50G容量量的數(shù)據(jù)存儲(chǔ)儲(chǔ)服務(wù),優(yōu)惠惠價(jià)為60990元/年;如果購(gòu)買英英特爾雙核處處理器、內(nèi)存存4G、硬盤盤500G、帶寬5M的的彈性托管服服務(wù),價(jià)格約約在77000元/年。廣州衣酷服飾有有限公司的運(yùn)運(yùn)營(yíng)總監(jiān)敬小小虎對(duì)南方周周末記者表示示,他們公司司是20122年9月開始始使用聚石塔塔服務(wù)的,正正好趕上 HYPERLINK t _blank “雙十一”大促銷,

57、兩天天之內(nèi)發(fā)完了了所有的貨,總總共3萬多票票。他負(fù)責(zé)該該公司在天貓貓上的店鋪皓皓盾天貓旗艦艦店的運(yùn)營(yíng)?!皼]有這個(gè)軟件件,半個(gè)月都都發(fā)不完這些些貨?!本葱』?duì)南南方周末記者者說,如果按按照20111年沒有加入入聚石塔時(shí)候候的“ HYPERLINK 雙十一 雙十一”銷售情況,光光把訂單人工工下載下來就就花費(fèi)了三五五天時(shí)間。而而且還出現(xiàn)過過很多漏單和和重復(fù)下載問問題。不過,敬小虎表表示,如果店店鋪一天的銷銷量能做到5500票以上上,購(gòu)買聚石石塔服務(wù)比較較劃算,否則則軟件買下來來除了應(yīng)對(duì)“雙十一”這樣的大促促銷,基本就就閑置著。 平臺(tái)后的產(chǎn)業(yè)鏈鏈阿里巴巴公布的的信息顯示,自自2012年年7月10日日聚

58、石塔發(fā)布布以來,已有有十多萬的商商家入駐。聚聚石塔的訂單單覆蓋率,110月中旬的的數(shù)字是200%。2012年“雙雙十一”購(gòu)物狂歡節(jié)節(jié),是對(duì)天貓貓大數(shù)據(jù)發(fā)展展的一次檢驗(yàn)驗(yàn)。據(jù)天貓官官方數(shù)據(jù)顯示示,狂歡節(jié)大大促當(dāng)天,聚聚石塔內(nèi)系統(tǒng)統(tǒng)處理的訂單單超過天貓總總量的20%,比平時(shí)增增長(zhǎng)20倍。又一城公司是首首批進(jìn)入聚石石塔服務(wù)器項(xiàng)項(xiàng)目的軟件IIT企業(yè)。又又一城公司的的銷售人員賴賴活龍對(duì)南方方周末記者表表示,有 HYPERLINK 系統(tǒng) ERRP系統(tǒng)的商商家可以直接接找天貓,沒沒有ERP系系統(tǒng)的商家,只只能找像又一一城這樣跟天天貓有合作的的軟件商,讓讓軟件商幫忙忙接入聚石塔塔服務(wù)。又一城和阿里巴巴巴的合作

59、模模式是,又一一城基于聚石石塔開發(fā)的軟軟件,對(duì)接淘淘寶和天貓等等阿里系公司司的后臺(tái)系統(tǒng)統(tǒng),包括訂單單信息、商品品信息、會(huì)員員信息、財(cái)務(wù)務(wù)信息、物流流信息和庫(kù)存存信息。賴活龍對(duì)南方周周末記者透露露,最近半年年,他的重點(diǎn)點(diǎn)一直是推銷銷聚石塔產(chǎn)品品,一開始很很多商家聽到到是推銷軟件件產(chǎn)品的電話話就會(huì)按掉電電話,現(xiàn)在的的情況好多了了,不少商家家主動(dòng)打電話話來了解情況況?!斑@跟天貓的宣宣傳很有關(guān)系系,另外就是是雙十一檢驗(yàn)驗(yàn)了產(chǎn)品的價(jià)價(jià)值?!辟嚮铨堈f。賴活龍也承認(rèn),商商家加入聚石石塔之后,最最直觀的改變變是訂單處理理的效率提高高了,以前從從淘寶平臺(tái)下下載訂單,一一分鐘能下載載200單,現(xiàn)現(xiàn)在至少20000

60、單。但但銷售額并沒沒有太大改變變。越來越多的商家家被迫參與到到大數(shù)據(jù)產(chǎn)品品的購(gòu)買中來來。因?yàn)榇黉N活動(dòng)越越來越多,參參加的話,IIT系統(tǒng)往往往跟不上,造造成錯(cuò)單配送送等問題,中中差評(píng)接踵而而至,動(dòng)態(tài)評(píng)評(píng)分直線下降降,銷量跟著著下降,所以以只能是購(gòu)買買聚石塔服務(wù)務(wù)。不參加的的話,沒有流流量,沒有銷銷售額。“如果商家不跟跟著淘寶走,就就會(huì)受到冷落落,你進(jìn)來了了,碰到雙十十一這樣的活活動(dòng),天貓會(huì)會(huì)看你是否加加入了聚石塔塔,如果沒有有加入,你報(bào)報(bào)名的資質(zhì)能能否通過是個(gè)個(gè)大問題?!辟嚮铨堈f。Twitterr利用Stoorm系統(tǒng)處處理實(shí)時(shí)大數(shù)數(shù)據(jù)Storm 是是一個(gè)開源的的、大數(shù)據(jù)處處理系統(tǒng),與與其他系統(tǒng)不

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論