大數(shù)據(jù)工程實(shí)驗(yàn)室申報(bào)書(shū)_第1頁(yè)
大數(shù)據(jù)工程實(shí)驗(yàn)室申報(bào)書(shū)_第2頁(yè)
大數(shù)據(jù)工程實(shí)驗(yàn)室申報(bào)書(shū)_第3頁(yè)
大數(shù)據(jù)工程實(shí)驗(yàn)室申報(bào)書(shū)_第4頁(yè)
大數(shù)據(jù)工程實(shí)驗(yàn)室申報(bào)書(shū)_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)工程實(shí)驗(yàn)室申請(qǐng)書(shū)1. 工程實(shí)驗(yàn)室擬突破的技術(shù)方向大數(shù)據(jù)工程實(shí)驗(yàn)室擬突破的技術(shù)方向?yàn)椋簉語(yǔ)言與iladoop分布 式計(jì)算平臺(tái)交互技術(shù)。r語(yǔ)言是一種自由免費(fèi)軟件編程語(yǔ)言與操作環(huán)境,主要用于統(tǒng)計(jì) 分析、繪圖、數(shù)據(jù)挖掘。r本來(lái)是由來(lái)自新西蘭奧克蘭大學(xué)的ross ihaka和robert gentleman開(kāi)發(fā)(也因此稱為r),現(xiàn)在市“r開(kāi)發(fā) 核心團(tuán)隊(duì)”負(fù)責(zé)開(kāi)發(fā)。r的源代碼可自由下載使用,可在多種平臺(tái)下 運(yùn)行,包括unix, linux, windows和macoso r主要是以命令行操作為 主,同時(shí)支持gui的圖形用戶界面。r內(nèi)建多種統(tǒng)計(jì)學(xué)及數(shù)字分析功 能,r比其他統(tǒng)計(jì)學(xué)或數(shù)學(xué)專用的編程語(yǔ)言有更

2、強(qiáng)的物件導(dǎo)向功能。 r的另一強(qiáng)項(xiàng)是繪圖功能,制圖具有印刷的素質(zhì),也可加入數(shù)學(xué)符號(hào)。 雖然r主要用于統(tǒng)計(jì)分析或者開(kāi)發(fā)統(tǒng)計(jì)相關(guān)的軟體,但也有人用作矩 陣計(jì)算。其分析速度可媲美gnu octave甚至商業(yè)軟件matlab。cran 為 comprehensive r archive network 的簡(jiǎn)稱,它除了收藏了 r 的執(zhí) 行檔下載版、源代碼和說(shuō)明文件,也收錄了各種用戶撰寫(xiě)的軟件包。 全球有超過(guò)一百個(gè)cran鏡像站,上萬(wàn)個(gè)第三方的軟件包。r的行業(yè) 應(yīng)用非常廣泛,例如:統(tǒng)計(jì)分析,應(yīng)用數(shù)學(xué),計(jì)量經(jīng)濟(jì),金融分析, 財(cái)經(jīng)分析,人文科學(xué),數(shù)據(jù)挖掘,人工智能,生物信息學(xué),生物制藥, 全球地理科學(xué),數(shù)據(jù)可視

3、化。hadoop是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),由apache基金會(huì)開(kāi)發(fā)。用 戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利 用集群的威力高速運(yùn)算和存儲(chǔ)。hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng) (hadoop distributed file system),簡(jiǎn)稱 hdfso hdfs 有著高容錯(cuò) 性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的硬件上。而且它提供高傳輸率 來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集的應(yīng)用程序。hdfs 放寬了可移植操作系統(tǒng)接口的要求,這樣可以以流的形式訪問(wèn)文件系 統(tǒng)中的數(shù)據(jù)。自2006年,hadoop以mapreduce和hdfs獨(dú)立發(fā)展開(kāi) 始,到今年2013年不過(guò)

4、7年時(shí)間,hadoop的家族己經(jīng)孵化出多個(gè) apache的頂級(jí)項(xiàng)目。特別是最近1-2年,發(fā)展速度越來(lái)越快,并且 融入了很多新技術(shù)(yarn, hcatalog, oozie, cassandra)ohadoop家族的強(qiáng)大之處,在于對(duì)大數(shù)據(jù)的處理,讓原來(lái)的不可 能(tb, pb數(shù)據(jù)量計(jì)算)成為了可能。r語(yǔ)言的強(qiáng)大之處,在于統(tǒng)計(jì) 分析,在沒(méi)有hadoop之前,我們對(duì)于大數(shù)據(jù)的處理,要取樣本,假 設(shè)檢驗(yàn),做回歸,長(zhǎng)久以來(lái)r語(yǔ)言都是統(tǒng)計(jì)學(xué)家專屬的工具。所以, hadoop重點(diǎn)是全量數(shù)據(jù)分析,而r語(yǔ)言重點(diǎn)是樣本數(shù)據(jù)分析。兩種 技術(shù)放在起,恰好是取長(zhǎng)補(bǔ)短。以計(jì)算機(jī)開(kāi)發(fā)人員的思路,所有事 情都用hadoop

5、去做,沒(méi)有數(shù)據(jù)建模和證明預(yù)測(cè)的結(jié)果” 一定是有 問(wèn)題的;以統(tǒng)計(jì)人員的思路,所有的事情都用r去做,以抽樣方式, 得到的“預(yù)測(cè)的結(jié)果”也一定是有問(wèn)題的。所以r語(yǔ)言與hadoop的 結(jié)合,是產(chǎn)界業(yè)的必然的導(dǎo)向,也是產(chǎn)界業(yè)和學(xué)術(shù)界的交集,同時(shí)也 為交叉學(xué)科的人才提供了無(wú)限廣闊的想象空間。目前,通常有兩種方法將r語(yǔ)言與大數(shù)據(jù)處理平臺(tái)相結(jié)合使用。 第一種方法是,在hadoop ±用mapreduce處理pb、tb量級(jí)的數(shù)據(jù), 縮小數(shù)據(jù)容量到gb量級(jí),然后將其加載到r中進(jìn)行處理。在r中, gb級(jí)別的數(shù)據(jù)可以利用mpi并行處理框架構(gòu)建的集群計(jì)算。r包rmpi、 snow、snowfall都可以實(shí)現(xiàn)多

6、種mpi支持的并行編程模式。第二種 方法是,直接使用支持hadoop的r包,在r中操作存放在hdfs中的 數(shù)據(jù),并利用r語(yǔ)言完成mapreduce算法,用來(lái)替代java的mapreduce 實(shí)現(xiàn)。r包rhadoop使得r語(yǔ)言具有處理高達(dá)tb甚至pb級(jí)的大數(shù)據(jù) 的能力。在github社區(qū)可以找到該項(xiàng)目與開(kāi)源實(shí)現(xiàn)代碼。rhadoop 包含有三個(gè)包,分別是rhdfs, rmr以及rllbase,分別對(duì)應(yīng)hadoop系 統(tǒng)架構(gòu)中的hdfs, mapreduce和hbase三個(gè)部分。除了 rhadoop之外, 還有從r中進(jìn)行hive查詢的rhive包,能夠直接從hive中進(jìn)行查詢。 將r和結(jié)合起來(lái),其既

7、能夠利用分布式計(jì)算打破數(shù)據(jù)量的限制,又能 夠利用r中的眾多優(yōu)秀的免費(fèi)擴(kuò)展包,快速實(shí)現(xiàn)所需的數(shù)據(jù)處理分 析。綜上所述,r語(yǔ)言與hadoop的交互使用技術(shù)就成了本項(xiàng)目急需 突破的技術(shù)方向。2. 工程實(shí)驗(yàn)室的主要功能與任務(wù)大數(shù)據(jù)工程實(shí)驗(yàn)室的主要功能如下:(1) 為統(tǒng)計(jì)學(xué)學(xué)科與大數(shù)據(jù)有關(guān)的課程教學(xué)提供支持。統(tǒng)計(jì)學(xué) 專業(yè)的就業(yè)前景非常廣闊。整個(gè)世界已經(jīng)迎來(lái)了大數(shù)據(jù)時(shí)代,就業(yè)市 場(chǎng)對(duì)熟悉并且能夠分析大數(shù)據(jù)的應(yīng)用型人才思賢若渴,所以對(duì)大數(shù) 據(jù)挖掘等與大數(shù)據(jù)相關(guān)的課程的理論學(xué)習(xí)和實(shí)踐操作顯得尤為重 要。一個(gè)功能齊全、技術(shù)先進(jìn)的大數(shù)據(jù)工程實(shí)驗(yàn)室將對(duì)大數(shù)據(jù)的學(xué)習(xí) 者提供一個(gè)良好的實(shí)踐環(huán)境,為學(xué)習(xí)者將來(lái)從事大數(shù)據(jù)處

8、理做好充足 的準(zhǔn)備。(2) 為統(tǒng)計(jì)學(xué)學(xué)科大數(shù)據(jù)相關(guān)科研課題的研究提供支撐。在保 證完成學(xué)校教學(xué)任務(wù)的前提下,大數(shù)據(jù)工程實(shí)驗(yàn)室打算面向?qū)W校及社 會(huì)開(kāi)放,為大數(shù)據(jù)相關(guān)科研課題研究提供支持。為大數(shù)據(jù)的相關(guān)科研 課題的研究提供大量、詳實(shí)的數(shù)據(jù)。為大數(shù)據(jù)的相關(guān)科研課題的研究 提供數(shù)據(jù)處理與分析工具。(3) 在一定程度上為社會(huì)提供相關(guān)服務(wù)。可以為社會(huì)有關(guān)單位 和個(gè)人提供大數(shù)據(jù)的采集、準(zhǔn)備、存儲(chǔ)、分析與挖掘以及大數(shù)據(jù)的展 示與可視化等一系列服務(wù)??梢赃M(jìn)行大數(shù)據(jù)分析與挖掘的設(shè)計(jì)、開(kāi)發(fā)、 培訓(xùn),真正實(shí)現(xiàn)產(chǎn)、學(xué)、研的有機(jī)結(jié)合。工程實(shí)驗(yàn)室的任務(wù)如下:(1) 培養(yǎng)統(tǒng)計(jì)學(xué)學(xué)科學(xué)生對(duì)大數(shù)據(jù)的分析與挖掘能力,尤其培 養(yǎng)學(xué)生

9、面對(duì)復(fù)雜大數(shù)據(jù)時(shí)分析與挖掘方法的創(chuàng)新。(2) 以實(shí)驗(yàn)室為基地建立學(xué)術(shù)氛圍濃厚的大數(shù)據(jù)分析科研團(tuán)隊(duì)。 提倡科研團(tuán)隊(duì)先根據(jù)數(shù)據(jù)特點(diǎn)構(gòu)建縝密的大數(shù)據(jù)分析模型,然后依托 于功能齊全的大數(shù)據(jù)工程實(shí)驗(yàn)室對(duì)模型進(jìn)行實(shí)踐驗(yàn)證,繼而最終修正 完善模型。(3)把自主研發(fā)的大數(shù)據(jù)分析與挖掘的技術(shù)應(yīng)用到企業(yè)中,通 過(guò)我們對(duì)模型的預(yù)測(cè)和決策確保企業(yè)的最終決策能應(yīng)對(duì)日益增加的 復(fù)雜性,跟上日益加快的步伐。3. 工程實(shí)驗(yàn)室的近期和中期目標(biāo)大數(shù)據(jù)工程實(shí)驗(yàn)室的近期目標(biāo)如下:(1)建立先進(jìn)穩(wěn)定的hadoop與r的交互平臺(tái);(2)組建具有行業(yè)領(lǐng)先水平,結(jié)構(gòu)合理的大數(shù)據(jù)分析與挖掘創(chuàng) 新團(tuán)隊(duì)。力爭(zhēng)使該團(tuán)隊(duì)成員人人熟練掌握hadoop與r的交互技術(shù), 利用r語(yǔ)言對(duì)復(fù)雜大數(shù)據(jù)進(jìn)行建模最終用于預(yù)測(cè)和理論上的決策;大數(shù)據(jù)工程實(shí)驗(yàn)室的中期目標(biāo)(1)自主研制開(kāi)發(fā)基于hadoop與r交互平臺(tái)的大數(shù)據(jù)分析與挖 掘技術(shù),尤其針對(duì)復(fù)雜數(shù)據(jù),例如基于物聯(lián)網(wǎng)和云計(jì)算的大數(shù)據(jù)。主 要針對(duì)不

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論