第1章-大數(shù)據(jù)概述_第1頁
第1章-大數(shù)據(jù)概述_第2頁
第1章-大數(shù)據(jù)概述_第3頁
第1章-大數(shù)據(jù)概述_第4頁
第1章-大數(shù)據(jù)概述_第5頁
已閱讀5頁,還剩55頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1章大數(shù)據(jù)概述

《大數(shù)據(jù)導(dǎo)論》教材官網(wǎng):/post/bigdata-introduction/提綱1.1數(shù)據(jù)1.2大數(shù)據(jù)時(shí)代1.3大數(shù)據(jù)的發(fā)展歷程1.4世界各國的大數(shù)據(jù)發(fā)展戰(zhàn)略1.5大數(shù)據(jù)的概念1.6大數(shù)據(jù)的影響1.7大數(shù)據(jù)的應(yīng)用1.8大數(shù)據(jù)產(chǎn)業(yè)1.9高校大數(shù)據(jù)專業(yè)百度搜索廈門大學(xué)數(shù)據(jù)庫實(shí)驗(yàn)室網(wǎng)站訪問平臺(tái)1.1數(shù)據(jù)1.1.1數(shù)據(jù)的概念1.1.2數(shù)據(jù)類型1.1.3數(shù)據(jù)組織形式1.1.4數(shù)據(jù)的使用1.1.5數(shù)據(jù)的價(jià)值性1.1.6數(shù)據(jù)爆炸1.1.1數(shù)據(jù)的概念數(shù)據(jù)是指對客觀事件進(jìn)行記錄并可以鑒別的符號,是對客觀事物的性質(zhì)、狀態(tài)以及相互關(guān)系等進(jìn)行記載的物理符號或這些物理符號的組合,是可識別的、抽象的符號數(shù)據(jù)和信息是兩個(gè)不同的概念,信息是較為宏觀的概念,它由數(shù)據(jù)的有序排列組合而成,傳達(dá)給讀者某個(gè)概念方法等,而數(shù)據(jù)則是構(gòu)成信息的基本單位,離散的數(shù)據(jù)沒有任何實(shí)用價(jià)值。1.1.1數(shù)據(jù)的概念數(shù)據(jù)也被稱為“未來的石油”1.1.2數(shù)據(jù)類型文本A圖片B視頻D音頻A1.1.3數(shù)據(jù)組織形式計(jì)算機(jī)系統(tǒng)中的數(shù)據(jù)組織形式主要有兩種,即文件和數(shù)據(jù)庫。(1)文件:計(jì)算機(jī)系統(tǒng)中的很多數(shù)據(jù)都是以文件形式存在的,比如一個(gè)WORD文件、一個(gè)文本文件、一個(gè)網(wǎng)頁文件、一個(gè)圖片文件等等(2)數(shù)據(jù)庫:計(jì)算機(jī)系統(tǒng)中另一種非常重要的數(shù)據(jù)組織形式就是數(shù)據(jù)庫,今天,數(shù)據(jù)庫已經(jīng)成為計(jì)算機(jī)軟件開發(fā)的基礎(chǔ)和核心1.1.4數(shù)據(jù)的使用第一步數(shù)據(jù)清洗01第二步數(shù)據(jù)管理02第三步數(shù)據(jù)分析011.1.4數(shù)據(jù)的使用數(shù)據(jù)使用的實(shí)例:數(shù)據(jù)倉庫1.1.5數(shù)據(jù)的價(jià)值性在過去,一旦數(shù)據(jù)的基本用途實(shí)現(xiàn)了,往往就會(huì)被刪除,一方面是由于過去的存儲(chǔ)技術(shù)落后,人們需要?jiǎng)h除舊數(shù)據(jù)來存儲(chǔ)新數(shù)據(jù),另一方面則是人們沒有認(rèn)識到數(shù)據(jù)的潛在價(jià)值。數(shù)據(jù)的價(jià)值不會(huì)因?yàn)椴粩啾皇褂枚鳒p,反而會(huì)因?yàn)椴粩嘀亟M而產(chǎn)生更大的價(jià)值各類收集來的數(shù)據(jù)都應(yīng)當(dāng)被盡可能長時(shí)間地保存下來,同時(shí)也應(yīng)當(dāng)在一定條件下與全社會(huì)分享,并產(chǎn)生價(jià)值1.1.6數(shù)據(jù)爆炸人類進(jìn)入信息社會(huì)以后,數(shù)據(jù)以自然方式增長,其產(chǎn)生不以人的意志為轉(zhuǎn)移從1986年開始到2010年的20年時(shí)間里,全球數(shù)據(jù)的數(shù)量增長了100倍,今后的數(shù)據(jù)量增長速度將更快,我們正生活在一個(gè)“數(shù)據(jù)爆炸”的時(shí)代1.2大數(shù)據(jù)時(shí)代1.2.1第三次信息化浪潮1.2.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐1.2.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨1.2.1第三次信息化浪潮根據(jù)IBM前首席執(zhí)行官郭士納的觀點(diǎn),IT領(lǐng)域每隔十五年就會(huì)迎來一次重大變革信息化浪潮發(fā)生時(shí)間標(biāo)志解決問題代表企業(yè)第一次浪潮1980年前后個(gè)人計(jì)算機(jī)信息處理Intel、AMD、IBM、蘋果、微軟、聯(lián)想、戴爾、惠普等第二次浪潮1995年前后互聯(lián)網(wǎng)信息傳輸雅虎、谷歌、阿里巴巴、百度、騰訊等第三次浪潮2010年前后物聯(lián)網(wǎng)、云計(jì)算和大數(shù)據(jù)信息爆炸將涌現(xiàn)出一批新的市場標(biāo)桿企業(yè)表1-1三次信息化浪潮1.2.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖

存儲(chǔ)價(jià)格隨時(shí)間變化情況1.存儲(chǔ)設(shè)備容量不斷增加1.2.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖CPU晶體管數(shù)目隨時(shí)間變化情況2.CPU處理能力大幅提升

1.2.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐在信息化基礎(chǔ)設(shè)施方面,據(jù)工業(yè)和信息化部官網(wǎng)消息,截至2019年12月底,我國互聯(lián)網(wǎng)寬帶接入端口數(shù)量達(dá)9.16億個(gè),其中,光纖接入端口占互聯(lián)網(wǎng)接入端口的比重達(dá)91.3%;光纜線路總長度已達(dá)4750萬公里,相當(dāng)于在京滬高鐵線上往返1.8萬余次。同時(shí),近五年來固定寬帶和移動(dòng)寬帶資費(fèi)平均下降90%,速率提升6倍。目前,我國已基本實(shí)現(xiàn)“城市光纖到樓入戶,農(nóng)村寬帶進(jìn)鄉(xiāng)入村”。據(jù)中國信息通信研究院(簡稱中國信通院)數(shù)據(jù),截至2020年2月底,全國建設(shè)開通5G基站達(dá)16.4萬個(gè),5G網(wǎng)絡(luò)建設(shè)基礎(chǔ)不斷夯實(shí)。2020年中國將建設(shè)60萬~80萬個(gè)5G基站。1.2.2信息科技為大數(shù)據(jù)時(shí)代提供技術(shù)支撐圖

網(wǎng)絡(luò)帶寬隨時(shí)間變化情況3.網(wǎng)絡(luò)帶寬不斷增加1.2.3數(shù)據(jù)產(chǎn)生方式的變革促成大數(shù)據(jù)時(shí)代的來臨圖

數(shù)據(jù)產(chǎn)生方式的變革1.3大數(shù)據(jù)的發(fā)展歷程階段時(shí)間內(nèi)容第一階段:萌芽期上世紀(jì)90年代至本世紀(jì)初隨著數(shù)據(jù)挖掘理論和數(shù)據(jù)庫技術(shù)的逐步成熟,一批商業(yè)智能工具和知識管理技術(shù)開始被應(yīng)用,如數(shù)據(jù)倉庫、專家系統(tǒng)、知識管理系統(tǒng)等。第二階段:成熟期本世紀(jì)前十年Web2.0應(yīng)用迅猛發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)大量產(chǎn)生,傳統(tǒng)處理方法難以應(yīng)對,帶動(dòng)了大數(shù)據(jù)技術(shù)的快速突破,大數(shù)據(jù)解決方案逐漸走向成熟,形成了并行計(jì)算與分布式系統(tǒng)兩大核心技術(shù),谷歌的GFS和MapReduce等大數(shù)據(jù)技術(shù)受到追捧,Hadoop平臺(tái)開始大行其道第三階段:大規(guī)模應(yīng)用期2010年以后大數(shù)據(jù)應(yīng)用滲透各行各業(yè),數(shù)據(jù)驅(qū)動(dòng)決策,信息社會(huì)智能化程度大幅提高表大數(shù)據(jù)發(fā)展的三個(gè)階段1.4世界各國的大數(shù)據(jù)發(fā)展戰(zhàn)略1.4.1美國1.4.2英國1.4.3法國1.4.4韓國1.4.5日本1.4.6中國1.4世界各國的大數(shù)據(jù)發(fā)展戰(zhàn)略國家戰(zhàn)略美國穩(wěn)步實(shí)施“三步走”戰(zhàn)略,打造面向未來的大數(shù)據(jù)創(chuàng)新生態(tài)英國緊抓大數(shù)據(jù)產(chǎn)業(yè)機(jī)遇,應(yīng)對脫歐后的經(jīng)濟(jì)挑戰(zhàn)法國通過發(fā)展創(chuàng)新性解決方案并應(yīng)用于實(shí)踐來促進(jìn)大數(shù)據(jù)發(fā)展韓國以大數(shù)據(jù)等技術(shù)為核心應(yīng)對第四次工業(yè)革命日本開放公共數(shù)據(jù),夯實(shí)應(yīng)用開發(fā)中國實(shí)施國家大數(shù)據(jù)戰(zhàn)略,加快建設(shè)數(shù)字中國1.4.1美國美國是率先將大數(shù)據(jù)從商業(yè)概念上升至國家戰(zhàn)略的國家,通過穩(wěn)步實(shí)施“三步走”戰(zhàn)略,在大數(shù)據(jù)技術(shù)研發(fā)、商業(yè)應(yīng)用以及保障國家安全等方面已全面構(gòu)筑起全球領(lǐng)先優(yōu)勢。第一步是快速部署大數(shù)據(jù)核心技術(shù)研究,并在部分領(lǐng)域積極開發(fā)大數(shù)據(jù)應(yīng)用。第二步是調(diào)整政策框架與法律規(guī)章,積極應(yīng)對大數(shù)據(jù)發(fā)展帶來的隱私保護(hù)等問題。第三步是強(qiáng)化數(shù)據(jù)驅(qū)動(dòng)的體系和能力建設(shè),為提升國家整體競爭力提供長遠(yuǎn)保障。1.4.2英國英國政府于2010上線政府?dāng)?shù)據(jù)網(wǎng)站D.uk,同美國的D平臺(tái)功能類似,但主要側(cè)重于大數(shù)據(jù)信息挖掘和獲取能力的提升在2012年發(fā)布了新的政府?dāng)?shù)字化戰(zhàn)略,實(shí)現(xiàn)大數(shù)據(jù)驅(qū)動(dòng)的社會(huì)經(jīng)濟(jì)增長2013年英國政府加大了對大數(shù)據(jù)領(lǐng)域研究的資金支持1.4.3法國2011年7月,法國啟動(dòng)了開放數(shù)據(jù)項(xiàng)目,通過實(shí)現(xiàn)公共數(shù)據(jù)在移動(dòng)終端上的使用,最大限度地挖掘數(shù)據(jù)的應(yīng)用價(jià)值。項(xiàng)目內(nèi)容涉及交通、文化、旅游和環(huán)境等領(lǐng)域。2013年12月,法國政府發(fā)布《數(shù)字化路線圖》,明確了大數(shù)據(jù)是未來要大力支持的戰(zhàn)略性高新技術(shù)。此外,法國中小企業(yè)、創(chuàng)新和數(shù)字經(jīng)濟(jì)部推出大數(shù)據(jù)規(guī)劃,在2013年至2018年在法國巴黎等地創(chuàng)建大數(shù)據(jù)孵化器。1.4.4韓國韓國的智能終端普及率以及移動(dòng)互聯(lián)網(wǎng)接入速度一直位居世界前列,這使得其數(shù)據(jù)產(chǎn)出量也達(dá)到了世界先進(jìn)水平在樸槿惠政府倡導(dǎo)的“創(chuàng)意經(jīng)濟(jì)”國家發(fā)展方針指導(dǎo)下,韓國多個(gè)部門提出了具體的大數(shù)據(jù)發(fā)展計(jì)劃2016年年底,韓國發(fā)布以大數(shù)據(jù)等技術(shù)為基礎(chǔ)的《智能信息社會(huì)中長期綜合對策》,以積極應(yīng)對第四次工業(yè)革命的挑戰(zhàn)1.4.5日本2010年5月,日本發(fā)達(dá)信息通信網(wǎng)絡(luò)社會(huì)推進(jìn)戰(zhàn)略本部發(fā)布了以實(shí)現(xiàn)國民本位的電子政府、加強(qiáng)地區(qū)間的互助關(guān)系等為目標(biāo)的《信息通信技術(shù)新戰(zhàn)略》。2012年6月,日本IT戰(zhàn)略本部發(fā)布電子政務(wù)開放數(shù)據(jù)戰(zhàn)略草案2012年7月,日本政府推出了《面向2020年的ICT綜合戰(zhàn)略》,大數(shù)據(jù)成為發(fā)展的重點(diǎn)2013年6月,日本公布新IT戰(zhàn)略——?jiǎng)?chuàng)新最尖端IT國家宣言,明確了2013-2020年期間以發(fā)展開放公共數(shù)據(jù)為核心的日本新IT國家戰(zhàn)略1.4.6中國2015年8月,國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》。黨的十八屆五中全會(huì)將大數(shù)據(jù)上升為國家戰(zhàn)略。在黨的十九大報(bào)告中,習(xí)近平總書記明確指出:“推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能和實(shí)體經(jīng)濟(jì)深度融合”。2018年4月22日-24日,首屆“數(shù)字中國”建設(shè)峰會(huì)在福建省福州市舉行1.5大數(shù)據(jù)的概念1.5.1數(shù)據(jù)量大1.5.2數(shù)據(jù)類型繁多1.5.3處理速度快1.5.4價(jià)值密度低1.5.1數(shù)據(jù)量大根據(jù)IDC作出的估測,數(shù)據(jù)一直都在以每年50%的速度增長,也就是說每兩年就增長一倍(大數(shù)據(jù)摩爾定律)人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量,相較于2010年,數(shù)據(jù)量將增長近30倍1.5.2數(shù)據(jù)類型繁多大數(shù)據(jù)是由結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)組成的10%的結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫中90%的非結(jié)構(gòu)化數(shù)據(jù),它們與人類信息密切相關(guān)科學(xué)研究–基因組–LHC加速器–地球與空間探測企業(yè)應(yīng)用–Email、文檔、文件–應(yīng)用日志–交易記錄Web1.0數(shù)據(jù)–文本–圖像–視頻Web2.0數(shù)據(jù)–查詢?nèi)罩?點(diǎn)擊流–Twitter/Blog/SNS–Wiki1.5.3處理速度快從數(shù)據(jù)的生成到消耗,時(shí)間窗口非常小,可用于生成決策的時(shí)間非常少1秒定律:這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同1.5.4價(jià)值密度低

價(jià)值密度低,商業(yè)價(jià)值高

以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒,但是具有很高的商業(yè)價(jià)值繼續(xù)裝ing1.6大數(shù)據(jù)的影響1.6.1大數(shù)據(jù)對科學(xué)研究的影響1.6.2大數(shù)據(jù)對社會(huì)發(fā)展的影響1.6.3大數(shù)據(jù)對就業(yè)市場的影響1.6.4大數(shù)據(jù)對人才培養(yǎng)的影響1.6.1大數(shù)據(jù)對科學(xué)研究的影響

圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫專家JimGray博士觀察并總結(jié)人類自古以來,在科學(xué)研究上,先后歷經(jīng)了實(shí)驗(yàn)、理論、計(jì)算和數(shù)據(jù)四種范式實(shí)驗(yàn)理論計(jì)算數(shù)據(jù)1.6.1大數(shù)據(jù)對科學(xué)研究的影響伽利略伽利略在比薩斜塔做兩個(gè)鐵球同時(shí)落地實(shí)驗(yàn)科學(xué)研究第一種范式:實(shí)驗(yàn)1.6.1大數(shù)據(jù)對科學(xué)研究的影響科學(xué)研究第二種范式:理論幾何理論牛頓三大定律1.6.1大數(shù)據(jù)對科學(xué)研究的影響科學(xué)研究第三種范式:計(jì)算1.6.1大數(shù)據(jù)對科學(xué)研究的影響科學(xué)研究第四種范式:數(shù)據(jù)大數(shù)據(jù)時(shí)代,以數(shù)據(jù)為中心1.6.2大數(shù)據(jù)對社會(huì)發(fā)展的影響

數(shù)據(jù)科學(xué)大數(shù)據(jù)決策逐漸成為一種新的決策方式大數(shù)據(jù)成為提升國家治理能力的新途徑大數(shù)據(jù)應(yīng)用有力促進(jìn)了信息技術(shù)與各行業(yè)的深度融合大數(shù)據(jù)開發(fā)大大推動(dòng)了新技術(shù)和新應(yīng)用的不斷涌現(xiàn)1.6.3大數(shù)據(jù)對就業(yè)市場的影響麥肯錫報(bào)告,到2018年,在“具有深入分析能力的人才”方面,美國面臨著14萬到19萬的缺口,“可以利用大數(shù)據(jù)分析來做出有效決策的經(jīng)理和分析師”缺口則會(huì)達(dá)到150萬國內(nèi)有大數(shù)據(jù)專家估算過,5年內(nèi)國內(nèi)的大數(shù)據(jù)人才缺口會(huì)達(dá)到130萬,以大數(shù)據(jù)應(yīng)用較多的互聯(lián)網(wǎng)金融為例,這一行業(yè)每年增速達(dá)到4倍,屆時(shí),僅互聯(lián)網(wǎng)金融需要的大數(shù)據(jù)人才就是現(xiàn)在需求的4倍以上根據(jù)第四屆中國貴州人才博覽會(huì)發(fā)布《全國大數(shù)據(jù)人才需求指數(shù)報(bào)告》,2016年2月份,貴陽大數(shù)據(jù)人才月薪已逼近8000元大數(shù)據(jù)的興起使得數(shù)據(jù)科學(xué)家成為熱門職業(yè)1.6.4大數(shù)據(jù)對人才培養(yǎng)的影響大數(shù)據(jù)時(shí)代到底需要什么樣的人才?一是計(jì)算機(jī)技術(shù)相關(guān)人才,包括平臺(tái)搭建和應(yīng)用開發(fā)二是統(tǒng)計(jì)學(xué)相關(guān)人才,包括數(shù)學(xué)、建模、算法三是業(yè)務(wù)人才,就是要有一定的專業(yè)領(lǐng)域知識,只有明白目標(biāo)領(lǐng)域知識的人才能了解數(shù)據(jù)的意義以及指導(dǎo)數(shù)據(jù)分析的方向并判斷數(shù)據(jù)分析結(jié)果的可信性1.7大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)無處不在,包括金融、汽車、零售、餐飲、電信、能源、政務(wù)、醫(yī)療、體育、娛樂等在內(nèi)的社會(huì)各行各業(yè)都已經(jīng)融入了大數(shù)據(jù)的印跡1.7大數(shù)據(jù)的應(yīng)用就企業(yè)而言,對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟(jì)價(jià)值的源泉就政府而言,大數(shù)據(jù)的發(fā)展將會(huì)提高政府科學(xué)決策水平,改變政府傳統(tǒng)“拍腦袋”式?jīng)Q策,變?yōu)橛脭?shù)據(jù)說話,利用大數(shù)據(jù)分析社會(huì)、經(jīng)濟(jì)、人文生活等規(guī)律,從而為國家宏觀調(diào)控、戰(zhàn)略決策、產(chǎn)業(yè)布局等夯實(shí)根基在醫(yī)療領(lǐng)域,大數(shù)據(jù)也有不俗表現(xiàn)大數(shù)據(jù)也悄然地影響著綠茵場上強(qiáng)弱的較量1.8大數(shù)據(jù)產(chǎn)業(yè)大數(shù)據(jù)產(chǎn)業(yè)是指一切與支撐大數(shù)據(jù)組織管理和價(jià)值發(fā)現(xiàn)相關(guān)的企業(yè)經(jīng)濟(jì)活動(dòng)的集合產(chǎn)業(yè)鏈環(huán)節(jié)包含內(nèi)容IT基礎(chǔ)設(shè)施層包括提供硬件、軟件、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施以及提供咨詢、規(guī)劃和系統(tǒng)集成服務(wù)的企業(yè),比如,提供數(shù)據(jù)中心解決方案的IBM、惠普和戴爾等,提供存儲(chǔ)解決方案的EMC,提供虛擬化管理軟件的微軟、思杰、SUN、Redhat等數(shù)據(jù)源層大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者,是生物大數(shù)據(jù)(生物信息學(xué)領(lǐng)域的各類研究機(jī)構(gòu))、交通大數(shù)據(jù)(交通主管部門)、醫(yī)療大數(shù)據(jù)(各大醫(yī)院、體檢機(jī)構(gòu))、政務(wù)大數(shù)據(jù)(政府部門)、電商大數(shù)據(jù)(淘寶、天貓、蘇寧云商、京東等電商)、社交網(wǎng)絡(luò)大數(shù)據(jù)(微博、微信、人人網(wǎng)等)、搜索引擎大數(shù)據(jù)(百度、谷歌等)等各種數(shù)據(jù)的來源數(shù)據(jù)管理層包括數(shù)據(jù)抽取、轉(zhuǎn)換、存儲(chǔ)和管理等服務(wù)的各類企業(yè)或產(chǎn)品,比如分布式文件系統(tǒng)(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、數(shù)據(jù)庫和數(shù)據(jù)倉庫(Oracle、MySQL、SQLServer、HBase、GreenPlum等)數(shù)據(jù)分析層包括提供分布式計(jì)算、數(shù)據(jù)挖掘、統(tǒng)計(jì)分析等服務(wù)的各類企業(yè)或產(chǎn)品,比如,分布式計(jì)算框架MapReduce、統(tǒng)計(jì)分析軟件SPSS和SAS、數(shù)據(jù)挖掘工具Weka、數(shù)據(jù)可視化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等數(shù)據(jù)平臺(tái)層包括提供數(shù)據(jù)分享平臺(tái)、數(shù)據(jù)分析平臺(tái)、數(shù)據(jù)租售平臺(tái)等服務(wù)的企業(yè)或產(chǎn)品,比如阿里巴巴、谷歌、中國電信、百度等數(shù)據(jù)應(yīng)用層提供智能交通、智慧醫(yī)療、智能物流、智能電網(wǎng)等行業(yè)應(yīng)用的企業(yè)、機(jī)構(gòu)或政府部門,比如交通主管部門、各大醫(yī)療機(jī)構(gòu)、菜鳥網(wǎng)絡(luò)、國家電網(wǎng)等1.9高校大數(shù)據(jù)專業(yè)1.9.1大數(shù)據(jù)專業(yè)的人才培養(yǎng)目標(biāo)1.9.2畢業(yè)生就業(yè)崗位1.9.3大數(shù)據(jù)專業(yè)知識體系1.9.4大數(shù)據(jù)專業(yè)課程體系1.9.5大數(shù)據(jù)專業(yè)的編程語言1.9.1大數(shù)據(jù)專業(yè)的人才培養(yǎng)目標(biāo)大數(shù)據(jù)專業(yè)致力于培養(yǎng)符合國家戰(zhàn)略及大數(shù)據(jù)產(chǎn)業(yè)發(fā)展需求,具備較好的數(shù)據(jù)素養(yǎng)和數(shù)理基礎(chǔ)、扎實(shí)的編程基礎(chǔ)以及大數(shù)據(jù)基礎(chǔ)知識與技能,熟練掌握大數(shù)據(jù)采集、預(yù)處理、存儲(chǔ)、處理、分析、應(yīng)用技術(shù),能夠運(yùn)用大數(shù)據(jù)思維、模型和工具解決實(shí)際問題的高級復(fù)合型人才。大數(shù)據(jù)專業(yè)的畢業(yè)生能在互聯(lián)網(wǎng)企業(yè)、金融機(jī)構(gòu)、科研院所、高等院校等從事大數(shù)據(jù)分析、挖掘、處理、服務(wù)、應(yīng)用和研究工作,亦可從事各行業(yè)大數(shù)據(jù)系統(tǒng)的集成、設(shè)計(jì)、開發(fā)、管理、維護(hù)等工作,也適合在高等院校及科研院所的相關(guān)交叉學(xué)科繼續(xù)深造。1.9.2畢業(yè)生就業(yè)崗位1.9.3大數(shù)據(jù)專業(yè)知識體系從學(xué)科角度而言,大數(shù)據(jù)可以理解為一個(gè)跨多學(xué)科領(lǐng)域的,從數(shù)據(jù)中獲取知識的科學(xué)方法、技術(shù)和系統(tǒng)的集合。因此,大數(shù)據(jù)專業(yè)知識體系涵蓋了計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等多個(gè)學(xué)科領(lǐng)域,結(jié)合了諸多領(lǐng)域中的理論和技術(shù),包括應(yīng)用數(shù)學(xué)、統(tǒng)計(jì)學(xué)、模式識別、機(jī)器學(xué)習(xí)、人工智能、深度學(xué)習(xí)、數(shù)據(jù)可視化、數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、分布式計(jì)算、云計(jì)算、系統(tǒng)架構(gòu)設(shè)計(jì)等。從大數(shù)據(jù)分析角度而言(如圖所示),典型的大數(shù)據(jù)分析過程包括:數(shù)據(jù)采集與預(yù)處理、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)處理與分析、數(shù)據(jù)可視化等。因此,大數(shù)據(jù)專業(yè)知識體系涵蓋了數(shù)據(jù)采集與預(yù)處理技術(shù)、數(shù)據(jù)存儲(chǔ)與管理技術(shù)、數(shù)據(jù)處理與分析技術(shù)、數(shù)據(jù)可視化技術(shù)等。同時(shí),在分析過程中,對商業(yè)領(lǐng)域的業(yè)務(wù)知識也需要一定的理解。1.9.4大數(shù)據(jù)專業(yè)課程體系大數(shù)據(jù)專業(yè)課程體系涵蓋通識教育課、學(xué)科基礎(chǔ)課、專業(yè)基礎(chǔ)課、專業(yè)核心課和專業(yè)課,具體如下:(1)通識教育課:思政類課程、軍體類課程、外語課、創(chuàng)新創(chuàng)業(yè)課等;(2)學(xué)科基礎(chǔ)課:高等數(shù)學(xué)、線性代數(shù)、概率論與數(shù)理統(tǒng)計(jì)等;(3)專業(yè)基礎(chǔ)課:程序設(shè)計(jì)、計(jì)算機(jī)系統(tǒng)基礎(chǔ)及組成原理、離散數(shù)學(xué)、計(jì)算機(jī)網(wǎng)絡(luò)、算法與數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫系統(tǒng)、操作系統(tǒng)、軟件工程等;(4)專業(yè)核心課:大數(shù)據(jù)導(dǎo)論、網(wǎng)絡(luò)爬蟲與數(shù)據(jù)采集、數(shù)據(jù)清洗、NoSQL數(shù)據(jù)庫、數(shù)據(jù)可視化、分布式并行編程、機(jī)器學(xué)習(xí)等;(5)專業(yè)課:云計(jì)算、數(shù)據(jù)安全、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等。1.9.5大數(shù)據(jù)專業(yè)的編程語言1.C語言2.C++3.Java4.Python5.Scala6.R語言1.9.5大數(shù)據(jù)專業(yè)的編程語言1.C語言C語言是一門面向過程的計(jì)算機(jī)編程語言,與C++、Java等面向?qū)ο缶幊陶Z言有所不同。C語言的設(shè)計(jì)目標(biāo)是提供一種能以簡易的方式編譯、處理低級存儲(chǔ)器、僅產(chǎn)生少量的機(jī)器碼以及不需要任何運(yùn)行環(huán)境支持便能運(yùn)行的編程語言。C語言描述問題比匯編語言迅速、工作量小、可讀性好、易于調(diào)試、修改和移植,而代碼質(zhì)量與匯編語言相當(dāng)。C語言一般只比匯編語言代碼生成的目標(biāo)程序效率低10%~20%。因此,C語言可以編寫系統(tǒng)軟件。C語言在一些編程語言排行榜中長期排在第一的位置。1.9.5大數(shù)據(jù)專業(yè)的編程語言1.C語言C語言具有很多優(yōu)點(diǎn),主要如下:(1)它具有現(xiàn)代高級程序設(shè)計(jì)語言的基本語法特征,并且是編寫操作系統(tǒng)的首選語言,與計(jì)算機(jī)硬件打交道時(shí)靈巧且高效,目前幾乎所有的操作系統(tǒng)(如Windows、Unix和Linux等)均是由C語言編寫的;(2)常用的面向?qū)ο蟪绦蛟O(shè)計(jì)語言(例如C++和Java),其基本語法源于C語言。C語言甚至是其它編程語言的母語言,比如Java語言就是用C語言編寫的。(3)簡潔緊湊,靈活方便。C語言一共只有32個(gè)關(guān)鍵字,9種控制語句,程序書寫自由,主要用小寫字母表示,它把高級語言的基本結(jié)構(gòu)和語句與低級語言的實(shí)用性結(jié)合了起來。C語言一般作為學(xué)習(xí)計(jì)算機(jī)程序設(shè)計(jì)語言的入門語言。1.9.5大數(shù)據(jù)專業(yè)的編程語言2.C++C++是C語言的繼承,是一門以C為基礎(chǔ)發(fā)展而來的、面向?qū)ο蟮母呒壋绦蛟O(shè)計(jì)語言,它既可以進(jìn)行C語言的過程化程序設(shè)計(jì),又可以進(jìn)行以繼承和多態(tài)為特點(diǎn)的面向?qū)ο蟮某绦蛟O(shè)計(jì)。C++不僅擁有計(jì)算機(jī)高效運(yùn)行的實(shí)用性特征,同時(shí)還致力于提高大規(guī)模程序的編程質(zhì)量與程序設(shè)計(jì)語言的問題描述能力。C++的優(yōu)點(diǎn)主要包括:(1)實(shí)現(xiàn)了面向?qū)ο蟪绦蛟O(shè)計(jì),處理運(yùn)行速度非???,大部分的游戲軟件都是由C++來編寫的。(2)語言非常靈活,功能非常強(qiáng)大。(3)非常嚴(yán)謹(jǐn)、精確和數(shù)理化,標(biāo)準(zhǔn)定義很細(xì)致。(4)語言的語法思路層次分明。1.9.5大數(shù)據(jù)專業(yè)的編程語言大數(shù)據(jù)領(lǐng)域的不少產(chǎn)品都是使用C++開發(fā)的(即產(chǎn)品本身是由C++編寫的),包括一些NoSQL數(shù)據(jù)庫(ScyllaDB、MongoDB、Aerospike、Kudu、SequoiaDB)、數(shù)據(jù)倉庫Impala、實(shí)時(shí)流計(jì)算框架Hurricane和Heron、資源調(diào)度框架Mesos等。但是,談到大數(shù)據(jù)開發(fā)語言,C++要明顯遜色于Java,很多大數(shù)據(jù)應(yīng)用程序(比如Hadoop程序等)都是使用Java開發(fā)的,而不是使用C++。2.C++1.9.5大數(shù)據(jù)專業(yè)的編程語言3.JavaJava是目前最熱門的編程語言之一,在一些編程語言排行榜中長期排在前三名。雖然Java沒有和R、Python一樣好的可視化功能,也不是統(tǒng)計(jì)建模的最佳工具,但是,如果需要建立一個(gè)龐大的應(yīng)用系統(tǒng),那么Java通常會(huì)是較為理想的選擇。由于Java具有簡單、面向?qū)ο蟆⒎植际?、魯棒、安全、體系結(jié)構(gòu)中立、可移植、高性能、多線程以及動(dòng)態(tài)性等諸多優(yōu)良特性,因此,被大量應(yīng)用于企業(yè)大型系統(tǒng)開發(fā)中,企業(yè)對于Java人才的需求一直比較旺盛。Java語言與大數(shù)據(jù)存在較為緊密的聯(lián)系,Java在大數(shù)據(jù)領(lǐng)域有著廣泛的應(yīng)用,是大數(shù)據(jù)應(yīng)用程序開發(fā)的常用語言。作為大數(shù)據(jù)領(lǐng)域熱門的大數(shù)據(jù)處理框架Hadoop和Flink等,其框架本身都是采用Java語言開發(fā)的,編寫Hadoop應(yīng)用程序也首選Java語言。而目前熱門的分布式計(jì)算框架Spark,也支持采用Java語言編寫應(yīng)用程序。1.9.5大數(shù)據(jù)專業(yè)的編程語言4.PythonPython是目前國內(nèi)外很多大學(xué)里流行的入門語言,學(xué)習(xí)門檻低,簡單易用,開發(fā)員可以使用Python來構(gòu)建桌面應(yīng)用程序和Web應(yīng)用程序,此外,Python在學(xué)術(shù)界備受歡迎,常被用于科學(xué)計(jì)算、數(shù)據(jù)分析和生物信息學(xué)等領(lǐng)域。Python是最近幾年發(fā)展最為迅速的編程語言,在一些編程語言排行榜當(dāng)中甚至已經(jīng)進(jìn)入了前三名。Python的主要優(yōu)點(diǎn)如下:(1)可以使用多種執(zhí)行方式。可以直接在命令行執(zhí)行相關(guān)命令,也可以用函數(shù)的方式執(zhí)行相關(guān)命令,或者也可以用面向?qū)ο蟮姆绞綀?zhí)行相關(guān)命令。(2)語法簡潔,且強(qiáng)制縮格,程序具有很好的可讀性。(3)跨平臺(tái)。支持多種開發(fā)平臺(tái),如Windows、Linux、MacOSX、Solaris等。(4)面向?qū)ο?。Python既支持面向過程,又支持面向?qū)ο?,這使得其編程更加靈活。(5)豐富的第三方庫。Python有豐富且強(qiáng)大的庫,而且由于Python的開源特性,第三方庫非常多,如Web開發(fā)、爬蟲、科學(xué)計(jì)算等。在數(shù)據(jù)分析領(lǐng)域,Python是廣受歡迎的編程語言,網(wǎng)絡(luò)數(shù)據(jù)采集(比如網(wǎng)絡(luò)爬蟲)、數(shù)據(jù)清洗、數(shù)據(jù)分析與挖掘、數(shù)據(jù)可視化等環(huán)節(jié),通常都使用Python語言編寫程序。1.9.5大數(shù)據(jù)專業(yè)的編程語言5.ScalaScala是一門類似Java的多范式語言,它整合了面向?qū)ο缶幊毯秃瘮?shù)式編程的最佳特性,具有諸多優(yōu)點(diǎn),主要包括以下幾個(gè)方面:(1)具備強(qiáng)大的并發(fā)性,支持函數(shù)式編程,可以更好地支持分布式系統(tǒng);(2)Scala兼容Java,可以與Java互操作;(3)Scala代碼簡潔優(yōu)雅;(4)Scala支持高效的交互式編程;(5)S

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論