![浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第1頁](http://file4.renrendoc.com/view/45513b20d74185d52a05bcba323a62b3/45513b20d74185d52a05bcba323a62b31.gif)
![浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第2頁](http://file4.renrendoc.com/view/45513b20d74185d52a05bcba323a62b3/45513b20d74185d52a05bcba323a62b32.gif)
![浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第3頁](http://file4.renrendoc.com/view/45513b20d74185d52a05bcba323a62b3/45513b20d74185d52a05bcba323a62b33.gif)
![浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第4頁](http://file4.renrendoc.com/view/45513b20d74185d52a05bcba323a62b3/45513b20d74185d52a05bcba323a62b34.gif)
![浙教版-信息技術(shù)-必修1-42-大數(shù)據(jù)處理-課件(教學(xué)課件)_第5頁](http://file4.renrendoc.com/view/45513b20d74185d52a05bcba323a62b3/45513b20d74185d52a05bcba323a62b35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第4章數(shù)據(jù)處理與應(yīng)用浙教版
信息技術(shù)(高中)必修1
數(shù)據(jù)與計(jì)算4.2大數(shù)據(jù)處理
第4章數(shù)據(jù)處理與應(yīng)用浙教版信息技術(shù)(高中)必修1學(xué)習(xí)目標(biāo)1234大數(shù)據(jù)處理的基本思想批處理計(jì)算和流計(jì)算、圖計(jì)算,編程處理數(shù)據(jù)文本數(shù)據(jù)處理,文本數(shù)據(jù)分析與應(yīng)用數(shù)據(jù)可視化學(xué)習(xí)目標(biāo)1234大數(shù)據(jù)處理的基本思想批處理計(jì)算和流計(jì)算、圖計(jì)12重點(diǎn)難點(diǎn)重點(diǎn):大數(shù)據(jù)處理的思想和編程處理數(shù)據(jù)。難點(diǎn):編程處理數(shù)據(jù)。12重點(diǎn)難點(diǎn)重點(diǎn):大數(shù)據(jù)處理的思想和編程處理數(shù)據(jù)。課堂導(dǎo)入
大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)來源與類型多樣、處理速度快等特點(diǎn),簡單的表格處理軟件已經(jīng)無法滿足大數(shù)據(jù)的處理需求,同時(shí),大數(shù)據(jù)技術(shù)、理論和處理方法也在不斷發(fā)展,為大數(shù)據(jù)的處理提供了越來越有力的支持。課堂導(dǎo)入大數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)來源與4.2.1大數(shù)據(jù)處理的基本思想與架構(gòu)處理大數(shù)據(jù)時(shí),一般采用分治思想。就是把一個(gè)復(fù)雜的問題分成兩個(gè)或更多相同的可相似的子問題,找到求這幾個(gè)子問題的解法后,再找出合適的方法把它們組合成求整個(gè)問題的解法。4.2.1大數(shù)據(jù)處理的基本思想與架構(gòu)處理大數(shù)據(jù)統(tǒng)計(jì)文件filename中各單詞出現(xiàn)的頻率,用python編程實(shí)現(xiàn)的代碼如下:wordcount={}forwordinopen(filename,’r’).read():
wordcount[word]+=1統(tǒng)計(jì)文件filename中各單詞出現(xiàn)的頻率,用python編拓展鏈接分布式計(jì)算與并行處理分布式計(jì)算(DistributedComputing)是把一個(gè)需要非常巨大的計(jì)算能力才能解決的問題分成許多小部分,然后把這些部分分配給許多計(jì)算機(jī)進(jìn)行處理,最后把這些計(jì)算結(jié)果綜合起來得到最終的結(jié)果。例如,利用分布在世界各地成千上萬臺閑置計(jì)算機(jī)的計(jì)算能力,分析來自外太空的電訊號,探索可能存在的外星智慧生命。并行處理(ParallelProcessing)是計(jì)算機(jī)系統(tǒng)中能同時(shí)執(zhí)行兩個(gè)或更多處理的一種計(jì)算方法。并行處理的主要目的是節(jié)省大型和復(fù)雜問題的處理時(shí)間。拓展鏈接分布式計(jì)算與并行處理大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)流數(shù)據(jù)圖數(shù)據(jù)批處理計(jì)算(Hadoop、spark等)流計(jì)算(storm、heron等)圖計(jì)算(pregel、graphx等)圖4.2.1大數(shù)據(jù)處理類型大數(shù)據(jù)處理靜態(tài)數(shù)據(jù)流數(shù)據(jù)圖數(shù)據(jù)批處理計(jì)算(Hadoop、sp1、批處理計(jì)算Hadoop是一個(gè)運(yùn)行于計(jì)算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于靜態(tài)數(shù)據(jù)
的批處理計(jì)算。Spark是一種與hadoop相似的,應(yīng)用較廣的開源分布式計(jì)算架構(gòu)。Spark
啟用了內(nèi)存存儲中間結(jié)果,運(yùn)行速度比hadoop快。1、批處理計(jì)算Hadoop是一個(gè)運(yùn)行于計(jì)算機(jī)集群上的分布式系圖4.2.2Hadoop的組成圖4.2.2Hadoop的組成圖4.2.3MapReduce的工作流程圖4.2.3MapReduce的工作流程拓展鏈接:Hadoop的發(fā)展歷史Hadoop最早起源于Nutch項(xiàng)目。Nutch是一個(gè)開源的網(wǎng)絡(luò)搜索引擎,由DougCutting于2002年創(chuàng)建。隨著網(wǎng)頁數(shù)量的增加,項(xiàng)目組遇到了數(shù)十億網(wǎng)頁的存儲和索引問題。2003年底,谷歌發(fā)表了關(guān)于谷歌分布式文件系統(tǒng)的論文。該論文描述了谷歌搜索引擎網(wǎng)頁相關(guān)數(shù)據(jù)的存儲架構(gòu),該架構(gòu)可解決Nutch遇到的網(wǎng)頁抓取和索引過程中產(chǎn)生的超大文件存儲需求問題。由于谷歌僅開源了思想而未開源代碼,Nutch項(xiàng)目組便根據(jù)論文開源實(shí)現(xiàn)了Nutch的分布式文件系統(tǒng)(NDFS).2004年,谷歌發(fā)表了關(guān)于谷歌分布式計(jì)算框架MapReduce的論文,該框架可用于處理海量網(wǎng)頁的索引問題。Nutch的開發(fā)人員依據(jù)論文完成了MapReduce的開源實(shí)現(xiàn)。2006年初,NDFS和MapReduce從Nutch項(xiàng)目分離,DougCutting用兒子的棕黃色大象玩具的名字為項(xiàng)目起名為Hadoop.同年2月,ApacheHadoop項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS的獨(dú)立發(fā)展。2008年1月,Hadoop成為Apache頂級項(xiàng)目,迎來了它的快速發(fā)展期。拓展鏈接:Hadoop的發(fā)展歷史2.流計(jì)算圖4.2.4流計(jì)算的發(fā)展圖4.2.5Twitter的分層數(shù)據(jù)處理架構(gòu)2.流計(jì)算圖4.2.4流計(jì)算的發(fā)展圖4.2.5Twitt拓展鏈接主要的流計(jì)算軟件系統(tǒng)目前,處理流數(shù)據(jù)的軟件系統(tǒng)主要有IBMInfoSphereStreams、TwitterStorm、Yahoo!S4、銀河流數(shù)據(jù)處理平臺(淘寶)、FacebookPuma等。Storm和S4是目前較為流行的開源分布式實(shí)時(shí)計(jì)算系統(tǒng)。Heron是Storm的替代產(chǎn)品,其外部接口和Storm保持兼容,在流數(shù)據(jù)處理性能方面與Storm相比有了大幅提升。拓展鏈接主要的流計(jì)算軟件系統(tǒng)3、圖計(jì)算圖4.2.6蛋白質(zhì)激素構(gòu)成圖(由2.7萬個(gè)節(jié)點(diǎn)和794萬條邊組成)目前通用的圖處理軟件主要包括兩類:一類是圖數(shù)據(jù)庫,如Neo4j、InfiniGraph、OrientDB等;加一類是并行圖處理系統(tǒng),如GooglePregel、ApacheGiraph等3、圖計(jì)算圖4.2.6蛋白質(zhì)激素構(gòu)成圖(由2.7萬個(gè)節(jié)點(diǎn)和4、實(shí)時(shí)處理與批處理的整合2014年9月,大數(shù)據(jù)處理系統(tǒng)summingbird,它實(shí)現(xiàn)了批處理和流計(jì)算的整合(Hadoop+storm)。4、實(shí)時(shí)處理與批處理的整合2014年9月,大數(shù)據(jù)處理系統(tǒng)su結(jié)合生活實(shí)踐,查找資料,列舉靜態(tài)數(shù)據(jù)、
流數(shù)據(jù)處理實(shí)例。問題與討論:結(jié)合生活實(shí)踐,查找資料,列舉靜態(tài)數(shù)據(jù)、
流數(shù)據(jù)處理實(shí)例。問題Hadoop應(yīng)用實(shí)例:北京城市數(shù)據(jù)映像-流動(dòng)的城市“北京城市數(shù)據(jù)映像”項(xiàng)目采集了北京市地鐵一卡通數(shù)據(jù)、出租車GPS定位軌跡數(shù)據(jù)、移動(dòng)手機(jī)基站定位、地理位置微博數(shù)據(jù)、工商業(yè)POI地點(diǎn)等約2TB的數(shù)據(jù)。數(shù)據(jù)計(jì)算平臺采用了服務(wù)器集群、Hadoop和HBase架構(gòu)。通過收集北京市各相關(guān)行業(yè)的數(shù)據(jù),運(yùn)用大數(shù)據(jù)分析和可視化表達(dá)技術(shù),將城市的發(fā)展和變化過程變得直觀、透明和可視。大數(shù)據(jù)分析為城市管理提供了技術(shù)支撐,是發(fā)現(xiàn)、分析城市問題的新思維和技術(shù)方法。拓展鏈接Hadoop應(yīng)用實(shí)例:拓展鏈接4.2.2編程處理數(shù)據(jù)1、利用pandas模塊處理數(shù)據(jù)Pandas提供了series和DataFrame兩種數(shù)據(jù)結(jié)構(gòu),這兩種數(shù)據(jù)結(jié)構(gòu)可完成
數(shù)據(jù)的整理、計(jì)算、統(tǒng)計(jì)、分析及簡單可視化。importpandasaspd4.2.2編程處理數(shù)據(jù)1、利用pandas模塊處理數(shù)據(jù)Pa(1)series(一維)S1=pd.series([166,178,180])Print(s1)運(yùn)行結(jié)果:016611782180dtype:int64S1=pd.series([166,178,180])Print(s1)運(yùn)行結(jié)果:016611782180dtype:int64創(chuàng)建1個(gè)series結(jié)構(gòu)類型的對象s1,存儲3名同學(xué)的身高值。(1)series(一維)S1=pd.series([166例2查看例1中s1對象的index、values屬性值。foriins1.index:
print(i)運(yùn)行結(jié)果:012foriins1.values:
print(i)運(yùn)行結(jié)果:166178180foriins1:
print(i)運(yùn)行結(jié)果:166178180例2查看例1中s1對象的index、values屬性值。f(2)dataFrame(二維)例3使用相等長度列表的字典構(gòu)建一個(gè)DataFrame對象dfl,存儲3名同學(xué)的姓名、性別、圖書借閱次數(shù)數(shù)據(jù)。importpandasaspddata=(“姓名”:[“王靜怡”,“張佳妮”,“李臣武”],”性別”:[“女”,“女”,“男”],”借閱次數(shù)”:[28,56,37])dfl=pd.DataFrame(data,columns=["姓名",“性別",“借閱次數(shù)"])print(df1)運(yùn)行結(jié)果:設(shè)定dfl中數(shù)據(jù)列的順序姓名性別借閱次數(shù)0王靜怡女281張佳妮女562李臣武男37(2)dataFrame(二維)例3使用相等長度列表的字典例4讀取Excel文件“test.xlsx”中的數(shù)據(jù),創(chuàng)建DataFrame對象df。importpandasaspddf=pd.read_excel("test.xlsx")print(df)運(yùn)行結(jié)果:地區(qū)規(guī)格單位價(jià)格采價(jià)點(diǎn)采集時(shí)間0北京市紅富士一級元/500克2.98超市211月中旬1北京市紅富士一級元/500克4.88超市111月中旬
2天津市紅富士一級元/500克
5.00超市111月中旬
3天津市紅富士一級元/500克
5.00超市211月中旬石家莊市紅富士一級元/500克
3.98超市111月中旬石家莊市紅富士一級元/500克
3.98超市211月中旬例4運(yùn)行結(jié)果:例5查看df1對象的索引、列標(biāo)題、值,并將行、列轉(zhuǎn)置。foriindf1.index:
print(i)運(yùn)行結(jié)果:012foriindf1.columns:print(i)運(yùn)行結(jié)果:姓名性別借閱次數(shù)foriindf1.index:print(i)運(yùn)行結(jié)果:[‘王靜怡’‘女’56][‘張佳怩’‘女’52][‘李臣武’‘男’68]Df1.T#轉(zhuǎn)置行、列運(yùn)行結(jié)果:012姓名王靜怡張佳怡李臣武性別女女男借閱次數(shù)565268例5查看df1對象的索引、列標(biāo)題、值,并將行、列轉(zhuǎn)置。fo2.利用matplotlib模塊繪圖表4.2.4常用繪圖函數(shù)2.利用matplotlib模塊繪圖表4.2.4常用繪圖函例10繪制正弦曲線圖importnumpyasnpimportmatplotlib.pyplotaspltx=np.linspace(0,10,1000)yl=np.sin(x)y2=np.sin(x**2)plt.figure(figsize=(8,4))#創(chuàng)建圖表對象plt.title(“sin(x)andsin(x**2)”)#設(shè)置圖表標(biāo)題文字plt.plot(x,y1,label=“sin(x)”,color=“r”,linewidth=2)
#繪制線形圖plt.scatter(x,y2,label="sin(x**2)")#繪制散點(diǎn)圖plt.ylim(-1.5,1.5)
#設(shè)置y坐標(biāo)軸的取值范圍plt.xlim(0,10)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- LY/T 3422-2024林產(chǎn)品檢驗(yàn)檢測能力驗(yàn)證規(guī)范
- 人教版七年級地理(下)《第七章我們鄰近的地區(qū)和國家》復(fù)習(xí)聽課評課記錄
- 滬科版數(shù)學(xué)七年級下冊《一元一次不等式的運(yùn)用》聽評課記錄1
- 滬教版數(shù)學(xué)八年級下冊23.2《事件的概率》聽評課記錄
- 粵教版道德與法治八年級下冊5.2《公民的權(quán)利和義務(wù)》聽課評課記錄1
- 湘教版數(shù)學(xué)九年級下冊4.2《概率及其計(jì)算》聽評課記錄3
- 北京課改版歷史七年級上冊第15課《東漢的興衰》聽課評課記錄
- 語文三年級聽評課記錄
- 《三國鼎立》聽課評課記錄1(新部編人教版七年級上冊歷史)
- 人教版八年級地理上冊《 2.2 氣候 》聽課評課記錄
- 房地產(chǎn)調(diào)控政策解讀
- 山東省濟(jì)寧市2025屆高三歷史一輪復(fù)習(xí)高考仿真試卷 含答案
- 五年級數(shù)學(xué)(小數(shù)乘法)計(jì)算題專項(xiàng)練習(xí)及答案
- 產(chǎn)前診斷室護(hù)理工作總結(jié)
- 2024-2025學(xué)年八年級數(shù)學(xué)人教版上冊寒假作業(yè)(綜合復(fù)習(xí)能力提升篇)(含答案)
- 2024年社會工作者(中級)-社會綜合能力考試歷年真題可打印
- 湖南省長郡中學(xué)2023-2024學(xué)年高二下學(xué)期寒假檢測(開學(xué)考試)物理 含解析
- 隱匿性陰莖的診療和治療課件
- 2022屆北京市東城區(qū)高三語文一模語文試卷講評課件
- 了不起的狐貍爸爸-全文打印
- JJG646-2006移液器檢定規(guī)程-(高清現(xiàn)行)
評論
0/150
提交評論