版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
常用表格數(shù)據(jù)的處理、大數(shù)據(jù)處理要點(diǎn)導(dǎo)引課標(biāo)梳理教材重點(diǎn)課標(biāo)要求學(xué)業(yè)質(zhì)量水平常用表格數(shù)據(jù)的處理1.能根據(jù)實(shí)際需求,對(duì)表格數(shù)據(jù)進(jìn)行簡(jiǎn)單整理、計(jì)算和可視化呈現(xiàn)2.能采用合適的方式分析數(shù)據(jù)和可視化呈現(xiàn)數(shù)據(jù),并能從中提取有用信息、形成結(jié)論2-1大數(shù)據(jù)處理1.了解大數(shù)據(jù)處理架構(gòu)和基本思路2.會(huì)使用Python進(jìn)行簡(jiǎn)單的數(shù)據(jù)處理,并能從中提取有用信息形成結(jié)論1-1教材研析☆數(shù)據(jù)處理的核心是數(shù)據(jù),在數(shù)據(jù)分析、挖掘前通常先對(duì)數(shù)據(jù)進(jìn)行整理。1數(shù)據(jù)整理(1)目的:數(shù)據(jù)整理的目的是檢測(cè)和修正錯(cuò)漏的數(shù)據(jù)、整合數(shù)據(jù)資源、規(guī)整數(shù)據(jù)格式、提高數(shù)據(jù)質(zhì)量。(2)常見(jiàn)的數(shù)據(jù)問(wèn)題及處理方法數(shù)據(jù)問(wèn)題處理方法數(shù)據(jù)缺失問(wèn)題最簡(jiǎn)單的處理辦法是忽略含有缺失值的實(shí)例和屬性。還可以采用平均值、中間值或概率統(tǒng)計(jì)值來(lái)填充缺失值數(shù)據(jù)重復(fù)問(wèn)題檢測(cè)數(shù)據(jù)集中的重復(fù)數(shù)據(jù)可以從字段和記錄兩個(gè)方面著手,檢查到重復(fù)數(shù)據(jù),在審核后可進(jìn)行合并或刪除等操作處理數(shù)據(jù)異常問(wèn)題異常數(shù)據(jù)指數(shù)據(jù)集中不符合一般規(guī)律的數(shù)據(jù)對(duì)象,它可能是要去掉的噪聲,也可能是含有重要信息的數(shù)據(jù)對(duì)象邏輯錯(cuò)誤問(wèn)題數(shù)據(jù)集中的屬性值與實(shí)際值不符,或違背業(yè)務(wù)規(guī)則,或不符合邏輯格式不一致問(wèn)題對(duì)于不同來(lái)源的數(shù)據(jù)中存在格式不一致的情況,可根據(jù)后續(xù)分析和挖掘的需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換典例1下列有關(guān)數(shù)據(jù)整理的說(shuō)法錯(cuò)誤的是()A.采用平均值、中間值或概率統(tǒng)計(jì)值來(lái)填充缺失值B.檢查到重復(fù)數(shù)據(jù),在審核后可進(jìn)行合并或刪除操作C.異常數(shù)據(jù)不符合一般規(guī)律,可直接刪除D.對(duì)邏輯錯(cuò)誤的數(shù)據(jù)進(jìn)行判別和剔除,格式不一致的數(shù)據(jù)可進(jìn)行數(shù)據(jù)轉(zhuǎn)換解析
異常數(shù)據(jù)可能是含有重要信息的數(shù)據(jù)對(duì)象,需要進(jìn)行判別后再?zèng)Q定是否剔除。C2Excel數(shù)據(jù)計(jì)算1.常用表格數(shù)據(jù)處理和統(tǒng)計(jì)分析的工具:SPSS、SAS、MATLAB等,也可以通過(guò)R、Python、Java等計(jì)算機(jī)語(yǔ)言編程進(jìn)行數(shù)據(jù)處理。2.Excel數(shù)據(jù)計(jì)算與分析常見(jiàn)操作:(1)公式計(jì)算步驟①選中結(jié)果單元格②輸入等號(hào)“=”或者單擊“插入函數(shù)”按鈕
③編輯公式(公式顯示在編輯欄內(nèi))④回車(chē)確認(rèn)(2)公式中可以引用函數(shù)、單元格、區(qū)域、數(shù)值、字符等。結(jié)果單元格內(nèi)顯示計(jì)算結(jié)果,編輯欄上顯示公式。(3)常用函數(shù)①SUM求和例如“=SUM(B1,D2:E5)”,對(duì)B1單元格和D2:E5區(qū)域的數(shù)據(jù)求和②AVERAGE求平均例如“=AVERAGE(B2:C6,E8)”,對(duì)B2:C6區(qū)域和E8單元格的數(shù)據(jù)求平均③MAX求最大值例如“=MAX(B1,D2:E5)”,對(duì)B1單元格和D2:E5區(qū)域的數(shù)據(jù)求最大值④MIN求最小值例如“=MIN(B2:C6,E8)”,對(duì)B2:C6區(qū)域和E8單元格的數(shù)據(jù)求最小值(4)要點(diǎn):“=”是公式計(jì)算的標(biāo)志,公式必須以“=”開(kāi)頭。沒(méi)有“=”,系統(tǒng)認(rèn)為是普通的字符輸入,不予計(jì)算。(5)自動(dòng)填充
相對(duì)引用&絕對(duì)引用①相對(duì)引用<1>被填充單元格和填充的樣板單元格公式在形式上保持一致。<2>填充時(shí)公式中行號(hào)或列號(hào)發(fā)生遞變,遞變值為被填充單元格行號(hào)或列號(hào)與樣板單元格行號(hào)或列號(hào)的差值。<3>系統(tǒng)默認(rèn)在自動(dòng)填充時(shí)發(fā)生相對(duì)引用②絕對(duì)引用某些情況下,自動(dòng)填充時(shí)不希望行號(hào)或列號(hào)發(fā)生改變,而因?yàn)樽詣?dòng)填充會(huì)默認(rèn)發(fā)生相對(duì)引用的改變,則在不希望變化而實(shí)際上發(fā)生了變化的行號(hào)或列號(hào)前加上$鎖定不讓其發(fā)生改變。③總結(jié)規(guī)律<1>按列縱向填充,默認(rèn)相對(duì)引用變化的是行號(hào),若需某行號(hào)不變,則需要在樣板單元格(作為樣板進(jìn)行自動(dòng)填充的單元格)相應(yīng)的行號(hào)前加絕對(duì)引用符號(hào)$進(jìn)行鎖定。<2>按行橫向填充,默認(rèn)相對(duì)引用變化的是列號(hào),若需某列號(hào)不變,則需要在樣板單元格相應(yīng)的列號(hào)前加絕對(duì)引用符號(hào)$進(jìn)行鎖定。④以有公式計(jì)算的單元格為樣板單元格對(duì)其他單元格進(jìn)行自動(dòng)填充,則樣板單元格和被填充單元格的公式在形式上保持高度一致。⑤對(duì)有公式計(jì)算的單元格A進(jìn)行“復(fù)制”操作,在別的單元格B執(zhí)行“粘貼”操作,等同于A向B自動(dòng)填充。3.用Excel軟件進(jìn)行數(shù)據(jù)計(jì)算的一般方法(1)分析表格數(shù)據(jù)(2)抽象計(jì)算模型(3)計(jì)算(4)分析計(jì)算結(jié)果,描述其含義典例2寫(xiě)出下圖所示數(shù)據(jù)中結(jié)果單元格的公式。
(1)F2單元格趙文昊同學(xué)的總分公式
=SUM(C2:E2)(或=C2+D2+E2)(2)G2單元格趙文昊同學(xué)的平均分公式
=AVERAGE(C2:E2)(或=F2/3)(3)C18單元格語(yǔ)文學(xué)科最高分的公式
=MAX(C2:C16)(4)C19單元格語(yǔ)文學(xué)科最低分的公式
=MIN(C2:C16)(5)C20單元格的語(yǔ)文“學(xué)科百分比(%)”【語(yǔ)文學(xué)科總分÷F17單元格中所有學(xué)科的總分×100】向右自動(dòng)填充得到其他兩門(mén)學(xué)科的“學(xué)科百分比(%)”數(shù)據(jù),求C20單元格的公式=C17/$F17
100解析
橫向自動(dòng)填充,默認(rèn)發(fā)生相對(duì)引用,被填充單元格的列號(hào)相對(duì)樣板單元格發(fā)生改變,而公式中的分母F17單元格不能變化,所以將分母F17單元格的列號(hào)F加上$鎖定不讓它發(fā)生改變。3數(shù)據(jù)圖表呈現(xiàn)1.用Excel軟件創(chuàng)建圖標(biāo)呈現(xiàn)數(shù)據(jù)的一般方法:分析表格數(shù)據(jù)
選擇圖表類(lèi)型
創(chuàng)建圖表
檢查圖表,表述數(shù)據(jù)特征。2.圖表類(lèi)型:依據(jù)數(shù)據(jù)間的關(guān)系選擇相應(yīng)的圖表類(lèi)型。(圖表是用視覺(jué)形式向人們展示數(shù)據(jù)的一種方法。常見(jiàn)的圖表類(lèi)型有柱形圖、折線圖、餅圖、雷達(dá)圖、氣泡圖等)圖表類(lèi)型作用
柱形圖常常用來(lái)顯示一段時(shí)間內(nèi)數(shù)據(jù)變化或比較各項(xiàng)數(shù)據(jù)之間的情況
雷達(dá)圖可以用來(lái)表現(xiàn)一個(gè)周期內(nèi)數(shù)值的變化,也可以用來(lái)表現(xiàn)多個(gè)對(duì)象/維度之間的關(guān)系
折線圖常常用來(lái)顯示隨時(shí)間而變化的連續(xù)數(shù)據(jù),因此非常適用于顯示在相等時(shí)間間隔下數(shù)據(jù)的趨勢(shì)
散點(diǎn)圖用于表現(xiàn)2~3個(gè)變量之間的關(guān)系,以圓點(diǎn)的多少或疏密展示成對(duì)的數(shù)和它們所代表的趨勢(shì)之間的關(guān)系
餅圖常用于顯示一個(gè)數(shù)據(jù)系列中各項(xiàng)的大小與各項(xiàng)總和的比例,也可以顯示出整個(gè)餅圖的百分比
氣泡圖一次比較3~4個(gè)變量,X軸、Y軸各表示1個(gè)變量,第3個(gè)變量通過(guò)氣泡的面積大小表示,第4個(gè)變量通過(guò)氣泡的顏色來(lái)體現(xiàn)4大數(shù)據(jù)處理的基本思想與架構(gòu)1.大數(shù)據(jù)處理的分治思想(1)把一個(gè)復(fù)雜的問(wèn)題分成兩個(gè)或更多相同或相似的子問(wèn)題,找到求這幾個(gè)子問(wèn)題的解法后,再找出合適的方法把它們組合成求整個(gè)問(wèn)題的解法。(2)若這些子問(wèn)題還難以解決,可以再把它們分成幾個(gè)更小的子問(wèn)題,以此類(lèi)推,直至求出解為止。2.大數(shù)據(jù)處理類(lèi)型(1)靜態(tài)數(shù)據(jù):在處理時(shí)已收集完成,在計(jì)算時(shí)不會(huì)發(fā)生改變的數(shù)據(jù),一般采用批處理計(jì)算進(jìn)行處理。(2)流數(shù)據(jù):不間斷地、持續(xù)地到達(dá)的實(shí)時(shí)數(shù)據(jù),隨著時(shí)間的流逝,流數(shù)據(jù)的價(jià)值也隨之降低,可采用流計(jì)算進(jìn)行實(shí)時(shí)分析。(3)圖數(shù)據(jù):現(xiàn)實(shí)世界中的許多數(shù)據(jù),如社交網(wǎng)絡(luò)、道路交通等數(shù)據(jù),可采用圖計(jì)算進(jìn)行處理。大數(shù)據(jù)處理類(lèi)型
3.批處理計(jì)算(1)Hadoop:一個(gè)可運(yùn)行于大規(guī)模計(jì)算機(jī)集群上的分布式系統(tǒng)基礎(chǔ)架構(gòu),適用于靜態(tài)數(shù)據(jù)的批處理計(jì)算。(2)Hadoop計(jì)算平臺(tái)的組成①Common公共庫(kù)②分布式文件系統(tǒng)HDFS③分布式數(shù)據(jù)庫(kù)HBase④分布式并行計(jì)算模型MapReduce(3)分布式文件系統(tǒng)HDFS①主要功能是將大規(guī)模海量數(shù)據(jù)以文件的形式、用多個(gè)副本保存在不同的存儲(chǔ)節(jié)點(diǎn)中,并用分布式系統(tǒng)進(jìn)行管理。②是一個(gè)高度容錯(cuò)性系統(tǒng),適合部署在廉價(jià)的機(jī)器上(云盤(pán)、網(wǎng)盤(pán)的底層一般采用HDFS)。(4)分布式數(shù)據(jù)庫(kù)HBase建立在HDFS提供的底層存儲(chǔ)基礎(chǔ)上,采用基于列的存儲(chǔ)方式,主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),可管理PB級(jí)的大數(shù)據(jù)。(5)分布式并行計(jì)算模型MapReduce①是一種分布式并行編程模型,能夠處理大規(guī)模數(shù)據(jù)集的并行運(yùn)算,主要由Map(映射)和Reduce(歸納)2個(gè)函數(shù)構(gòu)成。②核心處理思想:將任務(wù)分解并分發(fā)到多個(gè)節(jié)點(diǎn)上進(jìn)行處理,最后匯總輸出。4.流計(jì)算:流計(jì)算系統(tǒng)可以簡(jiǎn)單、高效、可靠地實(shí)現(xiàn)實(shí)時(shí)數(shù)據(jù)的獲取、傳輸和存儲(chǔ),在與數(shù)據(jù)庫(kù)、Hadoop、編程語(yǔ)言等整合后可開(kāi)發(fā)出功能強(qiáng)大的實(shí)時(shí)計(jì)算與分析應(yīng)用。5.圖計(jì)算:現(xiàn)實(shí)世界中的很多數(shù)據(jù)是以圖的形式呈現(xiàn)的,或者是可以轉(zhuǎn)換為圖以后再進(jìn)行分析的,如社交網(wǎng)絡(luò)、網(wǎng)絡(luò)瀏覽與購(gòu)買(mǎi)行為、傳染病的傳播路徑等。6.實(shí)時(shí)處理與批處理的整合典例3下列有關(guān)大數(shù)據(jù)處理的思想與框架的說(shuō)法正確的是()A.大數(shù)據(jù)采用“分治”思想處理B.對(duì)靜態(tài)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理C.Hadoop是對(duì)流數(shù)據(jù)進(jìn)行批處理的架構(gòu)D.實(shí)時(shí)處理和批處理不能并存解析
B.靜態(tài)數(shù)據(jù)適合進(jìn)行批處理,流數(shù)據(jù)才需要實(shí)時(shí)處理;C.Hadoop是對(duì)靜態(tài)數(shù)據(jù)進(jìn)行批處理的架構(gòu);D.實(shí)時(shí)處理和批處理可以并存。A典例4下列關(guān)于流數(shù)據(jù)的描述,不正確的是()A.數(shù)據(jù)必須采集完成后處理B.數(shù)據(jù)價(jià)值隨著時(shí)間的流逝降低C.可以采用流計(jì)算進(jìn)行實(shí)時(shí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 用土協(xié)議合同范例
- 攔魚(yú)網(wǎng)采購(gòu)合同范例
- 管道清淤工合同范例
- 養(yǎng)殖場(chǎng)合作協(xié)議書(shū)版3篇
- 商務(wù)出差合同模板3篇
- 企業(yè)加盟合同書(shū)模板3篇
- 小型塔吊轉(zhuǎn)讓合同范例
- 加油站合作經(jīng)營(yíng)協(xié)議書(shū)3篇
- 全新合伙經(jīng)營(yíng)車(chē)輛協(xié)議3篇
- 歷史文化建筑裝修環(huán)保協(xié)議3篇
- 城市軌道交通工程施工現(xiàn)場(chǎng)安全生產(chǎn)風(fēng)險(xiǎn)點(diǎn)清單
- 黑龍江省龍東地區(qū)2025屆英語(yǔ)九上期末監(jiān)測(cè)模擬試題含解析
- 公共廣播系統(tǒng)施工與方案
- 2024年個(gè)人信用報(bào)告(個(gè)人簡(jiǎn)版)樣本(帶水印-可編輯)
- 硒鼓回收處理方案
- 書(shū)法創(chuàng)作與欣賞智慧樹(shù)知到期末考試答案章節(jié)答案2024年華僑大學(xué)
- 經(jīng)典導(dǎo)讀與欣賞-知到答案、智慧樹(shù)答案
- 悉尼歌劇院-建筑技術(shù)分析
- 肺結(jié)核病防治知識(shí)宣傳培訓(xùn)
- 三切口食管癌手術(shù)步驟
- 食品安全與衛(wèi)生智慧樹(shù)知到期末考試答案2024年
評(píng)論
0/150
提交評(píng)論