版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
4.1數(shù)據(jù)分析概述數(shù)據(jù)分析內(nèi)容概要數(shù)據(jù)分析的方法數(shù)據(jù)分析的工具數(shù)據(jù)導(dǎo)入與導(dǎo)出的方法(用Python)數(shù)據(jù)分析1.數(shù)據(jù)分析的必要性
從大量的數(shù)據(jù)中發(fā)掘有用的信息,揭示隱含其中的內(nèi)在規(guī)律,指導(dǎo)科學(xué)的推斷和決策,需要對紛繁復(fù)雜的數(shù)據(jù)進行分析。2.數(shù)據(jù)分析的概念數(shù)據(jù)分析是運用數(shù)據(jù)分析的工具和方法,根據(jù)研究的目的,對數(shù)據(jù)進行深層次挖掘和分析,找出內(nèi)在的聯(lián)系和變化,從而揭示事物的本質(zhì)狀態(tài),預(yù)測事物的發(fā)展趨勢。4.1.1數(shù)據(jù)分析的方法常見的數(shù)據(jù)分析方法從現(xiàn)狀、原因和預(yù)測三大方面展開,數(shù)據(jù)分析目的不同,選用的分析方法也不一樣?;貧w分析法時間序列決策樹神經(jīng)網(wǎng)絡(luò)預(yù)測分析分組分析交叉分析杜邦分法結(jié)構(gòu)分析聚類分析關(guān)聯(lián)分析漏斗圖分析矩陣關(guān)聯(lián)分析原因分析對比分析法平均分析法綜合評價分析法現(xiàn)狀分析4.1.1數(shù)據(jù)分析的方法探究:以“中學(xué)生體質(zhì)健康數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)分析”項目為例,請你利用上面的數(shù)據(jù)分析方法,從現(xiàn)狀、原因和預(yù)測三個方面的數(shù)據(jù)分析。學(xué)生身體形態(tài)、身體機能、身體素質(zhì)狀況現(xiàn)狀分析學(xué)校間,男、女生之間顯著差異的原因原因分析預(yù)測學(xué)生個體和群體體質(zhì)健康發(fā)展趨勢預(yù)測分析4.1.2數(shù)據(jù)分析的工具數(shù)據(jù)分析軟件的使用是必不可少的,數(shù)據(jù)分析的工具很多,根據(jù)分析數(shù)據(jù)層次結(jié)構(gòu)的不同,常用的數(shù)據(jù)分析軟件可分為四類。ACCESSMySQLSQLServerOracle數(shù)據(jù)存儲層(數(shù)據(jù)庫技術(shù),理解SQL查詢語言的基本結(jié)構(gòu)和數(shù)據(jù)讀?。〤rystalReport水晶報表Tableau軟件數(shù)據(jù)報表層(報表制作、報表分析及數(shù)據(jù)可視化)Excel軟件SPSS軟件SAS軟件R語言Python語言數(shù)據(jù)分析層(統(tǒng)計分析和數(shù)據(jù)挖掘)VisioSmartDraw數(shù)據(jù)展現(xiàn)層(數(shù)據(jù)可視化)4.1.3數(shù)據(jù)導(dǎo)入與導(dǎo)出的必要性在進行數(shù)據(jù)分析前需要從數(shù)據(jù)庫或者現(xiàn)有的數(shù)據(jù)文件中提取符合要求的數(shù)據(jù)。4.1.3數(shù)據(jù)導(dǎo)入的形式導(dǎo)入TXT文件:read_table(file,names=[列名1,列名2,…],sep=“”,…)導(dǎo)入CSV文件:read_csv(file,names=[列名1,列名2,…],sep=“”,…)參數(shù)說明:file為文件路徑和文件名;names為列的名稱,sep為分隔符,默認(rèn)為空。TXT文件主要存儲文本信息。一般用記事本打開和保存。CSV文件最早是使用在簡單的數(shù)據(jù)庫里,由于其格式簡單,并具備很強的開放性,用來實現(xiàn)簡單的數(shù)據(jù)存儲。4.1.3數(shù)據(jù)導(dǎo)入的形式導(dǎo)入Excel文件:①read_excel(file,sheetname,header=0)
②ExcelFile(file).parse(sheetname)參數(shù)說明:file為文件路徑和文件名;sheetname為表格的名稱,如sheet1。Excel文件為Office里面的電子表格文件。探究活動1:數(shù)據(jù)的導(dǎo)入導(dǎo)入本地學(xué)習(xí)資源包“test4-1.xlsx”文件。4.1.3數(shù)據(jù)導(dǎo)入的形式導(dǎo)入MySQL庫:read_sql(sql,con=數(shù)據(jù)庫)參數(shù)說明:sql為需要執(zhí)行的sql語句;con為連接數(shù)據(jù)庫所需的engine,而engine需要在導(dǎo)入之前建立,包含數(shù)據(jù)庫的用戶名、密碼、地址、端口號及數(shù)據(jù)庫名稱。MySQL庫是一個關(guān)系型數(shù)據(jù)庫管理系統(tǒng)。4.1.4數(shù)據(jù)導(dǎo)出的形式導(dǎo)出CSV文件:to_csv(file_path,sep=“,”,index=TRUE,header=TRUE)。導(dǎo)出Excel文件:to_excel(file_path,index=TRUE,header=TRUE)導(dǎo)出MySQL庫:to_sql(tableName,con=數(shù)據(jù)庫鏈接)參數(shù)說明:file_path為文件路徑;sep為分隔符,默認(rèn)為空;index,header默認(rèn)為TRUE,導(dǎo)出索引和列名
。探究活動2:數(shù)據(jù)的導(dǎo)入與導(dǎo)出導(dǎo)入本地學(xué)習(xí)資源包“test4-1.xlsx”文件,嘗試將“標(biāo)準(zhǔn)分”與“附加分”相加得到“總分”,生成Excel文件并保存。兩種數(shù)據(jù)導(dǎo)入的對比除了語法外,沒有什么特別的區(qū)別。從技術(shù)上講,Excelfile是一個類,而read_excel是一個函數(shù)。使用ExcelFile.parse,你只需傳遞Excelfile對象。因此,excel工作表僅加載一次,就可以使用它來獲取數(shù)據(jù)。而read_excel,傳遞路徑不是Excelfile對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 超市行業(yè)營業(yè)員工作總結(jié)
- 粵語語言藝術(shù)課程設(shè)計
- 液壓泵站課課程設(shè)計
- 稅務(wù)工作總結(jié)稅收征管執(zhí)法標(biāo)準(zhǔn)化
- 醫(yī)療器械行業(yè)人才管理
- 【八年級下冊地理中圖北京版】期中真題必刷卷A-【期中真題必刷卷】(北京專用)(解析版)
- 2024年設(shè)備監(jiān)理師考試題庫附答案(典型題)
- 咖啡館店員服務(wù)總結(jié)
- 2024年設(shè)備監(jiān)理師考試題庫【考點梳理】
- 2024年美術(shù)教案:太陽花
- 供應(yīng)商產(chǎn)品質(zhì)量監(jiān)督管理制度
- 單位工程、分部工程、分項工程及檢驗批劃分方案
- 器樂Ⅰ小提琴課程教學(xué)大綱
- 主債權(quán)合同及不動產(chǎn)抵押合同(簡化版本)
- 服裝廠安全生產(chǎn)責(zé)任書
- JGJ202-2010建筑施工工具式腳手架安全技術(shù)規(guī)范
- 液壓爬模系統(tǒng)作業(yè)指導(dǎo)書
- 2018-2019學(xué)年北京市西城區(qū)人教版六年級上冊期末測試數(shù)學(xué)試卷
- SFC15(發(fā)送)和SFC14(接收)組態(tài)步驟
- LX電動單梁懸掛說明書
- 旅行社公司章程53410
評論
0/150
提交評論