




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
項(xiàng)目六數(shù)據(jù)分析工具Pandas入門回顧什么是數(shù)據(jù)分析數(shù)據(jù)分析是指根據(jù)事先確定的分析目標(biāo),選擇適當(dāng)?shù)慕y(tǒng)計(jì)分析方法或工具,對收集來的大量數(shù)據(jù)進(jìn)行處理與分析,從中提取有價(jià)值的信息,形成分析結(jié)論。分析結(jié)果可以輔助企業(yè)進(jìn)行管理優(yōu)化、預(yù)測和決策。數(shù)據(jù)分析的流程企業(yè)利用大數(shù)據(jù)進(jìn)行經(jīng)營管理和輔助預(yù)決策時(shí),大致需要以下四個(gè)步驟:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化等環(huán)節(jié)。回顧目標(biāo)掌握Pandas的兩種數(shù)據(jù)結(jié)構(gòu)掌握Pandas索引的相關(guān)操作掌握Pandas的常見操作掌握讀寫數(shù)據(jù)的方法任務(wù)一使用Pandas操作中國軟件財(cái)報(bào)數(shù)據(jù)Pandas再論Anaconda集成了常用的數(shù)據(jù)分析工具:Pandas、matplotlib等。Pandas是當(dāng)前Python數(shù)據(jù)分析中最為重要的工具,其提供了功能強(qiáng)大且靈活多樣的高級函數(shù),極大地簡化了數(shù)據(jù)處理的流程,可以滿足使用者在數(shù)據(jù)分析和處理中的多種選擇和實(shí)現(xiàn)方式。Pandas包Python之所以功能強(qiáng)大就是因?yàn)橛蟹浅XS富的第三方包(庫),將這些包引入到程序中,就可以很方便地使用包中提供的功能。(想想數(shù)學(xué)中的sin函數(shù))使用Pandas前需要先導(dǎo)入Pandas包。importpandasaspd此代碼用于在當(dāng)前程序中導(dǎo)入pandas包,并為該包起別名pd。后續(xù)在程序中若要使用Pandas,可直接用別名pd代替Pandas數(shù)據(jù)結(jié)構(gòu)Pandas中有兩個(gè)主要的數(shù)據(jù)結(jié)構(gòu):Series和DataFrame數(shù)據(jù)結(jié)構(gòu)是計(jì)算機(jī)存儲(chǔ)、組織數(shù)據(jù)的方式Series一維的數(shù)據(jù)結(jié)構(gòu)DataFrame二維的、表格型的數(shù)據(jù)結(jié)構(gòu)Pandas數(shù)據(jù)結(jié)構(gòu)SeriesSeries是一維數(shù)據(jù)結(jié)構(gòu),它能夠保存任何類型的數(shù)據(jù),如整數(shù)、字符串、浮點(diǎn)數(shù)。Series對象主要由一組數(shù)據(jù)和與之相關(guān)的標(biāo)簽(索引)構(gòu)成。DataFrameDataFrame是一種表格型的數(shù)據(jù)結(jié)構(gòu),既有行索引index,也有列索引columns。其實(shí)可以簡單把DataFrame理解為一張數(shù)據(jù)表。了解Series數(shù)據(jù)結(jié)構(gòu)帶有標(biāo)簽的數(shù)據(jù)結(jié)構(gòu),由數(shù)據(jù)和索引組成使用默認(rèn)索引創(chuàng)建Series對象索引數(shù)據(jù)Series數(shù)據(jù)結(jié)構(gòu)使用自定義索引創(chuàng)建Series對象自定義索引數(shù)據(jù)Series數(shù)據(jù)結(jié)構(gòu)使用字典創(chuàng)建Series對象字典數(shù)據(jù),字典的鍵作為索引他們是鍵Series數(shù)據(jù)結(jié)構(gòu)輸出Series對象的索引和數(shù)據(jù)了解DataFrame數(shù)據(jù)結(jié)構(gòu)帶有標(biāo)簽的數(shù)據(jù)結(jié)構(gòu),由數(shù)據(jù)和行索引、列索引組成使用默認(rèn)索引創(chuàng)建DataFrame對象DataFrame數(shù)據(jù)結(jié)構(gòu)使用自定義索引創(chuàng)建DataFrame對象列標(biāo)題行標(biāo)題DataFrame數(shù)據(jù)結(jié)構(gòu)使用字典形式創(chuàng)建DataFrame對象說明:字典的鍵自動(dòng)作為列索引。DataFrame數(shù)據(jù)結(jié)構(gòu)為行列索引添加名稱Pandas讀寫數(shù)據(jù)數(shù)據(jù)采集后一般都會(huì)存儲(chǔ)到本地硬盤中,不會(huì)將數(shù)據(jù)直接寫入到程序中,這樣不僅造成程序代碼臃腫,而且可用率很低。所以當(dāng)我們進(jìn)行數(shù)據(jù)分析時(shí)需要對存儲(chǔ)的文件進(jìn)行讀取。Pandas可以讀取文本文件、Excel文件、網(wǎng)頁文件和數(shù)據(jù)庫文件。我們以財(cái)務(wù)數(shù)據(jù)處理中常用的Excel文件為例講解文件的讀取。Pandas讀寫數(shù)據(jù)讀取Excel文件Pandas提供了read_excel()函數(shù)來讀取Excel文件,讀取到的數(shù)據(jù)自動(dòng)轉(zhuǎn)換成DataFrame類型的數(shù)據(jù)要讀取的文件左邊第3行代碼中將“data.xlsx”文件中的數(shù)據(jù)讀入程序賦值給變量UFSoftDF,UFSoftDF是什么類型呢?答案:是DataFrame類型Pandas讀寫數(shù)據(jù)保存Excel文件保存文件的函數(shù)保存到外部的文件名Pandas讀寫數(shù)據(jù)繼續(xù)探討UFSoftDF的數(shù)據(jù)類型怎樣查看UFSoftDF的數(shù)據(jù)類型呢?importpandasaspdUFSoftDF=pd.read_csv(‘data.xlsx’)print(type(UFSoftDF))#輸出UFSoftDF的類型培養(yǎng)讀者的程序思維任務(wù)二查詢中國軟件資產(chǎn)負(fù)債表數(shù)據(jù)數(shù)據(jù)查詢一個(gè)數(shù)據(jù)集中的數(shù)據(jù)量通常都是比較大的,學(xué)會(huì)如何從大量數(shù)據(jù)中查詢自己需要的數(shù)據(jù)是一個(gè)很重要的技能一、查詢Series數(shù)據(jù)查詢單個(gè)數(shù)據(jù)使用切片查詢數(shù)據(jù)(連續(xù)的多個(gè)數(shù)據(jù))查詢不連續(xù)的數(shù)據(jù)
對象名[
索引|標(biāo)簽名|切片|列表]一、查詢Series數(shù)據(jù)查詢單個(gè)數(shù)據(jù)一、查詢Series數(shù)據(jù)查詢切片數(shù)據(jù)一、查詢Series數(shù)據(jù)查詢不連續(xù)的數(shù)據(jù)說明:不連續(xù)的標(biāo)簽索引,多個(gè)索引值要用列表表示。二、查詢DataFrame數(shù)據(jù)以下列DataFrame對象為例說明:np.random.rand(8,4),返回一個(gè)8行4列的0~1之間的隨機(jī)數(shù)。二、查詢DataFrame數(shù)據(jù)使用“對象名[列索引]”的方式獲取DataFrame對象的一列數(shù)據(jù)使用“對象名[[列索引1,列索引2,…]]”的方式來獲取多列數(shù)據(jù)二、查詢DataFrame數(shù)據(jù)使用“對象名[行索引1:行索引2]”的方式來獲取DataFrame對象的一行或多行數(shù)據(jù)二、查詢DataFrame數(shù)據(jù)使用“對象名[列索引][行索引]”的方式獲取DataFrame對象的某一個(gè)值或某個(gè)矩形區(qū)域的值(即行列交叉部分的值)說明:DataFrame直接索引只支持先列后行,不支持先行后列。原理如左圖所示。二、查詢DataFrame數(shù)據(jù)獲取整體信息三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)更加靈活的解決辦法:loc方法:按照標(biāo)簽索引(名稱)選取數(shù)據(jù)iloc方法:按照位置索引(整數(shù)索引)選取數(shù)據(jù)loc[行名,列名]iloc[行號,列號]注意:loc和iloc后面是方括號,其中行、列可以是單一值,也可以是切片,還可以是列表。如果要獲取a到d行的B、D兩列的數(shù)據(jù),代碼如何寫?df[['B','D']]['a':'d']使用loc方法注意:列省略表示取所有列。三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)使用iloc方法說明:(1)位置編號均從0開始順序編號(2)位置索引也是類似a[x,y]形式,而x和y可以有多種不同的寫法三、使用loc方法和iloc方法獲取DataFrame數(shù)據(jù)loc和iloc方法小結(jié)宏觀上看是a[x,y]形式,而x和y可以有多種不同的寫法df.loc[‘a(chǎn)’:’c’,[‘A’,’C’]]#a行到c行的A列和C列df.i
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)校班主任的體育活動(dòng)組織計(jì)劃
- 小班角色學(xué)習(xí)活動(dòng)的創(chuàng)新探索計(jì)劃
- 項(xiàng)目管理工具與方法分享計(jì)劃
- 加強(qiáng)創(chuàng)新能力推動(dòng)企業(yè)發(fā)展計(jì)劃
- 2025年聚合物多元醇項(xiàng)目建議書
- 學(xué)校版畫藝術(shù)教育的新思路計(jì)劃
- 建立企業(yè)文化的重要性計(jì)劃
- 九年級歷史下冊 第16課《亞洲民族國家的興起和發(fā)展》教學(xué)實(shí)錄 川教版
- 三八感恩活動(dòng)方案
- 誤吸的搶救流程
- 個(gè)人兼職合同格式大全
- 2025年遼寧省盤錦市大洼區(qū)招聘招商人員30人高頻重點(diǎn)模擬試卷提升(共500題附帶答案詳解)
- 資陽高新投資集團(tuán)有限公司招聘更正筆試參考題庫附帶答案詳解
- 2025年安徽糧食工程職業(yè)學(xué)院單招綜合素質(zhì)考試題庫完整
- 虛擬實(shí)驗(yàn)技術(shù)發(fā)展-深度研究
- 常見意外傷害的處理課件
- 2024江蘇鹽城市交通投資建設(shè)控股集團(tuán)有限公司招聘筆試參考題庫附帶答案詳解
- 2025年吉林電子信息職業(yè)技術(shù)學(xué)院單招職業(yè)技能測試題庫及答案一套
- 《孫權(quán)勸學(xué)》歷年中考文言文閱讀試題40篇(含答案與翻譯)(截至2024年)
- 靜脈注射護(hù)理學(xué)基礎(chǔ)講解
- 100以內(nèi)加減法練習(xí)100題(50套)-可直接打印
評論
0/150
提交評論