




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
Pandas數(shù)據(jù)分析基礎(chǔ)5BasicsofPandasDataAnalysis本章概覽本章學(xué)習(xí)目標(biāo)財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析(1)了解Pandas的功能和應(yīng)用領(lǐng)域;(5)掌握用Pandas對(duì)財(cái)務(wù)數(shù)據(jù)集進(jìn)行簡(jiǎn)單操作的方法。(4)掌握PandasIndex對(duì)象的創(chuàng)建、設(shè)置及使用方法;(2)理解Pandas對(duì)象Series和DataFrame的結(jié)構(gòu),熟悉其屬性和方法;(3)熟練掌握Pandas數(shù)據(jù)文件的讀取與寫入方法;目錄CONTENTS財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析5Pandas數(shù)據(jù)分析基礎(chǔ) 5.1?Pandas基礎(chǔ).5.2?Pandas數(shù)據(jù)文件讀寫5.3?PandasIndex對(duì)象5.4?Pandas數(shù)據(jù)切片與提取5.5?Pandas常用方法【Python財(cái)務(wù)數(shù)據(jù)分析】——A股上市公司基本信息統(tǒng)計(jì)分析Pandas基礎(chǔ)PartOne01財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Pandas簡(jiǎn)介NumPy用于科學(xué)計(jì)算的Pandas簡(jiǎn)介工具,提升計(jì)算速度和效率。Pandas是基于NumPy,納入了大量庫和標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高效地操作大型數(shù)據(jù)集所需的工具。Pandas是為數(shù)據(jù)分析任務(wù)而創(chuàng)建的,其名稱來自面板數(shù)據(jù)(paneldata,經(jīng)濟(jì)學(xué)關(guān)于多維數(shù)據(jù)集的術(shù)語)和數(shù)據(jù)分析(dataanalysis)。Pandas的功能主要是數(shù)據(jù)清洗、轉(zhuǎn)換和分析等,廣泛用于財(cái)務(wù)、金融等經(jīng)濟(jì)管理領(lǐng)域數(shù)據(jù)分析。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Series對(duì)象財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Series常用屬性屬性名說明axes以列表的形式返回所有行索引標(biāo)簽dtype返回對(duì)象的數(shù)據(jù)類型empty返回判斷
Series對(duì)象是否為空ndim返回輸入數(shù)據(jù)的維數(shù)size返回輸入數(shù)據(jù)的元素?cái)?shù)量values以ndarray的形式返回Series對(duì)象index返回一個(gè)RangeIndex對(duì)象,用來描述索引的取值范圍財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析DataFrame對(duì)象DataFrame是一種表格型的數(shù)據(jù)結(jié)構(gòu),如圖4-4所示,表中有行標(biāo)簽(index),又有列標(biāo)簽(columns)。DataFrame也被稱異構(gòu)數(shù)據(jù)表,異構(gòu)是指表格中不同的列的數(shù)據(jù)類型可以不同,比如可以是字符串,也可以是整型或者浮點(diǎn)型等。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析DataFrame對(duì)象Pandas數(shù)據(jù)文件讀寫礎(chǔ)PartTwo02財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析數(shù)據(jù)文件的讀取與寫入l
讀取函數(shù)一般會(huì)賦值給一個(gè)變量
df,df=pd.read_*()l
輸出函數(shù)是將變量自身進(jìn)行操作并輸出
df.to__*()財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析read_excel()函數(shù)財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析read_excel()函數(shù)財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析to_excel()函數(shù)PandasIndex對(duì)象PartThere03財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析pd.Index()函數(shù)pd.Index()是Pandas庫中的一個(gè)函數(shù),用于創(chuàng)建一個(gè)索引對(duì)象。pd.Index()函數(shù):功能:用于創(chuàng)建一個(gè)索引對(duì)象。參數(shù):可以傳入一個(gè)可迭代對(duì)象,例如列表、數(shù)組等。特點(diǎn):提供了一種有序或無序的標(biāo)識(shí)數(shù)據(jù)的方式??梢杂糜贒ataFrame和Series的索引。支持各種操作和方法,例如查找、切片等。importpandasaspd#創(chuàng)建一個(gè)索引對(duì)象index=pd.Index(['a','b','c'])print(index)財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Pandas索引對(duì)象方法索引對(duì)象方法包括:union(),intersection(),difference()和symmetric_difference()。與我們前面學(xué)過的集合運(yùn)算相似財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析設(shè)置/重置索引數(shù)據(jù)集加載、創(chuàng)建為DataFrame,可以設(shè)置/重置索引。1)導(dǎo)入設(shè)置索引(1)簡(jiǎn)單索引(2)多層索引財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析設(shè)置/重置索引數(shù)據(jù)集加載、創(chuàng)建為DataFrame,可以設(shè)置/重置索引。2)set_index()
函數(shù)設(shè)置DataFrame索引,語法格式:keys——DataFrame長(zhǎng)度相同的單個(gè)數(shù)組,也可以是包含列鍵數(shù)組任意組合drop——bool,默認(rèn)為True,刪除要用作新索引的列append——bool,默認(rèn)為False,是否將列追加到現(xiàn)有索引。如果設(shè)置為True,新的索引列將被附加到現(xiàn)有索引的右側(cè)。inplace——bool,默認(rèn)為False,是否修改DataFrameverify_integrity——bool,默認(rèn)為False,檢查新索引是否重復(fù)財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析設(shè)置/重置索引數(shù)據(jù)集加載、創(chuàng)建為DataFrame,可以設(shè)置/重置索引。3)reset_index()函數(shù)將索引恢復(fù)為默認(rèn)的整數(shù)索引,并將原來的索引作為列添加到DataFrame中。DataFrame.reset_index(level=None,drop=False,inplace=False,col_level=0,col_fill='')另外,DataFrame還有函數(shù)reindex(),reindex_like()與索引設(shè)置有關(guān)Pandas數(shù)據(jù)切片與提取PartFour04財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析下標(biāo)索引引用方法Python模塊是一組相關(guān)的函數(shù)和變量的集合,可以被其他程序?qū)牒褪褂谩?)提取元素下標(biāo)引用,也就是[]方法索引,主要功能是選擇維度切片。使用[]方法索引Pandas對(duì)象時(shí)可能返回不同類型的值,分下列情況可以是標(biāo)量、Series對(duì)象或DataFrame對(duì)象:Series對(duì)象,series[標(biāo)簽]返回具體元素(標(biāo)量值)DataFrame對(duì)象,DataFrame[列名]返回列名對(duì)應(yīng)的Series對(duì)象DataFrame對(duì)象,DataFrame[[列名]]返回列名對(duì)應(yīng)的DataFrame對(duì)象財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析下標(biāo)索引引用方法Python模塊是一組相關(guān)的函數(shù)和變量的集合,可以被其他程序?qū)牒褪褂谩?)切片操作Series切片操作語法與ndarray完全一樣,返回值的一部分和相應(yīng)的標(biāo)簽。Series和DataFrame切片操作也可以等同于list等系列切片。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析屬性訪問可以直接訪問某個(gè)Series的索引或DataFrame列上的索引作為屬性importpandasaspds=pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])print(s['a'])importpandasaspddata={'A':[1,2,3],'B':[4,5,6]}df=pd.DataFrame(data)print(df.A)
需要注意的是,如果列名中包含空格或不符合Python變量命名規(guī)則的字符,就不能使用這種屬性訪問的方式,而需要使用df['column_name']的形式來訪問。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析標(biāo)簽索引Pandas提供了loc屬性,基于標(biāo)簽的索引。要求傳遞的每個(gè)標(biāo)簽必須在索引中,否則KeyError將被拋出。loc傳遞參數(shù)方式代碼如下說明單個(gè)標(biāo)簽df.loc['000001']返回Series列表或標(biāo)簽數(shù)組。df.loc[['000001','300160']]使用
[[]]
二維數(shù)組返回DataFrame列表行標(biāo)簽,單一標(biāo)簽列df.loc[['000001','300160'],'注冊(cè)資本']返回Series標(biāo)簽切片表示行,單一標(biāo)簽表示列
df.loc['000001':'300160','注冊(cè)資本']輸出包括起點(diǎn)和終點(diǎn),返回Series與行軸等長(zhǎng)的布爾列表df.head(3).loc[[False,False,True]]返回DataFrame基于條件,傳遞一個(gè)布爾Seriesdf.loc[df['注冊(cè)資本']>6000000000]返回DataFramedf.loc[df['公司簡(jiǎn)稱'].str.startswith('中')]返回DataFrame通過列標(biāo)簽條件表達(dá)式df.loc[df['注冊(cè)資本']>6000000000,['所在省份']]返回DataFramdf.loc[ds['注冊(cè)資本']>6000000000,'所在省份']返回Series通過可調(diào)用對(duì)象指定一個(gè)布爾序列df.loc[lambdads:(df['所在省份']=='廣東省')&(df['上市板塊']=='科創(chuàng)板')]等同于:df.loc[(df['所在省份']=='廣東省')&(df['上市板塊']=='科創(chuàng)板')]返回DataFram財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析位置索引Pandas提供了iloc屬性,基于位置的索引。要求的每個(gè)位置整數(shù)在軸向數(shù)據(jù)范圍(從0到軸向長(zhǎng)度減1)iloc傳遞參數(shù)方式代碼如下說明使用簡(jiǎn)單的標(biāo)量df.iloc[0]返回Series
使用整數(shù)列表df.iloc[[0]]type(df.iloc[[0]])df.iloc[[0,1]]返回DataFrame使用
切片對(duì)象df.iloc[:3]返回DataFrame使用與索引等長(zhǎng)的布爾序列df.head(3).iloc[[True,False,True]]返回DataFrame該布爾序列稱為布爾掩碼-booleanmask使用可調(diào)用對(duì)象,也可用鏈?zhǔn)椒椒╠f.iloc[lambdax:x.index%2==0]表達(dá)式中df傳遞給變量x,被切片為偶數(shù)選擇全軸,Index和columns都傳遞給iloc.傳遞簡(jiǎn)單標(biāo)量df.iloc[0,1]返回DataFrame數(shù)值元素傳遞整數(shù)列表df.iloc[[0,2],[1,3]]返回DataFrame傳遞slice
對(duì)象df.iloc[1:3,0:3]返回DataFrame傳遞布爾數(shù)組
df.iloc[:,[True,False,True,True,False,True,False]]匹配列索引標(biāo)簽,長(zhǎng)度一致,返回DataFrame使用可調(diào)用對(duì)象df.iloc[:,lambdadf:[0,2]]返回DataFrame財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析多層索引的數(shù)據(jù)提取iloc傳遞參數(shù)方式代碼如下說明傳遞單一標(biāo)簽df.loc['科創(chuàng)板']返回df的子集
傳遞多重索引的元組df.loc[('科創(chuàng)板','廣東省')]若結(jié)果為一行,返回Series;若結(jié)果為多行,返回DataFrame
使用元組列表[[]]df.loc[[('科創(chuàng)板','廣東省')]]返回DataFrame元組切片df1=df.sort_index()df1.loc[('主板','廣東省'):'科創(chuàng)板']df1.loc[('主板','廣東省'):('科創(chuàng)板',’遼寧省’]注意先要排序,否則得不到預(yù)期結(jié)果財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析數(shù)據(jù)賦值賦值方式代碼如下說明根據(jù)提取標(biāo)簽設(shè)置,進(jìn)行賦值df.loc[['000001','000004'],['注冊(cè)資本']]=50000000df對(duì)應(yīng)行列的數(shù)值更新賦值整行賦值df.loc['000001']=100000df對(duì)除了索引以外的數(shù)據(jù)賦值條件表達(dá)式或可調(diào)用對(duì)象df.loc[df['注冊(cè)資本']<10000]=0loc內(nèi)可嵌套df條件Pandas常用方法PartFive05財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析數(shù)據(jù)信息查詢賦值方式代碼如下說明查看數(shù)據(jù)樣本df.head(10)#前10條數(shù)據(jù)df.tail(10)#后10條數(shù)據(jù)默認(rèn)值為5隨機(jī)查看樣本df.sample(3)#隨機(jī)看3條數(shù)據(jù)默認(rèn)值為1查看數(shù)據(jù)形狀df.shape會(huì)返回一個(gè)行列數(shù)量元組基本信息()索引情況,行列數(shù)量等數(shù)據(jù)類型df.dtypes會(huì)返回每個(gè)字段的數(shù)據(jù)類型行列索引內(nèi)容df.axes會(huì)返回索引列表其他信息df.index索引對(duì)象df.columns列索引df.ndim維度數(shù)df.size行x列的總數(shù)df.first_valid_index()返回第1個(gè)非NA/空值索引df.last_valid_index()返回最后1個(gè)非NA/空值索引財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析數(shù)據(jù)統(tǒng)計(jì)描述1)describe()函數(shù)describe()函數(shù)顯示與DataFrame數(shù)據(jù)列相關(guān)的統(tǒng)計(jì)信息摘要。describe()函數(shù)輸出均值、std和IQR值(四分位距)等一系列統(tǒng)計(jì)信息。其Include參數(shù)(Object->字符列,number->數(shù)字列,all->所有列)能夠篩選字符列或者數(shù)字列的摘要信息。2)統(tǒng)計(jì)函數(shù)Series
與
DataFrame
支持大量描述性統(tǒng)計(jì)的函數(shù)。函數(shù)輸出結(jié)果是原始數(shù)據(jù)集的匯聚。統(tǒng)計(jì)函數(shù)包括:均值函數(shù)mean(),相關(guān)系數(shù)corr(),計(jì)數(shù)函數(shù)count(),最值max()和min(),標(biāo)準(zhǔn)差函數(shù)std(),中位數(shù)函數(shù)median(),以及df.mode(),df.quantile(),df.idxmax(),df.idxmin()等。財(cái)務(wù)數(shù)據(jù)分析財(cái)務(wù)數(shù)據(jù)分析Pandas排序Pandas提供了兩種排序方法,分別是按標(biāo)簽排序和按數(shù)值排序。1)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)食堂從業(yè)管理制度
- 公司稅務(wù)安全管理制度
- 寵物寄養(yǎng)門店管理制度
- 工程項(xiàng)目預(yù)算管理制度
- 行政理論前沿動(dòng)態(tài)試題及答案
- 備考嵌入式開發(fā)的試題及答案全攻略
- 公司送飲用水管理制度
- 公司現(xiàn)場(chǎng)綜合管理制度
- 國際化軟件的測(cè)試與本地化探討試題及答案
- 數(shù)據(jù)加密技術(shù)的種類與應(yīng)用試題及答案
- 2024年廣東省廣州市市中考英語試卷真題(含答案)
- 注射泵操作使用課件
- DL∕T 5362-2018 水工瀝青混凝土試驗(yàn)規(guī)程
- CB-Z-806-2016船舶動(dòng)力定位模型試驗(yàn)規(guī)程
- 《馬克思主義政治經(jīng)濟(jì)學(xué)》教案
- 因精神健康問題休學(xué)證明范本
- 化工設(shè)計(jì)智慧樹知到期末考試答案章節(jié)答案2024年浙江大學(xué)
- 國開機(jī)考答案-工程數(shù)學(xué)(本)(閉卷)
- 初中語文++病句專題++課件+八年級(jí)統(tǒng)編版語文下冊(cè)
- 寵物用藥市場(chǎng)細(xì)分與競(jìng)爭(zhēng)分析
- DZ∕T 0248-2014 巖石地球化學(xué)測(cè)量技術(shù)規(guī)程(正式版)
評(píng)論
0/150
提交評(píng)論