《金融大數(shù)據(jù)分析》-課件 項目二 金融大數(shù)據(jù)處理流程_第1頁
《金融大數(shù)據(jù)分析》-課件 項目二 金融大數(shù)據(jù)處理流程_第2頁
《金融大數(shù)據(jù)分析》-課件 項目二 金融大數(shù)據(jù)處理流程_第3頁
《金融大數(shù)據(jù)分析》-課件 項目二 金融大數(shù)據(jù)處理流程_第4頁
《金融大數(shù)據(jù)分析》-課件 項目二 金融大數(shù)據(jù)處理流程_第5頁
已閱讀5頁,還剩75頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

金融大數(shù)據(jù)分析項目二金融大數(shù)據(jù)處理流程目錄01Python數(shù)據(jù)分析工具02金融大數(shù)據(jù)采集03金融大數(shù)據(jù)處理流程金融大數(shù)據(jù)可視化0401Python數(shù)據(jù)分析工具Python中的標準庫4Python3中的標準庫是隨Python解釋器一起安裝的,其中包含了很多的模塊和包os模塊sys

模塊time模塊datetime

模塊math模塊random模塊urlib模塊Python中的第三方庫5PyPI·Python包索引:/Python中的第三方庫6第三方庫可以涵蓋各種領(lǐng)域,包括但不限于:數(shù)據(jù)分析:numpy,pandas,scipy機器學(xué)習(xí):scikit-learn,tensorflow文本處理:pdfminer,openpyxl,python-docx,beautifulsoup4網(wǎng)絡(luò)爬蟲:requests,scrapyWEB開發(fā):django,pyramid數(shù)據(jù)可視化:matplotlib,mayavi游戲開發(fā):pygame,panda3d數(shù)據(jù)挖掘與可視化中常見第三方庫7擴展庫說明NumPy提供復(fù)雜數(shù)組和矩陣運算的函數(shù)pandas提供直觀的數(shù)據(jù)結(jié)構(gòu)及強大的數(shù)據(jù)管理和數(shù)據(jù)處理功能matplotlib用戶制圖及其他二維數(shù)據(jù)可視化Seaborn基于matplotlib進行高級封裝的可視化庫scikit-learn提供分類、回歸、聚類等機器學(xué)習(xí)工具statsmodels統(tǒng)計建模分析,包含經(jīng)典的統(tǒng)計學(xué)、經(jīng)濟學(xué)算法第三方庫的安裝8安裝方法特點使用pip命令在線安裝比較方便,并且會自動解決上級依賴問題下載庫的whl文件離線安裝安裝靈活,但是需要自行解決上級依賴問題通過IDE安裝簡單直接,需要已經(jīng)安裝好IDE(如Pycharm)下載編譯好的文件一般是window系統(tǒng)才提供現(xiàn)成的可執(zhí)行文件包第三方庫的安裝9pip安裝工具D:\>pip-hUsage:pip<command>[options]Commands:installInstallpackages.downloadDownloadpackages.uninstallUninstallpackages.freezeOutputinstalledpackagesinrequirementsformat.listListinstalledpackages.showShowinformationaboutinstalledpackages.checkVerifyinstalledpackageshavecompatibledependencies.configManagelocalandglobalconfiguration.searchSearchPyPIforpackages.第三方庫的安裝10pip安裝工具D:\>pipinstall<第三方庫名>安裝第三方庫D:\>pipinstallpandasD:\>pipinstall–U<第三方庫名>對已安裝的第三方庫進行更新D:\>pipinstall-Upandas第三方庫的安裝11pip安裝工具D:\>pipuninstall<第三方庫名>卸載指定第三方庫D:\>pipuninstallpandasD:\>pipdownload<第三方庫名>下載但不安裝指定第三方庫D:\>pipdownloadpandas第三方庫的安裝12pip安裝工具D:\>piplist列出當(dāng)前系統(tǒng)已經(jīng)安裝的第三方庫第三方庫的安裝13pip安裝工具D:\>pipshow<第三方庫名>列出指定第三方庫的詳細信息第三方庫的安裝14集成安裝通過集成IDE進行安裝,如Anaconda文件安裝/第三方庫的導(dǎo)入15import

模塊名稱import

模塊

as

別名import語句模塊名稱.函數(shù)/變量/類

別名.函數(shù)/變量/類

第三方庫的導(dǎo)入162.from語句from模塊名稱import函數(shù)/變量/類

from模塊名稱*直接使用該函數(shù)/變量/類

把一個模塊中的所有內(nèi)容全都進行導(dǎo)入第三方庫的導(dǎo)入17import

模塊

as

別名第三方庫的導(dǎo)入18importmathimportmathas

m

frommathimportpifrommathimport*print(math.pi)print(m.pi)print(pi)print(pi)print(ceil(pi))NumPy(NumericPython)19快速、高效的多維數(shù)組對象ndarray一組功能強大的數(shù)組處理函數(shù)線性代數(shù)操作、傅里葉變換以及隨機數(shù)生成等的接口集成C或C++代碼的接口NumPy(NumericPython)20#-*-coding:utf-8-*-#導(dǎo)入numpy庫importnumpyasnp

data=[1,2,3,4,5]#利用array函數(shù)構(gòu)建一個數(shù)組arr1=np.array(data)print('np.array(data):\n',arr1)#將數(shù)組進行輸出#獲取數(shù)組arr1的第4個元素(數(shù)組下標從0開始)print('arr1[3]:\n',arr1[3])

#獲取數(shù)組arr1的第2到第4個元素(數(shù)字下標從0開始,[]區(qū)間為左閉右開)print('arr1[1:4]:\n',arr1[1:4])#利用arange(N)構(gòu)建數(shù)組,從0-(N-1)的一個數(shù)組,默認元素逐步加1arr2=np.arange(5)print('np.arange(5):\n',arr2)Pandas21Python版的Excel一維數(shù)組對象Series二維數(shù)組對象DataFramePandas--Series數(shù)據(jù)結(jié)構(gòu)22#導(dǎo)入pandas庫importpandasaspddata=['a','b','c','d','e']#使用默認行索引構(gòu)造一個seriesseri=pd.Series(data)print(seri)index=[1,2,3,4,5]#使用指定的行索引seri1=pd.Series(data,index)print(seri1)Pandas--DataFrame數(shù)據(jù)結(jié)構(gòu)23行索引列索引importpandasaspd#導(dǎo)入pandas包#構(gòu)建部分銀行卡用戶數(shù)據(jù)表格data=pd.DataFrame({'ID':[20013105,16052556,21100614,10121286,21060101],'年齡':[44,32,56,41,27],'性別':['男','男','男','女','女'],'家庭成員':[2,1,1,3,2],'學(xué)歷':['研究生','本科','高中','研究生','本科'],'婚姻狀況':['已婚','未婚','離異','未婚','已婚’]})print('data:\n',data)Pandas--DataFrame數(shù)據(jù)結(jié)構(gòu)24#按行取表格中行索引為1至3的數(shù)據(jù)的第1行至第三行數(shù)據(jù)print('data.iloc[1:4]\n',data.iloc[1:4])

#返回ID、年齡兩列的數(shù)據(jù)print('data[[\'ID\',\'年齡\']]\n',data[['ID','年齡']])#返回前3行數(shù)據(jù),若head()括號中不指定行數(shù),則默認為返回前5行print('data.head(3)\n',data.head(3))#將表格數(shù)據(jù)按照ID列的值進行排序data1=data.sort_values(by='ID')#輸出上一行代碼的排序結(jié)果print('data.sort_values(data,by=\'ID\')\n',data1)#也支持從EXCEL文件讀取數(shù)據(jù)至dataframe對象中data=pd.read_excel('D:\data.xlsx')Matplotlib25importnumpyasnpimportmatplotlib.pyplotasplt#導(dǎo)入繪圖包#定義X軸的坐標值x=np.array([0,10])#定義Y軸的坐標值y=np.array([0,100])#根據(jù)X、Y軸坐標值對,繪制線圖plt.plot(x,y)#將圖進行展示plt.show()Matplotlib26importnumpyasnpimportmatplotlib.pyplotasplt

y=np.array([2,5,8,4,10,15])#指定線圖的顏色plt.plot(y,'r')plt.show()02金融大數(shù)據(jù)采集數(shù)據(jù)采集28數(shù)據(jù)采集又稱為數(shù)據(jù)獲取,為整個數(shù)據(jù)分析提供原始數(shù)據(jù)

大數(shù)據(jù)采集傳統(tǒng)數(shù)據(jù)采集數(shù)據(jù)來源數(shù)據(jù)來源多種多樣,數(shù)據(jù)量巨大來源較單一,數(shù)據(jù)量較少數(shù)據(jù)類型數(shù)據(jù)類型多樣,如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)較單一,以結(jié)構(gòu)化數(shù)據(jù)為主大數(shù)據(jù)采集與傳統(tǒng)數(shù)據(jù)采集的區(qū)別數(shù)據(jù)采集包括傳統(tǒng)的數(shù)據(jù)采集和大數(shù)據(jù)采集金融數(shù)據(jù)來源29

互聯(lián)網(wǎng)開放數(shù)據(jù)

第三方數(shù)據(jù)金融機構(gòu)業(yè)務(wù)數(shù)據(jù)金融行業(yè)數(shù)據(jù)來源渠道多種多樣,主要可以分為以下幾種:金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)30互聯(lián)網(wǎng)開放數(shù)據(jù)源通常都是針對某一個具體的行業(yè)或領(lǐng)域(如經(jīng)濟、衛(wèi)生、地理、生物、社會等),從發(fā)布單位維度劃分,有來自政府、企業(yè)、高校等開放數(shù)據(jù)源供大家查看下載

數(shù)據(jù)類別數(shù)據(jù)源世界各地的社會,環(huán)境和經(jīng)濟發(fā)展數(shù)據(jù)Gapminder中國歷年及最新宏觀經(jīng)濟數(shù)據(jù)國家統(tǒng)計局中國各項金融業(yè)務(wù)活動數(shù)據(jù)中國人民銀行中國國際收支、外匯等數(shù)據(jù)國家外匯管理局市場概覽、股票、期權(quán)和基金、債券等數(shù)據(jù)上海證券交易所國內(nèi)金融市場數(shù)據(jù)東方財富網(wǎng)金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)國家統(tǒng)計局國家各部門網(wǎng)站金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)中國人民銀行國家金融監(jiān)督管理總局金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)中國證券監(jiān)督管理委員會金融數(shù)據(jù)來源—互聯(lián)網(wǎng)開放數(shù)據(jù)金融數(shù)據(jù)來源—第三方數(shù)據(jù)市面上有很多的專業(yè)金融數(shù)據(jù)提供商,以金融數(shù)據(jù)庫、數(shù)據(jù)包或者數(shù)據(jù)服務(wù)平臺的方式為專業(yè)用戶提供數(shù)據(jù)服務(wù),用戶在金融數(shù)據(jù)分析的應(yīng)用程序中可以通過API接口訪問這些免費或收費的金融數(shù)據(jù)(如股票信息、指數(shù)信息等)數(shù)據(jù)平臺說明Wind(萬得)Wind已經(jīng)建成國內(nèi)完整準確、以金融證券數(shù)據(jù)為核心的大型金融工程和財經(jīng)數(shù)據(jù)倉庫。Wind的數(shù)據(jù)內(nèi)容涵蓋股票、債券、基金、外匯、金融衍生品、大宗商品、宏觀經(jīng)濟、財經(jīng)新聞等領(lǐng)域;Wind通過對數(shù)據(jù)的及時更新來滿足機構(gòu)投資者的需求。CSMAR數(shù)據(jù)庫CSMAR數(shù)據(jù)庫(ChinaStockMarket&AccountingResearchDatabase)是一個經(jīng)濟金融領(lǐng)域的研究型精準數(shù)據(jù)庫已涵蓋因子研究、人物特征、綠色經(jīng)濟、股票、公司、海外、資訊、基金、債券、行業(yè)、經(jīng)濟、商品期貨等19大系列,包含200+個數(shù)據(jù)庫、4000+張表、6萬+個字段。Bloomberg(彭博資訊)美國彭博資訊公司是全球最大的財經(jīng)資訊公司,也是全球最大的金融信息服務(wù)供應(yīng)商,為全球各地的公司、新聞機構(gòu)、金融和法律專業(yè)人士提供實時行情、金融市場歷史數(shù)據(jù)、價格、交易信息、新聞和通訊工具。TushareTushare大數(shù)據(jù)開放社區(qū)免費提供各類數(shù)據(jù),助力行業(yè)和量化研究。擁有豐富的數(shù)據(jù)內(nèi)容,如股票、基金、期貨、數(shù)字貨幣等行情數(shù)據(jù),公司財務(wù)、基金經(jīng)理等基本面數(shù)據(jù)。提供Http,Python,R等語言的數(shù)據(jù)接口,方便獲取實時數(shù)據(jù)。金融數(shù)據(jù)來源—金融機構(gòu)業(yè)務(wù)數(shù)據(jù)金融機構(gòu)在自身的業(yè)務(wù)經(jīng)營過程中,收集和產(chǎn)生了大量的該行業(yè)的業(yè)務(wù)數(shù)據(jù),包括金融機構(gòu)用戶的基本信息,用戶在金融機構(gòu)的交易等行為數(shù)據(jù)(如銀行中的用戶資金交易記錄,信用數(shù)據(jù)等)。網(wǎng)絡(luò)爬蟲38網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成通過編程語言(如Python、Java等)來編寫爬蟲程序,模擬瀏覽器向網(wǎng)絡(luò)服務(wù)器發(fā)送請求,獲取相應(yīng)內(nèi)容后,對其進行解析,從中提取出需要的數(shù)據(jù)也可以借助于現(xiàn)成的商用數(shù)據(jù)采集軟件(如八爪魚、后羿采集器等)來獲取特定網(wǎng)頁上所需字段的數(shù)據(jù)采集軟件采集網(wǎng)頁數(shù)據(jù)39八爪魚采集器后裔采集器采集軟件采集網(wǎng)頁數(shù)據(jù)--外匯牌價數(shù)據(jù)的抓取40

打開外匯牌價網(wǎng)站,復(fù)制網(wǎng)址2.將網(wǎng)址信息復(fù)制至采集軟件3.在采集軟件中設(shè)置采集條件4.檢查數(shù)據(jù)預(yù)覽,運行采集5.將結(jié)果導(dǎo)出至文件Python與網(wǎng)頁數(shù)據(jù)采集41網(wǎng)頁基本結(jié)構(gòu)Python與網(wǎng)頁數(shù)據(jù)采集42網(wǎng)頁中表格數(shù)據(jù)的獲取Python與網(wǎng)頁數(shù)據(jù)采集43網(wǎng)頁中表格數(shù)據(jù)的獲取importpandasaspd#獲取國家外匯管理局網(wǎng)站網(wǎng)址url="/AppStructured/hlw/RMBQuery.do"df=pd.read_html(url)[4]#爬取目標網(wǎng)站表格數(shù)據(jù)#查看美元和日元的外匯數(shù)據(jù)df1=df[['日期','美元','日元']]df1.set_index(['日期'])#將日期列作為表格的行索引print(df1)

日期

美元

日元

2023-07-26712.955.06292023-07-25714.065.08822023-07-24714.515.06702023-07-21714.565.13992023-07-20714.665.17242023-07-19714.865.16252023-07-18714.535.16872023-07-17713.265.14672023-07-14713.185.18002023-07-13715.275.1769Python與網(wǎng)頁數(shù)據(jù)采集44網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)庫名說明RequestsRequests庫提供了GET和POST來發(fā)送HTTP請求,使代碼易于理解和調(diào)試,但是不解析提取的HTML數(shù)據(jù)BeautifulSoup與解析器一起從HTML中解析提取數(shù)據(jù),通常和Requests庫一起使用;此外還提供包括檢測頁面編碼,配置輕松lxml一個快速、強大的解析庫,適用于HTML和XML文件Selenium適用于標準網(wǎng)絡(luò)爬蟲無法運行的動態(tài)網(wǎng)頁數(shù)據(jù)的抓取,能夠像任何瀏覽器一樣通過運行JavaScript來呈現(xiàn)網(wǎng)頁數(shù)據(jù)采集中的信息保護45網(wǎng)絡(luò)數(shù)據(jù)的獲取隱私保護03金融大數(shù)據(jù)處理流程大數(shù)據(jù)處理的一般流程數(shù)據(jù)采集系統(tǒng)日志采集網(wǎng)絡(luò)數(shù)據(jù)采集其他數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)變換數(shù)據(jù)歸約數(shù)據(jù)存儲分布式文件系統(tǒng)分布式數(shù)據(jù)庫云存儲數(shù)據(jù)挖掘分類分析關(guān)聯(lián)分析聚類分析預(yù)測數(shù)據(jù)解釋可視化技術(shù)人機交互技術(shù)數(shù)據(jù)清洗48數(shù)據(jù)清洗是高質(zhì)量數(shù)據(jù)的一道保障,數(shù)據(jù)科學(xué)家80%時間都花費在清洗任務(wù)上數(shù)據(jù)清洗使得數(shù)據(jù)標準、干凈、連續(xù),為后續(xù)數(shù)據(jù)統(tǒng)計、數(shù)據(jù)挖掘做好準備GIGO高質(zhì)量的數(shù)據(jù)應(yīng)該具有下列特點:數(shù)據(jù)結(jié)構(gòu)清晰數(shù)據(jù)完整數(shù)據(jù)格式規(guī)范數(shù)據(jù)合理數(shù)據(jù)唯一清洗方式:利用EXCEL軟件利用編程語言提供的工具包(如Python中的NumPy、Pandas庫等)012341張三30175cm60kg2李四35180cm140斤3張三301.75m60kg4NANANANA5王五-1160cm50kg6趙六2565kg012341張三30175cm60kg2李四35180cm140斤3張三301.75m60kg4NANANANA5王五-1160cm50kg6趙六25173cm65kg012341張三30175cm60kg2李四35180cm70kg3張三30175cm60kg4NANANANA5王五-1160cm50kg6趙六25173cm65kg012341張三30175cm60kg2李四35180cm70kg3張三30175cm60kg4NANANANA5王五30160cm50kg6趙六25173cm65kg序號姓名年齡身高體重1張三30175cm60kg2李四35180cm70kg3張三30175cm60kg4NANANANA5王五30160cm50kg6趙六25173cm65kg完整性全面性合法性唯一性數(shù)據(jù)清洗012341張三30175cm60kg2李四35180cm140斤3張三301.75m60kg4NANANANA5王五-1160cm50kg6趙六2565kg序號姓名年齡身高體重1張三30175cm60kg2李四35180cm70kg3王五30160cm50kg4趙六25173cm65kg數(shù)據(jù)清洗對數(shù)據(jù)的整體概況有個初步認知數(shù)據(jù)觀測檢測數(shù)據(jù)中的缺失值并做對應(yīng)的處理(刪除或填充)數(shù)據(jù)缺失處理處理數(shù)據(jù)中的重復(fù)值數(shù)據(jù)去重數(shù)據(jù)的規(guī)范化數(shù)據(jù)格式統(tǒng)一檢測并處理數(shù)據(jù)集中的異常值數(shù)據(jù)異常處理數(shù)據(jù)清洗數(shù)據(jù)觀測52在進行具體的數(shù)據(jù)處理之前,可以先進行數(shù)據(jù)觀測,對數(shù)據(jù)有個整體認知,找到數(shù)據(jù)集中可能存在的“臟數(shù)據(jù)”或者需要做進一步處理的情況。Pandas中提供了info(),describe()等函數(shù),使得能夠方便查看數(shù)據(jù)的基本情況

函數(shù)名說明info()獲取數(shù)據(jù)各列基本信息,包括總行數(shù)、總列數(shù)、列的名稱,每列的非空數(shù)、列的數(shù)據(jù)類型等describe()獲取數(shù)據(jù)各列的統(tǒng)計信息,包括總數(shù)、平均值、標準差、最小值、上(下)四分位數(shù)、中位數(shù)、最大值等數(shù)據(jù)觀測53importpandasaspd#導(dǎo)入pandas庫customers=pd.read_excel('D:\用戶個人信息.xlsx')#讀取EXCEL數(shù)據(jù)文件print(customers.info())數(shù)據(jù)總行數(shù)為10237,總列數(shù)為7<class'pandas.core.frame.DataFrame'>RangeIndex:10237entries,0to10236Datacolumns(total7columns):#ColumnNon-NullCountDtype----------------------------0ID10237non-nullint641年齡10113non-nullfloat642性別10237non-nullobject3家庭成員10237non-nullint644受教育程度8702non-nullobject5婚姻狀態(tài)9483non-nullobject6收入9117non-nullobjectdtypes:float64(1),int64(2),object(4)memoryusage:560.0+KB數(shù)據(jù)觀測54importpandasaspd#導(dǎo)入pandas庫customers=pd.read_excel('D:\用戶個人信息.xlsx')#讀取EXCEL數(shù)據(jù)文件print(customers.describe())ID年齡家庭成員count1.023700e+0410113.00000010237.000000mean7.391445e+0846.3524182.346000std3.688047e+078.0730201.298332min7.080821e+08-6.0000000.00000025%7.130256e+0841.0000001.00000050%7.179206e+0846.0000002.00000075%7.731464e+0852.0000003.000000max8.283431e+0873.0000005.000000數(shù)據(jù)去重55數(shù)據(jù)的獲取通常是從多處數(shù)據(jù)源匯總得到,數(shù)據(jù)重復(fù)的情況非常常見函數(shù)名說明duplicated()識別是否有數(shù)據(jù)重復(fù)drop_duplicates()刪除重復(fù)值(全部刪除、部分刪除)數(shù)據(jù)去重56print(customers.duplicated())0False1False2False3False4False……10232False10233False10234False10235False10236FalseLength:10237,dtype:bool對表格中所有行依次判斷是否有重復(fù),如果結(jié)果為True,則表示該行和其他行存在重復(fù);反之則認為沒有重復(fù)從輸出結(jié)果來看,該函數(shù)不適合行數(shù)較多的表格,不能很直觀地觀察是否存在重復(fù)值

參數(shù)說明subset需要進行重復(fù)比較的列集合。默認是對全部列進行比較keep返回重復(fù)值的標記方式,支持三種標記方式,默認為’first’first:所有重復(fù)記錄行中,第一次出現(xiàn)的行標記為False,其余為Truelast:所有重復(fù)記錄行中,最后一次出現(xiàn)的行標記為False,其余為Truefalse:所有重復(fù)記錄行均標記為TrueDataFrame.duplicated(subset=None,keep='first')參數(shù)說明如下:數(shù)據(jù)去重57print("數(shù)據(jù)總行數(shù)為{},總列數(shù)為{}".format(customers.shape[0],customers.shape[1]))customers.drop_duplicates(inplace=True)print("數(shù)據(jù)去重后總行數(shù)為{},總列數(shù)為{}".format(customers.shape[0],customers.shape[1]))數(shù)據(jù)總行數(shù)為10237,總列數(shù)為7數(shù)據(jù)去重后總行數(shù)為10127,總列數(shù)為7參數(shù)說明subset需要進行重復(fù)比較的列集合。默認是對全部列進行比較keep如果數(shù)據(jù)集中有多條重復(fù)值,指定保留哪條記錄。默認選項為’first’,即保留第一次出現(xiàn)的數(shù)據(jù)行。first:保留所有重復(fù)記錄行中第一次出現(xiàn)的數(shù)據(jù)行,其余重復(fù)行均刪除last:保留所有重復(fù)記錄行中最后一次出現(xiàn)的數(shù)據(jù)行,其余重復(fù)行均刪除false:所有重復(fù)記錄行均刪除inplace布爾值,默認為False。inplace=True表示直接在原來的表上刪除重復(fù)項,而False表示生成一個副本DataFrame.drop_duplicates(subset=None,*,keep='first',inplace=False,ignore_index=False)部分常用參數(shù)說明如下:數(shù)據(jù)缺失處理58數(shù)據(jù)缺失是真實數(shù)據(jù)集中普遍存在的一種現(xiàn)象,主要包括記錄的缺失和記錄中某些字段的缺失,都有可能導(dǎo)致數(shù)據(jù)分析結(jié)果不準確。對缺失值的分析主要分兩步進行:明確數(shù)據(jù)的缺失情況對缺失數(shù)據(jù)進行處理,例如直接刪除、選擇合適的值進行填充、不處理等。函數(shù)名說明isnull()查看單元格數(shù)據(jù)是否為空notnull()查看單元格數(shù)據(jù)是否不為空dropna()刪除缺失值數(shù)據(jù)fillna()填充缺失值數(shù)據(jù)數(shù)據(jù)缺失處理59print(customers.isnull())print(customers.isnull().any())print(customers.isnull().all())print(customers.isnull().sum())數(shù)據(jù)缺失處理60customers.dropna(thresh=4

,inplace=True)customers.dropna(subset=['收入'],inplace=True)對于缺失數(shù)據(jù)的處理,通常有直接刪除和選擇合適的值進行填充兩種方式1.直接刪除數(shù)據(jù)缺失處理61customers['年齡'].fillna(customers['年齡'].median(),inplace=True)customers['受教育程度'].fillna('未知',inplace=True)customers['婚姻狀態(tài)'].fillna('未知',inplace=True)對于缺失數(shù)據(jù)的處理,通常有直接刪除和選擇合適的值進行填充兩種方式2.選擇合適的值進行填充填充方法說明均值/中位數(shù)/眾數(shù)等填充使用變量的均值/中位數(shù)/眾數(shù)對缺失值進行填充回歸填充用其他變量的值建立擬合模型,進行回歸分析,預(yù)測缺失值。插值填充利用已知值建立插值函數(shù),求得插值進行填充固定值填充使用一個特定的固定值進行填充數(shù)據(jù)格式統(tǒng)一62常見的格式不規(guī)范的情況有:不同的數(shù)據(jù)來源對同一事物描述的單位不一致同樣的數(shù)據(jù)類型,但格式不一致數(shù)據(jù)格式不正確空白字符或者特殊字符大小寫不規(guī)范………數(shù)據(jù)格式統(tǒng)一63(一) 數(shù)據(jù)格式查看print(customers['受教育程度'].unique())print(customers['性別'].value_counts())數(shù)據(jù)格式統(tǒng)一64(二) 數(shù)據(jù)格式規(guī)范處理customers['受教育程度'].replace('大學(xué)','本科生',inplace=True)customers['性別'].replace({'M':'男','F':'女'},inplace=True)

數(shù)據(jù)格式統(tǒng)一65(二) 數(shù)據(jù)格式規(guī)范處理customers['受教育程度’]=customers['受教育程度'].str.strip()customers['受教育程度'].replace('大學(xué)','本科生',inplace=True)customers['性別’]=customers['性別'].str.upper()customers['性別'].replace({'M':'男','F':'女'},inplace=True)

受教育程度:[‘高中'‘研究生''未受教育’‘未知''本科生''博士'‘大

學(xué)’]性別男4495女4184M220F100f7Name:count,dtype:int64數(shù)據(jù)異常處理66異常值通常是指樣本中的個別值,其數(shù)值明顯偏離其余的觀測值。異常值也稱為離群點,異常值的分析也稱為離群點分析。在數(shù)據(jù)集中,異常值可能是需要被去掉或修改的噪聲數(shù)據(jù),也有可能是對數(shù)據(jù)分析而言含有重要有效信息的數(shù)據(jù)。統(tǒng)計分析ID年齡家庭成員count1.023700e+0410113.00000010237.000000mean7.391445e+0846.3524182.346000std3.688047e+078.0730201.298332min7.080821e+08-6.0000000.00000025%7.130256e+0841.0000001.00000050%7.179206e+0846.0000002.00000075%7.731464e+0852.0000003.000000max8.283431e+0873.0000005.000000customers['年齡'][customers['年齡']<0]=1

數(shù)據(jù)異常處理672.四分位數(shù)分析ID年齡家庭成員count1.023700e+0410113.00000010237.000000mean7.391445e+0846.3524182.346000std3.688047e+078.0730201.298332min7.080821e+08-6.0000000.00000025%7.130256e+0841.0000001.00000050%7.179206e+0846.0000002.00000075%7.731464e+0852.0000003.000000max8.283431e+0873.0000005.000000四分位數(shù)也常被用來作為異常值的檢測,所謂的四分位數(shù)方法是指:其中:QL:下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它小;QU:稱為上四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它大;IQR:四分位數(shù)間距,是上四分位數(shù)QU與下四分位數(shù)QL之差異常值<(QL-1.5IQR)或

異常值>(QU+1.5IQR)數(shù)據(jù)預(yù)處理其他步驟04金融大數(shù)據(jù)可視化數(shù)據(jù)可視化70數(shù)據(jù)可視化是一個面向用戶的過程,將大數(shù)據(jù)挖掘及分析結(jié)果在顯示終端以友好、形象、易于理解的形式呈現(xiàn)給用戶數(shù)據(jù)可視化是指利用計算機圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像進行顯示的理論方法和技術(shù)運用數(shù)據(jù)可視化技術(shù),可以將復(fù)雜的數(shù)據(jù)結(jié)果轉(zhuǎn)換為靜態(tài)或動態(tài)的圖形,還可以通過交互手段動態(tài)地顯示改變的結(jié)果。使得用戶可以從不同維度觀察數(shù)據(jù),得到對數(shù)據(jù)更深入的理解和分析常見可視化圖表類型71常見可視化圖表類型72圖表類型說明線圖又稱折線圖,特點是反映事物隨序列變化的趨勢,用于比較同一維度上不同數(shù)據(jù)集的變化,適合于比較大的數(shù)據(jù)集柱圖是一種以長方形的長度為變量來表達數(shù)值的統(tǒng)計圖表,易于比較數(shù)據(jù)之間的差別,適用于數(shù)據(jù)量不大的數(shù)據(jù)集餅圖以餅狀的圖形顯示各數(shù)據(jù)項所占比例,反映部分與整體的關(guān)系。餅圖適用于二維數(shù)據(jù),可以簡單直觀的看到各組成部分的占比情況散點圖數(shù)據(jù)以點的形式進行展示,以顯示變量之間的相互關(guān)系。散點圖用于判斷數(shù)據(jù)之間的相關(guān)性,或者發(fā)現(xiàn)數(shù)據(jù)的分布規(guī)律雷達圖又稱為蜘蛛網(wǎng)圖,是將多個維度的數(shù)據(jù)映射到起始于同一個圓心的坐標軸上,可以用于比較多條數(shù)據(jù)在多個維度上的取值漏斗圖因其圖表形狀類似漏斗而得名,由多個梯形從上到下疊加而成。漏斗圖適用于業(yè)務(wù)流程比較規(guī)范,周期長,環(huán)節(jié)多的流程分析樹圖以樹形結(jié)構(gòu)來展示層級數(shù)據(jù)的組織關(guān)系。通過樹圖可以直觀的看到各層級指標間的關(guān)系詞云圖詞云圖是文本數(shù)據(jù)的圖形化展示,可以用來展示大量的文本數(shù)據(jù),每個詞通過字體大小或者顏色來展示每個詞的重要程度常見可視化工具73入門級可視化工具商業(yè)智能分析工具編程語言工具pyplot常用函數(shù)74函數(shù)名說明plot()用戶繪制線圖和散點圖scatter()用于繪制散點圖bar()用于繪制垂直和水平條形圖hist()用于繪制直方圖pie()用于繪制餅圖show()用于繪制圖像subplots()用于創(chuàng)建子圖xlabel()/ylabel()設(shè)置X軸和Y軸的標簽title()設(shè)置圖表的標題75importnumpyasnpimportmatplotlib.pyplotasplt#引入pyplot包

#設(shè)置中文字體plt.rcParams['font.sans-serif']=['SimHei']

x=np.array([1,2,3,4,5])y1=x+1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論