金融數(shù)據(jù)統(tǒng)計分析 課件 項目1、2 認(rèn)識大數(shù)據(jù)時代的金融數(shù)據(jù)與數(shù)據(jù)分析、金融數(shù)據(jù)采集_第1頁
金融數(shù)據(jù)統(tǒng)計分析 課件 項目1、2 認(rèn)識大數(shù)據(jù)時代的金融數(shù)據(jù)與數(shù)據(jù)分析、金融數(shù)據(jù)采集_第2頁
金融數(shù)據(jù)統(tǒng)計分析 課件 項目1、2 認(rèn)識大數(shù)據(jù)時代的金融數(shù)據(jù)與數(shù)據(jù)分析、金融數(shù)據(jù)采集_第3頁
金融數(shù)據(jù)統(tǒng)計分析 課件 項目1、2 認(rèn)識大數(shù)據(jù)時代的金融數(shù)據(jù)與數(shù)據(jù)分析、金融數(shù)據(jù)采集_第4頁
金融數(shù)據(jù)統(tǒng)計分析 課件 項目1、2 認(rèn)識大數(shù)據(jù)時代的金融數(shù)據(jù)與數(shù)據(jù)分析、金融數(shù)據(jù)采集_第5頁
已閱讀5頁,還剩120頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

金融數(shù)據(jù)統(tǒng)計分析項目一

認(rèn)識大數(shù)據(jù)時代的金融數(shù)據(jù)與數(shù)據(jù)分析01學(xué)習(xí)目標(biāo)目錄CONTENT二知識目標(biāo)(1)描述金融數(shù)據(jù)分析基礎(chǔ)的基本概念,說明數(shù)據(jù)分析目的、一般流程以及數(shù)據(jù)分析常用方法。(2)理解統(tǒng)計是數(shù)據(jù)分析的基礎(chǔ)和核心,區(qū)別統(tǒng)計的幾個基本概念、統(tǒng)計指標(biāo)及其類型。(3)掌握金融數(shù)據(jù)的生產(chǎn),金融數(shù)據(jù)不同角度的分類、金融數(shù)據(jù)的發(fā)布系統(tǒng)。(4)了解大數(shù)據(jù)的含義、特征和類型,了解大數(shù)據(jù)技術(shù)在金融行業(yè)的典型應(yīng)用場景。(5)了解我國關(guān)于數(shù)據(jù)采集、數(shù)據(jù)應(yīng)用方面的法律法規(guī)。一能力目標(biāo)(1)能夠辨別統(tǒng)計的基本概念,能夠區(qū)分不同的統(tǒng)計指標(biāo)類型并進(jìn)行指標(biāo)結(jié)果的計算。(2)能夠按不同角度區(qū)分金融數(shù)據(jù)的類型,并根據(jù)數(shù)據(jù)類型查找到相應(yīng)的金融數(shù)據(jù)。(3)能夠辨別大數(shù)據(jù)的特征和類型,列舉大數(shù)據(jù)在不同金融領(lǐng)域應(yīng)用的案例。(4)能夠合法合規(guī)的獲取數(shù)據(jù)、使用數(shù)據(jù),不違反政策法律相關(guān)規(guī)定。二思政素養(yǎng)目標(biāo)(1)圍繞社會主義核心價值觀,培養(yǎng)學(xué)生樹立正確的價值觀念,尊重數(shù)據(jù),崇尚科學(xué)技術(shù),激發(fā)學(xué)生愛國主義情感。(2)增強(qiáng)學(xué)生積極服務(wù)于數(shù)字化時代國家和社會發(fā)展的責(zé)任感與使命感。(3)提升學(xué)生法治意識,維護(hù)數(shù)據(jù)信息安全。02案例導(dǎo)讀目錄CONTENT閱讀案例,了解金融大數(shù)據(jù)在銀行營銷策略中的應(yīng)用。03新課教學(xué)目錄CONTENT一、認(rèn)識數(shù)據(jù)分析與統(tǒng)計二、認(rèn)識金融數(shù)據(jù)與大數(shù)據(jù)三、了解數(shù)據(jù)相關(guān)法律法規(guī)任務(wù)一認(rèn)識數(shù)據(jù)分析與統(tǒng)計一、認(rèn)識金融數(shù)據(jù)分析1.金融數(shù)據(jù)分析基礎(chǔ)的定義金融數(shù)據(jù)分析基礎(chǔ)是運(yùn)用統(tǒng)計分析的基礎(chǔ)理論和方法對金融活動數(shù)量進(jìn)行數(shù)據(jù)分析的方法。(一)金融數(shù)據(jù)分析基礎(chǔ)概述2.金融數(shù)據(jù)分析的目的金融數(shù)據(jù)分析的目的,實(shí)質(zhì)是利用數(shù)據(jù)分析的結(jié)果來解決現(xiàn)實(shí)的金融經(jīng)濟(jì)問題,為決策提供可操作的數(shù)量化依據(jù)。現(xiàn)狀分析原因探究未來預(yù)測一、認(rèn)識金融數(shù)據(jù)分析明確分析目的數(shù)據(jù)采集數(shù)據(jù)分析撰寫報告數(shù)據(jù)可視化數(shù)據(jù)處理3.金融數(shù)據(jù)分析的過程一、認(rèn)識金融數(shù)據(jù)分析1.描述性統(tǒng)計分析2.抽樣估計3.假設(shè)檢驗與方差分析4.統(tǒng)計指數(shù)分析5.回歸分析6.時間序列分析4.金融數(shù)據(jù)分析常用的基礎(chǔ)方法一、認(rèn)識金融數(shù)據(jù)分析二、認(rèn)識統(tǒng)計統(tǒng)計學(xué)是傳統(tǒng)數(shù)據(jù)分析的核心和基礎(chǔ),而大數(shù)據(jù)分析是傳統(tǒng)數(shù)據(jù)分析的進(jìn)化??傮w指所要研究的客觀對象的全體,是由客觀存在的、具有某種共同性質(zhì)又存在差別的許多個別單位所構(gòu)成的整體。構(gòu)成總體的每一個事物或基本單位,叫做個體。1.總體、個體和樣本樣本,是從總體中抽取出來的一部分個體組成的整體,其作用是通過樣本特征來推斷總體特征,能夠簡化數(shù)據(jù)統(tǒng)計分析的工作量。(一)統(tǒng)計學(xué)的幾個基本概念(二)認(rèn)識統(tǒng)計二、認(rèn)識統(tǒng)計表1-1某銀行客戶經(jīng)理銷售數(shù)據(jù)表:姓名性別年齡(歲)文化程度工齡(年)銷售額(萬元)張三男35本科10560李四男31大專8528王曼女32研究生4385李麗女29大專5290劉明男28本科3350張琪女30本科5375該銀行全部18位客戶經(jīng)理就是總體,每一位客戶經(jīng)理就是個體,而表格中所列的6位客戶經(jīng)理就是樣本。二、認(rèn)識統(tǒng)計大量性是總體的量的規(guī)定性,即總體是由血多單位組成的,僅僅一個單位不能構(gòu)成總體。同質(zhì)性構(gòu)成總體的各個單位必須在某一方面具有相同的性質(zhì)變異性變異地指存在的差異,同一個總體在某一方面具有共同的性質(zhì),但在另外一些方面又必須是有差異的??傮w的特征:二、認(rèn)識統(tǒng)計標(biāo)志標(biāo)志表現(xiàn)通常,每個個體從不同的角度考慮,都具有許多屬性和特征。這些屬性和特征就叫做標(biāo)志。品質(zhì)標(biāo)志數(shù)量標(biāo)志標(biāo)志的屬性或數(shù)量在每個個體的具體表現(xiàn),叫標(biāo)志表現(xiàn)。2.標(biāo)志和標(biāo)志表現(xiàn)(二)認(rèn)識統(tǒng)計二、認(rèn)識統(tǒng)計表1-1某銀行客戶經(jīng)理銷售數(shù)據(jù)表:姓名性別年齡(歲)文化程度工齡(年)銷售額(萬元)張三男35本科10560李四男31大專8528王曼女32研究生4385李麗女29大專5290劉明男28本科3350張琪女30本科5375標(biāo)志標(biāo)志表現(xiàn)品質(zhì)標(biāo)志數(shù)量標(biāo)志二、認(rèn)識統(tǒng)計3.變量及其類型身高金融機(jī)構(gòu)的職工人數(shù)體重年齡狹義上看變量是指可變的數(shù)量標(biāo)志。廣義上看變量不僅指可變的數(shù)量標(biāo)志,也包括可變的品質(zhì)標(biāo)志。二、認(rèn)識統(tǒng)計變量取值是否連續(xù)所受因素影響的不同離散型變量連續(xù)型變量確定性變量隨機(jī)性變量例如學(xué)生人數(shù)、機(jī)器臺數(shù)、金融機(jī)構(gòu)數(shù)等。如身高、體重、總產(chǎn)值、資金和利潤等。如增加施肥量,能使農(nóng)作物收獲量增多,是確定性因素的影響。如產(chǎn)品質(zhì)量檢驗,在所控制的質(zhì)量數(shù)據(jù)范圍內(nèi),由于受偶然因素,如溫度、電壓、車速等的影響,產(chǎn)品的質(zhì)量數(shù)據(jù)也不是絕對相同的二、認(rèn)識統(tǒng)計4.統(tǒng)計指標(biāo)統(tǒng)計指標(biāo)是反映總體的數(shù)量特征的概念和具體數(shù)值。指標(biāo)名稱指標(biāo)數(shù)值例如,中國2020年國內(nèi)生產(chǎn)總值(指標(biāo)名稱)1015986.2億元(指標(biāo)數(shù)值)。二、認(rèn)識統(tǒng)計統(tǒng)計指標(biāo)反映的數(shù)量特點(diǎn)和內(nèi)容劃分反映的容或數(shù)值表現(xiàn)形式劃分?jǐn)?shù)量指標(biāo)質(zhì)量指標(biāo)總量指標(biāo)相對指標(biāo)例如,銷售量、銷售額、人口總數(shù)、工業(yè)總產(chǎn)值等,都屬于數(shù)量指標(biāo)。。例如,商品價格、產(chǎn)品合格率、固定資產(chǎn)的利用程度、利潤率、勞動生產(chǎn)率等,都屬于質(zhì)量指標(biāo)。例如,2020年財政收入18.3億元,2020年中國外匯儲備為32165.22億美元,等等。例如,家庭人均消費(fèi)水平、企業(yè)職工平均工資等。(二)統(tǒng)計指標(biāo)的類型平均指標(biāo)例如,產(chǎn)品合格率、同比發(fā)展速度、經(jīng)濟(jì)增長率等。二、認(rèn)識統(tǒng)計1.總量指標(biāo)

概念:總量指標(biāo)是指經(jīng)過統(tǒng)計匯總后得到的具有計量單位的統(tǒng)計指標(biāo),反映研究總體在一定時期或時點(diǎn)的總規(guī)模、總水平或性質(zhì)相同的總體規(guī)模的數(shù)量差異。時期指標(biāo)時點(diǎn)指標(biāo)按總量指標(biāo)所反映的時間狀況來劃分人口出生數(shù)基金產(chǎn)品銷售額國內(nèi)生產(chǎn)總值基本建設(shè)投資額年末人口數(shù)儲蓄存款余額商品庫存數(shù)二、認(rèn)識統(tǒng)計(1)時期指標(biāo)與時點(diǎn)指標(biāo)的區(qū)別5區(qū)別性質(zhì)相同的時期指標(biāo)的數(shù)值可以相加,而時點(diǎn)指標(biāo)相加則無意義。同類時期指標(biāo)數(shù)值的大小與時期長短有直接關(guān)系,而時點(diǎn)指標(biāo)則沒有這種關(guān)系。時期指標(biāo)數(shù)值是經(jīng)常登記取得,而時點(diǎn)指標(biāo)則不是。二、認(rèn)識統(tǒng)計標(biāo)志是用于描述個體的,指標(biāo)是用于描述總體的。標(biāo)志只是一個名稱,不含數(shù)值(標(biāo)志表現(xiàn));指標(biāo)既含名稱又含數(shù)值。指標(biāo)與標(biāo)志的區(qū)別(2)指標(biāo)與標(biāo)志的區(qū)別與聯(lián)系對應(yīng)關(guān)系變幻關(guān)系指標(biāo)與標(biāo)志的聯(lián)系標(biāo)志與指標(biāo)名稱往往是同一概念隨著研究目的的變換,原有的總體轉(zhuǎn)變?yōu)閭€體,相應(yīng)的統(tǒng)計指標(biāo)名稱也就成為標(biāo)志;反之亦然。匯總關(guān)系統(tǒng)計指標(biāo)的數(shù)值由數(shù)量標(biāo)志的標(biāo)志表現(xiàn)匯總得來二、認(rèn)識統(tǒng)計2.相對指標(biāo)5相對指標(biāo)結(jié)構(gòu)相對指標(biāo)對比相對指標(biāo)完成程度相對指標(biāo)二、認(rèn)識統(tǒng)計(1)結(jié)構(gòu)相對指標(biāo)結(jié)構(gòu)相對指標(biāo)又稱結(jié)構(gòu)相對數(shù)或比重指標(biāo),是在統(tǒng)計分組的基礎(chǔ)上,總體中某一組的數(shù)值與總體指標(biāo)數(shù)值的比值,以說明總體內(nèi)部組成情況,一般用百分?jǐn)?shù)表示。結(jié)構(gòu)相對指標(biāo)=總體某部分的數(shù)值總體總量*100%結(jié)構(gòu)相對指標(biāo)具有如下特點(diǎn):①分子分母不能互換。②指標(biāo)值<1。③指標(biāo)值之和=1。常用的合格率、恩格爾系數(shù)都屬于結(jié)構(gòu)相對指標(biāo)。二、認(rèn)識統(tǒng)計(2)對比相對指標(biāo)①靜態(tài)相對指標(biāo)靜態(tài)相對指標(biāo)是指同一總體在相同時間下不同組(部門、單位、地區(qū))的數(shù)據(jù)對比通常用比值、倍數(shù)、系數(shù)或百分?jǐn)?shù)表示。靜態(tài)相對指標(biāo)=總體中某一組的指標(biāo)數(shù)值總體中另一組的指標(biāo)數(shù)值*100%靜態(tài)相對指標(biāo)有如下特點(diǎn):①同一總體、同一指標(biāo)、同一時間、不同組的數(shù)值對比;②分子、分母可以互換。二、認(rèn)識統(tǒng)計②動態(tài)相對指標(biāo)動態(tài)相對指標(biāo)是指同一總體在不同時間下的兩個數(shù)值進(jìn)行動態(tài)對比,以說明總體在不同時間上的發(fā)展變化情況,所以也叫動態(tài)相對數(shù)或發(fā)展速度,通常用百分?jǐn)?shù)表示。例如,2018年中國的GDP為919281億元,2019年為986515億元,如果把2018年選作基期,亦即將2018年國內(nèi)生產(chǎn)總值作為100,則2019的國內(nèi)生產(chǎn)總值與2018年的國內(nèi)生產(chǎn)總值對比,得出動態(tài)相對數(shù)為107.3%,它說明在2018年基礎(chǔ)上2019年國內(nèi)生產(chǎn)總值的發(fā)展速度。(2)對比相對指標(biāo)動態(tài)相對指標(biāo)=某一現(xiàn)象報告期的數(shù)值同一現(xiàn)象基期的數(shù)值*100%二、認(rèn)識統(tǒng)計(3)計劃完成程度相對指標(biāo)

概念:計劃完成程度相對指標(biāo)是實(shí)際完成值與目標(biāo)計劃值進(jìn)行對比,通常用百分?jǐn)?shù)表示。完成程度相對指標(biāo)=實(shí)際完成指標(biāo)數(shù)值計劃指標(biāo)數(shù)值*100%例如,2015年某互聯(lián)網(wǎng)金融公司,產(chǎn)品銷售額計劃指標(biāo)為5000萬元,當(dāng)年該公司實(shí)際銷售額為5600萬元,則計劃完成程度相對指標(biāo)=5600/5000×100%=112%。任務(wù)二認(rèn)識金融數(shù)據(jù)與大數(shù)據(jù)一、認(rèn)識金融數(shù)據(jù)(一)金融數(shù)據(jù)的生產(chǎn)數(shù)據(jù)記錄數(shù)據(jù)生產(chǎn)數(shù)據(jù)發(fā)布金融經(jīng)濟(jì)數(shù)據(jù)是金融經(jīng)濟(jì)活動信息和結(jié)果的表現(xiàn)形式,凡是有金融經(jīng)濟(jì)活動的地方就有數(shù)據(jù)生產(chǎn)。一、認(rèn)識金融數(shù)據(jù)宏觀金融經(jīng)濟(jì)數(shù)據(jù)的生產(chǎn)微觀金融經(jīng)濟(jì)數(shù)據(jù)的生產(chǎn)機(jī)構(gòu)單位、工商企業(yè)、金融企業(yè)、居民個人等…一、認(rèn)識金融數(shù)據(jù)(二)金融數(shù)據(jù)的分類1.從宏觀金融與微觀金融角度宏觀金融數(shù)據(jù)微觀金融數(shù)據(jù)主要包括貨幣類數(shù)據(jù)、金融投資類數(shù)據(jù)、保險經(jīng)營類數(shù)據(jù)等。如上市公司的資產(chǎn)負(fù)債表,商業(yè)銀行的利潤表等;部分項目的金融數(shù)據(jù),如京滬高鐵、三峽水利等項目的融資數(shù)據(jù);居民家庭金融數(shù)據(jù)等。一、認(rèn)識金融數(shù)據(jù)(6)互聯(lián)網(wǎng)金融機(jī)構(gòu)數(shù)據(jù)。包括第三方支付、移動支付、網(wǎng)絡(luò)基金、網(wǎng)絡(luò)理財產(chǎn)品、網(wǎng)絡(luò)保險等業(yè)務(wù)形成的統(tǒng)計數(shù)據(jù)。(1)銀行類機(jī)構(gòu)金融數(shù)據(jù)。包括存款性銀行和非存款性金融機(jī)構(gòu)的數(shù)據(jù)。(4)保險類機(jī)構(gòu)金融數(shù)據(jù)。如保險費(fèi)收入、賠付,基金投資組合、資產(chǎn)管理狀況等數(shù)據(jù)。(3)基金類機(jī)構(gòu)金融數(shù)據(jù)。風(fēng)險投資基金、產(chǎn)業(yè)基金、資本市場基金、貨幣市場基金、社會保障類基金等業(yè)務(wù)運(yùn)作數(shù)據(jù)。(2)證券類機(jī)構(gòu)金融數(shù)據(jù)。證券類機(jī)構(gòu)的金融數(shù)據(jù)主要是證券公司、投資銀行的經(jīng)營數(shù)據(jù),包括經(jīng)紀(jì)業(yè)務(wù)、自營業(yè)務(wù)、投資銀行業(yè)務(wù)等數(shù)據(jù)。(5)期貨類機(jī)構(gòu)金融數(shù)據(jù)。期貨類機(jī)構(gòu)的金融數(shù)據(jù)主要是期貨交易所、期貨經(jīng)紀(jì)公司、非經(jīng)紀(jì)類期貨交易機(jī)構(gòu)的有關(guān)期貨交易業(yè)務(wù)的統(tǒng)計數(shù)據(jù)。2.從金融機(jī)構(gòu)類別角度一、認(rèn)識金融數(shù)據(jù)3.從金融市場角度資本市場數(shù)據(jù)外匯市場數(shù)據(jù)黃金市場數(shù)據(jù)貨幣市場數(shù)據(jù)衍生品市場數(shù)據(jù)保險市場數(shù)據(jù)包括這些交易工具的發(fā)行、二級交易規(guī)模、利率、交易投資者狀況等。這些工具的發(fā)行、交易規(guī)模、交易價格等都是資本市場統(tǒng)計的主要內(nèi)容。主要包括不同貨幣之間的兌換比價、外匯交易規(guī)模等數(shù)據(jù)黃金市場統(tǒng)計的主要內(nèi)容是黃金交易數(shù)量、價格等數(shù)據(jù)。保險市場統(tǒng)計主要包括保險產(chǎn)品類型及交易數(shù)額、保險費(fèi)收入、保費(fèi)賠付、保險機(jī)構(gòu)業(yè)務(wù)運(yùn)作情況等數(shù)據(jù)。衍生品市場數(shù)據(jù)包括期貨、期權(quán)、互換、遠(yuǎn)期利率協(xié)議以及復(fù)雜衍生品的交易、持倉、價格等數(shù)據(jù)。一、認(rèn)識金融數(shù)據(jù)4.從經(jīng)濟(jì)部門角度住戶部門金融數(shù)據(jù)其金融數(shù)據(jù)包括儲蓄存款、貸款,股票、基金與債券投資,購買保險,外匯與黃金交易等。非金融企業(yè)部門金融數(shù)據(jù)其金融數(shù)據(jù)包括存貸款、發(fā)行股票債券、購買商業(yè)保險等。金融機(jī)構(gòu)部門金融數(shù)據(jù)其金融數(shù)據(jù)主要有資產(chǎn)類、負(fù)債類、發(fā)行和交易類、價格類數(shù)據(jù)。政府部門金融數(shù)據(jù)包括為財政赤字融資發(fā)行的國債、借款,地方政府投資項目的融資,社會保障基金運(yùn)作等數(shù)據(jù)。國外部門金融數(shù)據(jù)國外部門金融數(shù)據(jù)主要包括外商直接投資、國內(nèi)企業(yè)對外直接投資、外國證券投資、國內(nèi)對外證券投資、與貿(mào)易投資有關(guān)的貸款、貨幣和存款資金的跨境轉(zhuǎn)移等。直接融資類金融數(shù)據(jù)間接融資類金融數(shù)據(jù)5.從融資方式角度信貸規(guī)模、信貸形式和信貸結(jié)構(gòu)一、認(rèn)識金融數(shù)據(jù)直接融資統(tǒng)計數(shù)據(jù)主要包括發(fā)行股票、債券、基金等直接融資工具的規(guī)模,以及金融工具市場交易數(shù)量、價格等數(shù)據(jù)。一、認(rèn)識金融數(shù)據(jù)(三)金融數(shù)據(jù)公布系統(tǒng)1996年3月和1997年12月,IMF先后制定完成了《數(shù)據(jù)公布特殊標(biāo)準(zhǔn)(SDDS)》和《數(shù)據(jù)公布通用系統(tǒng)(GDDS)》。1.數(shù)據(jù)公布標(biāo)準(zhǔn):SDDS與GDDSSDDS標(biāo)準(zhǔn)主要適用于已經(jīng)參與國際金融市場的大多數(shù)工業(yè)化國家和一些新興市場經(jīng)濟(jì)體。GDDS適用于尚未達(dá)到SDDS要求的國家,大部分為發(fā)展中經(jīng)濟(jì)體。一、認(rèn)識金融數(shù)據(jù)2.中國的數(shù)據(jù)公布系統(tǒng)中國政府于2002年4月15日正式加入了GDDS,按照IMF的要求,發(fā)布宏觀經(jīng)濟(jì)五大部門的有關(guān)數(shù)據(jù)。國家統(tǒng)計局財政部中國人民銀行國家外匯管理局海關(guān)總署國家統(tǒng)計局、教育部、衛(wèi)生部2015年10月6日,中國央行開始按照SDDS標(biāo)準(zhǔn)公布數(shù)據(jù)。二、認(rèn)識大數(shù)據(jù)(一)大數(shù)據(jù)的含義與特征大數(shù)據(jù)指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。

大數(shù)據(jù)通常具有4V特征:數(shù)據(jù)量大數(shù)據(jù)類型繁多處理速度快價值密度低二、認(rèn)識大數(shù)據(jù)(二)大數(shù)據(jù)的主要類型類型結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)無結(jié)構(gòu)的數(shù)據(jù)二、認(rèn)識大數(shù)據(jù)(1)結(jié)構(gòu)化數(shù)據(jù)表1-2關(guān)系型數(shù)據(jù)結(jié)構(gòu)表序號股票簡稱證券代碼日開盤價(元)日收盤價(元)日個股交易股數(shù)(萬股)日個股交易金額(萬元)1萬科00000232.832.5610121.3334237.392中興通訊00006335.6635.4510142.55359298.913海王生物0000783.693.7412691.3846661.794南方航空6000297.277.286760.5649285.65中信證券60003025.7425.4935773.66915739.93(2)非結(jié)構(gòu)化數(shù)據(jù)常見的非結(jié)構(gòu)化數(shù)據(jù)有文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等。(3)半結(jié)構(gòu)化數(shù)據(jù)二、認(rèn)識大數(shù)據(jù)(三)大數(shù)據(jù)在金融領(lǐng)域的應(yīng)用1.銀行大數(shù)據(jù)應(yīng)用場景客戶畫像(1)客戶在社交媒體上的行為數(shù)據(jù)。(2)客戶在電商網(wǎng)站的交易數(shù)據(jù)。(3)企業(yè)客戶的產(chǎn)業(yè)鏈上下游數(shù)據(jù)。(4)其他有利于銀行了解客戶興趣愛好的數(shù)據(jù)收入法傳統(tǒng)的銀行數(shù)據(jù)按類型主要分為:交易數(shù)據(jù)、資產(chǎn)數(shù)據(jù)、征信數(shù)據(jù)、客戶信息數(shù)據(jù)等4大類。精準(zhǔn)營銷(1)實(shí)時營銷。(2)個性化推薦。(3)客戶生命周期管理。二、認(rèn)識大數(shù)據(jù)2.證券大數(shù)據(jù)應(yīng)用場景智能投顧市場行情預(yù)測證券大數(shù)據(jù)應(yīng)用場景智能投顧業(yè)務(wù)能夠基于客戶的交易行為、交易偏好品種、風(fēng)險承受能力等數(shù)據(jù)數(shù)據(jù)建立數(shù)據(jù)模型,匹配客戶多樣化需求,為客戶線上提供個性化財富管理方案。證券機(jī)構(gòu)利用大數(shù)據(jù)技術(shù)對海量個人投資者樣本進(jìn)行持續(xù)性跟蹤監(jiān)測,對持倉情況、收益率、資金流向情況等一系列指標(biāo)進(jìn)行統(tǒng)計分析,對市場行情進(jìn)行預(yù)測。二、認(rèn)識大數(shù)據(jù)3.保險大數(shù)據(jù)應(yīng)用場景產(chǎn)品優(yōu)化,保單個性化。運(yùn)營分析。代理人(保險銷售人員)甄選。欺詐風(fēng)險控制精細(xì)化運(yùn)營醫(yī)療保險欺詐風(fēng)險控制。車險欺詐風(fēng)險控制。任務(wù)三了解數(shù)據(jù)相關(guān)法律法規(guī)一、數(shù)據(jù)相關(guān)法律法規(guī)123數(shù)據(jù)安全和個人信息保護(hù)的立法文件:《民典法》《刑法》《網(wǎng)絡(luò)安全法》《電信條例》等2020年,全國人大常委相繼提出了《個人信息保護(hù)法》(草案)和《數(shù)字安全法》(草案)2020年2月中國人民銀行發(fā)布了《個人金融信息保護(hù)技術(shù)規(guī)范》、全國信息安全標(biāo)準(zhǔn)化技術(shù)委員會發(fā)布了《信息安全技術(shù)個人信息安全規(guī)范》一、數(shù)據(jù)相關(guān)法律法規(guī)(一)相關(guān)法律《民法典》《刑法》《網(wǎng)絡(luò)安全法》《數(shù)據(jù)安全法》數(shù)據(jù)相關(guān)法律法規(guī)一、數(shù)據(jù)相關(guān)法律法規(guī)(一)相關(guān)法律《民法典》:根據(jù)《中華人民共和國民法典》第四篇第六章“隱私權(quán)和個人信息保護(hù)”規(guī)定,自然人的個人信息受法律保護(hù)。數(shù)據(jù)采集方面數(shù)據(jù)使用方面《民法典》1.《中華人民共和國民法典》2.《中華人民共和國刑法》侵犯公民個人信息罪非法獲取計算機(jī)系統(tǒng)數(shù)據(jù)罪非法侵入計算機(jī)信息系統(tǒng)罪一、數(shù)據(jù)相關(guān)法律法規(guī)3.

《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國網(wǎng)絡(luò)安全法》于2017年6月1日開始實(shí)施,其中第四章“網(wǎng)絡(luò)信息安全”規(guī)定:(1)網(wǎng)絡(luò)運(yùn)營者應(yīng)對其收集的用戶信息嚴(yán)格保密,并建立信息保護(hù)制度,防止信息泄露、毀損、丟失;>(2)網(wǎng)絡(luò)運(yùn)營者收集、使用個人信息,應(yīng)當(dāng)遵循合法、正當(dāng)、必要的原則,明示收集和使用規(guī)則、目的、方式和范圍,并經(jīng)被收集者同意。>(3)網(wǎng)絡(luò)運(yùn)營者不得收集與其提供的服務(wù)無關(guān)的個人信息;>(4)不得泄露、篡改、毀損其收集的個人信息;未經(jīng)被收集者同意,不得向他人提供個人信息。>一、數(shù)據(jù)相關(guān)法律法規(guī)4.

《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國數(shù)據(jù)安全法》于2021年6月10日由中華人民共和國第十三屆全國人民代表大會常務(wù)委員會第二十九次會議通過,2021年9月1日開始實(shí)施。數(shù)據(jù)分類分級數(shù)據(jù)安全審查與管制數(shù)據(jù)安全保障措施數(shù)據(jù)安全風(fēng)險評估和身份核驗政務(wù)數(shù)據(jù)安全與開放一、數(shù)據(jù)相關(guān)法律法規(guī)2021年4月26日《個人信息保護(hù)法(草案)》提請全國人大常委會二次審議。個人信息保護(hù)法(草案)法律責(zé)任個人信息處理者的義務(wù)確立了以“告知—同意”為核心的個人信息處理規(guī)則個人在信息處理中的權(quán)利自然人的個人信息受法律保護(hù)(二)相關(guān)草案一、數(shù)據(jù)相關(guān)法律法規(guī)(三)相關(guān)規(guī)范C1C2C3個人金融信息分類分級使用刪除銷毀收集傳輸存儲安全基本原則《個人金融信息保護(hù)技術(shù)規(guī)范》是中國人民銀行發(fā)布的金融行業(yè)標(biāo)準(zhǔn),于2020年2月13日正式生效。1.個人金融信息分類分級2.安全基本原則二、違法判例翁某發(fā)現(xiàn)淘寶店鋪源碼存在漏洞,經(jīng)黃某授意,以非法獲取Cookies數(shù)據(jù)為目的,編寫了用于獲取Cookies的Javascript。黃某利用翁某事先編寫的網(wǎng)絡(luò)爬蟲程序讀取虛擬隊列中的Cookies并獲取淘寶用戶的交易訂單數(shù)據(jù)(內(nèi)容包含用戶昵稱、姓名、商品價格、交易創(chuàng)建時間、收貨人姓名、收貨人電話、收貨地址等)達(dá)1億余條。杭州市余杭區(qū)人民法院判處黃某犯非法獲取計算機(jī)信息系統(tǒng)數(shù)據(jù)罪,判處有期徒刑六年,并處罰金人民幣六萬元。判處翁某犯非法獲取計算機(jī)信息系統(tǒng)數(shù)據(jù)罪,判處有期徒刑五年八個月,并處罰金人民幣五萬五千元。(一)數(shù)據(jù)違法采集判例二、違法判例(二)數(shù)據(jù)泄露判例2019年7月至2021年7月期間,楊某利用在淮安某商業(yè)銀行支行擔(dān)任大堂經(jīng)理的工作便利,非法獲取客戶的手機(jī)號碼、驗證碼并把客戶手機(jī)號碼、驗證碼發(fā)至其上線微信群,其上線使用客戶手機(jī)號碼、驗證碼完成京東、滴滴等網(wǎng)絡(luò)平臺注冊賬號,楊某非法獲利人民幣16826.93元。淮安市淮陰區(qū)人民檢察院依照《中華人民共和國刑法》第二百五十三條,第六十七條,第七十二條,第七十三條,第六十四條等的相關(guān)規(guī)定,判處楊青拘役五個月,緩刑七個月,并處罰金人民幣二萬元。二、違法判例(三)數(shù)據(jù)非法獲取判例2018年11月起,陳某在某銀行信用卡中心工作,負(fù)責(zé)向客戶推廣、辦理信用卡業(yè)務(wù),通過QQ向上家以每條社保參保證明信息3元的價格購買社保參保證明,共成功購買到社保信息609條陳某非法獲取屬于征信信息和財產(chǎn)信息性質(zhì)的公民個人信息,情節(jié)特別嚴(yán)重,依照《中華人民共和國刑法》第二百五十三條之一、第六十四條、第六十七條第三款之規(guī)定,其行為已構(gòu)成侵犯公民個人信息罪,對陳某判處有期徒刑三年,并處罰金人民幣五千元,沒收作案工具二部手機(jī)。04項目實(shí)訓(xùn)目錄CONTENT實(shí)訓(xùn)內(nèi)容【一】大數(shù)據(jù)在金融經(jīng)濟(jì)領(lǐng)域應(yīng)用案例搜集縱觀金融業(yè)的發(fā)展史,幾乎每次變革都是由科技創(chuàng)新推動的。隨著大數(shù)據(jù)時代的到來,對大數(shù)據(jù)的研究與應(yīng)用正在逐步滲透到人類社會的各個角落。金融業(yè)作為數(shù)據(jù)最密集的行業(yè)之一,使其成為這場數(shù)據(jù)風(fēng)暴的重要參與角色。大數(shù)據(jù)與金融業(yè)的融合,促使了金融大數(shù)據(jù)這一新興概念的出現(xiàn)。金融大數(shù)據(jù)包含了金融交易數(shù)據(jù)、客戶數(shù)據(jù)、運(yùn)營數(shù)據(jù)、監(jiān)管數(shù)據(jù)以及各類衍生數(shù)據(jù)等,其背后蘊(yùn)含著巨大的利用價值。當(dāng)前金融大數(shù)據(jù)已經(jīng)成為金融發(fā)展的新動力,其廣泛應(yīng)用是現(xiàn)代金融發(fā)展的必然趨勢。項目要求

搜索大數(shù)據(jù)在金融經(jīng)濟(jì)領(lǐng)域的應(yīng)用案例,詳細(xì)描述案例應(yīng)用場景,介紹其優(yōu)缺點(diǎn),并談?wù)勀銓@項應(yīng)用技術(shù)未來發(fā)展趨勢的看法或觀點(diǎn)。以小組為單位開展思辨討論,大數(shù)據(jù)時代的同學(xué)們應(yīng)該具備哪些能力、需要掌握哪些技能為將來職業(yè)規(guī)劃做準(zhǔn)備?謝謝觀看金融數(shù)據(jù)統(tǒng)計分析項目二

金融數(shù)據(jù)采集01學(xué)習(xí)目標(biāo)目錄CONTENT一知識目標(biāo)(1)了解數(shù)據(jù)類型,數(shù)據(jù)來源的分類和獲取途徑,了解數(shù)據(jù)采集的流程和常見方法。(2)了解問卷調(diào)查數(shù)據(jù)采集方法。(3)了解使用網(wǎng)絡(luò)爬蟲工具采集數(shù)據(jù)的方法。(4)理解Python語言特征、Python自動化采集方法。二能力目標(biāo)(1)能夠辨別不同類型的數(shù)據(jù),能夠分清數(shù)據(jù)的兩種來源以及每種數(shù)據(jù)來源的數(shù)據(jù)采集途徑。(2)能夠設(shè)計一份要素完整、思路清晰、目的明確的調(diào)查問卷。(3)能夠根據(jù)數(shù)據(jù)采集要求使用八爪魚采集器進(jìn)行數(shù)據(jù)采集。(4)能夠根據(jù)實(shí)際需求,使用Python程序語言進(jìn)行自動化數(shù)據(jù)采集。三思政素養(yǎng)目標(biāo)(1)以社會主義核心價值觀為引領(lǐng),開拓學(xué)生視野。(2)在數(shù)據(jù)采集過程中,引導(dǎo)學(xué)生樹立誠實(shí)守信、科學(xué)求真的為人準(zhǔn)則和職業(yè)素養(yǎng)。02案例導(dǎo)讀目錄CONTENT如何采集2020年的宏觀經(jīng)濟(jì)指標(biāo)?案例導(dǎo)入

2020年全球經(jīng)濟(jì)遭遇了嚴(yán)重沖擊,尤其是二季度多國GDP跌幅創(chuàng)下歷史記錄。在全球經(jīng)濟(jì)形勢嚴(yán)峻的背景下,想要了解我國的經(jīng)濟(jì)發(fā)展形勢,需要知道以下指標(biāo)數(shù)據(jù):(1)國內(nèi)生產(chǎn)總值(GDP)及第一、第二、第三產(chǎn)業(yè)的生產(chǎn)總值;(2)全社會固定資產(chǎn)投資額、社會消費(fèi)品零售總額、進(jìn)出口總額(包括出口和進(jìn)口);(3)居民人均消費(fèi)支出、居民消費(fèi)價格指數(shù)、工業(yè)生產(chǎn)者出廠價格指數(shù),工業(yè)生產(chǎn)者購進(jìn)價格指數(shù);(4)財政收入和支出、城鎮(zhèn)登記失業(yè)率、居民人均可支配收入;(5)廣義貨幣M2供應(yīng)量、狹義貨幣M1供應(yīng)量、流通中的貨幣M0供應(yīng)量、社會融資規(guī)模、金融機(jī)構(gòu)本外幣貸款余額、貸款市場報價利率(LPR)。請思考:要將以上指標(biāo)制作成2020年宏觀經(jīng)濟(jì)數(shù)據(jù)報表,應(yīng)該如何進(jìn)行數(shù)據(jù)采集呢?03新課教學(xué)目錄CONTENT一、認(rèn)識數(shù)據(jù)采集二、數(shù)據(jù)采集之問卷調(diào)查三、數(shù)據(jù)采集之網(wǎng)絡(luò)爬蟲四、數(shù)據(jù)采集之Python自動化采集任務(wù)一認(rèn)識數(shù)據(jù)采集一、數(shù)據(jù)的類型數(shù)據(jù)定性數(shù)據(jù)定量數(shù)據(jù)定類數(shù)據(jù)定序數(shù)據(jù)定距數(shù)據(jù)定比數(shù)據(jù)指只能用文字或數(shù)字代碼來表現(xiàn)事物的品質(zhì)特性或?qū)傩蕴卣鞯臄?shù)據(jù)。(一)按數(shù)據(jù)的計量尺度分類是指用數(shù)值來表現(xiàn)事物數(shù)量特征的數(shù)據(jù)。人的性別分為男、女,則可用“1”表示男性,用“0”表示女性。學(xué)生成績可以分為優(yōu)、良、中、及格和不及格五類某日甲、乙、丙三地的最高氣溫分別為30℃、20℃和10℃,說明甲地與乙地的最高氣溫差等于乙地和丙地的最高氣溫差,都是10℃。企業(yè)利潤100萬元,人的身高175厘米、某地區(qū)的人均國內(nèi)生產(chǎn)總值3萬元等。一、數(shù)據(jù)的類型(二)按對客觀現(xiàn)象觀察的時間狀態(tài)分類數(shù)據(jù)橫截面數(shù)據(jù)時間序列數(shù)據(jù)又稱為靜態(tài)數(shù)據(jù),它是指在同一時間對不同單位的某一現(xiàn)象的數(shù)量表現(xiàn)進(jìn)行觀察而獲得的數(shù)據(jù)。又稱為動態(tài)數(shù)據(jù),它是指在不同時間對同一單位、同一現(xiàn)象的數(shù)量表現(xiàn)進(jìn)行觀察而獲得的數(shù)據(jù)。我國某年各省、市、區(qū)的國內(nèi)生產(chǎn)總值數(shù)據(jù)。把我國1979年以來的國內(nèi)生產(chǎn)總值數(shù)據(jù)按時間先后順序進(jìn)行排列,就形成了我國國內(nèi)生產(chǎn)總值的時間序列數(shù)據(jù)。一、數(shù)據(jù)的類型數(shù)據(jù)絕對數(shù)是用以反映現(xiàn)象或事物絕對數(shù)量特征的數(shù)據(jù),有明確的計量單位。用以反映現(xiàn)象或事物相對數(shù)量特征的數(shù)據(jù)。用以反映現(xiàn)象或事物平均數(shù)量特征的數(shù)據(jù)體現(xiàn)現(xiàn)象(事物)某一方面的一般數(shù)量水平。(三)按數(shù)據(jù)的表現(xiàn)形式分類絕對數(shù)相對數(shù)平均數(shù)企業(yè)銷售收入為2億元、利潤是0.5億元,人的身高是176厘米、體重是60千克某班級同學(xué)某門課平均成績85分,某公司銷售小組人均銷售業(yè)績150萬等二、數(shù)據(jù)的來源(一)一手?jǐn)?shù)據(jù)根據(jù)數(shù)據(jù)的來源不同,可以將數(shù)據(jù)分成一手?jǐn)?shù)據(jù)和二手?jǐn)?shù)據(jù)。實(shí)驗法報告法自動生成觀察法采訪法問卷調(diào)查法獲得方法一手?jǐn)?shù)據(jù)也稱為原始數(shù)據(jù),是指通過調(diào)查或?qū)嶒灥确绞街苯荧@得的數(shù)據(jù)。二、數(shù)據(jù)的來源(二)二手?jǐn)?shù)據(jù)各級政府統(tǒng)計局網(wǎng)站財經(jīng)類網(wǎng)站數(shù)據(jù)商的數(shù)據(jù)產(chǎn)品國家統(tǒng)計局網(wǎng)站中國統(tǒng)計年鑒國家各部門網(wǎng)站獲取途徑二手?jǐn)?shù)據(jù)也稱為次級數(shù)據(jù),是指那些從同行或一些媒體上獲得的、經(jīng)過加工整理的數(shù)據(jù)。三、數(shù)據(jù)采集的流程明確采集需求明確分析需求按需求采集數(shù)據(jù)四、數(shù)據(jù)采集的方法數(shù)據(jù)采集方法線下采集線上采集觀察采訪下載、復(fù)制爬?。≒ython自動化采集)問卷調(diào)查任務(wù)二數(shù)據(jù)采集之問卷調(diào)查一、問卷設(shè)計的原則

2.結(jié)構(gòu)合理、邏輯清晰1.主題明確先易后難、先簡后繁、先具體后抽象。從實(shí)際出發(fā)擬題,問題目的明確、重點(diǎn)突出一、問卷設(shè)計的原則3.通俗易懂

5.便于資料的校驗、整理和統(tǒng)計4.控制問卷的長度要充分考慮到在調(diào)查完成后,能夠方便地檢査其正確性和適用性,方便地對調(diào)査結(jié)果進(jìn)行整理和統(tǒng)計分析。應(yīng)使被調(diào)査者一目了然,并愿意如實(shí)回答。問卷中語氣要親切,符合被調(diào)査者的理解能力和認(rèn)識能力,避免使用專業(yè)術(shù)語。對敏感性問題采取一定的技巧提問控制在20分鐘左右設(shè)計一份好的問卷,需要做好充分的準(zhǔn)備工作,盡可能多地收集與主題相關(guān)的信息和資料,根據(jù)問卷的整體框架,逐一羅列所需資料,分清主次。搜集整理相關(guān)資料確定數(shù)據(jù)資料收集的方法進(jìn)行試調(diào)查分析樣本特征擬訂并編排問題修改、定稿二、問卷設(shè)計的程序說明對調(diào)查項目的目的、意義以及相關(guān)事項的解釋標(biāo)題用詞準(zhǔn)確,簡明扼要,易引起被調(diào)查者的興趣被調(diào)查者的基本資料被調(diào)查者的背景資料,如被調(diào)查者性別、年齡、婚姻狀況、文化程度、職業(yè)等結(jié)束語表示對被調(diào)查者的感謝三、調(diào)查問卷的結(jié)構(gòu)問卷主體包括所要了解的各個問題和相對應(yīng)的備選答案。問卷說明舉例示例:女士/先生:您好!我是XX公司的市場調(diào)查員,目前我們正在進(jìn)行一項有關(guān)XX市信用卡市場需求狀況的問卷調(diào)查,希望從您這里得到有關(guān)消費(fèi)者對信用卡需求方面的市場信息,以便更好地提升信用卡服務(wù),懇請您花幾分鐘時間幫助我們完成這份問卷調(diào)查。該問卷不記名,回答無對錯之分,按照您的實(shí)際情況回答即可。我們準(zhǔn)備了小禮品以表達(dá)您對我們工作支持的謝意,感謝您的支持!封閉式問題既有問題又有備選答案優(yōu)點(diǎn):答案是標(biāo)準(zhǔn)化的,便于錄入分析;回答率較高;問題的含義比較清楚;調(diào)査得到的結(jié)果可以直接進(jìn)行被調(diào)查者間的比較。缺點(diǎn):對題目理解不正確的情況難以覺察;可能產(chǎn)生“順序偏差”或“位置偏差”;調(diào)查人員需花費(fèi)較多時間來斟酌答案選項;得出的信息有時不夠精確;難以收集到深度的信息資料。開放式問題只有問題,沒有備選答案優(yōu)點(diǎn):被調(diào)査者可以自由、充分、深入地表達(dá)自己的看法和意見缺點(diǎn):調(diào)查結(jié)果不易處理,回答率低半封閉式問題這種問卷介于封閉式和開放式兩者質(zhì)檢,答案既有固定、標(biāo)準(zhǔn)的,也有讓回答者自由發(fā)揮的。四、調(diào)查問卷中的問題的類型類型:答案的表達(dá)必須簡單易懂、標(biāo)準(zhǔn)規(guī)范。所列答案應(yīng)包括所有可能的回答。不同答案之間不能相互包含或交叉。每一項答案都應(yīng)有明確的填答標(biāo)記,答案與答案之間要留出足夠的空格。可用隱蔽方式得到的答案,就不必在調(diào)查問卷上直接列出。封閉式問題是否式多項單選式多項多選式排序問題過濾性問題程度評價式四、調(diào)查問卷中的問題的類型封閉式問題答案的設(shè)計原則:任務(wù)三數(shù)據(jù)采集之網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲網(wǎng)絡(luò)爬蟲,是一種“自動化瀏覽網(wǎng)頁”的程序,可以自動地抓取網(wǎng)絡(luò)數(shù)據(jù)和信息,它的目標(biāo)是從網(wǎng)頁上獲取新的數(shù)據(jù),并加以存儲以方便訪問。八爪魚采集器是一款網(wǎng)頁數(shù)據(jù)采集軟件,具有使用簡單、功能強(qiáng)大等特點(diǎn)。使用八爪魚采集數(shù)據(jù)時,其過程涉及新建任務(wù)、指定元素、采集數(shù)據(jù)、保存數(shù)據(jù)等步驟。一、模板采集下面以京東的“商品搜索”模板為例:(1)在八爪魚采集器的官方網(wǎng)站上下載該工具,將其安裝到計算機(jī)上并啟動,輸入注冊的賬號和密碼,單擊“登錄”按鈕,如下圖所示。(2)登錄后,單擊左側(cè)的“新建”按鈕,在彈出的下拉列表中選擇“模板任務(wù)”選項,如下圖所示。登錄八爪魚采集器新建模板任務(wù)一、模板采集(3)在顯示的界面中選擇京東對應(yīng)的模板縮略圖,如圖所示。(4)此時將顯示所有京東采集模板,單擊“商品搜索”對應(yīng)的縮略圖,如圖所示。選擇網(wǎng)站模板選擇采集模板一、模板采集(5)打開顯示所選模板詳情的頁面,單擊相應(yīng)的選項卡,可以了解模板的介紹、采集字段、采集參數(shù)和示例數(shù)據(jù),確認(rèn)無誤后可單擊“立即使用”按鈕。(6)設(shè)置此次采集的任務(wù)名、任務(wù)組,并配置模板參數(shù),這里在“任務(wù)名”文本框中輸入“跑步鞋數(shù)據(jù)采集”,在“搜索關(guān)鍵詞”文本框中輸入“跑步鞋”,在“采集頁數(shù)設(shè)置”文本框中輸入“5”,完成后單擊左下角的“保存并啟動”按鈕。模板詳情設(shè)置任務(wù)的基本信息和配置參數(shù)一、模板采集(7)彈出“請選擇采集模式”對話框,這里單擊“本地采集”下方的“立即啟動”按鈕,啟動數(shù)據(jù)采集,如圖所示。(8)八爪魚采集器開始根據(jù)模板設(shè)置的內(nèi)容采集指定的數(shù)據(jù),并同步顯示采集過程,如圖所示。選擇采集方式顯示采集過程一、模板采集(9)當(dāng)完成采集工作后,八爪魚采集器將自動打開“采集完成”對話框,此時我們可直接導(dǎo)出采集的數(shù)據(jù),單擊“導(dǎo)出數(shù)據(jù)”按鈕即可。(10)彈出“導(dǎo)出本地數(shù)據(jù)”對話框,設(shè)置數(shù)據(jù)的導(dǎo)出方式,這里選中“Excel(xlsx)”選項,單擊“確定”按鈕,如圖所示。數(shù)據(jù)采集完成選擇導(dǎo)出方式一、模板采集(11)彈出“另存為”對話框,設(shè)置數(shù)據(jù)導(dǎo)出的保存位置和文件名稱,單擊“保存”按鈕,如圖所示。(12)此時八爪魚采集器將顯示數(shù)據(jù)的導(dǎo)出進(jìn)度,當(dāng)出現(xiàn)導(dǎo)出完成的提示后,可單擊“打開文件”按鈕,如圖所示。導(dǎo)出數(shù)據(jù)設(shè)置保存位置和名稱一、模板采集(13)此時打開Excel軟件,并顯示采集到的數(shù)據(jù)結(jié)果內(nèi)容,如圖所示。數(shù)據(jù)采集結(jié)果二、自動識別當(dāng)八爪魚采集器內(nèi)置的模板無法滿足采集需求時,則可以通過自定義采集的方式進(jìn)行數(shù)據(jù)采集。采取這種方式時,八爪魚采集器會根據(jù)網(wǎng)頁的內(nèi)容進(jìn)行自動識別,這一特性極大地簡化了自定義采集數(shù)據(jù)的工作。三、手動采集如果需要采集的數(shù)據(jù)頁面既沒有模板,也無法識別,則可以通過手動采集的方式采集數(shù)據(jù)。新建采集任務(wù)取消自動識別數(shù)據(jù)的狀態(tài)手動采集需要的各個字段設(shè)置字段名稱和位置01020304采集數(shù)據(jù)并導(dǎo)出到Excel中05任務(wù)四數(shù)據(jù)采集之Python自動化采集一、Python語言介紹Python語言是一個高層次的結(jié)合了解釋性、編譯性、互動性和面向?qū)ο蟮恼Z言。該語言簡潔、易讀、可擴(kuò)展性強(qiáng),被廣泛使用于科學(xué)計算和數(shù)據(jù)挖掘。一、Python語言介紹Python語言具有以下特點(diǎn):(1)Python是免費(fèi)的開源軟件(2)Python語言的設(shè)計側(cè)重于可讀性、易用性及清晰性,上手友好。(3)Python是一門解釋型的語言,天生具有跨平臺的特征。(4)Python是面向?qū)ο蟮恼Z言。第三方庫、函數(shù)、模塊、數(shù)字、字符串一切皆為對象,使用非常靈活。(5)Python應(yīng)用領(lǐng)域廣泛,包括Web和Internet開發(fā)、科學(xué)計算和統(tǒng)計、游戲開發(fā)等。用戶自動采集網(wǎng)絡(luò)數(shù)據(jù)的方式是模擬瀏覽器發(fā)送請求(獲取網(wǎng)頁代碼),從中提取有用的數(shù)據(jù),最后存放于數(shù)據(jù)庫或文件中。發(fā)送請求獲取相應(yīng)內(nèi)容解析內(nèi)容保存數(shù)據(jù)二、Python自動采集的流程三、Python自動采集程序1Python庫準(zhǔn)備2發(fā)送請求3獲取內(nèi)容4解析內(nèi)容5保存數(shù)據(jù)(一)Python庫準(zhǔn)備三、Python自動采集程序request庫lxml庫Pandas庫HTML格式的靜態(tài)網(wǎng)頁,常使用request庫來發(fā)送HTTP請求,鏈接網(wǎng)站,進(jìn)而獲取響應(yīng)的網(wǎng)頁內(nèi)容。負(fù)責(zé)對網(wǎng)頁信息進(jìn)行解析。lxml庫是XML和HTML的解析器。Pandas提供了高級的數(shù)據(jù)結(jié)構(gòu)和函數(shù),這些數(shù)據(jù)結(jié)構(gòu)利于進(jìn)行快速、簡單、表格化的數(shù)據(jù)分析。三、Python自動采集程序(一)Python庫準(zhǔn)備在編程中,為了能調(diào)用3個庫中的工具包,使用Python的import函數(shù)導(dǎo)入想要的庫或模塊。具體代碼如下:importrequestsfromlxmlimportetreeimportpandasaspd#導(dǎo)入pandas并將其簡稱為pd(二)發(fā)送請求三、Python自動采集程序數(shù)據(jù)采集需要先向目標(biāo)地址發(fā)起請求,通過requests.get()函數(shù)實(shí)現(xiàn)。requests.get()函數(shù)的括號內(nèi)變量為網(wǎng)頁地址。為了代碼明晰、易讀,通常先將網(wǎng)頁地址賦值給變量,如url,然后用requests.get(url)獲取url值。具體代碼如下:#將浦發(fā)銀行利潤表地址賦值給變量urlurl="/finance/profit_600000.shtml"r=requests.get(url)#發(fā)送請求,再將響應(yīng)對象存儲在變量r中print(r)#打印結(jié)果三、Python自動采集程序運(yùn)行上面的代碼,結(jié)果輸出如下:<Response[200]>發(fā)送請求后,返回了Response[200],其中的200是狀態(tài)代碼,表示服務(wù)器成功地接受了客戶端請求。(三)獲取內(nèi)容三、Python自動采集程序使用etree模塊下的函數(shù)etree.HTML()來對網(wǎng)頁內(nèi)容標(biāo)準(zhǔn)化,以便于后續(xù)xpath()方法進(jìn)行解析。將標(biāo)準(zhǔn)化后的對象,賦值給新變量selector,方便后續(xù)調(diào)用。發(fā)送請求成功后,服務(wù)器正常響應(yīng),響應(yīng)對象存儲在變量r中,使用r.content獲取整個頁面的HTML代碼,并賦值給con_code變量。使用print(con_code),輸出查看。三、Python自動采集程序con_code=r.content#獲取整個網(wǎng)頁內(nèi)容print(con_code)selector=etree.HTML(con_code)#網(wǎng)頁內(nèi)容標(biāo)準(zhǔn)化,etree.HTML將傳進(jìn)去的變量con_code轉(zhuǎn)變成_Element對象,將其生成標(biāo)準(zhǔn)網(wǎng)頁格式的數(shù)據(jù)具體代碼如下:(三)獲取內(nèi)容運(yùn)行結(jié)果,如下圖:(四)解析內(nèi)容三、Python自動采集程序怎么從整個頁面的HTML代碼中準(zhǔn)確找到某個元素?下面以獲取利潤表“報告期”元素為例,介紹具體地獲取其位置的步驟。查看網(wǎng)頁源碼(谷歌瀏覽器)1.可使用“F12”快捷鍵,打開網(wǎng)頁源代碼,如圖所示。三、Python自動采集程序2.單擊源碼區(qū)域,左上方箭頭形狀的功能鍵,單擊后會發(fā)現(xiàn)箭頭變?yōu)樗{(lán)色,如圖所示。移動鼠標(biāo),點(diǎn)選網(wǎng)頁需要采集的數(shù)據(jù)區(qū)域,如“報告期”,則右側(cè)的網(wǎng)頁源碼會定位到相應(yīng)位置,并且該區(qū)域?qū)?yīng)的代碼變藍(lán)色。單擊源碼左上角功能鍵,選擇采集區(qū)域三、Python自動采集程序3.鼠標(biāo)右擊“報告期”對應(yīng)的藍(lán)色代碼,在如圖所示頁面中的選擇框里點(diǎn)擊右鍵在Copy選項下選擇“CopyXpath”,拷貝了以Xpath語法規(guī)則來表示的定位位置。數(shù)據(jù)xpath規(guī)則獲取三、Python自動采集程序?qū)⑸弦徊娇截惖膬?nèi)容粘貼至文本編輯器就可得到需采集信息(如報告期)的地址,即//*[@id="sta_3"]/div[1]/div/div[2]/table/tbody/tr[1]/td[1]獲取到了所需要采集的具體數(shù)據(jù)的網(wǎng)頁位置后,使用text()函數(shù)來選取當(dāng)前節(jié)點(diǎn)中的所有內(nèi)容,再用selector.xpath函數(shù)解析該內(nèi)容,并將解析結(jié)果轉(zhuǎn)換為字符串輸出。三、Python自動采集程序#字符串類型需要用單引號''或雙引號""引用。Name_xpath='//*[@id="sta_3"]/div[1]/div/div[2]/table/tbody/tr[1]/td[1]/text()'#獲取網(wǎng)頁地址的文本內(nèi)容Title=str(selector.xpath(Name_xpath)[0])#解析文本內(nèi)容,并轉(zhuǎn)為字符串格式print(Title)代碼如下:輸出如下:報告期三、Python自動采集程序要注意的是,變量名稱自由命名,但是要遵守Python的命名規(guī)則。Python語言中變量名可以包括字母、數(shù)字、下劃線,但數(shù)字不能做開頭。例如:name_1是合法變量名,而1_name是錯誤命名。若需爬取整個頁面的利潤表,每個數(shù)據(jù)xpath都復(fù)制一遍的工作量顯然過大,因此可以通過尋找xpath規(guī)律通過循環(huán)對整體數(shù)據(jù)進(jìn)行爬取。三、Python自動采集程序//*[@id="sta_3"]/div[1]/div/div[2]/table/tbody/tr[i]/td[j]表示表格的第i行第j列數(shù)據(jù),例如xpath后綴為tr[3]/td[3]的數(shù)據(jù)讀取為97,365,000,000,如圖所示。在尋找規(guī)律時發(fā)現(xiàn)除行名字因為分為一級標(biāo)題二級標(biāo)題xpath格式并非完全一致無法自動識別,其他數(shù)據(jù)的xpath皆有規(guī)律::網(wǎng)頁截圖三、Python自動采集程序df=pd.D

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論