大數(shù)據(jù)治理(高級(jí)) 課件全套 西財(cái) 第1篇:概論篇-實(shí)訓(xùn)項(xiàng)目11交通大數(shù)據(jù)分析實(shí)訓(xùn)_第1頁
大數(shù)據(jù)治理(高級(jí)) 課件全套 西財(cái) 第1篇:概論篇-實(shí)訓(xùn)項(xiàng)目11交通大數(shù)據(jù)分析實(shí)訓(xùn)_第2頁
大數(shù)據(jù)治理(高級(jí)) 課件全套 西財(cái) 第1篇:概論篇-實(shí)訓(xùn)項(xiàng)目11交通大數(shù)據(jù)分析實(shí)訓(xùn)_第3頁
大數(shù)據(jù)治理(高級(jí)) 課件全套 西財(cái) 第1篇:概論篇-實(shí)訓(xùn)項(xiàng)目11交通大數(shù)據(jù)分析實(shí)訓(xùn)_第4頁
大數(shù)據(jù)治理(高級(jí)) 課件全套 西財(cái) 第1篇:概論篇-實(shí)訓(xùn)項(xiàng)目11交通大數(shù)據(jù)分析實(shí)訓(xùn)_第5頁
已閱讀5頁,還剩426頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章大數(shù)據(jù)治理概論1大數(shù)據(jù)治理背景1大數(shù)據(jù)治理相關(guān)概念2大數(shù)據(jù)治理的框架3大數(shù)據(jù)治理的原則4大數(shù)據(jù)治理的方法5目錄學(xué)習(xí)目標(biāo)掌握大數(shù)據(jù)治理的概念掌握大數(shù)據(jù)治理的框架掌握大數(shù)據(jù)治理的主要方法3政府需求岷山集團(tuán)需求數(shù)據(jù)治理背景1.1數(shù)據(jù)爆炸式增長(zhǎng)管理深度信息化:企業(yè)建設(shè)信息化系統(tǒng)來提高管理效率、降低管理成本。各式各樣的企業(yè)信息化管理系統(tǒng),例如:客戶關(guān)系管理系統(tǒng)、核算系統(tǒng)、預(yù)算系統(tǒng)、供應(yīng)商管理系統(tǒng)、金稅系統(tǒng)、報(bào)表系統(tǒng)、銷售系統(tǒng)、采購系統(tǒng)等。如此繁多的信息化管理系統(tǒng),會(huì)導(dǎo)致數(shù)據(jù)量日益劇增,如何組織、管理、應(yīng)用爆炸式增加數(shù)據(jù)成為了關(guān)注的焦點(diǎn)。擁抱轉(zhuǎn)型、業(yè)務(wù)創(chuàng)新:以信息技術(shù)為代表的技術(shù)革命從根本上改變著我們的社會(huì)經(jīng)濟(jì)生活。社會(huì)形態(tài)已由工業(yè)社會(huì)發(fā)展為信息社會(huì),傳統(tǒng)的農(nóng)業(yè)經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)正在被知識(shí)經(jīng)濟(jì)逐漸取代。在新境界的浪潮中,企業(yè)面臨的競(jìng)爭(zhēng)環(huán)境也發(fā)生了巨大變化,促使企業(yè)盡快進(jìn)行發(fā)展模式、管理模式、商業(yè)模式的升級(jí)轉(zhuǎn)型。技術(shù)創(chuàng)新與發(fā)展:隨著大數(shù)據(jù)時(shí)代的發(fā)展,技術(shù)不斷更新迭代,數(shù)據(jù)處理速度也在不斷的提升。主要技術(shù)內(nèi)容包括:數(shù)據(jù)采集技術(shù)、數(shù)據(jù)清洗技術(shù)、數(shù)據(jù)安全技術(shù)、數(shù)據(jù)建模技術(shù)、數(shù)據(jù)加速計(jì)算技術(shù)、元數(shù)據(jù)管理技術(shù)、數(shù)據(jù)生命周期管理技術(shù)。數(shù)據(jù)資產(chǎn)價(jià)值驅(qū)動(dòng):數(shù)據(jù)是一種未經(jīng)加工的原始資料,是對(duì)客觀事物的邏輯歸納。用符號(hào)、字母等方式對(duì)客觀事物進(jìn)行直觀描述。數(shù)據(jù)經(jīng)過解釋并賦予一定的意義之后,便成為了信息;數(shù)據(jù)是一種資產(chǎn),對(duì)于組織具有價(jià)值,因此需要妥善保護(hù)、利用,從而為企業(yè)帶來經(jīng)濟(jì)利益的流入。數(shù)據(jù)資產(chǎn)是有企業(yè)擁有和控制。能夠?yàn)槠髽I(yè)帶來未來經(jīng)濟(jì)利益的信息資源。具有以下基本特性:共享性、增值性、實(shí)效性、低安全性。其價(jià)值主要體現(xiàn)在以下幾方面。數(shù)據(jù)資產(chǎn)是一種企業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)的經(jīng)濟(jì)資源;數(shù)據(jù)資產(chǎn)是支持企業(yè)發(fā)展戰(zhàn)略的重要資源;數(shù)據(jù)資產(chǎn)是現(xiàn)代化企業(yè)最大的價(jià)值來源。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理相關(guān)概念1.2大數(shù)據(jù)咨詢公司Gartner認(rèn)為:大數(shù)據(jù)是指需要借助新的處理模式才能擁有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的具有海量、多樣化和高增長(zhǎng)率等特點(diǎn)的信息資產(chǎn)。麥肯錫認(rèn)為:大數(shù)據(jù)是指在一定時(shí)間內(nèi)無法用傳統(tǒng)數(shù)據(jù)庫軟件工具采集、存儲(chǔ)、管理和分析其內(nèi)容的數(shù)據(jù)集合。國(guó)際數(shù)據(jù)公司IDC認(rèn)為:大數(shù)據(jù)一般會(huì)涉及兩種或兩種以上的數(shù)據(jù)形式。它要收集超過100TB的數(shù)據(jù),并且是高速、實(shí)時(shí)的數(shù)據(jù)流,或者是從小數(shù)據(jù)開始,但數(shù)據(jù)量每年會(huì)增長(zhǎng)60%以上。維基百科的定義是:大數(shù)據(jù)指的是需要處理的資料量規(guī)模巨大,無法在合理時(shí)間內(nèi),通過當(dāng)前主流的軟件工具擷取、管理、處理并整理的資料,它成為幫助企業(yè)經(jīng)營(yíng)決策的資訊。特性:4V,體量(Volume)、速度(Velocity)、多樣性(Variety)、價(jià)值(Value)。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理相關(guān)概念1.2大數(shù)據(jù)治理IBM認(rèn)為,數(shù)據(jù)治理是根據(jù)企業(yè)的數(shù)據(jù)管控政策,利用組織人員、流程和技術(shù)的相互協(xié)作,使企業(yè)能將“數(shù)據(jù)作為資產(chǎn)”(dataasenterpriseasset)來管理和應(yīng)用。根據(jù)伯森(Berson)和杜波夫(Dubov)的定義,數(shù)據(jù)治理是一個(gè)關(guān)注于管理信息的質(zhì)量(Quality)、一致性(Consistency)、可用性(Usability)、安全性(Security)和可得性(Availability)的過程。這個(gè)過程與數(shù)據(jù)的擁有(Ownership)和管理職責(zé)(Stewardship)緊密相關(guān)。國(guó)際數(shù)據(jù)管理協(xié)會(huì)(DAMA)給出的定義:數(shù)據(jù)治理是對(duì)數(shù)據(jù)資產(chǎn)管理行使權(quán)力和控制的活動(dòng)集合(規(guī)劃、監(jiān)控和執(zhí)行)。ReneAbraham等在2019年發(fā)表的論文中提出:大數(shù)據(jù)治理是一個(gè)跨功能框架,把數(shù)據(jù)作為組織、企業(yè)或者國(guó)家的戰(zhàn)略資產(chǎn)進(jìn)行管理。綜合上述定義,可以認(rèn)為,大數(shù)據(jù)治理,是把大數(shù)據(jù)作為組織、企業(yè)或者國(guó)家的戰(zhàn)略資產(chǎn)進(jìn)行管理,以及在管理流程中進(jìn)行分析、控制和決策的活動(dòng)集合。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理相關(guān)概念1.2數(shù)據(jù)倉庫數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、非易失的且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策。數(shù)據(jù)倉庫是以關(guān)系數(shù)據(jù)庫、并行處理和分布式技術(shù)為基礎(chǔ)的信息新技術(shù)。特點(diǎn):面向主題:數(shù)據(jù)倉庫圍繞一些重要主題,如顧客、供應(yīng)商、產(chǎn)品和銷售組織。數(shù)據(jù)倉庫關(guān)注決策者的數(shù)據(jù)建模與分析,不是單位的日常操作和事務(wù)處理。因此,數(shù)據(jù)倉庫通常排除對(duì)于決策無用的數(shù)據(jù),提供特定主題的簡(jiǎn)明視圖。集成:通常,構(gòu)造數(shù)據(jù)倉庫是將多個(gè)異構(gòu)數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫、一般文件和聯(lián)機(jī)事務(wù)處理記錄集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。時(shí)變:數(shù)據(jù)存儲(chǔ)從歷史的角度(例如,過去5-10年)提供信息。數(shù)據(jù)倉庫中的關(guān)鍵結(jié)構(gòu)都隱式或顯式地包含時(shí)間元素。非易失:數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。由于這種分離,數(shù)據(jù)倉庫不需要事務(wù)處理、恢復(fù)和并發(fā)控制機(jī)制。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理相關(guān)概念1.2元數(shù)據(jù)元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),是數(shù)據(jù)倉庫的一部分不可或缺的重要數(shù)據(jù)。它是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,描述的是數(shù)據(jù)倉庫中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容、碼以及索引等。分類:第一種元數(shù)據(jù)包含了所有原數(shù)據(jù)項(xiàng)名、屬性以及它在數(shù)據(jù)倉庫中的轉(zhuǎn)換,它是為了從操作型環(huán)境向數(shù)據(jù)倉庫環(huán)境轉(zhuǎn)換而建立的。第二種元數(shù)據(jù)稱為DSS元數(shù)據(jù),是在數(shù)據(jù)倉庫中用來在終端用戶的多維商業(yè)模型以及前端工具間建立映射,一般是為了開發(fā)出更加先進(jìn)的決策支持工具而創(chuàng)建的。作用:定義數(shù)據(jù)倉庫中有什么;指明數(shù)據(jù)倉庫中信息的內(nèi)容及位置;刻畫數(shù)據(jù)的抽取和轉(zhuǎn)換規(guī)則;存儲(chǔ)和數(shù)據(jù)倉庫主題相關(guān)的各種商業(yè)信息。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的框架1.3核心層大數(shù)據(jù)治理框架的核心層是大數(shù)據(jù)處理的過程,包括了數(shù)據(jù)采集、數(shù)據(jù)清洗與預(yù)處理、數(shù)據(jù)統(tǒng)計(jì)分析和挖掘以及結(jié)果可視化。方法層大數(shù)據(jù)治理的方法層,包括數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)安全、隱私保護(hù)、主數(shù)據(jù)管理及數(shù)據(jù)融合。領(lǐng)域?qū)宇I(lǐng)域?qū)樱搭I(lǐng)域知識(shí)。領(lǐng)域知識(shí)是指用以指導(dǎo)和約束搜索感興趣知識(shí)行為的知識(shí),也稱背景知識(shí),包括特定領(lǐng)域的背景信息和專家知識(shí)。主數(shù)據(jù)管理大數(shù)據(jù)處理隱私保護(hù)數(shù)據(jù)融合數(shù)據(jù)安全質(zhì)量管理知識(shí)領(lǐng)域政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的原則1.4有效性原則有效性原則體現(xiàn)了大數(shù)據(jù)治理過程中數(shù)據(jù)的標(biāo)準(zhǔn)、質(zhì)量、價(jià)值、管控的有效性、高效性。價(jià)值化原則價(jià)值化原則指大數(shù)據(jù)治理過程中以數(shù)據(jù)資產(chǎn)為價(jià)值核心,最大化大數(shù)據(jù)平臺(tái)的數(shù)據(jù)價(jià)值。統(tǒng)一性原則統(tǒng)一性原則是在數(shù)據(jù)標(biāo)準(zhǔn)管理組織架構(gòu)的推動(dòng)和指導(dǎo)下,遵循協(xié)商一致制定的數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,借助標(biāo)準(zhǔn)化管控流程得以實(shí)施數(shù)據(jù)統(tǒng)一性的原則。開放性原則在大數(shù)據(jù)和云環(huán)境下,要以開放的理念確立起信息公開的政策思想,運(yùn)用開放、透明、發(fā)展、共享的信息資源管理理念對(duì)數(shù)據(jù)進(jìn)行處理,提高數(shù)據(jù)治理的透明度。安全性原則大數(shù)據(jù)治理的安全性原則體現(xiàn)了安全的重要性、必要性,保障大數(shù)據(jù)平臺(tái)數(shù)據(jù)安全和數(shù)據(jù)治理過程中數(shù)據(jù)的安全可控。政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的方法1.5大數(shù)據(jù)質(zhì)量管理的概念大數(shù)據(jù)質(zhì)量管理,是指對(duì)數(shù)據(jù)計(jì)劃、獲取、存儲(chǔ)、共享、維護(hù)、應(yīng)用、消亡的生命周期中每個(gè)階段里可能引發(fā)的各類數(shù)據(jù)質(zhì)量問題,進(jìn)行識(shí)別、度量、監(jiān)控、預(yù)警等一系列管理活動(dòng),并通過改善和提高組織的管理水平,使得數(shù)據(jù)質(zhì)量獲得進(jìn)一步提高。大數(shù)據(jù)質(zhì)量評(píng)估(1)完整性(2)準(zhǔn)確性(3)有效性(4)一致性(5)及時(shí)性政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的方法1.5大數(shù)據(jù)安全大數(shù)據(jù)安全存在著多個(gè)層次,如制度安全、技術(shù)安全、運(yùn)算安全、存儲(chǔ)安全、傳輸安全、產(chǎn)品和服務(wù)安全等。大數(shù)據(jù)安全防護(hù)技術(shù)(1)數(shù)據(jù)發(fā)布匿名保護(hù)技術(shù)(2)社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)(3)數(shù)據(jù)水印技術(shù)(4)數(shù)據(jù)溯源技術(shù)(5)訪問控制技術(shù)政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的方法1.5隱私保護(hù)大數(shù)據(jù)隱私保護(hù)是指通過技術(shù)和管理手段來確保大數(shù)據(jù)環(huán)境下數(shù)據(jù)的保密性、完整性和可用性,以及分析并解決大數(shù)據(jù)活動(dòng)對(duì)國(guó)家安全、社會(huì)影響、公共利益、個(gè)人的生命財(cái)產(chǎn)安全等造成的影響。大數(shù)據(jù)隱私保護(hù)技術(shù)(1)威脅發(fā)現(xiàn)技術(shù)(2)大數(shù)據(jù)認(rèn)證技術(shù)(3)數(shù)據(jù)真實(shí)性分析技術(shù)(4)數(shù)據(jù)失真處理技術(shù)(5)數(shù)據(jù)加密技術(shù)(6)限制發(fā)布技術(shù)政府需求岷山集團(tuán)需求大數(shù)據(jù)治理的方法1.5主數(shù)據(jù)主數(shù)據(jù)(MasterData)是指具有高業(yè)務(wù)價(jià)值的、可以在企業(yè)內(nèi)跨越各個(gè)業(yè)務(wù)部門被重復(fù)使用的數(shù)據(jù),是單一、準(zhǔn)確、權(quán)威的數(shù)據(jù)來源。主數(shù)據(jù)包含元數(shù)據(jù)、屬性、定義、角色、關(guān)聯(lián)關(guān)系、分類方法等內(nèi)容,被不同的應(yīng)用所使用,涉及企業(yè)多數(shù)組織及業(yè)務(wù)單元。主數(shù)據(jù)管理主數(shù)據(jù)管理描述了一組規(guī)程、技術(shù)和解決方案,這些規(guī)程、技術(shù)和解決方案用于為所有利益相關(guān)方(如用戶、應(yīng)用程序、數(shù)據(jù)倉庫、流程以及貿(mào)易伙伴)創(chuàng)建并維護(hù)業(yè)務(wù)數(shù)據(jù)的一致性、完整性、相關(guān)性和精確性。數(shù)據(jù)融合從數(shù)據(jù)來源的角度,大數(shù)據(jù)融合包括組織內(nèi)部的數(shù)據(jù)和組織外部數(shù)據(jù)的融合;從數(shù)據(jù)結(jié)構(gòu)的角度,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的融合;從數(shù)據(jù)狀態(tài)的角度,包括靜態(tài)數(shù)據(jù)和流數(shù)據(jù)的融合。第2章大數(shù)據(jù)治理應(yīng)用15疫情防控與復(fù)工案例1中國(guó)人民銀行個(gè)人信用評(píng)分案例2目錄學(xué)習(xí)目標(biāo)理解大數(shù)據(jù)治理的應(yīng)用17政府需求岷山集團(tuán)需求疫情防控與復(fù)工案例2.1案例背景新冠肺炎疫情在全球持續(xù)蔓延,已有6大洲180多個(gè)國(guó)家出現(xiàn)確診病例,超過180萬人確診。新冠疫情已經(jīng)對(duì)世界的正常運(yùn)轉(zhuǎn)帶來嚴(yán)重的影響,全球的恐慌情緒正在蔓延。因此,為了更科學(xué)的防范疫情的進(jìn)一步蔓延,必須對(duì)疫情的暴發(fā)進(jìn)行回顧性分析,深入了解疾病傳播方式,從而提出前瞻性的建議。天府大數(shù)據(jù)國(guó)際戰(zhàn)略與技術(shù)研究院院長(zhǎng)石勇帶領(lǐng)的科研團(tuán)隊(duì)聯(lián)合香港浸會(huì)大學(xué)計(jì)算機(jī)科學(xué)系劉際明教授、中國(guó)疾病預(yù)防控制中心寄生蟲病所周曉農(nóng)研究員所帶領(lǐng)的智能化疾病監(jiān)控聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)通過前期研究,基于不同年齡組人群在典型社交場(chǎng)合的接觸模式,用數(shù)據(jù)驅(qū)動(dòng)的模型刻畫了新冠肺炎的潛在傳播方式,量化分析了不同時(shí)間段疫情風(fēng)險(xiǎn)與多種復(fù)工方案的利弊關(guān)系,為國(guó)家制定疫情防控策略提供了科學(xué)有效的決策支持。政府需求岷山集團(tuán)需求疫情防控與復(fù)工案例2.1案例分析該研究通過對(duì)不同年齡段人群在典型社交環(huán)境中的接觸進(jìn)行刻畫,對(duì)新冠肺炎疫情的傳播特征進(jìn)行精準(zhǔn)描述與分析,包括不同時(shí)刻不同地區(qū)的傳播風(fēng)險(xiǎn)趨勢(shì)、不同干預(yù)措施的有效性、以及恢復(fù)正常社會(huì)經(jīng)濟(jì)秩序所伴隨的風(fēng)險(xiǎn)等。具體來說,該研究構(gòu)建了一個(gè)數(shù)據(jù)驅(qū)動(dòng)的計(jì)算模型用于揭示人群之間的接觸模式,針對(duì)每種社交環(huán)境,計(jì)算模型將推斷出相應(yīng)的各年齡組人群間的接觸強(qiáng)度,并由此刻畫新冠肺炎在不同人群之間的傳播方式。政府需求岷山集團(tuán)需求疫情防控與復(fù)工案例2.1該研究得出的結(jié)論不僅為中國(guó)的新冠肺炎傳播方式提供了更深入的解釋,更為重要的是,研究中所提出的基于社交接觸模式的疫情風(fēng)險(xiǎn)分析方法可被其他國(guó)家借鑒來指導(dǎo)其新冠疫情的防控策略與干預(yù)措施,從而減輕疫情大流行所帶來的社會(huì)與經(jīng)濟(jì)影響。截至目前,已有72個(gè)國(guó)家及智庫機(jī)構(gòu),引用了該研究,對(duì)世界疫情防控及經(jīng)濟(jì)恢復(fù)決策支撐提供了重要支撐。2020年12月,石勇教授因此獲得國(guó)家先進(jìn)個(gè)人表彰。政府需求岷山集團(tuán)需求中國(guó)人民銀行個(gè)人信用評(píng)分案例2.2案例背景中國(guó)人民銀行征信系統(tǒng)包括企業(yè)信用信息基礎(chǔ)數(shù)據(jù)庫和個(gè)人信用信息基礎(chǔ)數(shù)據(jù)庫。其中企業(yè)信用信息基礎(chǔ)數(shù)據(jù)庫始于1997年,并在2006年7月份實(shí)現(xiàn)全國(guó)聯(lián)網(wǎng)查詢。個(gè)人信用信息基礎(chǔ)數(shù)據(jù)庫建設(shè)最早始于1999年,2005年8月底完成與全國(guó)所有商業(yè)銀行和部分有條件的農(nóng)信社的聯(lián)網(wǎng)運(yùn)行,2006年1月,個(gè)人信用信息基礎(chǔ)數(shù)據(jù)庫正式運(yùn)行。2019年4月,新版?zhèn)€人征信報(bào)告已上線,拖欠水費(fèi)也可能影響其個(gè)人信用。2019年6月19日,中國(guó)已建立全球規(guī)模最大的征信系統(tǒng)。2020年1月19日,征信中心面向社會(huì)公眾和金融機(jī)構(gòu)提供二代格式信用報(bào)告查詢服務(wù)。中國(guó)個(gè)人信用分?jǐn)?shù),也被稱作“中國(guó)分?jǐn)?shù)”,是中國(guó)科學(xué)院虛擬經(jīng)濟(jì)與數(shù)據(jù)科學(xué)研究中心與央行(中國(guó)人民銀行)合作開發(fā)完成的。石勇教授領(lǐng)銜研究團(tuán)隊(duì),經(jīng)過3年的開發(fā)與測(cè)試,不僅讓中國(guó)人民銀行征信中心信用評(píng)分系統(tǒng)模型建設(shè)成功,也通過后期的商業(yè)銀行數(shù)據(jù)獲得驗(yàn)證,并取得良好效果。中國(guó)的征信系統(tǒng),為大數(shù)據(jù)的典型應(yīng)用。截至2019年,征信系統(tǒng)累計(jì)收錄9.9億自然人、2591萬戶企業(yè)和其他組織的有關(guān)信息,個(gè)人信用報(bào)告日均查詢量達(dá)550萬次。政府需求岷山集團(tuán)需求中國(guó)人民銀行個(gè)人信用評(píng)分案例2.2案例分析信用評(píng)分運(yùn)用先進(jìn)的數(shù)據(jù)挖掘和統(tǒng)計(jì)分析技術(shù),各大金融機(jī)構(gòu)的消費(fèi)者的住房貸款、汽車貸款、信用卡等的歷史信息,通過對(duì)消費(fèi)者的人口特征、信用歷史記錄、行為記錄、交易記錄等大量數(shù)據(jù)進(jìn)行系統(tǒng)的分析,挖掘出蘊(yùn)含在數(shù)據(jù)中的行為模式,找出歷史信息與未來信用表現(xiàn)之間的關(guān)系,建立預(yù)測(cè)性的模型,預(yù)測(cè)出每個(gè)自然人在未來某個(gè)時(shí)期內(nèi)發(fā)生“信貸違約”的概率,并以一個(gè)分?jǐn)?shù)來表示。分?jǐn)?shù)的高低表示風(fēng)險(xiǎn)的高低,將對(duì)各信貸機(jī)構(gòu)的各項(xiàng)信貸決策有重大的指導(dǎo)意義。政府需求岷山集團(tuán)需求中國(guó)人民銀行個(gè)人信用評(píng)分案例2.2案例分析(1)數(shù)據(jù)獲?。?)數(shù)據(jù)預(yù)處理(3)探索性分析(4)變量篩選(5)模型建立(6)模型檢驗(yàn)(7)分?jǐn)?shù)轉(zhuǎn)化(8)效果評(píng)價(jià)圖2.2信用評(píng)分步驟該信用評(píng)分模型通過人在經(jīng)濟(jì)、社會(huì)活動(dòng)中所表現(xiàn)出的職業(yè)、工資等數(shù)百個(gè)變量指標(biāo),進(jìn)行數(shù)據(jù)挖掘和綜合分析,得出個(gè)人信用評(píng)分,國(guó)際標(biāo)準(zhǔn)為350-850分,結(jié)合具體國(guó)情,中國(guó)標(biāo)準(zhǔn)初步確定為350-1000分。石勇教授稱,目前,中科院虛擬經(jīng)濟(jì)與數(shù)據(jù)科研中心已為中國(guó)人民銀行開發(fā)出7組評(píng)分模型,經(jīng)過良好的測(cè)試運(yùn)行與優(yōu)化,已成為中國(guó)個(gè)人信用評(píng)分首個(gè)國(guó)產(chǎn)大數(shù)據(jù)應(yīng)用模型,對(duì)推進(jìn)中國(guó)信用體系建設(shè)將起到重大關(guān)鍵性作用。實(shí)訓(xùn)1期貨交易數(shù)據(jù)預(yù)處理24知識(shí)點(diǎn)數(shù)據(jù)預(yù)處理概念數(shù)據(jù)讀取與寫入數(shù)據(jù)索引與切片數(shù)據(jù)清洗描述性統(tǒng)計(jì)方法25實(shí)訓(xùn)目標(biāo)了解數(shù)據(jù)預(yù)處理的概念與流程;掌握數(shù)據(jù)加載與寫入的方法;掌握數(shù)據(jù)對(duì)象的索引和切片操作;掌握數(shù)據(jù)清洗的一般方法;理解常用統(tǒng)計(jì)指標(biāo)的含義;26知識(shí)點(diǎn)數(shù)據(jù)預(yù)處理概念數(shù)據(jù)讀取與寫入數(shù)據(jù)索引與切片數(shù)據(jù)清洗描述性統(tǒng)計(jì)方法27數(shù)據(jù)預(yù)處理概念數(shù)據(jù)預(yù)處理(datapreprocessing)是指在進(jìn)行數(shù)據(jù)分析、挖掘和可視化前對(duì)數(shù)據(jù)進(jìn)行的一些必要處理方法。預(yù)處理數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)變換28數(shù)據(jù)預(yù)處理概念數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)約數(shù)據(jù)變換發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別錯(cuò)誤,清理“臟數(shù)據(jù)”。將不同來源、格式、結(jié)構(gòu)的數(shù)據(jù)在邏輯或物理上有機(jī)集中。盡可能保持?jǐn)?shù)據(jù)原貌的前提下,最大限度地精簡(jiǎn)數(shù)據(jù)量。對(duì)數(shù)據(jù)的數(shù)值、類型、單位進(jìn)行轉(zhuǎn)換以保證數(shù)據(jù)可用性。29數(shù)據(jù)預(yù)處理概念準(zhǔn)確性完整性一致性時(shí)效性有效性數(shù)據(jù)質(zhì)量30知識(shí)點(diǎn)數(shù)據(jù)預(yù)處理概念數(shù)據(jù)讀取與寫入數(shù)據(jù)索引與切片數(shù)據(jù)清洗描述性統(tǒng)計(jì)方法31數(shù)據(jù)讀取與寫入文件是信息的載體,在將分散的數(shù)據(jù)保存在文件中后,我們需要通過適當(dāng)?shù)姆椒▽?duì)其進(jìn)行讀取和寫入。以下介紹Pandas從多種存儲(chǔ)媒介讀取以及將不同的數(shù)據(jù)結(jié)構(gòu)寫入不同格式文件的方法。文本文件表格文件數(shù)據(jù)庫32數(shù)據(jù)讀取與寫入CSV文件是一種純文本文件,可以使用任何文本編輯器進(jìn)行編輯,它支持追加模式,節(jié)省內(nèi)存開銷。33數(shù)據(jù)讀取與寫入read_csv()方法的作用是將CSV文件的數(shù)據(jù)讀取出來,轉(zhuǎn)換成DataFrame對(duì)象展示。read_csv(filepath_or_buffer,sep=',',delimiter=None,header='infer',names=None,index_col=None,usecols=None,prefix=None,...)filepath_or_buffer:文件路徑sep:指定使用的分隔符,默認(rèn)用“,”分隔。header:指定第一行用來作為列名,前提是names=Nonenames:指定列名列表。當(dāng)names沒被賦值時(shí),header會(huì)變成0,即選取數(shù)據(jù)文件的第一行作為列名。34數(shù)據(jù)讀取與寫入to_csv()方法的功能是將數(shù)據(jù)寫入到CSV文件中。to_csv(path_or_buf=None,sep=',',na_rep='',float_format=None,columns=None,header=True,index=True,index_label=None,mode='w‘,...)path_or_buf:文件路徑。index:默認(rèn)為True,若設(shè)為False,則將不會(huì)顯示索引。sep:分隔符,默認(rèn)用“,”隔開。35數(shù)據(jù)讀取與寫入Excel文件也是比較常見的存儲(chǔ)數(shù)據(jù)的文件,它里面均是以二維表格的形式顯示的,可以對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析等操作。Excel的文件擴(kuò)展名有.xls和.xlsx兩種。36數(shù)據(jù)讀取與寫入read_excel(io,sheet_name=0,header=0,names=None,index_col=None,**kwds)io:表示路徑對(duì)象。sheet_name:指定要讀取的工作表,如:“Sheet1”。header:用于解析DataFrame的列標(biāo)簽。names:指定列名列表。to_excel(excel_writer,sheet_name='Sheet1',na_rep='',float_format=None,columns=None,header=True,index=True,...)excel_writer:表示讀取的文件路徑。index:表示是否寫行索引,默認(rèn)為True。37數(shù)據(jù)讀取與寫入大多數(shù)情況下,海量的數(shù)據(jù)是使用數(shù)據(jù)庫進(jìn)行存儲(chǔ)的,這主要是依賴于數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)化、數(shù)據(jù)共享性、獨(dú)立性等特點(diǎn)。Pandas

支持Mysql、Oracle、SQLite等主流數(shù)據(jù)庫的讀寫操作。38數(shù)據(jù)讀取與寫入以Mysql為例,read_sql()函數(shù)既可以讀取整張數(shù)據(jù)表,又可以執(zhí)行SQL語句。pandas.read_sql(sql,con,index_col=None,coerce_float=True,params=None,parse_dates=None,columns=None,chunksize=None)sql:表示被執(zhí)行的SQL語句。con:接收數(shù)據(jù)庫連接,表示數(shù)據(jù)庫的連接信息。columns:從SQL表中選擇列名列表。39數(shù)據(jù)讀取與寫入to_sql()方法的功能是將Series或DataFrame對(duì)象以數(shù)據(jù)表的形式寫入到數(shù)據(jù)庫中。pandas.to_sql(name,con,schema=None,if_exists='fail‘,index=True,index_label=None,chunksize=None,dtype=None)name:表示數(shù)據(jù)庫表的名稱。con:表示數(shù)據(jù)庫的連接信息。if_exists:可以取值為fail、replace或append,默認(rèn)為’fail’。40數(shù)據(jù)讀取與寫入注意:通過create_engine()函數(shù)創(chuàng)建連接時(shí),需要指定格式如下:'數(shù)據(jù)庫類型+數(shù)據(jù)庫驅(qū)動(dòng)名稱://用戶名:密碼@機(jī)器地址:端口號(hào)/數(shù)據(jù)庫名’。如:’mysql+mysqlconnector://root:123456@:3306/info’41知識(shí)點(diǎn)數(shù)據(jù)預(yù)處理概念數(shù)據(jù)讀取與寫入數(shù)據(jù)索引與切片數(shù)據(jù)清洗描述性統(tǒng)計(jì)方法42數(shù)據(jù)索引與切片pandas作為常用的數(shù)據(jù)分析庫,提供了兩個(gè)重要的數(shù)據(jù)結(jié)構(gòu):Series和DataFrame其中Series是由索引和數(shù)據(jù)組成的一維數(shù)據(jù)結(jié)構(gòu),DataFrame是由行、列索引和數(shù)據(jù)組成的二維數(shù)據(jù)結(jié)構(gòu)。SeriesDataFrame43數(shù)據(jù)索引與切片Series是pandas提供的重要數(shù)據(jù)結(jié)構(gòu)對(duì)象之一,類似于一維數(shù)組,主要由一組數(shù)據(jù)和與之相關(guān)的索引兩部分構(gòu)成,其索引和數(shù)據(jù)只能在某個(gè)固定維度上延伸。44數(shù)據(jù)索引與切片pandas.Series(data=None,index=None,dtype=None,name=None,fastpath=False)Series構(gòu)造函數(shù):data:表示傳入的數(shù)據(jù),可以是列表或字典。index:表示索引,唯一且與數(shù)據(jù)長(zhǎng)度相等,默認(rèn)會(huì)自動(dòng)創(chuàng)建一個(gè)從0~N的整數(shù)索引。45010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)索引與切片importpandasaspdpd.Series([1,2,3,4,5])pd.Series([1,2,3,4,5],index=['a','b','c','d','e'])pd.Series({2001:17.8,2002:20.1,2003:16.5})構(gòu)造Series的方式:465MIN010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)索引與切片Series的索引:

Series的切片:

470103政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)索引與切片Series的索引:Series的切片:

ser_obj[2]ser_obj['b']注意:基于標(biāo)簽的切片是閉區(qū)間

基于位置的切片是左閉右開的區(qū)間485MIN010203政府需求岷山集團(tuán)需求同盟商家數(shù)據(jù)索引與切片DataFrame也是pandas提供的重要數(shù)據(jù)結(jié)構(gòu)對(duì)象之一,類似于二維數(shù)組或表格對(duì)象,主要由多組數(shù)據(jù)和與之相關(guān)的索引兩部分構(gòu)成,其索引和數(shù)據(jù)可以在兩個(gè)固定維度上延伸。注意:DataFrame的索引不僅有行索引,還有列索引,數(shù)據(jù)可以有多列。且每一行或列單獨(dú)取出均為Serirs類型。49010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)索引與切片pandas.DataFrame(data=None,index=None,columns=None,dtype=None,copy=False

)DataFrame構(gòu)造函數(shù):data:表示傳入的數(shù)據(jù),可以是嵌套列表、二維數(shù)組或列表字典等數(shù)據(jù)類型。index:表示行標(biāo)簽。若不設(shè)置該參數(shù),則默認(rèn)會(huì)自動(dòng)創(chuàng)建一個(gè)從0~N的整數(shù)索引。columns:列標(biāo)簽。50010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)索引與切片importpandasaspdpd.DataFrame([[1,2,3],[2,4,6],[3,6,9]],index=['a','b','c'],columns=['A','B','C'])pd.DataFrame({'A':[1,2,3],'B':[2,3,4],'C':[3,4,5]})構(gòu)造DataFrame的方式:515MIN010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)索引與切片DataFrame的行索引:

DataFrame的列索引:

52010203岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)索引與切片DataFrame的行索引:

DataFrame的列索引:

535MIN010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)索引與切片DataFrame的行切片:

DataFrame的列切片:

5401岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)索引與切片DataFrame的行切片:

DataFrame的列切片:

555MIN注意:基于標(biāo)簽的切片是閉區(qū)間

基于位置的切片是左閉右開的區(qū)間知識(shí)點(diǎn)數(shù)據(jù)預(yù)處理概念數(shù)據(jù)讀取與寫入數(shù)據(jù)索引與切片數(shù)據(jù)清洗描述性統(tǒng)計(jì)方法56010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)清洗數(shù)據(jù)清洗即發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別錯(cuò)誤,清理影響數(shù)據(jù)質(zhì)量的“臟數(shù)據(jù)”。臟數(shù)據(jù)在這里指的是對(duì)數(shù)據(jù)分析沒有實(shí)際意義、格式非法、不在指定范圍內(nèi)的數(shù)據(jù)。空缺值重復(fù)值異常值臟數(shù)據(jù)57010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)清洗空缺值處理Python中一般用None和NaN表示空缺值,在numpy和pandas模塊中許多函數(shù)或方法將NaN視作“正常的”空缺值,而none則會(huì)被視為非法類型或字符串。None(NoneType)NaN(float)58010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)清洗空缺值處理Pandas中用于判斷數(shù)據(jù)集中是否存在空缺值有如下方法。pandas.isnull(obj)isnull()函數(shù)會(huì)返回一個(gè)布爾類型的值,如果返回的結(jié)果為True,則說明有空缺值,否則為False。pandas.notnull(obj)notnull()也可以判斷數(shù)據(jù)中是否存在空值或缺失值,不同之處在于,前者發(fā)現(xiàn)數(shù)據(jù)中有空值或缺失值時(shí)返回False,后者返回的是True。59010203政府需求岷山集團(tuán)需求同盟商家數(shù)據(jù)清洗importpandasaspdimportnumpyasnpser_obj=pd.Series([1,None,np.NAN])pd.isnull(ser_obj)pd.notnull(ser_obj)空缺值處理605MIN0203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)清洗空缺值處理dropna()方法的作用是過濾含有空缺值的行或列。dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)axis:確定過濾行或列。how:確定過濾的標(biāo)準(zhǔn)。thresh:表示有效數(shù)據(jù)量的最小要求。若傳入了2,則是要求該行或該列至少有兩個(gè)非NaN值時(shí)將其保留610203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)清洗空缺值處理fillna()方法的作用是對(duì)空缺值進(jìn)行填充。fillna(value=None,method=None,axis=None,inplace=False,limit=None,**kwargs)value:指定固定值填充至空缺值位置。method:表示填充方式,默認(rèn)值為None,’ffill’:前項(xiàng)填充,’bfill’:后項(xiàng)填充。limit:可以連續(xù)填充的最大數(shù)量,默認(rèn)None。62010203政府需求岷山集團(tuán)需求同盟商家數(shù)據(jù)清洗importpandasaspdimportnumpyasnpdf_obj=pd.DataFrame([[1,2,np.NAN], [2,np.NAN,4],[np.NaN,4,np.NAN]])df_obj.dropna()df_obj.dropna(axis=1,thresh=2)空缺值處理636MIN010203政府需求岷山集團(tuán)需求同盟商家數(shù)據(jù)清洗importpandasaspdimportnumpyasnpdf_obj=pd.DataFrame([[1,2,np.NAN], [2,np.NAN,4],[np.NaN,4,np.NAN]])df_obj.fillna(value=0)df_obj.fillna(method='ffill')空缺值處理646MIN010203政府需求岷山集團(tuán)需求同盟商家數(shù)據(jù)清洗重復(fù)值處理當(dāng)數(shù)據(jù)中出現(xiàn)了重復(fù)值,需要甄別該重復(fù)值是“正常的”還是異常的。大多數(shù)情況下需要進(jìn)行刪除。Pandas提供了兩個(gè)函數(shù)專門用來處理數(shù)據(jù)中的重復(fù)值,分別為duplicated()和drop_duplicates()方法。65010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)清洗重復(fù)值處理duplicated()方法的語法格式如下:duplicated(subset=None,keep='first')drop_duplicates()方法的語法格式如下:drop_duplicates(subset=None,keep='first',inplace=False)以上函數(shù)中,subset用于識(shí)別重復(fù)的列標(biāo)簽或列標(biāo)簽序列,默認(rèn)識(shí)別所有的列標(biāo)簽。Keep用于刪除重復(fù)項(xiàng)并保留第一次出現(xiàn)的項(xiàng),取值可以為first、last或False。66010203政府需求岷山集團(tuán)需求同盟商家數(shù)據(jù)清洗importpandasaspdimportnumpyasnpdf_obj=pd.DataFrame([[1,2,3],[1,2,3],[2,3,4]])df_obj.duplicated()df_obj.drop_duplicates()重復(fù)值處理675MIN010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)清洗異常值處理異常值是指樣本中的個(gè)別值,其數(shù)值明顯偏離它所屬樣本的其余觀測(cè)值,這些數(shù)值是不合理的或錯(cuò)誤的。通常來說,要想確認(rèn)一組數(shù)據(jù)中是否有異常值,則常用的檢測(cè)方法有3σ原則和箱形圖。68010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)清洗異常值處理3σ原則,指假設(shè)一組檢測(cè)數(shù)據(jù)只含有隨機(jī)誤差,對(duì)其進(jìn)行計(jì)算處理得到標(biāo)準(zhǔn)偏差,按一定概率確定一個(gè)區(qū)間,凡是超過這個(gè)區(qū)間的誤差都是粗大誤差。在正態(tài)分布概率公式中,σ表示標(biāo)準(zhǔn)差,μ表示平均數(shù):

69010203政府需求岷山集團(tuán)需求同盟商家數(shù)據(jù)清洗異常值處理箱形圖是一種用作顯示一組數(shù)據(jù)分散情況的統(tǒng)計(jì)圖。在箱形圖中,異常值通常被定義為小于QL–1.5IQR或大于QU+1.5IQR的值。70010203政府需求岷山集團(tuán)需求同盟商家數(shù)據(jù)清洗異常值處理處理方式:直接將含有異常值的樣本刪除;用具體的值進(jìn)行替換;視為空缺值處理;不處理;71知識(shí)點(diǎn)數(shù)據(jù)預(yù)處理概念數(shù)據(jù)讀取與寫入數(shù)據(jù)索引與切片數(shù)據(jù)清洗描述性統(tǒng)計(jì)方法72010203政府需求岷山集團(tuán)需求同盟商家群眾描述性統(tǒng)計(jì)方法對(duì)于完整的數(shù)據(jù)預(yù)處理而言,把握數(shù)據(jù)的全貌是至關(guān)重要的?;镜拿枋鲂越y(tǒng)計(jì)分析可以用來識(shí)別數(shù)據(jù)的性質(zhì),凸顯應(yīng)被視為噪聲或離群點(diǎn)的數(shù)據(jù)值。描述性統(tǒng)計(jì)集中趨勢(shì)均值中位數(shù)眾數(shù)離散趨勢(shì)極差方差標(biāo)準(zhǔn)差73010203政府需求岷山集團(tuán)需求同盟商家群眾描述性統(tǒng)計(jì)方法集中趨勢(shì)度量

74010203政府需求岷山集團(tuán)需求同盟商家群眾描述性統(tǒng)計(jì)方法集中趨勢(shì)度量中位數(shù)對(duì)于傾斜(非對(duì)稱)數(shù)據(jù),度量中心趨勢(shì)更好的方法是中位數(shù)(median)。中位數(shù)是有序數(shù)據(jù)的中間值,它是把數(shù)據(jù)較高的一半與較低的一半分開的值。眾數(shù)眾數(shù)是另一種集中趨勢(shì)度量。數(shù)據(jù)集的眾數(shù)(mode)是集合中出現(xiàn)最頻繁的值。因此,可以計(jì)算定性和定量屬性的眾數(shù)??赡茏罡哳l率對(duì)應(yīng)多個(gè)不同值,導(dǎo)致有多個(gè)眾數(shù)。75010203政府需求岷山集團(tuán)需求同盟商家群眾描述性統(tǒng)計(jì)方法離散趨勢(shì)度量

76010203政府需求岷山集團(tuán)需求同盟商家群眾描述性統(tǒng)計(jì)方法離散趨勢(shì)度量importnumpyasnpimportpandasaspdser_obj=pd.Series(np.random.randint(1,100,100))ser_obj.max()-ser_obj.min()98np.var(ser_obj)900.2np.std(ser_obj)30ser_obj.describe()776MIN感謝聆聽7879實(shí)訓(xùn)2電影數(shù)據(jù)預(yù)處理80知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合81實(shí)訓(xùn)目標(biāo)掌握數(shù)據(jù)合并的方法;理解數(shù)據(jù)脫敏的方法;理解時(shí)間序列的表示與處理;掌握數(shù)據(jù)分組的方法;掌握數(shù)據(jù)聚合的方法;82知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合83數(shù)據(jù)合并數(shù)據(jù)合并是指將多個(gè)數(shù)據(jù)表根據(jù)某種規(guī)則合并為一個(gè)數(shù)據(jù)表的過程。數(shù)據(jù)合并主鍵合并堆疊合并84010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)合并堆疊合并concat()函數(shù)可以沿著一條軸的方向?qū)⒍鄠€(gè)數(shù)據(jù)表對(duì)象進(jìn)行堆疊。concat(objs,axis=0,join=‘outer’,join_axes=None,ignore_index=False,keys=None,levels=None,names=None,

...)axis:表示連接的軸向,可以為0(默認(rèn))或1。join:表示連接的方式,inner表示內(nèi)連接,outer(默認(rèn))表示外連接。names:結(jié)果分層索引中的層級(jí)的名稱。85010203政府需求岷山集團(tuán)需求同盟商家df_obj1=pd.DataFrame({'key':['a','b','c'],'A':[1,1,1],'B':[2,2,2]})df_obj2=pd.DataFrame({'key':['b','c','d'],'A':[1,1,1],'B':[2,2,2]})數(shù)據(jù)合并堆疊合并865MIN010203政府需求岷山集團(tuán)需求群眾pd.concat([df_obj1,df_obj2])pd.concat([df_obj1,df_obj2],axis=1)數(shù)據(jù)合并堆疊合并874MIN010203政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)合并主鍵合并主鍵合并是指根據(jù)一個(gè)或多個(gè)鍵將不同的DatFrame對(duì)象連接起來。pandas.merge(left,right,how='inner',on=None,left_on=None,right_on=None,left_index=False,right_index=False)left,right:待合并的左右兩側(cè)數(shù)據(jù)對(duì)象。how:表示連接方式,inner(默認(rèn))為內(nèi)連接,outer為外連接。left為使用左側(cè)對(duì)象的鍵,right為使用右側(cè)對(duì)象的鍵。

on:用于連接的列名。885MIN010203岷山集團(tuán)需求群眾pd.merge(df_obj1,df_obj2,how='inner')pd.merge(df_obj1,df_obj2,how='outer')數(shù)據(jù)合并主鍵合并pd.merge(df_obj1,df_obj2,how='left')pd.merge(df_obj1,df_obj2,how='right')89知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合90數(shù)據(jù)脫敏數(shù)據(jù)脫敏是指根據(jù)數(shù)據(jù)的使用目的和使用環(huán)境制定一定的隱私保護(hù)規(guī)則,防止敏感數(shù)據(jù)在不可靠的環(huán)境下使用,防止因數(shù)據(jù)泄露造成不必要的損失。數(shù)據(jù)脫敏動(dòng)態(tài)數(shù)據(jù)脫敏靜態(tài)數(shù)據(jù)脫敏91時(shí)間序列處理靜態(tài)數(shù)據(jù)脫敏:92靜態(tài)數(shù)據(jù)脫敏需要將生產(chǎn)環(huán)境的數(shù)據(jù)進(jìn)行備份,通過特定的方法排查問題或進(jìn)行數(shù)據(jù)分析,出于安全考慮需要把敏感數(shù)據(jù)從生產(chǎn)環(huán)境脫敏完畢之后再在非生產(chǎn)環(huán)境使用。時(shí)間序列處理動(dòng)態(tài)數(shù)據(jù)脫敏:93動(dòng)態(tài)數(shù)據(jù)脫敏一般直接用在生產(chǎn)環(huán)境,訪問敏感數(shù)據(jù)時(shí)實(shí)時(shí)進(jìn)行脫敏,因?yàn)橛袝r(shí)在不同情況下對(duì)于同一敏感數(shù)據(jù)的讀取,需要做不同級(jí)別的脫敏處理。并且脫敏前后的數(shù)據(jù)須保持一致性和有效性。數(shù)據(jù)脫敏數(shù)據(jù)脫敏的方式有很多種,在選用脫敏方法時(shí)我們需要考慮到數(shù)據(jù)使用者的使用目的和使用方式,同時(shí)也要注意保護(hù)數(shù)據(jù)發(fā)布者的隱私和權(quán)益不受侵害。數(shù)據(jù)脫敏無效化處理隨機(jī)化處理加密處理94知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合95時(shí)間序列處理時(shí)間序列是指多個(gè)時(shí)間點(diǎn)形成的數(shù)值序列,一般作為某指標(biāo)或特征的參考系。Pandas提供了多個(gè)時(shí)間相關(guān)類表示時(shí)間序列。時(shí)間序列時(shí)間戳Timestamp日期時(shí)間datetime時(shí)間索引DatetimeIndex時(shí)間片段Period96時(shí)間序列處理時(shí)間序列作用:97可以反映數(shù)據(jù)所描述對(duì)象的發(fā)展變化過程,描述現(xiàn)象的發(fā)展?fàn)顟B(tài)和結(jié)果??梢杂糜谟^測(cè)數(shù)據(jù)所描述對(duì)象的發(fā)展趨勢(shì)和發(fā)展速度??梢蕴剿鲾?shù)據(jù)所描述對(duì)象發(fā)展變化的規(guī)律,對(duì)某些現(xiàn)象進(jìn)行預(yù)測(cè)。時(shí)間序列處理pd.to_datetime('20210801')pd.datetime(year=2021,month=8,day=1)pd.date_range('20210801',periods=1)pd.Period('2021/8/1')時(shí)間序列創(chuàng)建985MIN時(shí)間序列處理importnumpyasnpimportpandasaspddate=pd.date_range('20201230','20210102’)df_obj=pd.DataFrame(np.random.randint(1,10,size=(4,2)),index=date)df_obj['2021']時(shí)間序列選取995MIN時(shí)間序列處理date=pd.date_range('20201230','20210102’)date.strftime('%Y/%m/%d’)date.strftime('%Y-%m-%d-%H-%M-%S')時(shí)間序列表示%y兩位數(shù)的年份表示%Y四位數(shù)的年份表示%m月份%d天%H24小時(shí)制小時(shí)數(shù)%M分鐘數(shù)%S秒1005MIN時(shí)間序列處理Pandas中的resample()是一個(gè)對(duì)常規(guī)時(shí)間序列數(shù)據(jù)重新采樣和頻率轉(zhuǎn)換的便捷的方法。重采樣resample(rule,

how=None,

axis=0,

fill_method=None,

closed=None,

label=None,

...)rule:表示重采樣的頻率。fill_method:表示重采樣時(shí)如何插值,可以取ffill和bfill及None。closed:設(shè)置采樣哪一端是閉合的。label:表示聚合后的標(biāo)簽,可設(shè)置為left或right101時(shí)間序列處理ser_obj=pd.Series(range(9),index=pd.date_range('20210801',periods=9,freq='T’))ser_obj.resample('3T',label='right').sum()#resample支持多種內(nèi)置函數(shù)聚合數(shù)據(jù),也支持OHLC方法,該方法可對(duì)金融數(shù)據(jù)進(jìn)行有效處理重采樣1024MIN知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合103數(shù)據(jù)分組在進(jìn)行數(shù)據(jù)處理過程中,可以將屬于不同類別的數(shù)據(jù)按照以一定標(biāo)準(zhǔn)進(jìn)行分組處理。Pandas中最常用的方法為groupby()方法groupby(by=None,axis=0,level=None,as_index=True,sort=True,group_keys=True,squeeze=False,observed=False,**kwargs)by:用于確定進(jìn)行分組的依據(jù),可以通過列名、列表、函數(shù)或Series對(duì)象進(jìn)行分組。axis:表示分組軸的方向,0為按行分組(默認(rèn)),1為按列分組。sort:表示是否對(duì)分組標(biāo)簽進(jìn)行排序,接收布爾值,默認(rèn)為True。104數(shù)據(jù)分組df_obj=pd.DataFrame({'key1':['A','A','B','B','A'],'key2':['one','two','one','two','one'],'data1':[2,3,4,6,8],'data2':[3,5,6,3,7]})df_obj.groupby('key1').apply(lambdax:x[:])1055MIN數(shù)據(jù)分組df_obj.groupby([1,2,3,1,2]).apply(lambdax:x[:])df_obj.groupby(lambdax:x%2==0).apply(lambdax:x[:])df_obj.groupby({0:'even',1:'odd',2:'even',3:'odd',4:'even'}).apply(lambdax:x[:])1066MIN知識(shí)點(diǎn)數(shù)據(jù)合并數(shù)據(jù)脫敏時(shí)間序列處理數(shù)據(jù)分組數(shù)據(jù)聚合107數(shù)據(jù)聚合在對(duì)數(shù)據(jù)表分組后往往需要對(duì)每個(gè)分組使用一定的方法進(jìn)行運(yùn)算,以求得各個(gè)分組在某一標(biāo)準(zhǔn)下的結(jié)果。Pandas可使用agg方法和內(nèi)置函數(shù)對(duì)數(shù)據(jù)進(jìn)行聚合操作。agg(func,axis=0,*args,**kwargs)func:表示用于匯總數(shù)據(jù)的函數(shù),可以為單個(gè)函數(shù)或函數(shù)列表。axis:表示函數(shù)作用于軸的方向,0或index表示按列應(yīng)用(默認(rèn)值);1或columns表示按行應(yīng)用。108df_obj=pd.DataFrame({'key1':['A','A','B','B','A'],'key2':['one','two','one','two','one'],'data1':[2,3,4,6,8],'data2':[3,5,6,3,7]})df_obj.groupby('key1').agg(lambdax:x.max()-x.min())數(shù)據(jù)聚合1095MINdf_obj.groupby('key1').agg([('極差',lambdax:x.max()-x.min()),('和',sum)])數(shù)據(jù)聚合df_obj.groupby('key1').mean()1105MIN感謝聆聽111實(shí)訓(xùn)3人力資源數(shù)據(jù)預(yù)處理112知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理113實(shí)訓(xùn)目標(biāo)理解層級(jí)索引的概念與表示;掌握數(shù)據(jù)重塑的分類與方法;掌握數(shù)據(jù)離散化處理的方法;掌握數(shù)據(jù)標(biāo)準(zhǔn)化處理的方法;掌握數(shù)據(jù)啞變量處理的方法;114知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理115層級(jí)索引在處理高維度數(shù)據(jù)時(shí),可以考慮采用層級(jí)索引。使用層級(jí)索引可以在較低維度的數(shù)據(jù)結(jié)構(gòu)(Series和DataFrame)中存儲(chǔ)和操作任意維數(shù)的數(shù)據(jù),MultiIndex在常規(guī)索引的基礎(chǔ)上提供了分層功能。Series(1D)DataFrame(2D)MultiIndexMultiIndexSeries(2D)DataFrame(3D)116層級(jí)索引層級(jí)索引對(duì)象(MultiIndex)

的創(chuàng)建方式有三種:元組列表創(chuàng)建,數(shù)組列表創(chuàng)建,交叉迭代器創(chuàng)建。層級(jí)索引對(duì)象MultiIndexfrom_tuples()from_arrays()from_product()117010203政府需求岷山集團(tuán)需求同盟商家群眾arrays=[['bar','bar','baz','baz','foo','foo','qux','qux'],['one','two','one','two','one','two','one','two']]tuples=[('bar','one'),('bar','two'),('baz','one'),('baz','two’),('foo','one'),('foo','two'),('qux','one'),('qux','two’)]層級(jí)索引層級(jí)索引對(duì)象iterables=[['bar','baz','foo','qux'],['one','two']]1185MIN0102政府需求岷山集團(tuán)需求群眾pd.MultiIndex.from_tuples(tuples,names=['first','second'])pd.MultiIndex.from_arrays(arrays,names=['first','second'])層級(jí)索引層級(jí)索引對(duì)象創(chuàng)建pd.MultiIndex.from_product(iterables,names=['first','second'])1193MIN0102政府需求岷山集團(tuán)需求群眾df_obj=pd.DataFrame(np.random.randn(8,4),index=arrays)層級(jí)索引層級(jí)索引對(duì)象使用1202MIN0102政府需求層級(jí)索引層級(jí)索引數(shù)據(jù)選取df_obj.loc['baz']df_obj[0]df_obj.loc['foo','two']df_obj[2]['foo']['one']1216MIN知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理122數(shù)據(jù)重塑數(shù)據(jù)重塑即對(duì)數(shù)據(jù)表當(dāng)前的行列結(jié)構(gòu)進(jìn)行重設(shè),以滿足觀察和操作的需要。Pandas中用于重塑操作的有:行列索引重塑、多層索引重塑數(shù)據(jù)重塑行列索引重塑多層索引重塑1230102政府需求岷山集團(tuán)需求同盟商家群眾數(shù)據(jù)重塑行列索引重塑Pivot()方法可根據(jù)給定的行或列索引重新組織一個(gè)DataFrame對(duì)象。pivot(index=None,columns=None,values=None)index:用于創(chuàng)建新DataFrame對(duì)象的行索引。columns:用于創(chuàng)建新DataFrame對(duì)象的列索引。values:用于填充新DataFrame對(duì)象中的值。124010203政府需求岷山集團(tuán)需求df_obj=pd.DataFrame({'date':pd.date_range('20210801',periods=9,freq='D'),'var':list(str('ABC')*3),'value':np.random.random(9)})數(shù)據(jù)重塑行列索引重塑1253MIN010203政府需求岷山集團(tuán)需求df_obj1=df_obj.pivot(index='date',columns='var',values='value’)數(shù)據(jù)重塑行列索引重塑1264MIN01政府需求岷山集團(tuán)需求群眾數(shù)據(jù)重塑多層索引重塑stack()方法可以將數(shù)據(jù)的列索引轉(zhuǎn)換為行索引。unstack()可執(zhí)行相反操作。DataFrame.stack(level=-1,dropna=True)level:索引層次。-1表示內(nèi)層(默認(rèn)),0表示外層索引。dropna:是否將缺失值刪除,若設(shè)為True,則表示自動(dòng)過濾缺失值,設(shè)置為False則相反。fill_value:空缺填充值。DataFrame.unstack(level=-1,fill_value=None)127政府需求岷山集團(tuán)需求群眾df_obj2=df_obj1.resample('3D',label='right').sum()數(shù)據(jù)重塑多層索引重塑df_obj3=df_obj2.stack()df_obj3.unstack()1284MIN知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理129標(biāo)準(zhǔn)化處理不同量綱造成的數(shù)值差異可能會(huì)影響后續(xù)的數(shù)據(jù)處理及分析,為了消除特征之間量綱和取值差異造成的影響,可以選擇標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化處理離差標(biāo)準(zhǔn)化標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化小數(shù)定標(biāo)標(biāo)準(zhǔn)化130標(biāo)準(zhǔn)化處理離差標(biāo)準(zhǔn)化,通過最大值和最小值將原始數(shù)據(jù)映射到[0,1]內(nèi)。

標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,通過均值和標(biāo)準(zhǔn)差將原始數(shù)據(jù)進(jìn)行處理。小數(shù)定標(biāo)標(biāo)準(zhǔn)化,通過移動(dòng)數(shù)據(jù)的小數(shù)位數(shù),將原始數(shù)據(jù)映射到區(qū)間[-1,1]內(nèi),小數(shù)位數(shù)(k)取決于數(shù)據(jù)絕對(duì)值的最大值。131標(biāo)準(zhǔn)化處理離差標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化小數(shù)定標(biāo)標(biāo)準(zhǔn)化F_MinMax=lambdax:(x-np.min(x))/(np.max(x)-np.min(x))F_Standard=lambdax:(x-np.mean(x))/(np.std(x))F_Decimal=lambdax:x/10**np.ceil(np.log10(np.abs(x).max()))注意:以上匿名函數(shù)作用于DataFrame對(duì)象須使用apply函數(shù),或?qū)雜klearn庫相關(guān)函數(shù)1326MIN標(biāo)準(zhǔn)化處理離差標(biāo)準(zhǔn)化。df=pd.DataFrame([10,-5,108,46,88,31,74,22])df.apply(F_MinMax)df.apply(F_Standard)df.apply(F_Decimal)注意:以上匿名函數(shù)作用于DataFrame對(duì)象須使用apply函數(shù),或?qū)雜klearn庫相關(guān)函數(shù)1333MIN知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理134離散化處理由于連續(xù)數(shù)據(jù)在一些情況下不適用于特定的算法,因此有必要將連續(xù)性特征(數(shù)值型)變換為離散型特征(類別型)。離散化處理分箱離散化聚類分析離散化135離散化處理Pandas的

cut

()函數(shù)能夠?qū)崿F(xiàn)分箱離散化操作。分箱離散化pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates='raise')x:表示要分箱的數(shù)據(jù),必須是一維的。bins:表示分箱的邊界,接收int和序列類型的數(shù)據(jù)。right:是否包含右端點(diǎn),決定區(qū)間的開閉,默認(rèn)為True136離散化處理聚類分析是一種流行的離散化方法。通過將屬性的值劃分成簇或組,聚類算法可以用來離散化數(shù)值屬性。聚類考慮數(shù)據(jù)的分布以及數(shù)據(jù)點(diǎn)的鄰近性,因此可以產(chǎn)生高質(zhì)量的離散化結(jié)果。聚類分析離散化137離散化處理defKmeansCut(data,k):KM_model=KMeans(k)KM_model.fit(data.values.reshape((len(data),1)))center=pd.DataFrame(KM_model.cluster_centers_).sort_values(0)border=center.rolling(2).mean().iloc[1:]border=[0]+list(border[0])+[data.max()]returnpd.cut(data,border)聚類分析離散化138參考代碼:PPT配套練習(xí)-實(shí)訓(xùn)3-3.5知識(shí)點(diǎn)層級(jí)索引數(shù)據(jù)重塑標(biāo)準(zhǔn)化處理離散化處理啞變量處理139啞變量處理許多模型要求輸入的特征為數(shù)值,但在工作中我們?yōu)榱藴p少無效數(shù)據(jù)的產(chǎn)生一般用類別來表示這類數(shù)據(jù),啞變量處理即將類別變量轉(zhuǎn)為啞變量指標(biāo)矩陣。索引類別0A1B2C3D類別索引ABCD01000101002001030001140在Pandas中,可以使用get_dummies()函數(shù)對(duì)類別特征進(jìn)行啞變量處理。pandas.get_dummies(data,prefix=None,prefix_sep='_',dummy_na=False,columns=None,sparse=False,drop_first=False,dtype=None)data:表示啞變量處理的數(shù)據(jù)。prefix:表示列名的前綴,默認(rèn)為None。prefix_sep:用于附加前綴作為分隔符使用,默認(rèn)為“_”。啞變量處理141010203政府需求岷山集團(tuán)需求df_obj=pd.DataFrame(['A','B','C','D'],columns=['category’])pd.get_dummies(df_obj)啞變量處理142感謝聆聽143144實(shí)訓(xùn)4鳶尾花數(shù)據(jù)預(yù)處理145知識(shí)點(diǎn)數(shù)據(jù)歸約概念維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮146實(shí)訓(xùn)目標(biāo)了解數(shù)據(jù)歸約的概念與分類;理解維度規(guī)約概念及方法;理解數(shù)量規(guī)約概念及方法;了解數(shù)據(jù)壓縮概念及方法;147知識(shí)點(diǎn)數(shù)據(jù)歸約概念維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮148數(shù)據(jù)歸約概念數(shù)據(jù)歸約(datareduction)是指通過維度的減少或者數(shù)據(jù)量的減少,來達(dá)到降低數(shù)據(jù)規(guī)模的目的。數(shù)據(jù)規(guī)約維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮149知識(shí)點(diǎn)數(shù)據(jù)歸約概念維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮150維度規(guī)約維度規(guī)約(dimensionlity)即:減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù)。維度規(guī)約把原始數(shù)據(jù)變換或投影到較小的空間,其中不相關(guān)、弱相關(guān)或冗余的屬性或維被檢測(cè)和刪除。FA(FactorAnalysis)SVD(SingularValueDecomposition)PCA(PrincipalComponentAnalysis)151維度規(guī)約維度降維152數(shù)據(jù)過載維度災(zāi)難因子分析(FA)FA(FactorAnalysis)是指研究從變量群中提取共性因子的統(tǒng)計(jì)技術(shù)。因子分析可在許多變量中找出隱藏的具有代表性的因子。將相同本質(zhì)的變量歸入一個(gè)因子,可減少變量的數(shù)目,還可檢驗(yàn)變量間關(guān)系的假設(shè)。

參考代碼:PPT配套案例-實(shí)訓(xùn)4-4.1153奇異值分解(SVD)

SVD(SingularValueDecomposition)作為一種常見的矩陣分解方法廣泛用于數(shù)據(jù)的降維與去噪。其基本原理為通過矩陣變換將一個(gè)比較復(fù)雜的矩陣用更小的3個(gè)矩陣的相乘來表示。參考代碼:PPT配套案例-實(shí)訓(xùn)4-4.2154奇異值分解(SVD)

155主成分分析(PCA)

參考代碼:PPT配套案例-實(shí)訓(xùn)4-1.3156主成分分析(PCA)

參考代碼:PPT配套案例-實(shí)訓(xùn)4-4.3157知識(shí)點(diǎn)數(shù)據(jù)歸約概念維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮158數(shù)量規(guī)約數(shù)量歸約(numerosityreduction)用替代的、較小的數(shù)據(jù)表示形式替換原始數(shù)據(jù),包括參數(shù)的或非參數(shù)的方法。參數(shù)方法有回歸和對(duì)數(shù)-線性模型,非參數(shù)方法有直方圖、聚類、抽樣和數(shù)據(jù)立方體聚集。159知識(shí)點(diǎn)數(shù)據(jù)歸約概念維度規(guī)約數(shù)量規(guī)約數(shù)據(jù)壓縮160數(shù)量規(guī)約數(shù)據(jù)壓縮(datacompression)使用變換方法得到原始數(shù)據(jù)的歸約或“壓縮”表示。如果原始數(shù)據(jù)可以從壓縮后的數(shù)據(jù)重構(gòu),而不損失信息,則該數(shù)據(jù)歸約稱為無損的。如果只能近似重構(gòu)原數(shù)據(jù),則稱之為有損的。維歸約和數(shù)量歸約也可以視為某種形式的數(shù)據(jù)壓縮。161感謝聆聽162實(shí)訓(xùn)5泰坦尼克號(hào)數(shù)據(jù)可視化163知識(shí)點(diǎn)數(shù)據(jù)可視化概述Matplotlib繪圖庫Seaborn繪圖庫164實(shí)訓(xùn)目標(biāo)了解數(shù)據(jù)可視化的概念及作用;熟悉常見圖表類型的特點(diǎn)及用法;掌握matplotlib庫的基本使用;掌握seaborn庫的基本使用;165知識(shí)點(diǎn)數(shù)據(jù)可視化概述Matplotlib繪圖庫Seaborn繪圖庫166數(shù)據(jù)可視化概述數(shù)據(jù)可視化是指將數(shù)據(jù)以圖表的形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。167數(shù)據(jù)可視化概述相比文字和數(shù)字描述更直觀的展示。短時(shí)間內(nèi)得到更有效的結(jié)論。有助于降低理解的門檻。168數(shù)據(jù)可視化的好處:數(shù)據(jù)可視化概述數(shù)據(jù)可視化旨在借助圖形化手段,清晰有效地將數(shù)據(jù)中的各種屬性和變量呈現(xiàn)出來,使用戶可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入地觀察和分析。結(jié)論169知識(shí)點(diǎn)數(shù)據(jù)可視化概述Matplotlib繪圖庫Seaborn繪圖庫170Matplotlib繪圖庫Matplotlib是一個(gè)Python的2D繪圖庫,該繪圖庫允許開發(fā)者利用一些基本的python數(shù)據(jù)結(jié)構(gòu)自定義一些可視化圖表,如:折線圖、散點(diǎn)圖、柱狀圖、餅圖、直方圖、子圖等等。Pyplot是Matplotlib的子庫,提供了和MATLAB類似的繪圖API。171Matplotlib繪圖庫畫布對(duì)象是繪制圖表前最重要的對(duì)象之一,該對(duì)象可以理解為一張空白的畫布,用于容納圖表的各種組件。此外,若想在單個(gè)圖表的基礎(chǔ)上進(jìn)行擴(kuò)展,則需要子圖對(duì)象。子圖對(duì)象允許劃分為多個(gè)繪圖區(qū)域,每個(gè)繪圖區(qū)域都是一個(gè)Axes對(duì)象,它擁有屬于自己的坐標(biāo)系統(tǒng),被稱為子圖?;A(chǔ)繪圖對(duì)象1720102政府需求岷山集團(tuán)需求同盟商家群眾畫布對(duì)象的創(chuàng)建方法如下:num--表示圖形的編號(hào)或名稱。figsize--用于設(shè)置畫布的尺寸。facecolor--用于設(shè)置畫板的背景顏色。edgecolor--用于顯示邊框顏色。Matplotlib繪圖庫基礎(chǔ)繪圖對(duì)象matplotlib.pyplot.figure(num=None,figsize=None,dpi=None,facecolor=None,edgecolor=None,...,**kwargs)參考代碼:PPT配套練習(xí)-實(shí)訓(xùn)5-5.11730102政府需求岷山集團(tuán)需求同盟商家群眾子圖對(duì)象的創(chuàng)建方法如下:nrows,ncols--表示子區(qū)網(wǎng)格的行數(shù)、列數(shù)。sharex,sharey--表示控制x或y軸是否共享。Matplotlib繪圖庫基礎(chǔ)繪圖對(duì)象subplots(nrows=1,ncols=1,sharex=False,sharey=False,squeeze=True,subplot_kw=None,gridspec_kw=None,**fig_kw)注意:subplots()函數(shù)會(huì)返回一個(gè)元組,元組的第一個(gè)元素為Figure對(duì)象(畫布),

第二個(gè)元素為Axes對(duì)象(子圖)。參考代碼:PPT配套練習(xí)-實(shí)訓(xùn)5-5.2174Matplotlib繪圖庫常見圖表繪制matplotlib.pyplot模塊中包含了快速生成多種圖表的函數(shù)。175010203政府需求岷山集團(tuán)需求群眾matplotlib.pyplot.hist(x,bins=None,range=None,color=None,label=None,...,**kwargs)matplotlib.pyplot.scatter(x,

y,

s=None,

c=None,

marker=None,

alpha=None,

linewidths=None,

...,

**kwargs)Matplotlib繪圖庫常見圖表繪制x--表示輸入值。bins--表示繪制條柱的個(gè)數(shù)。range--bins的上下范圍(最大和最小值)。color--表示條柱的顏色,默認(rèn)為None。x,y--表示x軸和y軸對(duì)應(yīng)的數(shù)據(jù)。s--指定點(diǎn)的大小。c--指定散點(diǎn)的顏色。marker--表示繪制的散點(diǎn)類型。參考代碼:

PPT配套練習(xí)-實(shí)訓(xùn)5-5.3,5.4176010203政府需求岷山集團(tuán)需求群眾bar(x,height,width,*,align='center',**kwargs)Matplotlib繪圖庫常見圖表繪制x--表示x軸的數(shù)據(jù)。height--表示條形的高度。width--表示條形的寬度,默認(rèn)為0.8。color--表示條形的顏色。edgecolor--表示條形邊框的顏色參考代碼-PPT配套練習(xí)-實(shí)訓(xùn)5-5.5177010203政府需求岷山集團(tuán)需求群眾線條及填充區(qū)域顏色使用color參數(shù)控制,它支持如下表所列舉的顏色值:Matplotlib繪圖庫繪圖細(xì)節(jié)設(shè)置178010203政府需求岷山集團(tuán)需求群眾對(duì)于含有標(biāo)記點(diǎn)的標(biāo)記風(fēng)格使用marker參數(shù)控制,它支持如右表所列舉的標(biāo)記形狀:Matplotlib繪圖庫繪圖細(xì)節(jié)設(shè)置179010203政府需求岷山集團(tuán)需求群眾另外,對(duì)于含有線段的圖表,線型使用linestyle參數(shù)控制,它支持如下表所列舉的線型值:Matplotlib繪圖庫繪圖細(xì)節(jié)設(shè)置參考代碼:

PPT配套練習(xí)-實(shí)訓(xùn)5-5.6180Seaborn繪圖庫Seaborn基于Matplotlib核心庫進(jìn)行了更高級(jí)的API封裝,可以輕松地畫出更漂亮的圖形,而Seaborn的漂亮主要體現(xiàn)在配色更加舒服,以及圖形元素的樣式更

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論