Python數(shù)據(jù)分析-鐵道出版社_第1頁
Python數(shù)據(jù)分析-鐵道出版社_第2頁
Python數(shù)據(jù)分析-鐵道出版社_第3頁
Python數(shù)據(jù)分析-鐵道出版社_第4頁
Python數(shù)據(jù)分析-鐵道出版社_第5頁
已閱讀5頁,還剩206頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)閱讀全文

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

普通高等院校應(yīng)用型人才培養(yǎng)“十三五”規(guī)劃教材

Python數(shù)據(jù)分析

吳道君朱家榮◎主編

毛鳳翔郭洪濤宋毅孫海龍◎副主編

王慶喜◎主審

內(nèi)容簡(jiǎn)介

本書全面講解Python數(shù)據(jù)分析的相關(guān)知識(shí)和技術(shù),內(nèi)容包括Python數(shù)據(jù)分析概述、

NumPy數(shù)值計(jì)算、Matplotlib數(shù)據(jù)可視化、Pandas數(shù)據(jù)分析、數(shù)據(jù)預(yù)處理、Sklearn機(jī)器學(xué)習(xí)。

本書以培養(yǎng)學(xué)生編程能力和數(shù)據(jù)分析能力為目標(biāo),注重技術(shù)應(yīng)用能力的培養(yǎng)。

本書內(nèi)容充實(shí)、結(jié)構(gòu)合理、實(shí)用性強(qiáng),具有明確的應(yīng)用能力培養(yǎng)目標(biāo),易于接受和理解,

學(xué)完本書后,可以具備數(shù)據(jù)分析的基本能力。

本書適合作為普通高等院校人工智能、數(shù)據(jù)科學(xué)與大數(shù)據(jù)以及計(jì)算機(jī)相關(guān)專業(yè)課程的教

材,也可以作為相關(guān)從業(yè)人員的技術(shù)參考用書。

圖書在版編目(CIP)數(shù)據(jù)

Python數(shù)據(jù)分析/吳道君,朱家榮主編.—北京:中國鐵道

出版社有限公司,2019.9

普通高等院校應(yīng)用型人才培養(yǎng)“十三五”規(guī)劃教材

ISBN978-7-113-25871-9

Ⅰ.①P…Ⅱ.①吳…②朱…Ⅲ.①軟件工具-程序設(shè)計(jì)-

高等學(xué)校-教材Ⅳ.①TP311.561

中國版本圖書館CIP數(shù)據(jù)核字(2019)第149952號(hào)

書名:Python數(shù)據(jù)分析

作者:吳道君朱家榮

策劃:韓從付周海燕編輯部電話2019

責(zé)任編輯:周海燕彭立輝

封面設(shè)計(jì):穆麗

責(zé)任校對(duì):張玉華

責(zé)任印制:郭向偉

出版發(fā)行:中國鐵道出版社有限公司(100054,北京市西城區(qū)右安門西街8號(hào))

網(wǎng)址:/51eds/

印刷:三河市宏盛印務(wù)有限公司

版次:2019年9月第1版2019年9月第1次印刷

開本:787mm×1092mm1/16印張:13字?jǐn)?shù):322千

書號(hào):ISBN978-7-113-25871-9

定價(jià):45.00元

版權(quán)所有侵權(quán)必究

凡購買鐵道版圖書,如有印制質(zhì)量問題,請(qǐng)與本社教材圖書營銷部聯(lián)系調(diào)換。電話:(010)63550836

打擊盜版舉報(bào)電話:(010)51873659

前言

數(shù)據(jù)的價(jià)值越來越被公眾認(rèn)可和推崇,而數(shù)據(jù)分析的作用就是通過一定的方法找出數(shù)據(jù)

的價(jià)值。

近年來,隨著大數(shù)據(jù)技術(shù)和人工智能技術(shù)的發(fā)展,Python已經(jīng)成為數(shù)據(jù)科學(xué)領(lǐng)域最為重

要的語言和工具。Python是一種面向?qū)ο?、解釋型的?jì)算機(jī)程序設(shè)計(jì)語言,其語法簡(jiǎn)潔清晰、

成熟穩(wěn)定。

Python最為重要的是具有豐富和強(qiáng)大的庫,例如在數(shù)據(jù)分析領(lǐng)域的NumPy、Matplotlib、

Pandas和Sklean等,這些庫基本上包含了數(shù)據(jù)分析的所有方面,為數(shù)據(jù)分析提供了強(qiáng)大的功

能支持。有了這些數(shù)據(jù)分析庫,就可以非常容易地對(duì)數(shù)據(jù)進(jìn)行分析,不再需要從基礎(chǔ)做起,

大大降低了數(shù)據(jù)分析的難度和復(fù)雜度。

本書主要講解使用Python以及Python的庫進(jìn)行數(shù)據(jù)分析的技術(shù),全書共分為6章,主要

內(nèi)容如下:

第1章Python數(shù)據(jù)分析概述,主要講解數(shù)據(jù)分析的相關(guān)概念及其應(yīng)用、Python在數(shù)據(jù)分

析領(lǐng)域的優(yōu)勢(shì)、Python數(shù)據(jù)分析的第三方類庫、Python數(shù)據(jù)分析環(huán)境庫的安裝、Jupyter

Notebook工具的基本使用。

第2章NumPy數(shù)值計(jì)算,主要講解NumPy數(shù)組的概念,NumPy數(shù)組的創(chuàng)建方法、屬性

和數(shù)據(jù)類型,常用數(shù)組操作方法的使用,數(shù)組的切片和索引方法,數(shù)組的各類運(yùn)算方法和使

用,NumPy的線性代數(shù)運(yùn)算函數(shù),數(shù)組的存取操作方法。

第3章Matplotlib數(shù)據(jù)可視化,主要講解線形圖的繪制,線形圖的線的顏色、線型、坐

標(biāo)點(diǎn)、線寬設(shè)置;散點(diǎn)圖、柱狀圖、條形圖、餅圖、直方圖、箱線圖的繪制;圖例、坐標(biāo)網(wǎng)

格、坐標(biāo)系、樣式的設(shè)置,樣式、RC設(shè)置和文本注解;子圖的繪制、子圖坐標(biāo)系的設(shè)置、

圖形嵌套;三維圖形的繪制。

第4章Pandas數(shù)據(jù)分析,主要講解Pandas的數(shù)據(jù)結(jié)構(gòu),常用的DataFrame數(shù)據(jù)結(jié)構(gòu);

DataFrame的基本功能,DataFrame的行操作與列操作;Pandas操作外部數(shù)據(jù)的方法,讀取

CVS、數(shù)據(jù)庫數(shù)據(jù)的方法;DataFrame的重建索引、更換索引和層次化索引的使用;Series、

DataFrame的數(shù)據(jù)運(yùn)算,函數(shù)應(yīng)用與映射、排序、迭代方法;描述性統(tǒng)計(jì)函數(shù),協(xié)方差、相

關(guān)性等的計(jì)算方法;分組與聚合的概念、分組聚合的方法使用;透視表、交叉表的方法。

第5章數(shù)據(jù)預(yù)處理,主要講解數(shù)據(jù)清洗的概念和方法,重復(fù)值、缺失值和異常值的檢測(cè)

II

與處理;DataFrame對(duì)象的合并連接與重塑方法;數(shù)據(jù)變換的種類、常用的數(shù)據(jù)變換方法。

P

y第6章Sklearn機(jī)器學(xué)習(xí),主要講解機(jī)器學(xué)習(xí)的有關(guān)概念,Sklearn數(shù)據(jù)集,Sklearn數(shù)據(jù)

t

h

o

n預(yù)處理,降維、回歸、聚類和分類算法,模型的選擇、訓(xùn)練、預(yù)測(cè)和評(píng)估等。

數(shù)據(jù)分析

本書配有完善的教學(xué)資源,包括教學(xué)課件、電子教案、教學(xué)大綱、教學(xué)計(jì)劃、實(shí)驗(yàn)參考、

習(xí)題答案等,可以在/51eds中下載。在教學(xué)過程中如果遇到任何問題,

可以通過電子郵箱qingxiwang1111@163.com與作者進(jìn)行交流。

本書由廣東嶺南職業(yè)技術(shù)學(xué)院吳道君、廣西民族師范學(xué)院朱家榮任主編,信陽學(xué)院毛鳳翔、

洛陽師范學(xué)院郭洪濤、哈爾濱華德學(xué)院宋毅和孫海龍任副主編,其中宋毅編寫了第1章,

吳道君編寫了第2章,朱家榮編寫了第3章,毛鳳翔編寫了第4章,孫海龍編寫了第5章,

郭洪濤編寫了第6章。全書由王慶喜主審。

本書得到相關(guān)領(lǐng)導(dǎo)、同事和有關(guān)學(xué)生的熱情幫助和支持,在此向他們表示衷心的感謝。

由于時(shí)間倉促,編者水平有限,書中難免存在疏漏和不足之處,敬請(qǐng)讀者批評(píng)指正。

編者

2019年5月

目錄

第1章Python數(shù)據(jù)分析概述...............12.4.4集合運(yùn)算................................40

2.4.5統(tǒng)計(jì)運(yùn)算................................41

1.1數(shù)據(jù)分析的概念、流程和應(yīng)用.....1

2.4.6排序.......................................43

1.1.1數(shù)據(jù)分析的概念......................1

2.4.7搜索.......................................44

1.1.2數(shù)據(jù)分析的流程......................2

2.5線性代數(shù)......................................45

1.1.3數(shù)據(jù)分析的應(yīng)用......................2

2.5.1數(shù)組相乘................................46

1.2數(shù)據(jù)分析工具................................3

2.5.2矩陣行列式............................46

1.2.1常用工具.................................4

2.5.3逆矩陣...................................46

1.2.2Python數(shù)據(jù)分析......................4

2.5.4線性方程組............................47

1.3Python數(shù)據(jù)分析環(huán)境....................5

2.5.5特征值和特征向量.................47

小結(jié)....................................................9

2.6數(shù)組的存取..................................48

習(xí)題....................................................9

小結(jié)...................................................48

實(shí)驗(yàn)..................................................10

習(xí)題...................................................48

第2章NumPy數(shù)值計(jì)算...................15實(shí)驗(yàn)...................................................51

2.1NumPy多維數(shù)組.........................15第3章Matplotlib數(shù)據(jù)可視化.............54

2.1.1數(shù)組創(chuàng)建...............................15

3.1線形圖..........................................54

2.1.2數(shù)組對(duì)象屬性........................22

3.1.1繪制線形圖............................54

2.1.3數(shù)組數(shù)據(jù)類型........................23

3.1.2顏色設(shè)置................................55

2.2數(shù)組操作......................................24

3.1.3線型設(shè)置................................56

2.2.1修改數(shù)組形狀........................24

3.1.4坐標(biāo)點(diǎn)設(shè)置............................57

2.2.2翻轉(zhuǎn)數(shù)組...............................26

3.1.5線寬設(shè)置................................59

2.2.3連接數(shù)組...............................27

3.2其他圖形......................................59

2.2.4分割數(shù)組...............................28

3.2.1散點(diǎn)圖...................................59

2.2.5數(shù)組元素添加與刪除.............30

3.2.2柱形圖...................................61

2.3數(shù)組索引與切片..........................32

3.2.3條形圖...................................63

2.3.1數(shù)組索引...............................32

3.2.4餅圖.......................................64

2.3.2數(shù)組切片...............................33

3.2.5直方圖...................................65

2.3.3布爾型索引............................34

3.2.6箱線圖...................................67

2.3.4花式索引...............................35

3.3自定義設(shè)置..................................69

2.4數(shù)組的運(yùn)算..................................35

3.3.1圖例設(shè)置................................69

2.4.1數(shù)組和標(biāo)量間的運(yùn)算.............35

3.3.2坐標(biāo)網(wǎng)格設(shè)置........................70

2.4.2廣播.......................................36

3.3.3坐標(biāo)系設(shè)置............................71

2.4.3算術(shù)函數(shù)...............................37

II3.3.4樣式設(shè)置與注解....................724.9.1透視表.................................127

3.3.5RC設(shè)置.................................734.9.2交叉表.................................128

P

y

t

h3.4子圖..............................................74小結(jié).................................................129

o

數(shù)據(jù)分析n3.4.1創(chuàng)建子圖...............................74習(xí)題.................................................129

3.4.2子圖坐標(biāo)系設(shè)置....................76實(shí)驗(yàn).................................................129

3.4.3圖形嵌套...............................77

第5章數(shù)據(jù)預(yù)處理..........................134

3.5繪制三維圖形..............................78

小結(jié)...................................................815.1數(shù)據(jù)清洗....................................134

習(xí)題...................................................825.1.1重復(fù)值.................................134

實(shí)驗(yàn)...................................................825.1.2缺失值.................................135

5.1.3異常值.................................140

第4章Pandas數(shù)據(jù)分析....................89

5.2合并連接與重塑.........................142

4.1Pandas數(shù)據(jù)結(jié)構(gòu)..........................895.2.1merge合并...........................142

4.2DataFrame基本功能....................945.2.2concat合并..........................144

4.3讀取外部數(shù)據(jù)..............................955.2.3combine_first合并...............146

4.3.1CSV文件..............................965.2.4數(shù)據(jù)重塑.................................147

4.3.2Sqlite數(shù)據(jù)庫.........................985.3數(shù)據(jù)變換....................................149

4.4數(shù)據(jù)幀的列操作和行操作...........995.3.1虛擬變量.............................149

4.4.1列操作...................................995.3.2函數(shù)變換.............................150

4.4.2行操作.................................1015.3.3連續(xù)屬性離散化..................151

4.5高級(jí)索引....................................1035.3.4規(guī)范化.................................152

4.5.1重建索引.............................1035.3.5隨機(jī)采樣.............................154

4.5.2更換索引.............................106小結(jié).................................................156

4.5.3層次化索引.........................107習(xí)題.................................................156

4.6Pandas數(shù)據(jù)運(yùn)算........................108實(shí)驗(yàn).................................................156

4.6.1算術(shù)運(yùn)算.............................108

第6章Sklearn機(jī)器學(xué)習(xí).................162

4.6.2函數(shù)應(yīng)用與映射運(yùn)算..........109

4.6.3排序.....................................1116.1術(shù)語............................................162

4.6.4迭代....................................1136.2Sklearn........................................164

4.6.5唯一值與值計(jì)數(shù)..................1156.2.1Sklearn數(shù)據(jù)集.....................165

4.7統(tǒng)計(jì)函數(shù)....................................1166.2.2Sklearn常用算法.................171

4.7.1描述性統(tǒng)計(jì).........................1166.2.3數(shù)據(jù)預(yù)處理..........................175

4.7.2變化率.................................1196.2.4數(shù)據(jù)集拆分..........................177

4.7.3協(xié)方差.................................1206.2.5模型評(píng)估.............................177

4.7.4相關(guān)性.................................1206.2.6Sklearn常用方法.................178

4.7.5數(shù)據(jù)排名.............................1216.2.7模型的保存和載入..............179

4.8分組與聚合................................1226.3降維............................................179

4.8.1分組....................................1226.3.1PCA(主成分分析)...........179

4.8.2聚合....................................1246.3.2LDA(線性評(píng)價(jià)分析).......181

4.9透視表與交叉表........................1276.4回歸............................................182

6.4.1線性回歸.............................1836.5.5K?近鄰算法.........................191III

6.4.2邏輯回歸.............................1846.6聚類...........................................192目

6.4.3回歸決策樹..........................1856.6.1K?means算法......................193錄

6.5............................................1866.2.2DBSCAN..............................194

分類

6.5.1樸素貝葉斯..........................187小結(jié).................................................195

6.5.2分類決策樹..........................188習(xí)題.................................................195

6.5.3SVM(支持向量機(jī))..........189實(shí)驗(yàn).................................................196

6.5.4神經(jīng)網(wǎng)絡(luò).............................190

參考文獻(xiàn)............................................200

第1章

Python數(shù)據(jù)分析概述

學(xué)習(xí)目標(biāo)

z熟悉數(shù)據(jù)分析的相關(guān)概念。

z了解數(shù)據(jù)分析的應(yīng)用。

z了解Python在數(shù)據(jù)分析領(lǐng)域的優(yōu)勢(shì)。

z熟悉Python數(shù)據(jù)分析第三方的類庫。

z掌握Python數(shù)據(jù)分析的類庫安裝。

z掌握J(rèn)upyterNotebook的基本使用。

引言

隨著科技的發(fā)展,各行各業(yè)產(chǎn)生的數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)增長(zhǎng),如何管理和使用這些數(shù)據(jù),

逐漸成為數(shù)據(jù)科學(xué)領(lǐng)域中的一個(gè)重要課題。近年來,Python語言發(fā)展迅猛,為數(shù)據(jù)分析提供

了極其優(yōu)秀的工具,并快速成為數(shù)據(jù)科學(xué)領(lǐng)域的主要語言之一,越來越多的數(shù)據(jù)分析師在工

作中采用Python技術(shù)。

1.1數(shù)據(jù)分析的概念、流程和應(yīng)用

數(shù)據(jù)分析作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)的重要組成部分,近年來成為了數(shù)據(jù)科學(xué)領(lǐng)域中數(shù)

據(jù)從業(yè)人員必須具備的技能,越來越被重視。

1.1.1數(shù)據(jù)分析的概念

數(shù)據(jù)分析是指選用適當(dāng)?shù)姆治龇椒▽?duì)收集來的大量數(shù)據(jù)進(jìn)行分析、提取有用信息和形成

結(jié)論,對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。

廣義的數(shù)據(jù)分析包括狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘兩部分。狹義數(shù)據(jù)分析是指根據(jù)分析目的,

采用對(duì)比分析、分組分析、交叉分析和回歸分析等分析方法,對(duì)收集的數(shù)據(jù)進(jìn)行處理與分析,

提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用,得到一個(gè)特征統(tǒng)計(jì)量結(jié)果的過程。數(shù)據(jù)挖掘則是從大

量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,通過應(yīng)用聚類模型、分類模

型、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價(jià)值的過程。

數(shù)據(jù)分析的目的是把隱藏在一大批看起來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出

來,以找出所研究對(duì)象的內(nèi)在規(guī)律,并加以利用,從而創(chuàng)建經(jīng)濟(jì)和社會(huì)價(jià)值。

2

1.1.2數(shù)據(jù)分析的流程

P

y

t

h數(shù)據(jù)分析已經(jīng)逐漸演化為一種解決問題的過程,典型的數(shù)據(jù)分析流程如下:

o

數(shù)據(jù)分析n1.需求分析

需求分析的主要內(nèi)容是根據(jù)數(shù)據(jù)分析需求方的要求和實(shí)際情況,結(jié)合現(xiàn)有的數(shù)據(jù)情況,

提出數(shù)據(jù)分析需求的整體分析方向、分析內(nèi)容,最終和需求方達(dá)成一致意見。

2.?dāng)?shù)據(jù)獲取

數(shù)據(jù)獲取是根據(jù)需求分析的結(jié)果提取、收集數(shù)據(jù)。數(shù)據(jù)獲取主要有兩種方式:網(wǎng)絡(luò)數(shù)據(jù)

與本地?cái)?shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)是指存儲(chǔ)在互聯(lián)網(wǎng)中的各類視頻、圖片、語言和文字等信息;本地?cái)?shù)

據(jù)則是指存儲(chǔ)在本地?cái)?shù)據(jù)庫中的數(shù)據(jù)。本地?cái)?shù)據(jù)按照數(shù)據(jù)時(shí)間又可以劃分為兩部分:歷史數(shù)

據(jù)和實(shí)時(shí)數(shù)據(jù)。歷史數(shù)據(jù)是指系統(tǒng)在運(yùn)行過程中遺存下來的數(shù)據(jù),其數(shù)據(jù)隨系統(tǒng)運(yùn)行時(shí)間的

增加而增長(zhǎng);實(shí)時(shí)數(shù)據(jù)是指最近一個(gè)單位周期內(nèi)產(chǎn)生的數(shù)據(jù)。

3.?dāng)?shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理是指對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)合并、數(shù)據(jù)清洗和數(shù)據(jù)變換,并直接用于分析建模的這

一過程的總稱。其中,數(shù)據(jù)合并可以將多張相互關(guān)聯(lián)的表格合并成為一張;數(shù)據(jù)清洗可以處

理重復(fù)值、缺失值和異常值;數(shù)據(jù)變換可以通過一定規(guī)則把原始數(shù)據(jù)轉(zhuǎn)換為適合分析的形式,

滿足后期分析與建模的數(shù)據(jù)要求。

4.分析與建模

分析與建模是指通過對(duì)比分析、分組分析、交叉分析、回歸分析等分析方法,以及聚類

模型、分類模型、關(guān)聯(lián)模型等模型與算法,發(fā)現(xiàn)數(shù)據(jù)中有價(jià)值信息,并得出結(jié)論的過程。

分析與建模的方法按照目標(biāo)不同可以劃分幾大類。如果分析目標(biāo)是描述行為模式的,可

采用描述性數(shù)據(jù)分析方法,同時(shí)還可以考慮關(guān)聯(lián)規(guī)則、序列規(guī)則和聚類模型等。如果分析目

標(biāo)是量化未來一段時(shí)間內(nèi)某個(gè)時(shí)間發(fā)生概率的,則可以使用分類預(yù)測(cè)模型和回歸預(yù)測(cè)模型。

5.模型評(píng)價(jià)與優(yōu)化

模型評(píng)價(jià)是指對(duì)于已經(jīng)建立的模型,根據(jù)其模型的類別,使用不同指標(biāo)評(píng)價(jià)其性能優(yōu)劣

的過程。常用的聚類模型評(píng)價(jià)方法有ARI評(píng)價(jià)法(蘭特系數(shù))、AMI評(píng)價(jià)(互信息)、V-measure

評(píng)分等。常用的分類模型評(píng)價(jià)方法有準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)

等。常用的回歸模型評(píng)價(jià)指標(biāo)有平均絕對(duì)誤差、均方誤差、中值絕對(duì)誤差等。

模型優(yōu)化則是指模型在經(jīng)過模型評(píng)價(jià)后已經(jīng)達(dá)到了要求,但在實(shí)際生產(chǎn)環(huán)境應(yīng)用中,發(fā)

現(xiàn)模型并不理想,繼而對(duì)模型進(jìn)行重構(gòu)與優(yōu)化的過程。

6.部署

部署是指將數(shù)據(jù)分析結(jié)果與結(jié)論應(yīng)用至實(shí)際生產(chǎn)系統(tǒng)的過程。

1.1.3數(shù)據(jù)分析的應(yīng)用

數(shù)據(jù)分析可以解決大量的實(shí)際問題,已經(jīng)應(yīng)用于各行各業(yè),并取得了很好的效果。

1.客戶與營銷分析

客戶分析是根據(jù)客戶的基本數(shù)據(jù)進(jìn)行的商業(yè)行為分析,例如,根據(jù)客戶的需求、所處行

業(yè)的特征以及客戶的經(jīng)濟(jì)情況等,使用統(tǒng)計(jì)分析方法和預(yù)測(cè)驗(yàn)證法分析目標(biāo)客戶,提高銷售

效率;根據(jù)已有的客戶特征進(jìn)行客戶特征分析、忠誠度分析和客戶收益分析等。3

營銷分析囊括了產(chǎn)品分析、價(jià)格分析、渠道分析、廣告與促銷分析。產(chǎn)品分析主要是競(jìng)第

爭(zhēng)產(chǎn)品分析,通過對(duì)競(jìng)爭(zhēng)產(chǎn)品分析制定自身產(chǎn)品策略。價(jià)格分析又可以分為成本分析和售價(jià)

1

分析。成本分析的目的是降低不必要的成本;售價(jià)分析的目的是制定符合市場(chǎng)的價(jià)格。渠道

分析是指對(duì)產(chǎn)品的銷售渠道進(jìn)行分析,確定最優(yōu)的渠道配比。廣告與促銷分析則能夠結(jié)合客

P

y

戶分析,實(shí)現(xiàn)銷量的提升、利潤(rùn)的增加。t

h

o

.業(yè)務(wù)流程優(yōu)化n

2數(shù)據(jù)分析概述

數(shù)據(jù)分析可以幫助企業(yè)優(yōu)化業(yè)務(wù)流程,例如,可以通過業(yè)務(wù)系統(tǒng)和GPS定位系統(tǒng)獲得數(shù)據(jù),

使用數(shù)據(jù)構(gòu)建交通狀況預(yù)測(cè)分析模型,有效預(yù)測(cè)實(shí)時(shí)路況、物流狀況、車流量、客流量和貨物吞吐

量,進(jìn)而提前補(bǔ)貨,制定庫存管理策略和路線優(yōu)化;人力資源業(yè)務(wù)可以通過數(shù)據(jù)分析來優(yōu)化人才招

聘;交通部門可以在數(shù)據(jù)分析的基礎(chǔ)上建立智能化交管方案降低高峰時(shí)段的路線擁堵情況。

3.完善執(zhí)法

利用傳感器、閉路電視安裝并接入中央云數(shù)據(jù)庫、車牌識(shí)別、語音識(shí)別、犯罪嫌疑人及

罪犯GPS追蹤等數(shù)據(jù)分析,實(shí)現(xiàn)智能警務(wù);監(jiān)控并識(shí)別異?;顒?dòng)、行為或事故,加快決策制

定速度并防止及減少犯罪事件;通過分類模型分析方法對(duì)非法集資和洗錢的邏輯路徑進(jìn)行分

析,找到其行為特征;通過聚類模型分析方法可以分析相似價(jià)格的運(yùn)動(dòng)模式,可能發(fā)現(xiàn)關(guān)聯(lián)

交易及內(nèi)幕交易的可疑信息;通過關(guān)聯(lián)規(guī)則分析方法可以監(jiān)控多個(gè)用戶的關(guān)聯(lián)交易行為,為

發(fā)現(xiàn)跨賬號(hào)協(xié)同的金融欺騙行為提供依據(jù)。

4.網(wǎng)絡(luò)安全

新型的病毒防御系統(tǒng)可使用數(shù)據(jù)分析技術(shù),建立潛在攻擊識(shí)別分析模型,檢測(cè)大量網(wǎng)絡(luò)

活動(dòng)數(shù)據(jù)和相應(yīng)的訪問行為,識(shí)別可能進(jìn)行入侵的可疑模式,做到未雨綢繆。

5.優(yōu)化機(jī)器和設(shè)備性能

通過物聯(lián)網(wǎng)技術(shù)收集和分析設(shè)備上的數(shù)據(jù)流,包括連續(xù)用電、零部件溫度、環(huán)境濕度和

污染物顆粒等多種潛在特征,建立設(shè)備管理模型,從而預(yù)測(cè)設(shè)備故障,合理安排預(yù)防性的維

護(hù),以確保設(shè)備正常作業(yè),降低因設(shè)備故障帶來的安全風(fēng)險(xiǎn)。

6.改善日常生活

利用穿戴的裝備生成最新的數(shù)據(jù),根據(jù)熱量的消耗以及睡眠模式來進(jìn)行追蹤;交友網(wǎng)站

利用數(shù)據(jù)分析工具來幫助需要的人匹配合適的對(duì)象;基于城市實(shí)時(shí)交通信息,利用社交網(wǎng)絡(luò)

和天氣數(shù)據(jù)來優(yōu)化最新的交通情況。

7.醫(yī)療衛(wèi)生與生命科學(xué)

利用遠(yuǎn)程醫(yī)療監(jiān)控能夠簡(jiǎn)化醫(yī)護(hù)人員訪問并分析病患醫(yī)療記錄的流程,從而確保病人得

到有效診療并降低不必要的成本;臨床數(shù)據(jù)流分析能夠順利識(shí)別出異?;蛘哳A(yù)料之外的行為

或者表現(xiàn),從而輔助做出更準(zhǔn)確的診斷意見;實(shí)時(shí)傳感器數(shù)據(jù)分析有助于檢測(cè)傳染病暴發(fā)的

可能性,并通過早期預(yù)警系統(tǒng)提示預(yù)防及準(zhǔn)備;數(shù)據(jù)分析應(yīng)用能夠在幾分鐘內(nèi)解碼整個(gè)DNA,

從而制定出更科學(xué)的治療方案,甚至對(duì)疾病進(jìn)行預(yù)測(cè),達(dá)到疾病預(yù)防的目的。

1.2數(shù)據(jù)分析工具

隨著云計(jì)算、大數(shù)據(jù)以及人工智能技術(shù)的快速發(fā)展,Python及其開發(fā)生態(tài)環(huán)境正在受

4到越來越多的關(guān)注。Python已經(jīng)成為計(jì)算機(jī)世界最重要的語言之一,更是數(shù)據(jù)分析的首

P選語言。

y

t

h

o1.2.1常用工具

數(shù)據(jù)分析n

主流數(shù)據(jù)分析語言有Python、R和MATLAB。

Python具有豐富和強(qiáng)大的類庫,能夠把其他語言模塊很輕松地連接在一起,是一門易學(xué)、

易用的程序設(shè)計(jì)語言。

R語言主要用于統(tǒng)計(jì)分析、繪圖等,它屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件。

MATLAB的作用是進(jìn)行矩陣運(yùn)算、回執(zhí)函數(shù)與數(shù)據(jù)、實(shí)現(xiàn)算法、創(chuàng)建用戶界面和連接其

他編程語言的程序等,主要應(yīng)用于工程計(jì)算、控制設(shè)計(jì)、信號(hào)處理與通信、圖像處理、信號(hào)

檢測(cè)、金融建模設(shè)計(jì)與分析等領(lǐng)域。

Python、R和MATLAB數(shù)據(jù)分析工具對(duì)比如表1-1所示。

表1-1Python、R和MATLAB對(duì)比

語言

PythonRMATLAB

項(xiàng)目

難易程度接口統(tǒng)一,學(xué)習(xí)曲線平緩接口眾多,學(xué)習(xí)曲線陡峭自由度大,學(xué)習(xí)曲線較為平緩

矩陣預(yù)算、數(shù)值分析、科學(xué)數(shù)

數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、矩陣運(yùn)算、

統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、據(jù)可視化、機(jī)器學(xué)習(xí)、符號(hào)計(jì)算、

使用場(chǎng)景科學(xué)可視化、數(shù)字圖像處理、Web應(yīng)

科學(xué)數(shù)據(jù)可視化數(shù)字圖像處理、數(shù)字信號(hào)處理、

用、網(wǎng)絡(luò)爬蟲、系統(tǒng)運(yùn)維等

仿真模擬等

擁有大量專業(yè)的工具箱,在新

擁有大量的第三方庫,能夠簡(jiǎn)便地?fù)碛写罅康陌?,能夠調(diào)用

第三方支持版本中加入了對(duì)C、C++、Java

調(diào)用C、C++、Java等其他語言C、C++、Java等其他語言

的支持

流行領(lǐng)域工業(yè)界>學(xué)術(shù)界工業(yè)界≈學(xué)術(shù)界工業(yè)界≤學(xué)術(shù)界

軟件成本開源免費(fèi)開源免費(fèi)商業(yè)收費(fèi)

1.2.2Python數(shù)據(jù)分析

Python是一門應(yīng)用十分廣泛的計(jì)算機(jī)編程語言,在數(shù)據(jù)科學(xué)領(lǐng)域具有無可比擬的優(yōu)勢(shì),

逐漸成為數(shù)據(jù)科學(xué)領(lǐng)域的主流語言。Python數(shù)據(jù)分析具有五方面優(yōu)勢(shì):

①語法簡(jiǎn)單精練。比起其他編程語言,Python更容易學(xué)習(xí)和使用。

②功能強(qiáng)大的庫。大量?jī)?yōu)秀好用的第三方庫,擴(kuò)充了Python功能,提升了Python的能

力,使Python如虎添翼。

③功能強(qiáng)大。Python是一個(gè)混合體,豐富的工具使它介于傳統(tǒng)的腳本語言和系統(tǒng)語言之

間。Python不僅具備簡(jiǎn)單易用的特點(diǎn),還提供了編譯語言所具有的軟件工程能力。

④不僅適用于研究和原型構(gòu)建,同時(shí)也適用于構(gòu)建生產(chǎn)系統(tǒng)。研究人員和工程技術(shù)人

員使用同一種編程工具,可給企業(yè)帶來顯著的組織效益,并降低企業(yè)的運(yùn)營成本。

⑤Python是一門“膠水”語言。Python程序能夠以多種方式輕易地與其他語言的組件“粘

接”在一起,例如Python的C語言API可以幫助Python程序靈活地調(diào)用C程序。因此,可

以根據(jù)需要給Python程序添加功能,或者其他環(huán)境系統(tǒng)中使用Python。

Python數(shù)據(jù)分析除了使用Python基礎(chǔ)外,還需要第三方類庫。

1.NumPy

NumPy是NumericalPython的簡(jiǎn)稱,是Python語言的一個(gè)科學(xué)計(jì)算的擴(kuò)展程序庫,支持

大量的多維度數(shù)組與矩陣運(yùn)算,此外也針對(duì)數(shù)組運(yùn)算提供大量的數(shù)學(xué)函數(shù)庫。NumPy主要提5

供以下內(nèi)容:第

①快速高效的多維數(shù)組對(duì)象ndarray。

1

廣播功能函數(shù),廣播是一種對(duì)數(shù)組執(zhí)行數(shù)學(xué)運(yùn)算的函數(shù),其執(zhí)行的是元素級(jí)計(jì)算。

廣播提供了算術(shù)運(yùn)算期間處理不同形狀的數(shù)組的能力。

P

③y

讀/寫硬盤上基于數(shù)組的數(shù)組集的工具。t

h

o

④n

線性代數(shù)運(yùn)算、傅里葉變換及隨機(jī)數(shù)生成功能。數(shù)據(jù)分析概述

⑤將C、C++、Fortran代碼集成到Python的工具。

除了為Python提供快速的數(shù)組處理能力外,NumPy在數(shù)據(jù)分析方面還有另外一個(gè)主要作

用,即作為算法之間傳遞數(shù)據(jù)的容器。對(duì)于數(shù)值型數(shù)據(jù),使用NumPy數(shù)組存儲(chǔ)和處理數(shù)據(jù)要

比使用內(nèi)置的Python數(shù)據(jù)結(jié)構(gòu)高效得多。此外,由其他語言(如C語言)編寫的庫可以直接

操作NumPy數(shù)組中數(shù)據(jù),無須進(jìn)行任何數(shù)據(jù)復(fù)制工作。

2.Pandas

Pandas是Python的數(shù)據(jù)分析核心庫,最初被作為金融數(shù)據(jù)分析工具而開發(fā)出來。Pandas

為時(shí)間序列分析提供了很好的支持。Pandas納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高

效地操作大型數(shù)據(jù)集所需的工具,提供一系列能夠快速、便捷地處理結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)和函

數(shù)。Python之所以成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境與它息息相關(guān)。

Pandas兼具NumPy高性能的數(shù)組計(jì)算功能以及電子表格和關(guān)系型數(shù)據(jù)庫(如SQL)的靈

活數(shù)據(jù)處理功能,它提供了復(fù)雜精細(xì)的索引功能,以便便捷地完成重塑、切片和切換、聚合

及選取數(shù)據(jù)子集等操作。

3.Matplotlib

Matplotlib是最流行的用于繪制數(shù)據(jù)圖形的Python庫,它以各種硬拷貝格式和跨平臺(tái)的

交互式環(huán)境生成出高質(zhì)量的圖形。Matplotlib最初由JohnD.Hunter創(chuàng)建,目前由一個(gè)龐大的

開發(fā)團(tuán)隊(duì)維護(hù)。Matplotlib的操作比較容易,只需要幾行代碼即可生成線形圖、散點(diǎn)圖、直方

圖、條形圖和箱線圖等,甚至可以繪制三維圖形。

4.Sklearn

Sklearn(Scikit-Learn)是一個(gè)簡(jiǎn)單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,可以供用戶在各種環(huán)

境下重復(fù)使用。而且Sklearn建立在NumPy、SciPy和Matplotlib基礎(chǔ)之上,對(duì)一些常用的算法

進(jìn)行了封裝。目前,Sklearn的基本模塊主要有數(shù)據(jù)預(yù)處理、模型選擇、分類、聚類、數(shù)據(jù)降維

和回歸6個(gè)。在數(shù)據(jù)量不大的情況下,Sklearn可以解決大部分問題。對(duì)算法不精通的用戶在執(zhí)

行建模任務(wù)時(shí),并不需要自行編寫所有算法,只需要簡(jiǎn)單地調(diào)用Sklearn庫中的模塊即可。

5.其他

xlrd和openpyxl是讀取Excel文件需要的類庫;Seaborn與Matplotlib類似,主要作用是

繪制圖形,但是Seaborn自帶了一些數(shù)據(jù)集,可以用來練習(xí)。

1.3Python數(shù)據(jù)分析環(huán)境

Python數(shù)據(jù)分析環(huán)境的搭建包括Python安裝以及多個(gè)第三方庫的安裝。

先安裝Python,再分別安裝需要的第三方庫。讀者如果想省事,也可以采用安裝Anaconda

6的方式簡(jiǎn)化安裝。Anaconda包含了本書使用的所有第三方庫,有興趣的讀者也可以自行安裝

PAnaconda。因?yàn)楸緯褂玫拈_發(fā)環(huán)境并不復(fù)雜,因此沒有使用Anaconda。

y

t

h注意:安裝過程需要網(wǎng)絡(luò),因?yàn)樾枰认螺d再安裝。

o

n

數(shù)據(jù)分析1.安裝Python

Python數(shù)據(jù)分

本書讀者應(yīng)該具備Python基礎(chǔ),因此不再贅述Python的安裝。

析環(huán)境搭建

注意:在安裝Python時(shí),一定要同時(shí)安裝PIP,否則下邊的安裝都無法進(jìn)行。

2.安裝數(shù)據(jù)分析庫

(1)安裝第三方數(shù)據(jù)分析庫

第三方庫的安裝使用pip3命令,如下所示:

pip3installnumpy

pip3installscipy

pip3installmatplotlib

pip3installsklearn

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論