![Python數(shù)據(jù)分析-鐵道出版社_第1頁](http://file4.renrendoc.com/view11/M02/2A/26/wKhkGWWdCpqAIx4FAAFIfIr8784427.jpg)
![Python數(shù)據(jù)分析-鐵道出版社_第2頁](http://file4.renrendoc.com/view11/M02/2A/26/wKhkGWWdCpqAIx4FAAFIfIr87844272.jpg)
![Python數(shù)據(jù)分析-鐵道出版社_第3頁](http://file4.renrendoc.com/view11/M02/2A/26/wKhkGWWdCpqAIx4FAAFIfIr87844273.jpg)
![Python數(shù)據(jù)分析-鐵道出版社_第4頁](http://file4.renrendoc.com/view11/M02/2A/26/wKhkGWWdCpqAIx4FAAFIfIr87844274.jpg)
![Python數(shù)據(jù)分析-鐵道出版社_第5頁](http://file4.renrendoc.com/view11/M02/2A/26/wKhkGWWdCpqAIx4FAAFIfIr87844275.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
普通高等院校應(yīng)用型人才培養(yǎng)“十三五”規(guī)劃教材
Python數(shù)據(jù)分析
吳道君朱家榮◎主編
毛鳳翔郭洪濤宋毅孫海龍◎副主編
王慶喜◎主審
內(nèi)容簡(jiǎn)介
本書全面講解Python數(shù)據(jù)分析的相關(guān)知識(shí)和技術(shù),內(nèi)容包括Python數(shù)據(jù)分析概述、
NumPy數(shù)值計(jì)算、Matplotlib數(shù)據(jù)可視化、Pandas數(shù)據(jù)分析、數(shù)據(jù)預(yù)處理、Sklearn機(jī)器學(xué)習(xí)。
本書以培養(yǎng)學(xué)生編程能力和數(shù)據(jù)分析能力為目標(biāo),注重技術(shù)應(yīng)用能力的培養(yǎng)。
本書內(nèi)容充實(shí)、結(jié)構(gòu)合理、實(shí)用性強(qiáng),具有明確的應(yīng)用能力培養(yǎng)目標(biāo),易于接受和理解,
學(xué)完本書后,可以具備數(shù)據(jù)分析的基本能力。
本書適合作為普通高等院校人工智能、數(shù)據(jù)科學(xué)與大數(shù)據(jù)以及計(jì)算機(jī)相關(guān)專業(yè)課程的教
材,也可以作為相關(guān)從業(yè)人員的技術(shù)參考用書。
圖書在版編目(CIP)數(shù)據(jù)
Python數(shù)據(jù)分析/吳道君,朱家榮主編.—北京:中國鐵道
出版社有限公司,2019.9
普通高等院校應(yīng)用型人才培養(yǎng)“十三五”規(guī)劃教材
ISBN978-7-113-25871-9
Ⅰ.①P…Ⅱ.①吳…②朱…Ⅲ.①軟件工具-程序設(shè)計(jì)-
高等學(xué)校-教材Ⅳ.①TP311.561
中國版本圖書館CIP數(shù)據(jù)核字(2019)第149952號(hào)
書名:Python數(shù)據(jù)分析
作者:吳道君朱家榮
策劃:韓從付周海燕編輯部電話2019
責(zé)任編輯:周海燕彭立輝
封面設(shè)計(jì):穆麗
責(zé)任校對(duì):張玉華
責(zé)任印制:郭向偉
出版發(fā)行:中國鐵道出版社有限公司(100054,北京市西城區(qū)右安門西街8號(hào))
網(wǎng)址:/51eds/
印刷:三河市宏盛印務(wù)有限公司
版次:2019年9月第1版2019年9月第1次印刷
開本:787mm×1092mm1/16印張:13字?jǐn)?shù):322千
書號(hào):ISBN978-7-113-25871-9
定價(jià):45.00元
版權(quán)所有侵權(quán)必究
凡購買鐵道版圖書,如有印制質(zhì)量問題,請(qǐng)與本社教材圖書營銷部聯(lián)系調(diào)換。電話:(010)63550836
打擊盜版舉報(bào)電話:(010)51873659
前言
數(shù)據(jù)的價(jià)值越來越被公眾認(rèn)可和推崇,而數(shù)據(jù)分析的作用就是通過一定的方法找出數(shù)據(jù)
的價(jià)值。
近年來,隨著大數(shù)據(jù)技術(shù)和人工智能技術(shù)的發(fā)展,Python已經(jīng)成為數(shù)據(jù)科學(xué)領(lǐng)域最為重
要的語言和工具。Python是一種面向?qū)ο?、解釋型的?jì)算機(jī)程序設(shè)計(jì)語言,其語法簡(jiǎn)潔清晰、
成熟穩(wěn)定。
Python最為重要的是具有豐富和強(qiáng)大的庫,例如在數(shù)據(jù)分析領(lǐng)域的NumPy、Matplotlib、
Pandas和Sklean等,這些庫基本上包含了數(shù)據(jù)分析的所有方面,為數(shù)據(jù)分析提供了強(qiáng)大的功
能支持。有了這些數(shù)據(jù)分析庫,就可以非常容易地對(duì)數(shù)據(jù)進(jìn)行分析,不再需要從基礎(chǔ)做起,
大大降低了數(shù)據(jù)分析的難度和復(fù)雜度。
本書主要講解使用Python以及Python的庫進(jìn)行數(shù)據(jù)分析的技術(shù),全書共分為6章,主要
內(nèi)容如下:
第1章Python數(shù)據(jù)分析概述,主要講解數(shù)據(jù)分析的相關(guān)概念及其應(yīng)用、Python在數(shù)據(jù)分
析領(lǐng)域的優(yōu)勢(shì)、Python數(shù)據(jù)分析的第三方類庫、Python數(shù)據(jù)分析環(huán)境庫的安裝、Jupyter
Notebook工具的基本使用。
第2章NumPy數(shù)值計(jì)算,主要講解NumPy數(shù)組的概念,NumPy數(shù)組的創(chuàng)建方法、屬性
和數(shù)據(jù)類型,常用數(shù)組操作方法的使用,數(shù)組的切片和索引方法,數(shù)組的各類運(yùn)算方法和使
用,NumPy的線性代數(shù)運(yùn)算函數(shù),數(shù)組的存取操作方法。
第3章Matplotlib數(shù)據(jù)可視化,主要講解線形圖的繪制,線形圖的線的顏色、線型、坐
標(biāo)點(diǎn)、線寬設(shè)置;散點(diǎn)圖、柱狀圖、條形圖、餅圖、直方圖、箱線圖的繪制;圖例、坐標(biāo)網(wǎng)
格、坐標(biāo)系、樣式的設(shè)置,樣式、RC設(shè)置和文本注解;子圖的繪制、子圖坐標(biāo)系的設(shè)置、
圖形嵌套;三維圖形的繪制。
第4章Pandas數(shù)據(jù)分析,主要講解Pandas的數(shù)據(jù)結(jié)構(gòu),常用的DataFrame數(shù)據(jù)結(jié)構(gòu);
DataFrame的基本功能,DataFrame的行操作與列操作;Pandas操作外部數(shù)據(jù)的方法,讀取
CVS、數(shù)據(jù)庫數(shù)據(jù)的方法;DataFrame的重建索引、更換索引和層次化索引的使用;Series、
DataFrame的數(shù)據(jù)運(yùn)算,函數(shù)應(yīng)用與映射、排序、迭代方法;描述性統(tǒng)計(jì)函數(shù),協(xié)方差、相
關(guān)性等的計(jì)算方法;分組與聚合的概念、分組聚合的方法使用;透視表、交叉表的方法。
第5章數(shù)據(jù)預(yù)處理,主要講解數(shù)據(jù)清洗的概念和方法,重復(fù)值、缺失值和異常值的檢測(cè)
II
與處理;DataFrame對(duì)象的合并連接與重塑方法;數(shù)據(jù)變換的種類、常用的數(shù)據(jù)變換方法。
P
y第6章Sklearn機(jī)器學(xué)習(xí),主要講解機(jī)器學(xué)習(xí)的有關(guān)概念,Sklearn數(shù)據(jù)集,Sklearn數(shù)據(jù)
t
h
o
n預(yù)處理,降維、回歸、聚類和分類算法,模型的選擇、訓(xùn)練、預(yù)測(cè)和評(píng)估等。
數(shù)據(jù)分析
本書配有完善的教學(xué)資源,包括教學(xué)課件、電子教案、教學(xué)大綱、教學(xué)計(jì)劃、實(shí)驗(yàn)參考、
習(xí)題答案等,可以在/51eds中下載。在教學(xué)過程中如果遇到任何問題,
可以通過電子郵箱qingxiwang1111@163.com與作者進(jìn)行交流。
本書由廣東嶺南職業(yè)技術(shù)學(xué)院吳道君、廣西民族師范學(xué)院朱家榮任主編,信陽學(xué)院毛鳳翔、
洛陽師范學(xué)院郭洪濤、哈爾濱華德學(xué)院宋毅和孫海龍任副主編,其中宋毅編寫了第1章,
吳道君編寫了第2章,朱家榮編寫了第3章,毛鳳翔編寫了第4章,孫海龍編寫了第5章,
郭洪濤編寫了第6章。全書由王慶喜主審。
本書得到相關(guān)領(lǐng)導(dǎo)、同事和有關(guān)學(xué)生的熱情幫助和支持,在此向他們表示衷心的感謝。
由于時(shí)間倉促,編者水平有限,書中難免存在疏漏和不足之處,敬請(qǐng)讀者批評(píng)指正。
編者
2019年5月
目錄
第1章Python數(shù)據(jù)分析概述...............12.4.4集合運(yùn)算................................40
2.4.5統(tǒng)計(jì)運(yùn)算................................41
1.1數(shù)據(jù)分析的概念、流程和應(yīng)用.....1
2.4.6排序.......................................43
1.1.1數(shù)據(jù)分析的概念......................1
2.4.7搜索.......................................44
1.1.2數(shù)據(jù)分析的流程......................2
2.5線性代數(shù)......................................45
1.1.3數(shù)據(jù)分析的應(yīng)用......................2
2.5.1數(shù)組相乘................................46
1.2數(shù)據(jù)分析工具................................3
2.5.2矩陣行列式............................46
1.2.1常用工具.................................4
2.5.3逆矩陣...................................46
1.2.2Python數(shù)據(jù)分析......................4
2.5.4線性方程組............................47
1.3Python數(shù)據(jù)分析環(huán)境....................5
2.5.5特征值和特征向量.................47
小結(jié)....................................................9
2.6數(shù)組的存取..................................48
習(xí)題....................................................9
小結(jié)...................................................48
實(shí)驗(yàn)..................................................10
習(xí)題...................................................48
第2章NumPy數(shù)值計(jì)算...................15實(shí)驗(yàn)...................................................51
2.1NumPy多維數(shù)組.........................15第3章Matplotlib數(shù)據(jù)可視化.............54
2.1.1數(shù)組創(chuàng)建...............................15
3.1線形圖..........................................54
2.1.2數(shù)組對(duì)象屬性........................22
3.1.1繪制線形圖............................54
2.1.3數(shù)組數(shù)據(jù)類型........................23
3.1.2顏色設(shè)置................................55
2.2數(shù)組操作......................................24
3.1.3線型設(shè)置................................56
2.2.1修改數(shù)組形狀........................24
3.1.4坐標(biāo)點(diǎn)設(shè)置............................57
2.2.2翻轉(zhuǎn)數(shù)組...............................26
3.1.5線寬設(shè)置................................59
2.2.3連接數(shù)組...............................27
3.2其他圖形......................................59
2.2.4分割數(shù)組...............................28
3.2.1散點(diǎn)圖...................................59
2.2.5數(shù)組元素添加與刪除.............30
3.2.2柱形圖...................................61
2.3數(shù)組索引與切片..........................32
3.2.3條形圖...................................63
2.3.1數(shù)組索引...............................32
3.2.4餅圖.......................................64
2.3.2數(shù)組切片...............................33
3.2.5直方圖...................................65
2.3.3布爾型索引............................34
3.2.6箱線圖...................................67
2.3.4花式索引...............................35
3.3自定義設(shè)置..................................69
2.4數(shù)組的運(yùn)算..................................35
3.3.1圖例設(shè)置................................69
2.4.1數(shù)組和標(biāo)量間的運(yùn)算.............35
3.3.2坐標(biāo)網(wǎng)格設(shè)置........................70
2.4.2廣播.......................................36
3.3.3坐標(biāo)系設(shè)置............................71
2.4.3算術(shù)函數(shù)...............................37
II3.3.4樣式設(shè)置與注解....................724.9.1透視表.................................127
3.3.5RC設(shè)置.................................734.9.2交叉表.................................128
P
y
t
h3.4子圖..............................................74小結(jié).................................................129
o
數(shù)據(jù)分析n3.4.1創(chuàng)建子圖...............................74習(xí)題.................................................129
3.4.2子圖坐標(biāo)系設(shè)置....................76實(shí)驗(yàn).................................................129
3.4.3圖形嵌套...............................77
第5章數(shù)據(jù)預(yù)處理..........................134
3.5繪制三維圖形..............................78
小結(jié)...................................................815.1數(shù)據(jù)清洗....................................134
習(xí)題...................................................825.1.1重復(fù)值.................................134
實(shí)驗(yàn)...................................................825.1.2缺失值.................................135
5.1.3異常值.................................140
第4章Pandas數(shù)據(jù)分析....................89
5.2合并連接與重塑.........................142
4.1Pandas數(shù)據(jù)結(jié)構(gòu)..........................895.2.1merge合并...........................142
4.2DataFrame基本功能....................945.2.2concat合并..........................144
4.3讀取外部數(shù)據(jù)..............................955.2.3combine_first合并...............146
4.3.1CSV文件..............................965.2.4數(shù)據(jù)重塑.................................147
4.3.2Sqlite數(shù)據(jù)庫.........................985.3數(shù)據(jù)變換....................................149
4.4數(shù)據(jù)幀的列操作和行操作...........995.3.1虛擬變量.............................149
4.4.1列操作...................................995.3.2函數(shù)變換.............................150
4.4.2行操作.................................1015.3.3連續(xù)屬性離散化..................151
4.5高級(jí)索引....................................1035.3.4規(guī)范化.................................152
4.5.1重建索引.............................1035.3.5隨機(jī)采樣.............................154
4.5.2更換索引.............................106小結(jié).................................................156
4.5.3層次化索引.........................107習(xí)題.................................................156
4.6Pandas數(shù)據(jù)運(yùn)算........................108實(shí)驗(yàn).................................................156
4.6.1算術(shù)運(yùn)算.............................108
第6章Sklearn機(jī)器學(xué)習(xí).................162
4.6.2函數(shù)應(yīng)用與映射運(yùn)算..........109
4.6.3排序.....................................1116.1術(shù)語............................................162
4.6.4迭代....................................1136.2Sklearn........................................164
4.6.5唯一值與值計(jì)數(shù)..................1156.2.1Sklearn數(shù)據(jù)集.....................165
4.7統(tǒng)計(jì)函數(shù)....................................1166.2.2Sklearn常用算法.................171
4.7.1描述性統(tǒng)計(jì).........................1166.2.3數(shù)據(jù)預(yù)處理..........................175
4.7.2變化率.................................1196.2.4數(shù)據(jù)集拆分..........................177
4.7.3協(xié)方差.................................1206.2.5模型評(píng)估.............................177
4.7.4相關(guān)性.................................1206.2.6Sklearn常用方法.................178
4.7.5數(shù)據(jù)排名.............................1216.2.7模型的保存和載入..............179
4.8分組與聚合................................1226.3降維............................................179
4.8.1分組....................................1226.3.1PCA(主成分分析)...........179
4.8.2聚合....................................1246.3.2LDA(線性評(píng)價(jià)分析).......181
4.9透視表與交叉表........................1276.4回歸............................................182
6.4.1線性回歸.............................1836.5.5K?近鄰算法.........................191III
6.4.2邏輯回歸.............................1846.6聚類...........................................192目
6.4.3回歸決策樹..........................1856.6.1K?means算法......................193錄
6.5............................................1866.2.2DBSCAN..............................194
分類
6.5.1樸素貝葉斯..........................187小結(jié).................................................195
6.5.2分類決策樹..........................188習(xí)題.................................................195
6.5.3SVM(支持向量機(jī))..........189實(shí)驗(yàn).................................................196
6.5.4神經(jīng)網(wǎng)絡(luò).............................190
參考文獻(xiàn)............................................200
第1章
Python數(shù)據(jù)分析概述
學(xué)習(xí)目標(biāo)
z熟悉數(shù)據(jù)分析的相關(guān)概念。
z了解數(shù)據(jù)分析的應(yīng)用。
z了解Python在數(shù)據(jù)分析領(lǐng)域的優(yōu)勢(shì)。
z熟悉Python數(shù)據(jù)分析第三方的類庫。
z掌握Python數(shù)據(jù)分析的類庫安裝。
z掌握J(rèn)upyterNotebook的基本使用。
引言
隨著科技的發(fā)展,各行各業(yè)產(chǎn)生的數(shù)據(jù)量呈現(xiàn)指數(shù)級(jí)增長(zhǎng),如何管理和使用這些數(shù)據(jù),
逐漸成為數(shù)據(jù)科學(xué)領(lǐng)域中的一個(gè)重要課題。近年來,Python語言發(fā)展迅猛,為數(shù)據(jù)分析提供
了極其優(yōu)秀的工具,并快速成為數(shù)據(jù)科學(xué)領(lǐng)域的主要語言之一,越來越多的數(shù)據(jù)分析師在工
作中采用Python技術(shù)。
1.1數(shù)據(jù)分析的概念、流程和應(yīng)用
數(shù)據(jù)分析作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)的重要組成部分,近年來成為了數(shù)據(jù)科學(xué)領(lǐng)域中數(shù)
據(jù)從業(yè)人員必須具備的技能,越來越被重視。
1.1.1數(shù)據(jù)分析的概念
數(shù)據(jù)分析是指選用適當(dāng)?shù)姆治龇椒▽?duì)收集來的大量數(shù)據(jù)進(jìn)行分析、提取有用信息和形成
結(jié)論,對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過程。
廣義的數(shù)據(jù)分析包括狹義數(shù)據(jù)分析和數(shù)據(jù)挖掘兩部分。狹義數(shù)據(jù)分析是指根據(jù)分析目的,
采用對(duì)比分析、分組分析、交叉分析和回歸分析等分析方法,對(duì)收集的數(shù)據(jù)進(jìn)行處理與分析,
提取有價(jià)值的信息,發(fā)揮數(shù)據(jù)的作用,得到一個(gè)特征統(tǒng)計(jì)量結(jié)果的過程。數(shù)據(jù)挖掘則是從大
量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,通過應(yīng)用聚類模型、分類模
型、回歸和關(guān)聯(lián)規(guī)則等技術(shù),挖掘潛在價(jià)值的過程。
數(shù)據(jù)分析的目的是把隱藏在一大批看起來雜亂無章的數(shù)據(jù)中的信息集中、萃取和提煉出
來,以找出所研究對(duì)象的內(nèi)在規(guī)律,并加以利用,從而創(chuàng)建經(jīng)濟(jì)和社會(huì)價(jià)值。
2
1.1.2數(shù)據(jù)分析的流程
P
y
t
h數(shù)據(jù)分析已經(jīng)逐漸演化為一種解決問題的過程,典型的數(shù)據(jù)分析流程如下:
o
數(shù)據(jù)分析n1.需求分析
需求分析的主要內(nèi)容是根據(jù)數(shù)據(jù)分析需求方的要求和實(shí)際情況,結(jié)合現(xiàn)有的數(shù)據(jù)情況,
提出數(shù)據(jù)分析需求的整體分析方向、分析內(nèi)容,最終和需求方達(dá)成一致意見。
2.?dāng)?shù)據(jù)獲取
數(shù)據(jù)獲取是根據(jù)需求分析的結(jié)果提取、收集數(shù)據(jù)。數(shù)據(jù)獲取主要有兩種方式:網(wǎng)絡(luò)數(shù)據(jù)
與本地?cái)?shù)據(jù)。網(wǎng)絡(luò)數(shù)據(jù)是指存儲(chǔ)在互聯(lián)網(wǎng)中的各類視頻、圖片、語言和文字等信息;本地?cái)?shù)
據(jù)則是指存儲(chǔ)在本地?cái)?shù)據(jù)庫中的數(shù)據(jù)。本地?cái)?shù)據(jù)按照數(shù)據(jù)時(shí)間又可以劃分為兩部分:歷史數(shù)
據(jù)和實(shí)時(shí)數(shù)據(jù)。歷史數(shù)據(jù)是指系統(tǒng)在運(yùn)行過程中遺存下來的數(shù)據(jù),其數(shù)據(jù)隨系統(tǒng)運(yùn)行時(shí)間的
增加而增長(zhǎng);實(shí)時(shí)數(shù)據(jù)是指最近一個(gè)單位周期內(nèi)產(chǎn)生的數(shù)據(jù)。
3.?dāng)?shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是指對(duì)數(shù)據(jù)進(jìn)行數(shù)據(jù)合并、數(shù)據(jù)清洗和數(shù)據(jù)變換,并直接用于分析建模的這
一過程的總稱。其中,數(shù)據(jù)合并可以將多張相互關(guān)聯(lián)的表格合并成為一張;數(shù)據(jù)清洗可以處
理重復(fù)值、缺失值和異常值;數(shù)據(jù)變換可以通過一定規(guī)則把原始數(shù)據(jù)轉(zhuǎn)換為適合分析的形式,
滿足后期分析與建模的數(shù)據(jù)要求。
4.分析與建模
分析與建模是指通過對(duì)比分析、分組分析、交叉分析、回歸分析等分析方法,以及聚類
模型、分類模型、關(guān)聯(lián)模型等模型與算法,發(fā)現(xiàn)數(shù)據(jù)中有價(jià)值信息,并得出結(jié)論的過程。
分析與建模的方法按照目標(biāo)不同可以劃分幾大類。如果分析目標(biāo)是描述行為模式的,可
采用描述性數(shù)據(jù)分析方法,同時(shí)還可以考慮關(guān)聯(lián)規(guī)則、序列規(guī)則和聚類模型等。如果分析目
標(biāo)是量化未來一段時(shí)間內(nèi)某個(gè)時(shí)間發(fā)生概率的,則可以使用分類預(yù)測(cè)模型和回歸預(yù)測(cè)模型。
5.模型評(píng)價(jià)與優(yōu)化
模型評(píng)價(jià)是指對(duì)于已經(jīng)建立的模型,根據(jù)其模型的類別,使用不同指標(biāo)評(píng)價(jià)其性能優(yōu)劣
的過程。常用的聚類模型評(píng)價(jià)方法有ARI評(píng)價(jià)法(蘭特系數(shù))、AMI評(píng)價(jià)(互信息)、V-measure
評(píng)分等。常用的分類模型評(píng)價(jià)方法有準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)
等。常用的回歸模型評(píng)價(jià)指標(biāo)有平均絕對(duì)誤差、均方誤差、中值絕對(duì)誤差等。
模型優(yōu)化則是指模型在經(jīng)過模型評(píng)價(jià)后已經(jīng)達(dá)到了要求,但在實(shí)際生產(chǎn)環(huán)境應(yīng)用中,發(fā)
現(xiàn)模型并不理想,繼而對(duì)模型進(jìn)行重構(gòu)與優(yōu)化的過程。
6.部署
部署是指將數(shù)據(jù)分析結(jié)果與結(jié)論應(yīng)用至實(shí)際生產(chǎn)系統(tǒng)的過程。
1.1.3數(shù)據(jù)分析的應(yīng)用
數(shù)據(jù)分析可以解決大量的實(shí)際問題,已經(jīng)應(yīng)用于各行各業(yè),并取得了很好的效果。
1.客戶與營銷分析
客戶分析是根據(jù)客戶的基本數(shù)據(jù)進(jìn)行的商業(yè)行為分析,例如,根據(jù)客戶的需求、所處行
業(yè)的特征以及客戶的經(jīng)濟(jì)情況等,使用統(tǒng)計(jì)分析方法和預(yù)測(cè)驗(yàn)證法分析目標(biāo)客戶,提高銷售
效率;根據(jù)已有的客戶特征進(jìn)行客戶特征分析、忠誠度分析和客戶收益分析等。3
營銷分析囊括了產(chǎn)品分析、價(jià)格分析、渠道分析、廣告與促銷分析。產(chǎn)品分析主要是競(jìng)第
爭(zhēng)產(chǎn)品分析,通過對(duì)競(jìng)爭(zhēng)產(chǎn)品分析制定自身產(chǎn)品策略。價(jià)格分析又可以分為成本分析和售價(jià)
1
章
分析。成本分析的目的是降低不必要的成本;售價(jià)分析的目的是制定符合市場(chǎng)的價(jià)格。渠道
分析是指對(duì)產(chǎn)品的銷售渠道進(jìn)行分析,確定最優(yōu)的渠道配比。廣告與促銷分析則能夠結(jié)合客
P
y
戶分析,實(shí)現(xiàn)銷量的提升、利潤(rùn)的增加。t
h
o
.業(yè)務(wù)流程優(yōu)化n
2數(shù)據(jù)分析概述
數(shù)據(jù)分析可以幫助企業(yè)優(yōu)化業(yè)務(wù)流程,例如,可以通過業(yè)務(wù)系統(tǒng)和GPS定位系統(tǒng)獲得數(shù)據(jù),
使用數(shù)據(jù)構(gòu)建交通狀況預(yù)測(cè)分析模型,有效預(yù)測(cè)實(shí)時(shí)路況、物流狀況、車流量、客流量和貨物吞吐
量,進(jìn)而提前補(bǔ)貨,制定庫存管理策略和路線優(yōu)化;人力資源業(yè)務(wù)可以通過數(shù)據(jù)分析來優(yōu)化人才招
聘;交通部門可以在數(shù)據(jù)分析的基礎(chǔ)上建立智能化交管方案降低高峰時(shí)段的路線擁堵情況。
3.完善執(zhí)法
利用傳感器、閉路電視安裝并接入中央云數(shù)據(jù)庫、車牌識(shí)別、語音識(shí)別、犯罪嫌疑人及
罪犯GPS追蹤等數(shù)據(jù)分析,實(shí)現(xiàn)智能警務(wù);監(jiān)控并識(shí)別異?;顒?dòng)、行為或事故,加快決策制
定速度并防止及減少犯罪事件;通過分類模型分析方法對(duì)非法集資和洗錢的邏輯路徑進(jìn)行分
析,找到其行為特征;通過聚類模型分析方法可以分析相似價(jià)格的運(yùn)動(dòng)模式,可能發(fā)現(xiàn)關(guān)聯(lián)
交易及內(nèi)幕交易的可疑信息;通過關(guān)聯(lián)規(guī)則分析方法可以監(jiān)控多個(gè)用戶的關(guān)聯(lián)交易行為,為
發(fā)現(xiàn)跨賬號(hào)協(xié)同的金融欺騙行為提供依據(jù)。
4.網(wǎng)絡(luò)安全
新型的病毒防御系統(tǒng)可使用數(shù)據(jù)分析技術(shù),建立潛在攻擊識(shí)別分析模型,檢測(cè)大量網(wǎng)絡(luò)
活動(dòng)數(shù)據(jù)和相應(yīng)的訪問行為,識(shí)別可能進(jìn)行入侵的可疑模式,做到未雨綢繆。
5.優(yōu)化機(jī)器和設(shè)備性能
通過物聯(lián)網(wǎng)技術(shù)收集和分析設(shè)備上的數(shù)據(jù)流,包括連續(xù)用電、零部件溫度、環(huán)境濕度和
污染物顆粒等多種潛在特征,建立設(shè)備管理模型,從而預(yù)測(cè)設(shè)備故障,合理安排預(yù)防性的維
護(hù),以確保設(shè)備正常作業(yè),降低因設(shè)備故障帶來的安全風(fēng)險(xiǎn)。
6.改善日常生活
利用穿戴的裝備生成最新的數(shù)據(jù),根據(jù)熱量的消耗以及睡眠模式來進(jìn)行追蹤;交友網(wǎng)站
利用數(shù)據(jù)分析工具來幫助需要的人匹配合適的對(duì)象;基于城市實(shí)時(shí)交通信息,利用社交網(wǎng)絡(luò)
和天氣數(shù)據(jù)來優(yōu)化最新的交通情況。
7.醫(yī)療衛(wèi)生與生命科學(xué)
利用遠(yuǎn)程醫(yī)療監(jiān)控能夠簡(jiǎn)化醫(yī)護(hù)人員訪問并分析病患醫(yī)療記錄的流程,從而確保病人得
到有效診療并降低不必要的成本;臨床數(shù)據(jù)流分析能夠順利識(shí)別出異?;蛘哳A(yù)料之外的行為
或者表現(xiàn),從而輔助做出更準(zhǔn)確的診斷意見;實(shí)時(shí)傳感器數(shù)據(jù)分析有助于檢測(cè)傳染病暴發(fā)的
可能性,并通過早期預(yù)警系統(tǒng)提示預(yù)防及準(zhǔn)備;數(shù)據(jù)分析應(yīng)用能夠在幾分鐘內(nèi)解碼整個(gè)DNA,
從而制定出更科學(xué)的治療方案,甚至對(duì)疾病進(jìn)行預(yù)測(cè),達(dá)到疾病預(yù)防的目的。
1.2數(shù)據(jù)分析工具
隨著云計(jì)算、大數(shù)據(jù)以及人工智能技術(shù)的快速發(fā)展,Python及其開發(fā)生態(tài)環(huán)境正在受
4到越來越多的關(guān)注。Python已經(jīng)成為計(jì)算機(jī)世界最重要的語言之一,更是數(shù)據(jù)分析的首
P選語言。
y
t
h
o1.2.1常用工具
數(shù)據(jù)分析n
主流數(shù)據(jù)分析語言有Python、R和MATLAB。
Python具有豐富和強(qiáng)大的類庫,能夠把其他語言模塊很輕松地連接在一起,是一門易學(xué)、
易用的程序設(shè)計(jì)語言。
R語言主要用于統(tǒng)計(jì)分析、繪圖等,它屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件。
MATLAB的作用是進(jìn)行矩陣運(yùn)算、回執(zhí)函數(shù)與數(shù)據(jù)、實(shí)現(xiàn)算法、創(chuàng)建用戶界面和連接其
他編程語言的程序等,主要應(yīng)用于工程計(jì)算、控制設(shè)計(jì)、信號(hào)處理與通信、圖像處理、信號(hào)
檢測(cè)、金融建模設(shè)計(jì)與分析等領(lǐng)域。
Python、R和MATLAB數(shù)據(jù)分析工具對(duì)比如表1-1所示。
表1-1Python、R和MATLAB對(duì)比
語言
PythonRMATLAB
項(xiàng)目
難易程度接口統(tǒng)一,學(xué)習(xí)曲線平緩接口眾多,學(xué)習(xí)曲線陡峭自由度大,學(xué)習(xí)曲線較為平緩
矩陣預(yù)算、數(shù)值分析、科學(xué)數(shù)
數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、矩陣運(yùn)算、
統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、據(jù)可視化、機(jī)器學(xué)習(xí)、符號(hào)計(jì)算、
使用場(chǎng)景科學(xué)可視化、數(shù)字圖像處理、Web應(yīng)
科學(xué)數(shù)據(jù)可視化數(shù)字圖像處理、數(shù)字信號(hào)處理、
用、網(wǎng)絡(luò)爬蟲、系統(tǒng)運(yùn)維等
仿真模擬等
擁有大量專業(yè)的工具箱,在新
擁有大量的第三方庫,能夠簡(jiǎn)便地?fù)碛写罅康陌?,能夠調(diào)用
第三方支持版本中加入了對(duì)C、C++、Java
調(diào)用C、C++、Java等其他語言C、C++、Java等其他語言
的支持
流行領(lǐng)域工業(yè)界>學(xué)術(shù)界工業(yè)界≈學(xué)術(shù)界工業(yè)界≤學(xué)術(shù)界
軟件成本開源免費(fèi)開源免費(fèi)商業(yè)收費(fèi)
1.2.2Python數(shù)據(jù)分析
Python是一門應(yīng)用十分廣泛的計(jì)算機(jī)編程語言,在數(shù)據(jù)科學(xué)領(lǐng)域具有無可比擬的優(yōu)勢(shì),
逐漸成為數(shù)據(jù)科學(xué)領(lǐng)域的主流語言。Python數(shù)據(jù)分析具有五方面優(yōu)勢(shì):
①語法簡(jiǎn)單精練。比起其他編程語言,Python更容易學(xué)習(xí)和使用。
②功能強(qiáng)大的庫。大量?jī)?yōu)秀好用的第三方庫,擴(kuò)充了Python功能,提升了Python的能
力,使Python如虎添翼。
③功能強(qiáng)大。Python是一個(gè)混合體,豐富的工具使它介于傳統(tǒng)的腳本語言和系統(tǒng)語言之
間。Python不僅具備簡(jiǎn)單易用的特點(diǎn),還提供了編譯語言所具有的軟件工程能力。
④不僅適用于研究和原型構(gòu)建,同時(shí)也適用于構(gòu)建生產(chǎn)系統(tǒng)。研究人員和工程技術(shù)人
員使用同一種編程工具,可給企業(yè)帶來顯著的組織效益,并降低企業(yè)的運(yùn)營成本。
⑤Python是一門“膠水”語言。Python程序能夠以多種方式輕易地與其他語言的組件“粘
接”在一起,例如Python的C語言API可以幫助Python程序靈活地調(diào)用C程序。因此,可
以根據(jù)需要給Python程序添加功能,或者其他環(huán)境系統(tǒng)中使用Python。
Python數(shù)據(jù)分析除了使用Python基礎(chǔ)外,還需要第三方類庫。
1.NumPy
NumPy是NumericalPython的簡(jiǎn)稱,是Python語言的一個(gè)科學(xué)計(jì)算的擴(kuò)展程序庫,支持
大量的多維度數(shù)組與矩陣運(yùn)算,此外也針對(duì)數(shù)組運(yùn)算提供大量的數(shù)學(xué)函數(shù)庫。NumPy主要提5
供以下內(nèi)容:第
①快速高效的多維數(shù)組對(duì)象ndarray。
1
章
②
廣播功能函數(shù),廣播是一種對(duì)數(shù)組執(zhí)行數(shù)學(xué)運(yùn)算的函數(shù),其執(zhí)行的是元素級(jí)計(jì)算。
廣播提供了算術(shù)運(yùn)算期間處理不同形狀的數(shù)組的能力。
P
③y
讀/寫硬盤上基于數(shù)組的數(shù)組集的工具。t
h
o
④n
線性代數(shù)運(yùn)算、傅里葉變換及隨機(jī)數(shù)生成功能。數(shù)據(jù)分析概述
⑤將C、C++、Fortran代碼集成到Python的工具。
除了為Python提供快速的數(shù)組處理能力外,NumPy在數(shù)據(jù)分析方面還有另外一個(gè)主要作
用,即作為算法之間傳遞數(shù)據(jù)的容器。對(duì)于數(shù)值型數(shù)據(jù),使用NumPy數(shù)組存儲(chǔ)和處理數(shù)據(jù)要
比使用內(nèi)置的Python數(shù)據(jù)結(jié)構(gòu)高效得多。此外,由其他語言(如C語言)編寫的庫可以直接
操作NumPy數(shù)組中數(shù)據(jù),無須進(jìn)行任何數(shù)據(jù)復(fù)制工作。
2.Pandas
Pandas是Python的數(shù)據(jù)分析核心庫,最初被作為金融數(shù)據(jù)分析工具而開發(fā)出來。Pandas
為時(shí)間序列分析提供了很好的支持。Pandas納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型,提供了高
效地操作大型數(shù)據(jù)集所需的工具,提供一系列能夠快速、便捷地處理結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)和函
數(shù)。Python之所以成為強(qiáng)大而高效的數(shù)據(jù)分析環(huán)境與它息息相關(guān)。
Pandas兼具NumPy高性能的數(shù)組計(jì)算功能以及電子表格和關(guān)系型數(shù)據(jù)庫(如SQL)的靈
活數(shù)據(jù)處理功能,它提供了復(fù)雜精細(xì)的索引功能,以便便捷地完成重塑、切片和切換、聚合
及選取數(shù)據(jù)子集等操作。
3.Matplotlib
Matplotlib是最流行的用于繪制數(shù)據(jù)圖形的Python庫,它以各種硬拷貝格式和跨平臺(tái)的
交互式環(huán)境生成出高質(zhì)量的圖形。Matplotlib最初由JohnD.Hunter創(chuàng)建,目前由一個(gè)龐大的
開發(fā)團(tuán)隊(duì)維護(hù)。Matplotlib的操作比較容易,只需要幾行代碼即可生成線形圖、散點(diǎn)圖、直方
圖、條形圖和箱線圖等,甚至可以繪制三維圖形。
4.Sklearn
Sklearn(Scikit-Learn)是一個(gè)簡(jiǎn)單高效的數(shù)據(jù)挖掘和數(shù)據(jù)分析工具,可以供用戶在各種環(huán)
境下重復(fù)使用。而且Sklearn建立在NumPy、SciPy和Matplotlib基礎(chǔ)之上,對(duì)一些常用的算法
進(jìn)行了封裝。目前,Sklearn的基本模塊主要有數(shù)據(jù)預(yù)處理、模型選擇、分類、聚類、數(shù)據(jù)降維
和回歸6個(gè)。在數(shù)據(jù)量不大的情況下,Sklearn可以解決大部分問題。對(duì)算法不精通的用戶在執(zhí)
行建模任務(wù)時(shí),并不需要自行編寫所有算法,只需要簡(jiǎn)單地調(diào)用Sklearn庫中的模塊即可。
5.其他
xlrd和openpyxl是讀取Excel文件需要的類庫;Seaborn與Matplotlib類似,主要作用是
繪制圖形,但是Seaborn自帶了一些數(shù)據(jù)集,可以用來練習(xí)。
1.3Python數(shù)據(jù)分析環(huán)境
Python數(shù)據(jù)分析環(huán)境的搭建包括Python安裝以及多個(gè)第三方庫的安裝。
先安裝Python,再分別安裝需要的第三方庫。讀者如果想省事,也可以采用安裝Anaconda
6的方式簡(jiǎn)化安裝。Anaconda包含了本書使用的所有第三方庫,有興趣的讀者也可以自行安裝
PAnaconda。因?yàn)楸緯褂玫拈_發(fā)環(huán)境并不復(fù)雜,因此沒有使用Anaconda。
y
t
h注意:安裝過程需要網(wǎng)絡(luò),因?yàn)樾枰认螺d再安裝。
o
n
數(shù)據(jù)分析1.安裝Python
Python數(shù)據(jù)分
本書讀者應(yīng)該具備Python基礎(chǔ),因此不再贅述Python的安裝。
析環(huán)境搭建
注意:在安裝Python時(shí),一定要同時(shí)安裝PIP,否則下邊的安裝都無法進(jìn)行。
2.安裝數(shù)據(jù)分析庫
(1)安裝第三方數(shù)據(jù)分析庫
第三方庫的安裝使用pip3命令,如下所示:
pip3installnumpy
pip3installscipy
pip3installmatplotlib
pip3installsklearn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 心電圖室獎(jiǎng)懲制度的制定意見
- 2025年度汽車維修廠汽車尾氣排放檢測(cè)與治理合同
- 金華浙江金華永康市古山鎮(zhèn)人民政府工作人員招聘筆試歷年參考題庫附帶答案詳解
- 金華2025年浙江金華浦江縣縣屬醫(yī)療衛(wèi)生單位招聘護(hù)理等專業(yè)人員16人筆試歷年參考題庫附帶答案詳解
- 浙江浙江省疾病預(yù)防控制中心招聘勞務(wù)派遣員工筆試歷年參考題庫附帶答案詳解
- 杭州2025年浙江杭州市教育局所屬事業(yè)單位招聘166人筆試歷年參考題庫附帶答案詳解
- 2025年中國雙層床架市場(chǎng)調(diào)查研究報(bào)告
- 2025年中國一次性使用PE手套市場(chǎng)調(diào)查研究報(bào)告
- 2025年規(guī)則導(dǎo)線剝皮機(jī)項(xiàng)目可行性研究報(bào)告
- 2025年罐頭盒蠟燭項(xiàng)目可行性研究報(bào)告
- 2024年西寧城市職業(yè)技術(shù)學(xué)院高職單招(英語/數(shù)學(xué)/語文)筆試歷年參考題庫含答案解析
- 2024年臨沂市高三一模(學(xué)業(yè)水平等級(jí)考試模擬試題)物理試卷
- 廣州獵德大橋三維曲面塔清水混凝土施工技術(shù)
- 我國糖尿病視網(wǎng)膜病變臨床診療指南2022解讀
- Python數(shù)據(jù)挖掘?qū)崙?zhàn)全套教學(xué)課件
- 高級(jí)茶藝師技能鑒定(協(xié)會(huì)版)備考題庫-下(多選、判斷題匯總)
- 特種設(shè)備作業(yè)人員體檢表(叉車)
- c30混凝土路面施工方案
- 加強(qiáng)師德師風(fēng)建設(shè)學(xué)校師德師風(fēng)警示教育講座培訓(xùn)課件
- 豬飼料購銷合同書
- 電商運(yùn)營銷售計(jì)劃Excel模版
評(píng)論
0/150
提交評(píng)論