《大數(shù)據(jù)運營》基于Python的數(shù)據(jù)統(tǒng)計與可視化_第1頁
《大數(shù)據(jù)運營》基于Python的數(shù)據(jù)統(tǒng)計與可視化_第2頁
《大數(shù)據(jù)運營》基于Python的數(shù)據(jù)統(tǒng)計與可視化_第3頁
《大數(shù)據(jù)運營》基于Python的數(shù)據(jù)統(tǒng)計與可視化_第4頁
《大數(shù)據(jù)運營》基于Python的數(shù)據(jù)統(tǒng)計與可視化_第5頁
已閱讀5頁,還剩72頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

基于Python的數(shù)據(jù)統(tǒng)計與可視化本章知識點(1)數(shù)據(jù)的計量尺度(2)數(shù)據(jù)的度量(3)常用距離公式(4)常用概率分布(5)可視化圖表認(rèn)知(6)Python數(shù)據(jù)可視化(7)使用Matplotlib繪制常用圖表01統(tǒng)計基礎(chǔ)02數(shù)據(jù)可視化PART01統(tǒng)計基礎(chǔ)統(tǒng)計基礎(chǔ)大數(shù)據(jù)運營需要以數(shù)據(jù)分析為基礎(chǔ),從數(shù)據(jù)中得到相應(yīng)指標(biāo)影響運營決策,而數(shù)據(jù)分析背后充滿了概率統(tǒng)計的知識,本節(jié)內(nèi)容主要介紹數(shù)據(jù)分析中常用的統(tǒng)計學(xué)基礎(chǔ)以及概率分布基礎(chǔ)知識。數(shù)據(jù)的計量尺度據(jù)的計量尺度是指對計量對象量化時采用的具體標(biāo)準(zhǔn),統(tǒng)計學(xué)中計量尺度可分為四類,分別是定類尺度、定序尺度、定距尺度、定比尺度。定類尺度和定序尺度屬于定性數(shù)據(jù),定距尺度、定比尺度屬于定量數(shù)據(jù)。數(shù)據(jù)的計量尺度1.定類尺度定類尺度,亦稱分類尺度,是最粗略、計量層次最低的尺度。定類尺度只將測量對象分類,數(shù)據(jù)間不存在大小或高低順序,可以用來比較相等或不相等,不能進行四則算術(shù)運算,性別、宗教信仰、民族、職業(yè)類型等都屬于定類尺度。2.定序尺度定序尺度也稱等級尺度、順序尺度,是指對測量對象的屬性和特征的類別進行鑒別并能比較類別大小的一種測量方法。定序尺度也是用來描述對象類別,但是和定類尺度不同的是,定序尺度不僅可以確定事務(wù)類別,而且可以確定類別的優(yōu)劣或順序,即定序尺度不僅可以比較是否相等,而且可以比較大小,年級、產(chǎn)品等級、滿意程度、健康狀況等都屬于定序尺度。數(shù)據(jù)的計量尺度3.定距尺度定距尺度是按照某一數(shù)量標(biāo)志將總體劃分為若干順序排列的部分或組,對相同數(shù)量或相同數(shù)量范圍的總體單位或其標(biāo)志值進行計量的方法。定距尺度是對事物類別或次序之間間距的測度,不僅可以區(qū)分不同類型,而且可以進行排序并且可以準(zhǔn)確指出類別之間的差距時多少。定距尺度通常使用自然或物理單位作為計量尺度,“0”作為比較標(biāo)準(zhǔn),代表尺度上的一個點,不代表“不存在”,所以定距尺度可以進行加、減運算,不能進行乘除運算。定距尺度數(shù)據(jù)的差值有意義,但比例無意義,比如年份,你可以說2000年比1000年多1000年,但是不能說2000年是1000年的2倍,年份、攝氏溫度、智商都屬于定距尺度。4.定比尺度定比尺度也稱比率尺度,是指一種用于描述對象計量特征的計量尺度。定必尺度是在定距尺度的基礎(chǔ)上,同時還具有絕對或自然的起點,即存在可以作為比較的共同起點或基數(shù)。在定距尺度中,“0”代表某一數(shù)值,而不是“沒有”;在定比尺度中有絕對零點,即“0”代表“沒有”或“不存在”,所以定比尺度不僅可以進行加、減運算,還可以進行乘、除運算。例如,攝氏溫度是典型的定距尺度,0攝氏度表示水的結(jié)冰點;銷售量是典型的定比尺度,小張5月銷售量為0,即代表5月他沒有賣出去東西。定比尺度數(shù)據(jù)差值和比例都有意義,比如A繩子長5米,B繩子長10米,你可以說B繩子比A繩子長5米,也可以說B繩子長度是A繩子的2倍。長度、質(zhì)量、產(chǎn)值等都屬于定比尺度。數(shù)據(jù)的計量尺度針對4種尺度的總結(jié)如表所示。分類計量尺度舉例特點定性數(shù)據(jù)定類尺度性別、宗教信仰可比較是否相等定序尺度年級、產(chǎn)品等級可比較是否相等可比較大小定量數(shù)據(jù)定距尺度年份、攝氏溫度可比較是否相等可比較大小可進行加、減操作差值有意義,比例無意義定比尺度長度、質(zhì)量、產(chǎn)值可比較是否相等可比較大小可進行加、減操作可進行乘、除操作差值有意義、比例有意義數(shù)據(jù)的度量數(shù)據(jù)的度量可以分為對集中趨勢的度量和對離散程度的度量,平均數(shù)、中位數(shù)、眾數(shù)都是針對數(shù)據(jù)集中趨勢的度量,方差、標(biāo)準(zhǔn)差、協(xié)方差、極差等都是針對數(shù)據(jù)離散程度的度量。數(shù)據(jù)的度量1.數(shù)據(jù)集中趨勢的度量在統(tǒng)計學(xué)中,集中趨勢是指一組數(shù)據(jù)向某一中心值靠攏的程度,可反應(yīng)一組數(shù)據(jù)的中心點位置。了解數(shù)據(jù)的集中趨勢,有助于發(fā)現(xiàn)事務(wù)的本質(zhì)特征,掌握事務(wù)的發(fā)展變化,在數(shù)據(jù)分析前期階段的數(shù)據(jù)探索中有非常重要的作用。集中趨勢度量就是尋找數(shù)據(jù)水平的中心值或代表值,對應(yīng)的衡量指標(biāo)即為平均數(shù)、中位數(shù)、眾數(shù)。1)平均數(shù)平均數(shù),統(tǒng)計學(xué)中最基本、最常用的衡量數(shù)據(jù)集中趨勢的一項指標(biāo)。平均數(shù)主要適用于定量數(shù)據(jù),而不適用于定性數(shù)據(jù)。根據(jù)具體數(shù)據(jù)的不同,平均數(shù)有不同的計算公式,這里主要介紹簡單算術(shù)平均數(shù)和加權(quán)算術(shù)平均數(shù)。簡單算術(shù)平均數(shù)又稱均值,是指在一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù),是統(tǒng)計學(xué)中最常用的平均指標(biāo)。公式如下:參考代碼數(shù)據(jù)的度量加權(quán)算術(shù)平均數(shù)主要用于處理經(jīng)分組整理的數(shù)據(jù),即將各數(shù)值乘以相應(yīng)的權(quán)數(shù),然后加總求和得到總體值,再除以總的單位數(shù)。加權(quán)平均值的大小不僅取決于總體中各單位的數(shù)值大小,而且取決于各數(shù)值出現(xiàn)的次數(shù)(權(quán)數(shù))。公式如下:在Numpy中實現(xiàn)均值和加權(quán)均值的函數(shù)分別是mean()和average(),接下來舉一個例子。數(shù)據(jù)的度量2)中位數(shù)中位數(shù),又稱中值,是一組數(shù)據(jù)按照大小順序排列后,居于中間位置的數(shù)。中位數(shù)將全部數(shù)據(jù)等分為兩部分,每部分占比50%,一組數(shù)據(jù)中只有一個中位數(shù)。中位數(shù)適用于探索定量數(shù)據(jù)的集中趨勢,但是不適用于分類數(shù)據(jù)。假設(shè)有一組數(shù)據(jù)(n個)從小到大排序,那么這組數(shù)據(jù)中位數(shù)的計算有如下兩種情況:(1)當(dāng)n為奇數(shù)時,中位數(shù)等于第(n+1)/2個數(shù)對應(yīng)的值(2)當(dāng)n為偶數(shù)時,中位數(shù)位于第n/2和(n/2)+1的兩個數(shù)的平均值數(shù)據(jù)的度量3)眾數(shù)眾數(shù)是指一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,代表數(shù)據(jù)的一般水平。眾數(shù)是描述分類數(shù)據(jù)集中趨勢最常用的測度值,一般只有在數(shù)據(jù)量較大的情況下,眾數(shù)才有意義。眾數(shù)的主要特點是不受極端值影響,在一組數(shù)據(jù)中眾數(shù)不唯一,有可能沒有眾數(shù)或有多個眾數(shù),如圖所示。數(shù)據(jù)的度量2.數(shù)據(jù)離散程度的度量與數(shù)據(jù)的集中趨勢度量對應(yīng)的是數(shù)據(jù)的離散程度度量,即一組數(shù)據(jù)向某一中心值分散的程度。其中極差是測量數(shù)據(jù)離散程度的一個簡便方法,極差是一組數(shù)據(jù)中最大值與最小值的差距,它能說明數(shù)據(jù)的最大變動范圍,但由于它是兩個極端值進行計算得到的結(jié)果,沒有考慮到中間值的變動情況,所以只是一個較粗糙的計算離散程度的方法。除了極差以外,平均差、方差、標(biāo)準(zhǔn)差、協(xié)方差都是針對數(shù)據(jù)離散程度的度量方法。數(shù)據(jù)的度量1)平均差平均差是指各個變量值同平均數(shù)的離差絕對值的算術(shù)平均數(shù)。平均差越大,表明各標(biāo)志值與算術(shù)平均數(shù)的差異程度越大,該算術(shù)平均數(shù)的代表性就越??;平均差越小,表明各標(biāo)志值與算術(shù)平均數(shù)的差異程度越小,該算術(shù)平均數(shù)的代表性就越大。平均差的公式如下:平均差受極端值影響較小,所以在對數(shù)據(jù)的離散程度進行度量時比較有代表性。數(shù)據(jù)的度量2)方差和標(biāo)準(zhǔn)差方差是各個數(shù)據(jù)分別與其平均數(shù)之差的平方的和的平均數(shù),用表示(也可用var表示),由于方差是數(shù)據(jù)的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差的算術(shù)平方根來度量變量和均值之間的偏離程度。方差的算術(shù)平方根就是我們常說的標(biāo)準(zhǔn)差,用表示,方差和標(biāo)準(zhǔn)差都是常用的對數(shù)據(jù)離散程度的度量方法。方差的公式如下:標(biāo)準(zhǔn)差的公式如下:其中,x表示樣本的平均數(shù),n表示樣本數(shù)量,表示個體。平均數(shù)相同的兩組數(shù)據(jù),標(biāo)準(zhǔn)差越大,說明數(shù)據(jù)離散程度越大。參考代碼數(shù)據(jù)的度量假設(shè)有A、B兩組數(shù)據(jù),A組數(shù)據(jù)[0,6,8,15,16],B組數(shù)據(jù)[7,8,9,10,11],兩組數(shù)據(jù)的平均值都是9,根據(jù)公式可計算得到A組數(shù)據(jù)的標(biāo)準(zhǔn)差約為5.9,B組數(shù)據(jù)的標(biāo)準(zhǔn)差約為1.4,說明A組數(shù)據(jù)較B組數(shù)據(jù)離散,從數(shù)據(jù)的排列上我們也可看出,A組數(shù)據(jù)間隔較大,B組數(shù)據(jù)較密集。在Numpy中實現(xiàn)方差和標(biāo)準(zhǔn)差的函數(shù)分別是var()和std()。數(shù)據(jù)的度量3)協(xié)方差協(xié)方差表示兩個變量的總體誤差,如果兩個變量的變化趨勢一致,也就是說如果其中一個大于自身的平均值,另外一個也大于自身的平均值,那么兩個變量之間的協(xié)方差就是正值。如果兩個變量的變化趨勢相反,即其中一個大于自身的平均值,另外一個卻小于自身的平均值,那么兩個變量之間的協(xié)方差就是負(fù)值。協(xié)方差的公式如下:通俗解釋就是:X變大,同時Y也變大,說明X、Y兩個變量是同向變化的,這時協(xié)方差是正的;X變大,同時Y變小,說明X、Y兩個變量是反向變化的,這時協(xié)方差是負(fù)的。總體來說就是如果協(xié)方差結(jié)果為正值,說明兩者是正相關(guān),如果協(xié)方差結(jié)果為負(fù)值,則說明兩者是負(fù)相關(guān)。如果協(xié)方差結(jié)果為0,就是統(tǒng)計上的“相互獨立“。數(shù)據(jù)的度量方差是協(xié)方差的一種特殊情況(可以理解為:方差描述一維數(shù)據(jù),協(xié)方差描述二維數(shù)據(jù))。協(xié)方差的運算性質(zhì)可總結(jié)如下:Cov(X,Y)=Cov(Y,X)Cov(aX,bY)=abCov(X,Y),(a、b是常數(shù))Cov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)協(xié)方差只能處理二維的問題,如果維數(shù)增加,就需要計算它們兩兩之間的協(xié)方差,這時就用到了協(xié)方差矩陣,以三維數(shù)據(jù)為例,數(shù)據(jù)集{x,y,z}的協(xié)方差矩陣為:可見,協(xié)方差矩陣是一個對稱的矩陣,而且對角線是各個維度上的方差。參考代碼數(shù)據(jù)的度量4)相關(guān)系數(shù)相關(guān)系數(shù)是最早由統(tǒng)計學(xué)家卡爾·皮爾遜設(shè)計的統(tǒng)計指標(biāo),是研究變量之間線性相關(guān)程度的量,一般用字母r表示。由于研究對象的不同,相關(guān)系數(shù)有多種定義方式,常見的相關(guān)系數(shù)為簡單相關(guān)系數(shù),簡單相關(guān)系數(shù)又稱皮爾遜相關(guān)系數(shù)或者線性相關(guān)系數(shù),公式如下:從公式中可以看出,X、Y兩個變量的相關(guān)系數(shù)就是用X、Y的協(xié)方差除以X的標(biāo)準(zhǔn)差和Y的標(biāo)準(zhǔn)差,所以相關(guān)系數(shù)也可以看成是一種剔除了兩個變量量綱影響后的特殊協(xié)方差。r值的絕對值介于0~1之間,通常來說,r越接近1,表示X、Y兩個量之間的相關(guān)程度就越強,反之,r越接近于0,X、Y兩個量之間的相關(guān)程度就越弱。數(shù)據(jù)的度量3Numpy中常用的數(shù)據(jù)度量函數(shù)總結(jié)分類度量指標(biāo)概念Numpy中對應(yīng)方法集中趨勢度量平均值一組數(shù)據(jù)中所有數(shù)據(jù)之和再除以這組數(shù)據(jù)的個數(shù)mean()加權(quán)均值各數(shù)值乘以相應(yīng)的權(quán)數(shù),然后加總求和得到總體值,再除以總的單位數(shù)average()中位數(shù)一組數(shù)據(jù)按照大小順序排列后,居于中間位置的數(shù)median()離散程度度量方差各個數(shù)據(jù)分別與其平均數(shù)之差的平方的和的平均數(shù)var()標(biāo)準(zhǔn)差方差的算術(shù)平方根std()協(xié)方差表示兩個變量的總體誤差,協(xié)方差結(jié)果為正值,說明兩者是正相關(guān),協(xié)方差結(jié)果為負(fù)值,則說明兩者是負(fù)相關(guān),如果協(xié)方差結(jié)果為0,就是統(tǒng)計上的“相互獨立“cov()相關(guān)系數(shù)研究變量之間線性相關(guān)程度的量,可以看成是一種剔除了兩個變量量綱影響后的特殊協(xié)方差corrcoef()常用距離公式在數(shù)據(jù)分析過程中,經(jīng)常需要計算變量之間的距離,本節(jié)主要介紹歐式距離、曼哈頓距離、馬氏距離這3種常見的距離。1.歐式距離歐式距離,也稱歐幾里得度量(euclideanmetric),指在m維空間中兩個點之間的真實距離,或者向量的自然長度(即該點到原點的距離)。在二維和三維空間中的歐氏距離就是兩點之間的實際距離,如圖所示。二維空間歐式距離公式如下:參考代碼常用距離公式1.歐式距離常用距離公式2.曼哈頓距離在介紹曼哈頓距離之前,我們先看下圖圖中紅線代表曼哈頓距離,綠色代表歐氏距離,也就是直線距離,而藍色和黃色代表等價的曼哈頓距離。曼哈頓距離(ManhattanDistance),又叫出租車幾何,是由十九世紀(jì)的赫爾曼·閔可夫斯基所創(chuàng)詞匯,是一種使用在幾何度量空間的幾何學(xué)用語,用以標(biāo)明兩個點在標(biāo)準(zhǔn)坐標(biāo)系上的絕對軸距總和。二維空間曼哈頓距離公式如下:公式表示坐標(biāo)為(x1,y1)的i點與坐標(biāo)(x2,y2)的j點的曼哈頓距離,對于一個具有正南正北、正東正西方向規(guī)則布局的城鎮(zhèn)街道,從一點到達另一點的距離正是在南北方向上旅行的距離加上在東西方向上旅行的距離,因此曼哈頓距離又稱為出租車距離,曼哈頓距離不是距離不變量,當(dāng)坐標(biāo)軸變動時,點間的距離就會不同。常用距離公式2.曼哈頓距離N維空間曼哈頓距離公式如下:公式表示N維空間點i(x11,x12,…,x1n)與j(x21,x22,…,x2n)的曼哈頓距離。參考代碼常用距離公式3.馬氏距離馬氏距離(MahalanobisDistance)是由印度統(tǒng)計學(xué)家馬哈拉諾比斯(P.C.Mahalanobis)提出的,表示數(shù)據(jù)的協(xié)方差距離,它是一種有效的計算兩個未知樣本集的相似度的方法。馬氏距離是基于樣本分布的一種距離,物理意義就是在規(guī)范化的主成分空間中的歐氏距離。所謂規(guī)范化的主成分空間就是利用主成分分析對一些數(shù)據(jù)進行主成分分解,再對所有主成分分解軸做歸一化,形成新的坐標(biāo)軸,由這些坐標(biāo)軸形成的空間就是規(guī)范化的主成分空間,如圖所示。馬氏距離的公式如下:

常用距離公式歐氏距離雖然很常用,但是它有明顯的缺點,即將樣品的不同屬性之間的差別等同看待,即極易受量綱影響,這一點有時不能滿足實際要求。馬氏距離不受量綱的影響,兩點之間的馬氏距離與原始數(shù)據(jù)的測量單位無關(guān),馬氏距離可以排除變量之間的相關(guān)性的干擾。歐式距離與馬氏距離的對比如圖所示。參考代碼常用距離公式scipy.spatial.distance模塊下的pdist函數(shù)可以實現(xiàn)馬氏距離。舉個例子來說明,如果我們以厘米為單位來測量人的身高,以克(g)為單位測量人的體重。每個人被表示為一個兩維向量,如一個人身高173cm,體重50000g,表示為(173,50000),根據(jù)身高體重的信息來判斷體型的相似程度。我們已知小明(160,60000);小王(160,59000);小李(170,60000)。根據(jù)常識可以知道小明和小王體型相似。但是如果根據(jù)歐幾里得距離來判斷,小明和小王的距離要遠遠大于小明和小李之間的距離,即小明和小李體型相似。這是因為不同特征的度量標(biāo)準(zhǔn)之間存在差異而導(dǎo)致判斷出錯。以克(g)為單位測量人的體重,數(shù)據(jù)分布比較分散,即方差大,而以厘米為單位來測量人的身高,數(shù)據(jù)分布就相對集中,方差小。馬氏距離的目的就是把方差歸一化,使得特征之間的關(guān)系更加符合實際情況。常用概率分布概率分布,是指用于表述隨機變量取值的概率規(guī)律介紹,簡單理解就是在統(tǒng)計圖中表示概率,橫軸是數(shù)據(jù)的值,縱軸是橫軸上對應(yīng)數(shù)據(jù)值的概率。概率分布可以很好地展現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律,這里介紹幾種常用的概率分布。1.0-1分布(伯努利分布)0-1分布又稱伯努利分布(BernouliDistribution)、兩點分布,是一個最簡單的分布,即只先進行一次事件試驗,該事件發(fā)生的概率為p,不發(fā)生的概率為q=1-p,0-1分布也就是n=1情況下的二項分布,任何一個只有兩種結(jié)果的隨機現(xiàn)象都服從0-1分布。k=0時,P{X=0}=1-p;k=1時,P{X=1}=p。其中,0<p<1,則稱X服從0-1分布。常用概率分布2.二項分布(n重伯努利分布)二項分布(Binomialdistribution)就是重復(fù)n次獨立的伯努利試驗。在每次試驗中只有兩種可能的結(jié)果,而且兩種結(jié)果發(fā)生與否互相對立,并且相互獨立,與其它各次試驗結(jié)果無關(guān),事件發(fā)生與否的概率在每一次獨立試驗中都保持不變,則這一系列試驗總稱為n重伯努利實驗,當(dāng)試驗次數(shù)為1時,二項分布服從0-1分布。二項分布的公式如下:通俗理解,當(dāng)你遇到一個事情,如果該事情發(fā)生次數(shù)固定,而你感興趣的是成功的次數(shù),那么就可以用二項分布的公式快速計算出概率來。其中,X指的是試驗的次數(shù),指的是組合,這個公式表示一個伯努利分布中得1的概率為p,0的概率為1-p,那么連續(xù)試驗n次,出現(xiàn)p的情況恰好是k次的概率。我們舉一個生活中的例子,假如小明參加英語四級考試,每次考試通過的概率是1/3,如果他連續(xù)考試4次,恰好通過2次的概率是多少?這個例子中p=1/3,n=4,k=2,代入公式:所以小明連續(xù)考試4次,恰好通過2次的概率是8/27。參考代碼常用概率分布3.正態(tài)分布正態(tài)分布(NormalDistribution),也稱“常態(tài)分布”,又名高斯分布(Gaussiandistribution),最早由德國的數(shù)學(xué)家和天文學(xué)家Moivre于1733年在求二項分布的漸近公式中得到,但由于德國數(shù)學(xué)家Gauss率先將其應(yīng)用于天文學(xué)家研究,故正態(tài)分布又叫高斯分布。正態(tài)分布是一個在數(shù)學(xué)、物理及工程等領(lǐng)域都非常重要的概率分布,在統(tǒng)計學(xué)的許多方面有著重大的影響力。正態(tài)曲線呈鐘型,兩頭低,中間高,左右對稱因其曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線。正態(tài)分布的公式如下:公式表示若隨機變量X服從一個數(shù)學(xué)期望為μ(數(shù)學(xué)期望可以理解為均值)、方差為σ2的正態(tài)分布,記為N(μ,σ2)。其概率密度函數(shù)為正態(tài)分布的期望值μ決定了其位置,其標(biāo)準(zhǔn)差σ決定了分布的幅度。當(dāng)μ=0,σ=1時的正態(tài)分布是標(biāo)準(zhǔn)正態(tài)分布。常用概率分布標(biāo)準(zhǔn)正態(tài)分布公式如下:正態(tài)分布是用來描述統(tǒng)計對象的,如果統(tǒng)計對象的分布特性符合正態(tài)分布,那么所有針對正態(tài)分布的定理和“經(jīng)驗值”都能全部套用。正態(tài)分布在自然界的應(yīng)用是很普遍的,它的特點可總結(jié)為:“一般般的很多,極端的很少”,正態(tài)分布曲線如圖所示。

參考代碼常用概率分布例:如對某一地區(qū)的女性身高做了一個隨機抽樣,一共1000人,結(jié)果發(fā)現(xiàn)他們的身高是一個,的正態(tài)分布,則可總結(jié)出:身高150~160cm和身高160~170cm的人分別有341名,共計682名(μ-σ和μ+σ之間);身高140~150cm和身高170~180cm的人分別有136名,共計272名;身高130~140cm和身高180~190cm的人分別有21名,共計42名。這些數(shù)量已經(jīng)涵蓋了統(tǒng)計總?cè)藬?shù)的99.6%,同樣地,正態(tài)分布我們也可以使用Scipy實現(xiàn)。常用概率分布4.泊松分布泊松分布(PoissonDistribution),是一種統(tǒng)計與概率學(xué)里常見到的離散概率分布,由法國數(shù)學(xué)家西莫恩·德尼·泊松(Siméon-DenisPoisson)在1838年時發(fā)表。泊松分布公式如下:

常用概率分布泊松分布曲線如圖所示。泊松分布適用的事件需滿足3個條件:A.事件是小概率事件。B.事件的每次發(fā)生都是獨立的,不會互相影響。C.事件的概率是穩(wěn)定的。常用概率分布

參考代碼PART02數(shù)據(jù)可視化可視化圖表認(rèn)知可視化圖表是利用點、線、面、體等要素繪制而成,用于呈現(xiàn)數(shù)據(jù)大小關(guān)系、變動情況、分布情況等信息的圖形。數(shù)據(jù)可視化具有形象生動、通俗易懂、簡潔明了等優(yōu)點,在大數(shù)據(jù)時代,數(shù)據(jù)可視化可以和數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等技術(shù)結(jié)合使用實現(xiàn)商業(yè)智能??梢暬瘓D表認(rèn)知1.數(shù)據(jù)可視化特性真實性可視化結(jié)果應(yīng)該準(zhǔn)確地反應(yīng)數(shù)據(jù)的本質(zhì)。01直觀性數(shù)據(jù)呈現(xiàn)要直觀、形象,有利于人們認(rèn)知數(shù)據(jù)背后所蘊藏的現(xiàn)象和規(guī)律。關(guān)聯(lián)性可視化時要突出地呈現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性。藝術(shù)性可視化時要充分考慮大眾審美,使數(shù)據(jù)呈現(xiàn)更有藝術(shù)性。交互性數(shù)據(jù)呈現(xiàn)時要方便用戶控制數(shù)據(jù),實現(xiàn)用戶和數(shù)據(jù)的可交互性。02030405可視化圖表認(rèn)知2.可視化圖表分類分類圖表名字作用類別比較型【比較類別之間的不同】柱形圖柱形圖適用于二維數(shù)據(jù)集中(x軸、y軸),一個維度數(shù)據(jù)的比較,利用柱子的高度,反映數(shù)據(jù)的差異;文本維度/時間維度通常作為x軸,數(shù)值型維度作為y軸餅圖餅圖適用于二維數(shù)據(jù)中,一個維度數(shù)據(jù)的占比情況(各項占總體的占比),多用于反映某個部分占整體的比重;數(shù)據(jù)不精細(xì),不適合分類較多的情況雷達圖雷達圖適用于多維數(shù)據(jù)(四維以上),且每個維度必須可以排序,常用于多項指標(biāo)的綜合分析,可用于經(jīng)營狀況,財務(wù)健康程度分析;但是雷達圖數(shù)據(jù)點最多6個,否則無法辨別數(shù)據(jù)關(guān)系型【查看兩個或兩個以上變量之間的關(guān)系】散點圖適用于二維數(shù)據(jù)(2個連續(xù)字段分別映射到x、y軸),觀察數(shù)據(jù)的分布情況;也可用于三維數(shù)據(jù),可以用形狀或顏色標(biāo)識第三維氣泡圖氣泡圖是散點圖的一種變體,通過每個點的面積大小,反映第三維;因為用戶不善于判斷面積大小,所以氣泡圖只適用不要求精確辨識第三維的場合數(shù)據(jù)分布型【查看數(shù)據(jù)的分布情況】直方圖直方圖用于展示數(shù)據(jù)在不同區(qū)間內(nèi)的分布情況;柱形圖矩形長度代表頻數(shù),寬度代表類別,面積無意義;直方圖矩形長度代表頻數(shù),寬度代表組距,面積有意義箱線圖箱線圖是一種用于顯示一組數(shù)據(jù)分布情況的統(tǒng)計圖,用最大值、最小值、中位數(shù)、下四分位數(shù)、上四分位數(shù)共5個數(shù)字對分布進行概括熱力圖適用于三維數(shù)據(jù)(3個連續(xù)字段,2個分布映射到x、y軸,第3個映射到顏色),以高亮形式展現(xiàn)數(shù)據(jù),常和地圖組合用于表現(xiàn)道路交通狀況時間序列型【數(shù)據(jù)隨著時間的變化趨勢】折線圖適合多個二維數(shù)據(jù)集的比較,適合數(shù)據(jù)量較大的數(shù)據(jù)地理空間型【代表地理分布】地圖需要用到坐標(biāo)維度,可以是經(jīng)緯度、也可以是地域名稱,可以與散點圖、熱力圖、曲線圖等結(jié)合使用可視化圖表認(rèn)知3.常用圖表介紹下面將對柱形圖、餅圖、散點圖、直方圖、箱線圖、熱力圖、折線圖共7種常用圖表進行展開介紹。1)柱形圖柱形圖(BarChart),又稱柱狀圖、長條圖,是一種以長方形的長度為度量的統(tǒng)計圖表。柱形圖是分析師最常用到的圖表之一,旨在利用柱子的高度,反映數(shù)據(jù)的差異,適用于二維數(shù)據(jù)集中(x軸、y軸),一個維度數(shù)據(jù)的比較,文本維度/時間維度通常作為x軸,數(shù)值型維度作為y軸。柱形圖按照呈現(xiàn)方式可分為基礎(chǔ)柱形圖、橫向柱形圖、多柱形圖、堆積柱形圖等,如圖所示??梢暬瘓D表認(rèn)知3.常用圖表介紹下面將對柱形圖、餅圖、散點圖、直方圖、箱線圖、熱力圖、折線圖共7種常用圖表進行展開介紹。2)餅圖餅圖(英文學(xué)名為SectorGraph,又名PieGraph)經(jīng)常表示一組數(shù)據(jù)的占比,可以用扇面、圓環(huán)、或者多圓環(huán)嵌套。餅圖適用于二維數(shù)據(jù)中,一個維度數(shù)據(jù)的占比情況(各項占總體的占比),多用于反映某個部分占整體的比重,餅圖數(shù)據(jù)不精細(xì),不適合分類較多的情況。餅圖按照呈現(xiàn)方式可分為基礎(chǔ)餅圖、分裂餅圖、陰影餅圖、環(huán)形圖等,如圖所示??梢暬瘓D表認(rèn)知3.常用圖表介紹下面將對柱形圖、餅圖、散點圖、直方圖、箱線圖、熱力圖、折線圖共7種常用圖表進行展開介紹。3)雷達圖雷達圖也叫蛛網(wǎng)圖,常用于企業(yè)經(jīng)營狀況,財務(wù)健康程度的分析。在財務(wù)分析領(lǐng)域,雷達圖是重要的工具,可以將本單位的各種財務(wù)比率和友商或整個行業(yè)的財務(wù)比率進行橫向?qū)Ρ龋部梢詫?dāng)前的財務(wù)比率和之前的財務(wù)比率進行縱向?qū)Ρ?。圖為某單位06年和10年主要財務(wù)支出的對比圖??梢暬瘓D表認(rèn)知3.常用圖表介紹下面將對柱形圖、餅圖、散點圖、直方圖、箱線圖、熱力圖、折線圖共7種常用圖表進行展開介紹。4)散點圖散點圖(ScatterGraph)也叫X-Y圖,它將所有的數(shù)據(jù)以點的形式展現(xiàn)在直角坐標(biāo)系上,以顯示變量之間的相互影響程度,點的位置由變量的數(shù)值決定。散點圖主要用于查看數(shù)據(jù)的分布情況,對于那些變量之間存在密切關(guān)系,但是這些關(guān)系又不像數(shù)學(xué)公式和物理公式那樣能夠精確表達的,散點圖是一種很好的圖形工具。散點圖適用于二維數(shù)據(jù),2個連續(xù)字段分別映射到x、y軸,然后觀察數(shù)據(jù)的分布情況,也可用于三維數(shù)據(jù),可以用形狀或顏色標(biāo)識第三維。圖為散點圖示例。從圖中可以看出,散點圖能讓我們發(fā)現(xiàn)變量之間隱藏的關(guān)系,可以為決策作出重要的引導(dǎo)作用??梢暬瘓D表認(rèn)知3.常用圖表介紹下面將對柱形圖、餅圖、散點圖、直方圖、箱線圖、熱力圖、折線圖共7種常用圖表進行展開介紹。5)直方圖直方圖(Histogram),又稱質(zhì)量分布圖,是一種統(tǒng)計報告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況,一般用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況,如圖所示。直方圖和柱形圖很類似,兩者之間的區(qū)別可總結(jié)如下:直方圖用于展示數(shù)據(jù)在不同區(qū)間內(nèi)的分布情況。柱形圖矩形長度/高度代表頻數(shù),寬度代表類別,面積無意義。直方圖矩形長度/高度代表頻數(shù),寬度代表組距,面積有意義。可視化圖表認(rèn)知3.常用圖表介紹下面將對柱形圖、餅圖、散點圖、直方圖、箱線圖、熱力圖、折線圖共7種常用圖表進行展開介紹。6)箱線圖箱線圖又稱盒須圖、盒式圖和箱型圖,是一種用作顯示一組數(shù)據(jù)分布情況的統(tǒng)計圖。箱線圖主要用于反映原始數(shù)據(jù)分布的特征,還可以進行多組數(shù)據(jù)分布特征的比較。箱線圖用5類數(shù)字對分布進行概括,即一組數(shù)據(jù)的最大值、最小值、中位數(shù)、下四分位數(shù)及上四分位數(shù),對于數(shù)據(jù)集中的異常值,通常會以單獨的點的形式繪制,如圖所示。從箱線圖中我們可以觀察到如下信息:數(shù)據(jù)集的最大值、最小值、中位數(shù)等關(guān)鍵信息。數(shù)據(jù)集中是否存在異常值。數(shù)據(jù)的分布情況(分散還是集中,是否對稱等)??梢暬瘓D表認(rèn)知3.常用圖表介紹下面將對柱形圖、餅圖、散點圖、直方圖、箱線圖、熱力圖、折線圖共7種常用圖表進行展開介紹。7)熱力圖熱力圖即以高亮形式展現(xiàn)數(shù)據(jù),最初是由軟件設(shè)計師CormacKinney于1991年提出并創(chuàng)造的,用來描述一個2D顯示實時金融市場信息。經(jīng)過多年的演化,如今的熱力圖更規(guī)范,常用來表示道路交通狀況和APP用戶行為分析等。圖為熱力圖示例。Python數(shù)據(jù)可視化可以實現(xiàn)數(shù)據(jù)可視化的工具很多,包括Tableau、Echars等。這里主要介紹使用Python的Matplotlib庫實現(xiàn)數(shù)據(jù)可視化。Matplotlib是Python中最基礎(chǔ)也是最核心的數(shù)據(jù)可視化庫,它不僅提供散點圖、折線圖、餅圖等常用的圖表繪制函數(shù),而且提供豐富的畫布設(shè)置、顏色設(shè)置等方法。繪制圖表的步驟一般可總結(jié)為設(shè)置畫布(可不設(shè)置,采用默認(rèn)),繪制圖像(折線圖、散點圖、柱形圖等),設(shè)置標(biāo)題、網(wǎng)格線、圖例等,展示圖像。1.設(shè)置畫布Matplotlib的pyplot包中的figure方法用于設(shè)置畫布,語法如下:matplotlib.pyplot.figure(num,figsize,dpi,facecolor,edgecolor,frameon=True)參數(shù)描述num圖像編號或名稱figsize指定畫布的大小,單位為英寸dpi分辨率,即每英寸包含多少像素,默認(rèn)為80facecolor背景顏色edgecolor邊框顏色frameon是否顯示邊框,默認(rèn)為TruePython數(shù)據(jù)可視化2.繪制一個圖像Matplotlib的pyplot包中封裝了很多畫圖的函數(shù),包括折線圖、柱形圖、餅圖等。其中plot是最基本的繪圖函數(shù),用于繪制折線圖,接下來我們就用plot函數(shù)演示如何繪制一個圖表,代碼如下:importnumpyasnpimportmatplotlib.pyplotasplt#設(shè)置畫布plt.figure(num='001',figsize=(5,6),dpi=150,edgecolor='b',frameon=False)#構(gòu)建x軸、y軸數(shù)據(jù)x=np.arange(100)y=np.square(x)#使用plot函數(shù)繪制圖表plt.plot(x,y)#展示圖像plt.show()Python數(shù)據(jù)可視化3.設(shè)置標(biāo)題、圖例等標(biāo)題、圖例等其他設(shè)置的相關(guān)方法總結(jié)如表所示。函數(shù)說明舉例title()設(shè)置圖表標(biāo)題plt.title("折線圖",{'fontsize':15,'va':'bottom'})xlabel()設(shè)置x軸標(biāo)題plt.xlabel("x軸")ylabel()設(shè)置y軸標(biāo)題plt.ylabel("y軸")xticks()設(shè)置x軸刻度plt.xticks([2,4,6,8])grid()設(shè)置網(wǎng)格線plt.grid(color='#191970',axis='x')legend()設(shè)置圖例plt.legend(('圖例',),loc='upperleft',fontsize=10)text()設(shè)置文本標(biāo)簽plt.text(0,19,'19',ha='center',va='bottom',fontsize=9)參考代碼Python數(shù)據(jù)可視化3.設(shè)置標(biāo)題、圖例等有了這些設(shè)置,我們就可以畫一個內(nèi)容相對豐富的圖像,代碼如下:Python數(shù)據(jù)可視化4.繪制子圖Matplotlib可以繪制子圖,即把很多張圖畫到一個顯示界面,在作對比分析的時候非常有用。Matplotlib繪制子圖最常用的兩種方式分別是通過matplotlib.pyplot的subplot方法和通過matplotlib.pyplot.figure的add_subplot方法,舉例如下:importnumpyasnpimportpandasaspdimportmatplotlib.pyplotasplt#正常顯示中文標(biāo)簽、符號plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falseplt.figure(figsize=(10,6),dpi=100)#使用plt的subplot方法#畫第1個圖x1=np.arange(1,100)plt.subplot(221)plt.title('繪制y=x*x圖像')plt.plot(x1,x1*x1)#畫第2個圖plt.subplot(222)plt.title('繪制y=1/x的圖像')plt.plot(x1,1/x1)#使用figure的add_subplot方法fig=plt.figure(figsize=(10,6),dpi=100)#畫第3個圖x2=np.arange(0,3*np.pi,0.1)ax1=fig.add_subplot(221)plt.title('繪制正弦函數(shù)')ax1.plot(x2,np.sin(x2))#畫第4個圖ax2=fig.add_subplot(222)plt.title('繪制余弦函數(shù)')ax2.plot(x2,np.cos(x2))plt.show()使用Matplotlib繪制常用圖表Matplotlib可以繪制多種圖表,折線圖、柱形圖、餅圖、散點圖等常用圖表的實現(xiàn)方法總結(jié)如表所示。方法說明描述plot()折線圖可通過參數(shù)設(shè)置曲線顏色、線條格式、標(biāo)記樣式等屬性bar()柱形圖可繪制多柱形圖、堆積柱形圖、橫向柱形圖等多種形式柱形圖pie()餅圖可繪制分裂餅圖、陰影餅圖、環(huán)形圖等多種形式餅圖scatter()散點圖可通過參數(shù)設(shè)置散點的大小、顏色、形狀等屬性hist()直方圖可繪制縱向、橫向直方圖,可設(shè)置箱子個數(shù)、顏色等屬性boxplot()箱線圖可繪制凹口和非凹口形式的箱線圖imshow()熱力圖可設(shè)置顏色地圖和索引位置使用Matplotlib繪制常用圖表1Matplotlib繪制折線圖plot方法是Matplotlib的pyplot包中用于繪制折線圖的方法,也是Matplotlib中最基本的繪圖方法。plot方法的語法如下:matplotlib.pyplot.plot(x,

y,format_string,**kwargs)參數(shù)描述xx軸數(shù)據(jù)yy軸數(shù)據(jù)format_string用于控制曲線格式,包括曲線顏色、線條格式、標(biāo)記樣式**kwargs鍵值參數(shù)分類設(shè)置值說明color【曲線顏色】‘b’藍色‘g’綠色‘r’紅色‘y’黃色‘c’青色‘k’黑色‘m’洋紅色‘w’白色‘#FFB6C1’(采用十六進制顏色值)淺粉紅linestyle【線條格式】'-'或'solid'實線,默認(rèn)值':'或'dotted'點虛線'-.'或'dashdot'點劃線'--'或'dashed'雙劃線’’或'None'什么都不畫marker【標(biāo)記樣式】','像素,默認(rèn)值'.'點'o'實心圓'v'朝下的三角形'^'朝上的三角形'<'朝左的三角形'>'朝右的三角形'1'下花三角'2'上花三角'3'左花三角'4'右花三角's'實心正方形'p'實心五角形'*'星形'h'豎六邊形'H'橫六邊形'+'加號'x'叉號'D'大菱形'd'小菱形'|'垂直線'_'水平線參考代碼使用Matplotlib繪制常用圖表例:plot的使用,代碼如下使用Matplotlib繪制常用圖表2Matplotlib繪制柱形圖Matplotlib的pyplot包中的bar方法用于繪制柱形圖,語法如下:matplotlib.pyplot.bar(x,height,width,bottom,align=’center’,**kwargs)參數(shù)描述xx軸數(shù)據(jù)heighty軸數(shù)據(jù),柱形圖的高度width柱形圖的寬度,默認(rèn)為0.8bottom柱形圖的y坐標(biāo),默認(rèn)為Nonealign對齊方式,默認(rèn)值為’center’**kwargs其他可選參數(shù),如color、alpha、label等分類設(shè)置值說明color【曲線顏色】‘b’藍色‘g’綠色‘r’紅色‘y’黃色‘c’青色‘k’黑色‘m’洋紅色‘w’白色‘#FFB6C1’(采用十六進制顏色值)淺粉紅linestyle【線條格式】'-'或'solid'實線,默認(rèn)值':'或'dotted'點虛線'-.'或'dashdot'點劃線'--'或'dashed'雙劃線’’或'None'什么都不畫marker【標(biāo)記樣式】','像素,默認(rèn)值'.'點'o'實心圓'v'朝下的三角形'^'朝上的三角形'<'朝左的三角形'>'朝右的三角形'1'下花三角'2'上花三角'3'左花三角'4'右花三角's'實心正方形'p'實心五角形'*'星形'h'豎六邊形'H'橫六邊形'+'加號'x'叉號'D'大菱形'd'小菱形'|'垂直線'_'水平線參考代碼使用Matplotlib繪制常用圖表例:Matplotlib繪制柱形圖使用Matplotlib繪制常用圖表3.Matplotlib繪制餅圖Matplotlib的pyplot包中的pie方法用于繪制餅圖,語法如下:matplotlib.pyplot.pie(x,explode,labels,colors,autopct,pctdistance,shadow,labeldistance,radius,counterclock,wedgeprops,textprops,center,frame,rotatelabels)參數(shù)描述x每一塊餅圖的比例explode每一塊餅圖距離中心的位置,默認(rèn)為Nonelabels標(biāo)簽,可設(shè)置每一塊餅圖外側(cè)顯示的文字說明,默認(rèn)為Nonecolors設(shè)置每一塊餅圖的顏色,默認(rèn)為Noneautopct設(shè)置餅圖百分比,默認(rèn)為Nonepctdistance指定百分比的位置刻度,默認(rèn)值為0.6shadow餅圖下面繪制陰影,默認(rèn)為Falselabeldistance指定繪制標(biāo)記的位置,默認(rèn)為1.1radius餅圖半徑,默認(rèn)為1counterclock指針方向,True表示逆時針,F(xiàn)alse表示順時針,默認(rèn)為Truewedgeprops可用于設(shè)置wedge線寬,字典類型,默認(rèn)為Nonetextprops設(shè)置標(biāo)簽和比例文字的格式,字典類型,默認(rèn)為Nonecenter表示圖表中心的位置,默認(rèn)為(0,0)frame是否顯示軸框架,默認(rèn)為False(不顯示)rotatelabels旋轉(zhuǎn)標(biāo)簽角度,默認(rèn)為False參考代碼使用Matplotlib繪制常用圖表例:Matplotlib繪制餅圖使用Matplotlib繪制常用圖表4Matplotlib繪制散點圖Matplotlib的pyplot包中的scatter方法用于繪制散點圖,語法如下:matplotlib.pyplot.scatter(x,y,s,c,marker,cmap,norm,vmin,vmax,alpha,linewidths,edgecolors,**kwargs)參數(shù)描述x,y數(shù)據(jù)s標(biāo)記大小c標(biāo)記顏色,默認(rèn)為藍色marker標(biāo)記樣式,默認(rèn)為’o’cmap顏色地圖,默認(rèn)為Nonenorm,vmin,vmaxnorm與vmin,vmax一起使用來設(shè)置亮度,如果傳遞norm實例,vmin和vmax將被忽略,默認(rèn)為Nonealpha用于設(shè)置透明度(0~1之間的數(shù)),默認(rèn)為Nonelinewidths線寬,標(biāo)記邊緣寬度,默認(rèn)為Noneedgecolors輪廓顏色,默認(rèn)為None**kwargs其他參數(shù)參考代碼使用Matplotlib繪制常用圖表例:Matplotlib繪制散點圖使用Matplotlib繪制常用圖表5.Matplotlib繪制直方圖Matplotlib的pyplot包中的hist方法用于繪制直方圖,語法如下:matplotlib.pyplot.hist(x,bins,range,density,weights,cumulative,bottom,histtype,align,orientation,rwidth,log,color,label,stacked)參數(shù)描述x數(shù)據(jù)集,用于指定每個柱狀圖(箱子)的數(shù)據(jù),對應(yīng)x軸bins用于指定柱狀圖(箱子)的個數(shù),默認(rèn)是10range用于指定顯示的區(qū)間,默認(rèn)為Nonedensity顯示頻率統(tǒng)計結(jié)果,默認(rèn)為Falseweights用于設(shè)置權(quán)重,默認(rèn)為Nonecumulative用于設(shè)置是否累計計數(shù),默認(rèn)為Falsebottom用于設(shè)置每個箱子底部的位置,默認(rèn)為Nonehisttype直方圖類型,默認(rèn)值為bar,可選bar、barstacked、step、stepfilledalign設(shè)置水平分布,默認(rèn)值為mid,可選left、right、midorientation用于設(shè)置柱狀圖的方向,默認(rèn)為vertical,可選vertical、horizontalrwidth相對寬度,默認(rèn)為Nonelog設(shè)置y軸是否選擇指數(shù)刻度,默認(rèn)值為Falsecolor用于指定柱狀圖的顏色,默認(rèn)為Nonelabel用于設(shè)置標(biāo)簽,默認(rèn)為Nonestacked用于設(shè)置是否為堆積條狀,默認(rèn)為False參考代碼使用Matplotlib繪制常用圖表例:Matplotlib繪制直方圖使用Matplotlib繪制常用圖表6.Matplotlib繪制箱線圖Matplotlib的pyplot包中的boxplot方法用于繪制箱線圖,語法如下:matplotlib.pyplot.boxplot(x,notch,sym,vert,whis,positions,widths,patch_artist,bootstrap,usermedians,conf_intervals,meanline,showmeans,showcaps,showbox,showfliers,boxprops,labels,flierprops,medianprops,meanprops,capprops,whiskerprops,manage_ticksautorange,zorder)參數(shù)描述x指定要繪制箱線圖的數(shù)據(jù)notch是否以凹口的形式展現(xiàn)箱線圖,默認(rèn)為Falsesym指定異常點的形狀,默認(rèn)為‘+’顯示vert是否需要將箱線圖垂直擺放,默認(rèn)為Truewhis指定上下限與上下四分位的距離,默認(rèn)值為1.5positions指定箱線圖的位置,默認(rèn)范圍為(1,N+1)widths指定箱線圖的寬度,默認(rèn)為0.5patch_artist是否填充箱體的顏色,默認(rèn)為Nonemeanline是否用線的形式表示均值,默認(rèn)為False,用點的形式表示showmeans是否顯示均值,默認(rèn)為Falseshowcaps是否顯示箱線圖頂端和末端的兩條線,默認(rèn)為Trueshowbox是否顯示箱線圖的箱體,默認(rèn)為Trueshowfliers是否顯示異常值,默認(rèn)為Trueboxprops設(shè)置箱體的屬性,如邊框色,填充色等,默認(rèn)為Nonelabels為箱線圖添加標(biāo)簽,類似于圖例的作用,默認(rèn)為Noneflierprops設(shè)置異常值的屬性,如異常點的形狀、大小、填充色等,默認(rèn)為Nonemedianprops設(shè)置中位數(shù)的屬性,如線的類型、粗細(xì)等,默認(rèn)為Nonemeanprops設(shè)置均值的屬性,如點的大小、顏色等,默認(rèn)為Nonecapprops設(shè)置箱線圖頂端和末端線條的屬性,如顏色、粗細(xì)等,默認(rèn)為Nonewhiskerprops設(shè)置須的屬性,如顏色、粗細(xì)、線的類型等,默認(rèn)為None使用Matplotlib繪制常用圖表例:Matplotlib繪制箱線圖importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falseplt.figure(figsize=(10,10),dpi=100)x31=np.random.randint(40,size=(1000,))x32=np.random.randint(40,80,size=(10,))x33=np.random.randint(80,100,size=(100,))#patch_artist=True描點上色colors=['pink','lightblue','lightgreen']labels=['數(shù)據(jù)1','數(shù)據(jù)2','數(shù)據(jù)3']plt.subplot(221)bplot=plt.boxplot([x31,x32,x33],patch_artist=True,showmeans=True,labels=labels)#設(shè)置顏色forpatch,colorinzip(bplot['boxes'],colors):patch.set_facecolor(color)plt.subplot(222)bplot=plt.boxplot([x31,x32,x33],showmeans=True,notch=True,labels=labels)plt.show()從上圖中可以看出,數(shù)據(jù)2在60~80間的數(shù)據(jù)較40~60間的數(shù)據(jù)少,導(dǎo)致上四分位數(shù)和中位數(shù)較接近。使用Matplotlib繪制常用圖表7.Matplotlib繪制熱力圖Matplotlib的pyplot包中的imshow方法用于繪制熱力圖,語法如下:matplotlib.pyplot.imshow(x,cmap,norm,aspect,interpolation,alpha,vminvmax,origin,extent,shape,filternorm,filterrad,imlim,resample,url,hold)參數(shù)描述x指定要繪制熱力圖的數(shù)據(jù)cmap顏色地圖,默認(rèn)為None,可選Greys、Purples、Blues、Greens、Oranges、Reds、PuRd、BuPu、PuBuGn等norm將數(shù)據(jù)值縮放到(0,1),以便輸入到cmap,默認(rèn)為Noneaspect用于控制軸的縱橫比,默認(rèn)為Noneinterpolation用于顯示圖像的插值方法,默認(rèn)為None,可選nearest、bilinear、bicubic、spline16、spline36、hanning’等vmin,vmaxvmin和vmax與norm一起使用來規(guī)范亮度數(shù)據(jù),默認(rèn)為Noneorigin設(shè)置將[0,0]索引放置在軸的左上角或左下角extent設(shè)置數(shù)據(jù)坐標(biāo)中的邊界框,默認(rèn)為None,可選left,right,bottom,top使用Matplotlib繪制常用圖表例:Matplotlib繪制熱力圖importnumpyasnpimportpandasaspdimportmatplotlib.pyplotaspltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=Falseplt.figure(figsize=(10,8),dpi=100)plt.subplot(221)x41=np.random.randint(40,80,size=(10,10))#cmap可選參數(shù):Greys、Purples、Blues、Greens、Oranges、Reds、PuRd、BuPu、PuBuGn等#origin:設(shè)置將[0,0]位置放在左下角plt.imshow(x41,cmap=plt.cm.BuPu,origin='lower')#顯示顏色條plt.colorbar()plt.title('顯示隨機數(shù)')plt.subplot(222)score=np.array([[72,89,68],[88,66,94],[69,96,93],[82,85,90]])plt.xticks(range(3),['語文','數(shù)學(xué)','英語'])plt.yticks(range(4),['張三','李四','王五','趙六'])plt.imshow(score,cmap='PuRd')plt.colorbar()plt.title('某小組其中考試成績')plt.show()使用Python實現(xiàn)鳶尾花數(shù)據(jù)探索鳶尾花卉數(shù)據(jù)集是1936年由Fisher收集整理的經(jīng)典數(shù)據(jù)集,數(shù)據(jù)集中共包括3類數(shù)據(jù),每類數(shù)據(jù)50條,共計150條。每條數(shù)據(jù)包含花萼長度,花萼寬度,花瓣長度,花瓣寬度4個特征屬性和一個標(biāo)簽屬性,標(biāo)簽屬性對應(yīng)Setosa-山鳶尾,Versicolour-雜色鳶尾,Virginica-維吉尼亞鳶尾3個鳶尾花分類,如圖所示。使用Python實現(xiàn)鳶尾花數(shù)據(jù)探索1.了解鳶尾花數(shù)據(jù)基本信息1)讀取數(shù)據(jù)首先將鳶尾花數(shù)據(jù)集'iris.csv'上傳到JupyterNotebook上,然后使用pandas中的read_csv方法讀取數(shù)據(jù)。#1-讀取數(shù)據(jù)importnumpyasnpimportpandasaspddf=pd.read_csv('iris.csv')使用Python實現(xiàn)鳶尾花數(shù)據(jù)探索2)查看數(shù)據(jù)基本信息首先查看數(shù)據(jù)的形狀和屬性,如圖所示。從的運行結(jié)果可以看出,此鳶尾花數(shù)據(jù)集共有150條數(shù)據(jù),每條數(shù)據(jù)有5個屬性,其中有4個是特征屬性,1個是標(biāo)簽屬性。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論