![第3章_探索數(shù)據(jù)課件_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/e8c31510-1597-4f6c-82fd-dabcdd5823f8/e8c31510-1597-4f6c-82fd-dabcdd5823f81.gif)
![第3章_探索數(shù)據(jù)課件_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/e8c31510-1597-4f6c-82fd-dabcdd5823f8/e8c31510-1597-4f6c-82fd-dabcdd5823f82.gif)
![第3章_探索數(shù)據(jù)課件_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/e8c31510-1597-4f6c-82fd-dabcdd5823f8/e8c31510-1597-4f6c-82fd-dabcdd5823f83.gif)
![第3章_探索數(shù)據(jù)課件_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/e8c31510-1597-4f6c-82fd-dabcdd5823f8/e8c31510-1597-4f6c-82fd-dabcdd5823f84.gif)
![第3章_探索數(shù)據(jù)課件_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/21/e8c31510-1597-4f6c-82fd-dabcdd5823f8/e8c31510-1597-4f6c-82fd-dabcdd5823f85.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2022-5-11第第3章章 探索數(shù)據(jù)探索數(shù)據(jù)l3.1探索數(shù)據(jù)及其與EDA的關(guān)系l3.2鳶尾花數(shù)據(jù)集l3.3數(shù)據(jù)匯總l3.4可視化l3.5OLAP與多維數(shù)據(jù)分析2022-5-12什么是數(shù)據(jù)探索什么是數(shù)據(jù)探索?l數(shù)據(jù)探索的主要目的 有助于選擇合適的數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析技術(shù) 可以通過對(duì)數(shù)據(jù)進(jìn)行直觀檢查來(lái)發(fā)現(xiàn)模式 數(shù)據(jù)探索中使用的某些技術(shù)(如可視化)可以用于理解和解釋數(shù)據(jù)挖掘結(jié)果。 對(duì)數(shù)據(jù)進(jìn)行初步研究,以便更好地理解對(duì)數(shù)據(jù)進(jìn)行初步研究,以便更好地理解它的特殊性質(zhì)它的特殊性質(zhì).數(shù)據(jù)預(yù)處理包括:特征選擇、維歸約、規(guī)范化、數(shù)據(jù)子集選擇數(shù)據(jù)分析:描述性分析、線性回歸分析、方差分析、聚類分析、關(guān)聯(lián)分析2022
2、-5-13探索數(shù)據(jù)與探索數(shù)據(jù)與EDA的關(guān)系的關(guān)系l探索性數(shù)據(jù)分析(Exploratory Data Analysis),在上世紀(jì)六十年代被提出,其方法由美國(guó)著名統(tǒng)計(jì)學(xué)家約翰圖基(John Tukey)命名。lEDA是指對(duì)已有的數(shù)據(jù)在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計(jì)算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法。l特別是當(dāng)我們對(duì)這些數(shù)據(jù)中的信息沒有足夠的經(jīng)驗(yàn)沒有足夠的經(jīng)驗(yàn),不知道該用何種傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析不知道該用何種傳統(tǒng)統(tǒng)計(jì)方法進(jìn)行分析時(shí),探索性數(shù)據(jù)分析就會(huì)非常有效。2022-5-14lEDA強(qiáng)調(diào)可視化、聚類分析和異常檢驗(yàn)等主題。聚類分析和異常檢驗(yàn)是其主要研究領(lǐng)
3、域。l本章內(nèi)容主要是:數(shù)據(jù)匯總和可視化。不涉及聚類分析和異常檢驗(yàn)。l數(shù)據(jù)挖掘?qū)⒚枋鲂詳?shù)據(jù)分析技術(shù)本身看做目的,而統(tǒng)計(jì)學(xué)(EDA由此發(fā)源)趨向于將基于假設(shè)的檢驗(yàn)作為最終目標(biāo)。2022-5-15鳶尾花(鳶尾花(Iris)l本章主要使用鳶尾花數(shù)據(jù)集 150種鳶尾花的信息,每50種取自三個(gè)鳶尾花種之一 三種花類型 uSetosa(帶刺的)uVirginica (雜色的)uVersicolour(處女花) 四個(gè)屬性u(píng)萼片長(zhǎng)度(厘米)u萼片寬度(厘米)u花瓣長(zhǎng)度(厘米)u花瓣寬度(厘米)2022-5-16匯總統(tǒng)計(jì)(匯總統(tǒng)計(jì)(Summary Statistics)l匯總統(tǒng)計(jì)是量化的(如均值和標(biāo)準(zhǔn)差),用單個(gè)
4、數(shù)單個(gè)數(shù)或或數(shù)的小集合數(shù)的小集合捕獲可能很大的值集的各種特性。 例子:家庭平均收入 大部分匯總統(tǒng)計(jì)只需要簡(jiǎn)單的計(jì)算就可得到結(jié)果2022-5-17頻率(頻率(Frequency )l頻率定義為 關(guān)注具有該特征屬性的數(shù)據(jù)在整體數(shù)據(jù)中所占比例。主要用于無(wú)序的、分類的值的集合。例如:球隊(duì)勝率、就業(yè)率等( )iivfrequency vm具有屬性值 的對(duì)象數(shù)2022-5-18眾數(shù)(眾數(shù)(Mode)l眾數(shù):具有最高頻率的值 分類屬性常常具有少量值,因此這些值的眾數(shù)和頻率可能是令人感興趣的和有用的。 對(duì)于連續(xù)數(shù)據(jù),眾數(shù)通常沒有用,因?yàn)閱蝹€(gè)值的出現(xiàn)可能不超過一次。 如果使用唯一值表示遺漏值,則該值常常表現(xiàn)為眾
5、數(shù)。2022-5-19百分位數(shù)(百分位數(shù)(Percentiles)l對(duì)于有序數(shù)據(jù)對(duì)于有序數(shù)據(jù),考慮值集的百分位數(shù)更有意義l給定一個(gè)有序的或連續(xù)的屬性x和0與100之間的數(shù)p,第p個(gè)百分位數(shù)xp是一個(gè)x值,使得x的p%的觀測(cè)值小于xp。2022-5-110 從1到10的整數(shù)的百分位數(shù)x0%, x10%,., x90%, x100%依次為:1.0, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5, 7.5, 8.5, 9.5, 10.0。按照慣例,min(x) = x0%,而max(x) = x100%。 例:高考劃分第一批、第二批組檔分?jǐn)?shù)線,控制上線人數(shù)。2022-5-111位置度量位
6、置度量:均值和中位數(shù)(均值和中位數(shù)( Mean and Median)l對(duì)于連續(xù)數(shù)據(jù),兩個(gè)使用最廣泛的匯總統(tǒng)計(jì)是均值(mean)和中位數(shù)(median),它們是值集位置的度量。 l均值均值和中位數(shù)中位數(shù)定義 2022-5-112截?cái)嗑担ń財(cái)嗑担╰rimmed mean)l截?cái)嗑担╰rimmed mean):指定0和100之間的百分位數(shù)p,丟棄高端和低端(p/2)%的數(shù)據(jù),然后用常規(guī)的方法計(jì)算均值,所得的結(jié)果即是截?cái)嗑?。例:跳水比賽中除去一個(gè)最高分、除去一個(gè)最低分,求平均分。l中位數(shù)是p = 100%時(shí)的截?cái)嗑?,而?biāo)準(zhǔn)均值是對(duì)應(yīng)于p = 0%的截?cái)嗑怠?2022-5-113l均值對(duì)于
7、離群值很敏感;對(duì)于包含離群值的數(shù)據(jù),中位數(shù)又一次提供值集中間的一個(gè)更穩(wěn)健的估計(jì)。l例: 考慮值集1, 2, 3, 4, 5, 90。這些值的均值是17.5,而中位數(shù)是3.5,p = 40%時(shí)的截?cái)嗑狄彩?.5。 2022-5-114偏態(tài)分布偏態(tài)分布其中Mo是眾數(shù)、Me是中位數(shù)、X是均值。2022-5-115散布度量散布度量: 極差和方差(極差和方差(Range and Variance)l連續(xù)數(shù)據(jù)的另一組常用的匯總統(tǒng)計(jì)是值集的彌散或散布度量。這種度量表明屬性值是否散布很寬,或者是否相對(duì)集中在單個(gè)點(diǎn)(如均值)附近。l最簡(jiǎn)單的散布度量是極差(range)。lx的極差定義為:最大值和最小值的差。給
8、定一個(gè)屬性x,它具有m個(gè)值x1,., xm range(x) = max(x) - min(x) = x(m) - x(1) 2022-5-116l方差: l均值和方差對(duì)離群值很敏感,這樣常常需要使用值集散布更穩(wěn)健的估計(jì)。絕對(duì)平均偏差、中位數(shù)絕對(duì)偏差、四分位數(shù)極差: 2022-5-117多元匯總統(tǒng)計(jì)多元匯總統(tǒng)計(jì)l包含多個(gè)屬性的數(shù)據(jù)(多元數(shù)據(jù))的位置度量可以通過分別計(jì)算每個(gè)屬性的均值或中位數(shù)得到。l均值向量: 其中 是第i個(gè)屬性xi的均值),(1nxxxix2022-5-118協(xié)方差矩陣協(xié)方差矩陣l對(duì)于具有連續(xù)變量的數(shù)據(jù),數(shù)據(jù)的散布更多地用協(xié)方差矩陣(covariance matrix)S表示,
9、其中S的第ij個(gè)元素sij是數(shù)據(jù)的第i個(gè)和第j個(gè)屬性的協(xié)方差。Sij=covariance(xi , xj)u注意,covariance(xi , xi)=variance(xi)。協(xié)方差對(duì)角線上是屬性方差。l兩個(gè)屬性的協(xié)方差是兩個(gè)屬性一起變化并依賴于變量大小的度量。2022-5-119相似度和相異度相似度和相異度l相似度相似度 兩個(gè)對(duì)象相似程度。 兩個(gè)對(duì)象越相似,它們的相似度就越高。 通常在0和1之間取值。l相異度相異度 是兩個(gè)對(duì)象差異程度的數(shù)值度量。 對(duì)象越相似,它們的相異度越低。 通常術(shù)語(yǔ)“距離”用作相異度的同義詞。相異度可以在0,1取值,也可以在 取值。, 02022-5-120簡(jiǎn)單屬
10、性的相似簡(jiǎn)單屬性的相似/相異度相異度2022-5-1徐佳骎21數(shù)據(jù)對(duì)象之間的相異度:距離數(shù)據(jù)對(duì)象之間的相異度:距離l歐幾里得距離:其中n是維數(shù),xk和yk是x和y的第k個(gè)屬性值。nkkkyxd12)(),(yx01230123456p1p2p3p4pointxyp102p220p331p451p1p2p3p4p102.8283.1625.099p22.82801.4143.162p33.1621.41402p45.0993.162202022-5-1徐佳骎22閔可夫斯基距離閔可夫斯基距離l閔可夫斯基距離是歐氏距離的推廣:其中r是參數(shù):ur=1,城市街區(qū)距離。常見的例子是漢明距離,漢明距離,是兩
11、個(gè)具有二元屬性的對(duì)象之間不同的二進(jìn)制為個(gè)數(shù)。ur=2,歐幾里得距離。ur ,上確界距離。這是對(duì)象屬性之間最大距離。【注注】不要將參數(shù)r與維數(shù)(屬性數(shù))n混淆。rnkrkkyxd/11|),(yxrnkrkkryxd/11| lim),(yx2022-5-1徐佳骎23距離性質(zhì)距離性質(zhì)l非負(fù)性:非負(fù)性:對(duì)所有x和y,d(x, y) 0;僅當(dāng)x=y時(shí),d(x, y) = 0l對(duì)稱性:對(duì)稱性:對(duì)于所有x和y,d(x, y) = d(y, x) l三角不等式三角不等式:對(duì)于所有x,y和z,d(x, z) d(x, y) + d(y, z) 滿足以上三個(gè)性質(zhì)的測(cè)度稱為度量。有些人只對(duì)滿足這三個(gè)性質(zhì)的相異性
12、度量使用屬于距離,但在實(shí)踐中常常違反這一約定。2022-5-1徐佳骎24非度量的相異度非度量的相異度l有些相異度都不滿足一個(gè)或多個(gè)度量性質(zhì) 例1. 集合差u每個(gè)對(duì)象是一個(gè)集合,相異度用集合差的元素個(gè)數(shù)定義:d(A, B) = size(AB)u一般地,可能AB BA, size(AB) size(BA) ,不滿足對(duì)稱性。u定義d(A, B) = size(A B) + size(B A) 例2. 時(shí)間 2112211221)(24),(ttttttttttd如果如果2022-5-1徐佳骎25相似度的性質(zhì)相似度的性質(zhì)l僅當(dāng)x=y,時(shí)s(x, y) =1。(0 s 1)l對(duì)于所有x和y, s(x,
13、 y) = s(y, x) 。(對(duì)稱性)對(duì)于相似度,沒有三角不等式對(duì)應(yīng)的一般性質(zhì)。非對(duì)稱相似性度量:非對(duì)稱相似性度量:假定“0”出現(xiàn)了200次,它被分類為“0”160次,而被分類為“o”40次。類似的,“o”出現(xiàn)200次并且分類為“o”170次,但是分類為“0”只有30次。這種情況,通常選取s(x,y)=s(y,x)=s(x,y)+s(y,x)/2,相似性度量可以轉(zhuǎn)換成對(duì)稱的。2022-5-1徐佳骎26二元數(shù)據(jù)的相似度量二元數(shù)據(jù)的相似度量l設(shè)x和y是兩個(gè)對(duì)象,都由n個(gè)二元屬性組成f00 = x取0并且y取0的屬性個(gè)數(shù)f01 = x取0并且y取1的屬性個(gè)數(shù)f10 = x取1并且y取0的屬性個(gè)數(shù)f
14、11 = x取1并且y取1的屬性個(gè)數(shù)簡(jiǎn)單匹配系數(shù)(簡(jiǎn)單匹配系數(shù)(SMC):):Jaccard系數(shù):系數(shù):110001101100ffSMCffff值匹配的屬性個(gè)數(shù)屬性個(gè)數(shù)11011011fJfff匹配的個(gè)數(shù)不涉及0-0匹配的屬性個(gè)數(shù)2022-5-1徐佳骎27l例: 兩個(gè)對(duì)象x和yx = (1, 0, 0, 0, 0, 0, 0, 0, 0, 0)y = (0, 0, 0, 0, 0, 0, 1, 0, 0, 1)f01 = 2 x取0并且y取1的屬性個(gè)數(shù)f10 = 1 x取1并且y取0的屬性個(gè)數(shù)f00 = 7 x取0并且y取0的屬性個(gè)數(shù)f11 = 0 x取1并且y取1的屬性個(gè)數(shù)7 . 0701
15、270001110010011ffffffSMC0012011100111ffffJ2022-5-1徐佳骎28余弦相似度余弦相似度l通常,文檔用向量表示,向量的每個(gè)屬性代表一個(gè)特定的詞(術(shù)語(yǔ))在文檔中出現(xiàn)的頻率。l如果x和y是兩個(gè)文檔向量,則其中“”表示向量點(diǎn)積| x |是向量x的長(zhǎng)度,l幾何意義余弦相似度不考慮兩個(gè)對(duì)象的量值(當(dāng)量值重要時(shí),歐幾里得距離是更好地選擇)| |),cos(yxyxyxnkkkyx1yx21|nkkxxx xyxyyxxyx |),cos(2022-5-1徐佳骎29l例: 兩個(gè)數(shù)據(jù)向量對(duì)象x = (3, 2, 0, 5, 0, 0, 0, 2, 0, 0)y = (
16、1, 0, 0, 0, 0, 0, 0, 1, 0, 2)xy = 31+20+00+50+00+00+00+21+00+02 = 5cos(x,y)=0.3148. 600002200000055002233|x45. 222001100000000000011|y2022-5-1徐佳骎30l余弦相似度實(shí)際上是x和y之間夾角的度量。如果相似度為1,則x和y之間夾角為0,除大?。ㄩL(zhǎng)度)之外,x和y是相同的;如果余弦相似度為0,則x和y夾角為90,它們不包含任何相同的詞。2022-5-1徐佳骎31廣義廣義Jaccard系數(shù)和相關(guān)性系數(shù)和相關(guān)性l廣義Jaccard系數(shù)可以用于文檔數(shù)據(jù),并在二元屬性
17、情況下歸約為Jaccard系數(shù)。又稱Tanimoto系數(shù)。l兩個(gè)具有二元變量或連續(xù)變量的數(shù)據(jù)之間的相關(guān)性是對(duì)象屬性之間線性聯(lián)系的度量。皮爾森相關(guān)系數(shù):皮爾森相關(guān)系數(shù):yxyxyxyx22|),(EJyxxyyxssscorr) ,(2022-5-1徐佳骎32相關(guān)性可視化相關(guān)性可視化2022-5-1徐佳骎33鄰近度計(jì)算問題鄰近度計(jì)算問題1l距離度量的標(biāo)準(zhǔn)化和相關(guān)性距離度量的標(biāo)準(zhǔn)化和相關(guān)性屬性具有不同值域怎么處理?距離可能被具有較大值域的屬性左右。例如:使用歐氏距離,基于年齡和收入兩個(gè)屬性來(lái)度量人之間的距離,距離將被收入所左右。處理辦法:通過標(biāo)準(zhǔn)化,將兩個(gè)屬性變換到相同值域。屬性之間相關(guān)使用Mah
18、alanobis距離mahalanobis(x, y) = (x y) 1(x y)T 其中, 1是數(shù)據(jù)協(xié)方差矩陣的逆2022-5-1徐佳骎34l例: 1000個(gè)點(diǎn),其x屬性和y屬性的相關(guān)度為0.6。 在橢圓長(zhǎng)軸兩端的兩個(gè)大點(diǎn)之間的歐幾里得距離為14.7,但Mahalanobis距離僅為62022-5-1徐佳骎35鄰近度計(jì)算問題鄰近度計(jì)算問題2l組合異種屬性的相似度組合異種屬性的相似度當(dāng)屬性具有不同類型時(shí),就需要更一般的方法算法算法2.1 異種對(duì)象的相似度異種對(duì)象的相似度 1:對(duì)于第k個(gè)屬性,計(jì)算相似度sk(x, y),在區(qū)間0, 1中。2:對(duì)于第k個(gè)屬性,定義一個(gè)指示變量k,如下:k= 0,
19、如果第k個(gè)屬性是非對(duì)稱屬性, 并且兩個(gè)對(duì)象在該屬性上的值都是0,或者如果一個(gè)對(duì)象的第k個(gè)屬性具有遺漏值k = 1,否則3:使用如下公式計(jì)算兩個(gè)對(duì)象之間的總相似度:nkknkkkssimilarity11),(),(yxyx2022-5-1徐佳骎36鄰近度計(jì)算問題鄰近度計(jì)算問題3l使用權(quán)值 當(dāng)某些屬性對(duì)鄰近度的定義比其他屬性更重要時(shí),可以通過對(duì)每個(gè)屬性的貢獻(xiàn)加權(quán)來(lái)修改鄰近度公式。加權(quán)相似度:加權(quán)的閔可夫斯基距離:其中權(quán)wk的和為1。2022-5-1徐佳骎37小結(jié)小結(jié)本本章章小小結(jié)結(jié)數(shù)據(jù)匯總單個(gè)屬性多個(gè)屬性:均值矩陣、協(xié)方差矩陣無(wú)序、分類數(shù)據(jù):頻率和眾數(shù)有序數(shù)據(jù):百分位數(shù)位置度量:均值和中位數(shù)、截
20、斷均值散布度量:極差和方差、絕對(duì)平均偏差、中位數(shù)絕對(duì)偏差、四分位數(shù)極差相似度 相異度1、相似度、相異度定義與變換2、距離度量3、相似度度量4、鄰近度計(jì)算問題2022-5-1徐佳骎38可視化可視化l可視化是指以圖形或表格的形式顯示信息。將數(shù)據(jù)(信息)轉(zhuǎn)化成可視形式,以便能夠借此分析或報(bào)告數(shù)據(jù)的特征和數(shù)據(jù)項(xiàng)或?qū)傩灾g的關(guān)系。l可視化動(dòng)機(jī)動(dòng)機(jī)1:使人們能夠快速吸取大量可視化信息,并發(fā)現(xiàn)其中的模式。動(dòng)機(jī)2:利用“鎖在人腦袋中”的知識(shí)領(lǐng)域。可視化目標(biāo)是可視化信息的人工解釋和信息的意境模型的形成。2022-5-1徐佳骎39例子例子:海洋表面溫度海洋表面溫度 l以攝氏度為單位顯示1982年7月的海洋表面溫度
21、 (SST) 這張圖匯總大約250000格數(shù)據(jù),容易看出,海洋溫度在赤道最高,而在兩極最低。 2022-5-1徐佳骎40表示表示l表示:將數(shù)據(jù)映射到圖形元素(如:用點(diǎn)表示對(duì)象)l可視化是將信息映射成可視形式,即將信息中的對(duì)象、屬性和聯(lián)系映射成可視的對(duì)象、屬性和聯(lián)系。就是說(shuō),數(shù)據(jù)對(duì)象、它們的屬性,以及數(shù)據(jù)對(duì)象之間的聯(lián)系要轉(zhuǎn)換成諸如點(diǎn)、線、形狀和顏色點(diǎn)、線、形狀和顏色等圖形元素。2022-5-1徐佳骎41選擇選擇l選擇:刪除或不突出某些對(duì)象和屬性(如:PCA)l當(dāng)數(shù)據(jù)點(diǎn)的個(gè)數(shù)很多(例如超過數(shù)百個(gè))或者數(shù)據(jù)的極差很大時(shí),顯示每個(gè)對(duì)象的足夠信息是困難的,有些數(shù)據(jù)點(diǎn)可能遮掩其他數(shù)據(jù)點(diǎn),或者數(shù)據(jù)對(duì)象可能占
22、據(jù)不了足夠多的像素來(lái)清楚地顯示其特征。 2022-5-1徐佳骎42安排安排l重新安排表中數(shù)據(jù)的重要性l例3.5:左圖為具有6個(gè)二元屬性的9個(gè)數(shù)據(jù)對(duì)象,對(duì)象和屬性之間看起來(lái)沒有明顯的聯(lián)系,但經(jīng)重新安排后,右圖顯示出了數(shù)據(jù)的特點(diǎn)2022-5-1徐佳骎43l例3.6 考慮圖3-3a,該圖顯示一個(gè)圖的可視化如果將連通子圖分開,如圖3-3b所示,結(jié)點(diǎn)和圖之間的聯(lián)系就變得更加簡(jiǎn)單易懂 2022-5-1徐佳骎44技術(shù):少量屬性的可視化技術(shù):少量屬性的可視化l直方圖 通常顯示單個(gè)變量值的分布 通過將可能的值分散到箱中,并顯示落入每個(gè)箱中的對(duì)象數(shù)。對(duì)于連續(xù)數(shù)據(jù),將值域劃分成箱。 高度表示對(duì)象數(shù)2022-5-1徐
23、佳骎45l例子: 花瓣寬度 (10 和 20 個(gè)箱) 2022-5-1徐佳骎462022-5-1徐佳骎47莖葉圖莖葉圖l莖葉圖可以用來(lái)觀測(cè)一維整型或連續(xù)數(shù)據(jù)的分布。 對(duì)于最簡(jiǎn)單的一類莖葉圖,將值分組,其中每組包含的值除最后一位數(shù)字外相同。每個(gè)組成為莖,而組中的最后一位數(shù)字成為葉。l莖葉圖是一種類型的直方圖。2022-5-1徐佳骎48例例2022-5-1徐佳骎49二維直方圖二維直方圖l每個(gè)屬性劃分成區(qū)間,而兩個(gè)區(qū)間集定義值的二維長(zhǎng)方體 l例子: 花瓣寬度和花瓣長(zhǎng)2022-5-1徐佳骎50盒狀圖(盒狀圖(Box Plots)l盒狀圖: 它是另一種顯示一維數(shù)值屬性分布的方法 outlier10th
24、percentile25th percentile75th percentile50th percentile90th percentile2022-5-1徐佳骎51盒狀圖的例子盒狀圖的例子 l盒狀圖相對(duì)緊湊,因此可以將許多盒狀圖放在一個(gè)圖中。2022-5-1徐佳骎52餅圖餅圖 l餅圖(pie chart)類似于直方圖,但通常用于具有相對(duì)較少的值的分類屬性。餅圖使用圓的相對(duì)面積顯示不同值的相對(duì)頻率,而不是像直方圖那樣使用條形的面積或高度。 2022-5-1徐佳骎53經(jīng)驗(yàn)累計(jì)分布函數(shù)和百分位數(shù)圖經(jīng)驗(yàn)累計(jì)分布函數(shù)和百分位數(shù)圖l一個(gè)累計(jì)分布函數(shù)(cumulative distribution fun
25、ction,CDF)顯示點(diǎn)小于該值的概率。 2022-5-1徐佳骎542022-5-1徐佳骎552022-5-1徐佳骎56可視化技術(shù)可視化技術(shù): 散布圖(散布圖(Scatter Plots)l散布圖 二維散布圖,使用數(shù)據(jù)對(duì)象兩個(gè)屬性的值作為x和y坐標(biāo)值,每個(gè)數(shù)據(jù)對(duì)象都都作為平面上的一個(gè)點(diǎn)繪制 一般附加的屬性可用如大小、顏色、形狀等來(lái)表示 散布圖矩陣可同時(shí)考察許多散布圖2022-5-1徐佳骎57散布圖矩陣?yán)樱壶S尾花散布圖矩陣?yán)樱壶S尾花2022-5-1徐佳骎582022-5-1徐佳骎59可視化時(shí)間空間數(shù)據(jù)可視化時(shí)間空間數(shù)據(jù)l等高線圖 對(duì)于某些三維數(shù)據(jù),兩個(gè)屬性指定平面上的位置,而第三個(gè)屬性具有
26、連續(xù)值,如溫度或海拔高度。 對(duì)于這樣的數(shù)據(jù),一種有用的可視化工具是等高線圖Celsius2022-5-1徐佳骎60l曲面圖 使用兩個(gè)屬性表示x和y坐標(biāo),曲面圖的第三個(gè)屬性用來(lái)指示高出前兩個(gè)屬性定義的平面高度。 如果去年不太規(guī)則,除非交互式的觀察,否則很難看到所有信息2022-5-1徐佳骎61l低維切片 考慮時(shí)間空間數(shù)據(jù)集,它記錄不同地點(diǎn)和時(shí)間上的某種量,如溫度或氣壓。 這樣的數(shù)據(jù)有四個(gè)維。通過現(xiàn)實(shí)一組圖,每月一個(gè),可以顯示數(shù)據(jù)的各個(gè)“切片”。2022-5-1徐佳骎622022-5-1徐佳骎63l動(dòng)畫 數(shù)據(jù)切片的另一種方法是使用動(dòng)畫,其基本思想是顯示數(shù)據(jù)的相繼二維切片。 盡管動(dòng)畫具有視覺吸引力,
27、但是一組靜止的圖可能更有用,因?yàn)檫@種類型的可視化使得我們可以按任意次序、使用任意多時(shí)間來(lái)研究這些信息。2022-5-1徐佳骎64可視化高維數(shù)據(jù)可視化高維數(shù)據(jù)l矩陣 圖像可以看作像素的矩形陣列將數(shù)據(jù)矩陣的每個(gè)元素與圖像中的一個(gè)像素相關(guān)聯(lián)。 這使得容易檢查一個(gè)類的所有對(duì)象是否在某些屬性上具有相似的屬性值。 如果不同的屬性具有不同的值域,則可以對(duì)屬性標(biāo)準(zhǔn)化,使其均值為0,標(biāo)準(zhǔn)差為12022-5-1徐佳骎65鳶尾花數(shù)據(jù)矩陣的可視化鳶尾花數(shù)據(jù)矩陣的可視化2022-5-1徐佳骎662022-5-1徐佳骎67可視化技術(shù)可視化技術(shù): 平行坐標(biāo)系平行坐標(biāo)系l平行坐標(biāo)系 每個(gè)屬性一個(gè)坐標(biāo)軸 與傳統(tǒng)的坐標(biāo)軸不同,平
28、行坐標(biāo)系不同的坐標(biāo)軸平行 ,而不是正交的。對(duì)象用線而不是用點(diǎn)來(lái)表示。 當(dāng)對(duì)象過多時(shí)會(huì)產(chǎn)生混亂,但,對(duì)象趨于分成少數(shù)幾組時(shí),而且對(duì)象數(shù)少時(shí),結(jié)果有可能揭示有趣的模式。 平行坐標(biāo)系顯示結(jié)果可能依賴于坐標(biāo)軸的序 2022-5-1徐佳骎68鳶尾花的平行坐標(biāo)系鳶尾花的平行坐標(biāo)系2022-5-1徐佳骎692022-5-1徐佳骎70其他可視化技術(shù)其他可視化技術(shù)l星形坐標(biāo)(Star Plots) 與平行坐標(biāo)系相似,但坐標(biāo)軸從一中心點(diǎn)向四周發(fā)散 所有的屬性值都映射到0,1區(qū)間 每個(gè)對(duì)象映射成一個(gè)多邊形lChernoff 臉(Chernoff Faces)2022-5-1徐佳骎712022-5-1徐佳骎72星形坐
29、標(biāo)星形坐標(biāo)SetosaVersicolourVirginica2022-5-1徐佳骎73Chernoff Faces for Iris DataSetosaVersicolourVirginica2022-5-1徐佳骎74OLAP和多維數(shù)據(jù)分析和多維數(shù)據(jù)分析l聯(lián)機(jī)分析處理On-Line Analytical Processing (OLAP) 由關(guān)系數(shù)據(jù)庫(kù)之父 E. F. Codd提出。lOLAP一般用多維數(shù)組表示數(shù)據(jù)l如何將數(shù)據(jù)轉(zhuǎn)化成多維數(shù)組? 屬性值需要離散化 目標(biāo)值可以是計(jì)數(shù)或連續(xù)值等lOLAP是針對(duì)特定問題的聯(lián)機(jī)數(shù)據(jù)訪問和分析。通過信息(維數(shù)據(jù))的多種可能的觀察形式進(jìn)行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對(duì)數(shù)據(jù)進(jìn)行深入觀察。2022-5-1徐佳骎75OLAP的特性的特性l快速性快速性系統(tǒng)能在數(shù)秒內(nèi)對(duì)用戶的多數(shù)分析要求作出反應(yīng)。l可分析性可分析性用戶無(wú)需編程就可以定義新的專門計(jì)算,將其作為分析的一部分,并以用戶所希望的方式給出報(bào)告。l多維性多維性提供對(duì)數(shù)據(jù)分析的多位視圖和分析。l信息性信息性能及時(shí)獲得
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度高級(jí)技術(shù)人才聘用合同解析(2025版)3篇
- 二零二五年度環(huán)保行業(yè)工程師聘用合同書(2025版)
- 消防排煙管道施工合同(2篇)
- 金屬?gòu)U料和碎屑項(xiàng)目融資渠道探索
- 丙綸纖維項(xiàng)目融資渠道探索
- 二零二五年度股份制企業(yè)融資合同
- 高純銅項(xiàng)目融資渠道探索
- 二零二五年度戶外運(yùn)動(dòng)品牌形象代言人合作協(xié)議
- 2025至2030年中國(guó)水下液用電磁閥數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)戶外交流低壓隔離開關(guān)數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 《公路勘測(cè)細(xì)則》(C10-2007 )【可編輯】
- 新教科版三年級(jí)下冊(cè)科學(xué) 第二單元重點(diǎn)題型練習(xí)課件
- 事故隱患報(bào)告和舉報(bào)獎(jiǎng)勵(lì)制度
- 部編人教版道德與法治六年級(jí)下冊(cè)全冊(cè)課時(shí)練習(xí)講解課件
- 預(yù)防艾滋病、梅毒和乙肝母嬰傳播服務(wù)流程圖
- 鋼鐵是怎樣煉成的手抄報(bào)
- 防火墻漏洞掃描基礎(chǔ)知識(shí)
- 供應(yīng)鏈網(wǎng)絡(luò)安全解決方案
- NPI管理流程文檔
- 運(yùn)動(dòng)技能學(xué)習(xí)PPT
- 嶺南版三年級(jí)美術(shù)下冊(cè)教學(xué)工作計(jì)劃
評(píng)論
0/150
提交評(píng)論