數(shù)據(jù)挖掘 課件 第八章 數(shù)據(jù)可視化與分析_第1頁
數(shù)據(jù)挖掘 課件 第八章 數(shù)據(jù)可視化與分析_第2頁
數(shù)據(jù)挖掘 課件 第八章 數(shù)據(jù)可視化與分析_第3頁
數(shù)據(jù)挖掘 課件 第八章 數(shù)據(jù)可視化與分析_第4頁
數(shù)據(jù)挖掘 課件 第八章 數(shù)據(jù)可視化與分析_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

高級數(shù)據(jù)挖掘Contents可視化的基礎(chǔ)概念01可視化用具與技術(shù)02數(shù)據(jù)可視化的背景數(shù)據(jù)可視化作為一種信息表達(dá)方式,最早可追溯至17世紀(jì),統(tǒng)計學(xué)家戈塞特利恩提出了統(tǒng)計圖表的概念用以直觀地展示數(shù)據(jù)分布,例如餅圖、直方圖等19世紀(jì)出現(xiàn)了很多創(chuàng)新的可視化方法,例如,弗洛倫斯·南丁格爾的“玫瑰圖”成功地展示了不同因素對士兵死亡率的影響,被視為數(shù)據(jù)可視化歷史上的重要里程碑20世紀(jì)出現(xiàn)了許多經(jīng)典的可視化工具和技術(shù),如X-Y圖、樹狀圖、雷達(dá)圖和散點矩陣等21世紀(jì)進(jìn)入大數(shù)據(jù)時代,數(shù)據(jù)可視化得到了進(jìn)一步的蓬勃發(fā)展,在各個領(lǐng)域都有廣泛的應(yīng)用...數(shù)據(jù)可視化的背景案例例8-1:假設(shè)你是理想生活商城的銷售經(jīng)理,剛拿到Q1季度的銷售數(shù)據(jù),如圖8-1所示,由于數(shù)據(jù)量較大,這里僅展示了2月25日至2月28日的銷售數(shù)據(jù)。你的目標(biāo)是對各類產(chǎn)品的銷售情況進(jìn)行詳盡的分析,并制定相應(yīng)的策略以提升整體銷售業(yè)績。然而,你發(fā)現(xiàn)僅通過表格形式的銷售數(shù)據(jù)難以直觀地觀察數(shù)據(jù)及其之間的相互聯(lián)系,因此,你期望能夠運用數(shù)據(jù)可視化工具和數(shù)據(jù)分析技術(shù)來實現(xiàn)這些目標(biāo)。圖8-1季度銷售數(shù)據(jù)(部分)數(shù)據(jù)可視化的定義及基本步驟數(shù)據(jù)可視化(DataVisualization)是指利用各種圖表、圖形等視覺化方式將數(shù)據(jù)以直觀、易懂的形式呈現(xiàn)出來的過程。根本目的:通過視覺化的手段,幫助用戶更為深入地理解和分析數(shù)據(jù),揭示數(shù)據(jù)中的模式、趨勢和關(guān)聯(lián)性。本質(zhì):將抽象的數(shù)據(jù)轉(zhuǎn)化為可視化的形式,減少人們面對大量數(shù)據(jù)時的認(rèn)知負(fù)荷,使復(fù)雜數(shù)據(jù)更易于處理和分析,從而能夠更輕松地理解和解釋數(shù)據(jù)所蘊含的信息例如,圖8-2展示了線上銷售平臺每個產(chǎn)品的銷量信息,其中,橫軸代表產(chǎn)品,縱軸代表產(chǎn)品的銷量。相比于傳統(tǒng)的表格形式,通過數(shù)據(jù)可視化的方式呈現(xiàn)銷量數(shù)據(jù),可以更直觀地感受到不同產(chǎn)品之間銷量的差異圖8-2產(chǎn)品的銷量信息數(shù)據(jù)可視化的定義及基本步驟數(shù)據(jù)采集數(shù)據(jù)采集是數(shù)據(jù)可視化的首要步驟獲取數(shù)據(jù)時需要注意數(shù)據(jù)真實性和可靠性,以及數(shù)據(jù)隱私和合規(guī)性問題數(shù)據(jù)預(yù)處理處理噪聲、誤差和異常點等問題降低錯誤分析和判斷的風(fēng)險,并為后續(xù)的數(shù)據(jù)可視化與分析提供可靠基礎(chǔ)可視化映射數(shù)據(jù)可視化過程的核心步驟可視化映射是指把經(jīng)過處理的數(shù)據(jù)信息映射到視覺元素上,完成數(shù)據(jù)到可視化元素的轉(zhuǎn)變結(jié)果解讀與呈現(xiàn)需要深入分析數(shù)據(jù)的規(guī)律和趨勢,結(jié)合特定業(yè)務(wù)的具體背景,利用領(lǐng)域知識,提煉出有價值的信息數(shù)據(jù)可視化的常用圖表類型1.折線圖折線圖(linechart)主要用于在連續(xù)間隔或時間跨度上顯示定量數(shù)值,常被用于顯示變化趨勢以及關(guān)系信息。在折線圖中,橫軸一般為類別型或序數(shù)型變量,分別對應(yīng)文本坐標(biāo)軸和序數(shù)坐標(biāo)軸(例如日期坐標(biāo)軸)兩種類型;縱軸一般為數(shù)值型變量。圖8-3商品總銷售額(左)和銷售量(右)變化趨勢(20日至31日)數(shù)據(jù)可視化的常用圖表類型2.柱狀圖柱狀圖(barchart)通常用于比較不同類別或組之間的數(shù)據(jù)差異,橫軸一般為類別型或序數(shù)型變量,縱軸一般為數(shù)值型變量。常見的柱狀圖有三種類型:單數(shù)據(jù)列柱狀圖主要用于展示單一類別或組的數(shù)據(jù),每個類別對應(yīng)一個獨立的柱形多數(shù)據(jù)系列柱狀圖主要用于展示多個類別或組的數(shù)據(jù),每個類別包含多根并列的柱形,每個柱形代表一個不同的變量。堆積柱狀圖將不同變量的數(shù)值累加顯示,使得整體柱形的高度表示總數(shù)值,而柱形內(nèi)部的不同顏色區(qū)域表示各變量的貢獻(xiàn)度。圖8-4各個種類商品的銷售量(單數(shù)據(jù)列)圖8-5各個種類商品的銷售量(多數(shù)據(jù)列)圖8-6各個種類商品的銷售量組成數(shù)據(jù)可視化的常用圖表類型3.餅圖餅圖(piechart)將一個圓餅按照分類劃分為多個區(qū)塊,每個區(qū)塊的大小代表該分類占總體的比例,所有區(qū)塊的總和等于100%。餅圖具有幫助用戶快速了解數(shù)據(jù)占比的優(yōu)勢,但是餅圖并不適用于多分類的數(shù)據(jù)。圖8-7展示了2月27日理想生活商城各個商品銷售額的占當(dāng)天總銷售額的比例。圖8-7各個商品銷售額占比(27日)

數(shù)據(jù)可視化的常用圖表類型4.散點圖散點圖(scattergraph)使用一系列的散點在直角坐標(biāo)系中展示變量的數(shù)值分布。在二維散點圖中,可以通過觀察兩個變量的數(shù)據(jù)點分布情況,推斷出變量間的相關(guān)性。當(dāng)變量之間沒有相互關(guān)系時,在散點圖上將呈現(xiàn)出隨機分布的離散點。然而,當(dāng)變量之間存在某種相關(guān)性時,大部分?jǐn)?shù)據(jù)點會相對密集地聚集并展現(xiàn)出特點的分布或趨勢。數(shù)據(jù)的相關(guān)關(guān)系主要包括正相關(guān)、負(fù)相關(guān)、不相關(guān)、指數(shù)相關(guān)等。圖8-8不同的相關(guān)性類型

數(shù)據(jù)可視化的常用圖表類型5.雷達(dá)圖雷達(dá)圖(radarchart),又稱為蜘蛛圖,是一種用于可視化多個變量的圖表形式。它以中心點為原點,通過從中心向外延伸的不同軸線來表示不同的變量。每個變量在對應(yīng)的軸線上有自己的數(shù)據(jù)點或者連接線,形成一個閉合的多邊形。雷達(dá)圖常被用于比較多個實體在不同變量上的表現(xiàn),例如,圖8-9展示了兩個同類型產(chǎn)品在好評率、品牌知名度、外觀設(shè)計、產(chǎn)品質(zhì)量和價格五個方面的評分。此外,雷達(dá)圖也可以用于識別數(shù)據(jù)集中得分高或低的變量,是顯示性能表現(xiàn)的理想之選。圖8-9不同產(chǎn)品的得分?jǐn)?shù)據(jù)可視化的常用圖表類型6.箱型圖箱型圖(boxplot),又稱為盒須圖、箱線圖,能夠顯示出一組數(shù)據(jù)的最大值、最小值、中位數(shù)以及上下四分位數(shù),可用于反映一組或多組連續(xù)型定量數(shù)據(jù)分布的中心位置和散布范圍。例如,圖8-10使用箱型圖展示了各個國家的收入信息,最左側(cè)和最右側(cè)的邊界分別代表數(shù)據(jù)集的最小值和最大值,中間藍(lán)色區(qū)域的三個邊界分別代表三個四分位數(shù)Q1、Q2和Q3。圖8-10各個國家的收入信息數(shù)據(jù)可視化實例(一)第六次全國人口普查數(shù)據(jù)分析——北京市人口流入流出情況北京作為我國的首都,吸引了大量的外來人口,與此同時,由于房價高漲,生活成本較高等因素,北京也面臨著人口流出的挑戰(zhàn)。圖8-11展示了第六次全國人口普查中,北京市流入人口的情況,左側(cè)使用了柱狀圖展示了每個省份流入北京市的人口信息,右側(cè)使用了地圖元素形象化地展示了北京流入人口的來源分布。圖8-11第六次全國人口普查北京市人口流入流出情況從圖中可以看出,河北、河南、山東等省份流入北京市的人口最多,而西藏、海南、青海等地區(qū)流入北京的人口較少。通過深入分析北京市人口的流動情況,能夠更好地了解人口遷徙的趨勢和原因,為實現(xiàn)可持續(xù)發(fā)展和人口資源的合理配置提供基礎(chǔ)。數(shù)據(jù)來源網(wǎng)址:/wjw/#/data/classify/visualization?currentMapIndex=4數(shù)據(jù)可視化實例(二)網(wǎng)站流量數(shù)據(jù)分析網(wǎng)站流量數(shù)據(jù)分析對于理解用戶行為、評估網(wǎng)站性能、優(yōu)化運營和監(jiān)測營銷效果具有重要意義,能夠幫助網(wǎng)站開發(fā)者更加深入地了解網(wǎng)站和用戶之間的關(guān)系,從而提高網(wǎng)站的質(zhì)量、效益和競爭力。圖8-12展示了2019年某一國際網(wǎng)站的訪問流量數(shù)據(jù)看板,此看板使用了地圖、餅圖以及柱狀圖等元素對網(wǎng)站訪問數(shù)據(jù)進(jìn)行了可視化呈現(xiàn)。圖8-12訪問流量數(shù)據(jù)看板數(shù)據(jù)來源網(wǎng)址:/wjw/#/data/classify/visualization?currentMapIndex=4Contents可視化的基礎(chǔ)概念01可視化用具與技術(shù)02Python可視化常用類庫

1.MatplotlibMatplotlib是一個較為基礎(chǔ)的用于繪制圖表和可視化數(shù)據(jù)的Python庫。它提供了豐富的繪圖功能,使用戶能夠輕松生成多種類型的圖形,包括折線圖、散點圖、直方圖和餅圖等。目前,Matplotlib被廣泛應(yīng)用于數(shù)據(jù)分析、科學(xué)計算、工程以及其他領(lǐng)域。Python可視化常用類庫

1.Matplotlib下面以堆疊柱狀圖和餅圖為例,講解如何使用Matplotlib來繪制圖像,示例數(shù)據(jù)來源于8.1小節(jié)的例子。堆疊柱狀圖的核心代碼如下,展示的是2月27日至2月28日各個種類商品的銷售量,圖8-13為繪制的效果圖。

圖8-14餅圖

圖8-13堆疊柱狀圖Python可視化常用類庫

2.SeabornSeaborn是一個基于Python的數(shù)據(jù)可視化庫,專注于統(tǒng)計繪圖和美觀度的提升。它建立在Matplotlib庫的基礎(chǔ)上,可以更加高效地生成各種類型的統(tǒng)計圖形,此外,Seaborn具有內(nèi)置的豐富配色方案,能夠快速設(shè)置圖表的顏色主題,使得圖表外觀更加美觀。通過簡單的代碼調(diào)整,用戶可以輕松改變圖表的整體風(fēng)格,增強可視化效果,同時保持代碼的簡潔易讀。表8-3Seaborn常見二維圖表的繪制函數(shù)Python可視化常用類庫

2.Seaborn下面以理想生活商城的銷售數(shù)據(jù)為例,展示如何使用Seaborn繪制帶誤差棒的柱狀圖。在本例中,將以面包、勺子、梳子和手套在2月份的銷量和銷售額為數(shù)據(jù)源,展示這四個產(chǎn)品的銷量、銷售額對比以及銷量、銷售額誤差信息。銷量柱狀圖的核心代碼如下:圖8-15帶誤差棒的柱狀圖Python可視化常用類庫

3.PlotninePlotnine是一個基于Python的數(shù)據(jù)可視化包,它采用了一種語法簡潔、易于理解的繪圖風(fēng)格,使用戶能夠輕松生成各種統(tǒng)計圖表,包括散點圖、柱狀圖、折線圖、箱型圖和熱力圖等。同時,plotnine還支持對圖形進(jìn)行高度自定義,包括調(diào)整顏色、樣式、標(biāo)簽等,使得用戶能夠呈現(xiàn)出符合自身需求和審美的可視化效果。表8-4

plotnine常見繪制圖函數(shù)Python可視化常用類庫

3.Plotnine面以Plotnine內(nèi)置的mpg數(shù)據(jù)集為例,展示如何使用Plotnine繪制散點圖以及平滑曲線圖。mpg數(shù)據(jù)集記錄了關(guān)于汽車燃油經(jīng)濟性的信息,數(shù)據(jù)包括汽車型號、排量、驅(qū)動方式、燃料類型和高速里程等特征。在這個例子中,主要關(guān)注不同發(fā)動機排量和高速公路里程之間的關(guān)系,以及不同驅(qū)動方式的汽車在圖表中的分布,核心代碼如下:圖8-15散點圖JavaScript可視化開發(fā)工具

1.EchartsECharts是一個開源的基于JavaScript的數(shù)據(jù)可視化庫,旨在為用戶提供高度定制化和交互性強的數(shù)據(jù)可視化解決方案。ECharts提供了常規(guī)的折線圖、柱狀圖、散點圖、餅圖、箱型圖、地圖、熱力圖、儀表盤等多種類型的圖表。如圖8-16所示,ECharts官網(wǎng)提供了大量的圖表案例,能夠幫助用戶盡快掌握ECharts庫的使用方法。圖8-16ECharts官網(wǎng)案例JavaScript可視化開發(fā)工具

1.Echarts圖8-4、圖8-5、圖8-6、圖8-7展示的圖表即為ECharts所繪制,下面以圖8-5為例,展示其核心代碼:圖8-5各個種類商品的銷售量(多數(shù)據(jù)列)JavaScript可視化開發(fā)工具

2.HighchartsHighcharts是一個使用純JavaScript編寫的HTML5圖表庫,旨在為Web網(wǎng)站或應(yīng)用程序提供簡便的、具有交互性的圖表功能。Highcharts支持豐富的圖表類型,包括折線圖、柱狀圖、條形圖、餅圖、散點圖、箱線圖、儀表圖和雷達(dá)圖等共18種類型圖表。如圖8-17所示,Highcharts在官網(wǎng)提供了大量的圖表案例,以幫助用戶盡快掌握Highcharts庫的使用方法。圖8-17

Highcharts官網(wǎng)案例JavaScript可視化開發(fā)工具

2.HighchartsHighcharts支持多種數(shù)據(jù)形式,例如,Javascript數(shù)組、json文件、json對象、表格數(shù)據(jù)、CSV文件等,這些數(shù)據(jù)來源可以是本地文件、數(shù)據(jù)接口,甚至是不同網(wǎng)站。此外,Highcharts還提供了插件機制,為開發(fā)人員進(jìn)行二次開發(fā)提供了便捷。圖8-9即為Highcharts所繪制,核心代碼如下:圖8-9不同產(chǎn)品的得分軟件類可視化工具

1.TableauTableau是一個可視化分析平臺,成立于2013年,源于斯坦福大學(xué)的一個計算機科學(xué)項目。Tableau旨在通過直觀的界面將拖放操作轉(zhuǎn)化為數(shù)據(jù)查詢,從而對數(shù)據(jù)進(jìn)行可視化呈現(xiàn)。Tableau支持多種數(shù)據(jù)源,并提供豐富的圖表類型和交互式功能,利用視覺化方式幫助用戶探索數(shù)據(jù)關(guān)系。此外,Tableau還具備協(xié)作和共享的能力,用戶可以將他們創(chuàng)建的儀表板和圖表分享給團隊成員或外部用戶,以促進(jìn)更廣泛的數(shù)據(jù)共享和決策支持。下面將以8.1.1小節(jié)的情景故事為例,展示如何使用Tableau平臺繪制可視化圖表。軟件類可視化工具

1.Tableau步驟一:連接數(shù)據(jù)源打開TableauDesktop后,首先看到的是“開始”頁面,如圖8-18所示。在頁面左上角有“連接”功能,其作用是將Tableau與存儲在文件中的數(shù)據(jù)進(jìn)行連接,可以連接的數(shù)據(jù)類型包括MicrosoftExcel、PDF、空間文件等;此外,Tableau還可以連接到存儲在TableauServer、MicrosoftSQLServer、GoogleAnalytics或其他服務(wù)器上的數(shù)據(jù)。開始頁面的下方開設(shè)了“實例工作簿”的版塊,以幫助用戶快速掌握Tableau平臺的使用方法。圖8-18Tableau開始頁面軟件類可視化工具

1.Tableau步驟二:通過拖放創(chuàng)建視圖不同于基于編程的Python庫包以及JavaScript圖表庫,Tableau只需要在圖形界面通過拖放操作即可創(chuàng)建圖表視圖。如圖8-19所示,從左側(cè)的數(shù)據(jù)窗格中選擇數(shù)據(jù)表中的特征,并將選擇好的特征拖放到“列”或“行”的位置。在完成拖放操作的同時,頁面中部生成了創(chuàng)建好的圖表。圖8-19創(chuàng)建視圖軟件類可視化工具

1.Tableau步驟三:優(yōu)化視圖除了基本的視圖創(chuàng)建操作外,Tableau還提供了多種方法來優(yōu)化視圖,例如,篩選器和顏色等功能,在這里以標(biāo)記窗格中的color(顏色)為例講解視圖的優(yōu)化操作。針對當(dāng)前創(chuàng)建的柱狀圖視圖,在默認(rèn)情況下,所有柱形都是藍(lán)色的。然而,通過為每個柱形賦予不同的顏色,可以進(jìn)一步傳達(dá)更多的信息。如圖8-20,將數(shù)據(jù)窗格中的“日期”特征拖放至標(biāo)記窗格中的color部分,并將“日期”特征按照天數(shù)分類,即可獲得每一天不同產(chǎn)品的銷量信息,從圖中可以根據(jù)顏色來觀察到這一信息。圖8-20優(yōu)化視圖軟件類可視化工具

2.PowerBIPowerBI是一款功能強大、靈活易用的商業(yè)智能工具,它提供了強大的數(shù)據(jù)分析和可視化功能,允許用戶從多個數(shù)據(jù)源中提取、轉(zhuǎn)換和加載數(shù)據(jù),并通過直觀而靈活的圖表和儀表板來呈現(xiàn)數(shù)據(jù)。除了數(shù)據(jù)分析和可視化功能,PowerBI還具備強大的數(shù)據(jù)共享和協(xié)作能力,用戶可以將圖表和儀表板發(fā)布到PowerBI服務(wù)中,并與團隊成員或外部用戶進(jìn)行共享。此外,PowerBI還提供了嵌入式分析功能,使得用戶可以將儀表板嵌入到其他應(yīng)用程序或網(wǎng)站中,以實現(xiàn)更廣泛的數(shù)據(jù)分享和傳播。下面將以8.1.1小節(jié)的情景故事為例,展示如何使用PowerBI繪制可視化圖表。軟件類可視化工具

2.PowerBI步驟一:連接數(shù)據(jù)源打開PowerBIDesktop軟件后,與T

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論