《數(shù)據(jù)可視化 》 課件全套 楊華 第1-9章 數(shù)據(jù)可視化概述- 可視化大屏_第1頁
《數(shù)據(jù)可視化 》 課件全套 楊華 第1-9章 數(shù)據(jù)可視化概述- 可視化大屏_第2頁
《數(shù)據(jù)可視化 》 課件全套 楊華 第1-9章 數(shù)據(jù)可視化概述- 可視化大屏_第3頁
《數(shù)據(jù)可視化 》 課件全套 楊華 第1-9章 數(shù)據(jù)可視化概述- 可視化大屏_第4頁
《數(shù)據(jù)可視化 》 課件全套 楊華 第1-9章 數(shù)據(jù)可視化概述- 可視化大屏_第5頁
已閱讀5頁,還剩406頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1

數(shù)據(jù)可視化概述本章主要內(nèi)容數(shù)據(jù)可視化的內(nèi)涵和意義數(shù)據(jù)可視化的發(fā)展歷史數(shù)據(jù)可視化的應(yīng)用數(shù)據(jù)可視化的挑戰(zhàn)可視化分析與編程工具1. 數(shù)據(jù)可視化的內(nèi)涵和意義人眼是一個(gè)高帶寬的巨量視覺信號(hào)輸入并行處理器,最高帶寬為每秒100MB,具有很強(qiáng)的模式識(shí)別能力,對(duì)可視符號(hào)的感知速度比對(duì)數(shù)字或文本快多個(gè)數(shù)量級(jí),且大量的視覺信息的處理發(fā)生在潛意識(shí)階段。視覺是獲取信息的最重要通道,超過50%的人腦功能用于視覺的感知,包括解碼可視信息、層次可視信息處理和思考可視符號(hào)。可視化對(duì)應(yīng)兩個(gè)英文單詞:VISUALIZE

和VISUALIZATIONVISUALIZE是動(dòng)詞,意即“生成符合人類感知”的圖像;通過可視元素傳遞信息。VISUALIZATION是名詞,表達(dá)“使某物、某事可見的動(dòng)作或事實(shí)”;對(duì)某個(gè)原本不可見的事物在人的大腦中形成一幅可感知的心理圖片的過程或能力。VISUALIZATION,也可以用于表達(dá)對(duì)某目標(biāo)進(jìn)行可視化的結(jié)果,即一幀圖像或動(dòng)畫。利用人眼的感知能力對(duì)數(shù)據(jù)進(jìn)行交互的可視表達(dá)以增強(qiáng)認(rèn)知的技術(shù),稱為可視化。它將不可見或難以直接顯示的數(shù)據(jù)轉(zhuǎn)化為可感知的圖形、符號(hào)、顏色、紋理等,增強(qiáng)數(shù)據(jù)識(shí)別效率,傳遞有效信息。表. 4個(gè)二維數(shù)據(jù)點(diǎn)集單維度均值、最小二乘法回歸線方程、誤差的平方和、方差的回歸和、均方誤差的誤差和、相關(guān)系數(shù)等統(tǒng)計(jì)屬性均相同可視化是認(rèn)知的過程,即形成某個(gè)物體的感知圖像,強(qiáng)化認(rèn)知理解??梢暬慕K極目的是對(duì)事物規(guī)律的洞悉。包含多重含義:發(fā)現(xiàn)、決策、解釋、分析、探索和學(xué)習(xí)??梢暬珊?jiǎn)明地定義為“通過可視表達(dá),增強(qiáng)人們完成某些任務(wù)的效率”??梢暬淖饔眯畔⒂涗泴?duì)信息的推理和分析信息傳播與協(xié)同抽象Harry

Beck,1933數(shù)據(jù)可視化分類科學(xué)可視化(Scientific

Visualization)信息可視化(Information

Visualization)

面向的領(lǐng)域主要是自然科學(xué),如物理、化學(xué)、氣象氣候、航空航天、醫(yī)學(xué)、生物學(xué)等各個(gè)學(xué)科。這些學(xué)科通常需要對(duì)數(shù)據(jù)和模型進(jìn)行解釋、操作與處理,旨在尋找其中的模式、特點(diǎn)、關(guān)系以及異常情況。

數(shù)據(jù)通常表達(dá)在三維或二維空間,或包含時(shí)間維度??茖W(xué)可視化(Scientific

Visualization)數(shù)據(jù)的類別可分為:標(biāo)量(密度、溫度)向量(風(fēng)向、力場(chǎng))張量(壓力)科學(xué)可視化也可粗略地分為標(biāo)量場(chǎng)可視化、向量場(chǎng)可視化、張量場(chǎng)可視化三類??茖W(xué)可視化(Scientific

Visualization)信息可視化(Information

Visualization)處理的對(duì)象是抽象的數(shù)據(jù)集合(如文本、圖表、層次結(jié)構(gòu)、地圖、軟件、復(fù)雜系統(tǒng)等)更關(guān)注抽象、高維數(shù)據(jù)。

1.時(shí)空數(shù)據(jù)可視化

對(duì)于地理信息數(shù)據(jù)可視化來說,合理地選擇和布局地圖上的可視化元素,從而呈現(xiàn)盡可能多的信息是關(guān)鍵。時(shí)變數(shù)據(jù)通常具有線性和周期性兩種特征,需要依此選擇不同的可視化方法。

2.層次與網(wǎng)絡(luò)結(jié)構(gòu)數(shù)據(jù)可視化

人與人之間的關(guān)系、城市之間的道路連接、科研論文之間的引用都組成了網(wǎng)絡(luò)。通常使用點(diǎn)線圖來可視化,如何在空間中合理有效地布局節(jié)點(diǎn)和連線是可視化的關(guān)鍵。

3.文本和跨媒體數(shù)據(jù)可視化

隨著網(wǎng)絡(luò)媒體,特別是社交媒體的迅速發(fā)展,每天都會(huì)產(chǎn)生海量的文本數(shù)據(jù),人們對(duì)于視覺符號(hào)的感知和認(rèn)知速度遠(yuǎn)遠(yuǎn)高于文本。

4.多變量數(shù)據(jù)可視化現(xiàn)實(shí)世界中復(fù)雜問題和對(duì)象的數(shù)據(jù)通常是多變量的高維數(shù)據(jù),數(shù)據(jù)降維到低維度空間,使用相互關(guān)聯(lián)的多視圖同時(shí)表現(xiàn)不同維度等等。可視分析學(xué)(Visual

Analytics)是一門綜合性學(xué)科:在可視化方面,有信息可視化、科學(xué)可視化與計(jì)算機(jī)圖形學(xué);與數(shù)據(jù)分析相關(guān)的領(lǐng)域:信息獲取、數(shù)據(jù)處理和數(shù)據(jù)挖掘;在交互方面,人機(jī)交互、認(rèn)知科學(xué)和感知等學(xué)科融合。圖. 可視分析學(xué)涉及的學(xué)科科學(xué)可視化的研究重點(diǎn)是帶有空間坐標(biāo)和幾何信息的醫(yī)學(xué)影像數(shù)據(jù)、三維空間信息測(cè)量數(shù)據(jù)、流體計(jì)算模擬數(shù)據(jù)等。由于數(shù)據(jù)的規(guī)模通常超過圖形硬件的處理能力,所以如何快速地呈現(xiàn)數(shù)據(jù)中包含的幾何、拓?fù)?、形狀特征和演化?guī)律是其核心問題。隨著圖形硬件和可視化算法的迅猛發(fā)展,單純的數(shù)據(jù)顯示已經(jīng)得到了較好的解決。信息可視化的核心問題主要有高維數(shù)據(jù)的可視化、數(shù)據(jù)間各種抽象關(guān)系的可視化、用戶的敏捷交互和可視化有效性的評(píng)斷等。可視分析將可視化、人的因素和數(shù)據(jù)分析集成在內(nèi)。感知與認(rèn)知科學(xué)研究人在可視分析學(xué)中的重要作用數(shù)據(jù)管理和知識(shí)表達(dá)是可視分析構(gòu)建數(shù)據(jù)到知識(shí)轉(zhuǎn)換的基礎(chǔ)理論地理分析、信息分析、科學(xué)分析、統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)等是可視分析學(xué)的核心方法;人機(jī)交互必不可少,用于駕馭模型構(gòu)建、分析推理和信息呈現(xiàn)等整個(gè)過程;可視分析流程中推導(dǎo)出的結(jié)論與知識(shí)最終需要向用戶表達(dá)和傳播??梢暦治銎赜趶母黝悢?shù)據(jù)綜合、推理出知識(shí)。其實(shí)質(zhì)是完成機(jī)器智能和人腦智能的雙向轉(zhuǎn)換,整個(gè)探索過程是迭代的、螺旋式的上升過程??梢暦治?. 數(shù)據(jù)可視化的發(fā)展歷史十六世紀(jì):Early

Maps

&

Diagrams(萌芽時(shí)期)人類已經(jīng)掌握了精確的觀測(cè)技術(shù)和設(shè)備,也采用手工方式制作可視化作品。公元前6200年的人類地圖圖片來源:http://www.math.yorku.ca/SCS/Gallery/imagesloldest-

map.jpg圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/peutinger335-366.jpg人類歷史上第一幅城市交通圖呈現(xiàn)了羅馬城的交通狀況十七世紀(jì):Measurement

&

Theory(成長時(shí)期)對(duì)物理基本量(時(shí)間、距離和空間)的測(cè)量設(shè)備與理論完善,被廣泛用于航空、測(cè)繪、制圖、國土勘探等。制圖學(xué)理論與實(shí)踐也隨著分析幾何、測(cè)量誤差、概率論、人口統(tǒng)計(jì)和政治版圖的發(fā)展而迅速成長。產(chǎn)生了基于真實(shí)測(cè)量數(shù)據(jù)的可視化方法開始了可視化思考的新模式誕生于1626年表達(dá)太陽黑子隨時(shí)間變化的圖。在一個(gè)視圖上同時(shí)可視化多個(gè)小圖序列是現(xiàn)代可視化技術(shù)中郵票圖表法(

small

multiples

)

的雛形。圖片來源:

http:J/content/m11970/latest/tres_epistolae.gif圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/halley1866a-1.jpg1686年繪制的歷史上第一幅天氣圖,顯示了地球的主流風(fēng)場(chǎng)分布。這也是向量場(chǎng)可視化的鼻祖。十八世紀(jì):

NewGraphicForms(發(fā)展時(shí)期)發(fā)明了新的圖形化形式(等值線、輪廓線)包含地理,經(jīng)濟(jì)和醫(yī)學(xué)數(shù)據(jù)信息的概念圖產(chǎn)生創(chuàng)造了新穎的視覺形式來描繪經(jīng)濟(jì)和政治方面的真實(shí)數(shù)據(jù)大多數(shù)這些新圖形形式出現(xiàn)在發(fā)行量有限的出版物中,在這一時(shí)期并沒有引起廣泛關(guān)注。1701年繪制的人類歷史第一幅等值線圖圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/palsky/halley-

map.jpg;1758年Lambert完成的三維金字塔顏色系統(tǒng)可視化圖片來源:http:/lirtel.uni-mannheim.de/colsys/Lambcrt..html圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/priestley.gif1765年JosephPriestley發(fā)明的時(shí)間線圖采用了單個(gè)線段表現(xiàn)某個(gè)人的一生同時(shí)比較了公元前1200年到公元1750年間2000個(gè)著名人物的生平。這幅作品直接激發(fā)了柱狀圖的誕生。18世紀(jì)是統(tǒng)計(jì)圖形學(xué)的繁榮時(shí)期,蘇格蘭工程師、政治經(jīng)濟(jì)學(xué)家William

Playfair是統(tǒng)計(jì)制圖法的創(chuàng)始人,他創(chuàng)造了折線圖、柱狀圖、餅圖、面積圖等今天使用最頻繁的統(tǒng)計(jì)圖,并且堅(jiān)信圖表比數(shù)據(jù)更有表現(xiàn)力。William

Playfair作品:丹麥和挪威1700—1780年間的貿(mào)易進(jìn)出口序列圖圖片來源:/wiki'William_Playfair世界上第一幅餅圖顯示了1789年土耳其帝國在亞洲、歐洲和非洲的疆土比例圖片來源:

http://www.math.yorku.ca/SCS/Gallery/images/Lambert1765-evaporation.jpg德國物理學(xué)家Lambert用于表達(dá)水的蒸發(fā)和時(shí)間之間的關(guān)系的線圖可視化。圖片來源:

http://www.math.yorku.ca/SCS/Gallery/images/Lambert1765-evaporation.jpg十九世紀(jì):1800-1849年,

Modern

Period(現(xiàn)代時(shí)期)統(tǒng)計(jì)圖形、概念圖等呈爆炸式增長關(guān)于社會(huì)、地理、醫(yī)學(xué)和經(jīng)濟(jì)的統(tǒng)計(jì)數(shù)據(jù)越來越多衍生了可視化思考的新方式:圖表用于表達(dá)數(shù)學(xué)證明和函數(shù);列線圖用于輔助計(jì)算;各類可視化顯示用于表達(dá)數(shù)據(jù)的趨勢(shì)和分布,便于交流、獲取和可視化觀察。Playfair繪制的??價(jià)格與?資時(shí)間序列圖、柱形圖。圖片來源:

http://www.datavis.ca/milestones/1837年第?幅流圖,以可變寬度的線段顯示了交通運(yùn)輸?shù)能壽E和乘客數(shù)量。圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/

harness-flow.gif19世紀(jì)下半葉(1850-1899年),系統(tǒng)地構(gòu)建可視化方法的條件日漸成熟,進(jìn)入了統(tǒng)計(jì)圖形學(xué)的黃金時(shí)期

(Golden

Age)

。認(rèn)識(shí)到數(shù)字信息對(duì)于社會(huì)計(jì)劃、工業(yè)化,商業(yè)和運(yùn)輸?shù)闹匾匀找嫣岣撸y(tǒng)計(jì)理論擴(kuò)展到社會(huì)領(lǐng)域。法國工程師查爾斯?約瑟夫?米納德(CharlesJosephMinard)

,是將可視化應(yīng)用于工程和統(tǒng)計(jì)的先驅(qū)者。其最著名的工作是1869年發(fā)布的描繪拿破侖進(jìn)軍莫斯科大敗而歸的歷史事件的流圖,該圖被譽(yù)為有史以來最好的統(tǒng)計(jì)可視化。圖片來源:/wikipedia/commons/2/29/Minard.png1812——1813年拿破侖進(jìn)軍莫斯科的歷史事件的流圖米納德在這一幅平面圖,呈現(xiàn)了6

個(gè)維度的信息:1.軍隊(duì)人數(shù)2.距離3.溫度4.經(jīng)緯度5.移動(dòng)方向6.時(shí)‐地關(guān)系南丁格爾“玫瑰圖(極區(qū)圖)”圖.

南丁格爾弗洛倫斯?南丁格爾(1820年5月12日~1910年8月13日)是世界上第一個(gè)真正意義上的女護(hù)士,被譽(yù)為現(xiàn)代護(hù)理業(yè)之母。5.12國際護(hù)士節(jié)就是為了紀(jì)念這一天是南丁格爾的生日除了在醫(yī)學(xué)和護(hù)理界的輝煌成就,南丁格爾還是一名優(yōu)秀的統(tǒng)計(jì)學(xué)家——她是英國皇家統(tǒng)計(jì)學(xué)會(huì)的第一位女性會(huì)員,也是美國統(tǒng)計(jì)學(xué)會(huì)的會(huì)員。南丁格爾早期大部分聲望都來自其對(duì)數(shù)據(jù)清楚且準(zhǔn)確的表達(dá)。她認(rèn)為醫(yī)學(xué)統(tǒng)計(jì)資料有助于改進(jìn)醫(yī)療護(hù)理的方法和措施。在她編著的各類書籍、報(bào)告等材料中使用了大量的統(tǒng)計(jì)圖表,其中最為著名的就是極區(qū)圖,也叫南丁格爾玫瑰圖。???1854年4月~1855年3月圖片來源:

http://www.datavis.ca/milestones/1855年4月~1856年3月東部軍隊(duì)死亡原因示意圖(1854-1856)生動(dòng)有力的說明了在戰(zhàn)地開展醫(yī)療救護(hù)和藍(lán)色促代進(jìn)表傷可預(yù)兵防醫(yī)和療可工緩作解的的疾病治療不必及要時(shí)性造。成的死亡紅

色打代動(dòng)表了戰(zhàn)場(chǎng)當(dāng)陣局亡者,增加黑色了代戰(zhàn)表地其他醫(yī)死院亡,原改因善。了軍隊(duì)醫(yī)院的條件,為圖表各挽個(gè)救扇區(qū)士角兵度生相命同做,出用了半徑及扇區(qū)面巨積大來貢表獻(xiàn)示”死亡。人數(shù)。圖1-3 極區(qū)圖:Facebook

vs.

推特英國麻醉學(xué)家、流?病學(xué)家John

Snow繪制的1854年倫敦霍亂地圖。該圖?次結(jié)合了地圖和疾病數(shù)據(jù)?,F(xiàn)代黑暗時(shí)期很少有圖形創(chuàng)新應(yīng)?和普及的時(shí)期第?次使?圖形?法來提供有關(guān)天?、物理、?物和其他學(xué)科的新發(fā)現(xiàn)和新理論開始對(duì)各種圖形形式的效率進(jìn)?實(shí)驗(yàn)?較二十世紀(jì): 1900-1949年:

Modern

Dark

Age1904年關(guān)于太陽黑子隨時(shí)間擾動(dòng)的蝴蝶圖驗(yàn)證了太陽黑子的周期性1957年發(fā)明的圓形圖標(biāo),采用線段及其朝向編碼多維數(shù)據(jù)。圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/dan/anderson_glyphs2.jpJacques

Bertin提出的七個(gè)視覺變量,給出了完備的圖形符號(hào)和表示理論。針對(duì)點(diǎn)(Point

)、線(Line)和區(qū)域(Area)數(shù)據(jù)采用不同視覺通道的圖形符號(hào)表示方案。圖片來源:http://www.math.yorku.ca/SCS/Gallery/images/bertin-ve.jpg圖.

1973年Herman

Chernoff發(fā)明的表達(dá)多變量數(shù)據(jù)的臉譜編碼?液化學(xué)數(shù)據(jù)使?計(jì)算機(jī)軟件Biplot進(jìn)?的可視化圖.JohnHartigan發(fā)明的散點(diǎn)圖矩陣圖.

1975年統(tǒng)計(jì)圖形學(xué)家發(fā)明的增強(qiáng)型散點(diǎn)圖1991年Ben

Shneideman教授發(fā)明的樹圖,?級(jí)聯(lián)嵌套的平?化樹狀結(jié)構(gòu)表達(dá)層次結(jié)構(gòu)。1994年施樂公司創(chuàng)造的表格透鏡技術(shù)進(jìn)入21世紀(jì),現(xiàn)有的可視化技術(shù)已難以應(yīng)對(duì)海量、高維、多源和動(dòng)態(tài)數(shù)據(jù)的分析挑戰(zhàn),需要綜合可視化、圖形學(xué)、數(shù)據(jù)挖掘理論與方法,研究新的理論模型、新的可視化方法和新的用戶交互手段,輔助用戶從大尺度、復(fù)雜、矛盾甚至不完整的數(shù)據(jù)中快速挖掘有用的信息,以便做出有效決策。3.

數(shù)據(jù)可視化的應(yīng)用斯坦福大學(xué)生物工程和精神病學(xué)負(fù)責(zé)人Karl

Deisseroth說:“以分子水平和全局范圍觀察整個(gè)大腦系統(tǒng),曾經(jīng)一直都是生物學(xué)領(lǐng)域一個(gè)無法實(shí)現(xiàn)的重大目標(biāo)”??梢暬到y(tǒng)在探索性任務(wù)(例如包含大數(shù)據(jù)量信息)中有突出的表現(xiàn),它可以幫助用戶從大量的數(shù)據(jù)空間中找到關(guān)注的信息來進(jìn)行詳細(xì)分析。醫(yī)學(xué)可視化工程可視化表意性可視化地理氣象信息可視化政治社會(huì)領(lǐng)域可視化商業(yè)智能可視化數(shù)據(jù)可視化的應(yīng)用4.

數(shù)據(jù)可視化的挑戰(zhàn)(1)導(dǎo)入和清理數(shù)據(jù)。決定如何組織輸入數(shù)據(jù)以獲得期望的結(jié)果,它所需要的思考和工作經(jīng)常比預(yù)期的多。(2)把視覺表示與文本標(biāo)簽結(jié)合在一起。視覺表示是強(qiáng)有力的,有意義的文本標(biāo)簽起到很重要的作用。(3)查找相關(guān)信息。經(jīng)常需要多個(gè)信息源來做出有意義的判斷。(4)集成數(shù)據(jù)挖掘。信息可視化和數(shù)據(jù)挖掘起源于兩條獨(dú)立的研究路線。研究人員正在逐漸把這兩種方法結(jié)合在一起。(5)與他人協(xié)同。發(fā)現(xiàn)是一個(gè)復(fù)雜的過程,它依賴于知道要尋找什么、通過與他人協(xié)同來驗(yàn)證假設(shè)、注意異常和使其他人相信發(fā)現(xiàn)的意義。(5)實(shí)現(xiàn)普遍可用性。當(dāng)可視化工具打算被公眾使用時(shí),必須使該工具可被多種多樣的用戶使用而不管他們的生活背景、工作背景、學(xué)習(xí)背景或技術(shù)背景如何。(6)評(píng)估。分析很少是一個(gè)孤立的短期過程,用戶可能需要長期從不同視角察看相同的數(shù)據(jù)。5可視化分析與編程工具bleau(1)TaTableau

(http://

www.

tableausoftware.

com)是可視化領(lǐng)域標(biāo)桿性的商業(yè)智能分析軟件,起源于美國斯坦福?學(xué)的科研成果,其設(shè)計(jì)?標(biāo)是以可視的形式動(dòng)態(tài)呈現(xiàn)關(guān)系型數(shù)據(jù)之間的關(guān)聯(lián),并允許?戶以所?即所得的?式完成數(shù)據(jù)分析和可視圖表和報(bào)告的創(chuàng)建。Tableau軟件最吸引?的特點(diǎn)在于,?戶?需掌握?深的技術(shù)或任何編程技能便可以上?操作。該?具已經(jīng)引起了來?各?各業(yè)的?們的興趣,?如咨詢、?融、通信、媒體、?科技、制造業(yè)、能源、體育、科研機(jī)構(gòu)等等。Python指?種?向?qū)ο蟆⒔忉屝偷挠?jì)算機(jī)程序設(shè)計(jì)語?,是?種功能強(qiáng)?的通?型語?,具有近??年的發(fā)展歷史,成熟且穩(wěn)定。它包含?組完善?且容易理解的標(biāo)準(zhǔn)庫,能夠輕松完成很多常?的任務(wù)。Python的NumPy、SciPy庫能夠???焖俸?便地操作?量數(shù)據(jù)、進(jìn)?科學(xué)計(jì)算,Matplotlib庫能夠以簡(jiǎn)潔的代碼繪制出漂亮的圖形。(2)

Python(3)

其他可視化工具ExcelGpreadsheetsoogle

S谷歌版的Excel,但用起來更容易,而且是在線的。可以通過內(nèi)置的聊天和實(shí)時(shí)編輯功能進(jìn)行協(xié)作。通過importHTML和importXML

函數(shù),可以從網(wǎng)上導(dǎo)入HTML和XML文件。(1)TileMill。自定義地圖的制作難度較大且技術(shù)性強(qiáng),然而現(xiàn)在已經(jīng)有多種程序能夠基于自己的數(shù)據(jù)、按喜好和需求設(shè)計(jì)地圖。地圖平臺(tái)MapBox提供的TileMill就是一款開源的桌面軟件,有不同平臺(tái)的多個(gè)版本。(2)ImagePlot。加州電信學(xué)院軟件研究實(shí)驗(yàn)室的ImagePlot能將大規(guī)模圖像集合作為一組數(shù)據(jù)點(diǎn)來進(jìn)行探索。例如,可以根據(jù)顏色、時(shí)間或數(shù)量來繪制圖形,從而展現(xiàn)某位藝術(shù)家或某一組照片的發(fā)展趨勢(shì)與變化。針對(duì)特定數(shù)據(jù)的工具(3)樹圖。馬里蘭大學(xué)人機(jī)交互實(shí)驗(yàn)室的交互式軟件是最早的,可以免費(fèi)使用。樹圖對(duì)于探索小空間中的層次式數(shù)據(jù)非常有用。Hive小組還開發(fā)并維護(hù)了一款商用版本。(4)indiemapper。這是地圖制作小組AxisMaps提供的一個(gè)免費(fèi)服務(wù)。與TileMill類似,它支持創(chuàng)建自定義地圖以及用自己的數(shù)據(jù)制圖,但它運(yùn)行在瀏覽器中,而不是作為桌面客戶端軟件運(yùn)行。indiemapper使用簡(jiǎn)單,并且有大量的示例幫助起步。可以方便地變換地圖投影,找出最適合自己需要的投影方式。(5)GeoCommons。其與indiemapper類似,但更專注于數(shù)據(jù)的探索和分析。你可以上傳自己的數(shù)據(jù),也可以從GeoCommons數(shù)據(jù)庫中抽取數(shù)據(jù),然后與點(diǎn)和區(qū)域進(jìn)行交互。還可以將數(shù)據(jù)以多種常見的格式導(dǎo)出,以便導(dǎo)入其他軟件。(6)ArcGIS。在新的地圖工具出現(xiàn)之前,對(duì)大數(shù)人來說,AreGIS都是首選的地圖工具。ArcGIS是個(gè)特性豐富的平臺(tái),幾乎能做與地圖有關(guān)的任何事情。大多數(shù)時(shí)候,基本功能已經(jīng)足夠,因此最好還是先嘗試一下免費(fèi)選項(xiàng),如果不夠用,再嘗試ArcGIS。(7)Gephi。是一款跨平臺(tái)的基于JVM的復(fù)雜網(wǎng)絡(luò)分析軟件,其主要用于各種網(wǎng)絡(luò)和復(fù)雜系統(tǒng),幫助用戶創(chuàng)建動(dòng)態(tài)的層次豐富的圖表。Gephi自稱是“開放的圖表及可視化平臺(tái)”

,起創(chuàng)于2009年的一個(gè)大學(xué)生項(xiàng)目,已迅速成為一個(gè)頗具價(jià)值的開源軟件資源。支撐用戶創(chuàng)建檢驗(yàn)假設(shè)、深入探尋模式以及觀測(cè)異常值、偏差值??梢詫ephi想象成統(tǒng)計(jì)輔助工具(能跟R進(jìn)行整合)。(8)Timeflow。用于分析時(shí)間數(shù)據(jù)的開源可視化工具,由

Sarah

Cohen(杜克大學(xué))于

2010

年創(chuàng)建。TimeFlow

有一套強(qiáng)大的工具用于過濾和聚合數(shù)據(jù)。該程序提供了四種不同的顯示視圖:標(biāo)準(zhǔn)時(shí)間線、表格、條形圖和交互式日歷??沙坦ぞ咭暬帹C JavaScript、HTML和CSS隨著瀏覽器的速度越來越快,可視化開始借助HTML

、JavaScript和CSS代碼在瀏覽器中展示。具有很大的靈活性,可以做出用戶想要的各種效果。JavaScript具有很多進(jìn)行可視化的庫,例如D3.js、Echarts、Recharts、ApexCharts等。D3.js

。處理基于數(shù)據(jù)文檔的JavaScript

庫。利用諸如HTML

、Scalable

Vector

Graphic以及Cascading

Style

Sheets等編程語言讓數(shù)據(jù)變得更生動(dòng)。通過對(duì)網(wǎng)絡(luò)標(biāo)準(zhǔn)的強(qiáng)調(diào),D3賦予用戶當(dāng)前瀏覽器的完整能力。提供的基于數(shù)據(jù)的DOM操作(文檔對(duì)象模型,Document Object

Model)不僅提供了極大的靈活性,同時(shí)避免了面向不同類型和任務(wù)設(shè)計(jì)專用可視表達(dá)的負(fù)擔(dān)。Echarts:是基于JavaScript的開源數(shù)據(jù)可視化圖表庫。可以流暢的運(yùn)行在PC端和移動(dòng)設(shè)備上,兼容當(dāng)前絕大部分瀏覽器(IE8/9/10/11,Chrome,F(xiàn)irefox,Safari等),底層依賴矢量圖形庫ZRender,提供直觀、豐富、可高度個(gè)性化定制的圖表,并且支持圖與圖之間的混搭。Echarts開源且使用簡(jiǎn)單,官網(wǎng)有豐富的API及文檔說明。R語言。由新西蘭奧克蘭大學(xué)Ross

Ihaka和Robert

Gentleman開發(fā)的R是一個(gè)用于統(tǒng)計(jì)學(xué)計(jì)算和繪圖的語言,它已超越僅僅是流行的強(qiáng)有力開源編程語言的意義,成為統(tǒng)計(jì)計(jì)算和圖表呈現(xiàn)的軟件環(huán)境,并且還處在不斷發(fā)展的過程中。圖

R繪制的數(shù)據(jù)分析圖形Processing。它原本是為美工設(shè)計(jì)的,它是一種開源的編程語言,基于素描本(sketchbook)這一隱喻來編寫代碼。只需要幾行代碼就能實(shí)現(xiàn)非常有用的功能。此外,它還有大量的示例、庫、圖書以及一個(gè)提供幫助的巨大社區(qū)。PHP。是比R語言和Processing應(yīng)用更為廣泛的編程語言。PHP主要用于Web編程,大多數(shù)Web服務(wù)器都已經(jīng)安裝了PHP。PHP

有圖形庫,可以把它應(yīng)用于數(shù)據(jù)的可視化。結(jié)論:交互式可視化工具如Tableau、PowerBI、FineBI等可能僅需要用戶掌握軟件使用方法,難度較小,容易上手,但同時(shí)也不夠靈活,功能有限。適用于用戶缺少編程基礎(chǔ)、數(shù)據(jù)相對(duì)簡(jiǎn)單、任務(wù)需求比較直接的應(yīng)用場(chǎng)景。編程式可視化工具較難學(xué)習(xí),但提供可以更多的靈活性和選項(xiàng)??梢宰龀龈玫淖髌贰_m用于任務(wù)難度高,數(shù)據(jù)復(fù)雜的場(chǎng)景。配置式可視化工具如Echarts,需要使用人員具有一定基礎(chǔ)編程能力,一般是通過用戶傳入特定的配置選項(xiàng)來完成既定的可視化形式。適用于稍復(fù)雜的場(chǎng)景,任務(wù)為中等復(fù)雜度。第二章 數(shù)據(jù)可視化的理論基礎(chǔ)主要內(nèi)容視覺感知和認(rèn)知格式塔理論視覺通道色彩1.視覺感知什么是視覺感知?視覺感知感知是指客觀事物通過人的感覺器官在人腦中形成的直接反映感覺器官眼、耳、鼻、神經(jīng)末梢那么,視覺感知就是客觀事物通過人的視覺在人腦中形成的直接反映感知:關(guān)于輸入信號(hào)的本質(zhì);看見的東西認(rèn)知:關(guān)于怎樣理解和解釋看到的東西什么是認(rèn)知?認(rèn)知認(rèn)知心理學(xué)將認(rèn)知過程看成由信息的獲取、分析、歸納、解碼、儲(chǔ)存、概念形成、提取和使用等一系列階段組成的按一定程序進(jìn)行的信息加工系統(tǒng)??茖W(xué)領(lǐng)域中,認(rèn)知是包含注意力、記憶、產(chǎn)生和理解語言、解決問題,以及進(jìn)行決策的

心理過程

的組合?!爱?dāng)人們觀察事物時(shí),人們所看到的依賴于事物本身是什么。將事物看做什么,取決于人們對(duì)看到的事物了解多少?!薄癡isualizationisreallyaboutexternalcognition,thatis,howresourcesoutsidethemindcanbeusedtoboostthecognitivecapabilitiesofthe

mind.”Stuart

Card可視化致力于外部認(rèn)知,也就是說,怎樣利用大腦以外的資源來增強(qiáng)大腦本身的認(rèn)知能力。有多少黑點(diǎn)交叉點(diǎn)上的黑色圓點(diǎn)在跳躍變化相對(duì)性&絕對(duì)性感知系統(tǒng)基于相對(duì)判斷,而非絕對(duì)判斷(Weber’sLaw)無線框未對(duì)齊有線框未對(duì)齊ABABAB無線框A和B那一個(gè)更高?相對(duì)性&絕對(duì)性感知系統(tǒng)基于相對(duì)判斷,而非絕對(duì)判斷(Weber’sLaw)A和B哪一個(gè)更亮?2.格式塔理論最大的特點(diǎn)是強(qiáng)調(diào)研究心理對(duì)象的整體性整體性思想的核心是有機(jī)體或統(tǒng)一的整體大于各部分單純相加之和。整體論思想最早出現(xiàn)在古希臘和古羅馬時(shí)代,但真正體現(xiàn)是在黑格爾(G.W.F.

Hegel)的哲學(xué)之中。黑格爾用有機(jī)體的整體論來解釋人類的歷史,認(rèn)為人類歷史的基本單位是國家和民族,歷史事件不能簡(jiǎn)單還原為個(gè)人行為。Wolgang

K?hler1887‐1967Kurt

Koffka1886-1941Max

Wertheimer1880-1943為什么我們?cè)谟^看事物的時(shí)候會(huì)把一部分當(dāng)做前景,其余部分當(dāng)做背景?為什么我們能區(qū)分形狀?什么形狀是好的?格式塔(gestalt)原則接近(或鄰近)原則相似原則封閉(閉合)原則連續(xù)原則簡(jiǎn)單原則6.共勢(shì)原則7.好圖原則對(duì)稱原則經(jīng)驗(yàn)原則

1.接近(或鄰近)Proximity兩個(gè)對(duì)象在空間或時(shí)間上比較接近或鄰近時(shí),則這兩個(gè)對(duì)象就傾向于被一起感知為一個(gè)整體。

刺激物的形狀、大小、顏色、強(qiáng)度等物理屬性方面比較相似時(shí),這些刺激物就容易被組織起來而構(gòu)成一個(gè)整體。主體在感知物體時(shí)有一種能自行填補(bǔ)缺口使其閉合將其知覺為一個(gè)整體的傾向。

我們傾向于完整地連接一個(gè)圖形,而不是觀察殘缺的線條或形狀。人們對(duì)一個(gè)復(fù)雜對(duì)象進(jìn)行知覺時(shí),如沒有特殊要求,常常傾向于把對(duì)象看作是有組織的簡(jiǎn)單的規(guī)則圖形。6.共勢(shì)原則(common

fate)

如果一組物體沿著相似的光滑路徑有運(yùn)動(dòng)趨勢(shì)或具有相似的排列模式,人們會(huì)將他們識(shí)別為同一物體。從一堆字符中認(rèn)知語句7.好圖原則(Good

Figure)

好圖原則指人眼通常會(huì)自動(dòng)的將一組物體按照簡(jiǎn)單、規(guī)則、有序的元素排列方式識(shí)別。即個(gè)體識(shí)別世界的時(shí)候通常會(huì)消除其中的復(fù)雜性和不熟悉性,采納最簡(jiǎn)化的形式。上:奧運(yùn)環(huán);下:

割裂的圓環(huán)。8.對(duì)稱原則(Symmetry)

人的意識(shí)傾向于將物體識(shí)別為沿某點(diǎn)或某軸對(duì)稱的形狀。某國男女人口隨年齡的分布情況9.

經(jīng)驗(yàn)原則(Past

Experience)

是指在某些情形下,視覺感知與過去的經(jīng)驗(yàn)有關(guān)。如果兩個(gè)物體看上去距離相近,或者時(shí)間間隔小,那么它們通常被識(shí)別為同一類。3.視覺通道可視化編碼將數(shù)據(jù)信息以可視化視圖呈現(xiàn),其核心內(nèi)容是可視化編碼,它是將數(shù)據(jù)信息映射成可視化元素的技術(shù)??梢暬幋a由幾何標(biāo)記(圖形元素)和視覺通道兩部分組成。

幾何標(biāo)記:可視化中標(biāo)記通常是一些幾何圖形元素,例如:點(diǎn)、線、面、體。

視覺通道:用于控制幾何標(biāo)記的展示特性,為標(biāo)記提供視覺特征,包括標(biāo)記的位置、大小、形狀、方向、色調(diào)、飽和度、亮度等。視覺通道的類型

定性(分類)的視覺通道:如形狀、顏色的色調(diào)、空間位置。

定量(連續(xù)、有序)的視覺通道:如直線的長度、區(qū)域的面積、空間的體積、斜度、角度、顏色的飽和度和亮度等。視覺通道的特性空間位置尺寸顏色亮度飽和度色調(diào)配色方案透明度方向形狀紋理動(dòng)畫空間

三維:虛擬現(xiàn)實(shí)……。是放置所有可視化元素的容器??梢允牵?/p>

一維:溫度計(jì)……。設(shè)計(jì)和結(jié)構(gòu)簡(jiǎn)單。

二維:手機(jī)、電視……最常見。和人類視覺的生理構(gòu)造相對(duì)應(yīng)。通常采用平面像素而不是三維像素成像,通過跟蹤用戶位置和視角不斷更新,讓用戶產(chǎn)生置身于現(xiàn)實(shí)三維環(huán)境中的感受。位置

既可以用于編碼分類的數(shù)據(jù)屬性,又可以編碼定序或者定量的數(shù)據(jù)屬性的視覺通道。如果是平面上的接近性,還可以參與分組。

平面位置的兩個(gè)可以分離的視覺通道是水平位置和垂直位置。尺寸尺寸是定量或定序的視覺通道,適合編碼有序的數(shù)據(jù)屬性。長度是一維的尺寸,包括垂直尺寸和水平尺寸,即高度和寬度。面積是二維的尺寸。體積是三維的尺寸。維度越高判斷越來越不準(zhǔn)確。顏色最復(fù)雜的,也是可以編碼大量數(shù)據(jù)信息的視覺通道之一。

亮度

(明度)

(Brightness)

(定量或定序)

飽和度

(彩度)

(Saturation)

(定量或定序)

色調(diào)

(Hue)

(定性或分類)配色方案

關(guān)系到信息表達(dá)和美觀??梢詰?yīng)用一些軟件在線配色,比如:

ColorBrewer配色系統(tǒng):

/

Adobe的Kuler配色系統(tǒng):

/zh/create方向紋理

紋理被認(rèn)為是多種視覺變量的組合,包括形狀、顏色和方向。(1)形狀組成紋理。(2)顏色是紋理中每個(gè)像素點(diǎn)的顏色。(3)方向是紋理中形狀和顏色的旋轉(zhuǎn)變化。

二維應(yīng)用:不同的數(shù)據(jù)范圍或者分布。

三維應(yīng)用:一般作為幾何物體的屬性,表示高度、頻率、方向等。動(dòng)畫指由計(jì)算機(jī)生成的連續(xù)播放的靜態(tài)圖像所形成的動(dòng)態(tài)效果的圖畫作品。利用人的視覺殘留現(xiàn)象,產(chǎn)生視覺動(dòng)感。視覺通道主要是:運(yùn)動(dòng)的方向(編碼定性的數(shù)據(jù)屬性)運(yùn)動(dòng)的速度(編碼定量的數(shù)據(jù)屬性)閃爍的頻率等(編碼定量的數(shù)據(jù)屬性)特點(diǎn):完全吸引了人的注意力,觀察其中的非動(dòng)畫部分非常困難。精確性(準(zhǔn)確編碼數(shù)據(jù)包含的所有信息,要盡量忠于原始數(shù)據(jù))可辨性可分離性視覺突出視覺通道的表現(xiàn)力和有效性精確性

研究表明,人類感知系統(tǒng)對(duì)于不同的視覺通道感知精確性是不同的。

美國心理物理學(xué)家史蒂文斯在1953年提出了心理物理學(xué)定律,也稱作“史蒂文斯冪次法則”。該定律認(rèn)為,感覺量的大小與刺激量的乘方成正比,也即心理量是物理量的冪函數(shù)。用公式表示為:

S=K·I^n其中S為心理量,K為常數(shù),I為物理量,n因不同的感覺而異。下表為史蒂文斯冪次法則所描述的一些視覺通道的冪次。表示了視覺通道的實(shí)際變化量與人類主觀感知存在的聯(lián)系。視覺通道亮度面積長度灰對(duì)比度冪次0.50.71.01.2表

不同視覺通道對(duì)應(yīng)的n值視覺通道感知的精確性將影響可視化結(jié)果對(duì)數(shù)據(jù)信息傳遞的準(zhǔn)確性,因此在表達(dá)定量數(shù)據(jù)的時(shí)候,通常采用一端對(duì)齊射線的長度或柱狀圖的高度進(jìn)行表示??杀嫘?/p>

視覺通道可以有不同的取值范圍,調(diào)整取值范圍能讓人們區(qū)分該視覺通道的狀態(tài),便于辨認(rèn)。圖

使用直線寬度編碼流量可分離性

在同一可視化結(jié)果中,多個(gè)視覺通道的存在可能會(huì)影響到用戶的正確感知。視覺突出

是指在很短時(shí)間內(nèi)(200

~

250ms),人們可以僅僅依賴感知的前向注意力來直接發(fā)覺某一對(duì)象的不同。具有高表現(xiàn)力的視覺通道用于更重要的數(shù)據(jù)屬性編碼!圖.

視覺通道的表現(xiàn)力排序表現(xiàn)力從高到低第3章

數(shù)據(jù)的理解與分析本章主要內(nèi)容數(shù)據(jù)基礎(chǔ)數(shù)據(jù)特征數(shù)據(jù)預(yù)處理數(shù)據(jù)存儲(chǔ)數(shù)據(jù)分析3.1

數(shù)據(jù)基礎(chǔ)3.1.1

數(shù)據(jù)屬性是一個(gè)數(shù)據(jù)字段,數(shù)據(jù)對(duì)象的特征(Characteristics)或特性(feature).數(shù)據(jù)對(duì)象中往往包含一個(gè)或多個(gè)屬性。別名:特征維度變量3.1.2

屬性類型類別型屬性:?于區(qū)分不同數(shù)據(jù)對(duì)象的名稱或符號(hào)。屬性類型有序型屬性:按照一定的意義排列順序。屬性類型數(shù)值型屬性:是可度量的量,?整數(shù)或?qū)崝?shù)值表示。例如?度、重量、體積、溫度等常?物理屬性。離散型和連續(xù)型離散型屬性的取值來?有限或可數(shù)的集合,例如等級(jí),?檔單詞,郵政編碼等。連續(xù)型屬性則對(duì)應(yīng)于實(shí)數(shù)域,例如?度,溫度和濕度等。3.2

數(shù)據(jù)特征3.2.1

基本統(tǒng)計(jì)描述數(shù)據(jù)的宏觀表達(dá)。把握數(shù)據(jù)的全貌,了解數(shù)據(jù)的分布狀況,探索式數(shù)據(jù)分析的基礎(chǔ)。樣本數(shù)據(jù)的基本統(tǒng)計(jì)特征分為三類:集中趨勢(shì)度量:

表示數(shù)據(jù)的集中位置,尋找數(shù)據(jù)中的中?值或者代表值,主要有均值、中位數(shù)、眾數(shù)等。離中趨勢(shì)度量:表示數(shù)據(jù)的分散程度,反映了數(shù)據(jù)遠(yuǎn)離中?值的程度,描述?組數(shù)據(jù)的波動(dòng)性,主要有標(biāo)準(zhǔn)差、極差、四分位數(shù)、四分位數(shù)極差、變異系數(shù)等。數(shù)據(jù)分布形態(tài):

主要有偏態(tài)和峰態(tài)?;窘y(tǒng)計(jì)描述均值方差

方差用來衡量所有樣本點(diǎn)偏離均值的程度。標(biāo)準(zhǔn)差是方差的平方根。??

=1??iI

?? -???2ni=1中位數(shù)

指樣本按從小到大排列后處于中間位置上的值。

中位數(shù)依賴數(shù)據(jù)的排序位置確定,而不是使用全部數(shù)據(jù)求得,因而會(huì)損失部分?jǐn)?shù)據(jù)信息,但它較少受到極端異常值影響。百分位數(shù)

是中位數(shù)的推廣,表明數(shù)據(jù)集中小于它的數(shù)的比例。第一步:將n個(gè)變量值從小到大排列,X(j)表示此數(shù)列中第j個(gè)數(shù)。第二步:計(jì)算指數(shù),設(shè)(n+1)P%=j+g,j為整數(shù)部分,g為小數(shù)部分。第三步:1)當(dāng)g=0時(shí):P百分位數(shù)=X(j);2)當(dāng)g≠0時(shí):P百分位數(shù)=g*X(j+1)+(1-g)*X(j)=X(j)+g*[X(j+1)-X(j)]

例3.2

一家電器商城12個(gè)員工在某天售出的電視機(jī)數(shù)量按照升序排列如下:

1,

3,

3,

3,

4,4,5,6,6,8,12,14

有12個(gè)數(shù)據(jù),求第10百分位數(shù)?

在位置(12+1)X10%=1.3位置處,即在第一個(gè)數(shù)據(jù)和第二個(gè)數(shù)據(jù)之間且離第一個(gè)數(shù)據(jù)30%位置處,因而第10百分?jǐn)?shù)位是1+(3‐1)×30%=1.6。四分位數(shù)

三個(gè)四分位數(shù)????,????,????將數(shù)據(jù)分成均勻的四份,因而????和????分別為數(shù)據(jù)排序后位于25%和75%位置上的值,分別被稱為第25百分位數(shù)和第75百分位數(shù)。????為中位數(shù)。

在例3.2中,

????、

????分別是多少?????的位置在?????的位置在?四分位數(shù)間距

是測(cè)量數(shù)據(jù)分布寬度的值,定義為第75百分位數(shù)與第25百分位數(shù)之間的距離,即??1和??3的差距。反映了中間50%數(shù)據(jù)的離散程度,不受極端異常值的影響。

例3.2中四分位數(shù)間距是多少???3‐??1=7.5‐3=4.5。眾數(shù)

是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值,有時(shí)眾數(shù)在一組數(shù)中有好幾個(gè)。

若一組數(shù)據(jù)中只有一個(gè)眾數(shù),則此數(shù)據(jù)集是單峰的;若一組數(shù)據(jù)中有多個(gè)眾數(shù),則此數(shù)據(jù)集是多峰的。極差值

極差值是一組數(shù)據(jù)中最大值與最小值之差,它只能描述數(shù)據(jù)的分布范圍,不能充分表達(dá)數(shù)據(jù)的分布信息。3.2.2

數(shù)據(jù)對(duì)象間的關(guān)系:相似度和相異度數(shù)據(jù)間關(guān)系的度量。經(jīng)常在統(tǒng)計(jì)和數(shù)據(jù)挖掘中使用。相似度(Similarity)是衡量多個(gè)數(shù)據(jù)對(duì)象之間相似程度的數(shù)值,通常位于0和1之間,如果兩個(gè)對(duì)象完全不相似,則其相似度為0;相似度越高,對(duì)象之間的相似性越大。與之對(duì)應(yīng)的測(cè)度是相異度(Dissimilarity)。鄰近度是相似度和相異度的統(tǒng)一描述。相異度矩陣

相異度矩陣存儲(chǔ)n個(gè)對(duì)象兩兩之間的相似性,表現(xiàn)形式是一個(gè)n×n維的矩陣。d(i,j)是對(duì)象i和j之間相異性的量化表示,通常為非負(fù)值,兩個(gè)對(duì)象越相似或“接近”,其值越接近0,越不同,其值越大,且d(i,j)=

d(j,i),d(i,i)=0。相異度矩陣相異度類別型數(shù)據(jù)距離計(jì)算數(shù)值型屬性間的距離計(jì)算不匹配率:對(duì)于具有p個(gè)類別屬性的兩個(gè)對(duì)象X,Y,他們的相異度定義為:1.

類別型數(shù)據(jù)距離計(jì)算其中,m為兩對(duì)象對(duì)應(yīng)屬性取值相等的個(gè)數(shù)。例:學(xué)生信息中包含性別、宿舍和年級(jí)三個(gè)類別屬性,兩個(gè)學(xué)生的信息分別為(男,十一公寓,大二)和(男,十三公寓,大一),求它們的相異度?3-

1=23 3(1)杰卡德距離

對(duì)于對(duì)象X,Y,取值同為1的屬性有??個(gè),X

取0且Y取1的屬性有??個(gè),X

取1且Y取0的屬性有??個(gè),則X,Y的杰卡德距離為:

杰卡德距離越大,說明相異度越大。

例:

當(dāng)X取值為(1,0,1,0),Y取值為(1,0,0,1)時(shí),d

??,

??

=??+

????+??+

??它們的杰卡德距離1

+是1多少=?21

+

1+

1 3杰卡德距離可以用來比較兩個(gè)文檔的相似性,對(duì)于文檔中的所有主干詞,當(dāng)每個(gè)詞在文檔中出現(xiàn)時(shí)將它的值設(shè)為1,否則設(shè)為0,然后通過計(jì)算杰卡德距離可以衡量兩文檔的相似度。(2)漢明距離

表示兩個(gè)等長字符串在對(duì)應(yīng)位置上不同字符的數(shù)目,用于度量兩個(gè)等長字符串的相異性。

例如字符串“karolin”和“kathrin”的漢明距離為?。

漢明距離度量了通過替換字符的方式將字符串x變成y所需要的最小的替換次數(shù)。在信息編碼中,為了增強(qiáng)容錯(cuò)性,應(yīng)該將編碼間的最小漢明距離最大化。2.

數(shù)值型數(shù)據(jù)的相異度歐幾里得距離(Euclidean

Distance)

歐氏距離,兩點(diǎn)之間的直線距離。曼哈頓距離(Manhattan

Distance)

也被稱為城市街區(qū)距離,在規(guī)則布局的街道中,從一個(gè)十字路口前往另一個(gè)十字路口,行走距離不是兩點(diǎn)間的直線距離,而是垂直的移動(dòng)路線,閔可夫斯基距離(Minkowski

Distance)切比雪夫距離(Chebyshev

Distance)標(biāo)準(zhǔn)化歐氏距離(StandardizedEuclidean

Distance)馬氏距離(Mahalanobis

Distance)余弦距離本身誤差精度轉(zhuǎn)換特定應(yīng)用需求缺失值數(shù)據(jù)集成3.2.3

數(shù)據(jù)不確定性

指屬性的值并不單一,而是按照一定的概率取多種值。這些誤差信息通常用一個(gè)概率密度函數(shù)或者其他統(tǒng)計(jì)量(均值、方差、協(xié)方差等)來表示。分類存在不確定性指數(shù)據(jù)是否存在具有一定的概率。屬性不確定性3.3

數(shù)據(jù)預(yù)處理1

標(biāo)準(zhǔn)系統(tǒng)架構(gòu)應(yīng)用數(shù)據(jù)庫ETL抽?。‥xtract)轉(zhuǎn)化(

Transform)裝載(Load)數(shù)據(jù)倉庫數(shù)據(jù)產(chǎn)品商業(yè)智能分析數(shù)據(jù)倉庫從各數(shù)據(jù)源獲取數(shù)據(jù)及在數(shù)據(jù)倉庫內(nèi)

的數(shù)據(jù)轉(zhuǎn)換和流動(dòng)都可以認(rèn)為是ETL,ETL是數(shù)據(jù)倉庫的流水線,也可以認(rèn)為是數(shù)據(jù)倉庫的血液,它維系著數(shù)據(jù)倉庫中數(shù)據(jù)的新陳代謝。2.

ETL的過程ETL的過程包括數(shù)據(jù)抽?。‥xtract)、數(shù)據(jù)轉(zhuǎn)換(Transform)、數(shù)據(jù)裝載(Load)。抽取階段:從一個(gè)或多個(gè)數(shù)據(jù)源中抽取數(shù)據(jù)。轉(zhuǎn)換階段:主要進(jìn)行數(shù)據(jù)變換操作,包括數(shù)據(jù)清理、重構(gòu)、標(biāo)準(zhǔn)化等。裝載階段:將轉(zhuǎn)換過的數(shù)據(jù)按照一定的存儲(chǔ)格式進(jìn)行存儲(chǔ)。3

數(shù)據(jù)質(zhì)量數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量高

->

對(duì)目標(biāo)用途的符合度高精確性(Accuracy)完整性(Completeness)一致性(Consistency)適時(shí)性(Timeliness)可信性(Believability)可解釋性(Interpretability)常用的可視化質(zhì)量指標(biāo)包括:尺寸:是可量化的量度,如數(shù)據(jù)點(diǎn)的數(shù)量,構(gòu)成了其他計(jì)算的基礎(chǔ)。視覺有效性:用于衡量圖像退化(如沖突、模糊)或可視布局的美學(xué)愉悅程度。特征保留度:是評(píng)估可視化質(zhì)量的核心,它衡量可視化結(jié)果在數(shù)據(jù)、可視化和認(rèn)知角度正確展現(xiàn)數(shù)據(jù)特性的程度。4 數(shù)據(jù)可視化質(zhì)量4 數(shù)據(jù)可視化質(zhì)量

衡量視覺有效性的常用方法有:數(shù)據(jù)密度(data

density)

是愛德華?塔夫特(Edward

Tufte)提出的一個(gè)概念,即圖形單位面積內(nèi)展示的觀察變量數(shù)據(jù)量。

他認(rèn)為圖表的數(shù)據(jù)密度越高越好,特別是當(dāng)處理和解釋額外信息的邊際成本降低時(shí)。不要在少量的信息上浪費(fèi)大量的圖形。數(shù)據(jù)墨水比(data-ink

ratio)圖形中的數(shù)據(jù)墨水量除以圖形中的總墨水量。圖里有多少提升的空間?如何在提升數(shù)據(jù)墨水比和有效傳遞觀點(diǎn)之間找到平衡?數(shù)據(jù)展示為先,確認(rèn)圖表設(shè)計(jì)成功傳遞了觀點(diǎn)刪除圖表垃圾提升數(shù)據(jù)墨水比圍繞要傳遞的觀點(diǎn),補(bǔ)充輔助信息5

數(shù)據(jù)清理數(shù)據(jù)清理:檢測(cè)和清除數(shù)據(jù)中的錯(cuò)誤和不一致,以提高數(shù)據(jù)質(zhì)量。Data…Data!數(shù)據(jù)錯(cuò)誤類型及處理方法缺失值常量代替缺失值屬性平均值填充回歸、分類方法進(jìn)行預(yù)測(cè)式填充人工填充噪聲值:回歸分析是被測(cè)量變量的隨機(jī)誤差或方差。離群點(diǎn)分?析這些記錄值通常具有數(shù)據(jù)有效性,但并不準(zhǔn)確。可視數(shù)據(jù)清洗在清理中,可以使用交互式可視化方法來提高數(shù)據(jù)清理效率。6

數(shù)據(jù)整合數(shù)據(jù)1數(shù)據(jù)2數(shù)據(jù)3數(shù)據(jù)是將不同數(shù)據(jù)源的數(shù)據(jù)進(jìn)行采集、清理、精簡(jiǎn)和轉(zhuǎn)換后統(tǒng)一融合在一個(gè)數(shù)據(jù)集合中,并提供統(tǒng)一數(shù)據(jù)視圖的數(shù)據(jù)集成方式。數(shù)據(jù)整合包括:

(1)合并來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)(2)向用戶提供一個(gè)關(guān)于這些數(shù)據(jù)的統(tǒng)一視圖管理來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)多數(shù)據(jù)源結(jié)構(gòu)沖突(structural

conflicts):不同的模式(schema)等數(shù)據(jù)沖突(data

conflicts):重復(fù)的記錄,沖突的記錄屬性等數(shù)據(jù)整合實(shí)例(1)客戶列表1客戶列表2整合結(jié)果數(shù)據(jù)整合實(shí)例(2)對(duì)同一篇論文,來自不同論文數(shù)據(jù)庫的引用格式可能存在不同整合為某種統(tǒng)一格式另一種數(shù)據(jù)整合方式:虛擬化數(shù)據(jù)源A數(shù)據(jù)源B數(shù)據(jù)源C轉(zhuǎn)換器轉(zhuǎn)換器轉(zhuǎn)換器擁有統(tǒng)一模式的“虛擬數(shù)據(jù)庫”數(shù)據(jù)并沒有從數(shù)據(jù)源中移出,而是在不同的數(shù)據(jù)源之上增加轉(zhuǎn)換策略,并構(gòu)建一個(gè)虛擬層,以提供統(tǒng)一的數(shù)據(jù)訪問接口。通常使用中間件技術(shù),在中間件提供的虛擬數(shù)據(jù)層之上定義數(shù)據(jù)映射關(guān)系。同時(shí),虛擬層還負(fù)責(zé)將不同數(shù)據(jù)源的數(shù)據(jù)在語義上進(jìn)行融合,即在查詢時(shí)做到語義一致。數(shù)據(jù)清洗和整合步驟初步分析:在操作之前進(jìn)行數(shù)據(jù)分析沖突解析:解析數(shù)據(jù)源間的數(shù)據(jù)沖突定義數(shù)據(jù)轉(zhuǎn)換工作流和轉(zhuǎn)換規(guī)則:使用工作流方式完成模式(schema)配準(zhǔn)和轉(zhuǎn)換工作流驗(yàn)證:驗(yàn)證工作流中的步驟是否正確數(shù)據(jù)轉(zhuǎn)換:開始流程3.4

數(shù)據(jù)存儲(chǔ)裝載并存儲(chǔ)數(shù)據(jù)數(shù)據(jù)分析與可視化所涉及的數(shù)據(jù)存儲(chǔ)組織形式主要包括以下三類:基于文件的存儲(chǔ)數(shù)據(jù)庫

&

數(shù)據(jù)庫管理系統(tǒng)數(shù)據(jù)倉庫最簡(jiǎn)單的方法直接將數(shù)據(jù)存儲(chǔ)為文件形式簡(jiǎn)單、方便電子表格類型:CSV文件逗號(hào)分隔值(comma-separated

values)結(jié)構(gòu)化文件格式數(shù)據(jù)導(dǎo)向型的應(yīng)?程序采?標(biāo)記語?格式將數(shù)據(jù)進(jìn)?結(jié)構(gòu)化組織,以?便通?型數(shù)據(jù)的存儲(chǔ)和交換。通用格式:XML(可擴(kuò)展標(biāo)記語言,eXtensibleMarkupLanguage)<employer><id>23</id><name>Alice</name><city>CA</city><dptid>1</dptid></employer>IDNameCityDpt.

ID23AliceCA124BobNY2據(jù)庫數(shù)“Adatabaseisacollectionofdata,typicallydescribingtheactivitiesofoneormorerelatedorganizations.”應(yīng)用數(shù)據(jù)庫(數(shù)據(jù)庫是數(shù)據(jù)的集合,通常用來描述多個(gè)相關(guān)組織結(jié)構(gòu)的活動(dòng)。)--RaghuRamakrishnanand

JohannesGehrke,“DatabaseManagementSystem”關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)數(shù)據(jù)的關(guān)系模型是現(xiàn)代數(shù)據(jù)庫系統(tǒng)的標(biāo)準(zhǔn)—最小化應(yīng)用程序與機(jī)器表示間的耦合度高級(jí)數(shù)據(jù)語言:數(shù)據(jù)定義語言(Data

DefinitionLanguage),結(jié)構(gòu)化查詢語言(Structured

QueryLanguage)關(guān)系模型表(關(guān)系)列(屬性)行(記錄)約束鍵:主鍵,外鍵等索引“Whenpeopleusetheworddatabase,fundamentallywhattheysayisthatthedatashouldbeself-describinganditshouldhaveaschema.That’sreallyalltheworddatabase

means.”(當(dāng)使用數(shù)據(jù)庫這個(gè)詞時(shí),人們強(qiáng)調(diào)的是數(shù)據(jù)需要能夠自描述,并且擁有模式。這就是“數(shù)據(jù)庫”的含義。)--JimGray,“TheFourth

Paradigm”關(guān)系數(shù)據(jù)庫可視化??節(jié)點(diǎn):基?項(xiàng)?紅?節(jié)點(diǎn):科研?員灰?節(jié)點(diǎn):研究機(jī)構(gòu)該圖展示了“研究?員所屬機(jī)構(gòu)”和“項(xiàng)?參與?員”兩張表合并后的結(jié)果。美國自然基金數(shù)據(jù)庫可視化Z.Liu,S.B.Navathe,andJ.T.Stasko,Network-basedvisualanalysisoftabulardata,IEEEConferenceonVisualAnalyticsScienceandTechnology(VAST),pp.41–50,

2011.挑戰(zhàn)勝任交互式任務(wù)所需的響應(yīng)時(shí)間(通常為亞秒級(jí))大尺度數(shù)據(jù)的索引構(gòu)建數(shù)據(jù)間的語意關(guān)系NoSQL數(shù)據(jù)庫(?關(guān)系型數(shù)據(jù)庫)“NotOnlySQL”(不僅僅是SQL)面向海量數(shù)據(jù)(并且數(shù)據(jù)不需要關(guān)系模型),擴(kuò)展性較高可以處理分布式、規(guī)模龐大、類型不確定、完整性沒有保證的“雜亂”數(shù)據(jù)通常不使用表結(jié)構(gòu),并且不使用SQL進(jìn)行查詢NoSQL數(shù)據(jù)庫實(shí)例文檔存儲(chǔ)–

CouchDB圖結(jié)構(gòu)存儲(chǔ)–

Neo4j鍵-值存儲(chǔ)–

Redis(內(nèi)存數(shù)據(jù)庫),

MongoDB(磁盤數(shù)據(jù)庫)表格數(shù)據(jù)–

Apache

HBase

(基于Hadoop)3.4.3數(shù)據(jù)倉庫Adatawarehouseisasubject-oriented,integrated,time-varient,andnonvolatilecollectionofdatainsupportofmanagement’sdecisionmaking

process.(數(shù)據(jù)倉庫是面向主題的、已整合的、時(shí)變且穩(wěn)定的數(shù)據(jù)集合,用來支持管理的決策過程。)--W.H.Inmon,“BuildingtheDataWarehouse”.

1996.數(shù)據(jù)倉庫數(shù)據(jù)庫和數(shù)據(jù)倉庫的異同,數(shù)據(jù)庫數(shù)據(jù)倉庫特點(diǎn)處理數(shù)據(jù)操作處理數(shù)據(jù)中的信息面向領(lǐng)域事務(wù)分析用戶終端用戶:職員,數(shù)據(jù)庫管理員(DBA)知識(shí)工作者:經(jīng)理,分析師執(zhí)行官功能日常操作長期決策支持分析數(shù)據(jù)當(dāng)前最新的數(shù)據(jù)歷史數(shù)據(jù),時(shí)變數(shù)據(jù)訪問方式讀寫平均(主要)讀聚焦點(diǎn)數(shù)據(jù)輸入信息/知識(shí)輸出容量尺度1GB~<1TB>=TB3.5

數(shù)據(jù)分析數(shù)據(jù)分析的五大思維方式探索式數(shù)據(jù)分析數(shù)據(jù)挖掘數(shù)據(jù)分析的常規(guī)技巧數(shù)據(jù)分析的五大思維方式1.

數(shù)據(jù)分析的五大思維方式在從數(shù)據(jù)到信息的過程中,有一些固定的思路,也稱之為思維方式:對(duì)照拆分降維增維假說(a)(b)第一大思維:對(duì)照(對(duì)比)圖. 對(duì)比數(shù)據(jù)分析的五大思維方式數(shù)據(jù)分析的五大思維方式第二大思維:拆分。當(dāng)某個(gè)維度可以對(duì)比的時(shí)候,我們選擇對(duì)比。??在對(duì)比后發(fā)現(xiàn)問題需要找出原因的時(shí)候或者根本就無法對(duì)比的時(shí)候。場(chǎng)景:運(yùn)營經(jīng)理經(jīng)過對(duì)比店鋪的數(shù)據(jù),發(fā)現(xiàn)今天的銷售額只有昨天的50%第三大思維:降維。當(dāng)數(shù)據(jù)維度太多的時(shí)候,不可能每個(gè)維度都拿來分析,有一些有關(guān)聯(lián)的指標(biāo)可以從中篩選出代表的維度即可?!緦?dǎo)讀案例】數(shù)據(jù)分析的五大思維方式銷售額

=

成交用戶數(shù)×客單價(jià)成交用戶數(shù)=訪客數(shù)×轉(zhuǎn)化率例:(a)(b)銷售額成交用戶數(shù)客單價(jià)訪客數(shù)轉(zhuǎn)化率××流量組成免費(fèi)流量付費(fèi)流量搜索直通車類目鉆石展位第四大思維:增維。如果當(dāng)前的維度不能很好地解釋問題,就需要對(duì)數(shù)據(jù)做一個(gè)運(yùn)算,增加多一個(gè)指標(biāo)(“輔助列”)。競(jìng)爭(zhēng)度第五大思維:假說(假設(shè))當(dāng)不知道結(jié)果,或者有幾種選擇的時(shí)候。先假設(shè)有了結(jié)果,然后運(yùn)用逆向思維。從結(jié)果到原因,要有怎么樣的因,才能產(chǎn)生這種結(jié)果。例:直播付費(fèi)論文2.

探索式數(shù)據(jù)分析(ExploratoryData

Analysis,EDA)原始數(shù)據(jù)繪圖簡(jiǎn)單統(tǒng)計(jì)值標(biāo)繪多視圖協(xié)調(diào)關(guān)聯(lián)多視圖協(xié)調(diào)關(guān)聯(lián)來源:基于多視圖協(xié)同的時(shí)空數(shù)據(jù)可視分析方法3.數(shù)據(jù)挖掘“DataMining,alsopopularlyreferredtoasknowledgediscoveryfromdata(KDD),istheautomatedorconvenientextractionofpatternsrepresentingknowledgeimplicitlystoredorcapturedinlargedatabases,datawarehouses,theWeb,othermassiverepositories,ordata

streams.”--H.

Jiawei

and

M.

Kamber,

“Data

Mining:

Concepts

and

Techniques”,

3rded.,

2011.數(shù)據(jù)挖掘模型解釋&驗(yàn)證知識(shí)數(shù)據(jù)挖掘中的任務(wù)A.

描述性任務(wù)數(shù)據(jù)算法特征訓(xùn)練好的模型2B.

預(yù)測(cè)性任務(wù)1訓(xùn)練數(shù)據(jù)模型新數(shù)據(jù)特征訓(xùn)練好的模型A.描述性任務(wù)關(guān)聯(lián)分析(Association

Analysis)聚類(Clustering)離群點(diǎn)分析(Outlier

Mining)分析數(shù)據(jù)中的“屬性-值”頻繁出現(xiàn)的情況,并探究頻繁出現(xiàn)的條件對(duì)于無標(biāo)記的數(shù)據(jù),根據(jù)“最大化類內(nèi)相似性、最小化類間相似性”的原則進(jìn)行分組分析數(shù)據(jù)集中與數(shù)據(jù)一般行為或模型不一致的數(shù)據(jù)點(diǎn)概念描述(Concept

Description)對(duì)數(shù)據(jù)集中的數(shù)據(jù)本身或其特征進(jìn)行描述B.預(yù)測(cè)性任務(wù)分類

(Classification) 使用能夠描述并區(qū)分?jǐn)?shù)據(jù)類別或概念的模型,預(yù)測(cè)數(shù)據(jù)中標(biāo)記未知的對(duì)象。模型的導(dǎo)出基于對(duì)訓(xùn)練數(shù)據(jù)集的分析。演化分析(Evolution

Analysis)分析數(shù)據(jù)隨時(shí)空變化所形成的演變規(guī)律(單調(diào)、周期等),并對(duì)其建模,使用模型對(duì)未知時(shí)空位置的數(shù)據(jù)進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘中的方法統(tǒng)計(jì)方法(回歸分析;參數(shù)估計(jì))貝葉斯機(jī)器學(xué)習(xí)(決策樹;神經(jīng)網(wǎng)絡(luò))約翰-麥卡錫(人工智能之父)算法方法(K-means,K-最近鄰)Donald

Knuth(計(jì)算機(jī)算法奠基人之一)可視數(shù)據(jù)挖掘一些任務(wù)很難用自動(dòng)方法實(shí)現(xiàn),例如:聚類結(jié)果的評(píng)價(jià)檢測(cè)數(shù)據(jù)集中的異常點(diǎn)用戶參與數(shù)據(jù)挖掘過程可視數(shù)據(jù)挖掘?qū)嵗梢暰垲?/p>

數(shù)據(jù)圖表專家

Andrew

abela

設(shè)計(jì)了一張匯總圖,從全局出發(fā),幫助快速確定圖表樣式。(見下頁)快速選擇數(shù)據(jù)圖表類型的思考流程:

1.分析數(shù)據(jù)源

2.確定展示的類型

3.選擇的變量類型及數(shù)量

4.選擇對(duì)應(yīng)的數(shù)據(jù)圖表4.常見圖表類型第4章

數(shù)據(jù)可視化的任務(wù)和過程本章主要內(nèi)容

4.1

數(shù)據(jù)可視化的目的

4.2

數(shù)據(jù)可視化的任務(wù)

4.3

數(shù)據(jù)可視化的一般過程

4.4

數(shù)據(jù)可視化的基本原則

4.5

數(shù)據(jù)可視化設(shè)計(jì)組件4.1

數(shù)據(jù)可視化的目的1.模式2.相互關(guān)系3.有問題的數(shù)據(jù)4.讓數(shù)據(jù)講故事模式相互關(guān)系有問題的數(shù)據(jù)

大部分異常都只是筆誤而已,但有些異常卻真的存在,而它們就是有意思的地方,可以作為故事的重點(diǎn)。如果你遇到了異常,一定要確定它到底屬于前者還是后者。4.2

數(shù)據(jù)可視化的基本任務(wù)概覽任務(wù)縮放任務(wù)過濾任務(wù)按需細(xì)化任務(wù)關(guān)聯(lián)任務(wù)歷史任務(wù)提取任務(wù)七個(gè)基本任務(wù)(1)概覽任務(wù)用戶能夠獲得整個(gè)集合的概覽。概覽可能包含可移動(dòng)的視圖域框,用戶用它來控制細(xì)節(jié)視圖的內(nèi)容,允許縮放因子在3~30之間。(2)縮放任務(wù)用戶能夠放大感興趣的條目。用戶通常對(duì)集合中的某個(gè)部分感興趣,需要使用工具控制縮放焦點(diǎn)和縮放因子。平滑的縮放有助于用戶保持他們的位置感和上下文。縮放在針對(duì)小顯示器的應(yīng)用程序中特別重要。(3)過濾任務(wù)用戶能夠?yàn)V掉不感興趣的條目。當(dāng)用戶控制顯示的內(nèi)容時(shí),他們能夠通過去除不想要的條目而快速集中他們的興趣。(4)按需細(xì)化任務(wù)用戶能夠選擇一個(gè)條目或一個(gè)組來獲得細(xì)節(jié)。通常的方法是僅在條目上點(diǎn)擊,然后在單獨(dú)或彈出的窗口中查看細(xì)節(jié)。按需細(xì)化窗口可能包含到更多信息的鏈接。(5)關(guān)聯(lián)任務(wù)用戶能夠關(guān)聯(lián)集合內(nèi)的條目或組。在視覺顯示之內(nèi),有機(jī)會(huì)按接近性、包容性、連線或顏色編碼來顯示關(guān)系。突出顯示技術(shù)能夠被用于引起對(duì)有數(shù)千條目的域中某些條目的注意。指向視覺顯示能夠允許快速選擇,且反饋是明顯的。(6)歷史任務(wù)用戶能夠保存動(dòng)作歷史以支持撤銷、回放和逐步細(xì)化。信息探索是一個(gè)有很多步驟的過程,所以保存動(dòng)作的歷史并允許用戶追溯其步驟是重要的。(7)提取任務(wù)用戶能夠允許子集和查詢參數(shù)的提取。一旦用戶獲得了他們想要的條目或條目集合,對(duì)他們有用的是,他們能夠提取該集合并保存它、通過電子郵件發(fā)送它或把它插入統(tǒng)計(jì)或呈現(xiàn)的軟件包中。4.3

數(shù)據(jù)可視化的一般過程可視化流水線模型描述了從數(shù)據(jù)空間到可視空間的映射體現(xiàn)了數(shù)據(jù)處理和圖形繪制的嵌套組合科學(xué)可視化流程Haber,R.B.andMcNabb,D.A.

Visualizationidioms:Aconceptualmodelforscientificvisualizationsystems,

1990.信息可視化流程Card,S.K.,Mackinlay,J.D.,andShneiderman,B.,editors.ReadingsinInformationVisualization:UsingVisiontoThink,

1999.視化循環(huán)模型可ByC

Solte.回路模型ByJarkVan

Wijk人機(jī)交互可視化模型—可視分析模型KeimD,ZhangL.Solvingproblemswithvisualanalyticschallengesandapplications[C]EuropeanConferenceonMachineLearning.KnowledgeDiscoveryinDatabases.ElsevierB.V.

20111-4.4.4

數(shù)據(jù)可視化設(shè)計(jì)的基本原則1.

正確的可視化故事與視圖選擇2.

圖表的可讀性3.

美學(xué)原則4.

合理的信息密度篩選5.

恰當(dāng)?shù)目梢暬换?.

自然的可視化隱喻7.

適度的動(dòng)畫與過渡網(wǎng)格及其標(biāo)注的合理使用可視化元素的平衡分布21可視化中的美學(xué)因素認(rèn)真仔細(xì)地對(duì)待可視化設(shè)計(jì)中的標(biāo)注正確使用顏色(色彩美)合理使用網(wǎng)格構(gòu)圖美布局原則(布局美)聚焦平衡簡(jiǎn)單(a)不完整的可視化結(jié)果,用戶無法得知幾條曲線的意義;

(b)一個(gè)完整的可視化結(jié)果。恰當(dāng)?shù)慕换ソ换ブ坝幸龑?dǎo),交互之后有反饋保證交互操作的直觀性、易理解性和易記憶性用信息輪播、動(dòng)畫等效果自動(dòng)切換數(shù)據(jù)信息,以推進(jìn)可視化故事的敘述.什么是視覺隱喻隱喻(metaphor)的一種在視覺上將目標(biāo)物體/形象與另一領(lǐng)域的(源)物體進(jìn)行相似性對(duì)比常用于廣告、平面設(shè)計(jì)等可視化隱喻將數(shù)據(jù)特性與自然界真實(shí)物體結(jié)合起來通過讀者對(duì)自然界物體的認(rèn)知來增強(qiáng)可視化表達(dá)效果體現(xiàn)了可視化設(shè)計(jì)的人本思想隱喻:樹猴面包樹(baobabview):使用樹表達(dá)分類隱喻:河流Textflow:使用流來表達(dá)文本主題演化巧用動(dòng)畫與過渡增加可視化結(jié)果視圖的豐富性與可理解性;增強(qiáng)重點(diǎn)信息或者整體畫面的表現(xiàn)力。原則;適量原則統(tǒng)一原則易理解原則動(dòng)畫適用場(chǎng)景

1.

輔助不同視圖/不同可視化視覺通道的變換

如果可視化的信息篩選后,密度仍然較大,可設(shè)計(jì)多個(gè)視圖用于展示各種數(shù)據(jù)表達(dá)的信息。

可視化視覺通道(數(shù)據(jù)量、表現(xiàn)形式/狀態(tài))發(fā)生變化時(shí),為了減輕視圖變化給用戶帶來的“沖擊”,避免用戶在變化中迷失,可以使用動(dòng)畫的形式過渡。動(dòng)畫適用場(chǎng)景不同圖表類型切換動(dòng)效

2.

交互反饋效果

實(shí)時(shí)的反饋效果有助于用戶獲得此次操作的確認(rèn),避免用戶盲目重復(fù)操作。

當(dāng)鼠標(biāo)移動(dòng)到特定可視化區(qū)域,出現(xiàn)光暈或者微動(dòng)效發(fā)生相應(yīng)變化,以指引用戶進(jìn)行操作。動(dòng)畫適用場(chǎng)景

3.

微交互動(dòng)效,引起注意視覺通道經(jīng)常有運(yùn)動(dòng)、閃爍、虛擬物體的動(dòng)作等動(dòng)畫效果,增加趣味性動(dòng)畫適用場(chǎng)景閃爍動(dòng)效,吸引注意力4.5

數(shù)據(jù)可視化設(shè)計(jì)組件坐標(biāo)系:用散點(diǎn)圖映射數(shù)據(jù)和用圓餅圖是不一樣的。標(biāo)尺:有意義的增量可以增強(qiáng)可讀性,就像改變焦點(diǎn)一樣。背景信息:如果可視化產(chǎn)品的讀者對(duì)數(shù)據(jù)不熟悉,則應(yīng)該闡明數(shù)據(jù)的含義以及讀圖的方式。

視覺隱喻4.5.2 坐標(biāo)系三種坐標(biāo)系直角坐標(biāo)系(笛卡爾坐標(biāo)系)極坐標(biāo)系地理坐標(biāo)系4.5.2 坐標(biāo)系(1)直角坐標(biāo)系是最常用的坐標(biāo)系(如條形圖、散點(diǎn)圖)。通常可以認(rèn)為坐標(biāo)就是被標(biāo)記為(x,

y)的XY值對(duì)。坐標(biāo)的兩條線垂直相交,取值范圍從負(fù)到正,組成了坐標(biāo)軸。直角坐標(biāo)系還可以向多維空間擴(kuò)展。三維空間可以用(x,

y,

z)三值對(duì)來替代(x,

y)??梢杂弥苯亲鴺?biāo)系來畫幾何圖形。4.5.2 坐標(biāo)系(2)極坐標(biāo)系由一個(gè)圓形網(wǎng)格構(gòu)成,最右邊的點(diǎn)是零度。角度越大,逆時(shí)針旋轉(zhuǎn)越多。距離圓心越遠(yuǎn),半徑越大。極坐標(biāo)系沒有直角坐標(biāo)系用得多,但在角度和方向很重要時(shí)它會(huì)更有用。4.5.2 坐標(biāo)系(3)地理坐標(biāo)系映射位置數(shù)據(jù)。位置數(shù)據(jù)的形式通常是用緯度和經(jīng)度來描述,分別相對(duì)于赤道和子午線的角度,有時(shí)還包含高度。相對(duì)于直角坐標(biāo)系,緯度就好比水平軸,經(jīng)度就好比垂直軸。也就是說,相當(dāng)于使用了平面投影。4.5.2 坐標(biāo)系繪制地表地圖最關(guān)鍵的地方是要在二維平面上顯示球形物體的表面,被稱為投影。當(dāng)把一個(gè)三維物體投射到二維平面上時(shí),會(huì)丟失一些信息,與此同時(shí),其他信息則被保留下來了。標(biāo)尺標(biāo)尺坐標(biāo)系指定了可視化的維度,而標(biāo)尺則指定了在每一個(gè)維度里數(shù)據(jù)映射到哪里。3 4對(duì)數(shù)標(biāo)尺關(guān)注百分比變化0 10 100 1000

10000線性標(biāo)尺數(shù)值等距分布0 1 2分類標(biāo)尺離散的條形A B C D E順序標(biāo)尺有序的分類標(biāo)尺可怕的

壞的

好的

很好的

非常好百分比標(biāo)尺描述整體中的部分0% 25% 50%

75%100%時(shí)間標(biāo)尺以月、日或小時(shí)為單位1月

2月

3月

4月

5月三種基本標(biāo)尺:數(shù)字標(biāo)尺分類標(biāo)尺時(shí)間標(biāo)尺4.5.3 標(biāo)尺(1)數(shù)字標(biāo)尺其上的間距相等,因此,在標(biāo)尺的低端測(cè)量兩點(diǎn)間的距離,和在標(biāo)尺高端測(cè)量的結(jié)果是一樣的。對(duì)數(shù)標(biāo)尺隨著數(shù)值的增加而壓縮。不像線性標(biāo)尺那樣被廣泛使用。但關(guān)心百分比變化而不是原始計(jì)數(shù),或者數(shù)值的范圍很廣,對(duì)數(shù)標(biāo)尺很有用。百分比標(biāo)尺通常也是線性的,用來表示整體中的部分時(shí),最大值是100%(所有部分總和是100%)。4.5.3 標(biāo)尺(2)分類標(biāo)尺為不同的分類提供視覺分隔。通常和數(shù)字標(biāo)尺一起使用。分類間的間隔是隨意的,和數(shù)值沒有關(guān)系。對(duì)于分類的順序標(biāo)尺來說,順序很重要。比如,將電影的分類排名數(shù)據(jù)按從糟糕的到非常好的這種順序顯示,能幫助觀眾更輕松地判斷和比較影片的質(zhì)量。4.5.3 標(biāo)尺(3)時(shí)間標(biāo)尺時(shí)間是連續(xù)變量??梢园褧r(shí)間數(shù)據(jù)畫到線性標(biāo)尺上,也可以將其分成月份或者星期這樣的分類,作為離散變量處理。也可以是周期性的,總有下一個(gè)正午、下一個(gè)星期六和下一個(gè)一月份。4.5.4 背景信息背景信息幫助更好地理解數(shù)據(jù)相關(guān)的5W信息,即何人、何事、何時(shí)、何地、為何,可以使數(shù)據(jù)更清晰,并且能正確引導(dǎo)讀者。有時(shí)背景信息是直接畫出來的,有時(shí)則隱含在媒介中。圖.

汽柴油歷史調(diào)價(jià)信息背景信息4.5.5 整合可視化組件組件整合視覺隱喻是人們看到的主要部

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論