




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
數(shù)據(jù)分析與可視化數(shù)據(jù)分析與可視化1.什么是數(shù)據(jù)分析?數(shù)據(jù)分析是基于商業(yè)目的,有目的的進行收集、整理、加工和分析數(shù)據(jù),提煉有價信息的一個過程。其過程概括起來主要包括:明確分析目的與框架、數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)和撰寫報告等6個階段。1、明確分析目的與框架一個分析項目,你的數(shù)據(jù)對象是誰?商業(yè)目的是什么?要解決什么業(yè)務問題?數(shù)據(jù)分析師對這些都要了然于心?;谏虡I(yè)的理解,整理分析框架和分析思路。例如,減少新客戶的流失、優(yōu)化活動效果、提高客戶響應率等等。不同的項目對數(shù)據(jù)的要求,使用的分析手段也是不一樣的。2、數(shù)據(jù)收集數(shù)據(jù)收集是按照確定的數(shù)據(jù)分析和框架內(nèi)容,有目的的收集、整合相關數(shù)據(jù)的一個過程,它是數(shù)據(jù)分析的一個基礎。I3、數(shù)據(jù)處理數(shù)據(jù)處理是指對收集到的數(shù)據(jù)進行加工、整理,以便開展數(shù)據(jù)分析,它是數(shù)據(jù)分析前必不可少的階段。這個過程是數(shù)據(jù)分析整個過程中最占據(jù)時間的,也在一定程度上取決于數(shù)據(jù)倉庫的搭建和數(shù)據(jù)質(zhì)量的保證。I數(shù)據(jù)處理主要包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)化等處理方法。4、數(shù)據(jù)分析數(shù)據(jù)分析是指通過分析手段、方法和技巧對準備好的數(shù)據(jù)進行探索、分析,從中發(fā)現(xiàn)因果關系、內(nèi)部聯(lián)系和業(yè)務規(guī)律,為商業(yè)目提供決策參考。到了這個階段,要能駕馭數(shù)據(jù)、開展數(shù)據(jù)分析,就要涉及到工具和方法的使用。其一要熟悉常規(guī)數(shù)據(jù)分析方法,最基本的要了解例如方差、回歸、因子、聚類、分類、時間序列等多元和數(shù)據(jù)分析方法的原理、使用范圍、優(yōu)缺點和結果的解釋;其二是熟悉1+1種數(shù)據(jù)分析工具,Excel是最常見,一般的數(shù)據(jù)分析我們可以通過Excel完成,后而要熟悉一個專業(yè)的分析軟件,如數(shù)據(jù)分析工具SPSS/SAS/R/Matlab等,便于進行一些專業(yè)的統(tǒng)計分析、數(shù)據(jù)建模等。|5、數(shù)據(jù)展現(xiàn)一般情況下,數(shù)據(jù)分析的結果都是通過圖、表的方式來呈現(xiàn),俗話說:字不如表,表不如圖。借助數(shù)據(jù)展現(xiàn)手段,能更直觀的讓數(shù)據(jù)分析師表述想要呈現(xiàn)的信息、觀點和建議。常用的圖表包括餅圖、折線圖、柱形圖/條形圖、散點圖、雷達圖等、金字塔圖、矩陣圖、漏斗圖、帕雷托圖等。6、撰寫報告|最后階段,就是撰寫數(shù)據(jù)分析報告,這是對整個數(shù)據(jù)分析成果的一個呈現(xiàn)。通過分析報告,把數(shù)據(jù)分析的目的、過程、結果及方案完整呈現(xiàn)出來,以供商業(yè)目的提供參考。一份好的數(shù)據(jù)分析報告,首先需要有一個好的分析框架,并且圖文并茂,層次明晰,能夠讓閱讀者一目了然。結構清晰、主次分明可以使閱讀者正確理解報告內(nèi)容;圖文并茂,可以令數(shù)據(jù)更加生動活潑,提高視覺沖擊力,有助于閱讀者更形象、直觀地看清楚問題和結論,從而產(chǎn)生思考。另外,數(shù)據(jù)分析報告需要有明確的結論、建議和解決方案,不僅僅是找出問題,后者是更重要的,否則稱不上好的分析,同時也失去了報告的意義,數(shù)據(jù)的初衷就是為解決一個商業(yè)目的才進行的分析,不能舍本求末。2.數(shù)據(jù)分析常用的方法有哪些?他們多用來分析哪些類型的數(shù)據(jù)?通過分析可以得到怎樣的結果和結論?怎樣得到保證其信度和效度?|常用數(shù)據(jù)分析方法:聚類分析、因子分析、相關分析、對應分析、回歸分析、方差分析;I數(shù)據(jù)分析常用的圖表方法:柏拉圖(排列圖)、直方圖(Histogram)、散點圖(scatterdiagram)、魚骨■(Ishikawa)、FMEA點圖、柱聯(lián)圖、雷達圖、趨勢圖。數(shù)據(jù)分析統(tǒng)計工具:SPSSminitab、JMR常用數(shù)據(jù)分析方法:I1、聚類分析(ClusterAnalysis)聚類分析指將物理或抽案對象的集合分組成為由類似的對象組成的多個類的分析過程。 聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個過程,所以同一個簇中的對象有很大的相似性,而不同簇間的對象有很大的相異性。 聚類分析是一種探索性的分析,在分類的過程中,人們不必事先給出一個分類的標準,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類。聚類分析所使用方法的不同,常常會得到不同的結論。不同研究者對于同一組數(shù)據(jù)進行聚類分析,所得到的聚類數(shù)未必一致。2、因子分析(FactorAnalysis)因子分析是指研究從變量群中提取共性因子的統(tǒng)計技術。因子分析就是從大量的數(shù)據(jù)中尋找內(nèi)在的聯(lián)系,減少決策的困難。因子分析的方法約有10多種,如重心法、影像分析法,最大似然解、最小平方法、阿爾發(fā)抽因法、拉奧典型抽因法等等。這些方法本質(zhì)上大都屬近似方法,是以相關系數(shù)矩陣為基礎的,所不同的是相關系數(shù)矩陣對角線上的值, 采用不同的共同性口2估值。在社會學研究中,因子分析常采用以主成分分析為基礎的反覆法。3、相關分析(CorrelationAnalysis)相關分析(correlationanalysis))相關分析是研究現(xiàn)象之間是否存在某捕依存關系,并對具體有依存關系的現(xiàn)象探討其相關方向以及相關程度。相關關系是一種非確定性的關系,例如,以X和Y分別記一個人的身高和體重,或分別記每公頃施肥量與每公頃小麥產(chǎn)量,則 X與Y顯然有關系,而又沒有確切到可由其中的一個去精確地決定另一個的程度,這就是相關關系。4、對應分析(CorrespondenceAnalysis)對應分析(Correspondenceanalysis) 也稱關聯(lián)分析、R-Q型因子分析,通過分析由定性變量構成的交互匯總表來揭示變量間的聯(lián)系。 可以揭示同一變量的各個類別之間的差異, 以及不同變量各個類別之間的對應關系。對應分析的基本思想是將一個聯(lián)列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。5、回歸分析研究一個隨機變量 Y對另一個(X)或一組(X1,X2,???,Xk)變量的相依關系的統(tǒng)計分析方法?;貧w分析(regressionanalysis)是確定兩種或兩種以上變數(shù)間相互依賴的定量關系的一種統(tǒng)計分析方法。運用十分廣泛,回歸分析按照涉及的自變量的多少,可分為一元回歸分析和多元回歸分析;按照自變量和因變量之間的關系類
型,可分為線性回歸分析和非線性回歸分析。6、方差分析(ANOVA/AnalysisofVariance)又稱“變異數(shù)分析”或“F檢驗"是R.A.Fisher發(fā)明的,用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗。由于各種因素的影響,研究所得的數(shù)據(jù)呈現(xiàn)波動狀。造成波動的原因可分成兩類,一是不可控的隨機因素,另一是研究中施加的對結果形成影響的可控因素。 方差分析是從觀測變量的方差入手,研究諸多控制變量中哪些變量是對觀測變量有顯著影響的變量。|數(shù)據(jù)分析常用的圖表方法有:柏拉圖(排列圖)|排列圖是分析和尋找影響質(zhì)量主原因素的一種工具,其形式用雙直角坐標圖,左邊縱坐標表示頻數(shù)(如件數(shù)金額等),右邊縱坐標表示頻率(如百分比表示)。分折線表示累積頻率,橫坐標表示影響面量的各項囪素)按影晌程度的大?。闯霈F(xiàn)頻數(shù)多少)從左向右排列。通過對排列圖的觀察分析可抓住影響質(zhì)量的主原因素。Ji直方圖將一個變量的不同等級的相對頻數(shù)用矩形塊標繪的圖表(每一矩形的面積對應于頻數(shù))。|向條紋或線段表示數(shù)據(jù)分布的情況O人般用橫直方圖(Histogram)文稱柱狀圖、質(zhì)量分布圖。是一種統(tǒng)計報告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況O人般用橫散點圖(scatterdiagram)散點圖表示因變量隨自變量而變化的大致趨勢,據(jù)此可以選擇合適的函數(shù)對數(shù)據(jù)點進行擬合。用兩組數(shù)據(jù)構成多個坐標點,考察坐標點的分布,判斷兩變量之間是否存在某種關聯(lián)或總結正標點南分布模式。魚骨圖(Ishikawa)魚骨圖是一種發(fā)現(xiàn)問題“根本原因”的方法,它也可以稱之為“因果圖”。其特點是簡捷實用,深入直觀。它看上去有些象魚骨,問題或缺陷(即后果)標在"魚頭"外。FMEAFMEA是一種可靠性設計的重要方法。它實際上是FMA(故障模式分析)和FEA(故障影響分析)的組合。它對各種可能的風險進行評價、分析,以便在現(xiàn)有技術的基礎上消除這些風險或?qū)⑦@些風險減小到可接受的水平。數(shù)據(jù)分析統(tǒng)計工具:| —SPSSSPSS是世界上最早采用圖形菜單驅(qū)動界面的統(tǒng)計軟件,它最突出的特點就是操作界面極為友好,輸出結果美觀漂亮。它將幾乎所有的功能都以統(tǒng)一、規(guī)范的界面展現(xiàn)出來,使用Windows的窗口方式展示苕種管理和分柝數(shù)搪方法的功能,對話框展示出各種功能選擇項。用戶只要掌握一定的Windows操作技能,粗通統(tǒng)計分析原理,就可以使用該軟件為特定的科研工作服務。minitab:MINITAB功能菜單包括:假設檢驗(參數(shù)檢驗和非參數(shù)檢驗),回歸分析(一元回歸和多元回歸、線性回歸和非線性回歸),方差分析(單因子、多因子、一般線性模型等),時間序列分析,圖表(散點圖、點圖、矩陣圖、直方圖、莖葉圖、箱線圖、概率圖、概率分布圖、邊際圖、矩陣圖、單值圖、餅圖、區(qū)間圖、Pareto、Fishbone、運行圖等)、蒙特卡羅模擬和仿真、SPC(StatisticalProcessControl- 統(tǒng)計過程控制)、可靠性分析(分布擬合、檢驗計劃、加速壽命測試等)、MSA交叉、嵌套、量具運行圖、類型I量具研究等)等。JMPJMP的算法源于SAG特別強調(diào)以統(tǒng)計方法的實際應用為導向,交互性、可視化能力強,使用方便,尤其適合非統(tǒng)計專業(yè)背景的數(shù)據(jù)分析人員使用,在同類軟件中有較大的優(yōu)勢。 JMP的應用領域包括業(yè)務可視化、探索性數(shù)據(jù)分析、六西格瑪及持續(xù)改善(可視化六西格瑪、質(zhì)量管理、流程優(yōu)化)、試驗設計、生存及可靠性、統(tǒng)計分析與建模、交互式數(shù)據(jù)挖掘、分析程序開發(fā)等。JM譚六西格瑪軟件的鼻祖,當年摩托羅拉開始推六西格瑪?shù)臅r候,用的就是JMP軟件,目前有非常多的全球頂尖企業(yè)采用 JMP作為六西格瑪軟件,包括陶氏化學、惠而浦、鐵姆肯、招商銀行、美國銀行、中國石化等等。.描述性統(tǒng)計分析| . 包括樣本基本資料的描述,作各變量的次數(shù)分配及百分比分析,以了解樣本的分布情況。此外,以平均數(shù)和標準差來描述市場導向、 競爭優(yōu)勢、組織績效等各個構面,以了解樣本企業(yè)的管理人員對這些相關變量的感知,并利用t檢驗及相關分析對背景變量所造成的影響做檢驗。.CronbacMa信度系數(shù)分柝信度是指測驗結果的一致性、穩(wěn)定性及可靠性)一般多以內(nèi)部一致性(consistency)來加以表示該測驗信度的高低。信度系數(shù)愈高即表示該測驗的結果愈一致、穩(wěn)定與可靠。針對各研究變量的衡量題項進行Cronbach'a信度分析,以了解衡量構面的內(nèi)部一致性。一般來說,Cronbach'a僅大于0.7為高信度,低于0.35為低信度(Cuieford,1965),0.5為最低可以接受的信度水準(Nunnally,1978)。.探索性因素分析(exploratoryfactoranalysis)和驗證性肉素分析(confirmatoryfactoranalysis)用以測試各構面衡量題項的聚合效度(convergentvalidity) 與區(qū)另U效度(discriminantvalidity)。肉為僅有信度是不夠的,可信度高的測量,可能是完全無效或是某些程度上無效。所以我們必須對效度進行檢驗。效度是指工具是否能測出在設計時想測出的結果。收斂效度的檢驗根據(jù)各個項目和所衡量的概念的因素的負荷量來決定;而區(qū)別效度的檢驗是根據(jù)檢驗性因素分析計算理論上相關概念的相關系數(shù),檢定相關系數(shù)的 95%信賴區(qū)間是否包含1.0,若不包含1.0,則可確認為具有區(qū)別效度(Anderson)1987)。.結構方程模型分析(structuralequationsmodeling)由于結構方程模型結合了因素分析(factoranalysis)和路徑分析(pathanalysis))并納入計量經(jīng)濟學的聯(lián)立方程式,可同時處理多個因變量,容許自變量和因變量含測量誤差, 可同時估計因子結構和因子關系。容許更大彈性的測量模型,可估計整個模型的擬合程度 (Bollen和Long,1993),因而適用于整體模型的因果關系。在模型參數(shù)的估計上,采用最大似然估計法、(MaximumLikelihood)ML);在模型的適合度檢論上)以基本的擬合標港(preliminaryfitcriteria)、整體楨型擬合優(yōu)度(overallmodelfit)以及模型內(nèi)在結構擬合優(yōu)度(fitofinternalstructureofmodel)(Bagozzi和Yi)1988)三個方面的各項指標作為判定的標準。在評價整體模式適配標準方面,本研究采用 x2(卡方)/df(自由度)值、擬合優(yōu)度指數(shù)(goodness.of.f:iJt.in.dex,GFI)、平均菠差平方根(root-meansquare:residual)RMSR)、近似誤差均方根(root-mean一square-error-of-approximation)RMSEA)^指標;模型內(nèi)在結構擬合優(yōu)度則參考 Bagozzi和Yi(1988)的標準,考察所估計的參數(shù)是否都到達顯著水平。I一、信度分析信度(Reliability)即可靠性,是指采用同一方法對同一對象進行調(diào)查時,問卷調(diào)查結果的穩(wěn)定性和一致性,即測量工具(問卷或量表)能否穩(wěn)定地測量所測的事物或變量。信度指標多以相關系數(shù)表示,具體評價方法大致可分為三類:穩(wěn)定系數(shù)(跨時間的一致性),等值系數(shù)(跨形式的一致性)和內(nèi)在一致性系數(shù)(跨項目的一致性)。信度分析的方法主要有以下四種:大部分的信度指標都以相關系數(shù)來表示,即用同一被試樣本所得的兩組資料的相關作為測量一致性的指標,稱作信度系數(shù),主要分為四大類:.重測信度是指用同樣的測量工具,對同一組被測者隔一定時間重復測量,考察兩次測量結果的相關程度,可以直接采用相關分析,得到的相關系數(shù)即為重測信度系數(shù)。也可以對兩次重復測試結果做兩相關樣本差異的統(tǒng)計檢驗。.復本信度是指讓同一組被測者一次填寫兩份平行問卷,計算兩份數(shù)據(jù)的相關系數(shù),復本信度要求兩份問卷除了在問題表述不同之外,其余方面要完全一致,實際操作比較困難。.內(nèi)部一致性信度是指測驗內(nèi)部所有題目間的一致性程度。這里的一致性是指題目測量目的的一致,而不是題目描述或形式的一致)主要方法有:<1>分/信度是指將一份問卷分成兩部分,計算這兩部分的相關系數(shù),即分半信度系數(shù),以此來衡量整份問卷的彳言度<2>克朗巴哈信度是最常用的測量內(nèi)部一致性信度的方法, 計算出的克朗巴哈a系數(shù)是所有可能分半信度的均值,取值在0-1之間,系數(shù)越高一致性越好,常用在量表的信度分柝K為量表做包含的總題目數(shù)si2為量表題項的方差總和s2為量表題項加總后方差<3>庫德-理查森信度計算出的KR20系數(shù)是克朗巴哈系數(shù)的一個特例,用于計算二分類變量的量表.評分舍彳言度用來考察評分者對于問卷評分的信度,有兩種方法:<1>隨機抽取一些問卷,由兩位評分者評分,然后根據(jù)每份問卷的分數(shù)計算相關系數(shù)<2>一位評分者兩次或兩次以上進行評分,然后計算這幾次評分的Kendall和諧素數(shù)戢Kappa系數(shù)對信度系數(shù)要注意三點:.在不同的情況下,對不同樣本,采用不同方法會得到不同的信度系數(shù),因此一個測驗可能不止一個信度系數(shù)。.信度系數(shù)只是對測量分數(shù)不一致程度的估計,并沒有指出不一致的原因。.獲得較高的信度系數(shù)并不是測量追求的最終目標,它只是邁向目標的一步,是使測驗有效的一個必要條件。5.提高信度的方法.適當延長問卷長度.問卷難度適中.問卷內(nèi)容盡量同質(zhì).測量時間充分.測量程序要統(tǒng)一二、效度分析效度是指測量工具能夠準確測量出所要測量特性的程度,除受隨機誤差影響外,還受系統(tǒng)誤差的影響。效度越高表示測量真實性越高,由于真實值往往未知,所以我們對于效度的評價也不可能有絕對肯定的答案,但是可以用指標來評價,對于一個標準的測量來說,效度比信度更為重要。效度的性質(zhì):.效度具有相對性,任何測驗的效度都是針對一定的目標而言.效度具有連續(xù)性?測驗效度通常用相關系數(shù)表示,它只有程度上的不同,不是“全有”或“全無”的區(qū)別。效度的評估方法:效度分為四大類:標準效度,內(nèi)容效度、結構效度、區(qū)分效度.標準效度:人為指定一種測量結果作為“金標準”,考察其他待測結果與其是否一致.內(nèi)容效度:是一種定性評價標準,主要通過經(jīng)驗判斷進行,評價測量指標(問卷內(nèi)容)的含義是否能準確反映真實情況,通常用專家評價的方法。.結構效度:是評價量表效度常用的指標,是指測量結果體現(xiàn)出來的某種結構與測量值之間的對應程度,常使用因子分析。.區(qū)分效度:如果測量的結果能區(qū)分不同的測量結果,就認為該測量具有區(qū)分效度,例如如果測量結果能區(qū)分A/B兩類人群,那么對這兩類人群做t檢驗或方差分析,比較差異是否具有統(tǒng)計學意義,以此判斷測量是否具有區(qū)分效度。信度與效度的關系:1.可信的測量未必有效,而有效的測量必定可信。2.沒有信度就不可能有效度,沒有效度,信度情淡一 情沆二 情沉三濕含匏案也謹有修M春高席位室國由我展有;5度於度曳*1度2也就毫無意義情況1:過于分散,既沒有效度也沒有信度情況2:點很集中,雖然有一致性,但是沒有命中中心,有信度但是無效度情況3:即有信度也有效度3.影響數(shù)據(jù)分析的結果因素有哪些?舉例說明?II預期結果分析(1)描述性模式:該方法通過挖掘歷史和當前數(shù)據(jù),分析過去展現(xiàn)情況來決定接下來的計劃步驟。描述性模式能確定許多不同客戶或產(chǎn)品之間的關系,來決定需要采取什么方法向前發(fā)展。幾乎所有的報表,如:銷售、市場、操作以及財務都適用這樣的模式進行事后分析,來提出這些問題:發(fā)什么什么?多少?頻率如何?什么地方?何時?問題關鍵是什么?應該采取怎樣的行動?(2)預測模式:分析過去可以知道客戶可能會有的操作,這樣可以預測單一用戶的操作。他可以陳述這樣的問題:將會發(fā)生什么?如果這個趨勢持續(xù)會怎樣?如果…,下一次會怎樣?(3)規(guī)范模式:又叫做決定模式。這個模式闡述了所有的決定因素之間的關系,來預測決定可能帶來的結果。我們可以預測這樣的問題:怎樣才能達到最好的效果?怎樣應對變數(shù)?客戶可能感興趣的其他商品是什么?雖然預測分析在現(xiàn)在數(shù)據(jù)分析中凸顯,但是他還是經(jīng)常以描述模式出現(xiàn)在傳統(tǒng)商業(yè)智能領域。一個例子看去年的銷售收入,再為下一年指定目標?;仡櫼郧暗臄?shù)據(jù),指定未來的目標,這就是數(shù)年來商業(yè)的標準模式。更加復雜的預測、規(guī)范模式現(xiàn)在正在商業(yè)中扮演更加重要的角色,這是因為硬件成本的下降,大量的數(shù)據(jù)隨之而來,特別是非結構化和半結構化數(shù)據(jù)。深入理解這些模式間的關系對于正確分析預測數(shù)據(jù)至關重要。就像所有的項目,剛開始我們都要明確他的商業(yè)目標目的一樣。一旦有明確的業(yè)務目標目的,任何模式或者這三個模式都可以用在BI系統(tǒng)中,為達到最終目標目的服務。重復篩選(Rinse-and-Repeat)我們不能忽略掉預測數(shù)據(jù)給我們帶來的誤區(qū)。大多數(shù)情況下,100%W準的數(shù)據(jù)分析師不可能的,原因如下:1、歷史數(shù)據(jù)不能準確預測未來2、預測模式中可能會有不定因素3、操作各種模式的時候,可能會有偏頗以及不符合實際的預測當實踐各個模式的時候,可能的錯誤區(qū)域應該被記錄。通常表現(xiàn)為預測分析系統(tǒng)質(zhì)量提高,或者說第三方因素對其的影響下降。因此,不斷優(yōu)化數(shù)據(jù)分析預測模式非常有必要。模式部署周期,不斷優(yōu)化,不斷操作實踐,這樣可以保證他在分析預測中以最高精度運行。4.數(shù)據(jù)統(tǒng)計,數(shù)據(jù)分析,數(shù)據(jù)挖掘,數(shù)據(jù)處理,知識發(fā)現(xiàn),大數(shù)據(jù)處理等,這些概念之間的區(qū)別和聯(lián)系?數(shù)據(jù)統(tǒng)計:數(shù)據(jù)統(tǒng)計,是互聯(lián)網(wǎng)傳媒行業(yè)或其他操作流程的數(shù)據(jù)統(tǒng)計的統(tǒng)稱,用于歷史資料、科學實驗、檢驗、統(tǒng)計等領域。以便精準快速的查找與分類。知識發(fā)現(xiàn):從數(shù)據(jù)中鑒別出有效模式的非平凡過程,該模式是新的、可能有用的和最終可理解的。知識發(fā)現(xiàn)是指在積累了大量數(shù)據(jù)后,利用各種數(shù)據(jù)挖掘算法來分析數(shù)據(jù)庫中存儲的數(shù)據(jù),從中識別出有效的、新穎的、潛在有用的及最終可以理解的知識。我們可以理解為,知識發(fā)現(xiàn)就是從數(shù)據(jù)中發(fā)現(xiàn)有用知識的整個過程,即把數(shù)據(jù)轉(zhuǎn)化為知識、把知識轉(zhuǎn)化為決策的一個多次循環(huán)反復的高級處理過程。數(shù)據(jù)挖掘:數(shù)據(jù)挖掘又叫數(shù)據(jù)開采,數(shù)據(jù)采掘,分為基于數(shù)據(jù)庫的數(shù)據(jù)挖掘、基于應用數(shù)據(jù)的挖掘、基于信息集合的挖掘等多種概念。數(shù)據(jù)挖掘的定義雖然表達方式不同,但本質(zhì)都是一樣的,我們認為數(shù)據(jù)挖掘是指從各種數(shù)據(jù)庫或觀察的數(shù)據(jù)集合中提取人們事先未知的、隱含的、潛在有用的、感興趣的概念、規(guī)則、規(guī)律、模式等形式的知識,用以支持用戶的決策。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)都可以看作是一門交叉性學科,它們都涉及到機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)可視化、高性能計算機和專家系統(tǒng)等多個領域,特別是都可以被看成是數(shù)據(jù)庫理論和機器學習的交叉科學。兩個術語在定義上有一定的重合度,內(nèi)涵也大致相同,都是從數(shù)據(jù)中挖掘或發(fā)現(xiàn)隱藏的知識;它們的研究對象、方法和結果的表現(xiàn)形式等方面基本上都是相同的。因此,有些人認為,數(shù)據(jù)挖掘與知識發(fā)現(xiàn)只是叫法不一樣,其含義是相同的。而且,在現(xiàn)今的文獻中,有許多場合,如技術綜述等,這兩個術語仍然不加區(qū)分地使用著。數(shù)據(jù)挖掘和知識發(fā)現(xiàn)有一定的區(qū)別。關于數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的區(qū)別有不同的表述,典型的表述有兩種:①知識發(fā)現(xiàn)是數(shù)據(jù)挖掘的特例,即把用于挖掘的數(shù)據(jù)集限制在數(shù)據(jù)庫這種數(shù)據(jù)組織形式上,因此數(shù)據(jù)挖掘可以看作是知識發(fā)現(xiàn)在挖掘?qū)ο蟮难由旌蛿U展。②數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程中的一個特定步驟。知識發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程. 而數(shù)據(jù)挖掘則是此全部過程的一個特定的關鍵步驟。從知識發(fā)現(xiàn)的含義可以得知,知識發(fā)現(xiàn)一般可包括以下步驟:①數(shù)據(jù)清理,消除噪聲和不一致數(shù)據(jù);②數(shù)據(jù)集成,多種數(shù)據(jù)源可以組合在一起③數(shù)據(jù)選擇,從數(shù)據(jù)庫中檢索與分析任務相關的數(shù)據(jù);④數(shù)據(jù)變換,通過匯總、聚集操作等方式將數(shù)據(jù)統(tǒng)一變換成適合挖掘的形式;⑤數(shù)據(jù)挖掘,使用智能方法提取數(shù)據(jù)模式;⑥模式評估,根據(jù)某種興趣度量,識別表示知識的真正有趣的模式;⑦知識表示,使用可視化和知識表示技術,向用戶提供挖掘的知識。從這7個步驟,可以看出,數(shù)據(jù)挖掘只是知識發(fā)現(xiàn)整個過程中的一個特定步驟,它用專門算法從數(shù)據(jù)中提取數(shù)據(jù)模式,是知識發(fā)現(xiàn)過程中重要的環(huán)節(jié)。而知識發(fā)現(xiàn)是一個高級的復雜的處理過程,它還包括前期處理和后期評估,即是一個應用了數(shù)據(jù)挖倔算法和評價解釋模式的循環(huán)反復過程,它們之間相互影響、反復調(diào)整。數(shù)據(jù)分析:數(shù)據(jù)分析只是在已定的假設,先驗約束上處理原有計算方法,統(tǒng)計方法,將數(shù)據(jù)分析轉(zhuǎn)化為信息,而這些信息需要進一步的獲得認知,轉(zhuǎn)化為有效的預測和決策,這時就需要數(shù)據(jù)挖掘,數(shù)據(jù)挖掘與數(shù)據(jù)分析兩者緊密相連,具有循環(huán)遞歸的關系,數(shù)據(jù)分析結果需要進一步進行數(shù)據(jù)挖掘才能指導決策,而數(shù)據(jù)挖掘進行價值評估的過程也需要調(diào)整先驗約束而再次進行數(shù)據(jù)分析。而兩者的具體區(qū)別在于:(其實數(shù)據(jù)分析的范圍廣,包含了數(shù)據(jù)挖掘,在這里區(qū)別主要是指統(tǒng)計分析)?數(shù)據(jù)量上:數(shù)據(jù)分析的數(shù)據(jù)量可能并不大,而數(shù)據(jù)挖掘的數(shù)據(jù)量極大。?約束上:數(shù)據(jù)分析是從一個假設出發(fā),需要自行建立方程或模型來與假設吻合,而數(shù)據(jù)挖掘不需要假設,可以自動建立方程。?對象上:數(shù)據(jù)分析往往是針對數(shù)字化的數(shù)據(jù),而數(shù)據(jù)挖掘能夠采用不同類型的數(shù)據(jù),比如聲音,文本等。?結果上:數(shù)據(jù)分析對結果進行解釋2呈現(xiàn)出有效信息,數(shù)據(jù)挖掘的結果不容易解釋,對信息進行價值評估,著眼于預測未來,并提出決策性建議。數(shù)據(jù)分析是把數(shù)據(jù)變成信息的工具,數(shù)據(jù)挖掘是把信息變成認知的工具,如果我們想要從數(shù)據(jù)中提取一定的規(guī)律(即認知)往往需要數(shù)據(jù)分析和數(shù)據(jù)挖掘結合使用。5.第(4)題中所列出的概念有哪些數(shù)學模型?(寫出這些模型的形式化描述),那些是新近的模型,以教育(教學、學習)為例,可以分析和挖掘的數(shù)據(jù)模型?數(shù)據(jù)分析的模型:(1.)PEST分析模型(2.)5W2H分析模型(3.)邏輯樹分析模型(4.)4P營銷理論(5).用戶行為模型數(shù)據(jù)分析模型的形式化描述:(1.)PEST分析模型主要針對宏觀市場環(huán)境進行分析,從政治、經(jīng)濟、社會以及技術四個維度對產(chǎn)品或服務是否適合進入市場進行數(shù)據(jù)化的分析,最終得到結論,輔助判斷產(chǎn)品或服務是否滿足大環(huán)境。(2.)5W2H分析模型的應用場景較廣,可用于對用戶行為進行分析以及產(chǎn)品業(yè)務分析。(3.)邏輯樹分析模型主要針對已知問題進行分析,通過對已知問題的細化分析,通過分析結論找到問題的最優(yōu)解決方案。(4.)4P營銷理論模型主要用于公司或其中某一個產(chǎn)品線的整體運營情況分析,通過分析結論,輔助決策近期運營計劃與方案。(5.)用戶行為分析模型應用場景比較單一,完全針對用戶的行為進行研究分析。數(shù)據(jù)統(tǒng)計的數(shù)學模型:多變量統(tǒng)計分析主要用于數(shù)據(jù)分類和綜合評價。綜合評價是區(qū)劃和規(guī)劃的基礎。從人類認識的角度來看有精確的和模糊的兩種類型, 因為絕大多數(shù)地理現(xiàn)象難以用精確的定量關系劃分和表示,因此模糊的模型更為實用,結果也往往更接近實際,模糊評價一般經(jīng)過四個過程:(1)評價因子的選擇與簡化;(2)多因子重要性指標(權重)的確定;(3)因子內(nèi)各類別對評價目標的隸屬度確定;(4)選用某種方法進行多因子綜合。.主成分分析地理問題往往涉及大量相互關聯(lián)的自然和社會要素,眾多的要素常常給模型的構造帶來很大困難,為使用戶易于理解和解決現(xiàn)有存儲容量不足的問題,有必要減少某些數(shù)據(jù)而保留最必要的信息。主成分分析是通過數(shù)理統(tǒng)計分析,求得各要素間線性關系的實質(zhì)上有意義的表達式,將眾多要素的信息壓縮表達為若干具有代表性的合成變量,這就克服了變量選擇時的冗余和相關, 然后選擇信息最豐富的少數(shù)因子進行各種聚類分析,構造應用模型。.層次分析法(AHP)HierarahyAnalysis是T.L.Saaty等在70年代提出和廣泛應用的,是系統(tǒng)分析的數(shù)學工具之一,它把人的思維過程層次化、數(shù)量化,并用數(shù)學方法為分析、決策、預報或控制提供定量的依據(jù)AHP方法把相互關聯(lián)的要素按隸屬關系分為若干層次,請有經(jīng)驗的專家對各層次各因素的相對重要性給出定量指標,利用數(shù)學方法綜合專家意見給出各層次各要素的相對重要性權值, 作為綜合分析的基袖。憫如要比較n個囪素y={yl)y2,???,yn}對目標Z的影響,確定它們在z中的匕匕重)每次取兩個因素yi和yJ,用aij表示yi與yJ對Z的影響之比,全部比較結果可用矩陣A=(aij)n*n表示,A叫成對比矩陣,它應滿足:aij>0,aij=1/aij(i,j=1,2,…n)使上式成立的矩陣稱互反陣,必有aij=l。.系統(tǒng)聚類分析聚類分析的主要依據(jù)是把相似的樣本歸為一類,而把差異大的樣本區(qū)分開來。在由m個變量組成為m維的空間中可以用多種方法定義樣本之間的相似性和差異性統(tǒng)計量。.判別分析判別分析是根據(jù)表明事物特點的變量值和它們所屬的類求出判別函數(shù),根據(jù)判別函數(shù)對未知所屬類別的事物進行分類的一種分析方法, 與聚類分析不同,它需要已知一系列反映事物特性的數(shù)值變量值及其變量值。判別分析就是在已知研究對象分為若干類型(組別)并已經(jīng)取得各種類型的一批已知樣品的觀測數(shù)據(jù)基礎上,根據(jù)某些準則,建立起盡可能把屬于不同類型的數(shù)據(jù)區(qū)分開來的判別函數(shù),然后用它們來判別未知類型的樣品應該屬于哪一類。根據(jù)判別的組數(shù),判別分析可以分為兩組判別分析和多組判別分析;根據(jù)判別函數(shù)的形式,判別分析可以分為線性判別和非線性判別 ;根據(jù)判別時處理變量的方法不同,判別分析可以分為逐步判別、序貫判別等;根據(jù)判別標準的不同,判別分析有距離判別、Fisher判別、Bayes判別等。數(shù)據(jù)挖掘的數(shù)學模型:可分為四大類(1.)分類與預測,決策樹、神經(jīng)網(wǎng)絡、回歸、時間序列(2.)聚類,K-means,快速聚類,系統(tǒng)聚類(3.)關聯(lián),apriori算法等(4.)異常值處理。以教育(教學、學習)為例,可以分析和挖掘的數(shù)據(jù)模型?基于教育數(shù)據(jù)挖掘的網(wǎng)絡學習過程監(jiān)管研究為例進行論述(1.)教育數(shù)據(jù)挖掘及其應用。教育數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術在教育領域的具體應用。根據(jù)國際教育數(shù)據(jù)挖掘工作組網(wǎng)站的定義,教育數(shù)據(jù)挖掘是指運用不斷發(fā)展的方法和技術,探索特定的教育環(huán)境中的數(shù)據(jù)類型,挖掘出有價值的信息,以幫助教師更好地理解學生,并改善他們所學習的環(huán)境,為教育者、學習者、管理者等教育工作者提供服務。教育數(shù)據(jù)挖掘的主要目標包括:構建學習者模型,預測學習發(fā)展趨勢;分析已有教學內(nèi)容、教學模型,提出改進優(yōu)化建議;針對各種教育軟件系統(tǒng),評估其有效性;構建教育領域模型,促進有效學習的產(chǎn)生。教育數(shù)據(jù)挖掘的數(shù)據(jù)來源可以來自于網(wǎng)絡學習系統(tǒng)或者教育辦公軟件等,也可以來自于傳統(tǒng)學習課堂或傳統(tǒng)測試結果等。數(shù)據(jù)屬性既可以是個人信息(人口學信息),也可以是學習過程信息。教育數(shù)據(jù)挖掘過程包括數(shù)據(jù)獲取與預處理、數(shù)據(jù)分析和結果解釋三個階段。教育數(shù)據(jù)挖掘的項惘rr融據(jù)往耳的罐 C- 卷占用于案理由方,< 圖1網(wǎng)名學可過忤除管的教育數(shù)據(jù)找掘模型模型主要可分為描述性模型和預測性模型兩類。——描述性模型用于模式的描述,為決策制定提供參考意見;而預測性模型主要用于基于數(shù)據(jù)的預測(如預測學生成績或課程通過情況等)。(2.)網(wǎng)絡學習過程監(jiān)管的教育數(shù)據(jù)挖掘模型根據(jù)網(wǎng)絡學習的特殊屬性及教育數(shù)據(jù)挖掘流程,本研究構建了如圖1所示的網(wǎng)絡學習過程監(jiān)管的教育數(shù)據(jù)挖掘模型。數(shù)據(jù)源主要來自網(wǎng)絡學習平臺數(shù)據(jù)庫,以及教務管理平臺數(shù)據(jù)庫中的學生課程考試成績、個人信息等數(shù)據(jù)。由于數(shù)據(jù)來源的多樣化,因此在完成數(shù)據(jù)采集之后,必須對數(shù)據(jù)進行預處理,包括去除冗余數(shù)據(jù)、處理缺失數(shù)據(jù)、數(shù)值轉(zhuǎn)換等。數(shù)據(jù)預處理完成后,進入教育數(shù)據(jù)挖掘的核心環(huán)節(jié)一一選擇挖掘方法分析數(shù)據(jù)并得出結果。針對網(wǎng)絡學習平臺的學習過程監(jiān)管,使用統(tǒng)計分析與可視化方法了解學習者的網(wǎng)絡學習時間分布、偏好頁面等;使用關聯(lián)規(guī)則了解學習者的網(wǎng)絡學習屬性與學業(yè)成績之間的關聯(lián);使用聚類分析對學習者分類,教師可以依據(jù)分類結果對各類學生進行不同形式的監(jiān)管,也可根據(jù)分類結果給予相應的網(wǎng)絡學習效果評價。最后,將教育數(shù)據(jù)挖掘的結果應用到網(wǎng)絡學習過程的監(jiān)管中,學生進行新一輪的網(wǎng)絡學習,產(chǎn)生新的網(wǎng)絡學習數(shù)據(jù),對產(chǎn)生的新數(shù)據(jù)繼續(xù)進行分析。如此不斷迭代,對網(wǎng)絡學習過程進行調(diào)整和優(yōu)化,使其朝著研究性學習和自主性學習的目標實現(xiàn)可持續(xù)發(fā)展。.大數(shù)據(jù)的本質(zhì)特征是什么?大數(shù)據(jù)是指按照一定的組織結構連接起來的數(shù)據(jù),是非常簡單而且直接的事物,但是從現(xiàn)象上分析,大數(shù)據(jù)所呈現(xiàn)出來的狀態(tài)復雜多樣,這是因為現(xiàn)象是由觀察角度決定的.大數(shù)據(jù)的結構是一個多層次、交織關聯(lián)的復雜系統(tǒng)結構,數(shù)據(jù)是分布在節(jié)點上的構成物質(zhì),數(shù)據(jù)之間的關聯(lián)關系是由節(jié)點的位置決定的,而不是由數(shù)據(jù)本身來決定。也就是說,不同的數(shù)據(jù)位于同一個節(jié)點時,就可以獲得相同的關聯(lián)關系。(1.)使用所有的數(shù)據(jù)運用用戶行為觀察等大數(shù)據(jù)出現(xiàn)前的分析方法,通常是將調(diào)查對象范圍縮小至幾個人。這是因為,整理所有目標用戶的數(shù)據(jù)實在太費時間,所以采取了從總用戶群中,爭取不產(chǎn)生偏差地抽取一部分作為調(diào)查對象,并僅僅根據(jù)那幾個人的數(shù)據(jù)進行分析。而使用大數(shù)據(jù)技術,能夠通過發(fā)達的數(shù)據(jù)抽選和分析技術,完全可以做到對所有的數(shù)據(jù)進行分析,以提高數(shù)據(jù)的正確性。(2.)不拘泥于單個數(shù)據(jù)的精確度如果我們連續(xù)扔骰子,偶爾會連續(xù)好幾次都扔出同樣的數(shù)字。但是如果無限增加扔骰子的次數(shù),每個數(shù)字出現(xiàn)的概率都將越來越接近六分之一。同樣的,在大數(shù)據(jù)領域,通過觀察數(shù)量龐大的數(shù)據(jù),更容易提高整體而言的數(shù)據(jù)的精準度。因此,可以不拘泥于個別數(shù)據(jù)的精確度,而迅速地進階到數(shù)據(jù)分析的步驟。(不過這種情況當然不包括人為的篡改等由于外部因素扭曲了數(shù)據(jù)的情況)(3.)不過分強調(diào)因果關系企業(yè)在考慮服務方針時,會綜合考慮現(xiàn)狀、問題、改善措施、實施后果等要素之間的相互關系,在此基礎上建立假設。但是大數(shù)據(jù)能夠通過觀察海量的數(shù)據(jù),發(fā)現(xiàn)人所注意不到的相互關聯(lián)。.怎樣使用并行計算的方法(模型)實現(xiàn)并行數(shù)據(jù)的處理與分析?面向大數(shù)據(jù)處理的并行計算模型及性能優(yōu)化:(1.)p-DOT模型分析p-DOT模型在設計時將BPS真型作為基礎,模型的基本組成是一系列iteration,該模型主要由三個層次組成:首先,D-layer,也就是數(shù)據(jù)層,整個系統(tǒng)叫結構呈現(xiàn)出分布式,各個數(shù)據(jù)節(jié)點上存旖藪施集。其次)O-layer)也就是計算層,假設q為計算的一個階段,那么該階段內(nèi)的所有節(jié)點會同時進行獨立計算,所有節(jié)點只需要處理自己對應的數(shù)據(jù),這些數(shù)據(jù)中包括最初輸入的數(shù)據(jù),也包括計算中生成的中間數(shù)據(jù),這樣實現(xiàn)了并發(fā)計算,得到的中間結果直接存儲在模型巾。最后)T-layer)也就是通信層)在q這一階段內(nèi),通信操作子會自動傳遞模型中的消息,傳遞過程遵循點對點的原則,因為q階段中的所有節(jié)點在經(jīng)過計算以后都會產(chǎn)生一個中間結果,在通信操作子的作用下,這些中間結果會被一一傳遞到q+1階段內(nèi)。也就是說,一個階段的輸出數(shù)據(jù)會直接被作為下一個階段的輸入數(shù)據(jù),如果不存在下一個階段或者是兩個相鄰階段之間不存在通信,則這些數(shù)據(jù)會被作為最終結果輸出并存儲。在并行計算模型下,應用大數(shù)據(jù)和應用高性能之間并不矛盾,因此并行計算模型具有普適性的特征,前者為后者提供模式支持,反過來,后者也為前者提供運算能力上的支持。另外,在并行計算模型下,系統(tǒng)的擴展性和容錯性明顯提升,在不改變?nèi)蝿招实那疤嵯?,?shù)據(jù)規(guī)模以及機器數(shù)量之間的關系就能夠描述出系統(tǒng)的擴展性,而即使系統(tǒng)中的一些組件出現(xiàn)故障,系統(tǒng)整體運行也不會受到影響,體現(xiàn)出較好的容錯性。p-DOT模型雖然是在DOT莫型的基礎上發(fā)展起來的,但是其絕對不會是后者的簡單擴展或者延伸,而是具備更加強大的功能:一是p-DOTK型可以涵蓋DOTX及BSP模型的處理范式,應用范圍比較廣;二是將該模型作為依據(jù)能夠構造出時間成本函數(shù),如果在某個環(huán)境負載下大數(shù)據(jù)運算任務已經(jīng)確定,我們就可以根據(jù)該函數(shù)計算出整個運算過程所需要的機器數(shù)量(這里將最短運行時間作為計算標準);三是該并行計算模型是可以擴展的,模型也自帶容錯功能,具有一定的普適性。(2.)2.1D-layer的優(yōu)化要想實現(xiàn)容錯性,要對系統(tǒng)中的數(shù)據(jù)進行備份,因為操作人員出現(xiàn)失誤或者是系統(tǒng)自身存在問題,數(shù)據(jù)有可能大面積丟失,這時備份數(shù)據(jù)就會發(fā)揮作用。一般情況下,系統(tǒng)中比較重要的數(shù)據(jù)會至少制作三個備份,這些備份數(shù)據(jù)會被存儲在不同場所,一旦系統(tǒng)數(shù)據(jù)層出現(xiàn)問題就會利用這些數(shù)據(jù)進行回存。對于數(shù)據(jù)復本可以這樣布局:一是每個數(shù)據(jù)塊中的每個復本只能存儲在對應節(jié)點上;二是如果集群中機架數(shù)量比較多,每個機架中可以存儲一個數(shù)據(jù)塊中的一個復本或者是兩個復本。從以上布局策略中我們可以看出,數(shù)據(jù)復本的存儲與原始數(shù)據(jù)一樣,都是存儲在數(shù)據(jù)節(jié)點上,呈現(xiàn)出分散性存儲的特征,這種存儲方式是實現(xiàn)大數(shù)據(jù)容錯性的基礎。O-layer的優(yōu)化隨著信息技術的發(fā)展以及工業(yè)規(guī)模的擴大,人們對大數(shù)據(jù)任務性能提出了更高的要求,為了實現(xiàn)提高性能的目標,一般計算機程序會對系統(tǒng)的橫向擴展提供支持。隨著計算機多核技術的普及,系統(tǒng)的并行處理能力明顯增強,計算密度明顯提高,對多核硬件資源的利用效率明顯提升。傳統(tǒng)并行計算模型主要依靠進程間的通信,而優(yōu)化后的模型則主要依靠線程間的通信,由于后者明顯小于前者,因此在利用多核技術進行并行計算時,能夠在不增大通信開銷的基礎上明顯提升計算性能。T-layer的優(yōu)化為了提升計算模型的通信性能,需要對大數(shù)據(jù)進行深度學習,具體原因如下:首先,無論使用哪種算法,都需要不斷更新模型,從分布式平臺的角度來說,每一次迭代都代表一次全局通信,而一部分模型的迭代次數(shù)又非常多,同時模型中包含大量位移參數(shù)以及權重,例如模型AlexNet的基礎是卷積神經(jīng)網(wǎng)絡,其迭代次數(shù)可以達到45萬,耗費系統(tǒng)大量通信開銷。其次,如果分布式平臺上本身就有很多機器,那么迭代過程就需要將機器的運行或者計算作為基礎,就是說要想完成一次迭代,平臺上所有的機器都要逐一進行計算,計算完成以后還需要對參數(shù)進行同步。這種迭代模式容易受到短板效應的制約,算法通信開銷并不取決于計算速度最快的機器,而是取決于最慢的機器。為了避免短板效應,在對并行計算模型進行優(yōu)化時,可以采用同步策略,對于計算速度較慢的機器進行加速,提升迭代類任務的通信性能。8.什么是數(shù)據(jù)可視化?有哪些可視化方法?有哪些可視化工具?數(shù)據(jù)可視化技術包含以下幾個基本概念:借助于圖形化的手段,清晰、快捷有效的傳達與溝通信息。從用戶的角度,數(shù)據(jù)可視化可以讓用戶快速抓住要點信息,讓關鍵的數(shù)據(jù)點從人類的眼睛快速通往心靈深處。數(shù)據(jù)可視化一般會具備以下幾個特點:準確性、創(chuàng)新性和簡潔性。①數(shù)據(jù)空間:是由n維屬性和m個元素組成的數(shù)據(jù)集所構成的多維信息空間;②數(shù)據(jù)開發(fā):是指利用一定的算法和工具對數(shù)據(jù)進行定量的推演和計算;③數(shù)據(jù)分析:指對多維數(shù)據(jù)進行切片、塊、旋轉(zhuǎn)等動作剖析數(shù)據(jù),從而能多角度多側面觀察數(shù)據(jù);④數(shù)據(jù)可視化:是指將大型數(shù)據(jù)集中的數(shù)據(jù)以圖形圖像形式表示,并利用數(shù)據(jù)分析和開發(fā)工具發(fā)現(xiàn)其中未知信息的處理過程。數(shù)據(jù)可視化已經(jīng)提出了許多方法,這些方法根據(jù)其可視化的原理不同可以劃分為基于幾何的技術、面向像素技術、基于圖標的技術、基于層次的技術、基于圖像的技術和分布式技術等等。常用的可視化的方法:(1)、面積&尺寸可視化對同一類圖形(例如柱狀、圓環(huán)和蜘蛛圖等)的長度、高度或面積加以區(qū)別,來清晰的表達不同指標對應的指標值之間的對比。這種方法會讓瀏覽者對數(shù)據(jù)及其之間的對比一目了然。制作這類數(shù)據(jù)可視化圖形時,要用數(shù)學公式計算,來表達準確的尺度和比例。例如:a:天貓的店鋪動態(tài)評分b:聯(lián)邦預算圖c:公司黃頁-企業(yè)能力模型蜘蛛圖(2)、顏色可視化通過顏色的深淺來表達指標值的強弱和大小,是數(shù)據(jù)可視化設計的常用方法,用戶一眼看上去便可整體的看出哪一部分指標的數(shù)據(jù)值更突出。例如:a:點擊頻次熱力圖b:年度失業(yè)率統(tǒng)計c:手機用戶城市分布(3)、圖形可視化在我們設計指標及數(shù)據(jù)時,使用有對應實際含義的圖形來結合呈現(xiàn),會使數(shù)據(jù)圖表更加生動的被展現(xiàn),更便于用戶理解圖表要表達的主題。例如:a:iOS手機及平板分布b:人人網(wǎng)用戶的網(wǎng)購調(diào)查(4)、地域空間可視化當指標數(shù)據(jù)要表達的主題跟地域有關聯(lián)時,我們一般會選擇用地圖為大背景。這樣用戶可以直觀的了解整體的數(shù)據(jù)情況,同時也可以根據(jù)地理位置快速的定位到某一地區(qū)來查看詳細數(shù)據(jù)。(5)、概念可視化通過將抽象的指標數(shù)據(jù)轉(zhuǎn)換成我們熟悉的容易感知的數(shù)據(jù)時,用戶便更容易理解圖形要表達的意義。注意:在總結了常見維度的數(shù)據(jù)可視化方法和范例之后,要再次總體強調(diào)下做數(shù)據(jù)可視化設計時的注意事項,總結了三點如下:1)設計的方案至少適用于兩個層次:一是能夠整體展示大的圖形輪廓,讓用戶能夠快速的了解圖表所要表達的整體概念;之后再以合適的方式對局部的詳細數(shù)據(jù)加以呈現(xiàn)(如鼠標hover展示)。2)做數(shù)據(jù)可視化時,上述的五個方法經(jīng)常是混合用的,尤其是做一些復雜圖形和多維度數(shù)據(jù)的展示時。3)做出的可視化圖表一定要易于理解,在顯性化的基礎上越美觀越好,切忌華而不實??梢暬墓ぞ撸篒.Excel2.csv/json3.GoogleChartAPI4.浮懸5.拉斐爾9.近兩年教育數(shù)據(jù)分析處理的國內(nèi)為論文(至少三篇,其中一篇為外國論文),寫一個所閱讀論文的綜述,(用自己的語言,列出你所閱讀的文獻)?教育數(shù)據(jù)分析處理及其在教育領域的研究綜述隨著MOOC等在線學習平臺的飛速發(fā)展,針對在線教育數(shù)據(jù)的挖掘與分析正成為教育學與數(shù)據(jù)挖掘領域相結合的新研究熱點,為分析學習規(guī)律和構建課程知識體系提供了新的思路。本綜述對面向大規(guī)模在線學習平臺的教育數(shù)據(jù)分析的一些相關方法進行綜述,并對該領域的一些最新發(fā)展趨勢進行探討。從大數(shù)據(jù)的特征入手,給出了大數(shù)據(jù)的處理流程,分析了數(shù)據(jù)采集、數(shù)據(jù)分析、數(shù)據(jù)服務、數(shù)據(jù)可視化的要點,給出了教育大數(shù)據(jù)的應用模式,從個性化課程分析、教育領域的數(shù)據(jù)挖掘、監(jiān)測學生的考試、為教育決策和教育改革提供參考、幫助家長和教師找到適合孩子的學習方法五方面論述了大數(shù)據(jù)的應用實踐。教育領域的數(shù)據(jù)挖掘教育數(shù)據(jù)挖掘領域側重于在線教育數(shù)據(jù)的挖掘分析方法研究,目前主要包括以下幾種分析方法:預測、結構挖掘、關系挖掘、模型發(fā)現(xiàn)等。預測(prediction),中旨通過對在線教育數(shù)據(jù)的挖掘得到關于某個變量的模型,從而對該變量未來的走勢進行預測,比如數(shù)據(jù)趨勢預測等。目前常用的預測手段包括分類、回歸、潛在知識評估(latentknowledgeestimation)等。特另1J是潛在知識評估,作為一種對學生知識掌握情況的評價手段,能夠更為客觀地對學生知識掌握情況及能力水平進行評測,在MOOC平臺等在線教育乃至傳統(tǒng)教育領域都得到了廣泛應用。結構挖掘(structurediscovery)希望在大規(guī)模數(shù)據(jù)中自動挖掘有價值的結構知識, 常見的分析手段向括聚類分橋(clustering)、國泰分析(factoranalysis)、社會網(wǎng)絡分析(socialnetworkanalysis)、領域結構發(fā)現(xiàn)(domainstructurediscovery)等。關系挖掘(relationshipdiscovery)用于發(fā)現(xiàn)數(shù)據(jù)中不同變量(如教育因素)之間的關系,包括關聯(lián)規(guī)貝U挖掘(associationrulemining)、相關性分析(correlationmining)、時序模式挖掘(sequentialpatternmining)及鹵臬數(shù)據(jù)挖掘(causaldatamining)等研究方向。教育數(shù)據(jù)與其他領域中的數(shù)據(jù)比較起來, 有一些獨特的特征??偨Y起來就是教育數(shù)據(jù)是分層的(hierarchical)。有鍵擊層(keystrokelevel)、回答層(answerlevel)、學期層(sessionlevel)、學生層(studentlevel)、教室層(classroomlevel)、教師層(teacherlevel)和學校層(schoollevel))數(shù)據(jù)就隱含在這些不同的層之中。教育中的數(shù)據(jù)挖掘是邁向大數(shù)據(jù)分析的一項主要工作?;有詫W習的新方法已經(jīng)通過智力輔導系統(tǒng)、刺激與激勵機制、教育性的游戲產(chǎn)生了越來越多的尚未結構化的數(shù)據(jù)。教育中最近的趨勢是允許研究者積累大量尚未結構化的數(shù)據(jù)(unstructureddata)。這就使得更豐富的數(shù)據(jù)能給研究者創(chuàng)造出比過去更多的探究學生學習環(huán)境的新機會。教育大數(shù)據(jù)的處理傳統(tǒng)的數(shù)據(jù)服務(DataServices)指的是數(shù)據(jù)操作密集型Web服務,它們對用戶提供接入數(shù)據(jù)資源的接口,對內(nèi)則將數(shù)據(jù)源及操作進行封裝,并對來自用戶的搜索和分析請求進行處理。對于企業(yè)來說,數(shù)據(jù)通常被存儲在多個應用系統(tǒng)當中,如果想要調(diào)用數(shù)據(jù),就需要分別連接應用的數(shù)據(jù)存儲系統(tǒng)。數(shù)據(jù)服務通過提供一個抽圖1大數(shù)據(jù)系統(tǒng)流程圖象層,為用戶隔離了異構數(shù)據(jù)源的復雜性,使其能夠以統(tǒng)一的方式訪問或更新數(shù)據(jù)。目前來說,數(shù)據(jù)服務的理想應用是數(shù)據(jù)所有者將數(shù)據(jù)開放,具有相應權限的用戶、客戶端和應用程序可通過
數(shù)據(jù)服務對數(shù)據(jù)進行訪問和操作。大數(shù)據(jù)系統(tǒng)實際上就是數(shù)據(jù)的生命周期,即數(shù)據(jù)采集、存儲、查找、分析和可視化的過程,大數(shù)據(jù)系統(tǒng)流程圖,如圖1所示,其中Hadoop是一種開源實現(xiàn)平臺,其結構如圖2所示。C IntelI[nd<^op瓢雨比堀限堀分析敢推也中救眠能處出up-分用式iFJi依里實時.小印武,高球數(shù)據(jù)冷HplS
瓢雨比堀限堀分析敢推也中救眠能處出up-分用式iFJi依里實時.小印武,高球數(shù)據(jù)冷HplS
分布式第件瘢統(tǒng)圖2IntelH.den口組件結構教育大數(shù)據(jù)的處理過程包括:數(shù)據(jù)采集,數(shù)據(jù)采集是大數(shù)據(jù)處理流程中最基礎的一步,目前常用的數(shù)據(jù)采集手段有傳感器收取、射頻識別、數(shù)據(jù)檢索分類工具如百度和谷歌等搜索引擎,以及條形碼技術等。數(shù)據(jù)分析,數(shù)據(jù)分析在方法論上需要解決的課題首先就在于:如何透過多層次、多維度的數(shù)據(jù)集實現(xiàn)對于某一個人、某一件事或某一種社會狀態(tài)的現(xiàn)實態(tài)勢的聚焦,即真相再現(xiàn);其中的難點就在于,我們需要洞察哪些維度是描述一個人、一件事以及一種社會狀態(tài)存在狀態(tài)的最為關鍵性的維度,并且這些維度之間的關聯(lián)方式是怎樣的等。其次,如何在時間序列上離散的、貌似各不相關的數(shù)據(jù)集合中,找到一種或多種與人的活動、事件的發(fā)展以及社會的運作有機聯(lián)系的連續(xù)性數(shù)據(jù)的分析邏輯。其中的難點就在于,我們對于離散的、貌似各不相關的數(shù)據(jù)如何進行屬性標簽化的分類。不同類屬的數(shù)據(jù)集的功能聚合模型(用于特定的分析對象)以及數(shù)據(jù)的標簽化技術,是大數(shù)據(jù)分析的技術關鍵。數(shù)據(jù)服務,目前,對外提供大數(shù)據(jù)服務的既有政府、企業(yè),也有科研機構,其提供的數(shù)據(jù)服務集中在數(shù)據(jù)查詢/驗證服務,面向企業(yè)的數(shù)據(jù)分析服務和數(shù)據(jù)集市。數(shù)據(jù)可視化,不管是對數(shù)據(jù)分析專家還是普通用戶,數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求。可視化可以直觀地展示數(shù)據(jù)。數(shù)據(jù)可視化的前提是給定要進行可視化的數(shù)據(jù),這些數(shù)據(jù)有可能是用戶檢索的結果,有可能是分析的結果。這樣,大數(shù)據(jù)的可視化請求的處理流程可概述為,先執(zhí)行大數(shù)據(jù)檢索服務或者大數(shù)據(jù)分析服務,再將其結果數(shù)據(jù)輸入到可視化型數(shù)據(jù)服務中,最后輸出可視化腳本或包含可視化腳本的網(wǎng)頁腳本。教育大數(shù)據(jù)的應用模式基于數(shù)據(jù)挖掘、數(shù)據(jù)分析和在線決策面板三大要素的教育大數(shù)據(jù)應用流程具體可劃分為六個步驟,如圖3所示,一是學生使用在線系統(tǒng)進行學習;二是系統(tǒng)收集和記錄學生的在線學習行為,存入數(shù)據(jù)庫;三是進行數(shù)據(jù)分析和處理、預測學生的學業(yè)表現(xiàn);四是對預測和反饋結果進行可視化處理;五是提供適合學生個人的學習材料;六是教師、管理人員和開發(fā)人員適時給予學生指導和幫助。4r大數(shù)據(jù)教育領域應用實踐個性化課程
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 加盟生產(chǎn)合同范例
- 住宅漏水修補施工合同范例
- 主機合同范例
- 2025版高中化學課時作業(yè)12烷烴含解析新人教版必修2
- 借用鋪面合同范例
- 企業(yè)花束合同范例
- 產(chǎn)品拍攝項目合同范例
- 事故二手車銷售合同范例
- 煙氣 CO2聚乙烯亞胺接枝纖維素納米管吸附機理的分子動力學模擬
- 機械土石方施工方案
- 2025年黑龍江職業(yè)學院單招職業(yè)適應性測試題庫附答案
- 2025年四川三江招商集團有限公司招聘筆試參考題庫含答案解析
- 2025高考數(shù)學一輪復習-第10章-第8節(jié) 二項分布、超幾何分布與正態(tài)分布【課件】
- 《心力衰竭護理》課件
- 內(nèi)保單位培訓
- 早產(chǎn)兒與低出生體重兒袋鼠式護理技術規(guī)
- 進化醫(yī)療-跨物種腫瘤基因治療的開拓者
- 法理學復習題+答案
- 信息化系統(tǒng)平臺試運行方案
- 統(tǒng)編版(2024新版)七年級下冊道德與法治期末復習背誦知識點提綱
- 《田野調(diào)查方法》課件
評論
0/150
提交評論