大數(shù)據(jù)分析模型深度介紹_第1頁(yè)
大數(shù)據(jù)分析模型深度介紹_第2頁(yè)
大數(shù)據(jù)分析模型深度介紹_第3頁(yè)
大數(shù)據(jù)分析模型深度介紹_第4頁(yè)
大數(shù)據(jù)分析模型深度介紹_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 大數(shù)據(jù)分析模型深度介紹1. 數(shù)據(jù)分析多層模型介紹這個(gè)金字塔圖像是數(shù)據(jù)分析的多層模型,從下往上一共有六層:底下第一層稱為Data Sources 元數(shù)據(jù)層。比如說在生產(chǎn)線上,在生產(chǎn)的數(shù)據(jù)庫(kù)里面,各種各樣的數(shù)據(jù),可能是銀行的業(yè)務(wù)數(shù)據(jù),也可能是電信運(yùn)營(yíng)商在交換機(jī)里面采集下來的數(shù)據(jù)等等,然后這些生產(chǎn)的數(shù)據(jù)通過ETL,是英文 Extract-Transform-Load 的縮寫,用來描述將數(shù)據(jù)從來源端經(jīng)過抽?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過程,通過這個(gè)過程,我們可以把需要的數(shù)據(jù)放到數(shù)據(jù)倉(cāng)庫(kù)里面,那這個(gè)數(shù)據(jù)倉(cāng)庫(kù)就是多層模型中的第二層。數(shù)據(jù)倉(cāng)庫(kù)主要是給我們需要存

2、放的數(shù)據(jù)提供一個(gè)物理基礎(chǔ),我們對(duì)數(shù)據(jù)進(jìn)行分析,原材料都放在這個(gè)數(shù)據(jù)倉(cāng)庫(kù)里面,這幾年以來,除了數(shù)據(jù)倉(cāng)庫(kù)這個(gè)概念,還興起了數(shù)據(jù)集市這個(gè)概念,數(shù)據(jù)集市其實(shí)就是部門級(jí)的數(shù)據(jù)倉(cāng)庫(kù),規(guī)模比較小一點(diǎn)的數(shù)據(jù)倉(cāng)庫(kù)。再上面一層是Data Exploration,這層主要做統(tǒng)計(jì)分析的事情,比如我們算均值、標(biāo)準(zhǔn)差、方差、排序、求最小大值、中位數(shù)、眾數(shù)等等,這些統(tǒng)計(jì)學(xué)比較常用的指標(biāo),另外還有些SQL查詢語(yǔ)句,總的來說主要是做一些目標(biāo)比較明確,計(jì)算方法比較清楚的事情。第四層是Data Mining數(shù)據(jù)挖掘?qū)?,?shù)據(jù)挖掘與數(shù)據(jù)分析(統(tǒng)計(jì)分析)有什么區(qū)別呢,數(shù)據(jù)分析往往是統(tǒng)計(jì)量和算法比較清楚,數(shù)據(jù)挖掘往往是目標(biāo)不是很清楚,在實(shí)

3、現(xiàn)目標(biāo)的過程中采用什么方法不能確定,所以數(shù)據(jù)挖掘比數(shù)據(jù)分析難度要高很多。第五層是數(shù)據(jù)展現(xiàn)層,把數(shù)據(jù)分析和數(shù)據(jù)挖掘得出來的結(jié)果通過數(shù)據(jù)展現(xiàn)層的圖表、報(bào)表把他展現(xiàn)出來,也可以稱為數(shù)據(jù)可視化。最后把這些圖表、報(bào)表交給決策者,以這個(gè)為基礎(chǔ)做一些決策。2. 數(shù)據(jù)分析工具簡(jiǎn)介常用的數(shù)據(jù)分析工具,包括一些廠商的數(shù)據(jù)庫(kù)產(chǎn)品,包括IBM的DB2、甲骨文的Oracle數(shù)據(jù)庫(kù)。這些廠商的數(shù)據(jù)庫(kù)本身帶有一些統(tǒng)計(jì)分析的包,里面有些標(biāo)準(zhǔn)的功能可以做數(shù)據(jù)分析工作,但用這些自帶的數(shù)據(jù)分析工具功能相對(duì)不夠?qū)I(yè)。主要反映在缺乏標(biāo)準(zhǔn)的統(tǒng)計(jì)函數(shù),比如做一個(gè)線性回歸模型,需要寫一大堆SQL語(yǔ)句,甚至要寫一個(gè)plsql程序才能完成。但是

4、在專業(yè)的統(tǒng)計(jì)軟件只需要寫一個(gè)簡(jiǎn)單的函數(shù)就可以完成。目前最主流的統(tǒng)計(jì)軟件有R、SAS、SPSS,R是一個(gè)免費(fèi)的開源軟件。SAS大概是歷史最悠久的統(tǒng)計(jì)軟件,是一個(gè)商業(yè)軟件,在60年代就誕生,在70年代以后逐漸商業(yè)化,發(fā)展到現(xiàn)在SAS已經(jīng)成為國(guó)際標(biāo)準(zhǔn)。SPSS也是一個(gè)歷史悠久的統(tǒng)計(jì)軟件,SPSS一開始是一個(gè)仿真軟件,后來演變成一個(gè)統(tǒng)計(jì)軟件,目前已經(jīng)發(fā)展成為一個(gè)數(shù)據(jù)挖掘軟件,目前被IBM收購(gòu),變成IBM旗下的一個(gè)產(chǎn)品,在社會(huì)學(xué)研究院領(lǐng)域有很多的應(yīng)用。其他的還有一些軟件,比如說水晶報(bào)表(Crystal Reports),在做BI和報(bào)表非常擅長(zhǎng),另外如UCINET也是在社會(huì)學(xué)比較常用的軟件,它可以畫群體的

5、網(wǎng)絡(luò)圖,社交關(guān)系圖非常擅長(zhǎng)。3. 常用統(tǒng)計(jì)方法使用統(tǒng)計(jì)方法,有目的地對(duì)收集到的數(shù)據(jù)進(jìn)行分析處理,并且解讀分析結(jié)果:常用算法4. 數(shù)據(jù)挖掘數(shù)據(jù)挖掘是以查找隱藏在數(shù)據(jù)中的信息為目標(biāo)的技術(shù),是應(yīng)用算法從大型數(shù)據(jù)庫(kù)中提取知識(shí)的過程,這些算法確定信息項(xiàng)之間的隱性關(guān)聯(lián),并且向用戶顯示這些關(guān)聯(lián)。數(shù)據(jù)挖掘思想來源:假設(shè)檢驗(yàn),模式識(shí)別,人工智能,機(jī)器學(xué)習(xí)常見數(shù)據(jù)挖掘任務(wù):關(guān)聯(lián)分析,聚類分析,孤立點(diǎn)分析等等例:啤酒與尿布的故事5. 展現(xiàn)層:報(bào)表與圖形展現(xiàn)層在數(shù)據(jù)分析中是一個(gè)很重要的組成部分,在大家的心目中數(shù)據(jù)分析軟件只是讀數(shù)據(jù)和算數(shù)據(jù),結(jié)果算出來就OK了。但其實(shí)結(jié)果算出來以后對(duì)于數(shù)據(jù)分析還遠(yuǎn)沒有結(jié)束,還需要把結(jié)果展現(xiàn)出來,有些時(shí)候可能結(jié)果的展現(xiàn)比計(jì)算花的時(shí)間還要多。下圖是一個(gè)比較老土的報(bào)表。如果那這種報(bào)表給老板看,那體驗(yàn)效果肯定很差,其實(shí)人的特點(diǎn)對(duì)數(shù)字的感覺不敏感,如果你那一大堆數(shù)字組成的報(bào)表給老板看,老板肯定不是很高興。人對(duì)圖形會(huì)比較敏感,所以在統(tǒng)計(jì)學(xué)里面通常有比較標(biāo)準(zhǔn)的圖,如餅圖、柱形圖(垂直和水平)、虛線圖、水泡圖、魚骨圖、箱線圖等等。下面是一張?jiān)诘貓D上展現(xiàn)數(shù)據(jù)的展現(xiàn)形式下圖是關(guān)于使用安卓手機(jī)的數(shù)據(jù)展現(xiàn)根據(jù)信息圖顯示,Android先生的頭發(fā)有47%的可能是黑色的,戴眼鏡的幾率為37%,有36%的可能是北美人,30%的可能臉上長(zhǎng)雀斑。71%的時(shí) 間會(huì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論