大數據分析與實踐-社會研究與數字治理 第14章 基于大數據集市的課程實踐_第1頁
大數據分析與實踐-社會研究與數字治理 第14章 基于大數據集市的課程實踐_第2頁
大數據分析與實踐-社會研究與數字治理 第14章 基于大數據集市的課程實踐_第3頁
大數據分析與實踐-社會研究與數字治理 第14章 基于大數據集市的課程實踐_第4頁
大數據分析與實踐-社會研究與數字治理 第14章 基于大數據集市的課程實踐_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

PAGE286 大數據分析與實踐——社會研究與數字治理 第14章基于大數據集市的課程實踐 PAGE291第第14章基于大數據集市的課程實踐基于大數據集市的課程實踐14.1什么是大數據集市數據集市,也叫數據市場,是滿足特定的部門或者用戶的需求,按照多維的方式進行存儲,包括定義維度、需要計算的指標、維度的層次等,生成面向決策分析需求的數據立方體。從范圍上來說,其數據是從企業(yè)范圍的數據庫、數據倉庫,或者是更加專業(yè)的數據倉庫中抽取出來的。數據中心的重點就在于它迎合了專業(yè)用戶群體的特殊需求,在分析、內容、表現,以及易用方面。數據中心的用戶希望數據是由他們熟悉的術語表現的??梢孕薷默F有的數據集市或創(chuàng)建包含略微不同的數據的新數據集市,以迎合指定環(huán)境下的特定報告需要。14.1.1數據集市的結構數據集市是企業(yè)級數據倉庫的一個子集,它主要面向部門級業(yè)務,并且只面向某個特定的主題。為了解決靈活性與性能之間的矛盾,數據集市就是數據倉庫體系結構中增加的一種小型的部門或工作組級別的數據倉庫。數據集市存儲為特定用戶預先計算好的數據,從而滿足用戶對性能的需求。數據集市可以在一定程度上緩解訪問數據倉庫的瓶頸。數據集市中數據的結構通常被描述為星型結構或雪花結構。一個星型結構包含兩個基本部分——一個事實表和各種支持維表。(1)事實表。描述數據集市中最密集的數據。在電話公司中,用于呼叫的數據是典型的最密集數據;在銀行中,與賬目核對和自動柜員機有關的數據是典型的最密集數據。對于零售業(yè)而言,銷售和庫存數據是最密集的數據等等。事實表是預先被連接到一起的多種類型數據的組合體,它包括:一個反映事實表建立目的的實體的主鍵,如一張訂單、一次銷售、一個電話等等,主鍵信息,連接事實表與維表的外鍵,外鍵攜帶的非鍵值外部數據。如果這種非鍵外部數據經常用于事實表中的數據分析,它就會被包括在事實表的范圍內。事實表是高度索引化的。事實表中出現30到40條索引非常常見。有時事實表的每列都建了索引,這樣做的結果是使事實表中的數據非常容易讀取。但是,導入索引所需的資源數量必須為等式提供因數。通常,事實表的數據不能更改,但可以輸入數據,一旦正確輸入一個記錄,就不能更改此記錄的任何內容了。(2)維表。是圍繞著事實表建立的。維表包含非密集型數據,它通過外鍵與事實表相連。典型的維表建立在數據集市的基礎上,包括產品目錄、客戶名單、廠商列表等等。數據集市包含兩種類型的數據,通常是詳細數據和匯總數據。(1)詳細數據。數據集市中的詳細數據包含在星型結構中。值得一提的是,當數據通過企業(yè)數據倉庫時,星型結構就會很好的匯總。在這種情況下,企業(yè)數據倉庫包含必需的基本數據,而數據集市則包含更高間隔尺寸的數據。但是,在數據集市使用者的心目中,星型結構的數據和數據獲取時一樣詳細。(2)匯總數據。數據集市包含的第二種類型數據是匯總數據。分析人員通常從星型結構中的數據創(chuàng)建各種匯總數據。典型的匯總可能是銷售區(qū)域的月銷售總額。因為匯總的基礎不斷發(fā)展變化,所以歷史數據就在數據集市中。但是這些歷史數據優(yōu)勢在于它存儲的概括水平。星型結構中保存的歷史數據非常少。數據集市以企業(yè)數據倉庫為基礎進行更新。對于數據集市來說大約每周更新一次非常平常。但是,數據集市的更新時間可以少于一周也可以多于一周,這主要是由數據集市所屬部門的需求來決定的。14.1.2數據集市的類型數據集市中的數據來源于企業(yè)數據倉庫。所有數據,除了一個例外,在導入到數據集市之前都應該經過企業(yè)數據倉庫。這個例外就是用于數據集市的特定數據,它不能用于數據倉庫的其他地方。外部數據通常屬于這類范疇。如果情況不是這樣,數據就會用于決策支持系統(tǒng)的其他地方,那么這些數據就必須經過企業(yè)數據倉庫。有兩種類型的數據集市(見圖14-1):圖14-1兩種類型的數據集市(1)獨立型數據集市。其數據來自于操作型數據庫,是為了滿足特殊用戶而建立的一種分析型環(huán)境。這種數據集市的開發(fā)周期一般較短,具有靈活性,但是因為脫離了數據倉庫,獨立建立的數據集市可能會導致信息孤島的存在,不能以全局的視角去分析數據。(2)從屬型數據集市。其數據來自于企業(yè)的數據倉庫,這樣會導致開發(fā)周期的延長,但是從屬型數據集市在體系結構上比獨立型數據集市更穩(wěn)定,可以提高數據分析的質量,保證數據的一致性。14.1.3區(qū)別于數據倉庫數據倉庫是一個集成的、面向主題的數據集合,其體系結構如圖14-2所示,設計的目的是支持決策支持系統(tǒng)(DSS)功能。在數據倉庫里,每個數據單元都與特定的時間相關。數據倉庫包括原子級別的數據和輕度匯總的數據,例如OLTP(聯(lián)機事務處理)數據,是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時間不斷變化(不同時間)的數據集合,用以支持經營管理中的決策制定過程。圖14-2數據倉庫體系結構在數據結構上,數據倉庫是面向主題的、集成的數據的集合。而數據集市通常被定義為星型結構或者雪花型數據結構,一般由一張事實表和幾張維表組成的(表14-1)。表14-1數據倉庫于數據集市的區(qū)別數據倉庫數據數據來源遺留系統(tǒng)、OLTP系統(tǒng)、外部數據數據倉庫范圍企業(yè)級部門級或工作組級主題企業(yè)主題部門或特殊的分析主題數據粒度最細的粒度較粗的粒度數據結構規(guī)范化結構星型模式、雪片模式或兩者混合歷史數據大量歷史數據適度的歷史數據優(yōu)化處理海量數據、數據探索便于訪問和分析、快速查詢索引高度索引高度索引多個獨立的數據集市的累積,并不能形成一個企業(yè)級的數據倉庫的,這是由數據倉庫和數據集市本身的特點決定的——數據集市為各個部門或工作組所用,各個集市之間存在不一致性是難免的。因為脫離數據倉庫的緣故,當多個獨立型數據集市增長到一定規(guī)模之后,由于沒有統(tǒng)一的數據倉庫協(xié)調,企業(yè)只會又增加一些信息孤島,仍然不能以整個企業(yè)的視圖分析數據。如果企業(yè)最終想建設一個全企業(yè)統(tǒng)一的數據倉庫,想要以整個企業(yè)的視圖分析數據,獨立型數據集市不是合適的選擇。也就是說,“先獨立地構建數據集市,當數據集市達到一定的規(guī)模再直接轉換為數據倉庫”是不合適的。14.2大數據分析實踐項目選擇為完成大數據分析項目,或者一項大數據分析的課程實踐任務,首先要獲取作為分析對象和基礎的數據源。本書第11章“大數據分析平臺”課文前的導讀案例“大數據分析的數據源”中,列舉了較為豐富的可供借鑒的分析數據來源。一些大數據分析企業(yè)在多年服務于政府、服務于社會的數據分析實踐中,獲得了驕人的成績,也積累了豐富的分析源數據,對我們來說,更重要的是,這其中許多許多數據,實際上都是公開數據,也就是說,我們也可以利用這些數據,從不同的角度進行探索鉆取,獲得新得知識或者價值。下面,我們來熟悉一些利用大數據創(chuàng)造價值的典型分析應用案例,來了解真實的大數據分析數據源。14.2.1大數據幫零售企業(yè)制定促銷策略北美零售商百思買在北美的銷售活動非常活躍,產品總數達到3萬多種,產品的價格也隨地區(qū)和市場條件而異。由于產品種類繁多,成本變化比較頻繁,一年之中變化可達四次之多。結果,每年的調價次數高達12萬次。最讓高管頭疼的是定價促銷策略。公司組成了一個11人的團隊,希望透過分析消費者的購買記錄和相關信息,提高定價的準確度和響應速度。定價團隊的分析圍繞著三個關鍵維度:·數量:團隊需要分析海量信息。他們收集了上千萬的消費者的購買記錄,從客戶不同維度分析,了解客戶對每種產品種類的最高接受能力,從而為產品定出最佳價位。·多樣性:團隊除了分析購買記錄這種結構化數據之外,他們也利用社交媒體發(fā)帖這種新型的非結構化數據。由于消費者需要在零售商專頁上點贊或留言以獲得優(yōu)惠券,團隊利用情感分析公式來分析專頁上消費者的情緒,從而判斷他們對于公司的促銷活動是否滿意,并微調促銷策略。·速度:為了實現價值最大化,團隊對數據進行實時或近似實時的處理。他們成功地根據一個消費者既往的麥片購買記錄,為身處超市麥片專柜的他/她即時發(fā)送優(yōu)惠券,為客戶帶來便利性和驚喜。透過這一系列的活動,團隊提高了定價的準確度和響應速度,為零售商新增銷售額和利潤數千萬美元。14.2.2電信公司通過大數據分析挽回核心客戶法國電信-Orange集團旗下的波蘭電信公司TelekomunikacjaPolska是波蘭最大的語音和寬帶固網供應商,希望通過有效的途徑來準確預測并解決客戶流失問題。他們決定進行客戶細分,方法是構建一張“社交圖譜”——分析客戶數百萬個電話的數據記錄,特別關注“誰給誰打了電話”以及“打電話的頻率”兩個方面?!吧缃粓D譜”把公司用戶分成幾大類,如:“聯(lián)網型”、“橋梁型”、“領導型”以及“跟隨型”。這樣的關系數據有助電信服務供應商深入洞悉一系列問題,如:哪些人會對可能“棄用”公司服務的客戶產生較大的影響?挽留最有價值客戶的難度有多大?運用這一方法,公司客戶流失預測模型的準確率提升了47%。14.2.3大數據幫能源企業(yè)設置發(fā)電機地點丹麥的維斯塔斯風能系統(tǒng)運用大數據,分析出應該在哪里設置渦輪發(fā)電機,事實上這是風能領域的重大挑戰(zhàn)。在一個風電場20多年的運營過程中,準確的定位能幫助工廠實現能源產出的最大化。為了鎖定最理想的位置,維斯塔斯分析了來自各方面的信息:風力和天氣數據、湍流度、地形圖、公司遍及全球的2.5萬多個受控渦輪機組發(fā)回的傳感器數據。這樣一套信息處理體系賦予了公司獨特的競爭優(yōu)勢,幫助其客戶實現投資回報的最大化。(使用本案例時,可以對設置發(fā)電機的地點做各種假設。)14.2.4電商企業(yè)通過大數據制定銷售戰(zhàn)略國內知名母嬰電商寶寶樹的辦法簡單直接,它直接購買了一款數據可視化分析軟件用戶BI。這個軟件可以快速分析海量數據,快速響應不同需求,即時生成復雜報表。寶寶樹在用戶BI平臺上,通過拖拉拽操作,生成關聯(lián)不同指標的分析模型,包括環(huán)比、同比、用戶快照分析、沉睡率、喚醒率、平均回購周期等。在這些關鍵數據的基礎上,寶寶樹的分析團隊再來做進一步的分析,比如上周有多少新用戶?新推出的產品收入怎樣?上月的新用戶這個月的購買表現如何?用戶的平均回購周期相對環(huán)比是縮短了還是延長了?各渠道引流占比有何變化?……基于對這些問題的全面回答,他們不斷制定和調整產品和銷售戰(zhàn)略。一次,寶寶樹發(fā)現關鍵詞排序報表上多了污染這個詞,就想到空氣凈化器可能會火,于是在B端找到客戶投放廣告,大獲成功。現在空氣凈化器市場基本被母嬰電商壟斷。14.3案例分析與課程實踐要求大數據領域的價值創(chuàng)造機會因行業(yè)而異。在零售業(yè),先進的分析方法往往與戰(zhàn)略相得益彰,涵蓋促銷增效、定價、門店選址、市場營銷等多個領域。而在能源行業(yè),大數據的價值創(chuàng)造重點更體現在對實體資產(如設備和工廠)的優(yōu)化上。在金融服務業(yè),大數據的應用可能會體現在風險評分、動態(tài)定價以及為ATM和分行網點尋找最佳地點等方面。而在保險業(yè),大數據的價值可能體現在防范理賠欺詐、優(yōu)化保險金給付以及跟蹤駕駛行為等方面??偟膩碚f,大數據的終極目標并不僅僅是改變,而是徹底扭轉整個競爭環(huán)境,帶來新機遇,企業(yè)需要應勢而變。企業(yè)只有認識到這一點,使用合適的數據分析產品、聰明地使用和管理數據,才能在長期競爭中成為終極贏家。本次大數據分析課程實踐的基本要求是:在給出的上述4個案例中選擇一例,或者安排自選項目,但自選項目需要補充類似于上述案例的項目說明。以選定案例為基礎,從本課程學習的大數據分析的一個或多個知識點入手,撰寫一份“某大數據分析項目關于某個方面的大數據分析實踐報告”,報告篇幅至少A4紙一頁以上。14.3.1角色選擇請記錄:在完成本次課程實踐的活動中,你為自己設計的大數據分析用戶角色是(?):□超級分析師 □數據科學家 □業(yè)務分析師 □分析使用者角色描述:________________________________________________________________________________________________________________________________________________________________________________________________________________________________________14.3.2項目選擇請在上述推薦的項目中選擇一個作為本次課程實踐的案例(或者自選)。請記錄:項目名稱是:__________________________________________________________分析項目選擇項目所涉及的大數據分析知識點(勾選?):分析意義生命周期分析原則分析路線分析運用分析用例分析方法分析技術分析模型工具平臺零售企業(yè)電信公司裝機地點銷售戰(zhàn)略自選14.3.3實踐項目的背景說明______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________14.3.4分知識點要點簡述(與上表對應,至少兩項)______________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________________1

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論