《商業(yè)分析實務(wù)》商業(yè)分析的數(shù)據(jù)環(huán)境_第1頁
《商業(yè)分析實務(wù)》商業(yè)分析的數(shù)據(jù)環(huán)境_第2頁
《商業(yè)分析實務(wù)》商業(yè)分析的數(shù)據(jù)環(huán)境_第3頁
《商業(yè)分析實務(wù)》商業(yè)分析的數(shù)據(jù)環(huán)境_第4頁
《商業(yè)分析實務(wù)》商業(yè)分析的數(shù)據(jù)環(huán)境_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

商業(yè)分析的數(shù)據(jù)環(huán)境數(shù)據(jù)和數(shù)據(jù)類型數(shù)據(jù)獲取分析類型與數(shù)據(jù)需求企業(yè)數(shù)據(jù)資源開發(fā)利用01數(shù)據(jù)和數(shù)據(jù)類型數(shù)據(jù)數(shù)據(jù)的出現(xiàn)和被人類所利用,可以追溯到三千多年前的古代。人類在農(nóng)業(yè)社會中,古埃及法老在尼羅河邊的石柱上留下每年測量尼羅河水位的刻度,以此來觀測來年可能的稅收數(shù)量。古代中國早在漢代就有人口普查和田畝統(tǒng)計,用于稅收政策的制定。在古拉丁文中,它被稱為Datum,其復(fù)數(shù)形式為data,指的是內(nèi)涵確定、定義明確、毫無歧義的東西,中文,我們稱之為數(shù)據(jù)。數(shù)據(jù)內(nèi)容主題屬性狀態(tài)數(shù)據(jù)的基礎(chǔ)謂語對主題屬性的描述數(shù)據(jù)數(shù)字與數(shù)據(jù)數(shù)字是普適性的概念,是對一切事物的數(shù)量性質(zhì)的表達。數(shù)據(jù)則是具體性的概念,是對一個事物的數(shù)量性質(zhì)的表達。對一個事物可以有多種數(shù)據(jù)表達形式,取決于人們的認識程度和使用目的。對一個事物的數(shù)據(jù)表達越多,對這個事物的定義越精準,人們對這個事物的認識就越深入,可利用程度就越高數(shù)據(jù)和信息兩個術(shù)語密切相關(guān),事實上,它們常常被互換使用。信息可以定義為以某種方式處理過的數(shù)據(jù)。處理數(shù)據(jù)的目的是為了使數(shù)據(jù)使用者增加知識。數(shù)據(jù)是使用約定俗成的字符,對客觀事物的數(shù)量、屬性、位置及其相互關(guān)系進行抽象表示,可以用人工或自然方式進行保存、傳遞和處理。信息與數(shù)據(jù)相比,除了具有自然屬性或社會屬性,還包括價值判斷,尤其是社會價值判斷。數(shù)據(jù)類型大數(shù)據(jù)分析是大數(shù)據(jù)理念與方法的核心,是指對海量、類型多樣、增長快速且內(nèi)容真實的數(shù)據(jù)(即大數(shù)據(jù))進行分析,從中找出可以幫助決策的隱藏模式、未知的相關(guān)關(guān)系以及其他有用信息的過程。通過處理穩(wěn)定的實時數(shù)據(jù)流,組織可更加快速地做出時間敏感的決策、監(jiān)控最新趨勢、快速調(diào)整方向并抓住新時機。而這些需要對不同類型的數(shù)據(jù)進行分類并且處理。傳統(tǒng)的數(shù)據(jù)分類一般將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)記錄了生產(chǎn)、業(yè)務(wù)、交易和客戶信息等。結(jié)構(gòu)化數(shù)據(jù)涵蓋了更為廣泛的內(nèi)容,包括了如合約、發(fā)票、書信與采購記錄等營運內(nèi)容;如文書處理、電子表格、簡報檔案與電子郵件等業(yè)務(wù)內(nèi)容;如HTML與XML等格式信息的Web內(nèi)容;以及如聲音、影片、圖形等多媒體內(nèi)容。數(shù)據(jù)類型1.從描述和度量事物的角度將數(shù)據(jù)分為定量和定性數(shù)據(jù)數(shù)值只能用自然數(shù)或整數(shù)單位計算。數(shù)據(jù)定量數(shù)據(jù)定性數(shù)據(jù)連續(xù)離散有序名義連續(xù)數(shù)據(jù)取值可以是在某一區(qū)間的任一實數(shù),通常稱這類資料是連續(xù)的,或考察的指標是連續(xù)的。有序的是指有些資料既不能計量,也不能計數(shù),只能通過比較,評出一個順序,如學(xué)歷。名義數(shù)據(jù)是指,有些資料僅僅是一個名義值,值的順序和大小并無統(tǒng)計意義。如性別,不同顏色的編號,不同書籍的代碼等等。數(shù)據(jù)類型2、結(jié)合應(yīng)用場景可以分為以下四種數(shù)據(jù)類型(1)記錄集數(shù)據(jù)。記錄集數(shù)據(jù),顧名思義,就是數(shù)據(jù)的集合。一般是經(jīng)過匯總的數(shù)據(jù)集合。可以導(dǎo)入數(shù)據(jù)庫等工具進行直接的運算和分析。常見的記錄集數(shù)據(jù)如客戶數(shù)據(jù)的記錄集,事務(wù)數(shù)如對一件事情的記錄、數(shù)據(jù)矩陣以及文檔詞矩陣等經(jīng)過匯總的數(shù)據(jù)集。這一類數(shù)據(jù)通常具有明確的指向性,可以抽取樣本進行直接的分析。(2)有序的數(shù)據(jù)。有序的數(shù)據(jù)是按照一定順序排列的數(shù)據(jù)。其數(shù)據(jù)特征一般存在于不同時間階段的特征變化之中。一般而言具有較為單一的數(shù)據(jù)屬性。常見有四種數(shù)據(jù)類型:時序事務(wù)數(shù)據(jù),基因組序列數(shù)據(jù),溫度時間序列數(shù)據(jù),空間溫度序列數(shù)據(jù)。這些數(shù)據(jù)不能隨意排列,需要按照順序進行分析。序列分析通常能夠發(fā)現(xiàn)數(shù)據(jù)的變動規(guī)律,從而對數(shù)據(jù)的動向進行預(yù)測。數(shù)據(jù)類型(3)文本類與WEB數(shù)據(jù)。文本類與web數(shù)據(jù)是隨著互聯(lián)網(wǎng)的發(fā)展產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。文本和web數(shù)據(jù)由來自各種數(shù)據(jù)源的大量文檔組成,如新聞文章、研究論文、書籍、數(shù)字圖書館、電子郵件消息和web頁面信息。其增長速度快,包含的信息量大,信息挖掘的難度也大。在數(shù)據(jù)分析領(lǐng)域,文本數(shù)據(jù)的分析是一個重要的方向,包括主題識別和情感分析等。(4)多媒體類數(shù)據(jù)。文本類的數(shù)據(jù)帶來了數(shù)據(jù)挖掘的價值,而多媒體數(shù)據(jù)的挖掘技術(shù)將數(shù)據(jù)分析提上了新的臺階。目前的多媒體數(shù)據(jù)主要有圖像、聲音和視頻。多媒體的數(shù)據(jù)分析與文本數(shù)據(jù)等不同,目前其應(yīng)用已經(jīng)得到一定的推廣,如音樂辨識、語音識別、基于圖像的搜索等等。早有企業(yè)將其觸角深入這個領(lǐng)域之中,如我國第一家多媒體數(shù)據(jù)庫,國道數(shù)據(jù)多媒體特色專題數(shù)據(jù)庫。02數(shù)據(jù)獲取互聯(lián)網(wǎng)數(shù)據(jù)獲取網(wǎng)絡(luò)爬蟲(又常被稱為網(wǎng)絡(luò)蜘蛛、或Spider/Crawler系統(tǒng))是一種按照一定規(guī)則,自動抓取萬維網(wǎng)信息的程序或者腳本,是最常用的外部網(wǎng)絡(luò)數(shù)據(jù)抓取技術(shù)。網(wǎng)絡(luò)爬蟲可以自動提取網(wǎng)頁的源碼,根據(jù)網(wǎng)頁結(jié)構(gòu)來篩選網(wǎng)頁中的數(shù)據(jù)。從功能上來講,爬蟲一般分為數(shù)據(jù)采集,處理,儲存三個部分。網(wǎng)絡(luò)爬蟲的執(zhí)行程序主過程控制器解析器資源庫負責給多線程中的各個爬蟲線程分配工作任務(wù)下載網(wǎng)頁,進行頁面的處理存放下載到的網(wǎng)頁資源,并對其建立索引移動互聯(lián)網(wǎng)數(shù)據(jù)獲取SDK(軟件開發(fā)工具包,SoftwareDevelopmentKit)是輔助開發(fā)軟件所需的相關(guān)文檔、范例和工具的集合。它可以簡單地為某個程序設(shè)計語言提供應(yīng)用程序接口API的一些文件,也可以包括能與某種嵌入式系統(tǒng)通訊的復(fù)雜的硬件。移動SDK是指嵌入移動平臺的SDK應(yīng)用。一般而言,SDK可以通過移動設(shè)備進行更加精確、實時的數(shù)據(jù)采集與數(shù)據(jù)分析,來滿足用戶對數(shù)據(jù)采集、無線數(shù)據(jù)傳輸與移動智能運算的需求。移動SDK常用于統(tǒng)計APP的基礎(chǔ)數(shù)據(jù):用戶數(shù)、活躍情況、流失用戶比例、使用時長等。移動SDK的平臺支持andriod和ios平臺。目前,移動SDK已經(jīng)接入到如微博、Google移動廣告、移動游戲、移動支付、移動地圖等應(yīng)用軟件平臺。物聯(lián)網(wǎng)數(shù)據(jù)獲取1.物聯(lián)網(wǎng)與傳感器無線傳感器網(wǎng)絡(luò)具有以下功能,它能夠?qū)崟r監(jiān)測各種環(huán)境參數(shù)并且監(jiān)測監(jiān)控對象的信息,并傳送到用戶,用戶再對這些信息進行處理。無線傳感器網(wǎng)絡(luò)可以實時監(jiān)測區(qū)域內(nèi)的各種監(jiān)測目標的參數(shù),并可以處理采集數(shù)據(jù),從收集到的原始數(shù)據(jù)分析得到人們想獲得的抽象的信息。傳感器網(wǎng)絡(luò)會產(chǎn)生大量的監(jiān)測數(shù)據(jù)。每個傳感器節(jié)點都會生成大量的數(shù)據(jù)流,這些數(shù)據(jù)流數(shù)據(jù)量大實時性要求高。在有限的節(jié)點處理能力情況下,需要人工處理一些實時監(jiān)測數(shù)據(jù)。傳感器網(wǎng)絡(luò)是以數(shù)據(jù)作為中心,終端系統(tǒng)可單獨地加入互連網(wǎng)絡(luò)中。在Intenet網(wǎng)上,要訪問網(wǎng)絡(luò)中的任何資源,你必須知道它的網(wǎng)絡(luò)地址。在互聯(lián)網(wǎng)中,網(wǎng)絡(luò)中每個終端系統(tǒng)的地址與一個唯一的地址對應(yīng)。無線傳感器網(wǎng)絡(luò)中的單獨的的傳感器節(jié)并沒有任何意義。網(wǎng)絡(luò)獲得用戶所需要的信息后將其返回給用戶。物聯(lián)網(wǎng)數(shù)據(jù)獲取2.物聯(lián)網(wǎng)與無線射頻物聯(lián)網(wǎng)內(nèi)涵的變化:定義1:物聯(lián)網(wǎng)是未來網(wǎng)絡(luò)的整合部分,它是以標準、互通的通信協(xié)議為基礎(chǔ),具有自我配置能力的全球性動態(tài)網(wǎng)絡(luò)設(shè)施。在這個網(wǎng)絡(luò)中,所有實質(zhì)和虛擬的物品都有特定的編碼和物理特性,通過智能界面無縫鏈接,實現(xiàn)信息共享。定義2:由具有標識、虛擬個性的物體/對象所組成的網(wǎng)絡(luò),這些標識和個性運行在智能空間,使用智慧的接口與用戶、社會和環(huán)境的上下文進行連接和通信。定義3:物聯(lián)網(wǎng)指通過信息傳感設(shè)備,按照約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進行信息交換和通信,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò)。它是在互聯(lián)網(wǎng)基礎(chǔ)上延伸和擴展的網(wǎng)絡(luò)以無線傳感網(wǎng)絡(luò)和云計算為核心,內(nèi)涵包括無處不在的數(shù)據(jù)采集、可靠的數(shù)據(jù)傳輸和信息處理以及智能化的信息應(yīng)用物聯(lián)網(wǎng)數(shù)據(jù)獲取產(chǎn)品、商品等物體不可讀信息可見信息無線射頻識別(RFID)技術(shù)非數(shù)據(jù)信息數(shù)據(jù)信息RFID能遠距離識別信息,且不同于早期的條碼技術(shù),它不需要可見的線來識別。RFID標簽與條形碼相比支持更大數(shù)量集的唯一的ID標識符,而且可以與一些增加一些附加信息如制造商、產(chǎn)品類型甚至環(huán)境因素測量如溫度等??梢宰R別同一個區(qū)域的多個不同的標簽。其他數(shù)據(jù)獲取途徑傳統(tǒng)的數(shù)據(jù)采集方法:調(diào)查法、觀察法、實驗法和現(xiàn)有資料查詢以及網(wǎng)絡(luò)查詢等。數(shù)據(jù)收集包括一手數(shù)據(jù)和二手數(shù)據(jù)的收集。一手數(shù)據(jù)是指原始的數(shù)據(jù),通過調(diào)查、觀察和實驗獲取數(shù)據(jù)。調(diào)查普查抽樣調(diào)查適用于對每個單位資料的統(tǒng)計調(diào)查,如人口普查從總體中抽取一小部分個體,通過抽取的樣本來推斷總體。抽樣調(diào)查的應(yīng)用范圍非常廣泛,例如調(diào)查商品市場、金融市場情況等觀察法調(diào)查人員直接或利用儀器在現(xiàn)場觀察調(diào)查對象的活動,通過觀察對象來收集資料的方法。不能被被調(diào)查者覺察,適用于任何人都可以接觸的數(shù)據(jù),或者可以直接以觀察獲得數(shù)據(jù)的情況。如車站人流統(tǒng)計、交通流量、貨架上的價格標識等。實驗法研究者在研究領(lǐng)域內(nèi),為發(fā)現(xiàn)一個特定過曾或系統(tǒng)的某些現(xiàn)象或規(guī)律,而設(shè)計的一系列實驗。03分析類型與數(shù)據(jù)需求分析類型與數(shù)據(jù)需求用戶類別與分析類型用戶類別分析專家業(yè)務(wù)經(jīng)理所有員工分析類型報表級的分析多維分析專題分析數(shù)據(jù)挖掘企業(yè)級報表企業(yè)的報表分析,也稱企業(yè)的財務(wù)分析。是通過收集、整理企業(yè)財務(wù)會計報告中的有關(guān)數(shù)據(jù),并結(jié)合其他有關(guān)補充信息,對企業(yè)的財務(wù)狀況、經(jīng)營成果和現(xiàn)金流量情況進行綜合比較和評價,為財務(wù)會計報告使用者提供管理決策和控制依據(jù)的一項管理工作。具體的分析方向主要從企業(yè)的償債能力、資本結(jié)構(gòu)分析、經(jīng)營效率分析、盈利能力分析、現(xiàn)金保障能力分析和利潤構(gòu)成分析。單個年度的財務(wù)比率分析不同時期的比較分析與同行業(yè)其他公司之間的比較多維分析多維分析是對多維空間的數(shù)據(jù)進行分析。用戶通過在數(shù)據(jù)立方體上進行切片、切塊、鉆取、旋轉(zhuǎn)等操作實現(xiàn)多角度多力度了解數(shù)據(jù),將數(shù)據(jù)轉(zhuǎn)化為信息的過程。切片從數(shù)據(jù)立方體中切出一個截面來,對數(shù)據(jù)進行降維處理。其中一個維度定為一個固定的值,多維數(shù)據(jù)從N維降為N-1維。根據(jù)剩余的N-1維對數(shù)據(jù)進行展現(xiàn)。切塊從數(shù)據(jù)立方體中切出子立方體。這是通過限定各個維的范圍實現(xiàn)的。鉆取改變維的層次,變換分析的粒度。它包括,向上鉆取和向下鉆取。向下鉆取是從粗粒度深度深入到細粒度觀察數(shù)據(jù)。向上鉆取是從細粒度擴展到粗粒度觀察數(shù)據(jù)。旋轉(zhuǎn)將維度在行和列的位置進行變換,改變觀察的角度。旋轉(zhuǎn)操作可以使用戶改變一個報告或頁面顯示的維的方向。旋轉(zhuǎn)最常見的形式是在報告顯示中將某一行維轉(zhuǎn)移到列維上去。通過旋轉(zhuǎn)操作,用戶可以對多維分析結(jié)果的顯示方式進行調(diào)整,以達到準確、直觀的目的。多維分析OLAP分析,即聯(lián)機分析處理,它以多維分析為基礎(chǔ),在建立好數(shù)據(jù)倉庫的基礎(chǔ)之上利用多維數(shù)據(jù)庫模型使得原來隱藏在這些紛繁復(fù)雜的數(shù)據(jù)后面的信息具體化、可視化。傳統(tǒng)的OLAP系統(tǒng)中,為減少數(shù)據(jù)冗余,消除關(guān)鍵數(shù)據(jù)操作(插入、刪除、更新)可能引發(fā)的異常,需要對關(guān)系進行一定程度的分解。OLAP的核心:多維數(shù)據(jù)處理,通過多維分析查詢,用戶可以從多角度、多側(cè)面地觀察數(shù)據(jù)庫中的數(shù)據(jù),從而深人地了解包含在數(shù)據(jù)中的信息和內(nèi)涵,找出各種因素對測量指標的影響。多維分析視圖就是沖破了物理的三維概念,采用了旋轉(zhuǎn)、切片、切塊、鉆取等可視化技術(shù),在屏幕上展示多維視圖的結(jié)構(gòu),使用戶能直觀地理解和分析數(shù)據(jù)。多維分析的典型操作專題分析企業(yè)專題分析就是針對企業(yè)生產(chǎn)經(jīng)營活動中的某項專門問題所進行的分析。如企業(yè)的計劃執(zhí)行情況、產(chǎn)品質(zhì)量情況、勞動時間利用情況、資金占用情況等等。專題分析師在多維分析的基礎(chǔ)上,對企業(yè)信息的一個方面進行深入的信息提煉和信息比較,緊扣企業(yè)的業(yè)務(wù)熱點,對企業(yè)經(jīng)營提出相關(guān)的行動建議。一般在商業(yè)分析中,企業(yè)專題分析處于較高的層次,其面向的是某個特定應(yīng)用,鉆取企業(yè)的細節(jié)數(shù)據(jù),從而產(chǎn)生行動建議。數(shù)據(jù)挖掘數(shù)據(jù)挖掘就其定義而言,是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘?qū)儆谏虡I(yè)分析的較高層次,既是一種手段,也是一個目標。數(shù)據(jù)挖掘主要面向決策,從海量數(shù)據(jù)中挖掘潛在的、無法直觀得出的結(jié)論。數(shù)據(jù)挖掘模式的特征:通用性。要求其分析具有延伸意義,對新數(shù)據(jù)同樣適用。新穎性。表示該模式是深層次的,挖掘結(jié)果可能會打破先有認知。有效性。表示這種挖掘可以指導(dǎo)實際的行動。數(shù)據(jù)挖掘的模型部署04企業(yè)數(shù)據(jù)資源開發(fā)利用企業(yè)數(shù)據(jù)資源開發(fā)利用大數(shù)據(jù)在銀行業(yè)的應(yīng)用主要體現(xiàn)在四個方面:客戶畫像、運營優(yōu)化、精準營銷、風(fēng)險管控。第一方面:客戶畫像應(yīng)用??蛻舢嬒駪?yīng)用主要分為個人客戶畫像和企業(yè)客戶畫像。個人客戶畫像包括人口統(tǒng)計學(xué)特征、消費能力數(shù)據(jù)、興趣數(shù)據(jù)、風(fēng)險偏好等;企業(yè)客戶畫像包括企業(yè)的生產(chǎn)、流通、運營、財務(wù)、銷售和客戶數(shù)據(jù)、相關(guān)產(chǎn)業(yè)鏈上下游等數(shù)據(jù)。值得注意的是,銀行擁有的客戶信息并不全面,基于銀行自身擁有的數(shù)據(jù)有時候難以得出理想的結(jié)果甚至可能得出錯誤的結(jié)論。所以銀行不僅僅要考慮銀行自身業(yè)務(wù)所采集到的數(shù)據(jù),更應(yīng)考慮整合外部更多的數(shù)據(jù),以加深對客戶的了解。包括:1、客戶在社交媒體上的行為數(shù)據(jù)。2、客戶在電商網(wǎng)站的交易數(shù)據(jù)。3、企業(yè)客戶

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論