財(cái)務(wù)大數(shù)據(jù)分析 課件 (趙素娟)項(xiàng)目1-3 認(rèn)識(shí)大數(shù)據(jù)技術(shù)在財(cái)務(wù)領(lǐng)域的應(yīng)用;大數(shù)據(jù)采集、清洗與集成;可視化分析_第1頁(yè)
財(cái)務(wù)大數(shù)據(jù)分析 課件 (趙素娟)項(xiàng)目1-3 認(rèn)識(shí)大數(shù)據(jù)技術(shù)在財(cái)務(wù)領(lǐng)域的應(yīng)用;大數(shù)據(jù)采集、清洗與集成;可視化分析_第2頁(yè)
財(cái)務(wù)大數(shù)據(jù)分析 課件 (趙素娟)項(xiàng)目1-3 認(rèn)識(shí)大數(shù)據(jù)技術(shù)在財(cái)務(wù)領(lǐng)域的應(yīng)用;大數(shù)據(jù)采集、清洗與集成;可視化分析_第3頁(yè)
財(cái)務(wù)大數(shù)據(jù)分析 課件 (趙素娟)項(xiàng)目1-3 認(rèn)識(shí)大數(shù)據(jù)技術(shù)在財(cái)務(wù)領(lǐng)域的應(yīng)用;大數(shù)據(jù)采集、清洗與集成;可視化分析_第4頁(yè)
財(cái)務(wù)大數(shù)據(jù)分析 課件 (趙素娟)項(xiàng)目1-3 認(rèn)識(shí)大數(shù)據(jù)技術(shù)在財(cái)務(wù)領(lǐng)域的應(yīng)用;大數(shù)據(jù)采集、清洗與集成;可視化分析_第5頁(yè)
已閱讀5頁(yè),還剩97頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

財(cái)務(wù)大數(shù)據(jù)分析項(xiàng)目一認(rèn)識(shí)財(cái)務(wù)大數(shù)據(jù)技術(shù)在財(cái)務(wù)領(lǐng)域的應(yīng)用前言世界正經(jīng)歷百年未有之大變局,特別是突如其來(lái)的新冠肺炎疫情為各行各業(yè)帶來(lái)了前所未有的挑戰(zhàn)。然而,危機(jī)之中,數(shù)字化技術(shù)驅(qū)動(dòng)的技術(shù)和產(chǎn)業(yè)變革仍加速發(fā)展,大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)和應(yīng)用逆勢(shì)而上,數(shù)據(jù)的作用在助力疫情防控和復(fù)工復(fù)產(chǎn)中大放異彩。2020年2月,在工業(yè)和信息化部領(lǐng)導(dǎo)下,中國(guó)信通院、中國(guó)電信、中國(guó)移動(dòng)、中國(guó)聯(lián)通共同推出“通信大數(shù)據(jù)行程卡”,并在國(guó)務(wù)院客戶端微信小程序上線,為全國(guó)16億手機(jī)用戶免費(fèi)提供14天內(nèi)所到地市信息的查詢服務(wù)。通信大數(shù)據(jù)行程卡的技術(shù)原理是分析手機(jī)“信令數(shù)據(jù)”,獲取用戶設(shè)備所在位置信息。。目錄頁(yè)認(rèn)知財(cái)務(wù)大數(shù)據(jù)的數(shù)據(jù)范圍與特征了解財(cái)務(wù)大數(shù)據(jù)的應(yīng)用場(chǎng)景熟悉財(cái)務(wù)大數(shù)據(jù)分析方法論

PART01任務(wù)一認(rèn)知財(cái)務(wù)大數(shù)據(jù)的數(shù)據(jù)范圍與特征任務(wù)一

認(rèn)知財(cái)務(wù)大數(shù)據(jù)的數(shù)據(jù)范圍與特征全球領(lǐng)先的管理咨詢公司麥肯錫給出的大數(shù)據(jù)定義是:“一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征?!币?、大數(shù)據(jù)的概念大數(shù)據(jù)的發(fā)展過(guò)程大致分為三個(gè)階段:?(1)萌芽時(shí)期(20世紀(jì)90年代至21世紀(jì)初(2)發(fā)展時(shí)期(21?世紀(jì)初至2010?年)(3)興盛時(shí)期(2011?年至今)二、大數(shù)據(jù)發(fā)展歷程三、大數(shù)據(jù)特征三、大數(shù)據(jù)特征大數(shù)據(jù)的特征麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合。主要具有以下4個(gè)方面的典型特征,即大量(Volume)、多樣(Variety)、高速(Velocity)和價(jià)值(Value),即所謂的4V。任務(wù)一

認(rèn)知財(cái)務(wù)大數(shù)據(jù)的數(shù)據(jù)范圍與特征Velocity(高速)Value(價(jià)值)Variety(多樣)Volume(大量)大數(shù)據(jù)的特征首先就是數(shù)據(jù)規(guī)模大。數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。數(shù)據(jù)來(lái)源的廣泛性,決定了數(shù)據(jù)形式的多樣性數(shù)據(jù)的核心特征是價(jià)值,其實(shí)價(jià)值密度的高低和數(shù)據(jù)總量的大小是成反比的,即數(shù)據(jù)價(jià)值密度越高數(shù)據(jù)總量越小,數(shù)據(jù)價(jià)值密度越低數(shù)據(jù)總量越大任務(wù)一

認(rèn)知財(cái)務(wù)大數(shù)據(jù)的數(shù)據(jù)范圍與特征%010302(一)結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)也稱作行數(shù)據(jù),是由二維表結(jié)構(gòu)來(lái)邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫(kù),面向?qū)ο髷?shù)據(jù)庫(kù)中的數(shù)據(jù))和完全無(wú)結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)是指其字段長(zhǎng)度可變,并且每個(gè)字段的記錄又可以由可重復(fù)或不可重復(fù)的子字段構(gòu)成的數(shù)據(jù)庫(kù)。四、大數(shù)據(jù)分類(二)非結(jié)構(gòu)化數(shù)據(jù)(三)半結(jié)構(gòu)化數(shù)據(jù)任務(wù)一

認(rèn)知財(cái)務(wù)大數(shù)據(jù)的數(shù)據(jù)范圍與特征

PART01任務(wù)二了解財(cái)務(wù)大數(shù)據(jù)的應(yīng)用場(chǎng)景大數(shù)據(jù)可針設(shè)備故障分析及預(yù)測(cè),優(yōu)化設(shè)備維修計(jì)劃;設(shè)備劣化傾向分析,提出預(yù)測(cè)性維修建議;維修情況分析,優(yōu)化維修計(jì)劃及人員配置;設(shè)備狀態(tài)實(shí)時(shí)分析,優(yōu)化設(shè)備運(yùn)維計(jì)劃;部件出入庫(kù)分析和預(yù)測(cè),優(yōu)化備件購(gòu)置計(jì)劃;大大降低企業(yè)承擔(dān)設(shè)備故障帶來(lái)的經(jīng)營(yíng)風(fēng)險(xiǎn)。一、大數(shù)據(jù)的典型應(yīng)用場(chǎng)景任務(wù)二了解財(cái)務(wù)大數(shù)據(jù)的應(yīng)用場(chǎng)景(一)制造業(yè)的設(shè)備故障預(yù)測(cè)(二)零售業(yè)的精準(zhǔn)營(yíng)銷方案將客戶行為整理成數(shù)據(jù),構(gòu)建客戶優(yōu)選模型,根據(jù)客戶價(jià)值、忠誠(chéng)度對(duì)客戶進(jìn)行分群,定位和優(yōu)選客戶,找到準(zhǔn)確的營(yíng)銷對(duì)象,解決“您的客戶是誰(shuí)”的問(wèn)題。分析客戶特征,行為數(shù)據(jù),構(gòu)建產(chǎn)品推薦模型,搭建大數(shù)據(jù)智能推薦系統(tǒng),精準(zhǔn)推薦,解決“客戶需要什么產(chǎn)品”的問(wèn)題。如京東作為國(guó)內(nèi)大規(guī)模的零售企業(yè),很早就開(kāi)始布局大數(shù)據(jù)挖掘和應(yīng)用,建立了從大數(shù)據(jù)基礎(chǔ)平臺(tái)、挖掘工具、知識(shí)畫(huà)像體系到智能商業(yè)應(yīng)用的完整體系。在京東用戶行為日志中,每天記錄著數(shù)以億計(jì)的用戶來(lái)訪及海量行為。京東通過(guò)對(duì)用戶行為數(shù)據(jù)進(jìn)行分析和挖掘,發(fā)掘用戶的偏好,逐步勾勒出用戶的畫(huà)像。將用戶畫(huà)像模型充分應(yīng)用到產(chǎn)品當(dāng)中,根據(jù)族群的差異化特征,幫助業(yè)務(wù)部門找到營(yíng)銷機(jī)會(huì)、運(yùn)營(yíng)方向,全面提高產(chǎn)品的核心影響力,增強(qiáng)產(chǎn)品用戶體驗(yàn)。如圖1-2-1所示。任務(wù)二了解財(cái)務(wù)大數(shù)據(jù)的應(yīng)用場(chǎng)景構(gòu)建分析體系整合生產(chǎn)、銷售、庫(kù)存、應(yīng)收、應(yīng)付、回款等數(shù)據(jù),形成以財(cái)務(wù)結(jié)果為核心的經(jīng)營(yíng)監(jiān)控和風(fēng)險(xiǎn)預(yù)警體系。為企業(yè)構(gòu)建需求計(jì)劃預(yù)測(cè)、客戶購(gòu)買行為預(yù)測(cè)、銷售預(yù)測(cè)等業(yè)務(wù)分析模型,促進(jìn)企業(yè)控制成本、提高利潤(rùn)率。(三)企業(yè)管理(四)醫(yī)療大數(shù)據(jù)醫(yī)療行業(yè)擁有大量的病例,病理報(bào)告,治愈方案,藥物報(bào)告等等。如果這些數(shù)據(jù)可以被整理和應(yīng)用將會(huì)極大地幫助醫(yī)生和病人。在制定治療方案時(shí),醫(yī)生可以依據(jù)病人的基因特點(diǎn),調(diào)取相似基因、年齡、人種、身體情況相同的有效治療方案,制定出適合病人的治療方案,幫助更多人及時(shí)進(jìn)行治療。任務(wù)二了解財(cái)務(wù)大數(shù)據(jù)的應(yīng)用場(chǎng)景大數(shù)據(jù)在金融行業(yè)的應(yīng)用可以總結(jié)為以下3個(gè)方面:精準(zhǔn)營(yíng)銷:依據(jù)客戶消費(fèi)習(xí)慣、地理位置、消費(fèi)時(shí)間進(jìn)行推薦;風(fēng)險(xiǎn)管控:依據(jù)客戶消費(fèi)和現(xiàn)金流提供信用評(píng)級(jí)或融資支持,利用客戶社交行為記錄實(shí)施信用卡反欺詐;效率提升:利用金融行業(yè)全局?jǐn)?shù)據(jù)了解業(yè)務(wù)運(yùn)營(yíng)薄弱點(diǎn),利用大數(shù)據(jù)技術(shù)加快內(nèi)部數(shù)據(jù)處理速度。(五)金融大數(shù)據(jù)(六)智慧交通科學(xué)的安排信號(hào)燈是一個(gè)復(fù)雜的系統(tǒng)工程,必須利用大數(shù)據(jù)計(jì)算平臺(tái)才能計(jì)算出一個(gè)較為合理的方案。科學(xué)的信號(hào)燈安排將會(huì)提高30%左右已有道路的通行能力。機(jī)場(chǎng)的航班起降依靠大數(shù)據(jù)將會(huì)提高航班管理的效率,航空公司利用大數(shù)據(jù)可以提高上座率,降低運(yùn)行成本。鐵路利用大數(shù)據(jù)可以有效安排客運(yùn)和貨運(yùn)列車,提高效率、降低成本。任務(wù)二了解財(cái)務(wù)大數(shù)據(jù)的應(yīng)用場(chǎng)景1.企業(yè)運(yùn)營(yíng)預(yù)算更加精確2.企業(yè)贏利和風(fēng)險(xiǎn)規(guī)避更有保障3.企業(yè)資金籌備更具穩(wěn)定性4.企業(yè)財(cái)務(wù)管理更具創(chuàng)新性5.企業(yè)財(cái)務(wù)管理更加科學(xué)化任務(wù)二了解財(cái)務(wù)大數(shù)據(jù)的應(yīng)用場(chǎng)景二、大數(shù)據(jù)技術(shù)在財(cái)務(wù)中的應(yīng)用場(chǎng)景

PART01任務(wù)三熟悉財(cái)務(wù)大數(shù)據(jù)分析方法論任務(wù)三熟悉財(cái)務(wù)大數(shù)據(jù)分析方法論(一)可視化分析數(shù)據(jù)可視化是數(shù)據(jù)分析工具最基本的要求(二)數(shù)據(jù)挖掘算法可視化是給人看的,數(shù)據(jù)挖掘就是給機(jī)器看的(三)預(yù)測(cè)性分析能力數(shù)據(jù)挖掘可以讓分析員更好的理解數(shù)據(jù)(五)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理由于非結(jié)構(gòu)化數(shù)據(jù)的多樣性帶來(lái)了數(shù)據(jù)分析的新的挑戰(zhàn),我們需要一系列的工具去解析,提取,分析數(shù)據(jù)(六)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)倉(cāng)庫(kù)是為了便于多維分析和多角度展示數(shù)據(jù)按特定模式進(jìn)行存儲(chǔ)所建立起來(lái)的關(guān)系型數(shù)據(jù)庫(kù)123546一、大數(shù)據(jù)分析主要內(nèi)容(四)語(yǔ)義引擎數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是一些管理方面的最佳實(shí)踐0102030405聚類分析因子分析相關(guān)分析對(duì)應(yīng)分析方差分析二、大數(shù)據(jù)分析的常用方法06回歸分析任務(wù)三熟悉財(cái)務(wù)大數(shù)據(jù)分析方法論三、大數(shù)據(jù)分析流程大數(shù)據(jù)處理流程主要包括:業(yè)務(wù)理解、數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析與挖掘、報(bào)告撰寫等環(huán)節(jié)任務(wù)三熟悉財(cái)務(wù)大數(shù)據(jù)分析方法論財(cái)務(wù)大數(shù)據(jù)分析項(xiàng)目二大數(shù)據(jù)采集、清洗與集成前言大數(shù)據(jù)開(kāi)啟了一個(gè)大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時(shí)代,它給技術(shù)和商業(yè)帶來(lái)了巨大的變化。麥肯錫研究表明,在醫(yī)療、零售和制造業(yè)領(lǐng)域,大數(shù)據(jù)每年可以提高勞動(dòng)生產(chǎn)率0.5-1個(gè)百分點(diǎn)。大數(shù)據(jù)技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域已經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲(chǔ)、處理和呈現(xiàn)的有力武器。大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)清理集成、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)安全等)。然而調(diào)查顯示,未被使用的信息比例高達(dá)99.4%,很大程度都是由于高價(jià)值的信息無(wú)法獲取采集完成數(shù)據(jù)清理集成。目錄頁(yè)數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)集成任務(wù)一數(shù)據(jù)采集任務(wù)一數(shù)據(jù)采集【任務(wù)描述】1.單企業(yè)財(cái)報(bào)數(shù)據(jù)采集:采集江西銅業(yè)2021年的年報(bào)數(shù)據(jù),報(bào)表類型為基本信息表。2.采集多家企業(yè)的基本信息表,企業(yè)可在上交所上市的公司中任選,比如選擇“貴州茅臺(tái)”、“美克家居”、“柳鋼股份”、“三一重工”四家公司的基本信息表。3.采集4家企業(yè)(比如選擇“貴州茅臺(tái)”、“美克家居”、“柳鋼股份”、“三一重工”)的資產(chǎn)負(fù)債表、利潤(rùn)表、現(xiàn)金流量表。任務(wù)一數(shù)據(jù)采集數(shù)據(jù)采集,又稱“數(shù)據(jù)獲取”,是數(shù)據(jù)分析的入口,也是數(shù)據(jù)分析過(guò)程中相當(dāng)重要環(huán)節(jié),它通過(guò)各種技術(shù)手段把外部各種數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)實(shí)時(shí)或非實(shí)時(shí)地采集并加以利用。數(shù)據(jù)采集是每個(gè)數(shù)據(jù)分析項(xiàng)目的第一個(gè)步驟。在數(shù)據(jù)分析的道路上,數(shù)據(jù)采集是重中之重。數(shù)據(jù)采集的質(zhì)量直接決定了后續(xù)的分析是否準(zhǔn)確。如圖。(一)數(shù)據(jù)采集的數(shù)據(jù)源

數(shù)據(jù)的獲取來(lái)源主要分為外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)。內(nèi)部數(shù)據(jù)是指機(jī)構(gòu)日常業(yè)務(wù)中積累的業(yè)務(wù)數(shù)據(jù)和財(cái)務(wù)數(shù)據(jù),外部數(shù)據(jù)主要有國(guó)家統(tǒng)計(jì)數(shù)據(jù)、地方政府公開(kāi)數(shù)據(jù)、研究機(jī)構(gòu)的調(diào)研報(bào)告、上司公司的年報(bào)、季報(bào)等。如圖所示。任務(wù)一數(shù)據(jù)采集(二)數(shù)據(jù)采集的三大要點(diǎn)

1.全面性

數(shù)據(jù)量足夠具有分析價(jià)值、數(shù)據(jù)面足夠支撐分析需求。比如對(duì)于“查看商品詳情”這一行為,需要采集用戶觸發(fā)時(shí)的環(huán)境信息、會(huì)話、以及背后的用戶ID,最后需要統(tǒng)計(jì)這一行為在某一時(shí)段觸發(fā)的人數(shù)、次數(shù)、人均次數(shù)、活躍比等。

2.多維性

數(shù)據(jù)更重要的是能滿足分析需求。靈活、快速自定義數(shù)據(jù)的多種屬性和不同類型,從而滿足不同的分析目標(biāo)。3.高效性

高效性包含技術(shù)執(zhí)行的高效性、團(tuán)隊(duì)內(nèi)部成員協(xié)同的高效性以及數(shù)據(jù)分析需求和目標(biāo)實(shí)現(xiàn)的高效性。任務(wù)一數(shù)據(jù)采集(三)數(shù)據(jù)采集準(zhǔn)備1.明確數(shù)據(jù)驅(qū)動(dòng)目標(biāo)帶數(shù)據(jù)采集切忌大而全,數(shù)據(jù)分析需求也是隨著產(chǎn)品不斷迭代的,明確長(zhǎng)遠(yuǎn)和當(dāng)前階段的分析需求,讓分析更有目的性,技術(shù)執(zhí)行更高效。

2.按需采集數(shù)據(jù)帶著需求和分析目標(biāo)去采數(shù)據(jù),不只避免了數(shù)據(jù)冗余帶來(lái)的無(wú)從下手,也避免了全量采集以后殊不知道要分析什么的尷尬。

3.選擇數(shù)據(jù)采集的工具和手段為了高效采集大數(shù)據(jù),依據(jù)采集環(huán)境及數(shù)據(jù)類型選擇適當(dāng)?shù)拇髷?shù)據(jù)采集方法及平臺(tái)至關(guān)重要。(四)數(shù)據(jù)采集工具常用的大數(shù)據(jù)采集平臺(tái)和工具有:

1.火車采集器

是一款專業(yè)的互聯(lián)網(wǎng)數(shù)據(jù)抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網(wǎng)頁(yè)上散亂分布的數(shù)據(jù)信息,并通過(guò)一系列的分析處理,準(zhǔn)確挖掘出所需數(shù)據(jù)。任務(wù)一數(shù)據(jù)采集3.八爪魚(yú)八爪魚(yú)是一款通用的網(wǎng)頁(yè)數(shù)據(jù)采集神器,它突破了網(wǎng)頁(yè)數(shù)據(jù)采集的傳統(tǒng)思維方法,沒(méi)有編程基礎(chǔ)一樣可以采集,讓用戶在網(wǎng)站上抓取資料變得更加簡(jiǎn)單容易。如圖所示。4.網(wǎng)絡(luò)爬蟲(chóng)網(wǎng)絡(luò)爬蟲(chóng)(又稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。如圖所示。八爪魚(yú)網(wǎng)絡(luò)爬蟲(chóng)

2.集搜客是一款簡(jiǎn)單易用的網(wǎng)頁(yè)信息抓取軟件,能夠抓取網(wǎng)頁(yè)文字、圖表、超鏈接等多種網(wǎng)頁(yè)元素,可以提供好用的網(wǎng)頁(yè)抓取軟件、數(shù)據(jù)挖掘攻略、行業(yè)資訊和前沿科技等。如圖所示。集搜客任務(wù)一數(shù)據(jù)采集二、網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介(一)什么是網(wǎng)絡(luò)爬蟲(chóng)?網(wǎng)絡(luò)爬蟲(chóng)(webcrawler),也叫網(wǎng)絡(luò)蜘蛛(spider),是一種用來(lái)自動(dòng)瀏覽萬(wàn)維網(wǎng)的網(wǎng)絡(luò)機(jī)器人。其早期目的一般為編纂網(wǎng)絡(luò)索引。之后廣泛應(yīng)用在數(shù)據(jù)采集、信息監(jiān)控等領(lǐng)域。簡(jiǎn)單來(lái)說(shuō),網(wǎng)絡(luò)爬蟲(chóng)就是獲取網(wǎng)頁(yè)并提取和保存信息的自動(dòng)化程序。某些信息散布在多個(gè)網(wǎng)站、頁(yè)面里,為了提取它們,我們可編寫網(wǎng)絡(luò)爬蟲(chóng)程序或使用具有網(wǎng)絡(luò)爬蟲(chóng)功能的工具,實(shí)現(xiàn)規(guī)?;?、自動(dòng)化的數(shù)據(jù)采集。任務(wù)一數(shù)據(jù)采集(二)網(wǎng)絡(luò)爬蟲(chóng)的幾個(gè)基本術(shù)語(yǔ)1.URL(UniformResourceLocator)統(tǒng)?資源定位符,?叫URL(UniformResourceLocator),是專為標(biāo)識(shí)Internet?上資源位置?設(shè)置的?種編址?式,我們平時(shí)所說(shuō)的?頁(yè)地址指的即是URL。2.客戶端(Client)

客戶端(Client)或稱為用戶端,是指與服務(wù)器相對(duì)應(yīng),為客戶提供本地服務(wù)的程序。主要功能是請(qǐng)求訪問(wèn)文本或圖像等資源。其行為過(guò)程是根據(jù)目標(biāo)URL,編制請(qǐng)求報(bào)文并發(fā)送,并獲取資源。3.web服務(wù)器(webserver)

Web服務(wù)器一般指網(wǎng)站服務(wù)器,是指駐留于因特網(wǎng)上某種類型計(jì)算機(jī)的程序,可以向?yàn)g覽器等Web客戶端提供文檔,也可以放置網(wǎng)站文件,讓全世界瀏覽;可以放置數(shù)據(jù)文件,讓全世界下載。主要功能是提供資源響應(yīng)。其行為過(guò)程是接收請(qǐng)求,按照既定規(guī)則返回相應(yīng)文件資源。任務(wù)一數(shù)據(jù)采集(三)爬蟲(chóng)基本原理簡(jiǎn)單來(lái)說(shuō)這段過(guò)程發(fā)生了以下四個(gè)步驟:1.查找域名對(duì)應(yīng)的IP地址。2.向IP對(duì)應(yīng)的服務(wù)器發(fā)送請(qǐng)求。3.服務(wù)器響應(yīng)請(qǐng)求,發(fā)回網(wǎng)頁(yè)內(nèi)容。4.瀏覽器解析網(wǎng)頁(yè)內(nèi)容。(四)網(wǎng)絡(luò)爬蟲(chóng)的基本工作流程網(wǎng)絡(luò)爬蟲(chóng)的基本工作流程如下:

1.確定數(shù)據(jù)源:一個(gè)或多個(gè)網(wǎng)站的某些頁(yè)面的某部分信息。2.構(gòu)造并發(fā)送請(qǐng)求:根據(jù)頁(yè)面的URL和請(qǐng)求報(bào)文,模擬真實(shí)的瀏覽器,構(gòu)造HTTP請(qǐng)求。3.獲取響應(yīng)數(shù)據(jù):如果上一步的請(qǐng)求能夠成功獲取到正常的響應(yīng)數(shù)據(jù),獲取響應(yīng)報(bào)文中的響應(yīng)數(shù)據(jù)??赡苁荋TML、JSON、圖片、視頻等類型的文件。4.解析、處理、保存數(shù)據(jù):數(shù)據(jù)可能是不同編碼,首先要轉(zhuǎn)換為需要的編碼格式,再做進(jìn)一步的數(shù)據(jù)解析、提取,獲取到目標(biāo)數(shù)據(jù),之后目標(biāo)數(shù)據(jù)可能不是我們需要的形式,需要做進(jìn)一步的處理,最后將數(shù)據(jù)保存。任務(wù)一數(shù)據(jù)采集【任務(wù)實(shí)施】1.單企業(yè)財(cái)報(bào)數(shù)據(jù)采集:采集江西銅業(yè)2021年的年報(bào)數(shù)據(jù),報(bào)表類型為基本信息表。如圖2-1-7所示。步驟一:點(diǎn)擊任務(wù)“單企業(yè)數(shù)據(jù)采集”,點(diǎn)擊“開(kāi)始任務(wù)”,在平臺(tái)提供的代碼頁(yè)面,修改其中的企業(yè)信息為(“600362”,“江西銅業(yè)”,“jxty”)、年份信息修改為“2021”。步驟二:點(diǎn)擊【運(yùn)行】,系統(tǒng)執(zhí)行代碼,從仿真的上交所網(wǎng)站上采集江西步銅業(yè)2021年的基礎(chǔ)信息表。運(yùn)行完畢,提示采集成功,如圖2-1-8所示。

步驟三:點(diǎn)擊【查看數(shù)據(jù)】,系統(tǒng)顯示出采集結(jié)果,如圖2-1-9所示??梢渣c(diǎn)擊【下載】,將采集結(jié)果下載到本地。任務(wù)一數(shù)據(jù)采集任務(wù)二數(shù)據(jù)清洗12354【任務(wù)描述】1.字段拆分(客戶)

將任務(wù)1清洗完的數(shù)據(jù),進(jìn)行客戶分布分析,將客戶ID字段拆分為兩列值為“-”和空格的替換為NULLB公司是一家銷售辦公用品、辦公家具和辦公電子設(shè)備的公司,旗下有多家直營(yíng)店,每月月底各直營(yíng)店都會(huì)向財(cái)務(wù)提供本月的銷售數(shù)據(jù)表?,F(xiàn)公司的財(cái)務(wù)分析師手上有一份匯總多年的銷售數(shù)據(jù)。數(shù)據(jù)表中的單元格有“-”和空值,有的單元格有特殊字符。清洗要求∶將表格中值為“-”和空格的替換為NULL,為2.字段拆分(產(chǎn)品名稱)

將“產(chǎn)品名稱”列切分為三列“品牌”、“客戶名稱”和“客戶ID”?!捌访?、“規(guī)格”?!局R(shí)準(zhǔn)備】一、數(shù)據(jù)清洗的概念

數(shù)據(jù)清洗(Datacleaning)是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別錯(cuò)誤的最后一道程序,目的在于刪除重復(fù)信息、糾正存在的錯(cuò)誤,并提供數(shù)據(jù)一致性。數(shù)據(jù)清洗包括檢查數(shù)據(jù)一致性、處理無(wú)效值和缺失值等。二、數(shù)據(jù)清洗主要內(nèi)容及處理方法

數(shù)據(jù)清洗的主要內(nèi)容有:缺失值清洗、格式內(nèi)容清洗、邏輯錯(cuò)誤清洗、非需求性數(shù)據(jù)清洗、關(guān)聯(lián)性驗(yàn)證。任務(wù)二數(shù)據(jù)清洗。三、數(shù)據(jù)清洗設(shè)計(jì)

數(shù)據(jù)清洗不是一次性工作,需要多次、多環(huán)節(jié)進(jìn)行。因此,要做好數(shù)據(jù)清洗、保證數(shù)據(jù)質(zhì)量,首先需要對(duì)整個(gè)數(shù)據(jù)處理的流程進(jìn)行設(shè)計(jì)或了解,在了解了數(shù)據(jù)流程后再進(jìn)行相應(yīng)環(huán)節(jié)設(shè)計(jì)數(shù)據(jù)清洗流程。(一)數(shù)據(jù)清洗遵循原則

數(shù)據(jù)清洗可以遵循下列原則:1.少量數(shù)據(jù)時(shí),先對(duì)數(shù)據(jù)進(jìn)行合并、聯(lián)接,再進(jìn)行數(shù)據(jù)清洗;2.大數(shù)據(jù)源接入時(shí),先按照統(tǒng)一標(biāo)準(zhǔn)清洗數(shù)據(jù),再進(jìn)行接入;3.當(dāng)有多個(gè)計(jì)算層時(shí),每個(gè)數(shù)據(jù)計(jì)算層先清洗再計(jì)算;4.分析結(jié)果發(fā)現(xiàn)存在數(shù)據(jù)問(wèn)題時(shí),向前溯源,新增、修訂清洗規(guī)則。(二)數(shù)據(jù)清洗設(shè)計(jì)原則1.一個(gè)清洗步驟用一條清洗規(guī)則;2.多拆分清洗步驟時(shí),每個(gè)步驟進(jìn)行數(shù)據(jù)備份,方便出問(wèn)題時(shí)回退;3.一般先做全局清洗(即對(duì)全部數(shù)據(jù)進(jìn)行清洗),再做個(gè)別字段的清洗;4.清洗的輸出結(jié)果不要直接放在正式數(shù)據(jù)任務(wù)二數(shù)據(jù)清洗【任務(wù)實(shí)施】

1.將表格中值為“-”和空格的替換為NULLB公司是一家銷售辦公用品、辦公家具和辦公電子設(shè)備的公司,旗下有多家直營(yíng)店,每月月底各直營(yíng)店都會(huì)向財(cái)務(wù)提供本月的銷售數(shù)據(jù)表。現(xiàn)公司的財(cái)務(wù)分析師手上有一份匯總多年的銷售數(shù)據(jù)。數(shù)據(jù)表中的單元格有“-”和空值,有的單元格有特殊字符。清洗要求∶將表格中值為“-”和空格的替換為NULL。

步驟一:進(jìn)入課程平臺(tái),項(xiàng)目三-數(shù)據(jù)清洗-數(shù)據(jù)清洗實(shí)戰(zhàn),點(diǎn)擊“任務(wù)∶全局清洗規(guī)則”,點(diǎn)擊【開(kāi)始任務(wù)】,進(jìn)入數(shù)據(jù)清洗頁(yè)面,如圖所示。任務(wù)二數(shù)據(jù)清洗

步驟二:點(diǎn)擊“選擇數(shù)據(jù)源”,要清洗的表已經(jīng)內(nèi)置在課程平臺(tái)中,所以直接點(diǎn)擊空白框向下的箭頭,選擇內(nèi)置的表“清洗實(shí)例-超市-1210精簡(jiǎn)”,如圖所示。任務(wù)二數(shù)據(jù)清洗

步驟三:點(diǎn)擊【查看數(shù)據(jù)源】,可以看到“折扣”列有的值為“-”,有的值為空,如圖所示。

任務(wù)二數(shù)據(jù)清洗

步驟四:點(diǎn)擊“配置全局規(guī)則”,左側(cè)出現(xiàn)“配置全局清洗規(guī)則”區(qū),選擇“字符替換”下的“-(僅有)替換為Null”和“空格(僅有)替換為Null”,如圖所示。圖2-2-4選擇全局清洗規(guī)則任務(wù)二數(shù)據(jù)清洗步驟五:此處也可以選擇“-(僅有)替換為0”和“空格(僅有)替換為0”。點(diǎn)擊“開(kāi)始清洗”,系統(tǒng)彈出“確定要開(kāi)始清洗嗎”,點(diǎn)擊【確定】,如圖所示。任務(wù)二數(shù)據(jù)清洗

步驟六:清洗完成,點(diǎn)擊“查看清洗結(jié)果”,可以看到折扣列原來(lái)的“-”變成了空值null。如圖所示??梢詫⒃撉逑唇Y(jié)果下載,作為下一步清洗的數(shù)據(jù)源表?!咀⒁狻看舜吻逑磿r(shí)不要選擇“非法字符清洗”,“產(chǎn)品名稱”列的非法字符后續(xù)會(huì)統(tǒng)一替換,此處不做清洗。任務(wù)二數(shù)據(jù)清洗2.字段拆分(客戶)

將任務(wù)1清洗完的數(shù)據(jù),進(jìn)行客戶分布分析,將客戶ID字段拆分為兩列,為“客戶名稱”和“客戶ID”。步驟一:點(diǎn)擊“任務(wù)∶客戶分布分析”,點(diǎn)擊【開(kāi)始任務(wù)】,進(jìn)入數(shù)據(jù)清洗頁(yè)面,點(diǎn)擊“選擇數(shù)據(jù)源”,下拉選擇“超市銷售數(shù)據(jù)”(注∶也可以將上一步清洗后的結(jié)果在此處上傳),點(diǎn)擊【保存】,如圖所示。任務(wù)二數(shù)據(jù)清洗步驟二:點(diǎn)擊“添加規(guī)則”,選擇“字段切分”,彈出“選擇字段”窗口,將“客戶ID”移到右側(cè),如圖所示。任務(wù)二數(shù)據(jù)清洗步驟三:在“字段清洗規(guī)則”區(qū),切分分割符為“-”,客戶ID切分后的字段名分別設(shè)為“客戶名稱”和“客戶ID”,如圖所示。任務(wù)二數(shù)據(jù)清洗步驟四:點(diǎn)擊【保存】,保存規(guī)則,之后點(diǎn)擊“開(kāi)始清洗”,系統(tǒng)自動(dòng)按清洗規(guī)則執(zhí)行清洗任務(wù),清洗完畢,點(diǎn)擊“查看數(shù)據(jù)”,可以看到原“客戶ID”列,變?yōu)椤翱蛻裘Q”和“客戶ID”兩列,如圖所示。任務(wù)二數(shù)據(jù)清洗3.字段拆分(產(chǎn)品名稱)

將“產(chǎn)品名稱”列切分為三列“品牌”、“品名”、“規(guī)格”。

在字段拆分前,需要將“產(chǎn)品名稱”列中的切分符統(tǒng)一,需要將現(xiàn)有字段中的特殊字符進(jìn)行逐一的替換,最終替換為統(tǒng)一的切分符。其替換步驟見(jiàn)下圖。任務(wù)二數(shù)據(jù)清洗步驟一:

字段里的非法字符和分隔符統(tǒng)一

點(diǎn)擊“任務(wù)∶受歡迎商品分析-產(chǎn)品名稱切分”,點(diǎn)擊【開(kāi)始任務(wù)】,進(jìn)入數(shù)據(jù)清洗頁(yè)面,點(diǎn)擊“選擇數(shù)據(jù)源”,下拉選擇“超市銷售數(shù)據(jù)”(注∶也可以將上一步清洗后的結(jié)果在此處上傳),點(diǎn)擊【保存】,如圖所示。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊“配置按字段清洗規(guī)則”,點(diǎn)擊“添加規(guī)則”,選擇“字符替換”-“產(chǎn)品名稱”,將*替換為空(什么也不輸入),將/替換為空(什么也不輸入),將\替換為空(什么也不輸入),如圖1所示。將|替換為空格(空格需要輸入,按空格鍵),如圖2所示。圖2字符替換為空格圖1字符替換為空任務(wù)二數(shù)據(jù)清洗

點(diǎn)擊【保存】,點(diǎn)擊“開(kāi)始清洗”,清洗完成,查看清洗結(jié)果,“產(chǎn)品名稱”列中的特殊字符都被清理了,如圖所示。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊【下載】,將該清洗結(jié)果下載到本地。步驟二:將“產(chǎn)品名稱”切分為兩列為“品牌”和“品名規(guī)格”。點(diǎn)擊退回,回到數(shù)據(jù)清洗頁(yè)面,如圖所示。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊【重置】,重新選擇數(shù)據(jù)源,點(diǎn)擊【上傳數(shù)據(jù)】,將上一步下載的數(shù)據(jù)表進(jìn)行上傳,如圖所示。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊“配置字段清洗規(guī)則”,點(diǎn)擊“添加規(guī)則”,選擇“字段切分”,切分字段為“產(chǎn)品名稱”,切分分隔符為空格(按空格鍵輸入),切分后的字段分別為“品牌”、“品名規(guī)格”。如圖所示。任務(wù)二數(shù)據(jù)清洗

點(diǎn)擊【保存】,點(diǎn)擊“開(kāi)始清洗”,系統(tǒng)執(zhí)行清洗任務(wù),清洗完成后點(diǎn)擊“查看清洗結(jié)果”,可以看到新拆分的兩列∶“品牌”列和“品名規(guī)格”列。任務(wù)二數(shù)據(jù)清洗點(diǎn)擊【下載】,將清洗結(jié)果保存到本地。步驟三:將“品名規(guī)格”列拆分為“品名”和“規(guī)格”兩列點(diǎn)擊退回,回到數(shù)據(jù)清洗頁(yè)面,點(diǎn)擊【重置】,重新選擇數(shù)據(jù)源,點(diǎn)擊【上傳數(shù)據(jù)】,將上一步下載的數(shù)據(jù)表進(jìn)行上傳。任務(wù)二數(shù)據(jù)清洗

點(diǎn)擊“配置按字段清洗規(guī)則”,點(diǎn)擊“添加規(guī)則”,選擇“字符替換”,字段為“品名規(guī)格”,空格(輸入空格鍵),替換為空(什么也不輸);再次點(diǎn)擊“添加規(guī)則”,選擇“字段切分”,字段為“品名規(guī)格”,切分分隔符為英文的逗號(hào),切分后的字段名為“品名”和“規(guī)格”,如圖所示。

點(diǎn)擊【保存】,點(diǎn)擊“開(kāi)始清洗”,系統(tǒng)執(zhí)行清洗任務(wù),清洗完成后點(diǎn)擊“查看清洗結(jié)果”,可以看到新拆分的兩列∶“品名”列和“規(guī)格”列,如圖所示。任務(wù)二數(shù)據(jù)清洗任務(wù)三數(shù)據(jù)集成【任務(wù)描述】1.數(shù)據(jù)關(guān)聯(lián)

2.數(shù)據(jù)合并【知識(shí)準(zhǔn)備】一、數(shù)據(jù)集成的概念

從廣義上來(lái)說(shuō),在企業(yè)中,由于開(kāi)發(fā)時(shí)間或開(kāi)發(fā)部門的不同,往往有多個(gè)異構(gòu)的、運(yùn)行在不同軟硬件平臺(tái)上的信息系統(tǒng)同時(shí)運(yùn)行,這些系統(tǒng)的數(shù)據(jù)源彼此獨(dú)立、相互封閉,這使得數(shù)據(jù)難以在系統(tǒng)之間交流、共享和融合,從而形成了“信息孤島”。

從狹義上來(lái)說(shuō),數(shù)據(jù)集成是一個(gè)數(shù)據(jù)整合的過(guò)程。就是指將多份數(shù)據(jù)進(jìn)行合并,形成數(shù)據(jù)集的過(guò)程和方法。通過(guò)綜合各數(shù)據(jù)源,將擁有不同結(jié)構(gòu)、不同屬性的數(shù)據(jù)合并,存放在一個(gè)一致的數(shù)據(jù)存儲(chǔ)中。這些數(shù)據(jù)源可能包括多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)立方體或一般文件等,以產(chǎn)生更高的數(shù)據(jù)價(jià)值和更豐富的數(shù)據(jù)。

數(shù)據(jù)集成最常見(jiàn)的兩種方法是數(shù)據(jù)關(guān)聯(lián)與數(shù)據(jù)合并。前者用于將不同數(shù)據(jù)內(nèi)容的表格根據(jù)條件進(jìn)行左右連接,后者用于將相同或相似數(shù)據(jù)內(nèi)容的表格進(jìn)行上下連接,如圖所示。任務(wù)三數(shù)據(jù)集成二、數(shù)據(jù)集成的主要內(nèi)容(一)數(shù)據(jù)關(guān)聯(lián)1.數(shù)據(jù)關(guān)聯(lián)的概念

數(shù)據(jù)關(guān)聯(lián)必須要有關(guān)聯(lián)條件,一般是指左表的主鍵或其他唯一約束字段(即沒(méi)有重復(fù)值)與右表的主鍵或其他唯一約束字段相等(相同),即表之間有關(guān)鍵字段(列名),不同的表根據(jù)列名將數(shù)據(jù)進(jìn)行關(guān)聯(lián)。如表A、表B都有共同的字段ID,通過(guò)ID將表A與表B進(jìn)行連接,如圖所示。任務(wù)三數(shù)據(jù)集成2.數(shù)據(jù)關(guān)聯(lián)的方式數(shù)據(jù)關(guān)聯(lián)有四種方式:左連接(leftjoin)、右連接(rightjoin)、內(nèi)連接(innerjoin)、全連接(fulljoin),如圖所示。(1)左連接左連接是以左表為基礎(chǔ),根據(jù)兩表的關(guān)聯(lián)條件將兩表連接起來(lái)。結(jié)果會(huì)將左表所有的數(shù)據(jù)條目列出,而右表只列出與左表關(guān)聯(lián)條件滿足的部分。左連接全稱為左外連接,屬于外連接的一種方式,如圖4示。任務(wù)三數(shù)據(jù)集成(2)右連接右連接是以右表為基礎(chǔ),根據(jù)兩表的關(guān)聯(lián)條件將兩表連接起來(lái)。結(jié)果會(huì)將右表所有的數(shù)據(jù)條目列出,而左表只列出與右表關(guān)聯(lián)條件滿足的部分。右連接全稱為右外連接,屬于外連接的一種方式,如圖所示。(3)內(nèi)連接內(nèi)連接只顯示滿足關(guān)聯(lián)條件的左右兩表的數(shù)據(jù)記錄,不符合條件的數(shù)據(jù)不顯示,如圖所示。圖

右連接圖

內(nèi)連接任務(wù)三數(shù)據(jù)集成(4)全連接全連接即為滿足關(guān)聯(lián)條件的左右表數(shù)據(jù)相連,但不滿足條件的各表數(shù)據(jù)仍保留,兩表之間無(wú)對(duì)應(yīng)數(shù)據(jù)的內(nèi)容為空值,如圖所示?!咀⒁狻?jī)蓚€(gè)數(shù)據(jù)集進(jìn)行關(guān)聯(lián)時(shí),每個(gè)數(shù)據(jù)集中的列名在各自數(shù)據(jù)集中都必須是唯一的,但兩個(gè)數(shù)據(jù)集之間的列名可以重復(fù),因?yàn)橹挥袃蓚€(gè)數(shù)據(jù)集中有相同列,數(shù)據(jù)關(guān)聯(lián)才有實(shí)際意義。任務(wù)三數(shù)據(jù)集成(二)數(shù)據(jù)合并數(shù)據(jù)合并,也稱數(shù)據(jù)追加,是指對(duì)多份數(shù)據(jù)字段基本完全相同的數(shù)據(jù)進(jìn)行上下連接。如有表1和表2兩個(gè)數(shù)據(jù)庫(kù)表格,它們對(duì)應(yīng)的字段是相同的,那么就可以對(duì)這兩個(gè)表進(jìn)行數(shù)據(jù)合并,如圖所示。

表2表1圖

數(shù)據(jù)合并任務(wù)三數(shù)據(jù)集成【任務(wù)實(shí)施】1.數(shù)據(jù)關(guān)聯(lián)B公司的數(shù)據(jù)分析師對(duì)清洗后的超市銷售數(shù)據(jù)表要從省份和大區(qū)的維度進(jìn)行銷售額統(tǒng)計(jì),但數(shù)據(jù)表中只有“城市”的數(shù)據(jù),沒(méi)有省份和大區(qū)的數(shù)據(jù),如圖所示。任務(wù)三數(shù)據(jù)集成數(shù)據(jù)分析師做了兩張表:城市表和省區(qū)表。城市表是城市和省區(qū)的對(duì)應(yīng)表,超市銷售情況表中的每一個(gè)城市都有對(duì)應(yīng)的省區(qū);省區(qū)表是省份和大區(qū)的對(duì)應(yīng)表,每一個(gè)省份都對(duì)應(yīng)了所屬的大區(qū)。城市表如圖2-3-10所示,省區(qū)表如圖所示。任務(wù)三數(shù)據(jù)集成

將超市數(shù)據(jù)與地區(qū)數(shù)據(jù)進(jìn)行關(guān)聯(lián),“超市銷售情況表”上增加“省份”列和“地區(qū)”列,與“城市”列相匹配。步驟一∶數(shù)據(jù)上傳

將下載的“超市數(shù)據(jù)清洗結(jié)果”、“城市表”、“省區(qū)表”上傳到分析云。任務(wù)三數(shù)據(jù)集成步驟二∶數(shù)據(jù)關(guān)聯(lián)

單擊【新建】按鈕,系統(tǒng)彈出“創(chuàng)建數(shù)據(jù)集”窗口,選擇【關(guān)聯(lián)數(shù)據(jù)集】,名稱設(shè)為“超市省區(qū)關(guān)聯(lián)”。

單擊【確定】,將“超市數(shù)據(jù)清洗結(jié)果”、“城市表”、“省區(qū)表”依次拖拽到右方數(shù)據(jù)編輯區(qū),如圖所示。任務(wù)三數(shù)據(jù)集成

先點(diǎn)選“超市數(shù)據(jù)清洗結(jié)果”,再單擊“城市表”,系統(tǒng)彈出“連接”窗口,選擇“左連接”,關(guān)聯(lián)字段是“城市”,單擊【確定】,如圖所示。任務(wù)三數(shù)據(jù)集成【注意】此次關(guān)聯(lián)是以“城市表”為主表,如果該表在左邊,則關(guān)聯(lián)方式選擇“左連接”,如果該表在右邊,則需要選擇“右連接”。單擊【執(zhí)行】,系統(tǒng)將三張表連接成一張表,在下方的數(shù)據(jù)預(yù)覽區(qū)可以看到表中有“省自治區(qū)”列和“地區(qū)”列,如圖所示。任務(wù)三數(shù)據(jù)集成

單擊【abc】,修改關(guān)聯(lián)表的“數(shù)量”、“折扣”、“利潤(rùn)”三列的數(shù)據(jù)類型,將abc格式改為123格式(即由文本格式改為數(shù)值格式),如圖所示。任務(wù)三數(shù)據(jù)集成單擊【保存】,將關(guān)聯(lián)結(jié)果保存成功,在“我的數(shù)據(jù)”中可查看關(guān)聯(lián)的數(shù)據(jù)集,如圖所示。任務(wù)三數(shù)據(jù)集成2.數(shù)據(jù)合并現(xiàn)有AJHXNL公司的利潤(rùn)表和資產(chǎn)負(fù)債表及行業(yè)標(biāo)桿企業(yè)金嶺礦業(yè)公司的利潤(rùn)表和資產(chǎn)負(fù)債表。財(cái)務(wù)分析師要將兩家公司的利潤(rùn)表項(xiàng)目和資產(chǎn)負(fù)債表項(xiàng)目數(shù)據(jù)進(jìn)行橫向?qū)Ρ确治?。在分析云中,將AJHXNL公司和金嶺礦業(yè)的利潤(rùn)表進(jìn)行合并,將AJHXNL公司和金嶺礦業(yè)的資產(chǎn)負(fù)債表進(jìn)行合并。步驟一∶數(shù)據(jù)上傳將AJHXNL公司和金嶺礦業(yè)的利潤(rùn)表上傳到分析云。步驟二∶合并利潤(rùn)表單擊【新建】,在彈出的窗口中選擇“追加數(shù)據(jù)集”,輸入數(shù)據(jù)集的名稱“AJ和金嶺利潤(rùn)表合并",單擊【確定】如圖所示。任務(wù)三數(shù)據(jù)集成選擇【數(shù)據(jù)集】-【金嶺礦業(yè)利潤(rùn)表】,拖入數(shù)據(jù)編輯區(qū),彈出“選擇所需字段”窗口,選擇合并表中要使用的指標(biāo),可以將指標(biāo)全選,也可以僅選擇要分析的指標(biāo),比如本次就是對(duì)比分析營(yíng)業(yè)收入、營(yíng)業(yè)成本、三大費(fèi)用、投資收益和營(yíng)業(yè)利潤(rùn),那么只選擇這些指標(biāo)即可,如圖所示。任務(wù)三數(shù)據(jù)集成單擊【確定】,頁(yè)面右側(cè)空白區(qū)顯示出金嶺礦業(yè)所選的指標(biāo)字段,如右圖所示。選擇【數(shù)據(jù)集】-【AJHXJL利潤(rùn)表】,拖入數(shù)據(jù)編輯區(qū),彈出“選擇所需字段”窗口,選擇合并表中要使用的指標(biāo),指標(biāo)選擇和金嶺礦業(yè)所選字段一致,如右圖所示。任務(wù)三數(shù)據(jù)集成單擊【確定】,所選字段顯示在數(shù)據(jù)編輯區(qū),如右圖所示。任務(wù)三數(shù)據(jù)集成檢查兩個(gè)表的項(xiàng)目的對(duì)應(yīng)情況,可以看到金嶺礦業(yè)的“投資收益”對(duì)應(yīng)了AJHXJL公司的“營(yíng)業(yè)利潤(rùn)”,“營(yíng)業(yè)利潤(rùn)”對(duì)應(yīng)了“投資收益”。點(diǎn)擊AJHXJL公司“營(yíng)業(yè)利潤(rùn)”向下的箭頭,選擇“投資收益”,點(diǎn)擊AJHXJL公司“投資收益”向下的箭頭,選擇“營(yíng)業(yè)利潤(rùn)”,如右圖所示。項(xiàng)目設(shè)置對(duì)應(yīng)完畢,單擊【執(zhí)行】按鈕,兩張表合并成了一張表,可以在數(shù)據(jù)預(yù)覽區(qū)看到合并后的表中既有金嶺公司的數(shù)據(jù),也有AJHXJL的數(shù)據(jù),如圖所示。單擊【保存】,將以上合并結(jié)果保存成功。任務(wù)三數(shù)據(jù)集成財(cái)務(wù)大數(shù)據(jù)分析項(xiàng)目三認(rèn)識(shí)財(cái)務(wù)大數(shù)據(jù)技術(shù)在財(cái)務(wù)領(lǐng)域的應(yīng)用前言在“互聯(lián)網(wǎng)+”的時(shí)代,我們應(yīng)該如何利用現(xiàn)有資源進(jìn)行技術(shù)的創(chuàng)新,搭建平臺(tái),提高分析解決問(wèn)題的能力?創(chuàng)新是一個(gè)國(guó)家、一個(gè)民族進(jìn)步的靈魂。正因?yàn)橛袆?chuàng)新精神和創(chuàng)新思維,科技才能不斷發(fā)展。會(huì)計(jì)人應(yīng)具備創(chuàng)新意識(shí),要具備能夠綜合運(yùn)用所學(xué)知識(shí)和方法,進(jìn)行變革的能力。很多企業(yè)把創(chuàng)新作為企業(yè)文化的精髓,鼓勵(lì)和培養(yǎng)員工的創(chuàng)新精神,如松下電器、IBM、英特爾等百年企業(yè)之所以長(zhǎng)盛不衰,原因就在于企業(yè)中鼓勵(lì)創(chuàng)新的氛圍,因此企業(yè)財(cái)務(wù)人員也要求有創(chuàng)新意識(shí),不斷根據(jù)實(shí)踐環(huán)境的變化進(jìn)行財(cái)務(wù)方法和思維創(chuàng)新。目錄頁(yè)可視化設(shè)計(jì)故事版設(shè)計(jì)預(yù)覽、分享、導(dǎo)出故事版任務(wù)一可視化設(shè)計(jì)任務(wù)一可視化設(shè)計(jì)維度是事物或現(xiàn)象的某種特征,可以分為定性維度和定量維度,也就是根據(jù)數(shù)據(jù)類型來(lái)劃分,數(shù)據(jù)類型為字符型(文本型)數(shù)據(jù),就是定性維度,如地區(qū)、性別都是定性維度;數(shù)據(jù)類型為數(shù)值型數(shù)據(jù)的,就為定量維度,如收入、年齡、消費(fèi)等。一、維度指標(biāo)用于衡量事物發(fā)展程度的單位或方法,指標(biāo)可以分為絕對(duì)數(shù)指標(biāo)和相對(duì)數(shù)指標(biāo),絕對(duì)數(shù)指標(biāo)反映的是規(guī)模大小的指標(biāo),如人口數(shù)、GDP、收入、用戶數(shù),而相對(duì)數(shù)指標(biāo)主要用來(lái)反映質(zhì)量好壞的指標(biāo),如利潤(rùn)率、留存率、覆蓋率等。二、指標(biāo)任務(wù)一可視化設(shè)計(jì)0102(條形圖)條形圖是用寬度相同的條形的高度或長(zhǎng)短來(lái)表示數(shù)據(jù)多少的圖形。條形圖可以橫置或縱置,縱置時(shí)也稱為柱形圖。條形圖的特點(diǎn)在于能夠使人們一眼看出各個(gè)數(shù)據(jù)的大小,易于比較數(shù)據(jù)之間的差別,如在分析比較各年?duì)I業(yè)總收入的變化趨勢(shì)時(shí),條形圖可以直觀的反映出各年?duì)I業(yè)總收入的差距。

(餅圖)餅圖顯示一個(gè)數(shù)據(jù)系列中各項(xiàng)的大小與各項(xiàng)總和的比例。(數(shù)據(jù)系列:在圖表中繪制的相關(guān)數(shù)據(jù)點(diǎn),這些數(shù)據(jù)源自數(shù)據(jù)表的行或列)餅圖只有一個(gè)數(shù)據(jù)系列,餅圖中的數(shù)據(jù)點(diǎn)(在圖表中繪制的單個(gè)值)顯示為整個(gè)餅圖的百分比。能夠以圖形的方式直接顯示各個(gè)組成部分所占比例,如在分析三大費(fèi)用即財(cái)務(wù)費(fèi)用、銷售費(fèi)用、管理費(fèi)用的比例構(gòu)成時(shí)可以選擇餅圖。三、圖形介紹任務(wù)一可視化設(shè)計(jì)03環(huán)形圖環(huán)形圖是由兩個(gè)及兩個(gè)以上大小不一的餅圖疊在一起,挖去中間的部分所構(gòu)成的圖形。環(huán)形圖與餅圖類似,但又有區(qū)別。環(huán)形圖中間有一個(gè)“空洞”,每個(gè)樣本用一個(gè)環(huán)來(lái)表示,樣本中的每一部分?jǐn)?shù)據(jù)用環(huán)中的一段表示。因此環(huán)形圖可顯示多個(gè)樣本各部分所占的相應(yīng)比例,從而有利于構(gòu)成的比較研究,如在分析資產(chǎn)結(jié)構(gòu)時(shí)可以利用環(huán)形圖來(lái)表示。玫瑰圖是弗羅倫斯·南丁格爾發(fā)明的一種圓形的直方圖。這種

形式以一種色彩繽紛的圖表形式,使數(shù)據(jù)變的更加讓人印象深刻,如分析比較各年資產(chǎn)總數(shù)的變化差異時(shí)可以使用玫瑰圖04玫瑰圖三、圖形介紹任務(wù)一可視化設(shè)計(jì)“指標(biāo)卡““折線圖“折線圖是排列在工作表的列或行中的數(shù)據(jù)可以繪制到折線圖中。折線圖可以顯示隨時(shí)間而變化的連續(xù)數(shù)據(jù),因此非常適合用于顯示在相等時(shí)間間隔下數(shù)據(jù)的趨勢(shì),如在分析利潤(rùn)總額的變化趨勢(shì)時(shí)可以用折線圖。指標(biāo)卡反映一個(gè)指標(biāo)和該指標(biāo)對(duì)應(yīng)的數(shù)值,直觀明了的傳達(dá)了該指標(biāo)的信息,如貨幣資金指標(biāo)卡。任務(wù)一可視化設(shè)計(jì)“儀表盤““表格“儀表盤可以清晰的看出某個(gè)指標(biāo)值所在的范圍,用一個(gè)單獨(dú)的界面?zhèn)鬟_(dá)信息,使用戶可以快速理解該信息,如貨幣資金儀表盤。表格是指按所需的內(nèi)容項(xiàng)目畫(huà)成格子,分別填寫文字或數(shù)字的書(shū)面材料,便于統(tǒng)計(jì)查看。表格由一行或多行單元格組成,用于顯示數(shù)字和其他項(xiàng)以便快速引用和分析,表格中的項(xiàng)被組織為行和列,如資產(chǎn)負(fù)債表格。任務(wù)一可視化設(shè)計(jì)雷達(dá)圖雷達(dá)圖是以從同一點(diǎn)開(kāi)始的軸上表示的三個(gè)或更多個(gè)定量變量的二維圖表的形式表示多變量數(shù)據(jù)的圖形方法。軸的相對(duì)位置和角度通常是無(wú)信息的,如三大費(fèi)用雷達(dá)圖。組合圖組合圖是將兩種圖形合并在一起的單個(gè)可視化效果。將兩種圖表合并為一個(gè)圖表可以進(jìn)行更快、更全面的數(shù)據(jù)比較。步驟一:點(diǎn)擊左側(cè)【分析設(shè)計(jì)】-【新建】,進(jìn)入“新建故事板”頁(yè)面,將故事板名稱命名為“分析云初體驗(yàn)”(該處名稱自定義),選擇保存目錄為“我的故事板”。步驟二:點(diǎn)擊【確認(rèn)】按鈕后,進(jìn)入故事板設(shè)計(jì)頁(yè)面,點(diǎn)擊【可視化】-【新建】,系統(tǒng)彈出“選擇數(shù)據(jù)集”對(duì)話框,選擇數(shù)據(jù)集為“我的數(shù)據(jù)”-“資產(chǎn)與利潤(rùn)關(guān)聯(lián)表”。一、建立總資產(chǎn)變動(dòng)趨勢(shì)圖任務(wù)一可視化設(shè)計(jì)步驟三:點(diǎn)擊【確定】按鈕后,進(jìn)入可視化看板設(shè)計(jì)頁(yè)面,將左側(cè)“年_年份”拖拽到右側(cè)的“維度”處,將左側(cè)的“資產(chǎn)總計(jì)”指標(biāo)拖拽到右側(cè)的“指標(biāo)”處,系統(tǒng)默認(rèn)的柱狀圖展示數(shù)據(jù)。步驟四:繼續(xù)調(diào)整時(shí)間排序方式,單擊維度“年份”下的向下箭頭,選擇“升序”-“年_年份”。二、計(jì)算指標(biāo)“資產(chǎn)負(fù)債率”步驟一:資產(chǎn)負(fù)債率是一個(gè)新指標(biāo),在原有的報(bào)表項(xiàng)目中沒(méi)有該指標(biāo),需要新增該指標(biāo)。點(diǎn)擊左側(cè)【指標(biāo)】右邊的+號(hào),出現(xiàn)【計(jì)算字段】,點(diǎn)擊【計(jì)算字段】,出現(xiàn)“添加字段”對(duì)話框。任務(wù)一可視化設(shè)計(jì)步驟二:設(shè)置名稱為“資產(chǎn)負(fù)債率”,字段類型為“數(shù)字”,公式為avg(負(fù)債合計(jì))/avg(資產(chǎn)總計(jì)),繼續(xù)點(diǎn)擊【確定】按鈕,完成新增字段設(shè)置。步驟三:將新建的“資產(chǎn)負(fù)債率”拖拽到指標(biāo)處。三、調(diào)整圖形顯示當(dāng)兩個(gè)指標(biāo)的數(shù)據(jù)相差很大時(shí),傳統(tǒng)的柱狀圖顯示就不再合適,可以選用“雙軸圖”,雙軸圖是指有多個(gè)(≥2)Y軸的數(shù)據(jù)圖表,多為柱狀圖+折線圖的結(jié)合,圖表顯示更為直觀。適合分析兩個(gè)相差較大的數(shù)據(jù)。在圖形區(qū)選擇“雙軸圖”圖標(biāo),圖形自動(dòng)變更為雙軸圖顯示。

任務(wù)一可視化設(shè)計(jì)四、設(shè)置過(guò)濾條件,只顯示近3年(2019、2020、2021)的數(shù)據(jù)步驟一:點(diǎn)擊【過(guò)濾】,彈出“添加過(guò)濾條件”對(duì)話框,其中點(diǎn)擊【按條件添加】,選擇“年_年份”,包含2019、2020、2021。步驟二:點(diǎn)擊【確定】,可視化圖形變更,只顯示2019、2020、2021年的數(shù)據(jù)值。

任務(wù)一可視化設(shè)計(jì)步驟三:將該看板的名稱修改為“公司資產(chǎn)狀況”。步驟四:點(diǎn)擊【保存】。將該看板設(shè)置保存成功,點(diǎn)擊【退出】?;氐焦适掳逶O(shè)置頁(yè)面,第一個(gè)可視化看板設(shè)計(jì)完成。步驟一:?jiǎn)螕簟究梢暬?【新建】,選擇數(shù)據(jù)集“客戶銷售情況表”

。步驟二:進(jìn)入可視化設(shè)計(jì)頁(yè)面,將當(dāng)前可視化對(duì)象命名為“客戶金額TOP5”,維度選擇“客戶檔案名稱”,指標(biāo)選擇“金額”。任務(wù)一可視化設(shè)計(jì)步驟三:將圖形改為“條形圖”,金額按升序排列。

步驟四:點(diǎn)擊【顯示設(shè)置】,勾選“顯示后”,值為5??蛻翡N售情況:步驟五:?jiǎn)螕簟颈4妗?,再單擊【退出】,完成看板設(shè)計(jì)?!咀⒁狻啃略龅目窗逵袝r(shí)會(huì)覆蓋已有的看板,選中新增看板,向右或向下拖動(dòng)即可顯示出被覆蓋的看板。一、設(shè)計(jì)客戶銷售區(qū)域全國(guó)分布圖步驟一:?jiǎn)螕簟究梢暬?【新建】,選擇數(shù)據(jù)集“客戶銷售情況表”。步驟二:進(jìn)入可視化看板設(shè)計(jì)頁(yè)面,維度選擇“省”,指標(biāo)選擇“金額”。任務(wù)一可視化設(shè)計(jì)步驟三:選擇圖形為餅圖。步驟四:設(shè)置顏色,將有銷售額的省份用不同的顏色顯示。點(diǎn)擊【顏色】,將“省”拖拽到顏色下面。比如我們想查看內(nèi)蒙古省份各個(gè)市區(qū)的銷售分布,可以通過(guò)設(shè)置‘層級(jí)’功能實(shí)現(xiàn)。二、數(shù)據(jù)鉆取,從省份穿透查詢到各市區(qū)的銷售分布步驟一:點(diǎn)擊左側(cè)【維度】右邊的+號(hào),單擊【層級(jí)】,系統(tǒng)彈出“鉆取層級(jí)”對(duì)話框。步驟二:層級(jí)名稱設(shè)置為“由省到市”,選中“省”“市”,點(diǎn)擊向右的箭頭,將其添加到右側(cè)框中,點(diǎn)擊【確定】。任務(wù)一可視化設(shè)計(jì)步驟三:回到可視化設(shè)計(jì)頁(yè)面,將維度“省”刪除,將新增層級(jí)“由省到市”拖拽到維度區(qū)。步驟四:在中國(guó)地圖上單擊內(nèi)蒙古,再將圖形設(shè)置為省份餅圖,即顯示內(nèi)蒙古的市區(qū)分布圖。步驟六:新增的“客戶銷售區(qū)域分布”圖顯示在故事板的左上側(cè),覆蓋了已有的圖表,可以選中該圖形,拖拽到右側(cè)空白區(qū)。步驟五;名稱命名為“客戶銷售區(qū)域

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論