商務智能與數(shù)據(jù)可視化分析基礎全套教學課件_第1頁
商務智能與數(shù)據(jù)可視化分析基礎全套教學課件_第2頁
商務智能與數(shù)據(jù)可視化分析基礎全套教學課件_第3頁
商務智能與數(shù)據(jù)可視化分析基礎全套教學課件_第4頁
商務智能與數(shù)據(jù)可視化分析基礎全套教學課件_第5頁
已閱讀5頁,還剩346頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第1章概述商務智能與數(shù)據(jù)可視化分析基礎全套可編輯PPT課件1本章內(nèi)容商務智能概述

商務智能的定義與本質商務智能的發(fā)展與技術商務智能的應用與實施數(shù)據(jù)可視化概述

數(shù)據(jù)可視化的相關概念

數(shù)據(jù)可視化的應用場景數(shù)據(jù)可視化的主流工具201商務智能的定義與發(fā)展商務智能的定義與本質

商務智能的發(fā)展與技術商務智能的應用與實施概述商務智能(BusinessIntelligence,BI),也譯作商業(yè)智能或商業(yè)智慧。早在1996年,加特納集團(GartnerGroup)認為“商務智能描述了一系列的概念和方法,通過應用基于事實的支持系統(tǒng)來輔助商業(yè)決策的制定”。從上述定義可知,系統(tǒng)與輔助決策是商務智能的核心與關鍵。此后,眾多BI研究機構、企業(yè)和學者從不同視角對商務智能進行了定義。1.1商務智能的定義與本質31.2商務智能的定義商務智能(BusinessIntelligence,BI),較有代表性的定義41.2商務智能的定義關于商務智能(BusinessIntelligence,BI),較有代表性的定義來

源定

義IBM商務智能是一系列技術支持的簡化信息收集、分析的策略結合,它應該包括企業(yè)需要收集什么信息、誰需要去訪問這些數(shù)據(jù)、如何把原始數(shù)據(jù)轉化為最終導致戰(zhàn)略性決策的智能、客戶服務和供應鏈管理Microsoft商務智能是任何嘗試獲取、分析企業(yè)數(shù)據(jù)以更清楚地了解市場和客戶、改進企業(yè)流程、更有效地參與競爭的努力。在正確的時間向正確的決策者提供正確的信息,商業(yè)智能使企業(yè)用更好的時間做出比以前更好的決策DataWarehouseInstitute商務智能是將數(shù)據(jù)轉化為知識,將知識轉化為商業(yè)運營以獲取收益的過程Oracle商務智能是一種商務戰(zhàn)略,能夠持續(xù)不斷地對企業(yè)經(jīng)營理念、組織結構和業(yè)務流程進行重組,實現(xiàn)以顧客為中心的自動化管理SAP商務智能是收集、存儲、分析和訪問數(shù)據(jù)以幫助企業(yè)更好決策的技術IDC商務智能是下列軟件工具的集合:終端用戶查詢和報告工具、聯(lián)機分析處理工具、數(shù)據(jù)挖掘軟件、數(shù)據(jù)集市和數(shù)據(jù)倉庫產(chǎn)品、主管信息系統(tǒng)Teradata商務智能的目的是幫助決策者制定消息靈通的選擇。因此,現(xiàn)代商業(yè)智能系統(tǒng)必須能處理海量的、詳細的、全異的數(shù)據(jù)并快速將其轉化為有意義的、準確、決策者可以放心執(zhí)行的信息帆軟商務智能是在打通企業(yè)數(shù)據(jù)孤島,實現(xiàn)數(shù)據(jù)集成和統(tǒng)一管理的基礎上,利用數(shù)據(jù)倉庫、數(shù)據(jù)可視化與分析技術,將指定的數(shù)據(jù)轉化為信息和知識的解決方案,其價值體現(xiàn)在滿足企業(yè)不同人群對數(shù)據(jù)查詢、分析和探索的需求,從而為管理和業(yè)務提供數(shù)據(jù)依據(jù)和決策支持趙衛(wèi)東商務智能是融合了先進信息技術與創(chuàng)新管理理念的結合體,集成了企業(yè)內(nèi)外的數(shù)據(jù),經(jīng)過加工并從中提取能夠創(chuàng)造商業(yè)價值的信息,面向企業(yè)戰(zhàn)略并服務于管理層、業(yè)務層,指導企業(yè)經(jīng)營決策,提升企業(yè)競爭力,涉及企業(yè)戰(zhàn)略、管理思想、業(yè)務整合和技術體系等層面,促進信息到知識再到利潤的轉變,從而實現(xiàn)更好的績效51.3商務智能的內(nèi)涵商務智能的內(nèi)涵商務智能通過對輸入的數(shù)據(jù)和關系進行數(shù)據(jù)挖掘,運用數(shù)據(jù)清洗、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)預測與數(shù)據(jù)可視化等方法與技術,形成有價值的商務信息、可視化報表和決策方案等產(chǎn)物,從而達到優(yōu)化運營管理與輔助科學決策的目的。6商務智能的產(chǎn)生源自商務活動信息的處理,早期的企業(yè)管理信息系統(tǒng),如:辦公自動化(OfficeAutomation,OA)、客戶關系管理(CustomerRelationshipManagement,CRM)、供應鏈管理(SupplyChainManagement,SCM)等,積累了大量的數(shù)據(jù),為“數(shù)據(jù)→信息→知識→價值”的轉換和智能科學決策提供了基礎。數(shù)據(jù)到價值的轉換如下圖。1.4商務智能的本質71.5商務智能的本質由于價值的發(fā)現(xiàn)與智慧密切相關,因而數(shù)據(jù)到價值的轉換過程,往往蘊涵著“數(shù)據(jù)→信息→知識→智慧”的加工過程,四者的相互關系如右圖所示。8在“數(shù)據(jù)→信息→知識→智慧”的加工過程中,其分別是指:1.數(shù)據(jù):是對現(xiàn)實客觀事物的數(shù)量、屬性、位置等特征進行的抽象化表示,以便于保存、傳遞和處理。數(shù)據(jù)的形式即包括常見的符號數(shù)據(jù)、文字數(shù)據(jù),也包括聲音數(shù)據(jù)、圖像數(shù)據(jù)、視頻數(shù)據(jù)等尚未加工過的初始素材。例如:數(shù)字2000。2.信息:是一種經(jīng)過加工處理后的數(shù)據(jù),融入了人們對現(xiàn)實客觀事物的數(shù)量、屬性、位置等特征的認識,具有時效性。例如:今日小米手機的價格為2000元。3.知識:是對信息進行歸納、演繹、比較等加工提煉后的抽象描述,它來源于信息,并進行了挖掘,用以發(fā)現(xiàn)隱藏的趨勢。它與已有的知識體系相結合,描述的是客觀事物的發(fā)展變化和運動狀態(tài)變化的規(guī)律,具有系統(tǒng)性、規(guī)律性和可預測性的特點。4.智慧:人類作為高智慧生物,具有在已有知識和獲得的信息基礎上,針對客觀物質世界中產(chǎn)生的問題,進行分析、對比、演繹找出解決方案的能力。1.6商務智能的本質示例:數(shù)據(jù):年齡18歲,其中18歲就是典型的數(shù)據(jù)。信息:今年18歲。知識:大一學生的平均年齡是18歲。智慧:大一學生的年齡大約是18歲。9商務智能的發(fā)展與信息系統(tǒng)的發(fā)展密切相關,早期的事務處理系統(tǒng)(TransactionProcessingSystem,TPS)、管理信息系統(tǒng)(ManagementInformationSystems,MIS)和決策支持系統(tǒng)(DecisionSupportSystem,DSS)等可看成是商務智能發(fā)展的前身。與商務智能發(fā)展相關的概念和詞語:事務:是指企業(yè)或機構等組織中日常發(fā)生的、具有重復性的基本業(yè)務活動。事務處理系統(tǒng):是指幫助操作者處理企業(yè)或機構等組織中日常事務的系統(tǒng)。如入庫登記事務處理系統(tǒng)、訂單事務處理系統(tǒng)等。管理信息系統(tǒng):是指以人為主導、利用計算機設備和信息處理手段、管理信息的系統(tǒng),如客戶關系管理信息系統(tǒng)、生產(chǎn)管理信息系統(tǒng)等。決策支持系統(tǒng):是指輔助決策者通過數(shù)據(jù)、模型和知識,以人機交互方式進行半結構化或非結構化決策的計算機應用系統(tǒng)。如物流調(diào)度決策支持系統(tǒng)、臨床決策支持系統(tǒng)等。1.7商務智能的發(fā)展101.8商務智能的發(fā)展傳統(tǒng)BI階段:此階段為第一代BI,其特點是對使用者的IT技能要求高,業(yè)務數(shù)據(jù)的挖掘能力較弱,與業(yè)務匹配的智能程度低,以報表平臺的方式給使用者提供服務。敏捷BI階段:此階段的BI對使用者的IT技能要求比傳統(tǒng)BI階段的要低,可為具有一定IT技能的業(yè)務人員提供服務,融入了業(yè)務匹配,雖然智能程度一般,但已經(jīng)具有一定的業(yè)務數(shù)據(jù)挖掘能力,以自助式數(shù)據(jù)分析平臺的方式給使用者提供服務。智能BI階段:該階段的服務面向全體業(yè)務人員,幫助業(yè)務人員在業(yè)務理解的基礎上,輕松發(fā)現(xiàn)數(shù)據(jù)的價值,并且將IT人員解放出來,讓他們回歸本位,專注數(shù)據(jù)挖掘技術與智能解決方案,實現(xiàn)由IT驅動業(yè)務發(fā)展走向數(shù)據(jù)驅動業(yè)務發(fā)展模式。BI發(fā)展各階段特點11商務智能的實現(xiàn)體現(xiàn)了原始數(shù)據(jù)到知識產(chǎn)生的過程,該過程的實現(xiàn)與技術密切相關。從技術架構上來看,商務智能采用的是分層的架構,包括數(shù)據(jù)底層、數(shù)據(jù)分析層和數(shù)據(jù)展示層。1.9商務智能的技術架構1.數(shù)據(jù)展示層:豐富的報表和圖表數(shù)據(jù)以可視化的方式呈現(xiàn),用戶可以通過電腦、手機、平板等媒介的瀏覽器來直觀瀏覽,從而能夠更好地決策。2.數(shù)據(jù)分析層:通過查詢、聯(lián)機分析處理、數(shù)據(jù)挖掘及可視化等方法抽取數(shù)據(jù)倉庫中的數(shù)據(jù),并進行分析,形成有價值的信息和知識。3.數(shù)據(jù)底層:負責管理數(shù)據(jù),包括數(shù)據(jù)采集、數(shù)據(jù)抽取、轉換、裝載(ExtractTransformLoad,ETL)、以及數(shù)據(jù)倉庫構建等環(huán)節(jié)。12商務智能的核心技術包括數(shù)據(jù)倉庫技術、聯(lián)機分析處理技術、數(shù)據(jù)挖掘、大數(shù)據(jù)技術和可視化技術等。(1)數(shù)據(jù)倉庫技術

數(shù)據(jù)倉庫(DataWarehouse,DW)與一般的數(shù)據(jù)庫管理技術的不同之處在于它可以處理海量的數(shù)據(jù),并且能采用ETL技術,即提?。‥xtract)、轉換(Transform)、加載(Load)等加工操作,將來自不同數(shù)據(jù)源的分散數(shù)據(jù)進行集成,系統(tǒng)地規(guī)范化處理,有效地解決源數(shù)據(jù)之間的不一致性。1.10商務智能的核心技術數(shù)據(jù)倉庫技術的特點13(2)聯(lián)機分析處理技術

聯(lián)機分析處理是一種用于組織大型業(yè)務數(shù)據(jù)庫的技術,它可用來執(zhí)行復雜的分析查詢,并且不會對事務系統(tǒng)產(chǎn)生負面影響。OLAP建立在多維數(shù)據(jù)集的基礎上,將多維數(shù)據(jù)分為維度與度量,從不同維度對數(shù)據(jù)進行切片、切塊、鉆取、旋轉等。1.11商務智能的核心技術聯(lián)機分析處理技術的特點14(3)數(shù)據(jù)挖掘技術

數(shù)據(jù)挖掘技術以統(tǒng)計學為基礎理論,通過使用計算機技術從大量、雜亂的數(shù)據(jù)中發(fā)現(xiàn)隱藏的、有價值的信息,是一種決策支持過程。根據(jù)機器學習的任務分類,數(shù)據(jù)挖掘的主要方法包括監(jiān)督學習和無監(jiān)督學習,監(jiān)督學習方法是對一個特定屬性的描述,包括分類、回歸、預測等;無監(jiān)督學習方法是在所有屬性中尋找某種關系,包括聚類、關聯(lián)規(guī)則等。1.12商務智能的核心技術數(shù)據(jù)挖掘技術的特點15(4)大數(shù)據(jù)技術

大數(shù)據(jù)(BigData)是指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。大數(shù)據(jù)具有5V特征,即Volume(規(guī)模量)、Variety(多樣性)、Velocity(高速流轉)、價值性(Value)、真實性(Veracity)。顧名思義,大數(shù)據(jù)技術就是對大數(shù)據(jù)進行收集、存儲、處理、分析的相關技術。BI引入大數(shù)據(jù)技術,旨在從大數(shù)據(jù)中快速獲取價值。(5)數(shù)據(jù)可視化技術

數(shù)據(jù)可視化技術(DataVisualization)是借助圖形化手段,以交互、清晰的方式呈現(xiàn)數(shù)據(jù)特征的一種信息技術,它在計算機圖形技術上融入人們對圖形的認知能力,將枯燥、雜亂的信息美化成圖形,使信息以更加直觀的方式呈現(xiàn),實現(xiàn)用戶對數(shù)據(jù)的深入了解,具有信息傳遞快速、可理解性強、交互簡潔等特點。優(yōu)秀的數(shù)據(jù)可視化作品往往是建立在深厚的美學和藝術學基礎上的。1.13商務智能的核心技術16商務智能的目標是要將數(shù)據(jù)轉化為信息并輔助決策。在進行BI選型時,需要注意BI產(chǎn)品功能與新興信息技術的融合,根據(jù)企業(yè)自身實際情況,從企業(yè)信息化水平和自身需求出發(fā),選擇和實施BI。1.14商務智能的技術趨勢17隨著烏卡時代(Volatile,Uncertain,Complex,Ambiguous,VUCA)的來臨,在具有不確定性、突變的商業(yè)市場環(huán)境下,企業(yè)為了生存與發(fā)展,需要在復雜多變的情況下做出迅速的反應才能贏得先機,因而實施決策智能化,將數(shù)據(jù)轉換為價值,已成為企業(yè)發(fā)展的必然選擇。(1)決策依據(jù)更為科學,管理水平得到提升在傳統(tǒng)的粗放式管理模式下,企業(yè)在進行決策時較為主觀,往往依靠經(jīng)驗,這樣決策形成的效果大多依賴于運氣,大有“聽天由命”的感覺。因此,基于商務智能分析數(shù)據(jù),能夠及時預測市場變化,更好地發(fā)現(xiàn)問題并作出反應,使決策依據(jù)更科學,幫助管理者更理性地決策,可以有效避免盲目決策的弊端,提升管理水平。1.15商務智能的應用與實施18(2)業(yè)務分析更精準,業(yè)務優(yōu)化有的放矢因歷史原因沉淀下來的多個業(yè)務系統(tǒng)的歷史數(shù)據(jù),難度和復雜性大大增加。面對來源迥異、數(shù)據(jù)維度和粒度不一的數(shù)據(jù),往往需要專業(yè)的IT部門人員的幫助。商務智能建立在數(shù)據(jù)倉庫基礎上,可以屏蔽不同業(yè)務系統(tǒng)的數(shù)據(jù)維度、粒度、格式等不一致性分析人員只需專注于業(yè)務的本身,業(yè)務分析的目標也更加明確與聚焦,在業(yè)務優(yōu)化上能更好地“有的放矢”,業(yè)務分析的效率也更高。(3)打通數(shù)據(jù)壁壘,共享數(shù)據(jù)價值“數(shù)據(jù)孤島”是很多企業(yè)會遇到的問題各業(yè)務系統(tǒng)的接口不一、格式標準不同等,導致數(shù)據(jù)無法共享為了完成業(yè)務分析,僅在數(shù)據(jù)整合上的開銷就很多。已經(jīng)完成數(shù)據(jù)清洗、抽取的商務智能,提供了接口,方便地實現(xiàn)了數(shù)據(jù)共享,打通了企業(yè)各業(yè)務系統(tǒng)間的數(shù)據(jù)壁壘,使得各部門都能共享數(shù)據(jù)。1.16商務智能的應用與實施19商務智能在實施應用中也曝露出一些問題需要引起重視,主要如下:(1)企業(yè)在商務智能實施中,缺乏系統(tǒng)性思維(2)企業(yè)自身需求和業(yè)務功能不清晰(3)IT部門參與太多(4)商務智能專業(yè)人才缺乏(5)基礎數(shù)據(jù)的質量不高(6)系統(tǒng)的擴容性、友好性不足(7)實施團隊實力有限1.17商務智能實施中出現(xiàn)的問題202102數(shù)據(jù)可視化概述數(shù)據(jù)可視化的相關概念

數(shù)據(jù)可視化的應用場景數(shù)據(jù)可視化的主流工具概述結構化數(shù)據(jù)非結構化數(shù)據(jù)數(shù)據(jù)空間數(shù)據(jù)開發(fā)數(shù)據(jù)分析信息可視化科學可視化2.1數(shù)據(jù)可視化的相關概念22結構化數(shù)據(jù):是指以關系型數(shù)據(jù)庫表形式管理的數(shù)據(jù)。例如,商品信息表2.2數(shù)據(jù)可視化的相關概念23非結構化數(shù)據(jù):是指數(shù)據(jù)結構不規(guī)則或不完整,沒有預定義的數(shù)據(jù)模型,不方便使用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù),如文本數(shù)據(jù)、文檔、圖片、各類報表、音頻、視頻數(shù)據(jù)等。數(shù)據(jù)空間:是指由n維屬性和m個元素組成的數(shù)據(jù)集構成的多維信息空間。數(shù)據(jù)開發(fā):是指利用一定的算法和工具對數(shù)據(jù)進行定量的推演和計算。數(shù)據(jù)分析:是指對多維數(shù)據(jù)進行切片、切塊、旋轉等動作剖析數(shù)據(jù),從而可以多角度、多側面地觀察數(shù)據(jù)。2.3數(shù)據(jù)可視化的相關概念24信息可視化:是指在研究大規(guī)模非數(shù)值型信息資源的視覺呈現(xiàn),它處理的對象主要是非結構化、非幾何的抽象數(shù)據(jù),如文本信息的可視化、城市平面地圖、網(wǎng)絡信息可視化等。科學可視化:是指在研究科學和工程領域數(shù)據(jù),如三維空間坐標數(shù)據(jù)、醫(yī)學影像數(shù)據(jù)等,重點探索如何以幾何、拓撲和形狀特征來呈現(xiàn)立體空間數(shù)據(jù)中蘊含的規(guī)律。2.4數(shù)據(jù)可視化的相關概念252.5數(shù)據(jù)可視化的應用場景262.6數(shù)據(jù)可視化的應用場景金融行業(yè)企業(yè)經(jīng)營數(shù)據(jù)可視化應用:展示企業(yè)的財務狀況、投入產(chǎn)出效率,也可以展示用戶畫像、客戶風險等級、數(shù)據(jù)運行趨勢等信息。通過數(shù)據(jù)可視化分析,能夠實時監(jiān)測股票、期貨等金融市場的變化,預測市場趨勢及分析投資組合等,從而可以快速地了解行情和風險,以便做出合理的投資決策。外貿(mào)行業(yè)企業(yè)經(jīng)營數(shù)據(jù)可視化應用:貨物和服務出口量、出口市場的區(qū)域分布、出口市場結構、主要出口國的政策變化等方面的內(nèi)容。通過數(shù)據(jù)可視化分析,企業(yè)不僅可以實時查看出口的主要市場動態(tài),對市場需求進行有效分析,還可以及時地察覺到可能出現(xiàn)的潛在風險并及時地做出反應,提高決策效率。272.7數(shù)據(jù)可視化的應用場景大型連鎖超市經(jīng)營數(shù)據(jù)可視化應用:可對商品信息、會員購買情況、區(qū)域銷售情況、超市門店收入和成本支出等內(nèi)容進行數(shù)據(jù)可視化分析。通過數(shù)據(jù)可視化分析,超市管理層人員能夠實時監(jiān)控銷售數(shù)據(jù),以便根據(jù)銷售變化來及時調(diào)整商品采購結構、運營策略和營銷策略,從而提高銷售量并提升銷售利潤。醫(yī)療疾病數(shù)據(jù)可視化應用:可對每日就診人數(shù)、醫(yī)生門診信息、藥品用量、住院信息等內(nèi)容進行數(shù)據(jù)可視化分析。通過數(shù)據(jù)可視化分析開展醫(yī)療評估工作,醫(yī)院可以更好地進行醫(yī)療資源配置,降低看病成本,還可以分析當前易發(fā)疾病種類,有助于相關醫(yī)療部門及時部署醫(yī)療衛(wèi)生資源。282.8數(shù)據(jù)可視化的應用場景景點實時數(shù)據(jù)可視化應用:可實時地對客流總數(shù)、歷史客流、各時段客流人數(shù)、游客停留時長等內(nèi)容進行數(shù)據(jù)可視化展示與分析。通過數(shù)據(jù)可視化分析,景區(qū)管理者可以對重點景點的客流量進行實時監(jiān)測和預警處理,從而提高危機處置能力,并提高管理者的決策指揮效率。展會實時數(shù)據(jù)可視化應用:可對展會人流量、展臺人流量、觀眾行為軌跡、觀眾興趣點等信息使用數(shù)據(jù)可視化技術進行直觀顯示,不僅可以使展會管理者了解參觀者的消費習慣和消費行為,從而實施精準營銷,提升展覽的展示效果,而且能夠為展會現(xiàn)場的管理、安保等工作提供依據(jù),以便管理者做出更加準確、高效的決策。29數(shù)據(jù)可視化工具與BI工具、數(shù)據(jù)挖掘工具的功能存在交集,三者之間的聯(lián)系如下2.9數(shù)據(jù)可視化的主流工具302.10各類BI工具展示——PowerBIPowerBI是用于分析數(shù)據(jù)和共享見解的一套業(yè)務分析工具,它的操作與Excel類似,也是基于菜單進行操作,但是它比Excel展現(xiàn)的圖表更豐富312.11各類BI工具展示——TableauTableau采用拖放式界面,操作簡單。數(shù)據(jù)兼容性強,適用于多種數(shù)據(jù)文件與數(shù)據(jù)庫,同時也兼容多平臺,windows、mac均可使用。322.12各類BI工具展示——帆軟BI帆軟BI作為純國產(chǎn)軟件,其具有多種圖表可供用戶選擇,同時還提供給用戶較友好的智能圖表推薦功能332.13各類BI工具展示—SPSSModerlerSPSSModerler支持平面文件、電子表格、主流關系型數(shù)據(jù)庫,以及決策樹、神經(jīng)網(wǎng)絡、支持向量機和回歸模型等機器學習算法,能夠有效幫助用戶從網(wǎng)絡文本、客戶反饋和社交媒體評論中捕獲信息,發(fā)現(xiàn)與挖掘隱藏的價值。34思考題(1)商務智能可以從哪幾方面來理解?(2)簡單闡述商務智能的發(fā)展歷程。(3)商務智能的核心技術有哪些?請談談你對它的理解。(4)結合實際談談商務智能對企業(yè)的價值。(5)主流的數(shù)據(jù)可視化工具有哪些?35第2章數(shù)據(jù)智能與數(shù)據(jù)庫基礎商務智能與數(shù)據(jù)可視化分析基礎本章內(nèi)容數(shù)據(jù)智能的相關概念

信息化、數(shù)字化與數(shù)智化大數(shù)據(jù)、人工神經(jīng)網(wǎng)絡與人工智能數(shù)據(jù)決策、智能決策與決策支持系統(tǒng)數(shù)據(jù)庫基礎

數(shù)據(jù)庫系統(tǒng)

數(shù)據(jù)體系結構數(shù)據(jù)模型數(shù)據(jù)庫范式

概念模型3701數(shù)據(jù)智能的相關概念信息化數(shù)字化數(shù)智化數(shù)據(jù)智能與數(shù)據(jù)庫基礎38數(shù)據(jù)智能(DataIntelligence,DI),從字面上可以理解為大數(shù)據(jù)(BigData)與人工智能(ArtificialIntelligence)的相加。1.1數(shù)據(jù)智能39數(shù)據(jù)智能(DataIntelligence,DI)指基于大數(shù)據(jù)引擎,通過大規(guī)模機器學習和深度學習等技術,對海量數(shù)據(jù)進行處理、分析和挖掘,提取數(shù)據(jù)中所包含的有價值的信息和知識,使數(shù)據(jù)具有“智能”,并通過建立模型尋求現(xiàn)有問題的解決方案以及實現(xiàn)預測等。數(shù)據(jù)智能的相關概念信息化、數(shù)字化、數(shù)智化、大數(shù)據(jù)、人工神經(jīng)網(wǎng)絡、人工智能、數(shù)據(jù)

決策、智能決策與決策支持系統(tǒng)等。1.2數(shù)據(jù)智能40信息化:通過將物理世界的信息和數(shù)據(jù)轉換為計算機能讀懂的信息,以供計算機調(diào)用的過程。信息化的核心和本質是運用計算機、數(shù)據(jù)庫等信息技術,實現(xiàn)企業(yè)的業(yè)務流程數(shù)據(jù)管理。例如,將客戶信息、商品信息等物理世界的信息轉變?yōu)閿?shù)字世界的結構性描述,以供用戶查閱和決策,達到提高效率、降低成本的目的。1.3信息化41數(shù)字化:就是對信息進行數(shù)字表示的過程,即利用數(shù)字技術將文字、圖像等一些復雜的信息轉變?yōu)榭梢远攘康臄?shù)字與數(shù)據(jù),并基于上述數(shù)據(jù)建立數(shù)字化模型,以供用戶使用。數(shù)字化的核心是運用數(shù)據(jù)分析、云計算等技術,實現(xiàn)企業(yè)的業(yè)務創(chuàng)新,其重點關注的是“數(shù)據(jù)驅動業(yè)務”。信息化與數(shù)字化的對比1.4數(shù)字化42數(shù)智化側重于數(shù)字技術的應用,強調(diào)的是利用數(shù)字技術、數(shù)據(jù)分析來改善業(yè)務流程、決策和績效,進行智能決策服務。它以科技創(chuàng)新和數(shù)據(jù)驅動為基礎,通過各種數(shù)字技術和工具實現(xiàn)企業(yè)各項業(yè)務與流程的智能化和自動化,從而提高績效和競爭力。數(shù)字化是技術概念,強調(diào)的是通過計算機、移動通信、人工智能、大數(shù)據(jù)等技術將業(yè)務過程中產(chǎn)生的信息以數(shù)字或數(shù)據(jù)的形式采集、處理、存儲、傳輸、分析和應用的過程。1.5數(shù)智化434402數(shù)據(jù)智能的相關概念大數(shù)據(jù)人工神經(jīng)網(wǎng)絡人工智能數(shù)據(jù)智能與數(shù)據(jù)庫基礎大數(shù)據(jù)的5V特點:Volume(規(guī)模量):數(shù)據(jù)規(guī)模量足夠大,大數(shù)據(jù)的起始計量單位往往是以PB(1000個TB)、EB(100萬個TB)或ZB(10億個TB)來衡量的。Variety(多樣性):數(shù)據(jù)的種類和來源多樣化,涉及結構化、半結構化和非結構化數(shù)據(jù),具體表現(xiàn)為數(shù)字、文本、圖片、音頻、視頻、日志文件、地理位置信息等。Value(價值性):數(shù)據(jù)價值密度相對較低,由于數(shù)據(jù)價值是隱藏在海量信息中的,要求具有足夠強的數(shù)據(jù)挖掘能力,方能“大浪淘沙始見金”。Velocity(高速流轉):數(shù)據(jù)能夠快速流轉,對時效性的要求高。例如,視頻點播需要實時為用戶播放點播的視頻數(shù)據(jù)文件;快速流轉與時效性是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。Veracity(真實性):數(shù)據(jù)的真實性和準確性。2.1大數(shù)據(jù)45人工神經(jīng)網(wǎng)絡是由大量處理單元互聯(lián)組成的非線性、自適應信息處理系統(tǒng),它是人腦的抽象、簡化,通過模擬大腦神經(jīng)網(wǎng)絡進行決策。人工神經(jīng)網(wǎng)絡的三要素指的是神經(jīng)元模型、網(wǎng)絡模型、網(wǎng)絡的學習規(guī)則。人工神經(jīng)網(wǎng)絡由輸入層、隱含層和輸出層組成。典型的三層架構的人工神經(jīng)網(wǎng)絡2.2人工神經(jīng)網(wǎng)絡46人工智能是研究用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統(tǒng)的一門新的技術科學。它試圖了解智能的實質,并生產(chǎn)出一種新的、能以與人類智能相似的方式做出反應的智能機器。機器人、語言識別、圖像識別、自然語言處理等均屬于其研究范疇。2.3人工智能474803數(shù)據(jù)智能的相關概念

數(shù)據(jù)決策智能決策決策支持系統(tǒng)數(shù)據(jù)智能與數(shù)據(jù)庫基礎數(shù)據(jù)決策(DataDecisionMaking)是指企業(yè)運用數(shù)據(jù)分析手段,對數(shù)據(jù)資源進行挖掘和分析,從而形成決策建議與實施方案,為探索未知、求解問題提供思維方法。與傳統(tǒng)的經(jīng)驗決策不同,企業(yè)憑借數(shù)據(jù)決策往往能夠更有效地發(fā)現(xiàn)問題和解決問題,其決策效果通常比傳統(tǒng)的基于少量樣本而進行的經(jīng)驗決策更好。3.1數(shù)據(jù)決策49智能決策(IntelligentDecision)是組織或個人綜合利用多種智能技術和工具,基于既定目標,對相關數(shù)據(jù)進行建模、分析并得到?jīng)Q策的過程。該過程綜合了約束條件、策略、偏好、不確定性等因素,可自動實現(xiàn)最優(yōu)決策,以解決復雜的生產(chǎn)、生活問題。智能決策的本質是對決策的質量和速度進行優(yōu)化。3.2智能決策50決策支持系統(tǒng)(DecisionSupportSystem)是基于數(shù)據(jù)模型和領域專業(yè)知識建立起來的,以信息技術為手段,采用人機交互方式完成非結構化、半結構化的系統(tǒng),通常包括數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、模型庫系統(tǒng)、知識推理系統(tǒng)、用戶接口系統(tǒng)。3.3決策支持系統(tǒng)515204數(shù)據(jù)庫的基礎概念數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)體系結構數(shù)據(jù)模型數(shù)據(jù)智能與數(shù)據(jù)庫基礎數(shù)據(jù)庫系統(tǒng)是指帶有數(shù)據(jù)庫并利用數(shù)據(jù)庫技術進行數(shù)據(jù)存儲、管理、處理和維護的系統(tǒng)。通常由數(shù)據(jù)庫、數(shù)據(jù)庫管理系統(tǒng)、應用程序、數(shù)據(jù)庫管理員和用戶構成。4.1數(shù)據(jù)庫系統(tǒng)53數(shù)據(jù)庫是按照數(shù)據(jù)結構來組織、存儲和管理數(shù)據(jù)的倉庫,是一個長期存儲在計算機內(nèi)的、有組織的、可共享的、統(tǒng)一管理的大量數(shù)據(jù)的集合。數(shù)據(jù)庫管理系統(tǒng)(DatabaseManagementSystem,DBMS)是一種操縱和管理數(shù)據(jù)庫的軟件,用于建立、使用和維護數(shù)據(jù)庫。它對數(shù)據(jù)庫進行統(tǒng)一的管理和控制,以保證數(shù)據(jù)庫的安全性和完整性。主要功能包括數(shù)據(jù)的定義,數(shù)據(jù)的操作,數(shù)據(jù)庫的運行管理,數(shù)據(jù)的組織、存儲與管理,數(shù)據(jù)庫的維護,事務運行管理等。常用的數(shù)據(jù)庫管理系統(tǒng)有Access、SQLServer、MySQL、Oracle、PostgreSQL、DB2等。4.2數(shù)據(jù)庫與數(shù)據(jù)庫管理系統(tǒng)54數(shù)據(jù)定義:DBMS提供數(shù)據(jù)定義語言(DataDefinitionLanguage,DDL),供用戶定義數(shù)據(jù)庫的三級模式結構、兩級映像及完整性約束、保密限制等。DDL主要用于建立、修改數(shù)據(jù)庫的庫結構,常用的DDL語句:4.3數(shù)據(jù)庫管理系統(tǒng)55數(shù)據(jù)的操作:提供數(shù)據(jù)操作語言供用戶實現(xiàn)對數(shù)據(jù)的添加、刪除、更新、查詢等操作,上述操作對應的語言指令分別為Insert、Delete、Update、Select等。數(shù)據(jù)庫的運行管理:包括多用戶環(huán)境下的并發(fā)控制、安全性檢查和存取權限控制、完整性檢查、備份、運行日志管理、事務管理和自動恢復等。數(shù)據(jù)組織、存儲與管理:DBMS在分類組織、存儲和管理各種數(shù)據(jù)的數(shù)據(jù)字典、用戶數(shù)據(jù)、存取路徑等時,需要確定以何種文件結構和存取方式在存儲上組織這些數(shù)據(jù),以及如何實現(xiàn)數(shù)據(jù)之間的聯(lián)系。數(shù)據(jù)庫的維護:為數(shù)據(jù)庫管理員提供軟件支持,包括數(shù)據(jù)安全控制、完整性保障、數(shù)據(jù)庫備份、數(shù)據(jù)庫重組及性能監(jiān)控等維護工具。事務運行管理:提供事務運行管理及運行日志,事務運行的安全性監(jiān)控和數(shù)據(jù)完整性檢查,事務的并發(fā)控制及系統(tǒng)恢復等功能。應用程序:將包含訪問數(shù)據(jù)庫語句的應用程序,編譯成在DBMS支持下可運行的目標程序。數(shù)據(jù)庫管理員:通常由計算機水平較高、經(jīng)驗較豐富的資深人員擔任。用戶:DBMS的用戶包括程序員和操作終端的用戶。4.4數(shù)據(jù)庫管理系統(tǒng)56數(shù)據(jù)庫的數(shù)據(jù)體系結構由外模式、模式、內(nèi)模式三級構成,其間存在外模式/模式映像、模式/內(nèi)模式映像這兩級映像,數(shù)據(jù)庫通過三級結構和兩級映像,保證了數(shù)據(jù)庫中的數(shù)據(jù)具有較高的邏輯獨立性和物理獨立性。4.5數(shù)據(jù)體系結構57外模式:又稱子模式或用戶模式,是數(shù)據(jù)庫用戶能見到的局部數(shù)據(jù)的邏輯結構和特征的描述,是單個用戶要處理的數(shù)據(jù)集合,應用程序只與外模式進行交互。模式:又稱邏輯模式,是數(shù)據(jù)庫中全體數(shù)據(jù)的邏輯結構和特征的描述,是所有用戶的數(shù)據(jù)視圖,包括數(shù)據(jù)之間的聯(lián)系、數(shù)據(jù)的約束與安全性要求等。內(nèi)模式:又稱存儲模式,是數(shù)據(jù)物理結構和存儲方式的描述,是文件、索引和其他一些存儲結構的匯集,是數(shù)據(jù)在數(shù)據(jù)庫內(nèi)部的組織方式。一個數(shù)據(jù)庫只有一個內(nèi)模式。外模式/模式映像:當模式改變時,由數(shù)據(jù)庫管理員對各個外模式/模式的映像作相應改變,可以使外模式保持不變。應用程序是依據(jù)數(shù)據(jù)的外模式編寫的,從而應用程序不必修改,保證了數(shù)據(jù)和程序的邏輯獨立性,簡稱數(shù)據(jù)的邏輯獨立性。模式/內(nèi)模式映像:當數(shù)據(jù)庫的存儲結構改變時,由數(shù)據(jù)庫管理員對模式/內(nèi)模式映像作相應改變,可以使模式保持不變,從而應用程序也不必改變。保證了數(shù)據(jù)與程序的物理獨立性,簡稱數(shù)據(jù)的物理獨立性。數(shù)據(jù)的邏輯獨立性:修改了表結構(模式)只需要修改外模式和模式之間的映像,而不需要修改用戶程序.數(shù)據(jù)的物理獨立性:修改了數(shù)據(jù)的物理存儲方式,而表結構(模式)能保持不變。4.6數(shù)據(jù)體系結構58數(shù)據(jù)模型是信息模型在數(shù)據(jù)世界中的表示形式,它是對現(xiàn)實世界數(shù)據(jù)特征的抽象。數(shù)據(jù)模型分為三類:層次模型、網(wǎng)狀模型和關系模型。(1)層次模型4.7數(shù)據(jù)模型59(2)網(wǎng)狀模型4.8數(shù)據(jù)模型60(3)關系模型關系模型是采用二維表的形式表示實體和實體間聯(lián)系的數(shù)據(jù)模型,關系模式是建立在嚴格的數(shù)學概念的基礎上的。4.9數(shù)據(jù)模型61與關系模型相關的基本概念:?

元組:二維表中的一行,稱為一個元組。?

笛卡爾積:簡單說就是兩個集合相乘的結果。設A,B為集合,用A中元素為第一元素,B中元素為第二元素構成有序對,所有這樣的有序對組成的集合叫做A與B的笛卡爾積,記作A×B。用數(shù)學公式可表示為:A×B={(x,y)|x∈A∧y∈B},例:關系R,S,R×S的笛卡爾積如圖:4.10數(shù)據(jù)模型62關系操作:包括查詢和更新兩大類操作,其中常用的查詢操作有選擇、投影、連接、并、差、交、笛卡爾積等;更新操作有增加、刪除、修改等。

關系模型允許定義三類完整性約束:實體完整性、參照完整性和用戶定義的完整性。實體完整性規(guī)則:若屬性A是基本關系R的主屬性,則屬性A不能取空值。該規(guī)則規(guī)定基本關系的所有主屬性都不能取空值,而不僅是主碼整體不能取空值。參照完整性:如果屬性集K是關系模式R1的主鍵,K也是關系模式的R2的外鍵,那么在R2的關系中,K的取值只允許兩種可能,空值或者等于R1的關系中某個主鍵值。用戶定義完整性:用戶自己定義的約束條件,用以保證關系中的數(shù)據(jù)取值是合理的。例如:月份在1-12之間。4.11數(shù)據(jù)模型63數(shù)據(jù)庫范式,簡單來說就是為了消除重復數(shù)據(jù)減少冗余數(shù)據(jù),從而讓數(shù)據(jù)庫內(nèi)的數(shù)據(jù)更好地組織,讓磁盤空間得到更有效利用的一種標準化規(guī)范。在關系數(shù)據(jù)庫設計中,范式主要有第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、巴斯-科德范式(BCNF)、第四范式(4NF)和第五范式(5NF,又稱完美范式)。滿足高等級范式的先決條件是滿足低等級范式。在數(shù)據(jù)庫設計中,通常只需滿足第三范式即可。4.12數(shù)據(jù)庫范式64第一范式:關系中的所有分量不可再分,即數(shù)據(jù)庫表中的字段都是單一屬性的,不可再分。在任何一個關系數(shù)據(jù)庫中,第一范式(1NF)是對關系模式的基本要求,不滿足第一范式(1NF)的數(shù)據(jù)庫不是關系數(shù)據(jù)庫。4.13數(shù)據(jù)庫范式65第二范式:如果關系模式中的所有非主屬性都完全依賴于任意一個候選碼,則稱關系滿足第二范式,即表中的屬性必須完全依賴于全部主鍵。下圖中,規(guī)范前的選課表的主鍵為組合鍵(學號,課程號),由于學分則只依賴于部分主鍵“課程號”就可以確定了,因而違反了第二范式的要求。解決辦法是將其分成兩個關系模式。4.14數(shù)據(jù)庫范式66第三范式:數(shù)據(jù)庫中不能存在傳遞依賴關系。第三范式是指存在一個屬性,它所依賴的屬性既不是主碼也不是候選碼。從第三范式化前的表中可以看到工號、姓名、性別、學院、學院地址之間存在傳遞依賴關系,因而違反了第三范式。解決方法是將其分為兩個關系。4.15數(shù)據(jù)庫范式67BCNF范式:在3NF基礎上,任何非主屬性不能對主鍵子集依賴,它是第三范式(3NF)的一個子集。下表中,工號為主碼,登錄ID為候選碼,因為每個教師的登錄ID均不相同。而登錄密碼依賴于登錄ID而不依賴于工號,此表不符合BCNF范式。4.16數(shù)據(jù)庫范式68實體:客觀存在并可以相互區(qū)別的事物,實體可以是具體的人、事、物,也可以是抽象的概念或聯(lián)系。實體型:用實體名及其屬性名集合來抽象和刻畫同類實體。屬性:實體所具有的特性,對應于二維表中的列,一個實體可以由若干個屬性來刻畫。屬性的個數(shù)稱為關系的元或度,列的值稱為屬性值。聯(lián)系:在信息世界中聯(lián)系反映為實體型內(nèi)部的聯(lián)系和實體型之間的聯(lián)系,實體型內(nèi)部的聯(lián)系指組成實體型的各屬性之間的聯(lián)系,實體型之間的聯(lián)系指不同實體集之間的聯(lián)系。兩個實體型之間的聯(lián)系可以分為三類:1對1聯(lián)系(1:1)、一對多聯(lián)系(1:n)和多對多聯(lián)系(m:n)4.17概念模型69域:屬性的取值范圍,例如:性別的域={男,女}。候選鍵(碼):在關系的所有屬性中,可以唯一確定一個元組的某一屬性或某幾個屬性的組合。例如:學生的學號、身份證號。主鍵(碼):在一個關系的若干候選鍵中指定一個用來唯一標識該關系的元組,則稱這個被指定的候選鍵稱為主關鍵字,或簡稱為主鍵、關鍵字、主碼。每一個關系有且只有一個主鍵。外鍵(碼):表中的某個屬性組,雖然不是主鍵,但與另一個表中的主鍵相對應。例如:學生選課表中的課程編號,雖然不是主鍵,但它與課程表中的主鍵—課程編號相對應,因此,學生選課表中的課程編號屬性就是課程表的外鍵。實體-聯(lián)系(Entity-Relationship,E-R)方法:該方法直接從現(xiàn)實世界中抽象出實體和實體間的聯(lián)系,然后用E-R圖來表示數(shù)據(jù)模型。在E-R圖中,實體用方框表示;聯(lián)系用菱形表示,同時用邊將其與相應的實體連接起來,并在邊上標上聯(lián)系的類型;屬性用橢圓表示,并且用邊將其與相應的實體連接起來。4.18概念模型70繪制E-R圖的步驟:①確定實體;②確定各實體的屬性;③確定實體間聯(lián)系;④確定各聯(lián)系的屬性。例如:一個教學管理系統(tǒng)中有如下信息:

學生:學號,姓名,性別,年齡

課程:課程號,課程名,學分

班級:班級名,班主任

教師:工號,姓名其中約定:一個學生屬于一個班級,一個班級包括多名學生;一個學生可選修多門課程,一門課程可由多個學生選修,學生選修的每門課程均有相應的成績;一個教師可教授多門課程,一門課程僅由一個教師教授。根據(jù)上述信息,繪制該教學系統(tǒng)的E-R圖。概念模型714.19概念模型72教學系統(tǒng)的E-R圖思考題(1)請談談你對大數(shù)據(jù)5V特點的理解。(2)數(shù)據(jù)安全管理常用的實現(xiàn)方式有哪些?結合實例來說明。(3)目前數(shù)據(jù)庫中有一個待修改的學生表,該表包含的字段有學號、姓名、性別、年齡、所在學院、學院地址、學院聯(lián)系電話。如何修改該表,使其符合數(shù)據(jù)庫范式的第三范式?(4)某商業(yè)集團的銷售管理系統(tǒng)數(shù)據(jù)庫中有如下信息。商店:商店編號,商店名,地址。商品:商品編號,商品名,規(guī)格,單價。職工:工號,姓名,性別,業(yè)績。其中約定:一個商店可銷售多種商品,一種商品可在多個商店銷售,每個商店對銷售的每種商品按月進行銷量統(tǒng)計;一個商店有多個職工,一個職工僅在一個商店任職,商店聘用職工并向其支付月薪。根據(jù)以上情況,完成下述設計。①設計系統(tǒng)的E-R圖。②將E-R圖轉換為關系模式,并指定其中的主鍵和外鍵。73第3章數(shù)據(jù)分析基礎之Excel商務智能與數(shù)據(jù)可視化分析基礎75本章內(nèi)容數(shù)據(jù)透視表數(shù)據(jù)透視表的創(chuàng)建數(shù)據(jù)透視表的修改數(shù)據(jù)透視表的可視化Excel中的統(tǒng)計分析常用統(tǒng)計分析函數(shù)數(shù)據(jù)分析工具描述性統(tǒng)計分析相關分析預測分析Excel中的圖表類型與展示7601數(shù)據(jù)透視表數(shù)據(jù)透視表的創(chuàng)建數(shù)據(jù)透視表的修改數(shù)據(jù)透視表的可視化第3章數(shù)據(jù)分析基礎之Excel第一步:插入數(shù)據(jù)透視表。導入素材文件,切換到“Sheet1”工作表中,可看到該工作表中的源數(shù)據(jù)。點擊“插入”菜單欄,再單擊“數(shù)據(jù)透視表”按鈕,出現(xiàn)“來自表格或區(qū)域的數(shù)據(jù)透視圖”1.1數(shù)據(jù)透視表的創(chuàng)建Excel中的數(shù)據(jù)透視表是一種可以快速匯總、分析和處理大量數(shù)據(jù)的交互式表,它可以從不同角度對相同的數(shù)據(jù)進行處理和分析。數(shù)據(jù)透視表就像一個萬花筒,通過旋轉這個特別的萬花筒,可以從中獲得數(shù)據(jù)的不同視圖展現(xiàn),但原始數(shù)據(jù)并未發(fā)生變化。77第二步:在“表/區(qū)域”中選擇數(shù)據(jù)源所在的單元格區(qū)域或所在列。長按鼠標鍵拖動選擇A列到D列,表區(qū)域將顯示“Sheet1!$A:$D”1.2數(shù)據(jù)透視表的創(chuàng)建78第三步:點擊“現(xiàn)有工作表”,然后點擊“位置(L)”輸入框,讓光標停留在該框,并清空該框文本,接著鼠標任意單擊非數(shù)據(jù)源區(qū)域中的單元格,例如:鼠標單擊“F2”單元格,輸入框將自動填入“Sheet1!$F$2”,然后點擊【確定】按鈕1.3數(shù)據(jù)透視表的創(chuàng)建79第四步:添加字段到數(shù)據(jù)透視表中。在“數(shù)據(jù)透視表字段”任務窗勾選日期、質量等級和年三個,并且將日期拖放至“值”區(qū)域,年拖放至“列”區(qū)域,質量等級拖放至“行”區(qū)域1.4數(shù)據(jù)透視表的創(chuàng)建80第五步:查看數(shù)據(jù)透視表報表。在之前選擇的位置“F2”,顯示了添加字段后的數(shù)據(jù)透視表報表。1.5數(shù)據(jù)透視表的創(chuàng)建81(1)透視表中行的拖動選中要移動的字段“中度污染”,將鼠標指針移至該單元格的下邊框線上,此時可看到鼠標指針變?yōu)槭中螤?;接著勾選該字段的復選框。按住鼠標左鍵,將該字段拖放至“嚴重污染”字段單元格的上邊框線上。1.6數(shù)據(jù)透視表的修改82(2)透視表中列的排序除了可以對行進行拖動,還可以對某列的數(shù)值進行排序,例如,需要將2017年的分布數(shù)據(jù)降序排列,則使用鼠標右擊“2017年”列中的任意單元格,在彈出的快捷菜單中選擇“排序”→“降序”選項即可。1.7數(shù)據(jù)透視表的修改83Excel中創(chuàng)建數(shù)據(jù)透視圖的方法很方便,具體的操作步驟如下,首先選中之前創(chuàng)建的數(shù)據(jù)透視表,然后單擊“數(shù)據(jù)透視表分析”→“數(shù)據(jù)透視圖”按鈕。1.8數(shù)據(jù)透視表的可視化84簇狀柱形圖1.9數(shù)據(jù)透視表的可視化858602Excel中的統(tǒng)計分析常用統(tǒng)計分析函數(shù)數(shù)據(jù)分析工具描述性統(tǒng)計分析相關分析預測分析第3章數(shù)據(jù)分析基礎之Excel在統(tǒng)計學中對原始數(shù)據(jù)進行一定的運算,得出某些代表性的數(shù)字,以反映數(shù)據(jù)某些方面的特征,這種數(shù)字稱為統(tǒng)計量。常見的統(tǒng)計量見下:

總數(shù):在一組數(shù)據(jù)中,所有數(shù)值的合計數(shù)。

最大值:在一組數(shù)據(jù)中,數(shù)值變量的最大值。

最小值:在一組數(shù)據(jù)中,數(shù)值變量的最小值。

極差:在一組數(shù)據(jù)中,數(shù)值變量的最大值與最小值的差值。

算術平均值:反映出的是一組數(shù)據(jù)的數(shù)學期望值。

算術平均值的計算公式:

中位數(shù):又稱中值,是按順序排列的一組數(shù)據(jù)中居于中間位置的數(shù),代表一個樣本、種群或概率分布中的一個數(shù)值,其可將數(shù)值集合劃分為相等的上下兩部分。對于有限的數(shù)集,可以通過把所有觀察值高低排序后找出正中間的一個作為中位數(shù)。如果觀察值是偶數(shù)個,通常取最中間的兩個數(shù)值的平均數(shù)作為中位數(shù)。2.1常用統(tǒng)計分析函數(shù)87眾數(shù):在樣本數(shù)據(jù)中,選擇出現(xiàn)次數(shù)最多的數(shù)值。從統(tǒng)計分布上看,它是具有明顯集中趨勢的數(shù)值,代表數(shù)據(jù)的一般水平。一組數(shù)據(jù)中可以有多個眾數(shù),也可以沒有眾數(shù)。如果一組數(shù)據(jù)中有重復出現(xiàn)的數(shù),則有眾數(shù);如果沒有重復出現(xiàn)的數(shù),則沒有眾數(shù)。標準差:方差的算術平方根,標準差能反映一個數(shù)據(jù)集的離散程度。標準差較大,代表大部分數(shù)值和其算術平均值之間的差異較大;標準差較小,代表這些數(shù)值較接近算術平均值。方差:用來度量隨機變量和其數(shù)學期望(均值)之間的偏離程度。偏度:又稱偏態(tài)、偏態(tài)系數(shù),是統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征。峰度:又稱峰態(tài)系數(shù),用于表示概率密度分布曲線在平均值處的峰值高低的特征數(shù)。直觀看來,峰度反映了峰部的尖度。2.2常用統(tǒng)計分析函數(shù)88Excel中常用統(tǒng)計分析函數(shù)2.3常用統(tǒng)計分析函數(shù)序號函數(shù)名功能格式1COUNT統(tǒng)計參數(shù)中包含數(shù)字的個數(shù)COUNT(value1,[value2],...)例如:COUNT(C2:C8)2COUNTIF統(tǒng)計所選取區(qū)域中滿足指定條件的單元格個數(shù)COUNTIF(range,criteria)例如:COUNTIF(B2:B8,B23MAX返回一組數(shù)字中的最大值MAX(number1,[number2],...)例如:MAX(C2:C8)4MIN返回一組數(shù)字中的最小值MIN(number1,[number2],...)例如:MIN(C2:C8)5AVERAGE返回一組數(shù)字中的算術平均值AVERAGE(number1,[number2],...)例如:AVERAGE(A2:A6)6MEDIAN返回一組數(shù)字中的中間數(shù)值MEDIAN(number1,[number2],...)例如:MEDIAN(C2:C8)7MODE返回一組數(shù)字出現(xiàn)頻率最多的數(shù)值MODE(number1,[number2],...)例如:MODE(C2:C9),8RANK返回一個數(shù)字或一組數(shù)字中的排位RANK(number,ref,[order])例如:RANK(C2,C2:C9),9VAR計算基于給定樣本的方差VAR(number1,[number2],...)例如:VAR(C2:C9)10STDEV.S計算基于給定樣本的標準偏差STDEV.S(number1,[number2],...)例如:STDEV.S(C2:C9)89Excel中有專門用于數(shù)據(jù)分析的工具庫,可以完成方差分析、相關系數(shù)分析、協(xié)方差分析、描述統(tǒng)計分析、移動平均分析等。調(diào)出數(shù)據(jù)分析窗口的步驟如下:

步驟1:在打開Excel文件后,單擊“文件”菜單按鈕,在彈出的菜單中選擇“選項”命令,彈出“Excel選項”對話框。2.4數(shù)據(jù)分析工具90

步驟2:在彈出的“Excel選項”對話框中,首先選擇“加載項”選項,在“管理:”下拉列表中選擇“Excel加載項”選項;然后單擊“轉到”按鈕,彈出“加載項”對話框。

步驟3:在彈出的“加載項”對話框中,勾選“分析工具庫”復選框,并單擊“確定”按鈕。2.5數(shù)據(jù)分析工具91步驟4:打開Excel工作文檔,單擊“數(shù)據(jù)”→“數(shù)據(jù)分析”按鈕,彈出“數(shù)據(jù)分析”對話框。2.6數(shù)據(jù)分析工具92描述性統(tǒng)計分析是統(tǒng)計學中的基礎內(nèi)容,主要用于研究數(shù)據(jù)的基本統(tǒng)計特征,從而掌握數(shù)據(jù)的整體分布形態(tài)。它是對數(shù)據(jù)進行正確統(tǒng)計、推斷的先決條件,分析結果對進一步的數(shù)據(jù)建模起到了關鍵性的指導和參考作用。頻數(shù)分析:頻數(shù)又稱次數(shù),是指同一數(shù)值在一組數(shù)據(jù)中出現(xiàn)的次數(shù)。使用該分析方法可以將零散、分散的數(shù)據(jù)進行有次序的整理,從而形成一系列能反映數(shù)據(jù)總體中各組之間的單位分布狀況的數(shù)列。在變量分配數(shù)列中,頻數(shù)表示對應的組標志值的作用程度,頻數(shù)值越大,表示該組標志值對總體水平的作用越大,反之亦然。

單項式頻率分析又稱單項式分組的頻數(shù)分析,它主要運用Excel中的COUNTIF函數(shù)對數(shù)據(jù)進行頻數(shù)分析。描述統(tǒng)計:描述統(tǒng)計分析主要包括描述總體分析和分布形態(tài)分析。其中,分布形態(tài)分析主要通過偏度和峰度分析方法來分析數(shù)據(jù)的分布情況;而描述總體分析主要通過Excel中的描述分析工具,對數(shù)據(jù)進行整體的描述性分析,包括均值、中位數(shù)、眾數(shù)、方差等。2.7描述性統(tǒng)計分析93Excel導入素材文件,單擊“數(shù)據(jù)”→“數(shù)據(jù)分析”按鈕(如果沒有“數(shù)據(jù)分析”按鈕,則可以通過“文件”→“選項”命令來設置),在彈出的“數(shù)據(jù)分析”對話框中選擇“描述統(tǒng)計”選項,單擊“確定”按鈕,彈出“描述統(tǒng)計”對話框。2.8描述性統(tǒng)計分析94在“描述統(tǒng)計”對話框的“輸入?yún)^(qū)域”輸入框中輸入“$C$2:$C$20”,并勾選“匯總統(tǒng)計”“平均數(shù)置信度”“第K大值”“第K小值”復選框,然后單擊“確定”按鈕,顯示描述統(tǒng)計分析結果。2.9描述性統(tǒng)計分析95在統(tǒng)計學中,相關關系是一種確定性關系,可以使用相關分析方法來研究兩個或多個隨機變量之間的相關性,以確定變量之間的方向和密切程度。(1)按相關程度劃分,可以將相關關系分為完全相關、不完全相關和零相關三種類型。?

完全相關:完全相關關系是指變量之間的關系是一一對應的,即一個變量的數(shù)量發(fā)生變化完全是由另一個變量的數(shù)量變化決定的。該類型的相關關系為函數(shù)關系,是相關關系中的一種特例。

?不完全相關:不完全相關是指變量之間的關系并非一一對應的,即兩個現(xiàn)象之間的關系介于完全相關和不相關之間。

?零相關:零相關關系又稱為不相關關系,是指兩個變量之間彼此互不影響,其數(shù)量變化各自獨立的關系.2.10相關分析96在Excel中打開素材,單擊“F2”單元格,先輸入“=CORREL(B:B,C:C)”,再按回車鍵,得到y(tǒng)與x1的相關系數(shù)為0.954,接近1,表示這兩個變量高度相關。2.11相關分析972.12相關分析獲得y、x1、x2變量之間的相關系數(shù)98打開素材,單擊“數(shù)據(jù)”→“數(shù)據(jù)分析”按鈕。在彈出的“數(shù)據(jù)分析”對話框中選擇“相關系數(shù)”選項,彈出“相關系數(shù)”對話框,在“輸入?yún)^(qū)域”輸入框中輸入“$B$2:$D$12”,并單擊“確定”按鈕。(2)按相關形式劃分按相關形式劃分相關關系,可以分為線性相關和非線性相關兩種類型。

?線性相關:線性相關是指一個變量在增加或減少時,另一個變量隨之會發(fā)生大致均等的增加或減少變化,其圖形中所表現(xiàn)的觀測點會分布在某一條直線附近。?非線性相關:非線性相關是指一個變量在增加或減少時,另一個變量也隨之發(fā)生不均等的增加或減少變化,其圖形中所表現(xiàn)的觀測點會分布在某一曲線附近。(3)按相關關系涉及的因素劃分按相關關系涉及的因素劃分,可以分為單相關、復相關和偏相關三種類型。

?單相關:單相關又稱為一元相關,是指兩個變量之間的相關關系,即僅限于一個變量與另一個變量之間的依存關系。?復相關:復相關又稱為多元相關,是指3個或3個以上變量間的相關關系。?偏相關:偏相關是指某一變量和多種變量相關時,當假定其他變量不變,其中兩個變量的相關關系。2.13相關分析99(1)回歸分析回歸分析通過最小二乘法擬合進行分析,主要用于確定一個或多個變量的變化對另一個變量的影響程度。運用統(tǒng)計學的方法獲得其數(shù)學模型,以確定自變量與因變量之間的關系,并通過自變量的給定值來推算或估計因變量的值。在Excel中可以使用數(shù)據(jù)分析工具來進行回歸分析,具體操作步驟如下。打開素材文件,單擊“數(shù)據(jù)”→“數(shù)據(jù)分析”按鈕。在彈出的“數(shù)據(jù)分析”對話框中選擇“回歸”選項,彈出“相關系數(shù)”對話框,設置“Y值輸入?yún)^(qū)域”為“$B$2:$B$12”,“X值輸入?yún)^(qū)域”為“$C$2:$D$12”。2.14預測分析100點擊【確定】按鈕,可以獲得y與x1、x2回歸分析結果。2.15預測分析101趨勢線分析法是建立在散點圖圖表的基礎上的一種分析方法,主要通過為散點圖添加趨勢線的方法,來達到一元線性回歸分析的目的。Excel中的散點圖的趨勢線包括對數(shù)、指數(shù)、多項式、線性等類型,不同類型的趨勢線所使用的分析方法也各不相同,用戶需要根據(jù)分析目的來選擇相應的趨勢線。步驟1:繪制散點圖。打開素材文件,拖曳鼠標選中B、C、D列單元格,選擇“插入”→“散點圖”→“更多散點圖”選項,在彈出的“插入圖表”對話框中選擇“XY散點圖”選項,并單擊“確定”按鈕。2.16預測分析102步驟2:添加趨勢線。選擇“圖表設計”→“添加圖表元素”→“趨勢線”→“線性預測”選項,在彈出的“添加趨勢線”對話框中選擇“x1”選項,單擊“確定”按鈕。2.17預測分析103步驟3:設置趨勢線格式。右擊趨勢線,在彈出的快捷菜單中選擇“設置趨勢線格式”命令,在工作表右側彈出的“設置趨勢線格式”窗格中,選中“線性”單選按鈕,勾選“顯示公式”和“顯示R平方值”兩個復選框。2.18預測分析104步驟4:顯示預測分析結果。重復步驟2,在彈出“添加趨勢線”對話框中選擇“x2”選項,繼續(xù)執(zhí)行步驟3,得到預測分析結果。2.19預測分析105(2)移動平均法移動平均法是一種簡單、平滑的預測技術,它的基本思想是根據(jù)時間序列資料、逐項推移,依次計算包含一定項數(shù)的序時平均值,以反映長期趨勢。打開素材文件,單擊“數(shù)據(jù)”→“數(shù)據(jù)分析”按鈕,在彈出的“數(shù)據(jù)分析”對話框中選擇“移動平均”選項,彈出“移動平均”對話框,設置“輸入?yún)^(qū)域”為“$B$2:$B$12”,“輸出區(qū)域”為“$F$2”,勾選“圖表輸出”和“標準誤差”兩個復選框,并單擊“確定”按鈕,獲得移動平均預測結果。2.20預測分析10610703Excel中的圖表類型與展示主要圖表類型主要圖表展示第3章數(shù)據(jù)分析基礎之Excel3.1主要圖表類型108Excel中的主要圖表類型及其說明一個圖表由多個圖表元素組成,不同的圖表可以具有不同的圖表元素。通常的圖表元素主要有:圖表區(qū):圖表區(qū)與整個圖表區(qū)域等同,其他圖表元素都位于圖表區(qū)中。選擇圖表區(qū)就選中了整個圖表,圖表選中后四周會顯示邊框和8個控制點,可以使用鼠標拖動控制點可以調(diào)整圖表大小。圖表標題:圖表頂部的文字,用于描述圖表的含義。圖例:圖表標題下方帶有色塊的文字,用于標識不同的數(shù)據(jù)系列。繪圖區(qū):圖中的淺灰色部分,作為數(shù)據(jù)系列的背景,數(shù)據(jù)系列、數(shù)據(jù)標簽、網(wǎng)格線等圖表元素位于繪圖區(qū)。數(shù)據(jù)系列:圖中位于繪圖區(qū)的同一種顏色的所有矩形構成一個數(shù)據(jù)系列,每個數(shù)據(jù)系列對應數(shù)據(jù)源中的一行或一列數(shù)據(jù)。數(shù)據(jù)系列中的每個矩形代表一個數(shù)據(jù)點,對應數(shù)據(jù)源中的某個單元格的值。數(shù)據(jù)標簽:數(shù)據(jù)系列頂部的數(shù)字,用于標識數(shù)據(jù)點的值。坐標軸及其標題:坐標軸包括主要橫坐標軸、主要縱坐標軸、次要橫坐標軸、次要縱坐標軸4種。3.2主要圖表類型109柱形圖打開素材文件,切換到“柱形圖”工作表。選中A、B、C三列單元格,單擊“插入”→“推薦的圖表”按鈕,在彈出的“插入圖表”對話框中選擇“所有圖表”→“柱形圖”→“簇狀柱形圖”選項,單擊“確定”按鈕,插入并得到簇狀柱形圖。3.3主要圖表展示110條形圖、折線圖繪制條形圖、折線圖的操作與繪制柱形圖的操作類似,只需在“所有圖表”選項卡中選擇“條形圖”或“折線圖”選項,并單擊“確定”按鈕即可。3.4主要圖表展示111XY散點圖打開素材文件,切換到“XY散點圖”工作表。選中A、B、C、D四列單元格,單擊“插入”→“推薦的圖表”按鈕,在彈出的“插入圖表”對話框中選擇“XY散點圖”選項,單擊“確定”按鈕,得到XY散點圖。3.5主要圖表展示112氣泡圖步驟1:打開素材文件,切換到“氣泡圖”工作表。選中B2:D12區(qū)域,單擊“插入”→“推薦的圖表”按鈕,在彈出的“插入圖表”對話框中選擇“氣泡圖”選項,單擊“確定”按鈕,得到初始氣泡圖。3.6主要圖表展示113步驟2:編輯氣泡圖。選中氣泡圖,單擊“圖表設計”→“選擇數(shù)據(jù)”按鈕,在彈出的“選擇數(shù)據(jù)源”對話框中單擊“編輯”按鈕,設置“X軸系列值”為“=氣泡圖!$B$2:$B$12”,“Y軸系列值”為“=氣泡圖!$D$2:$D$12”,“系列氣泡大小”為“=氣泡圖!$C$2:$C$12”,最后單擊“確定”按鈕。3.7主要圖表展示114步驟3:給氣泡圖添加數(shù)據(jù)標簽。選中氣泡圖并右擊,在彈出的快捷菜單中選擇“添加數(shù)據(jù)標簽”命令,得到有標簽的氣泡圖。3.8主要圖表展示115步驟4:給氣泡圖設置數(shù)據(jù)標簽格式。單擊氣泡圖,單擊鼠標右鍵,選擇“設置數(shù)據(jù)標簽格式”選項,在彈出的窗格中,將標簽位置選擇為“居中”,得到標簽位置居中的氣泡圖。3.9主要圖表展示116餅圖、圓環(huán)圖、面積圖

打開素材文件,切換到“餅圖、圓環(huán)圖、面積圖”工作表。選中C2:C12區(qū)域,單擊“插入”→“推薦的圖表”按鈕,在彈出的“插入圖表”對話框中選擇“餅圖”選項,并單擊“確定”按鈕,得到餅圖。3.10主要圖表展示117圓環(huán)圖、面積圖繪制圓環(huán)圖、面積圖的操作與繪制餅圖的操作類似,在彈出的“插入圖表”對話框中選擇“圓環(huán)圖”或“面積圖”選項,即可插入相應的圖。3.11主要圖表展示118其它圖展示繪制曲面圖、股價圖、雷達圖、樹狀圖、旭日圖、直方圖、箱形圖、瀑布圖等的操作與之前的操作類似。3.12主要圖表展示119更改圖表類型在Excel中,可以隨時更改現(xiàn)有圖表的圖表類型。右擊圖表的圖表區(qū),在彈出的快捷菜單中選擇“更改圖表類型”命令,彈出“更改圖表類型”對話框。在“所有圖表”選項卡中選擇一種圖表類型,然后在對話框右側選擇一種圖表子類型,最后單擊“確定”按鈕即可。3.13主要圖表展示120思考題(1)你曾經(jīng)使用過Excel的數(shù)據(jù)透視圖功能嗎?請具體闡述下你是怎么做的。在學習本章內(nèi)容后,你是否對數(shù)據(jù)透視圖有了更多的了解?(2)Excel的數(shù)據(jù)可視化圖表有許多類型,請簡單列出其中的幾種,并闡述其特點和用途。(3)根據(jù)配套素材文件“3.4.1_data.xlsx”,請使用數(shù)據(jù)透視表匯總出“GPU”列的“TIMESPY-GPU”得分。(4)根據(jù)配套素材文件“3.4.1_data.xlsx”,請使用相關分析得出“GPU-Averagememoryclockfrequency(MHz)”列對于“TIMESPY-GPU”得分的影響。(5)根據(jù)配套素材文件“3.4.1_data.xlsx”,請使用散點圖來具體分析“CPU-Clockfrequency(MHz)”列對于“TIMESPY-CPU”得分的趨勢及相關系數(shù)。121第4章數(shù)據(jù)預處理之PowerBI篇商務智能與數(shù)據(jù)可視化分析基礎123本章內(nèi)容PowerBIDesktop的主頁與抓取網(wǎng)頁數(shù)據(jù)PowerBIDesktop的主頁

分析網(wǎng)址結構采集第一頁的數(shù)據(jù)設置頁碼參數(shù)批量調(diào)用頁碼函數(shù)PowerBI數(shù)據(jù)預處理數(shù)據(jù)導入數(shù)據(jù)填充與篩選添加列數(shù)據(jù)的追加與合并查詢12401PowerBIDesktop的主頁與抓取網(wǎng)頁數(shù)據(jù)數(shù)據(jù)預處理之PowerBI篇PowerBIDesktop的主頁PowerBI抓取網(wǎng)頁數(shù)據(jù)分析網(wǎng)址結構采集第一頁的數(shù)據(jù)設置頁碼參數(shù)批量調(diào)用頁碼函數(shù)PowerBIDesktop主頁的布局與Excel類似,上方是各種功能的選項卡,右側是一些PowerBI自帶的可視化對象,單擊即可方便地調(diào)用。1.1PowerBIDesktop主頁1251.2PowerBI抓取網(wǎng)頁數(shù)據(jù)126分析網(wǎng)址結構使用鼠標將頁面滾動到最下方,找到顯示的頁碼,分別單擊“第2頁”、“第3頁”和“第4頁”按鈕,觀察網(wǎng)址變化。觀察網(wǎng)址,可知“pg”后面的一個數(shù)字就是頁碼ID,是控制分頁數(shù)據(jù)的變量。為了進一步確認,將網(wǎng)址中的“pg”后面的數(shù)字改為“1”,按回車鍵后確實能返到第一頁。1.3PowerBI抓取網(wǎng)頁數(shù)據(jù)127采集第一頁的數(shù)據(jù)打開PowerBIDesktop,依次選擇“主頁”→“獲取數(shù)據(jù)”→“Web”選項。1.4PowerBI抓取網(wǎng)頁數(shù)據(jù)128從彈出的對話框中選中“高級”單選按鈕,將之前分析的網(wǎng)址中的除頁碼ID外的網(wǎng)址輸入“URL部分”的第一行輸入框中,將“1”輸入第二行輸入框中,將“rs上海/”輸入第三行輸入框中。1.5PowerBI抓取網(wǎng)頁數(shù)據(jù)129在“URL預覽”輸入框中可以看到,上面設置的三行的網(wǎng)址已經(jīng)自動合并到一起,在“URL部分”中分開輸入只是為了更清晰地區(qū)分頁碼變量。單擊“確定”按鈕后,使用“匿名”方式訪問。1.6PowerBI抓取網(wǎng)頁數(shù)據(jù)130單擊“連接”按鈕,等待運行一段時間后,自動進入“導航器”對話框,該對話框的左側出現(xiàn)很多表。在對話框左側的表中勾選某個表的復選框,在對話框右側“表視圖”區(qū)域中會顯示其對應的數(shù)據(jù)。例如,勾選“表4”復選框,在右側“表視圖”區(qū)域中會顯示“表4”的數(shù)據(jù)。1.7PowerBI抓取網(wǎng)頁數(shù)據(jù)131單擊“轉換數(shù)據(jù)”按鈕,等待運行一段時間后,進入“PowerQuery編輯器”界面的數(shù)據(jù)展示。1.8PowerBI抓取網(wǎng)頁數(shù)據(jù)132設置頁碼參數(shù)在“PowerQuery編輯器”界面中,選擇“高級編輯器”選項。1.9PowerBI抓取網(wǎng)頁數(shù)據(jù)133在彈出的“高級編輯器”窗口中,在“l(fā)et”的上一行輸入“(pasnumber)astable=>”,并在“l(fā)et”的下一行的網(wǎng)址中,將“&”后面的“1”改為“Number.ToText(p)”。更改后為“源=Web.BrowserContents(”/ershoufang/pg“&Number.ToText(p)&”rs上海/“)”。1.10PowerBI抓取網(wǎng)頁數(shù)據(jù)134完成上述操作以后,剛才第一頁數(shù)據(jù)的查詢窗口變成了自定義函數(shù)的輸入?yún)?shù)窗口,表格也變成了函數(shù)的樣式。點擊【完成】按鈕后,可得到一個可以調(diào)用的函數(shù)窗口,在“輸入?yún)?shù)”p下面的輸入框,輸入“5”,點擊【調(diào)用】按鈕。1.11PowerBI抓取網(wǎng)頁數(shù)據(jù)135至此完成了自定義函數(shù)設定,p是該函數(shù)的變量,用來控制頁碼,隨便輸入一個數(shù)字,如:5,將抓取第5頁的數(shù)據(jù)。1.12PowerBI抓取網(wǎng)頁數(shù)據(jù)136

批量調(diào)用頁碼函數(shù)輸入一次參數(shù)只能抓取一個網(wǎng)頁中的數(shù)據(jù),如果想批量抓取網(wǎng)頁中的數(shù)據(jù),則還需要批量調(diào)用該函數(shù),因此需要執(zhí)行以下步驟。選擇“主頁”→“新建源”→“空查詢”選項,建立一個數(shù)字序列。例如,如果想抓取前10頁的數(shù)據(jù),需要建立從1到10的序列,在空查詢中輸入“={1..10}”,按回車鍵后,建立從1到10的數(shù)字序列。1.13PowerBI抓取網(wǎng)頁數(shù)據(jù)137

批量調(diào)用頁碼函數(shù)單擊“轉換”→“到表”按鈕。在彈出的“到表”對話框中,設置“如何處理附加列”為“顯示為錯誤”,并單擊“確定”按鈕。1.14PowerBI抓取網(wǎng)頁數(shù)據(jù)138

批量調(diào)用頁碼函數(shù)在“PowerQuery編輯器”界面中,單擊“添加列”→“調(diào)用自定義函數(shù)”按鈕在彈出的“調(diào)用自定義函數(shù)”對話框中,在“新列名”輸入框中輸入“表4”,設置“功能查詢”為“表4”,設置“p”為“Column1”。1.15PowerBI抓取網(wǎng)頁數(shù)據(jù)139

批量調(diào)用頁碼函數(shù)在單擊“確定”按鈕后,就開始批量抓取網(wǎng)頁了,抓取10頁的數(shù)據(jù)耗時大約幾十秒,返回數(shù)據(jù)抓取結果。單擊對話框右上角的,選中“展開”單選按鈕,展開該表格。1.16PowerBI抓取網(wǎng)頁數(shù)據(jù)140

批量調(diào)用頁碼函數(shù)單擊“確定”按鈕后,則顯示這10頁的數(shù)據(jù)。1.17PowerBI抓取網(wǎng)頁數(shù)據(jù)14114202PowerBI數(shù)據(jù)預處理數(shù)據(jù)預處理之PowerBI篇數(shù)據(jù)導入數(shù)據(jù)填充與篩選數(shù)據(jù)中添加列數(shù)據(jù)追加當從Excel向PowerBI導入數(shù)據(jù)時,第一步要做的是提升標題。在Excel中,第一行是標題行,從第二行開始才是數(shù)據(jù),但在PowerQuery編輯器中,從第一行開始就要記錄數(shù)據(jù),標題行在數(shù)據(jù)之上,因此從Excel中導入數(shù)據(jù)的第一步就是提升標題行。單擊“轉換數(shù)據(jù)”按鈕進入,單擊“轉換”→“將第一行用作標題”按鈕,就完成了標題行提升。2.1數(shù)據(jù)導入143設置數(shù)據(jù)類型有以下兩種方式。方法一:單擊“轉換”→“數(shù)據(jù)類型:文本”按鈕,在彈出的下拉列表中進行設置。方法二:通過標題行中的按鈕進行設置。單擊標題行中的待設置列的左側的圖標按鈕。2.2數(shù)據(jù)類型設置144錯誤值的處理大部分的數(shù)據(jù)報錯是由數(shù)據(jù)格式引起的,對數(shù)據(jù)格式轉換后依然報錯的列,可以選擇“刪除錯誤”命令,或者將錯誤值替換為“空”或特定值“0”。具體的處理方式是,右擊所在列,在彈出的快捷菜單中進行命令選擇。2.3數(shù)據(jù)填充與篩選145空值的處理單擊所在列的標題行的右側的“”按鈕,在彈出的下拉列表中選擇“刪除空”選項即可。2.4數(shù)據(jù)填充與篩選146在“PowerQuery編輯器”界面中添加列有四種方式,分別為重復列、索引列、條件列、自定義列2.5數(shù)據(jù)中添加列147重復列添加重復列就是復制選中的列并添加為新列,以便對該列的數(shù)據(jù)進行處理而不損壞原有列的數(shù)據(jù)。添加重復列的操作步驟如下:選中需要重復的列,選擇“添加列”→“重復列”選項;或者右擊需要重復的列的標題行,在彈出的快捷菜單中選擇“重復列”命令2.6數(shù)據(jù)中添加列148索引列添加索引列就是添加每行都帶有序號的列,方便記錄每一行所在的位置,可以從0或1開始。添加索引列的操作步驟如下:選中需要索引的列,選擇“添加列”→“索引列”→“從0”或“從1”選項。2.7數(shù)據(jù)中添加列149條件列添加條件列就是添加一列根據(jù)指定條件從其他列計算得出的數(shù)據(jù)列。添加條件列的操作步驟如下:單擊“添加列”→“條件列”按鈕,在彈出的“添加條件列”對話框中進行設置。例如,設置“列名”為“A0”,設置“運算符”為“等于”,設置“值”為“A1”,在“輸出”輸入框中輸入“高級工程師”。2.8數(shù)據(jù)中添加列150條件列單擊“確定”按鈕后,將根據(jù)設置的條件得到新的一列。2.9數(shù)據(jù)中添加列151自定義列添加自定義列就是使用M函數(shù)生成新的一列。添加自定義列的操作步驟如下:單擊“添加列”→“自定義列”按鈕,彈出“自定義列”對話框。這里將“工號”列中的數(shù)值翻倍,在“自定義列公式”輸入框中輸入“=[10001]*2”。2.10數(shù)據(jù)中添加列152自定義列單擊“確定”按鈕后,顯示添加的自定義列。2.11數(shù)據(jù)中添加列153在數(shù)據(jù)分析時,有時需要進行數(shù)據(jù)的追加。例如,當合并多個格式相同的表格時,需要使用追加查詢。追加查詢是在現(xiàn)有數(shù)據(jù)的基礎上,在行的下邊添加新的行,是一種縱向合并。要將兩個格式相同的表,合并為一個表,則需要追加查詢。數(shù)據(jù)加載導入PowerBI中后,單擊“轉換數(shù)據(jù)”按鈕,進入“PowerQuery編輯器”界面,選中左側“查詢”窗格中的Sheet1,單擊“主頁”→“追加查詢”按鈕。2.12數(shù)據(jù)追加154在彈出的“追加”對話框中,選中“兩個表”單選按鈕,在“要追加的表”下拉列表選中“Sheet2”選項。2.13數(shù)據(jù)追加155最后單擊“確定”按鈕,完成追加查詢。2.14數(shù)據(jù)追加156例如,要在Sheet1中找到每個員工工號對應的入職時間,首先將文件里的Sheet1中的數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論