




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第1章大數(shù)據(jù)財務(wù)決策概論全套可編輯PPT課件本章介紹了大數(shù)據(jù)分析涉及的主要基本概念,包括數(shù)據(jù)、信息、數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、大數(shù)據(jù)技術(shù)、商務(wù)智能與人工智能。并重點講解了大數(shù)據(jù)財務(wù)決策的目標(biāo)和過程。本章內(nèi)容提要主要內(nèi)容1.1大數(shù)據(jù)財務(wù)決策涉及的基本概念1.2大數(shù)據(jù)財務(wù)決策的目標(biāo)和過程1.1大數(shù)據(jù)財務(wù)決策涉及的基本概念1.1.1數(shù)據(jù)、信息和數(shù)據(jù)庫1.1.2數(shù)據(jù)倉庫和數(shù)據(jù)挖掘1.1.3大數(shù)據(jù)技術(shù)與商務(wù)智能第4頁1.1.1數(shù)據(jù)、信息和數(shù)據(jù)庫1.?dāng)?shù)據(jù)數(shù)據(jù)是記錄客觀事物的性質(zhì)、狀態(tài)和數(shù)量特征的抽象符號,如文字、數(shù)字、圖表、聲音及動畫等。數(shù)據(jù)的形式多種多樣,數(shù)字、文本、表格、圖形、圖像、視頻、音頻等等都是數(shù)據(jù)形態(tài)。第5頁1.1.1數(shù)據(jù)、信息和數(shù)據(jù)庫按照數(shù)據(jù)存儲結(jié)構(gòu)可以將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)元素之間具有統(tǒng)一而且確定關(guān)系的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)元素之間沒有統(tǒng)一和確定關(guān)系的數(shù)據(jù),文本、圖片、音頻、視頻等屬于非結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)元素之間的關(guān)系介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)之間的數(shù)據(jù)。第6頁1.1.1數(shù)據(jù)、信息和數(shù)據(jù)庫2.信息信息泛指人類社會傳播的一切內(nèi)容。經(jīng)濟和管理學(xué)家認為“信息是用于決策的有效數(shù)據(jù)”。從企業(yè)管理的視角看,信息是經(jīng)過加工或處理的,對決策有價值的數(shù)據(jù)。第7頁1.1.1數(shù)據(jù)、信息和數(shù)據(jù)庫信息具有如下特征:(1)信息具有客觀性(2)信息寄于物質(zhì)載體中(3)信息是可以傳遞的(4)信息是可以儲存的(5)信息具有效益性(6)信息具有可加工性(7)信息具有可增值性(8)信息具有時效性第8頁1.1.1數(shù)據(jù)、信息和數(shù)據(jù)庫3.?dāng)?shù)據(jù)庫(Database)數(shù)據(jù)庫是在計算機內(nèi)的、有組織的、可共享的數(shù)據(jù)集合。操縱和管理數(shù)據(jù)庫的軟件系統(tǒng)稱為數(shù)據(jù)庫管理系統(tǒng)(DBMS).數(shù)據(jù)庫產(chǎn)生于上世紀(jì)六十年代后期,先后經(jīng)歷了層次數(shù)據(jù)庫、網(wǎng)狀數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫等多個階段。其中關(guān)系型數(shù)據(jù)庫是數(shù)據(jù)庫產(chǎn)品中應(yīng)用最廣泛的一類。第9頁1.1.1數(shù)據(jù)、信息和數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫采用表格的儲存方式,數(shù)據(jù)以行和列的方式進行存儲。第10頁1.1.2數(shù)據(jù)倉庫和數(shù)據(jù)挖掘1.?dāng)?shù)據(jù)倉庫(DataWarehouse,DW)數(shù)據(jù)倉庫是面向主題的、集成的、不可更新的、隨時間不斷變化的數(shù)據(jù)集合,用于支持企業(yè)或組織的決策分析處理。數(shù)據(jù)倉庫具有以下四個基本特征:(1)面向主題:指數(shù)據(jù)倉庫中的數(shù)據(jù)是按照主題的方式進行組織。(2)數(shù)據(jù)集中存放(3)數(shù)據(jù)穩(wěn)定(4)時間屬性第11頁1.1.2數(shù)據(jù)倉庫和數(shù)據(jù)挖掘2.?dāng)?shù)據(jù)挖掘(DataMining)數(shù)據(jù)挖掘是從海量數(shù)據(jù)中提煉有價值的模式和發(fā)現(xiàn)知識的過程。數(shù)據(jù)挖掘技術(shù)具有處理的數(shù)據(jù)規(guī)模大、數(shù)據(jù)源結(jié)構(gòu)不同且多樣化、挖掘發(fā)現(xiàn)的規(guī)則動態(tài)變化等特點。全球范圍內(nèi)數(shù)據(jù)挖掘技術(shù)在會計領(lǐng)域已經(jīng)廣泛應(yīng)用于公司破產(chǎn)、財務(wù)困境和企業(yè)績效的預(yù)測、企業(yè)持續(xù)經(jīng)營狀況的分析診斷、信用風(fēng)險的監(jiān)測評價、財務(wù)危機預(yù)警、管理舞弊的識別預(yù)防等諸多方面。第12頁1.1.3大數(shù)據(jù)技術(shù)與商務(wù)智能1.大數(shù)據(jù)技術(shù)(BigDataTechnologies)大數(shù)據(jù)一詞自20世紀(jì)90年代開始使用,至今并沒有一個統(tǒng)一界定。一般認為大數(shù)據(jù)是以不同形式存在的規(guī)模巨大的數(shù)據(jù),也稱海量數(shù)據(jù)。大數(shù)據(jù)的特征:Volume,生成和存儲的數(shù)據(jù)量大Variety,數(shù)據(jù)來源廣泛、類型多樣Velocity,數(shù)據(jù)生成和處理的速度快Value,大數(shù)據(jù)具有價值Veracity,數(shù)據(jù)的真實性或可靠性第13頁1.1.3大數(shù)據(jù)技術(shù)與商務(wù)智能第14頁大數(shù)據(jù)技術(shù)的不同層面及功能1.1.3大數(shù)據(jù)技術(shù)與商務(wù)智能商務(wù)智能(BusinessIntelligence,BI)商務(wù)智能一般指企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,創(chuàng)造和累計商務(wù)知識和見解,改善商務(wù)決策水平,采取有效商務(wù)行動,完善各種商務(wù)流程,提升各方面商務(wù)績效,增強綜合競爭力智慧和能力的一系列概念和方法。第15頁1.1.4人工智能人工智能(ArtificialIntelligence,AI)人們對人工智能的界定總體上體現(xiàn)了兩個維度的定位,一是機器像人一樣思考,一是機器像人一樣行動。人工智能可以看成是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新興科學(xué)和技術(shù)。1.1.4人工智能人工智能的研究成果已經(jīng)應(yīng)用到了機器人、自動駕駛、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等眾多領(lǐng)域,人工智能理論也正處于高速發(fā)展期。第17頁1.2大數(shù)據(jù)財務(wù)決策的目標(biāo)和過程1.2.1大數(shù)據(jù)財務(wù)決策的目標(biāo)1.2.2大數(shù)據(jù)財務(wù)決策的過程第18頁1.2.2大數(shù)據(jù)財務(wù)決策的目標(biāo)第19頁圖1-2大數(shù)據(jù)財務(wù)決策的三維模式第20頁1.2.2大數(shù)據(jù)財務(wù)決策的目標(biāo)圖1-3數(shù)據(jù)挖掘分析過程1.2.2大數(shù)據(jù)財務(wù)決策的過程1.?dāng)?shù)據(jù)準(zhǔn)備數(shù)據(jù)準(zhǔn)備包括數(shù)據(jù)選擇、數(shù)據(jù)質(zhì)量分析與數(shù)據(jù)預(yù)處理三方面:(1)數(shù)據(jù)選擇(2)數(shù)據(jù)質(zhì)量分析(3)數(shù)據(jù)預(yù)處理數(shù)據(jù)經(jīng)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)變換第21頁數(shù)據(jù)預(yù)處理數(shù)據(jù)清洗(DataCleaning),主要包括檢查數(shù)據(jù)一致性和清洗“臟數(shù)據(jù)”等過程。數(shù)據(jù)集成(DataIntegration)。把不同來源、格式、特點性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機地集中。數(shù)據(jù)歸約(DataReduction)。在盡可能保持數(shù)據(jù)原貌前提下最大程度地精簡數(shù)據(jù)量,得到數(shù)據(jù)集的簡化表示。數(shù)據(jù)變換(DataTransformation)。為了使數(shù)據(jù)滿足某些統(tǒng)計分析的要求對數(shù)據(jù)做的適當(dāng)轉(zhuǎn)換。第22頁1.2.2大數(shù)據(jù)財務(wù)決策的過程2.選擇模型和方法財務(wù)決策的大數(shù)據(jù)挖掘分析主要使用的算法和模型包括回歸分析、分類、聚類、離群點分析、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、支持向量機等。3.建立模型開展分析數(shù)據(jù)預(yù)處理后可以根據(jù)挖掘目標(biāo),按照選定的算法建立模型,利用預(yù)處理后的數(shù)據(jù)對模型進行訓(xùn)練,并得出分析結(jié)果。4.結(jié)果可視化借助圖形化手段,清晰有效地傳達與溝通信息,幫助更好地洞察和理解復(fù)雜的數(shù)據(jù)集。第23頁舉例--多元回歸驗證企業(yè)國際化對內(nèi)部控制的影響基本過程:①樣本選擇和數(shù)據(jù)采集選擇制造業(yè)為研究對象,以2000-2015年為研究時間段,選取滬深兩市全部制造業(yè)上市公司為基本樣本,刪除存在變量數(shù)據(jù)缺失的公司后獲得數(shù)據(jù)5067個。內(nèi)部控制質(zhì)量數(shù)據(jù)來源于迪博(DIB)數(shù)據(jù)庫,企業(yè)國際化程度數(shù)據(jù)來源于萬德(Wind)數(shù)據(jù)庫,其他控制變量數(shù)據(jù)來自于國泰安(CSMAR)和RESSET數(shù)據(jù)庫,回歸分析中連續(xù)變量進行了Winsorize1%處理。第24頁舉例--多元回歸驗證企業(yè)國際化對內(nèi)部控制的影響基本過程:②變量定義和模型設(shè)計第25頁舉例--多元回歸驗證企業(yè)國際化對內(nèi)部控制的影響基本過程:③樣本的描述性統(tǒng)計和回歸結(jié)果第26頁舉例--多元回歸驗證企業(yè)國際化對內(nèi)部控制的影響回歸分析結(jié)果中樣本的可視化第27頁舉例--利用社會網(wǎng)絡(luò)技術(shù)構(gòu)建僵尸企業(yè)與銀行風(fēng)險傳染關(guān)系網(wǎng)絡(luò)模型以2010年1月1日至2017年12月31日為研究期間,以剔除金融類和ST類公司后我國僵尸企業(yè)和銀行的貸款數(shù)據(jù)為研究數(shù)據(jù),可以利用社會網(wǎng)絡(luò)技術(shù)(SNA)的中心性分析工具構(gòu)建僵尸企業(yè)與銀行關(guān)系網(wǎng)絡(luò)。第28頁舉例--利用社會網(wǎng)絡(luò)技術(shù)構(gòu)建僵尸企業(yè)與銀行風(fēng)險傳染關(guān)系網(wǎng)絡(luò)模型表1-6所示為二者中心性分析結(jié)果。左表給出的是僵尸企業(yè)中心性數(shù)據(jù)(截取排名前5和后5的企業(yè)),右表是10家銀行的中心性數(shù)據(jù)(截取排名前5和后5的銀行)。第29頁舉例--利用社會網(wǎng)絡(luò)技術(shù)構(gòu)建僵尸企業(yè)與銀行風(fēng)險傳染關(guān)系網(wǎng)絡(luò)模型僵尸企業(yè)與銀行風(fēng)險傳染關(guān)系網(wǎng)絡(luò)數(shù)據(jù)的可視化第30頁僵尸企業(yè)與銀行風(fēng)險傳染關(guān)系網(wǎng)絡(luò)舉例--利用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建模型識別企業(yè)內(nèi)部控制缺陷1)BP神經(jīng)網(wǎng)絡(luò)的工作機理第31頁圖1-4BP神經(jīng)元網(wǎng)絡(luò)模型舉例--利用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建模型識別企業(yè)內(nèi)部控制缺陷3)構(gòu)建BP內(nèi)控缺陷識別模型第32頁圖1-5BP缺陷識別模型舉例--利用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建模型識別企業(yè)內(nèi)部控制缺陷4)采用BP內(nèi)控缺陷識別模型分析結(jié)果第33頁圖1-6識別的缺陷等級、實際缺陷等級及識別準(zhǔn)確率數(shù)據(jù)舉例--利用BP神經(jīng)網(wǎng)絡(luò)構(gòu)建模型識別企業(yè)內(nèi)部控制缺陷BP內(nèi)控缺陷識別模型結(jié)果的可視化第34頁圖1-7
識別缺陷等級和實際缺陷等級對照圖1-8
識別缺陷等級和實際缺陷等級之間的誤差第35頁第1章
THEEND第2章大數(shù)據(jù)財務(wù)決策的實現(xiàn)平臺與工具本章重點講解數(shù)據(jù)處理的常用工具Excel的數(shù)據(jù)采集、函數(shù)和宏的應(yīng)用,Python的安裝運行、數(shù)據(jù)采集和處理的方法,商務(wù)智能工具PowerBI的基本使用方法和步驟,以及浪潮大數(shù)據(jù)平臺。此外還介紹了財務(wù)決策中常用的大數(shù)據(jù)平臺和工具,包括MATLAB、RapidMiner、SPSS、Smartbi、SASSentimentAnalysis和R語言。本章內(nèi)容提要主要內(nèi)容2.1數(shù)據(jù)處理工具—Excel2.2數(shù)據(jù)處理工具—Python2.3商務(wù)智能工具—PowerBI2.4其他常用平臺與工具2.5浪潮大數(shù)據(jù)平臺—DMP與BA第38頁2.1數(shù)據(jù)處理工具—Excel2.1.1采集數(shù)據(jù)2.1.2函數(shù)的應(yīng)用2.1.3宏的應(yīng)用第39頁2.1.1采集數(shù)據(jù)1.輸入數(shù)據(jù)2.簡單數(shù)據(jù)的自動填充填充自然數(shù)序列的操作步驟如下:①選中需要填充序列的第一個單元格,如B11,輸入序列的第一個數(shù)據(jù)。②選中需要填充序列的第二個單元格,如B12,輸入序列的第二個數(shù)據(jù)。③選中B11:B12區(qū)域,將鼠標(biāo)指針移到該區(qū)域的右下角的填充柄,按住該填充柄向下拉到B20的位置,即在B11:B20區(qū)域中填充1到10的自然數(shù)序列。第40頁2.1.1采集數(shù)據(jù)3.復(fù)雜數(shù)據(jù)的自動填充操作步驟如下:①選定第一個單元格,例如B11,輸入第—個數(shù)據(jù)。②選定要填充的單元格區(qū)域,例如B11:B22。③單擊“開始”選項卡,單擊“編輯”功能組中“填充”按鈕右側(cè)的小箭頭,并從顯示的列表中選擇“序列”命令。④在“序列”對話框中,選擇“序列產(chǎn)生在”下的“列”,選擇“類型”下的“日期”,“日期單位”選“工作日”,“步長值”為1。⑤單擊“確定”按鈕,即可在B11:B22區(qū)域中自動填充12個工作日的序列。第41頁2.1.1采集數(shù)據(jù)4.自定義序列的自動填充方法如下:①單擊“文件”選項卡,選擇“選項”命令,打開“Excel選項”對話框。②單擊該對話框左側(cè)的“高級”選項,按住對話框右側(cè)的滑塊往下拉,直到出現(xiàn)常規(guī)的選項,單擊“編輯自定義列表”按鈕,打開“自定義序列”對話框。③在“自定義序列”列表框中選擇“新序列”,在“輸入序列”框中輸入自定義序列。④當(dāng)所有序列項都輸入完后,單擊“添加”按鈕,剛輸入的序列出現(xiàn)在“自定義序列”列表框中,再單擊“確定”按鈕。第42頁2.1.1采集數(shù)據(jù)5.用下拉列表快速輸入數(shù)據(jù)操作步驟為:①在工作表的某個單元格區(qū)域(如A4:A8)里的每個單元格里輸入一個部門名,例如“財務(wù)部”“銷售部”“采購部”“運維部”“后勤部”。選取需要設(shè)置下拉列表的單元格區(qū)域,例如B1:B20。②打開“數(shù)據(jù)”選項卡,單擊“數(shù)據(jù)工具”功能組中“數(shù)據(jù)驗證”右側(cè)的下拉按鈕,從顯示的菜單中單擊“數(shù)據(jù)驗證”按鈕,打開“數(shù)據(jù)驗證”對話框。2.1.1采集數(shù)據(jù)③單擊“設(shè)置”選項卡,在“允許”下拉列表中選擇“序列”。④在“來源”編輯框中輸入數(shù)據(jù)來源區(qū)域,此例中為$A$4:$A$8。此操作也可通過單擊“來源”編輯框右側(cè)的按鈕從工作表中選擇區(qū)域$A$4:$A$8來完成。⑤單擊“確定”按鈕,完成下拉列表序列的設(shè)置。在完成下拉列表序列的設(shè)置后,在單元格區(qū)域B1:B20中輸入數(shù)據(jù)的時候,將鼠標(biāo)選中其中的一個單元格,單擊單元格右側(cè)的下拉箭頭就可從下拉列表序列中選擇需要輸入的數(shù)據(jù),從而加快了輸入速度。2.1.1采集數(shù)據(jù)6.編輯和審核修訂數(shù)據(jù)啟用跟蹤修訂信息方法如下:①打開“審閱”選項卡,再單擊“更改”功能組中的“修訂”按鈕,從顯示的菜單中選擇“突出顯示修訂”命令。圖2-7“突出顯示修訂”對話框2.1.1采集數(shù)據(jù)②選中“編輯時跟蹤修訂信息,同時共享工作簿”選項,根據(jù)需要選擇“突出顯示的修訂選項”,例如選擇時間區(qū)間、修訂人和位置等信息,同時選中“在屏幕上突出顯示修訂”選項。單擊“確定”按鈕。2.1.2函數(shù)的應(yīng)用1.函數(shù)的基本結(jié)構(gòu)Excel函數(shù)一般由函數(shù)名稱、參數(shù)和括號組成。函數(shù)的基本結(jié)構(gòu):函數(shù)名稱(參數(shù)1,參數(shù)2,…,參數(shù)n)在單元格中輸入函數(shù)時,需要在函數(shù)名前輸入等號“=”。第47頁2.1.2函數(shù)的應(yīng)用2.函數(shù)的使用利用“插入函數(shù)”工具使用函數(shù)的方法:①單擊需要輸入函數(shù)的單元格。②單擊單元格編輯欄左側(cè)的“插入函數(shù)”按鈕,在“插入函數(shù)”對話框選擇要使用的函數(shù)。2.1.2函數(shù)的應(yīng)用③單擊“確定”按鈕,顯示如圖2-10所示的“函數(shù)參數(shù)”對話框。圖2-10編輯參數(shù)2.1.2函數(shù)的應(yīng)用④在各參數(shù)編輯框中直接輸入?yún)?shù)值,單擊“確定”按鈕即可完成函數(shù)的輸入。⑤系統(tǒng)計算后會把計算結(jié)果顯示到單元格中。2.1.3宏的應(yīng)用1.錄制宏錄制宏的步驟:①打開“視圖”選項卡,單擊“宏”功能組中“宏”的下拉按鈕,從顯示的菜單中選擇“錄制宏”。②在對話框的“宏名”處輸入一個新的宏名,指定快捷鍵,選擇宏保存的位置,單擊“確定”按鈕便開始錄制宏。③在工作表中執(zhí)行一遍需要錄制的操作。④再打開“視圖”選項卡,單擊“宏”的下拉按鈕,從顯示的菜單中選擇“停止錄制”。第51頁2.1.3宏的應(yīng)用圖2-12“錄制宏”對話框2.1.3宏的應(yīng)用2.運行宏3.編輯宏圖2-14編輯宏在VisualBasic窗口中可以依據(jù)VisualBasic語法規(guī)則對程序語句進行修改。編輯完成后,可以單擊保存按鈕,并關(guān)閉VisualBasic窗口。2.1.3宏的應(yīng)用4.VBA(1)VBAVisualBasic是Microsoft針對Windows應(yīng)用,在Basic語言的基礎(chǔ)上發(fā)展起來的可視的應(yīng)用程序開發(fā)工具,是VisualStudio的組件之一,可以單獨運行。2.1.3宏的應(yīng)用(2)使用VisualBasic編輯器圖2-15
VisualBasic編輯器窗口2.1.3宏的應(yīng)用“工程資源管理器”窗口圖2-16工程資源管理器2.1.3宏的應(yīng)用(3)理解對象、屬性、事件和方法①對象代表應(yīng)用程序中的元素,比如,工作表、單元格、圖表、按鈕、窗體等。只有在確定了對象之后,才能對它進行操作。通常將具有相同類型的對象集合起來,形成對象集合。②屬性是一個對象的屬性。它定義了對象的特征,諸如大小、顏色、屏幕位置,或某一方面的行為,諸如對象是否有激活或可見等。修改對象的屬性值可以改變對象的特征。③事件是一個對象可以辨認的動作,如單擊鼠標(biāo)或按下某鍵等。④方法指的是對象能執(zhí)行的動作。2.1.3宏的應(yīng)用(4)了解VBA命令結(jié)構(gòu)1)定義過程VBA程序包含一系列的過程(程序)。過程可以分為Sub過程、Function過程和Property過程。在財務(wù)處理中,常常用到Sub過程和Function過程。Property過程較少使用。Sub過程是由Sub和EndSub語句所包含起來的一系列VisualBasic語句,用于實現(xiàn)特定的功能。下面的Sub過程是在屏幕上顯示一個如圖2-17所示的消息框。圖2-17消息框2.1.3宏的應(yīng)用SubDemoBox()DimMyVarAsStringMyVar="John"MsgBoxPrompt:="Hello"&MyVar,Title:="GreetingBox",Buttons:=vbExclamationEndSub2.1.3宏的應(yīng)用Function過程是由Function和EndFunction語句包含起來的一系列VisualBasic語句。Function過程和Sub過程很類似,但函數(shù)會在過程的一個或多個語句中指定一個值給函數(shù)名稱,從而返回一個值。FunctionInterest(rate,money)Interest=money*rateEndFunction2.1.3宏的應(yīng)用2)聲明語句可以使用聲明語句去命名和定義過程、變量、數(shù)組以及常數(shù)。當(dāng)聲明一個過程、變量或常數(shù)時,也同時定義了它的范圍,而此范圍是取決于聲明位置以及用什么關(guān)鍵字來聲明它。2.1.3宏的應(yīng)用3)賦值語句賦值語句可以給一個變量指定一個值或表達式,也可以給變量指定一個對象。4)With語句在一段程序中,如果多個變量具有相同的限定,可以使用With語句節(jié)省輸入的字符,并避免錯誤。2.1.3宏的應(yīng)用5)使用Do...Loop語句Do…Loop語句是一種循環(huán)結(jié)構(gòu)語句,根據(jù)所帶的條件語句的不同可以有下面幾種結(jié)構(gòu):①先判斷條件,條件為True時就重復(fù)。②先執(zhí)行一次,再判斷條件,條件為True時就重復(fù)③先判斷條件,如條件為False就重復(fù),直到條件變成True時才停止重復(fù)。④先執(zhí)行一次,再判斷條件,如條件為False就重復(fù),直到條件變成True時才停止。2.1.3宏的應(yīng)用6)使用If...Then...Else語句If...Then...Else語句是一種條件結(jié)構(gòu)語句,根據(jù)條件產(chǎn)生分支,從而執(zhí)行一些語句而跳過另一些語句。7)使用SelectCase語句當(dāng)一個表達式與幾個不同的值相比較時,可以使用SelectCase語句。SelectCase語句從多個條件中選擇第一個符合條件的情況執(zhí)行。2.2數(shù)據(jù)處理工具—PythonPython是一種結(jié)合了解釋性、編譯性、互動性和面向?qū)ο蟮母呒壘幊陶Z言,由荷蘭數(shù)學(xué)和計算機科學(xué)研究學(xué)會的GuidovanRossum于1990年初開發(fā)。目前最新版本是于2008年12月31日發(fā)布的Python3.0版本,常被稱為Python3000,簡稱Py3k。第65頁2.2數(shù)據(jù)處理工具—Python2.2.1Python的安裝與運行2.2.2Python數(shù)據(jù)采集2.2.3Python數(shù)據(jù)處理第66頁2.2.1Python的安裝與運行2.2.1Python的安裝與運行Anaconda擁有Python編程過程中需要用到的大量工具包下載地址為/products/individual圖2-22
Anaconda工具圖2-21添加環(huán)境變量選項2.2.1Python的安裝與運行例如,單擊JupyterNotebook,系統(tǒng)會自動彈出瀏覽器,進入Jupyter操作界面。創(chuàng)建一個Python文件(執(zhí)行New下Python3)后才可編寫運行代碼,如圖2-23和圖2-24所示。圖2-23新建文件
圖-24執(zhí)行代碼窗口2.2.1Python的安裝與運行2.2.2PyCharm的安裝和運行PyCharm的下載地址為/pyCharm/download,選擇2021.3版本進行安裝。安裝時務(wù)必勾選添加到PATH選項。圖2-25添加選項圖2-26項目路徑選擇及解釋器設(shè)置2.2.1Python的安裝與運行創(chuàng)建完成后,會進入PyCharm的主界面。首先,創(chuàng)建一個Python文件并命名(一般以.py為擴展名進行儲存),如圖2-27所示,然后便可編寫執(zhí)行代碼。執(zhí)行代碼可通過菜單欄的“Run”選項,如圖2-28所示,亦可直接單擊右上角的運行按鈕
完成。圖2-27新建Python文件圖2-28運行Python代碼2.2.1Python的安裝與運行PyCharm的操作窗口如圖2-29所示。圖2-29PyCharm窗口2.2.2Python數(shù)據(jù)采集1.采集需求2.采集網(wǎng)站解析①瀏覽器搜索巨潮資訊網(wǎng)(/new/index),進入網(wǎng)站后,根據(jù)上市公司股票代碼檢索公司年度財務(wù)報告。以萬科A(股票代碼:000002)2020年年度報告為例,在網(wǎng)站右上方輸入框內(nèi)檢索“000002”,進入萬科A信息采集界面,如圖2-31所示。圖2-31信息采集界面2.2.2Python數(shù)據(jù)采集②進入年報信息采集界面后,找到界面左側(cè)菜單欄,單擊“定期報告”,右側(cè)內(nèi)容隨之更新。圖2-32年度報告列表2.2.2Python數(shù)據(jù)采集③按快捷鍵F12喚醒開發(fā)者模式,單擊“Network”,發(fā)現(xiàn)“Fetch/XHR”選項內(nèi)容此時為空。圖2-33進入開發(fā)者模式在開發(fā)者模式中,再次單擊頁面“查詢”按鈕可以抓取http頭部信息,依次單擊“query”和“Headers”,獲取請求地址(RequestURL)、請求類型(RequestMethod)、請求參數(shù)(FormData)等內(nèi)容,如圖2-34所示。圖2-34
RequestURL和RequestMethod2.2.2Python數(shù)據(jù)采集2.2.2Python數(shù)據(jù)采集該網(wǎng)頁請求地址為/new/hisAnnouncement/query,請求數(shù)據(jù)的方式為POST。請求參數(shù)如圖2-35所示。圖2-35請求參數(shù)2.2.2Python數(shù)據(jù)采集單擊“Response”可以查看請求響應(yīng)后所返回的全部內(nèi)容,如圖2-36所示,可以發(fā)現(xiàn)返回數(shù)據(jù)為JSON格式。圖2-36JSON數(shù)據(jù)④關(guān)閉開發(fā)者模式,選擇需要下載的公司年度報告PDF,單擊進入下載頁,如圖2-37所示。圖2-37
年報下載頁2.2.2Python數(shù)據(jù)采集2.2.2Python數(shù)據(jù)采集可以發(fā)現(xiàn),
選項中存在下載鏈接,單擊后即可獲得萬科A2020年年度報告PDF。再次喚醒開發(fā)者模式,查看網(wǎng)頁源代碼以尋找PDF文檔真實下載地址,如圖2-38所示。圖2-38年報下載地址2.2.2Python數(shù)據(jù)采集3.采集代碼(1)讀取數(shù)據(jù)引入pandas庫,使用pd.read_excel()將上市公司股票代碼.xlsx導(dǎo)入Python。(2)一次請求獲取組織編碼(orgId)引入requests庫,設(shè)置信息采集界面URL地址(此處的URL地址可以借助開發(fā)者模式,通過抓包股票代碼輸入過程進行查詢)并構(gòu)造請求頭(POST請求數(shù)據(jù)必須構(gòu)造請求頭)。使用requests.post方法構(gòu)建請求接口獲取返回數(shù)據(jù),保存組織編碼(orgId)。2.2.2Python數(shù)據(jù)采集(3)二次請求獲取所需年份下的公司年度報告列表(見圖2-32)設(shè)置年度報告列表URL地址(見圖2-34)。其次,根據(jù)股票代碼(code)和組織編碼(orgId)拼接請求參數(shù)(見圖2-35),并將請求參數(shù)保存至新建字典data。同上,使用requests.post方法構(gòu)建請求接口以獲取2020年年度報告列表。(4)遍歷報告列表使用for循環(huán)語句遍歷報告列表。從返回數(shù)據(jù)announcements中逐一提取列表內(nèi)每個PDF所屬的adjunctUrl值和announcementTitle值(返回數(shù)據(jù)存在位置及內(nèi)容可參考圖
2-36),前者賦值給fileUrl用以拼接年報PDF完整下載地址,后者則賦值給title(公告標(biāo)題)用以過濾不需要的報告。2.2.2Python數(shù)據(jù)采集(5)過濾報告列表并下載使用if條件語句,根據(jù)公告標(biāo)題對PDF進行過濾,通過requests.get方法讀取年報PDF全部內(nèi)容并將其寫入自定義的2020年度報告.pdf,完成下載(采集結(jié)果見圖2-39)。圖2-39采集結(jié)果2.2.3Python數(shù)據(jù)處理數(shù)據(jù)處理主要是指借助Python運用編程手段對大數(shù)據(jù)信息進行快速地整合、清洗,突破了使用Excel、WPS等軟件進行大數(shù)據(jù)處理時產(chǎn)生的延時、卡頓與無響應(yīng)等問題,緩解數(shù)據(jù)處理阻礙并節(jié)省數(shù)據(jù)處理時間,進一步提高數(shù)據(jù)處理效率。下面以虛構(gòu)的2017—2019年上市公司“財務(wù)數(shù)據(jù)表”為例,說明Python的主要數(shù)據(jù)處理功能,通過這些功能將原始數(shù)據(jù)進行整合、清洗,為數(shù)據(jù)分析做好準(zhǔn)備。2.2.3Python數(shù)據(jù)處理1.?dāng)?shù)據(jù)讀取將Excel表格寫入Python中圖2-40
數(shù)據(jù)讀取2.2.3Python數(shù)據(jù)處理2.增加數(shù)據(jù)(1)縱向增加追加2020年財務(wù)數(shù)據(jù)到主表圖2-41Sheet2圖2-42縱向增加2.2.3Python數(shù)據(jù)處理(2)橫向增加增加公司行業(yè)代碼指標(biāo)到主表圖2-43Sheet3圖2-44橫向增加2.2.3Python數(shù)據(jù)處理3.剔除默認值剔除含有默認值(NaN)的樣本圖2-45
剔除默認值2.2.3Python數(shù)據(jù)處理4.剔除重復(fù)樣本剔除重復(fù)統(tǒng)計的樣本并保留第一個圖2-46
剔除重復(fù)樣本2.2.3Python數(shù)據(jù)處理5.?dāng)?shù)據(jù)篩選基于某一字段篩選樣本圖2-47
數(shù)據(jù)篩選2.2.3Python數(shù)據(jù)處理6.?dāng)?shù)據(jù)保存保存Python結(jié)果到Excel文檔圖2-48
數(shù)據(jù)保存2.3商務(wù)智能工具—PowerBIPowerBI(BusinessIntelligence,商務(wù)智能)是軟件服務(wù)、應(yīng)用和連接器的集合,它們協(xié)同工作以將相關(guān)數(shù)據(jù)來源轉(zhuǎn)換為連貫的視覺逼真的交互式見解。簡單來說,PowerBI是一套商業(yè)分析工具,通過連接整合Excel、CSV、MySQL等上百種數(shù)據(jù)源,對這些數(shù)據(jù)進行清洗、轉(zhuǎn)換、加載后開展各種分析,最后生成簡潔美觀的報表并進行共享,供個人或組織在Web和移動設(shè)備上使用。第91頁2.3商務(wù)智能工具—PowerBI2.3.1PowerBIDesktop界面介紹2.3.2使用PowerBI的關(guān)鍵步驟第92頁2.3.1PowerBIDesktop界面介紹①菜單工具欄主要包括數(shù)據(jù)獲取、數(shù)據(jù)篩選處理等基本功能,含有主頁、視圖、建模和幫助等幾大模塊。②數(shù)據(jù)和屬性區(qū)域是選取數(shù)據(jù)表和可視化圖形樣式的區(qū)域,包括字段、可視化、格式、篩選器等模塊。③呈現(xiàn)區(qū)主要用于創(chuàng)建可視化效果圖表,使用“字段”和“可視化”模塊創(chuàng)建的圖表便在該模塊呈現(xiàn)。④切換區(qū)的三個圖標(biāo)分別代表“報表”、“數(shù)據(jù)”和“模型”,在數(shù)據(jù)處理時可以切換報表和視圖,也可以在“模型”界面通過公式或者拖拉方式建立數(shù)據(jù)關(guān)系,實現(xiàn)數(shù)據(jù)的交互勾稽關(guān)聯(lián)。2.3.1PowerBIDesktop界面介紹圖2-49PowerBIDesktop界面布局2.3.2使用PowerBI的關(guān)鍵步驟1.獲取數(shù)據(jù)
圖2-50“獲取數(shù)據(jù)”界面
圖2-51“數(shù)據(jù)加載”界面2.3.2使用PowerBI的關(guān)鍵步驟2.?dāng)?shù)據(jù)整合數(shù)據(jù)整合主要是指在PowerQuery編輯器中運用數(shù)據(jù)轉(zhuǎn)換、加載、合并、拆分、分組等功能對復(fù)雜數(shù)據(jù)進行快速地清洗、整合。下面以某品牌店“2019年和2020年的銷售情況表”為例,說明PowerBI的主要數(shù)據(jù)整合功能,通過這些功能將數(shù)據(jù)基礎(chǔ)表整合成建模表,為下一步的運用做好準(zhǔn)備。2.3.2使用PowerBI的關(guān)鍵步驟(1)行列增刪圖2-52
PowerQuery編輯器圖2-53“新建列”界面圖2-54設(shè)置新建列數(shù)據(jù)格式2.3.2使用PowerBI的關(guān)鍵步驟(2)設(shè)置列標(biāo)題與填充數(shù)據(jù)圖2-55
列標(biāo)題設(shè)置2.3.2使用PowerBI的關(guān)鍵步驟
(3)分列與日期設(shè)置在現(xiàn)實業(yè)務(wù)中,很多單據(jù)編號都含有日期,我們需要對其進行分列提取。拆分列可以“按分隔符”“按字符數(shù)”“按位置”“按從小寫到大寫的轉(zhuǎn)換”等進行拆分。圖2-56
分列圖2-57
日期設(shè)置2.3.2使用PowerBI的關(guān)鍵步驟(4)數(shù)據(jù)分組與合并單擊“編輯查詢”,打開PowerQuery編輯器,復(fù)制明細表,將復(fù)制的表重命名為明細合并表,按照“店鋪”、“年份”和“月份”對銷量和業(yè)績金額進行分組。在主頁下面單擊“分組依據(jù)”,選擇“高級”,分組依據(jù)添加分組,選擇“店鋪”、“年份”和“月份”,在新列名下設(shè)置求和項,分別是對“銷量”和“業(yè)績金額”求和。2.3.2使用PowerBI的關(guān)鍵步驟圖2-58
分組依據(jù)設(shè)置2.3.2使用PowerBI的關(guān)鍵步驟3.?dāng)?shù)據(jù)建模數(shù)據(jù)建模是指PowerBI通過新建度量值、聚合維度表和數(shù)據(jù)表等建立多表格、多來源、多維度數(shù)據(jù)關(guān)系模型的過程。圖2-59表間數(shù)據(jù)合并2.3.2使用PowerBI的關(guān)鍵步驟圖2-60
建立關(guān)系2.3.2使用PowerBI的關(guān)鍵步驟圖2-61建立“商品總計”度量值2.3.2使用PowerBI的關(guān)鍵步驟圖2-62
建立“武漢黃崗商品總計”度量值2.3.2使用PowerBI的關(guān)鍵步驟圖2-63
度量值結(jié)果2.3.2使用PowerBI的關(guān)鍵步驟4.?dāng)?shù)據(jù)可視化數(shù)據(jù)可視化是指PowerBI具有多樣易用的數(shù)據(jù)可視化分析功能,在可視化區(qū)域僅需將整合好的數(shù)據(jù)進行拖放即可呈現(xiàn)可視化圖表,PowerBI呈現(xiàn)的可視化圖表顏色直觀鮮明,形式豐富多樣,主要包括堆積條形圖、堆積柱形圖、簇狀條形圖、環(huán)形圖、著色圖、旭日圖、漏斗圖、卡片圖、雷達圖、瀑布圖、分解樹、KPI和信息地圖等,如圖2-64所示。2.3.2使用PowerBI的關(guān)鍵步驟圖2-64數(shù)據(jù)可視化2.3.2使用PowerBI的關(guān)鍵步驟數(shù)據(jù)可視化的步驟:①獲取可用數(shù)據(jù)表,單擊“獲取數(shù)據(jù)”,選擇“Excel”,單擊“編輯”,進入PowerQuery編輯器中。圖2-65
進入PowerQuery編輯器2.3.2使用PowerBI的關(guān)鍵步驟②繪制某公司銷售收入分店結(jié)構(gòu)圖,在切換區(qū),切換到“報表”界面,在字段區(qū)域選中“店鋪”和“銷售收入”,在可視化區(qū)域,單擊“環(huán)形圖”,如圖2-66所示,即完成圖形繪制。圖2-66某公司銷售收入分店結(jié)構(gòu)2.3.2使用PowerBI的關(guān)鍵步驟③根據(jù)可視化效果對圖表進行設(shè)計。在可視化區(qū)域下面有字段列,可以對“圖例”和可視化選擇的“值”進行更改。
圖2-67選擇字段圖2-68設(shè)計格式2.3.2使用PowerBI的關(guān)鍵步驟圖2-69圖設(shè)計完成2.3.2使用PowerBI的關(guān)鍵步驟5.分享圖表單擊左上角的“保存”,先將文件保存在計算機上,再單擊工具欄右邊的“發(fā)布”按鈕,如圖2-70所示,便實現(xiàn)了將文件發(fā)布到云端處理。圖2-70“發(fā)布”界面圖2-71“發(fā)布”結(jié)果2.4其他常用平臺與工具2.4.1MATLAB2.4.2RapidMiner2.4.3SPSS2.4.4Smartbi2.4.5SASSentimentAnalysis2.4.6R語言第114頁2.4.1MATLABMATLAB是MatrixLaboratory(矩陣實驗室)的縮寫,最初是美國數(shù)學(xué)和計算機科學(xué)家CleveMoler為解決學(xué)生線性代數(shù)課程的矩陣運算問題所寫。之后在1984年由JoinLittle、CleveMoler、SteveBangert合作成立的Mathworks公司正式推向市場。MATLAB系統(tǒng)由MATLAB開發(fā)環(huán)境、MATLAB數(shù)學(xué)函數(shù)庫、MATLAB語言、MATLAB圖形處理系統(tǒng)和MATLAB應(yīng)用程序接口(API)五大部分構(gòu)成。2.4.1MATLAB1.MATLAB的基本功能MATLAB將數(shù)值分析、矩陣和符號計算、數(shù)據(jù)可視化以及非線性動態(tài)系統(tǒng)的建模和仿真等諸多功能集成在一個易于使用的視窗環(huán)境中,方便用于矩陣運算、繪制函數(shù)和圖像、創(chuàng)建用戶界面、連接其他編程語言的程序等,為科學(xué)研究、工程設(shè)計以及必須進行有效數(shù)值計算的領(lǐng)域提供了全面完整的解決方案。2.4.1MATLAB2.MATLAB的基本應(yīng)用方法以MATLAB2016a為例,打開MATLAB軟件后,進入如圖2-72所示的主頁面,會看到由“當(dāng)前文件夾”“命令行”“工作區(qū)”三個窗口構(gòu)成的界面。其中,“當(dāng)前文件夾窗口”用于顯示當(dāng)前運行的文件夾,“命令行窗口”用于輸入命令并顯示執(zhí)行結(jié)果,“工作區(qū)窗口”用于顯示、存儲變量及變量值。圖2-72MATLAB主頁面2.4.1MATLAB在主頁界面的功能菜單欄,你可以選擇新建一個應(yīng)用或者打開一個已有應(yīng)用。如圖2-73所示是新建應(yīng)用界面,可以在“新建”選項卡的下拉列表中選擇需要建立的具體應(yīng)用。圖2-73MATLAB的“新建”選項卡2.4.1MATLABMATLAB操作界面中命令行窗口出現(xiàn)的“>>”與閃爍的光標(biāo)一起表明系統(tǒng)準(zhǔn)備就緒,等待命令輸入,如圖2-74所示。輸入命令后按回車鍵,命令行窗口會顯示執(zhí)行結(jié)果。圖2-74命令行窗口2.4.1MATLAB如果需要繪圖也可以進入“繪圖”選項卡。其結(jié)構(gòu)與主頁完全一致,如圖2-75所示。圖2-75繪圖窗口2.4.1MATLAB3.MATLAB的主要應(yīng)用MATLAB應(yīng)用非常廣泛,已經(jīng)在信號和圖像處理、通信、控制系統(tǒng)設(shè)計、測試和測量、財務(wù)金融建模與分析等眾多領(lǐng)域有成熟的應(yīng)用。2.4.2RapidMinerRapidMiner最初被稱為YALE(YetAnotherLearningEnvironment),是由人工智能部門的IngoMierswa、RalfKlinkenberg和SimonFischer在2001年共同開發(fā)完成。這是一款用于數(shù)據(jù)挖掘的開源計算軟件。RapidMiner主要利用Java編程語言編寫,集成了WEKA學(xué)習(xí)器和評估方法,并且可以與R語言協(xié)同工作。目前,國內(nèi)RapidMiner的應(yīng)用版本已到RapidMiner7.6.0。2.4.2RapidMiner1.RapidMiner的基本功能RapidMiner是專業(yè)數(shù)據(jù)挖掘工具,基本功能有數(shù)據(jù)挖掘、機器學(xué)習(xí)、語意和預(yù)測分析,具體包括數(shù)據(jù)探索、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)預(yù)處理、數(shù)據(jù)可視化、建模、模型驗證、數(shù)據(jù)分析等。利用RapidMiner可以輕松完成從數(shù)據(jù)處理到建模再到分析的全部處理。2.4.2RapidMiner2.RapidMiner的基本應(yīng)用方法打開RapidMiner軟件后,單擊“NewProcess”新建流程,可以進入設(shè)計窗口。其主要由算子選項窗口、資源庫窗口、設(shè)計畫布、參數(shù)窗口、幫助窗口五部分構(gòu)成,如圖2-76所示。2.4.2RapidMiner“算子選項窗口”用于選擇算子、拖動算子至設(shè)計畫布中。“資源庫窗口”用于存儲用戶現(xiàn)有數(shù)據(jù)和已建立的流程。“設(shè)計畫布”進行流程編輯。“參數(shù)窗口”用于設(shè)置算子的相關(guān)參數(shù),決定著算子的特征或行為?!皫椭翱凇笨梢垣@得關(guān)于所選中算子的信息和操作方法介紹。圖2-76RapidMiner的設(shè)計窗口2.4.2RapidMinerRapidMiner基本操作是:(1)數(shù)據(jù)導(dǎo)入數(shù)據(jù)導(dǎo)入主要有兩種方式。第一種方式是以算子(Operator)形式導(dǎo)入。第二種方式,在“Repositories”資源庫窗口單擊“Import”,可以讀取CSV、Excel等多種格式的數(shù)據(jù),如圖
2-77、2-78所示。導(dǎo)入后該數(shù)據(jù)以data形式存儲在庫中,可隨時拖動到設(shè)計畫布中調(diào)用,將會顯示為Retrieve。2.4.2RapidMiner圖2-77“Operators”算子選項窗口圖2-78“Repositories”資源庫窗口2.4.2RapidMiner(2)數(shù)據(jù)預(yù)處理數(shù)據(jù)預(yù)處理主要通過DataTransformation算子實現(xiàn)。如圖2-79為替換默認值的數(shù)據(jù)預(yù)處理界面。圖2-79數(shù)據(jù)預(yù)處理界面2.4.2RapidMiner(3)執(zhí)行數(shù)據(jù)根據(jù)實際需求從算子選項窗口的搜索欄選擇適當(dāng)?shù)乃阕油现廉嫴贾校購膮?shù)設(shè)置窗口對選中的算子進行具體定義。圖2-80數(shù)據(jù)執(zhí)行2.4.2RapidMiner(4)輸出結(jié)果進入Result窗口,單擊“LinearRegression”子窗口便可查看模型執(zhí)行效果,如圖2-81所示。圖2-81
輸出分析結(jié)果2.4.2RapidMiner3.RapidMiner的主要應(yīng)用RapidMiner簡化了數(shù)據(jù)挖掘過程的設(shè)計和評價,企業(yè)常用于解決各種關(guān)鍵的商業(yè)問題。2.4.3SPSSSPSS(StatisticalProductandServiceSolutions)是一款集成化的計算機數(shù)據(jù)處理應(yīng)用軟件,由美國斯坦福大學(xué)的三位研究生在1968年開發(fā)。SPSS是世界上最早采用圖形菜單驅(qū)動界面的統(tǒng)計分析軟件,現(xiàn)在已經(jīng)廣泛應(yīng)用于自然科學(xué)、技術(shù)科學(xué)、社會科學(xué)的各個領(lǐng)域。2019年4月SPSS推出了26.0版本,增強了現(xiàn)有統(tǒng)計和腳本編寫過程,并增加了貝葉斯分析等新功能。2.4.3SPSS1.SPSS的基本功能SPSS集數(shù)據(jù)錄入、整理、分析功能于一身,具備數(shù)據(jù)管理、統(tǒng)計分析、圖表分析、輸出管理等基本功能。其中,SPSS的統(tǒng)計分析功能包括了描述性統(tǒng)計、均值比較、相關(guān)分析、回歸分析、一般線性模型、對數(shù)線性模型、聚類分析、生存分析、時間序列分析、多重響應(yīng)等幾大類。每類又可分為多個統(tǒng)計過程,比如,回歸分析包含線性回歸分析、曲線估計、Logistic回歸、加權(quán)估計等統(tǒng)計過程,每個過程中用戶可以選擇不同的操作方法及參數(shù)。SPSS采用Windows窗口方式將各種功能以統(tǒng)一、規(guī)范的界面展現(xiàn),同時利用對話框展示各種功能選擇項,這使得分析結(jié)果清晰直觀、易學(xué)易用。另外,SPSS可以直接讀取Excel、STATA、SAS、文本等多種格式的數(shù)據(jù)。2.4.3SPSS2.SPSS的基本應(yīng)用過程SPSS運行時會出現(xiàn)多個窗口,最常用的窗口有數(shù)據(jù)編輯窗口、結(jié)果輸出窗口、語法編輯窗口,通過各個窗口可以完成相應(yīng)的操作。2.4.3SPSSSPSS基本操作方法如下。(1)數(shù)據(jù)錄入SPSS數(shù)據(jù)錄入有間接法和直接法兩種選擇。采用間接法時,依次單擊“文件”下的“打開”中的“數(shù)據(jù)”,從中選擇可以直接打開的數(shù)據(jù)文件格式,例如選擇Excel(*.xls,*xlsx,*.xlsm)格式的文件,再選擇相應(yīng)數(shù)據(jù)文件即可,如圖2-83所示。圖2-83選擇數(shù)據(jù)文件窗口2.4.3SPSS采用直接法時,首先在“變量視圖”下對變量進行合理的定義設(shè)置,包括變量名稱、類型、小數(shù)位數(shù)、標(biāo)簽等,然后切入至“數(shù)據(jù)視圖”,在數(shù)據(jù)編輯區(qū)直接錄入數(shù)據(jù),如圖2-84所示。
圖2-84直接法錄入數(shù)據(jù)窗口2.4.3SPSS(2)數(shù)據(jù)分析單擊工具欄中的“分析”菜單會出現(xiàn)一系列SPSS能夠?qū)崿F(xiàn)的功能選項,例如描述性統(tǒng)計、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、生存分析、多重響應(yīng)等。圖2-85數(shù)據(jù)編輯功能圖2-86選擇描述性統(tǒng)計變量2.4.3SPSS3.SPSS的主要應(yīng)用SPSS被廣泛應(yīng)用在生態(tài)學(xué)、醫(yī)療保健、金融經(jīng)濟學(xué)等行業(yè)領(lǐng)域。由于每個行業(yè)存在著與眾不同的行業(yè)特點和行業(yè)需求,因此,SPSS根據(jù)各個行業(yè)數(shù)據(jù)分析和數(shù)據(jù)挖掘的特點,設(shè)計了更具針對性的解決方案。2.4.4SmartbiSmartbi是廣州思邁特軟件有限公司旗下的一款商業(yè)智能BI和大數(shù)據(jù)分析軟件,通過Smartbi應(yīng)用商店(BI+行業(yè)應(yīng)用)為客戶提供場景化、行業(yè)化的數(shù)據(jù)分析應(yīng)用。2.4.4Smartbi1.Smartbi基本功能Smartbi作為企業(yè)級商業(yè)智能應(yīng)用軟件,通過三種平臺軟件實現(xiàn)報表制作、自助分析、數(shù)據(jù)可視化、數(shù)據(jù)挖掘、移動協(xié)同、人工智能等基本功能。2.Smartbi的基本應(yīng)用方法Smartbi軟件產(chǎn)品以“真Excel”為特色,于2020年專門推出了Excel融合分析功能,能夠直接在Excel上取數(shù)后進行自助分析。2.4.4Smartbi(1)創(chuàng)建數(shù)據(jù)源圖2-87選擇數(shù)據(jù)源2.4.4Smartbi(2)數(shù)據(jù)庫管理(3)創(chuàng)新表關(guān)系視圖圖2-88
MySQL數(shù)據(jù)源設(shè)置2.4.4Smartbi圖2-89編輯數(shù)據(jù)源的屬性圖2-90創(chuàng)新表關(guān)系視圖2.4.4Smartbi(4)創(chuàng)建可視化數(shù)據(jù)集(5)創(chuàng)建電子表格圖2-91創(chuàng)建可視化數(shù)據(jù)集圖2-93“設(shè)置”對話框2.4.4Smartbi3.Smartbi的主要應(yīng)用Smartbi基于“BI+行業(yè)”戰(zhàn)略解決了資源占用與實施質(zhì)量之間的矛盾,而且通過對不同行業(yè)場景的深入理解,也定制了專門的行業(yè)模板。目前,Smartbi已經(jīng)廣泛應(yīng)用于金融、大型制造業(yè)、政府、電信等行業(yè)。2.4.5SASSentimentAnalysisSASSentimentAnalysis也稱SAS情感分析,是一款模塊化、集成化的大型應(yīng)用軟件系統(tǒng),由SAS公司開發(fā)。2.4.5SASSentimentAnalysis1.SASSentimentAnalysis的基本功能SASSentimentAnalysis由數(shù)十個專用模塊構(gòu)成,基本功能包括數(shù)據(jù)訪問、數(shù)據(jù)儲存及管理、應(yīng)用開發(fā)、圖形處理、數(shù)據(jù)分析、報告編制、運籌學(xué)方法、計量經(jīng)濟學(xué)與預(yù)測等。2.SASSentimentAnalysis主要應(yīng)用目前SASSentimentAnalysis主要用于實時評估消費者情緒的最新狀態(tài),以提供人們對產(chǎn)品、服務(wù)和品牌整體印象的量化洞察,也已用于企業(yè)競爭排位評估、股市的波動性分析、客戶流失預(yù)測等研究領(lǐng)域。2.4.6R語言R語言誕生于1980年前后,由新西蘭奧克蘭大學(xué)的有關(guān)人員開發(fā),屬于GNU操作系統(tǒng)的一個自由、免費、源代碼開放的軟件。2.4.6R語言1.R語言的基本功能R語言是一套完整的數(shù)據(jù)處理、計算和制圖軟件系統(tǒng),使用者只需指定數(shù)據(jù)庫和若干參數(shù)便能夠?qū)崿F(xiàn)統(tǒng)計分析。除此之外,R語言還具有如下功能:數(shù)據(jù)存儲和處理、數(shù)據(jù)挖掘、數(shù)組運算(R語言在向量、矩陣運算方面功能尤其強大)、統(tǒng)計分析、統(tǒng)計制圖、操作數(shù)據(jù)的輸入和輸出、用戶自定義功能等。2.R語言的主要應(yīng)用R語言能夠通過用戶撰寫的套件增強應(yīng)用功能,增加的功能有特殊的統(tǒng)計技術(shù)和分析速度、繪圖功能,以及編程界面和數(shù)據(jù)輸出/輸入功能,這使得R語言常用于經(jīng)濟計量、財經(jīng)分析、人文科學(xué)研究以及人工智能等領(lǐng)域。2.5浪潮大數(shù)據(jù)平臺—DMP與BA2.5.1浪潮數(shù)據(jù)管理平臺—DMP2.5.2浪潮大數(shù)據(jù)分析平臺——BA第150頁2.5.1浪潮數(shù)據(jù)管理平臺—DMP圖2-94浪潮DMP產(chǎn)品架構(gòu)圖浪潮DMP是一款專業(yè)面向數(shù)倉實施的智能、敏捷的數(shù)據(jù)全生命周期管理應(yīng)用平臺。浪潮DMP產(chǎn)品架構(gòu)如圖
2-94所示。2.5.1浪潮數(shù)據(jù)管理平臺—DMP浪潮DMP是支撐企業(yè)數(shù)倉建設(shè)和數(shù)據(jù)管理的工具,具有智能、敏捷、高效、協(xié)同等特點,擁有數(shù)據(jù)源、數(shù)據(jù)加工廠、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)標(biāo)準(zhǔn)管理、數(shù)據(jù)服務(wù)管理、數(shù)據(jù)服務(wù)共享、聚數(shù)等模塊,可實現(xiàn)對數(shù)據(jù)全生命周期的管理。2.5.1浪潮數(shù)據(jù)管理平臺—DMP浪潮DMP產(chǎn)品操作步驟如下。第一步,配置數(shù)據(jù)源,如圖2-95所示。圖2-95配置數(shù)據(jù)源2.5.1浪潮數(shù)據(jù)管理平臺—DMP第二步,創(chuàng)建維表和模型管理,如圖2-96所示。圖2-96創(chuàng)建維表和模型2.5.1浪潮數(shù)據(jù)管理平臺—DMP第三步:利用ETL組件進行數(shù)據(jù)清洗和數(shù)據(jù)處理,如圖2-97所示。圖2-97數(shù)據(jù)清洗和數(shù)據(jù)處理2.5.2浪潮大數(shù)據(jù)分析平臺——BA浪潮大數(shù)據(jù)分析平臺(以下簡稱浪潮BA)面向中國集團企業(yè),以“助力數(shù)字化轉(zhuǎn)型,成就智慧企業(yè)”為目標(biāo),通過數(shù)據(jù)治理、展示工具、分析應(yīng)用等三個層次提供服務(wù)。浪潮BA產(chǎn)品架構(gòu)如圖2-98所示。圖2-98浪潮BA產(chǎn)品架構(gòu)圖2.5.2浪潮大數(shù)據(jù)分析平臺——BA浪潮BA產(chǎn)品操作步驟如下:第一步,定義參數(shù)模板,如圖2-99所示。圖2-99定義參數(shù)模板2.5.2浪潮大數(shù)據(jù)分析平臺——BA第二步,數(shù)據(jù)集定義,如圖2-100所示。圖2-100數(shù)據(jù)集定義2.5.2浪潮大數(shù)據(jù)分析平臺——BA第三步:部件定,如圖2-101所示。圖2-101部件定義2.5.2浪潮大數(shù)據(jù)分析平臺——BA第四步:分析看板,如圖2-102所示。圖2-102
分析看板
第2章
THEEND第3章大數(shù)據(jù)財務(wù)決策常用方法本章主要介紹了財務(wù)決策中常用的大數(shù)據(jù)分析方法,包括聚類分析、分類方法、回歸分析、關(guān)聯(lián)規(guī)則分析和離群點分析。講解了這些方法的定義、算法種類、主要實施步驟和主要財務(wù)應(yīng)用領(lǐng)域。本章內(nèi)容提要主要內(nèi)容3.1聚類分析 3.2分類方法3.3回歸分析3.4關(guān)聯(lián)規(guī)則分析3.5離群點分析第164頁3.1聚類分析 3.1.1定義及算法種類3.1.2主要實施步驟3.1.3主要財務(wù)應(yīng)用領(lǐng)域第165頁3.1.1定義及算法種類聚類分析是關(guān)于分組或劃分數(shù)據(jù)的方法,目的是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的潛在結(jié)構(gòu)。聚類分析作為從數(shù)據(jù)中獲取知識的重要途徑,是數(shù)據(jù)挖掘和機器學(xué)習(xí)的一個重要研究領(lǐng)域。第166頁3.1.2主要實施步驟聚類分析主要實施步驟包括數(shù)據(jù)預(yù)處理、聚類函數(shù)定義、聚類或分組、評估輸出。對于不同的聚類算法,具體的實施步驟有所差異。第167頁3.1.2主要實施步驟1.基于劃分的聚類方法常用的基于劃分的聚類方法的實施步驟如下:(1)K-means(K-均值)聚類算法實施步驟①數(shù)據(jù)集中隨機取K個樣本作為初始的聚類中心C={,,…};②對數(shù)據(jù)集中每個樣本,計算它到K個聚類中心的距離,并將其分到距離最小的聚類中心對應(yīng)的類中;③分別對每個類別中的所有樣本點求均值,作為新的聚類中心=;④重復(fù)第②和第③步驟,直至達到最大迭代次數(shù),或者更新后的聚類中心與原來的聚類中心幾乎吻合(形成不動點)。第168頁3.1.2主要實施步驟(2)K-means++聚類算法實施步驟①從輸入的數(shù)據(jù)點集合中隨機選擇一個點作為第一個聚類中心;②對于數(shù)據(jù)集中的每一個點X,計算其與聚類中心的距離D(X);③選擇一個D(X)最大的點作為新的聚類中心;④重復(fù)(2)和(3)步直到K個聚類中心被選出;⑤利用K個初始聚類中心運行D(X)。3.1.2主要實施步驟(3)K-中心點(K-medoids)聚類實施步驟①隨機選擇K個對象作為初始的代表對象;②指派每個剩余的對象給離它最近的代表對象所代表的簇;③隨機地選擇一個非代表對象
;④計算用
代替
的總代價S;⑤如果S<0,則用
替換
形成新的K個代表對象的集合,直到不發(fā)生變化。3.1.2主要實施步驟2.基于層次的聚類方法基于層次的聚類方法的實施步驟如下:首先,將數(shù)據(jù)集中的每個樣本作為一個簇;其次,根據(jù)不同簇中最近樣本間的距離找到最近的兩個簇,合并這兩個簇,生成新的簇的集合;最后,合并的過程反復(fù)進行,直至不能再合并或者達到終止條件為止。終止條件為:①設(shè)定一個最小距離閾值d,如果最相近的兩個簇間的距離已經(jīng)超過d,則無須合并,即聚類終止;②限定簇的個數(shù)k,當(dāng)?shù)玫降拇氐膫€數(shù)已經(jīng)達到k,則聚類終止。3.1.2主要實施步驟3.基于密度的聚類方法基于密度的聚類方法的實施步驟如下:①通過檢查數(shù)據(jù)集中各個點的ε-鄰域來搜索簇,如果點p的ε-鄰域包含的點多于設(shè)定值,則創(chuàng)建一個以p為核心對象的簇;而將在核心點鄰域內(nèi)的噪聲點則標(biāo)記為邊界點;②迭代地聚集從這些核心對象直接密度可達的對象,并對所有的密度可達簇進行合并;③重復(fù)①和②,直到?jīng)]有新的點添加到任何簇時,該過程結(jié)束。3.1.3主要財務(wù)應(yīng)用領(lǐng)域聚類分析技術(shù)在財務(wù)系統(tǒng)中的應(yīng)用對提高財務(wù)人員的財務(wù)分析能力起到了重要作用,其應(yīng)用分布在證券投資、客戶管理、信用管理等領(lǐng)域。1.證券投資2.客戶管理3.信用管理4.風(fēng)險管理第173頁3.2分類方法分類是通過有監(jiān)督的學(xué)習(xí)訓(xùn)練建立分類模型,應(yīng)用分類模型把數(shù)據(jù)分成不同的類,依據(jù)分類所采用的不同模型,主要可分為:基于決策樹模型的數(shù)據(jù)分類、基于支持向量機的數(shù)據(jù)分類、基于邏輯回歸模型的數(shù)據(jù)分類等。第174頁3.2分類方法3.2.1基于決策樹的數(shù)據(jù)分類3.2.2基于支持向量機的數(shù)據(jù)分類3.2.3基于邏輯回歸的分類方法3.2.4主要財務(wù)應(yīng)用領(lǐng)域第175頁3.2.1基于決策樹的數(shù)據(jù)分類決策樹算法是一種常用的數(shù)據(jù)挖掘算法,它是從機器學(xué)習(xí)領(lǐng)域中逐漸發(fā)展起來的一種分類函數(shù)逼近方法。第176頁3.2.1基于決策樹的數(shù)據(jù)分類1.決策樹的基本原理決策是根據(jù)信息和評價準(zhǔn)則,用科學(xué)方法尋找或選取最優(yōu)處理方案的過程或技術(shù),對于每個事件或決策,都可能引出兩個或多個事件,導(dǎo)致不同的結(jié)果或結(jié)論。把這種分支用一棵搜索樹表示,即叫做決策樹。也就是說,決策樹因其形狀像樹而得名。決策樹由一系列節(jié)點和分支組成,在節(jié)點和子節(jié)點之間形成分支,節(jié)點代表決策或?qū)W習(xí)過程中所考慮的屬性,而不同屬性形成不同的分支。為了使用決策樹對某一事例進行分類,可以利用該事例的屬性值并由決策樹的樹根往下搜索,直至葉節(jié)點為止。此葉節(jié)點即包含學(xué)習(xí)或決策結(jié)果。3.2.1基于決策樹的數(shù)據(jù)分類2.決策樹分類的主要實施步驟決策樹算法通常分為兩個階段:樹的構(gòu)建和樹的修剪。(1)決策樹的構(gòu)建下面給出一個通用的自頂向下的構(gòu)建決策樹的算法。決策樹的構(gòu)建算法:第178頁3.2.1基于決策樹的數(shù)據(jù)分類made_decision_tree(N,S,A)//由給定的訓(xùn)練數(shù)據(jù)集S產(chǎn)生一棵判定樹。輸入:節(jié)點N,訓(xùn)練樣本集S,分類屬性集A;輸出:一棵判定樹(以節(jié)點N為根節(jié)點的基于數(shù)據(jù)集S、分支的屬性集A)Procedure_made_decision_tree(N,S,A)初始化根節(jié)點;在S中計算A,求解節(jié)點N的分支方案;If(節(jié)點N滿足分支條件)選擇最好的分支方案將S分為S1和S2;創(chuàng)建N的子節(jié)點N1和N2;made_decision_tree(N1,S1,A)made_decision_tree(N2,S2,A)endifend3.2.1基于決策樹的數(shù)據(jù)分類(2)決策樹的修剪創(chuàng)建了初始決策樹后,要對其進行修剪才能形成一棵真正的分類樹,下面給出決策樹修剪的基本算法。Prune_tree(節(jié)點N)If(節(jié)點N為葉節(jié)點)返回C(t)+1;minCost1=Prune_tree(N1);minCost2=Prune_tree(N2)minCostN=min{C(t)+1,CA(N)+1+minCost1+minCost2};if(minCostN==C(t)+1)將N的子節(jié)點N1和N2從決策樹中修剪掉;返回minCostN其中,t為屬于節(jié)點N的所有訓(xùn)練樣本,C(t)和CA(N)分別為將N作為葉節(jié)點和內(nèi)部節(jié)點來構(gòu)建決策樹的代價,算法基本思想是要使構(gòu)建決策樹的總代價最小。3.2.2基于支持向量機的數(shù)據(jù)分類支持向量機(SupportVectorMachine,SVM)是一種有監(jiān)督的機器學(xué)習(xí)算法,是用于分類的一種經(jīng)典算法。3.2.2基于支持向量機的數(shù)據(jù)分類1.支持向量機的工作原理①在線性可分方面,如圖3-1所示為最初的二元線性可分模式,圖中的圓圈和三角代表兩個分類類別,H為分類線,用于劃分二者類別,H1和H2分別是過兩類樣本中離H最近且平行于H的樣本點所在直線,H1和H2間的距離我們稱之為最大分類間隔,表示為M,H為最優(yōu)分類線,黑色所表示的樣本點決定最優(yōu)分類線H,我們將這類樣本點稱為支持向量。第182頁3.2.2基于支持向量機的數(shù)據(jù)分類圖3-1支持向量機兩類線性可分模式3.2.2基于支持向量機的數(shù)據(jù)分類②當(dāng)分類問題變?yōu)榫€性不可分時,需要使用核函數(shù)將原空間映射變?yōu)樵诟呔S度的向量空間中尋求最優(yōu)分類面,效果如圖3-2所示。圖3-2低維樣本集映射到高維效果圖3.2.2基于支持向量機的數(shù)據(jù)分類2.支持向量機算法步驟第一步:識別訓(xùn)練樣本中的正負樣本,統(tǒng)計樣本總數(shù)m、特征向量維數(shù)n,建立訓(xùn)練樣本的向量矩陣T;第二步:將樣本的特征向量寫入向量矩陣,如正樣本A,讀取A中的特征項,假設(shè)第i個特征項為0.123,則T[0][i]=0.123;第三步:引入核函數(shù),高斯核函數(shù)的公式為:第185頁(3-1)3.2.2基于支持向量機的數(shù)據(jù)分類第四步:根據(jù)最優(yōu)決策面公式可得第186頁最優(yōu)偏置相等于第一分量,則可知第五步:SVM分類器一次訓(xùn)練過程完畢,多次訓(xùn)練保存最優(yōu)參數(shù)模版。在預(yù)測階段,使用同樣格式的未標(biāo)注數(shù)據(jù)驗證SVM分類器效果即可,若測試效果達到風(fēng)險分析的一般要求,可保存該模版。(3-4)(3-5)3.2.3基于邏輯回歸的分類方法邏輯回歸(LogisticRegression)是當(dāng)前業(yè)界比較常用的機器學(xué)習(xí)方法,用于對事物進行二分類,也用來估計某種事物的可能性。3.2.3基于邏輯回歸的分類方法1.二元logistic回歸模型的原理二元logistic回歸可以解決被解釋變量為非線性的問題,其原理主要是利用了logit變換。通過logit變換,一方面可以使被解釋變量的取值范圍擴展到整個實數(shù)集,另一方面可以實現(xiàn)非線性關(guān)系的映射。第188頁3.2.3基于邏輯回歸的分類方法2.二元logistic回歸模型的主要實施步驟①選擇能夠代表待分類對象特征的自變量,同時對每個自變量選擇合適的量化方法;②定義自變量的線性組合y,即針對自變量的線性回歸結(jié)果;③將線性回歸結(jié)果y映射到logistic回歸函數(shù),生成一個0~1范圍取值的函數(shù)概率值;④根據(jù)概率值,定義閾值(通常為0.5),判定分類結(jié)果的正負;⑤重復(fù)以上步驟①~④,直到得出滿意的分類結(jié)果。3.2.4主要財務(wù)應(yīng)用領(lǐng)域1.成本分析2.財務(wù)風(fēng)險分析第190頁3.3回歸分析 3.3.1基于大數(shù)據(jù)的回歸分析方法3.3.2基于大數(shù)據(jù)的回歸分析實施步驟3.3.3基于大數(shù)據(jù)的回歸分析的財務(wù)領(lǐng)域應(yīng)用第191頁3.3.1基于大數(shù)據(jù)的回歸分析方法1.求解大數(shù)據(jù)邏輯回歸分析的正則化問題描述由于目標(biāo)函數(shù)中含有未知的分布,無法求出目標(biāo)函數(shù)的確定性形式,以及儲存與分析數(shù)據(jù)的能力無法與存在的數(shù)據(jù)相匹配,所以采取隨機樣本,希望利用有限樣本獲得盡可能多的信息,因此,隨機化問題的主要問題就是極小化期望風(fēng)險函數(shù)。具體形式如下:其中,
是極小化變量,及優(yōu)化變量。
是輸入輸出對,服從一個位置分配,
是損失函數(shù),關(guān)于
的凸函數(shù)。第192頁(3-12)3.3.1基于大數(shù)據(jù)的回歸分析方法傳統(tǒng)一般采用樣本平均近似法,但分析發(fā)現(xiàn)此方法要極小化一連串的經(jīng)驗風(fēng)險函數(shù),仍然沒有跳出批量處理的范疇,因此,采用在線的方法,即在每次迭代時,只利用一個樣本對變量進行更新。把正則項加入目標(biāo)函數(shù),求解的問題便成為:(3-13)3.3.1基于大數(shù)據(jù)的回歸分析方法2.求解大數(shù)據(jù)正則化邏輯回歸問題的方法在大規(guī)模問題下,分布式計算是一種提升計算效率的重要方法,隨機坐標(biāo)下降法對分布式數(shù)據(jù)有種天然優(yōu)勢,同時隨機坐標(biāo)下降法也適用于穩(wěn)定數(shù)據(jù),在迭代過程中,坐標(biāo)下降法無法收斂,而隨機坐標(biāo)下降法通過其隨機性跳出循環(huán)的迭代值,達到收斂。受此啟發(fā),翁洋(2020)提出隨機坐標(biāo)持續(xù)上界極小化算法RCSUM。此外,在面臨高維問題時,由于不具備足夠的處理器,且優(yōu)化所有塊不切實際,因此設(shè)計了輕微改進塊選取準(zhǔn)則的RPSUM,同時優(yōu)化隨機選取p個塊,其中p與所擁有的處理器的數(shù)量一致。3.3.2基于大數(shù)據(jù)的回歸分析實施步驟1.求解大數(shù)據(jù)正則化邏輯回歸分析的步驟①隨機梯度下降法求解范數(shù)正則化的邏輯回歸問題的實施步驟,如算法1所示。第195頁3.3.2基于大數(shù)據(jù)的回歸分析實施步驟②向前向后分裂法求解
范數(shù)正則化的邏輯回歸問題的實施步驟,如算法2所示。3.3.2基于大數(shù)據(jù)的回歸分析實施步驟(2)求解大數(shù)據(jù)的正則化邏輯回歸問題的RCSUM和RPSUM步驟1)RCSUM求解
范數(shù)正則化邏輯回歸問題的實施步驟,如算法3所示。3.3.2基于大數(shù)據(jù)的回歸分析實施步驟②RPSUM求解
范數(shù)正則化邏輯回歸問題的實施步驟,如算法4所示。3.3.3基于大數(shù)據(jù)的回歸分析的財務(wù)領(lǐng)域應(yīng)用1.貸款違約預(yù)測2.上市公司財務(wù)預(yù)警第199頁3.4關(guān)聯(lián)規(guī)則分析關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘知識模式中比較重要的一種。關(guān)聯(lián)規(guī)則模式屬于描述型模式,挖掘關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)范疇。關(guān)聯(lián)規(guī)則的概念由Agrawal、Imielinski、Swami提出,隱含于數(shù)據(jù)中的一種簡單而實用的知識模式,是對一個事物和其他事物相互關(guān)聯(lián)的一種描述。3.4關(guān)聯(lián)規(guī)則分析 3.4.1定義及算法3.4.2主要實施步驟3.4.3主要財務(wù)應(yīng)用領(lǐng)域第201頁3.4.1定義及算法與關(guān)聯(lián)規(guī)則分析相關(guān)的一些概念。①關(guān)聯(lián)規(guī)則:反映一個事物與其他事物之間的相互依存性和關(guān)聯(lián)性。如果兩個或多個事物之間存在一定的關(guān)聯(lián)關(guān)系,那么,其中一個事物發(fā)生就能夠預(yù)測與它相關(guān)聯(lián)的其他事物的發(fā)生。②關(guān)聯(lián)規(guī)則分析:用于發(fā)現(xiàn)隱藏在大型數(shù)據(jù)集中令人感興趣的聯(lián)系,所發(fā)現(xiàn)的模式通常用關(guān)聯(lián)規(guī)則或頻繁項集的形式表示。③關(guān)聯(lián)規(guī)則挖掘問題:給定事務(wù)的集合T,關(guān)聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于或等于minsup并且置信度大于或等于minconf的所有規(guī)則,minsup和minconf是對應(yīng)的支持度和置信度閾值。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法通常采用的一種策略是,將關(guān)聯(lián)規(guī)則挖掘任務(wù)分解為頻繁項集產(chǎn)生和規(guī)則產(chǎn)生兩個主要的子任務(wù),典型算法有:Apriori算法、FP-Growth算法、CARMA算法、基于距離的量化關(guān)聯(lián)算法。第202頁3.4.1定義及算法1.Apriori算法Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項集的基本算法。2.FP-Growth算法FP-Growth算法是采用樹結(jié)構(gòu)對事務(wù)進行壓縮的同時,保留事務(wù)當(dāng)中屬性之間的關(guān)系。該方法并不會產(chǎn)生候選項集,而是通過加大頻繁集方法進行數(shù)據(jù)的挖掘。第203頁3.4.1定義及算法3.CARMA算法CARMA算法的提出是為了在交易集合D中找出數(shù)據(jù)項頻集的集合。CARMA算法的過程是將整個交易集合進行遍歷兩次,所以算法可以分為兩個步驟,分別為第一次PhaseI遍歷、第二次PhaseII遍歷。4.基于距離的量化關(guān)聯(lián)算法最初關(guān)聯(lián)規(guī)則的挖掘都是針對交易數(shù)據(jù)庫進行的,即布爾型關(guān)聯(lián)規(guī)則的挖掘,使用的都是經(jīng)典的Apriori算法。但實際生活中關(guān)系型數(shù)據(jù)庫應(yīng)用廣泛,并且大部分包含量化屬性,如工資、年齡。由于量化屬性的有序性和多值性,區(qū)間劃分成為量化關(guān)聯(lián)規(guī)則挖掘的預(yù)處理方法,即把量化屬性離散化,轉(zhuǎn)化成布爾型數(shù)據(jù),這樣再使用經(jīng)典的Apriori算法進行挖掘。第204頁3.4.2主要實施步驟1.Apriori算法步驟①生成候選集:找出候選集,即有可能成為頻繁集的項集。②生成頻繁集:通過數(shù)據(jù)庫掃描篩選出滿足條件的候選集組成頻繁集。③生成關(guān)聯(lián)規(guī)則:用得到的頻繁集生成關(guān)聯(lián)規(guī)則。對于每個頻繁項集L,產(chǎn)生L的所有非空子集。對于L的每個非空子集s和它的補集(L-s),如果條件概率大于最小置信度閾值,則輸出規(guī)則“s→(L-s)”。3.4.2主要實施步驟2.FP-Growth算法步驟(1)對原始FP樹的創(chuàng)建(2)通過遞歸的方法在FP樹上找出全部的最大頻繁項集3.4.2主要實施步驟3.CARMA算法步驟①第一次PhaseI遍歷:在第一次的遍歷中會產(chǎn)生一個超集,也就是數(shù)據(jù)項頻集的集合,稱之為數(shù)據(jù)項頻集的潛在的集合(PotentiallyLargeItemsets)。②第二次PhaseII遍歷:在第二次的遍歷過程中會把第一次遍歷所產(chǎn)生的集合進行刪減,從而得到最終的結(jié)果。3.4.2主要實施步驟4.基于距離的量化關(guān)聯(lián)算法步驟①對某量化屬性進行聚類,形成滿足要求的簇。為了能把屬性間的關(guān)系考慮進來,用聚類算法對數(shù)據(jù)的所有屬性整體進行聚類,找出滿足稠密度和頻繁度閾值的簇,然后這些簇投影到用戶所關(guān)心的各個數(shù)值型屬性上。這樣就可以得到簇在各屬性上的投影區(qū)間。②將簇組合得到基于距離的關(guān)聯(lián)規(guī)則。將上步產(chǎn)生的區(qū)間內(nèi)的數(shù)據(jù)作為在各屬性上的簇,再將簇組合,根據(jù)基于距離的關(guān)聯(lián)規(guī)則的定義,找出滿足條件的簇組合,最后形成規(guī)則。3.4.3主要財務(wù)應(yīng)用領(lǐng)域1.客戶畫像分析2.產(chǎn)品銷售預(yù)測3.風(fēng)險預(yù)測第209頁3.5離群點分析3.5.1內(nèi)涵及特征3.5.2主要方法及實施步驟3.5.3主要財務(wù)應(yīng)用領(lǐng)域第210頁3.5.1內(nèi)涵及特征第211頁圖3-4離群數(shù)據(jù)Hawkins在1980年給出了離群數(shù)據(jù)的最初定義:“離群數(shù)據(jù)是數(shù)據(jù)集中一些特殊的數(shù)據(jù)對象,這些對象同數(shù)據(jù)集中其他對象明顯不同,從而使人懷疑這些特殊的數(shù)據(jù)對象不屬于隨機誤差或方差,可能由另一種截然不同的機制產(chǎn)生。”例如,在圖3-4中,大多數(shù)對象遵循近似高斯分布。然而,區(qū)域R中的對象是顯著不同的,因為它們不可能遵循與數(shù)據(jù)集中的其他對象相同的分布。因此,R中的對象在數(shù)據(jù)集中是離群數(shù)據(jù)。該定義在某種程度上指出了離群數(shù)據(jù)的本質(zhì),事實上,由于應(yīng)用背景及離群度量方式的不同,很難給離群數(shù)據(jù)一個一個統(tǒng)一的、準(zhǔn)確的形式化定義。3.5.2主要方法及實施步驟第212頁1.基于距離的離群挖掘方法最早由Knorr提出,其思想是假定X為輸入數(shù)據(jù)集,p是用戶設(shè)定的數(shù)據(jù)點個數(shù),D為距離閾值。對于X中任一對象o,如果在X中能找到至少p個對象使得這些對象到o的距離大于D,那么o被稱為的離群數(shù)據(jù)。(3-58)3.5.2主要方法及實施步驟2.基于近鄰的離群檢測方法通過計算查詢點與其最近鄰居之間的距離來比較數(shù)據(jù)對象之間的相似性,并以此來判斷對象的離群特性。該類方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 知識普及的考試試題及答案
- 2024年秘書證考試能力建設(shè)試題及答案
- 2025中國貿(mào)易合同范本
- 2025年福州市房地產(chǎn)買賣合同(甲種本買賣)
- 2025水果種子買賣合同協(xié)議書
- 新生兒動脈栓塞的護理
- 甘肅歷年國考試題及答案
- 教育強國建設(shè)的戰(zhàn)略規(guī)劃與實施路徑
- 綠色轉(zhuǎn)型加速:全球與中國清潔能源市場現(xiàn)狀及前景分析
- 哈爾濱商業(yè)大學(xué)《英文報刊時文賞析》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025生豬購買合同范文
- 醫(yī)療器械經(jīng)營質(zhì)量管理制度及工作程序-完整版
- (二模)溫州市2025屆高三第二次適應(yīng)性考試英語試卷(含答案)+聽力音頻+聽力原文
- 行政事業(yè)單位固定資產(chǎn)培訓(xùn)
- 6.1.2化學(xué)反應(yīng)與電能 課件 2024-2025學(xué)年高一下學(xué)期化學(xué)人教版(2019)必修第二冊
- 區(qū)級綜合醫(yī)院關(guān)于落實區(qū)領(lǐng)導(dǎo)干部醫(yī)療保健工作實施方案
- 申請XXX最低生活保障不予確認同意告知書
- 城市雕塑藝術(shù)工程量清單計價定額2020版
- 河池市出租車駕駛員從業(yè)資格區(qū)域科目考試題庫(含答案)
- 淘汰賽賽對陣表
- 醫(yī)療糾紛中的病歷偽造篡改問題研究
評論
0/150
提交評論