版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
審計(jì)數(shù)據(jù)采集與分析技術(shù)
第1頁計(jì)算機(jī)審計(jì)含義一般以為,計(jì)算機(jī)審計(jì)有3層含義:面向數(shù)據(jù)審計(jì)面向現(xiàn)行信息系統(tǒng)審計(jì)對信息系統(tǒng)生命周期審計(jì)第2頁面向數(shù)據(jù)計(jì)算機(jī)審計(jì)流程審前調(diào)查:電子數(shù)據(jù)組織、處理和存放數(shù)據(jù)采集:審計(jì)接口、數(shù)據(jù)庫訪問技術(shù)、數(shù)據(jù)采集技術(shù)數(shù)據(jù)清理、轉(zhuǎn)換、驗(yàn)證、建立中間表數(shù)據(jù)分析:數(shù)據(jù)分析技術(shù)、SQL、審計(jì)軟件審計(jì)取證第3頁一、審前調(diào)查及電子數(shù)據(jù)組織、處理和存放第4頁審前調(diào)查內(nèi)容和辦法
對組織構(gòu)造調(diào)查管理體制在管理集中度高單位,系統(tǒng)對應(yīng)是集中式;數(shù)據(jù)由下級部門錄入并上傳,下級部門也許理解數(shù)據(jù)構(gòu)造,也也許主線不懂得數(shù)據(jù)構(gòu)造;在上傳前也許進(jìn)行詳細(xì)數(shù)據(jù)處理,也也許不進(jìn)行任何處理,只上傳原始數(shù)據(jù);通過對管理體制調(diào)查,能夠?yàn)楹髞泶_定索取哪些技術(shù)資料、數(shù)據(jù),以及索取方式辦法等提供根據(jù);部門設(shè)置情況
部門詳細(xì)職能
部門內(nèi)計(jì)算機(jī)信息系統(tǒng)情況并非所有業(yè)務(wù)都一定利用計(jì)算機(jī)信息系統(tǒng)
選擇重點(diǎn)部門進(jìn)行部門內(nèi)計(jì)算機(jī)信息系統(tǒng)情況調(diào)查第5頁審前調(diào)查內(nèi)容和辦法對計(jì)算機(jī)信息系統(tǒng)調(diào)查對計(jì)算機(jī)信息系統(tǒng)概況調(diào)查硬件設(shè)備
系統(tǒng)軟件
系統(tǒng)技術(shù)文檔資料
系統(tǒng)主要功能
系統(tǒng)業(yè)務(wù)處理流程
對數(shù)據(jù)庫及數(shù)據(jù)調(diào)查數(shù)據(jù)庫有關(guān)技術(shù)情況系統(tǒng)設(shè)計(jì)說明書數(shù)據(jù)庫詳細(xì)設(shè)計(jì)說明書,基本包括下列內(nèi)容:總數(shù)據(jù)流圖和詳細(xì)業(yè)務(wù)數(shù)據(jù)流圖、軟件構(gòu)造圖設(shè)計(jì)數(shù)據(jù)庫表間關(guān)系圖表構(gòu)造描述數(shù)據(jù)庫SQL文獻(xiàn)(含表、視圖、觸發(fā)器、存放過程等)顧客使用手冊系統(tǒng)對業(yè)務(wù)處理流程第6頁審前調(diào)查內(nèi)容和辦法提出數(shù)據(jù)需求確定所需數(shù)據(jù)內(nèi)容確定數(shù)據(jù)獲取詳細(xì)方式提出書面數(shù)據(jù)需求第7頁第8頁電子數(shù)據(jù)組織、處理和存放第9頁電子數(shù)據(jù)處理特點(diǎn)存放介質(zhì)變化(紙張→磁性、光電介質(zhì))基于一定數(shù)據(jù)處理平臺,有一定數(shù)據(jù)模型(層次、網(wǎng)狀和關(guān)系模型,利用DBMS存放和管理數(shù)據(jù),會計(jì)信息組織與手工系統(tǒng)不一樣)數(shù)據(jù)表達(dá)編碼化(多種編碼)帶來系統(tǒng)控制和數(shù)據(jù)安全性新問題(傳統(tǒng)控制點(diǎn)正在發(fā)生變化,信息系統(tǒng)控制與安全性問題日漸突出)審計(jì)線索變化(修改數(shù)據(jù)文獻(xiàn)能夠不留下痕跡,能夠利用諸如系統(tǒng)日記和數(shù)據(jù)庫日記等系統(tǒng)控制伎倆發(fā)覺某些線索)第10頁如何表達(dá)數(shù)據(jù)數(shù)據(jù)模型數(shù)據(jù)模型是對現(xiàn)實(shí)世界數(shù)據(jù)特性抽象它提供模型化數(shù)據(jù)和信息工具第11頁數(shù)據(jù)模型2個層次在信息世界中,使用概念模型(用于信息世界建模,語義體現(xiàn)能力強(qiáng))E-R模型是一種常用概念模型,它用來描述實(shí)體以及實(shí)體之間聯(lián)系E-R模型要素實(shí)體:客觀存在并能夠互相辨別事物,用方框表達(dá)屬性:實(shí)體特性或性質(zhì),用橢圓表達(dá)聯(lián)系:實(shí)體之間聯(lián)系,用菱形表達(dá)在計(jì)算機(jī)世界中,使用詳細(xì)DBMS支持?jǐn)?shù)據(jù)模型(用于機(jī)器世界,有嚴(yán)格形式化定義)關(guān)系模型層次模型網(wǎng)狀模型第12頁數(shù)據(jù)模型3個要素?cái)?shù)據(jù)構(gòu)造描述模型靜態(tài)特性是刻畫數(shù)據(jù)模型最主要方面數(shù)據(jù)操作描述模型動態(tài)特性數(shù)據(jù)檢索數(shù)據(jù)更新(增加、刪除、修改)約束條件一組完整性規(guī)則集合實(shí)體完整性引用(參照)完整性顧客定義完整性第13頁關(guān)系模型關(guān)系模型是目前最常用一種數(shù)據(jù)模型關(guān)系數(shù)據(jù)庫采取關(guān)系模型作為數(shù)據(jù)組織方式關(guān)系模型建立在嚴(yán)格關(guān)系代數(shù)基礎(chǔ)之上關(guān)系模型概念單一實(shí)體以及實(shí)體之間聯(lián)系都用關(guān)系來表達(dá)。關(guān)系之間聯(lián)系則是通過相容(來自同一種域)屬性來表達(dá)。關(guān)系必須是規(guī)范化關(guān)系最基本要求是每一種分量是一種不可分?jǐn)?shù)據(jù)項(xiàng),亦即不允許表中尚有表(滿足第一范式,1NF) 關(guān)系數(shù)據(jù)庫標(biāo)準(zhǔn)語言SQL是一種非過程化語言,使用方便第14頁關(guān)系模型術(shù)語關(guān)系一張二維表,每一列都不可再分表中行、列次序并不主要元組二維表中每一行,相稱于一條統(tǒng)計(jì)屬性二維表中每一列,屬性有名稱與類型。屬性不可再分,不允許反復(fù)主鍵由表中屬性或?qū)傩越M組成,用于唯一確定一條統(tǒng)計(jì)域?qū)傩匀≈捣秶P(guān)系模式統(tǒng)計(jì)構(gòu)造描述,對應(yīng)關(guān)系表表頭第15頁關(guān)系模型數(shù)據(jù)運(yùn)算傳統(tǒng)集合運(yùn)算并(UNION)交(INTERSECTION)差(MINUS)笛卡兒積專門關(guān)系運(yùn)算選擇(SELECTION)投影(PROJECT)連接(JOIN)連接含義:相容屬性之間關(guān)系連接類型(內(nèi)連接、外連接、自然連接)第16頁關(guān)系模型完整性約束條件實(shí)體完整性(EntityIntegrity)——關(guān)鍵字屬性組成部分不能為空值參照完整性(ReferentialIntegrity)——參照表中外關(guān)鍵字要么取空值,要么取被參照表中某一主關(guān)鍵字值顧客定義完整性(User-DefinedIntegrity)——詳細(xì)應(yīng)用環(huán)境完整性約束,反應(yīng)了某一詳細(xì)應(yīng)用所包括數(shù)據(jù)應(yīng)滿足語義要求第17頁“數(shù)據(jù)文獻(xiàn)”含義“數(shù)據(jù)文獻(xiàn)”這個概念具有非常豐富內(nèi)涵,它泛指多種用來存放數(shù)據(jù)文獻(xiàn)。在數(shù)據(jù)庫技術(shù)誕生之前,它指是寄存數(shù)據(jù)文獻(xiàn)本身。數(shù)據(jù)庫技術(shù)誕生后,數(shù)據(jù)由DBMS管理,數(shù)據(jù)文獻(xiàn)是寄存物理數(shù)據(jù)庫載體。不一樣DBMS存放數(shù)據(jù)方式是不一樣。FoxPro-一種邏輯上表對應(yīng)一種“庫文獻(xiàn)”(.dbf)Access-所有數(shù)據(jù)庫對象放在一種數(shù)據(jù)庫文獻(xiàn)中(.mdb)IBMDB2-一張表數(shù)據(jù)也許分別放在不一樣數(shù)據(jù)文獻(xiàn)中除了DBMS產(chǎn)生和維護(hù)數(shù)據(jù)文獻(xiàn)之外,尚有很多應(yīng)用程序管理數(shù)據(jù)文獻(xiàn),如多種臨時文獻(xiàn)、數(shù)據(jù)交換文獻(xiàn)等。第18頁數(shù)據(jù)庫規(guī)范化設(shè)計(jì)辦法利用軟件工程思想與辦法,根據(jù)數(shù)據(jù)庫設(shè)計(jì)特點(diǎn)提出了多種設(shè)計(jì)準(zhǔn)則和設(shè)計(jì)規(guī)程;邏輯數(shù)據(jù)庫設(shè)計(jì)與物理數(shù)據(jù)庫設(shè)計(jì)是關(guān)鍵與關(guān)鍵;對設(shè)計(jì)質(zhì)量控制是以大量書面文檔和數(shù)據(jù)字典為基礎(chǔ);目前出現(xiàn)了許多可視化規(guī)范化輔助設(shè)計(jì)軟件;還沒有支持?jǐn)?shù)據(jù)庫設(shè)計(jì)全過程輔助工具。第19頁生命周期法6個階段需求分析概念構(gòu)造設(shè)計(jì)邏輯構(gòu)造設(shè)計(jì)物理數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫實(shí)行運(yùn)行維護(hù)
第20頁需求分析需求分析重點(diǎn)是取得兩方面需求:(1)信息需求 定義將來信息系統(tǒng)使用所有信息,理解各項(xiàng)數(shù)據(jù)間本質(zhì)聯(lián)系,描述數(shù)據(jù)內(nèi)容和構(gòu)造以及它們之間聯(lián)系等。(2)處理需求 定義將來信息系統(tǒng)數(shù)據(jù)處理功能及功能與數(shù)據(jù)之間聯(lián)系。同步考慮性能、安全性和完整性約束。第21頁自頂向下構(gòu)造化分析辦法自頂向下構(gòu)造化分析辦法(StructuredAnalysis,SA)是需求分析階段一種常用辦法。它關(guān)鍵思想是:自頂向下逐層分解,直到每一項(xiàng)功能都能夠被容易地實(shí)現(xiàn)為止。SA辦法中要用到數(shù)據(jù)流程圖(DataFlowDiagram,DFD)來描述數(shù)據(jù)處理過程。數(shù)據(jù)流圖是從“數(shù)據(jù)”和“處理”兩方面來體現(xiàn)數(shù)據(jù)處理過程一種圖形化表達(dá)辦法。第22頁數(shù)據(jù)流程圖(DFD)以儲戶取款業(yè)務(wù)為例第23頁數(shù)據(jù)字典數(shù)據(jù)字典(DataDictionary,DD)是在系統(tǒng)設(shè)計(jì)過程中對各類基本要素進(jìn)行描述集合。它是描述系統(tǒng)邏輯模型主要工具。數(shù)據(jù)字典組成部分:數(shù)據(jù)項(xiàng)數(shù)據(jù)構(gòu)造數(shù)據(jù)流數(shù)據(jù)存放處理過程其中數(shù)據(jù)項(xiàng)是數(shù)據(jù)最小組成單位,若干個數(shù)據(jù)項(xiàng)能夠組成一種數(shù)據(jù)構(gòu)造,數(shù)據(jù)字典通過對數(shù)據(jù)項(xiàng)和數(shù)據(jù)構(gòu)造定義來描述數(shù)據(jù)流和數(shù)據(jù)存放內(nèi)容。第24頁“數(shù)據(jù)項(xiàng)”舉例銷售業(yè)務(wù)中有很多數(shù)據(jù)項(xiàng),其中“科目代碼”數(shù)據(jù)項(xiàng)能夠描述如下:數(shù)據(jù)項(xiàng)編號:Item001數(shù)據(jù)項(xiàng)名稱:KMDM
數(shù)據(jù)項(xiàng)含義說明:唯一標(biāo)識每個科目別名:科目代碼數(shù)據(jù)類型:字符型數(shù)據(jù)長度:9取值范圍:100000000至999999999取值含義:前3位是一級科目,背面每2位是一種科目級別與其他數(shù)據(jù)項(xiàng)邏輯關(guān)系:第25頁“數(shù)據(jù)流”舉例數(shù)據(jù)流“工資結(jié)算單”能夠描述如下:數(shù)據(jù)流編號:Flow001數(shù)據(jù)流名稱:GZJSD說明:財(cái)務(wù)部門計(jì)算工資結(jié)算單數(shù)據(jù)流起源:財(cái)務(wù)部門數(shù)據(jù)流去向:職員組成(數(shù)據(jù)構(gòu)造):職員號+姓名+性別+基本工資+出勤工日+缺勤工日+病假+事假+工傷假+應(yīng)扣工資+副食補(bǔ)貼+物價補(bǔ)貼+房租水電+儲蓄+其他+實(shí)發(fā)工資平均流量:1500/月(單位職員人數(shù))高峰期流量:低谷期流量:第26頁“處理過程”舉例處理過程“登記日記賬”可描述如下:處理過程編號:Proc001處理過程名稱:DJRJZ輸入數(shù)據(jù)流:記賬憑證輸出數(shù)據(jù)流:鈔票及銀行存款日記賬處理說明:根據(jù)收款憑證、付款憑證逐筆次序登記鈔票日記賬和銀行存款日記賬處理要求:每個月處理數(shù)次,每次處理時間不大于15分鐘第27頁數(shù)據(jù)庫表構(gòu)造定義字段名稱字段含義字段類型字段屬性Prj_Code項(xiàng)目編號字符型關(guān)鍵字Prj_Name項(xiàng)目名稱字符型非空Prj_Attr項(xiàng)目性質(zhì)字符型非空Audit_Chief審計(jì)組長字符型非空Main_Staff主審字符型非空Strategy審計(jì)方案字符型非空Start_Date進(jìn)點(diǎn)日期日期時間型非空Time_Period工作周期數(shù)值型非空第28頁概念構(gòu)造設(shè)計(jì)策略自頂向下:首先定義全局概念構(gòu)造框架,再做逐次細(xì)化。自底向上:首先定義每一局部應(yīng)用概念構(gòu)造,然后按一定規(guī)則把它們集成起來,得到全局概念構(gòu)造。由里向外:首先定義最主要那些關(guān)鍵構(gòu)造,再逐漸向外擴(kuò)充。混合策略:把自頂向下和自底向上結(jié)合起來辦法。它先自頂向下設(shè)計(jì)一種概念構(gòu)造框架。然后以它為骨架再自底向上設(shè)計(jì)局部概念構(gòu)造,并把它們集成起來。第29頁概念構(gòu)造設(shè)計(jì)E-R辦法E-R辦法用E-R圖來描述現(xiàn)實(shí)世界概念模型。將現(xiàn)實(shí)世界抽象為實(shí)體以及實(shí)體之間聯(lián)系。E-R圖元素包括:方框:表達(dá)實(shí)體型(Entity),并在框內(nèi)寫上實(shí)體名稱;橢圓:表達(dá)實(shí)體屬性(Attribute),并用無向邊將實(shí)體與其屬性連接起來;菱形:表達(dá)實(shí)體間聯(lián)系(Relationship),菱形內(nèi)寫上聯(lián)系名稱,用無向邊將菱形分別與有關(guān)實(shí)體相連,在無向邊旁邊標(biāo)明聯(lián)系類型。若聯(lián)系也有屬性,則把屬性橢圓和聯(lián)系菱形也用無向邊連接起來。第30頁E-R模型中三種聯(lián)系一對一聯(lián)系(1:1) 一種班級對應(yīng)一種班主任一對多聯(lián)系(1:n)
一種班級能夠有多名學(xué)生,一種學(xué)生只能屬于一種班級多對多聯(lián)系(m:n)
一種學(xué)生能夠?qū)W多門課程,一門課程能夠有多名學(xué)生第31頁E-R模型中三種聯(lián)系第32頁E-R圖第33頁用E-R辦法進(jìn)行概念構(gòu)造設(shè)計(jì)簡要步驟設(shè)計(jì)局部E-R模型將局部E-R模型集成為全局E-R模型屬性沖突命名沖突構(gòu)造沖突對全局E-R模型進(jìn)行優(yōu)化第34頁邏輯構(gòu)造設(shè)計(jì)步驟形成初始關(guān)系數(shù)據(jù)庫模式關(guān)系模式規(guī)范化和優(yōu)化外模式設(shè)計(jì)提供了數(shù)據(jù)邏輯獨(dú)立性能適應(yīng)顧客對系統(tǒng)不一樣需求具有一定安全保密作用第35頁索引設(shè)計(jì)
符合建立索引條件:主關(guān)鍵字及外關(guān)鍵字上一般都應(yīng)建立索引,以加快實(shí)體間連接速度,有助于引用完整性檢查以及唯一性檢查。顧客經(jīng)常訪問字段上應(yīng)建立索引。以讀操作為主關(guān)系表盡也許多地建立索引。對等值連接查詢而言,假如滿足條件元組數(shù)量小則能夠考慮在有關(guān)屬性上建立索引。有些查詢可從索引中直接得到成果,無須訪問數(shù)據(jù)塊,此種查詢可建索引,如查詢某屬性MIN,MAX,AVG,SUM,COUNT等函數(shù)值可沿該屬性索引次序集掃描直接求得成果。第36頁聚簇設(shè)計(jì)聚簇是將有關(guān)數(shù)據(jù)統(tǒng)計(jì)寄存在一種物理塊或同一柱面內(nèi)以提升查詢效率。聚簇一般最少定義在一種屬性之上,不但適用于單個關(guān)系,也適用于多種關(guān)系。聚簇功能能夠大大提升按聚簇屬性進(jìn)行查詢效率,但對于與聚簇屬性無關(guān)訪問則效果不佳。在特定情況下能夠考慮建立聚簇。第37頁二、審計(jì)接口第38頁什么是審計(jì)接口定義:
審計(jì)接口是從被審計(jì)信息系統(tǒng)向?qū)徲?jì)應(yīng)用系統(tǒng)傳送審計(jì)信息規(guī)范和程序。接口包括兩方面內(nèi)容:傳送數(shù)據(jù)格式和規(guī)范完成傳送作業(yè)程序數(shù)據(jù)傳遞方式:系統(tǒng)內(nèi)部多采取參數(shù)或共享數(shù)據(jù)來完成系統(tǒng)與系統(tǒng)之間傳遞信息需要開發(fā)專用數(shù)據(jù)接口第39頁審計(jì)接口分類
按照不一樣標(biāo)準(zhǔn),能夠?qū)徲?jì)接口劃分為不一樣類型。按接口用途劃分,能夠分為通用接口和專用接口;按接口與源系統(tǒng)和目標(biāo)系統(tǒng)耦合程度劃分,能夠分為強(qiáng)耦合接口、弱耦合接口和一般耦合接口;按接口中數(shù)據(jù)傳輸頻率來劃分,能夠分為實(shí)時接口與周期性接口。其他分類辦法第40頁審計(jì)接口分層模型接口能夠分為3層邏輯層:表達(dá)信息含義語言,對信息含義進(jìn)行定義和描述;傳輸層:載運(yùn)信息語言方式,選擇最合適方式完成源系統(tǒng)到目標(biāo)系統(tǒng)之間信息傳輸;控制層:控制信息交換過程規(guī)程,確保信息傳輸適時性、正確性和有效性。第41頁審計(jì)接口分層模型第42頁審計(jì)接口邏輯層又稱為接口標(biāo)準(zhǔn)GB/T19581-2023《信息技術(shù)會計(jì)核實(shí)軟件數(shù)據(jù)接口》中國軟件行業(yè)協(xié)會98-001標(biāo)準(zhǔn)上海市地方標(biāo)準(zhǔn)國家電子政務(wù)標(biāo)準(zhǔn)描述接口標(biāo)準(zhǔn)語法必須沒有二義性第43頁傳輸層實(shí)現(xiàn)形式被審計(jì)單位信息系統(tǒng)和審計(jì)系統(tǒng)之間采取數(shù)據(jù)庫連接件(如ODBC)通過計(jì)算機(jī)網(wǎng)絡(luò)直接相連。被審計(jì)單位信息系統(tǒng)和審計(jì)應(yīng)用系統(tǒng)采取交換文獻(xiàn)傳輸數(shù)據(jù)。第44頁傳輸層實(shí)例一第45頁傳輸層實(shí)例二第46頁接口控制層—數(shù)據(jù)驗(yàn)證查對總統(tǒng)計(jì)數(shù)、總金額檢查借貸是否平衡次序碼斷號、重號驗(yàn)證檢查勾稽關(guān)系第47頁審計(jì)接口開發(fā)、管理和使用策略審計(jì)接口開發(fā)主線性要求:數(shù)據(jù)通過一系列傳輸后,審計(jì)系統(tǒng)得到數(shù)據(jù)與信息系統(tǒng)中原始數(shù)據(jù)是一致,沒有發(fā)生變異。審計(jì)接口開發(fā)需要被審計(jì)單位和審計(jì)部門雙方共同參與。編程實(shí)現(xiàn)后,要由雙方共同進(jìn)行確認(rèn)測試,確認(rèn)接口功能正確性,并對接口開發(fā)工作進(jìn)行評審認(rèn)定。審計(jì)接口開發(fā)工作滯后時,能夠在審計(jì)人員監(jiān)督下,由被審計(jì)單位技術(shù)人員當(dāng)場編程,從系統(tǒng)中獲取所需審計(jì)數(shù)據(jù),轉(zhuǎn)換成數(shù)據(jù)文獻(xiàn),交由審計(jì)系統(tǒng)讀入進(jìn)行處理。第48頁審計(jì)接口開發(fā)、管理和使用策略審計(jì)接口開發(fā)完成后,不能隨意更改審計(jì)接口在使用時,首先由雙方人員對要使用審計(jì)接口進(jìn)行核查要對通過接口采集數(shù)據(jù)完整性進(jìn)行確認(rèn)第49頁三、審計(jì)數(shù)據(jù)采集第50頁異構(gòu)數(shù)據(jù)庫互訪問技術(shù)
(1)MicrosoftODBC
—OpenDatabaseConnectivity
(2)BorlandIDAPI
—IntegratedDatabaseApplicationInterface
(3)Microsoft
UDA
—UniversalDataAccess第51頁ODBC
ODBC是由Microsoft公司制定數(shù)據(jù)庫系統(tǒng)互連標(biāo)準(zhǔn)。它為客戶端應(yīng)用系統(tǒng)與數(shù)據(jù)庫服務(wù)器之間連接提供了一種開放、標(biāo)準(zhǔn)接口,使得支持ODBC系統(tǒng)間能夠?qū)崿F(xiàn)互連,具有一定可移植性。第52頁ODBC總體構(gòu)造第53頁ODBC驅(qū)動程序基于文獻(xiàn)驅(qū)動程序既處理ODBC調(diào)用也處理SQL語句根據(jù)其訪問數(shù)據(jù)存取方式還能夠分為兩種直接存取數(shù)據(jù)采取客戶機(jī)/服務(wù)器模式基于DBMS驅(qū)動程序只處理ODBC調(diào)用把SQL語句處理交給數(shù)據(jù)庫引擎通過單獨(dú)引擎訪問物理數(shù)據(jù)既能夠和數(shù)據(jù)源存放在同一種機(jī)器上,也能夠分別存放在網(wǎng)絡(luò)中不一樣機(jī)器上,甚至能夠通過網(wǎng)關(guān)訪問。第54頁ODBC數(shù)據(jù)源機(jī)器數(shù)據(jù)源存放在由顧客定義名字系統(tǒng)上能夠分為顧客數(shù)據(jù)源和系統(tǒng)數(shù)據(jù)源文獻(xiàn)數(shù)據(jù)源存放于一種文獻(xiàn)中允許連接信息由一種顧客反復(fù)使用或者由幾個顧客共享驅(qū)動程序管理器用.dsn文獻(xiàn)中信息連接數(shù)據(jù)源這個文獻(xiàn)能夠像其他任何文獻(xiàn)同樣操作一種文獻(xiàn)數(shù)據(jù)源沒有數(shù)據(jù)源名,并且它不注冊到任何顧客或機(jī)器上第55頁ODBC使用 1.創(chuàng)建ODBC數(shù)據(jù)源 不一樣驅(qū)動程序提供ODBC數(shù)據(jù)源配備界面不一樣
2.使用ODBC獲取數(shù)據(jù)在審計(jì)軟件中使用在DBMS中使用在Excel等軟件中使用第56頁IDAPI
IDAPI是由Borland公司為首公布一種異構(gòu)數(shù)據(jù)庫訪問接口。它是一種強(qiáng)大數(shù)據(jù)庫引擎,基于驅(qū)動程序體系構(gòu)造和面向?qū)ο笤O(shè)計(jì)辦法為多種數(shù)據(jù)庫訪問提供了一致接口,擴(kuò)展和定制起來很容易。第57頁BDE基于驅(qū)動程序體系構(gòu)造第58頁UDA
MicrosoftUDA為關(guān)系型或非關(guān)系型數(shù)據(jù)訪問提供了一致訪問接口。這個一致接口使得應(yīng)用程序能夠通過它來訪問多種各樣數(shù)據(jù)。同步,UDA多層構(gòu)造和擴(kuò)展能力使得它具有極強(qiáng)生命力。第59頁UDA層次模型
第60頁UDA兩層軟件接口OLEDB系統(tǒng)級編程接口,定義了一組接口,封裝了多種數(shù)據(jù)系統(tǒng)訪問操作;提供了一組標(biāo)準(zhǔn)服務(wù)組件,用于提供查詢、緩存、數(shù)據(jù)更新、事務(wù)處理等操作;是新底層接口,采取一種“通用”數(shù)據(jù)訪問范例,能夠處理任何類型數(shù)據(jù),不需考慮格式和存放辦法。ADO應(yīng)用層編程接口,以O(shè)LEDB為基礎(chǔ)并對其進(jìn)行了封裝;通過OLEDB提供接口訪問數(shù)據(jù),適合于多種客戶機(jī)/服務(wù)器應(yīng)用系統(tǒng)和基于Web應(yīng)用;具有更加好靈活性,使用方便,效率更高。第61頁文本文獻(xiàn)與電子表格文獻(xiàn)訪問第62頁文本文獻(xiàn)長處:靈活方便數(shù)據(jù)量大小基本不受限制缺陷:占用較大存放空間較多傳輸時間需要進(jìn)行類型或字段名稱重定義分類:分隔符形式固定寬度第63頁文本文獻(xiàn)分隔符形式文本文獻(xiàn)以回車換行符號作為統(tǒng)計(jì)間分隔以分隔符作為字段之間分隔第一行能夠表達(dá)字段名能夠有文本識別符號固定寬度文本文獻(xiàn)以回車換行符號作為統(tǒng)計(jì)間分隔以起始位置和寬度來標(biāo)識字段第一行一般不表達(dá)字段名一般沒有文本識別符號第64頁分隔符形式文本文獻(xiàn)行號,代碼,名稱,利率,開始日期500,100,90年五年期財(cái)政債券利率,8.31,01/10/1997500,200,開發(fā)銀行債券利率(12.5%),10.41,01/10/1997500,201,開發(fā)銀行債券利率(14%),11.64,01/10/1997500,300,總行金融債券利率(11.5%),9.57,01/10/1997500,301,總行金融債券利率(11.25%),9.375,01/10/1997500,302,97年政策性金融債券利率(8.8%),7.32,03/19/1997500,1100,單位活期存款,1.2,07/01/1998500,1101,單位活期存款(協(xié)定),1.38,12/07/1998500,1200,單位活期存款,6.3,10/23/1997500,1201,同業(yè)存款,5.85,10/23/1997第65頁固定寬度文本文獻(xiàn)50010090年五年期財(cái)政債券利率8.3101/10/1997500200開發(fā)銀行債券利率(12.5%)10.4101/10/1997500201開發(fā)銀行債券利率(14%)11.6401/10/1997500300總行金融債券利率(11.5%)9.5701/10/1997500301總行金融債券利率(11.25%)9.37501/10/19975001100單位活期存款1.207/01/19985001101單位活期存款(協(xié)定)1.3812/07/19985001200單位活期存款6.310/23/19975001201同業(yè)存款5.8510/23/1997第66頁Excel電子表格Excel電子表格與關(guān)系數(shù)據(jù)庫對應(yīng)關(guān)系第67頁采集電子表格中數(shù)據(jù)
在訪問Excel電子表格中數(shù)據(jù)時,要尤其注意這樣兩個問題:關(guān)系數(shù)據(jù)庫規(guī)范化問題。應(yīng)當(dāng)確保每一列只有一種標(biāo)題,且這個標(biāo)題是最高層次標(biāo)題。數(shù)據(jù)類型一致性問題。Excel工作表中每一種單元格都能夠有不一樣數(shù)據(jù)類型,因此每一列中數(shù)據(jù)類型也許會不一致。而關(guān)系數(shù)據(jù)庫要求表中每個字段類型是固定。假如出現(xiàn)這種情況,需要首先統(tǒng)一Excel工作表中每一列數(shù)據(jù)類型。不然將不能訪問數(shù)據(jù)。第68頁四、數(shù)據(jù)清理與轉(zhuǎn)換技術(shù)第69頁數(shù)據(jù)質(zhì)量評價指標(biāo)精確性:數(shù)據(jù)值與實(shí)際值一致程度。完整性:需要值屬性中無值缺失程度。一致性:數(shù)據(jù)對一組約束滿足程度。唯一性:數(shù)據(jù)統(tǒng)計(jì)(及碼值)唯一性。適時性:在所要求或指定時間提供一種或多種數(shù)據(jù)項(xiàng)程度。有效性:維護(hù)數(shù)據(jù)足夠嚴(yán)格以滿足分類準(zhǔn)則接收要求。第70頁為何要進(jìn)行數(shù)據(jù)清理
值缺失限制了審計(jì)人員數(shù)據(jù)分析工作;數(shù)據(jù)表中空值直接影響了數(shù)據(jù)分析成果精確性;大量冗余數(shù)據(jù)減少了數(shù)據(jù)分析效率;數(shù)據(jù)值域定義不完整性給數(shù)據(jù)審計(jì)工作帶來障礙。第71頁數(shù)據(jù)清理主要工作確認(rèn)輸入數(shù)據(jù)消除錯誤空值(NULL)確保數(shù)據(jù)值落入定義域消除冗余數(shù)據(jù)處理數(shù)據(jù)中沖突(不一致)第72頁數(shù)據(jù)清理基本技術(shù)處理不完整數(shù)據(jù)(即值缺失)辦法:大多數(shù)情況下,缺失值必須手工填入;某些缺失值能夠從本身數(shù)據(jù)源或其他數(shù)據(jù)源推導(dǎo)出來。錯誤值檢測及處理辦法:用統(tǒng)計(jì)分析辦法識別也許錯誤值或異常值,如偏差分析、識別不遵守分布或回歸方程值;使用簡單規(guī)則庫(常識性規(guī)則、業(yè)務(wù)特定規(guī)則等)檢查數(shù)據(jù)值;使用不一樣屬性間約束;使用外部數(shù)據(jù)。不一致性檢測及處理辦法:定義完整性約束用于檢測不一致性;通過度析數(shù)據(jù)發(fā)覺聯(lián)系。第73頁值缺失處理辦法
第74頁空值處理在SQLServer查詢分析器(SQLQueryAnalyzer)中執(zhí)行下列SQL語句用“0”替代某些字段空值:UPDATE清理數(shù)據(jù)表SETzj=0WHEREzjISNULLUPDATE清理數(shù)據(jù)表SETkl=0WHEREklISNULLUPDATE清理數(shù)據(jù)表SETmj=0WHEREmjISNULL第75頁消除冗余數(shù)據(jù)清理憑證數(shù)據(jù)表中科目代碼以“s”開頭鈔票流量輔助信息冗余統(tǒng)計(jì):DELETEFROM清理數(shù)據(jù)表WHEREkmdhLIKE's%'第76頁錯誤數(shù)據(jù)處理措施審計(jì)人員采集數(shù)據(jù)后,在下列圖所示固定資產(chǎn)表中發(fā)覺資產(chǎn)原值字段存在負(fù)值情況,這與會計(jì)處理常規(guī)不符。第77頁錯誤數(shù)據(jù)處理措施在確認(rèn)負(fù)資產(chǎn)原值是錯誤數(shù)據(jù)后,審計(jì)人員能夠在SQLServer查詢分析器中執(zhí)行SQL語句:UPDATE固定資產(chǎn)表SET資產(chǎn)原值=ABS(資產(chǎn)原值)WHERE資產(chǎn)原值<0改正資產(chǎn)原值錯誤取值。
第78頁為何要進(jìn)行數(shù)據(jù)轉(zhuǎn)換被審計(jì)單位信息系統(tǒng)多樣性帶來了數(shù)據(jù)不一致性;被審計(jì)系統(tǒng)安全性措施給審計(jì)工作帶來障礙;審計(jì)目標(biāo)不一樣決定了審計(jì)數(shù)據(jù)范圍和要求不一樣;數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)分析、處理前提。第79頁數(shù)據(jù)不一致性體現(xiàn)同一字段在不一樣應(yīng)用中具有不一樣數(shù)據(jù)類型同一字段在不一樣應(yīng)用中具有不一樣名稱同名字段,不一樣含義同一信息,在不一樣應(yīng)用中有不一樣格式同一信息,在不一樣應(yīng)用中有不一樣體現(xiàn)方式第80頁數(shù)據(jù)轉(zhuǎn)換基本類型1.簡單變換(1)數(shù)據(jù)類型轉(zhuǎn)換(2)日期/時間格式轉(zhuǎn)換(3)代碼轉(zhuǎn)換(4)值域轉(zhuǎn)換2.清潔和刷洗(1)有效值檢查(2)復(fù)雜重新格式化第81頁簡單變換它是數(shù)據(jù)轉(zhuǎn)換中最簡單形式它是所有數(shù)據(jù)轉(zhuǎn)換基本組成單元它一次變化一種字段屬性它不考慮該屬性背景或與它有關(guān)其他字段信息第82頁簡單變換——數(shù)據(jù)類型轉(zhuǎn)換最常見簡單變換是轉(zhuǎn)換一種數(shù)據(jù)元類型。它是將一種類型數(shù)據(jù)轉(zhuǎn)換成另一種類型數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換前提是類型相容。類型相容指是一種類型數(shù)據(jù)值域能夠通過常用轉(zhuǎn)換函數(shù)映射到另一種類型值域上。這種映射不會丟失數(shù)據(jù)精確度。第83頁簡單變換——日期時間格式轉(zhuǎn)換大多數(shù)被審計(jì)單位系統(tǒng)都采取許多不一樣日期和時間格式。在審計(jì)軟件中幾乎都要進(jìn)行日期和時間格式轉(zhuǎn)換,將它轉(zhuǎn)換成審計(jì)軟件處理所需統(tǒng)一格式。能夠通過手工程序編碼來完成轉(zhuǎn)換,把一種日期或時間字段拆成幾個子部分,然后再將它們拼成想要格式和字段。大多數(shù)審計(jì)軟件中數(shù)據(jù)導(dǎo)入和轉(zhuǎn)換工具都提供了日期和時間格式之間轉(zhuǎn)換設(shè)置。第84頁簡單變換——代碼轉(zhuǎn)換在業(yè)務(wù)數(shù)據(jù)庫中建立代碼是為了節(jié)省數(shù)據(jù)庫存放空間和提升計(jì)算機(jī)處理效率。這些代碼一般是由系統(tǒng)管理員設(shè)置,由應(yīng)用程序維護(hù)。這給審計(jì)軟件處理帶來了很大不便。假如審計(jì)軟件中采取了代碼設(shè)計(jì),而被審計(jì)單位代碼能夠滿足審計(jì)軟件需要,能夠?qū)⒈粚徲?jì)單位代碼表轉(zhuǎn)換到審計(jì)軟件代碼表上來。假如審計(jì)單位代碼不能滿足審計(jì)軟件需要,就必須根據(jù)審計(jì)軟件要求對它重新編碼。假如審計(jì)軟件不采取代碼設(shè)計(jì),就必須將被審計(jì)單位數(shù)據(jù)中代碼值轉(zhuǎn)換為通過解碼、易于理解對應(yīng)值。第85頁簡單變換——值域轉(zhuǎn)換值域轉(zhuǎn)換是將一種字段所有或部分取值映射到另一種字段所有或部分取值上去。例如,在被審計(jì)單位系統(tǒng)中,某一項(xiàng)數(shù)據(jù)取值分為10個級別(’0’~’9’),而在審計(jì)軟件中,該項(xiàng)數(shù)據(jù)取值僅僅分為5個級別(’A’~’E’),這就需要將具有10個級別值域映射到具有5個級別值域上去。代碼轉(zhuǎn)換能夠當(dāng)作是一類特殊值域轉(zhuǎn)換。第86頁清潔和刷洗清潔和刷洗指是比簡單變換更復(fù)雜一種數(shù)據(jù)變換。在這種變換中,要檢查是字段或字段組實(shí)際內(nèi)容而不但是存放格式。一種清潔和刷洗是檢查數(shù)據(jù)字段中有效值。這能夠通過范圍檢查、枚舉清單和有關(guān)檢查來完成。第87頁數(shù)據(jù)轉(zhuǎn)換一般辦法專用工具數(shù)據(jù)倉庫系統(tǒng)數(shù)據(jù)轉(zhuǎn)換工具審計(jì)軟件數(shù)據(jù)轉(zhuǎn)換工具SQL語言類型轉(zhuǎn)換值域轉(zhuǎn)換程序編碼第88頁必須利用程序編碼場所對非關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行轉(zhuǎn)換對復(fù)雜數(shù)據(jù)文獻(xiàn)中數(shù)據(jù)進(jìn)行轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換要求固定而使用頻繁時第89頁五、審計(jì)數(shù)據(jù)驗(yàn)證第90頁不一樣階段數(shù)據(jù)驗(yàn)證數(shù)據(jù)采集階段檢查被審計(jì)單位提供資料完整性,確保數(shù)據(jù)采集工作精確有效地進(jìn)行,同步對采集到數(shù)據(jù)進(jìn)行確認(rèn),排除遺漏和失誤。數(shù)據(jù)清理階段確認(rèn)數(shù)據(jù)清理工作沒有損害數(shù)據(jù)整體完整性和正確性。數(shù)據(jù)轉(zhuǎn)換階段數(shù)據(jù)轉(zhuǎn)換中,審計(jì)人員會將原始電子數(shù)據(jù)中表名、字段名、統(tǒng)計(jì)值代碼以及表表關(guān)聯(lián)經(jīng)濟(jì)含義明確標(biāo)識出來,這需要進(jìn)行大量查詢、替代修改、插入數(shù)據(jù)、更新數(shù)據(jù)、刪除數(shù)據(jù)等操作,每一步轉(zhuǎn)換工作都有也許影響到數(shù)據(jù)完整性和正確性,因此在這一階段進(jìn)行數(shù)據(jù)驗(yàn)證確有必要。第91頁數(shù)據(jù)驗(yàn)證技術(shù)和辦法
數(shù)據(jù)采集階段查對總統(tǒng)計(jì)數(shù)、總金額,檢查借貸是否平衡,次序碼斷號、重號驗(yàn)證等。數(shù)據(jù)清理階段查對總金額、保持借貸平衡等。數(shù)據(jù)轉(zhuǎn)換階段查對總金額、勾稽關(guān)系,數(shù)據(jù)構(gòu)造確認(rèn)等。第92頁六、審計(jì)數(shù)據(jù)分析第93頁審計(jì)數(shù)據(jù)分析詳細(xì)操作查對:將具有內(nèi)在聯(lián)系數(shù)據(jù),按照勾稽關(guān)系進(jìn)行互相查對,達(dá)成驗(yàn)證被審計(jì)單位業(yè)務(wù)處理是否正確,有沒有人為違規(guī)調(diào)整等目標(biāo)。檢查:按照政策或法律法規(guī),對業(yè)務(wù)數(shù)據(jù)進(jìn)行檢查,達(dá)成確定業(yè)務(wù)處理是否合法、合規(guī)目標(biāo)。第94頁審計(jì)數(shù)據(jù)分析詳細(xì)操作復(fù)算:對某一類業(yè)務(wù)數(shù)據(jù),按照與被審計(jì)單位相同或相同處理辦法重新計(jì)算,驗(yàn)證被審計(jì)單位提供數(shù)據(jù)是否真實(shí)與正確,達(dá)成判斷被審計(jì)單位業(yè)務(wù)處理是否正確、完整目標(biāo)。判斷:根據(jù)審計(jì)人員經(jīng)驗(yàn),分析業(yè)務(wù)數(shù)據(jù)某些特性,再根據(jù)這些特性對也許是問題情況給出一種參照性結(jié)論,達(dá)成搜索審計(jì)線索目標(biāo)。第95頁分析模型演變伴隨顧客對數(shù)據(jù)分析深度和靈活程度要求越來越高,數(shù)據(jù)分析漸漸從靜態(tài)數(shù)值互相比較轉(zhuǎn)變到從多種數(shù)據(jù)源中綜合數(shù)據(jù),從多種角度觀測數(shù)據(jù)復(fù)雜、動態(tài)分析。根據(jù)處理數(shù)據(jù)范圍、顧客—分析人員交互需要、多維分析需求及現(xiàn)有工具支持等原因,能夠?qū)?shù)據(jù)分析分為4種模型,這4種數(shù)據(jù)分析模型一種比一種深入,從描述基本事實(shí)到尋找原因,從代入變量值進(jìn)行預(yù)測到尋找關(guān)鍵變量。第96頁四種數(shù)據(jù)分析模型由E.F.Codd提出四種數(shù)據(jù)分析模型:絕對模型(CategoricalModel)解釋模型(ExegeticalModel)思考模型(ContemplativeModel)公式模型(FormulaicModel)第97頁絕對模型(CategoricalModel)它屬于靜態(tài)數(shù)據(jù)分析它通過比較歷史數(shù)據(jù)值或行為來描述過去發(fā)生事實(shí)查詢比較簡單,僅是值比較綜合途徑是原有數(shù)據(jù)庫設(shè)計(jì)時定義好,顧客交互少支持工具廣泛(包括一般查詢表格工具)。
第98頁解釋模型(ExegeticalModel)
主要還是靜態(tài)數(shù)據(jù)分析顧客-分析人員利用系統(tǒng)已有多層次綜合途徑層層細(xì)化,找出事實(shí)發(fā)生原因假如分析人員感愛好數(shù)據(jù)不能通過已有途徑進(jìn)行綜合,則需要臨時建立多維視圖。
第99頁思考模型(ContemplativeModel)
它屬于動態(tài)數(shù)據(jù)分析它意在說明在一維或多維上引入一組詳細(xì)變量或參數(shù)后會發(fā)生什么需要較高層次數(shù)據(jù)分析人員介入分析人員在引入確定變量或公式關(guān)系時,須創(chuàng)建大量綜合途徑此類模型支持工具相稱少,大多只提供單一維上數(shù)據(jù)子集處理。
第100頁公式模型(FormulaicModel)
公式模型是動態(tài)性最高一類模型,用于表達(dá)在多種維上,需要引入哪些變量或參數(shù),以及引入后所產(chǎn)生成果。
第101頁舉例
一家百貨公司在建立了自己數(shù)據(jù)倉庫之后,希望構(gòu)造一種OLAP系統(tǒng)輔助決策。決策者最關(guān)懷一種問題是“如何最大程度地?cái)U(kuò)大商品銷售量?”因而他希望盡也許地找出與銷售量有關(guān)原因,從而可采取對應(yīng)促銷伎倆。不過,他能取得多大幫助卻要取決于采取何種分析模型。第102頁絕對模型
絕對模型只能對歷史數(shù)據(jù)進(jìn)行比較,利用回歸分析等某些分析辦法得出趨勢信息?;卮鹬T如“某種商品今年銷售情況與以往相比有如何變化?此后趨勢如何”此類問題。第103頁解釋模型
解釋模型能夠在目前多維視圖基礎(chǔ)上找出事件發(fā)生原因。例如該公司按時間、地域、商品及銷售渠道建立了多維數(shù)據(jù)庫,假設(shè)今年銷售量有所下滑,那么解釋模型應(yīng)能夠找出原因,即這次下滑與時間、地域、商品及銷售渠道四者中何種原因有關(guān)。第104頁思考模型
思考模型能夠在決策者參與下,找出關(guān)鍵變量。例如該公司決策者為了理解某商品銷售是否與顧客年紀(jì)有關(guān),引入新變量——年紀(jì),即在目前多維視圖上增加了顧客年紀(jì)維。解釋模型就能分析出年紀(jì)引入是否必要,即商品銷售與顧客年紀(jì)有關(guān)或無關(guān)。第105頁公式模型
公式模型自動完成上述變量引入工作,從而最后找出與銷量有關(guān)所有原因,并給出引入后成果。第106頁3種類型數(shù)據(jù)分析辦法與工具查詢型分析(Query)以MIS為代表查詢工具,能夠進(jìn)行日常事務(wù)操作驗(yàn)證型分析(Verification)以O(shè)LAP為代表驗(yàn)證工具,能夠深入理解事務(wù)并作出結(jié)論性、總結(jié)性分析發(fā)掘型分析(Discovery)以DM為代表挖掘工具,能夠作出預(yù)測性分析第107頁查詢型分析(Query)主要指顧客對數(shù)據(jù)庫中統(tǒng)計(jì)進(jìn)行訪問查詢;關(guān)系數(shù)據(jù)庫管理系統(tǒng)是目前數(shù)據(jù)庫管理系統(tǒng)主流,查詢型分析主要對象就是關(guān)系數(shù)據(jù)庫中二維表。要進(jìn)行查詢型分析,必須先對目標(biāo)系統(tǒng)數(shù)據(jù)模型有所理解。能夠采取SQL等語言來交互描述查詢要求;采取SQL能夠十分靈活地進(jìn)行交互式查詢,但要求顧客掌握SQL語言,并對訪問數(shù)據(jù)庫構(gòu)造有所理解;第108頁查詢型分析中數(shù)據(jù)建模根據(jù)有關(guān)法律法規(guī)建立模型 根據(jù)交通部要求,國產(chǎn)車車輛購買附加費(fèi)應(yīng)按發(fā)票價10%計(jì)征;后來為杜絕因一輛車開具多張票據(jù)而造成少征車購費(fèi)現(xiàn)象,交通部又頒布了車購費(fèi)最低征收額標(biāo)準(zhǔn),明確只要發(fā)票價10%不大于最低征收額,就按最低征收額征收車購費(fèi)。車購費(fèi)數(shù)據(jù)模型:應(yīng)征金額=MAX{發(fā)票價×0.1,最低征收額}違規(guī)金額=abs(應(yīng)征金額-實(shí)際征收額)第109頁查詢型分析中數(shù)據(jù)建模根據(jù)系統(tǒng)數(shù)據(jù)之間勾稽關(guān)系建立模型 如資產(chǎn)負(fù)債表資產(chǎn)合計(jì)應(yīng)等于負(fù)債與所有者權(quán)益之和; 借款金額應(yīng)等于借款收回?cái)?shù)、借款余額、核銷金額之和等。根據(jù)不一樣系統(tǒng)數(shù)據(jù)之間關(guān)系建立模型 如金融審計(jì)中,在信貸管理系統(tǒng)與會計(jì)核實(shí)系統(tǒng)之間通過借據(jù)號碼建立數(shù)據(jù)模型,分析信貸管理系統(tǒng)中數(shù)據(jù)精確性。第110頁查詢型分析中數(shù)據(jù)建模根據(jù)審計(jì)業(yè)務(wù)流程建立模型 根據(jù)信貸業(yè)務(wù)流程,借款人在信貸部門辦理有關(guān)審批手續(xù)后,才能夠在會計(jì)柜臺進(jìn)行會計(jì)核實(shí)處理。據(jù)此能夠建立模型,檢查是否存在核實(shí)在前,審批在后貸款業(yè)務(wù)。根據(jù)以往審計(jì)經(jīng)驗(yàn)建立模型 如在銀行承兌匯票業(yè)務(wù)審計(jì)過程中,假如發(fā)覺有單個客戶頻繁或同一時段連續(xù)大額業(yè)務(wù)統(tǒng)計(jì)時,就應(yīng)尤其關(guān)注,核實(shí)是否存在滾動辦理、無貿(mào)易背景辦理等問題。
第111頁查詢型分析中數(shù)據(jù)建模根據(jù)自然規(guī)律建立模型 如對日期類型字段進(jìn)行檢查時,小月只有30天,一年只有12個月等,人年紀(jì)不也許不大于0等。根據(jù)有關(guān)分析指標(biāo)建立模型 如財(cái)務(wù)審計(jì)中賬齡分析、比較分析(趨勢分析)、比率分析、原因分析、敏感度分析、回歸分析等。第112頁
驗(yàn)證型分析指顧客先提出自己假設(shè),然后利用多種工具通過反復(fù)、遞歸檢索查詢以驗(yàn)證或否認(rèn)自己假設(shè)。 從顧客觀點(diǎn)來看,他們是在從數(shù)據(jù)中發(fā)覺事實(shí)。
多維分析工具進(jìn)行就是典型驗(yàn)證型分析。它通過對信息多種也許觀測角度進(jìn)行迅速,一致和交互性存取,從而能夠?qū)?shù)據(jù)進(jìn)行深入地分析和觀測。驗(yàn)證型分析(Verification)第113頁發(fā)掘型分析(Discovery)
發(fā)掘型分析是指顧客從大量數(shù)據(jù)中發(fā)覺數(shù)據(jù)模式,預(yù)測趨勢和行為一種數(shù)據(jù)分析辦法。 發(fā)掘型數(shù)據(jù)分析工具主要指數(shù)據(jù)挖掘(DataMining)軟件工具。 發(fā)掘型分析能挖掘數(shù)據(jù)間潛在模式,發(fā)覺顧客也許忽視信息,并為審計(jì)業(yè)務(wù)人員做出前瞻性、基于知識決策做出奉獻(xiàn)。第114頁三種分析辦法特點(diǎn)比較
查詢型分析、驗(yàn)證型分析和發(fā)掘型分析結(jié)合在一起組成了面向數(shù)據(jù)計(jì)算機(jī)審計(jì)數(shù)據(jù)分析,它們各自有著不一樣側(cè)重點(diǎn),因此適用范圍和針正確顧客也各不相同。 從數(shù)據(jù)分析深度來看:查詢型分析基本上是在已知數(shù)據(jù)構(gòu)造情況下對細(xì)節(jié)信息存取,數(shù)據(jù)分析成份很少驗(yàn)證型分析處于較淺層次發(fā)掘型分析是較深層次數(shù)據(jù)分析。第115頁三種分析辦法包括分析模型查詢型分析基本上不包括數(shù)據(jù)分析模型;驗(yàn)證型分析主要實(shí)現(xiàn)了絕對模型、解釋模型和思考模型;發(fā)掘型分析則實(shí)現(xiàn)了公式模型。第116頁操作型處理和分析型處理近年來,人們逐漸結(jié)識到計(jì)算機(jī)系統(tǒng)中存在著兩類不一樣處理:操作型處理(OLTP)和分析型處理(OLAP)。操作型處理也叫事務(wù)處理,是指對數(shù)據(jù)庫聯(lián)機(jī)地進(jìn)行日常操作,一般是對一種或一組統(tǒng)計(jì)查詢和修改,主要是為特定應(yīng)用服務(wù)。人們關(guān)懷是響應(yīng)時間、數(shù)據(jù)安全性和完整性。分析型處理用于管理人員決策分析,經(jīng)常要訪問大量歷史數(shù)據(jù)。第117頁OLTP與OLAP比較表OLTP數(shù)據(jù)OLAP數(shù)據(jù)原始數(shù)據(jù)導(dǎo)出數(shù)據(jù)細(xì)節(jié)性數(shù)據(jù)綜合性或提煉性數(shù)據(jù)目前值數(shù)據(jù)歷史數(shù)據(jù)可更新不可更新,但周期性刷新一次處理數(shù)據(jù)量小一次處理數(shù)據(jù)量大面向應(yīng)用,事務(wù)驅(qū)動面向分析,分析驅(qū)動面向操作人員,支持日常操作面向決策人員,支持管理需求第118頁分析型處理包括技術(shù)數(shù)據(jù)倉庫(DataWarehouse)聯(lián)機(jī)分析處理(OnlineAnalyticalProcessing,OLAP)數(shù)據(jù)挖掘(DataMining)第119頁什么是數(shù)據(jù)倉庫
數(shù)據(jù)倉庫創(chuàng)始人Inmon對數(shù)據(jù)倉庫定義是: 數(shù)據(jù)倉庫就是面向主題、集成、穩(wěn)定、不一樣步間數(shù)據(jù)集合,用以支持經(jīng)營管理中決策制定過程。第120頁數(shù)據(jù)倉庫特性
與聯(lián)機(jī)事務(wù)處理領(lǐng)域數(shù)據(jù)庫技術(shù)相比,數(shù)據(jù)倉庫具有下列特性:
數(shù)據(jù)倉庫數(shù)據(jù)是面向主題數(shù)據(jù)倉庫數(shù)據(jù)是集成數(shù)據(jù)倉庫數(shù)據(jù)是穩(wěn)定(不可更新)數(shù)據(jù)倉庫數(shù)據(jù)是隨時間變化第121頁面向主題數(shù)據(jù)倉庫中數(shù)據(jù)以面向主題方式組織。主題是某一分析領(lǐng)域所包括分析對象。面向主題數(shù)據(jù)組織方式就是在較高層次上對分析對象數(shù)據(jù)作一種完整、一致描述,能有效地刻畫出分析對象所包括各項(xiàng)數(shù)據(jù)及數(shù)據(jù)間聯(lián)系。這種數(shù)據(jù)組織方式更能適合于較高層次數(shù)據(jù)分析,便于發(fā)覺數(shù)據(jù)中蘊(yùn)涵模式和規(guī)律。它是按照數(shù)據(jù)分析意圖來組織數(shù)據(jù)一種方式。第122頁集成數(shù)據(jù)倉庫數(shù)據(jù)是從原有、分散事務(wù)處理系統(tǒng)數(shù)據(jù)庫數(shù)據(jù)中抽取得來。數(shù)據(jù)倉庫中每一主題對應(yīng)源數(shù)據(jù)在原有各分散數(shù)據(jù)庫中有很多反復(fù)和不一致地方。事務(wù)處理系統(tǒng)中操作型數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前,必須通過統(tǒng)一和綜合,演變?yōu)榉治鲂蛿?shù)據(jù)。第123頁集成——數(shù)據(jù)抽取
這是數(shù)據(jù)倉庫建設(shè)中最復(fù)雜一步,需要完成下列工作:統(tǒng)一源數(shù)據(jù)中所有矛盾之處,如字段同名異義、異名同義、單位不統(tǒng)一、長度不一致等;對源數(shù)據(jù)進(jìn)行綜合和計(jì)算,生成面向主題分析用高層、綜合數(shù)據(jù),便于綜合統(tǒng)計(jì)分析。第124頁穩(wěn)定(不可更新)數(shù)據(jù)倉庫中寄存是供分析決策用歷史數(shù)據(jù),包括數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般不進(jìn)行數(shù)據(jù)增、刪、改操作,業(yè)務(wù)系統(tǒng)中數(shù)據(jù)經(jīng)集成后進(jìn)入數(shù)據(jù)倉庫很少或主線不再更新。假如對數(shù)據(jù)倉庫中數(shù)據(jù)進(jìn)行了修改,就失去了統(tǒng)計(jì)分析正確性基礎(chǔ)——數(shù)據(jù)真實(shí)性。由于數(shù)據(jù)倉庫中數(shù)據(jù)量往往很大,因此數(shù)據(jù)倉庫系統(tǒng)要采取多種復(fù)雜索引技術(shù),以提升數(shù)據(jù)查詢性能,數(shù)據(jù)更新之后重建索引代價很高。第125頁隨時間變化不可更新是對數(shù)據(jù)倉庫應(yīng)用而言,即顧客在進(jìn)行分析處理時不進(jìn)行數(shù)據(jù)更新操作。數(shù)據(jù)倉庫數(shù)據(jù)是隨時間變化,數(shù)據(jù)倉庫系統(tǒng)需要不停獲取聯(lián)機(jī)事務(wù)處理系統(tǒng)不一樣步點(diǎn)數(shù)據(jù),經(jīng)集成后追加到數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫中數(shù)據(jù)碼(主鍵)都包括時間項(xiàng),以表白數(shù)據(jù)歷史時期,并可在時間維度上對數(shù)據(jù)進(jìn)行分析;數(shù)據(jù)倉庫中數(shù)據(jù)也有時間期限,在新數(shù)據(jù)不停進(jìn)入同步,過期數(shù)據(jù)也要刪除。第126頁數(shù)據(jù)倉庫體系構(gòu)造第127頁數(shù)據(jù)倉庫系統(tǒng)八個組成部分?jǐn)?shù)據(jù)源數(shù)據(jù)抽取、轉(zhuǎn)換、裝載和刷新工具數(shù)據(jù)建模工具監(jiān)控和管理工具元數(shù)據(jù)倉儲數(shù)據(jù)倉庫和數(shù)據(jù)集市目標(biāo)數(shù)據(jù)庫OLAP服務(wù)器前端數(shù)據(jù)訪問和分析工具第128頁數(shù)據(jù)倉庫系統(tǒng)一般應(yīng)用過程從業(yè)務(wù)處理信息系統(tǒng)等外部數(shù)據(jù)源獲取數(shù)據(jù),經(jīng)加工整頓后進(jìn)入數(shù)據(jù)倉庫根據(jù)數(shù)據(jù)分析挖掘需求特性對數(shù)據(jù)進(jìn)行建模和組織,顧客利用多種前端數(shù)據(jù)分析和挖掘工具,通過OLAP服務(wù)器,對數(shù)據(jù)倉庫中數(shù)據(jù)作多種查詢、分析、挖掘工作第129頁數(shù)據(jù)倉庫技術(shù)在數(shù)據(jù)審計(jì)中應(yīng)用審計(jì)數(shù)據(jù)采集和獲取審計(jì)數(shù)據(jù)在數(shù)據(jù)倉庫中組織和存放審計(jì)數(shù)據(jù)訪問和分析第130頁聯(lián)機(jī)分析處理(OLAP)OLAP是一類軟件技術(shù),它使顧客能夠從多種角度(維)對原始數(shù)據(jù)進(jìn)行分析;通過迅速、一致、交互地存取來取得對原始數(shù)據(jù)深入理解。OLAP目標(biāo)是滿足決策支持或多維查詢和報表需求,它技術(shù)關(guān)鍵是“維”這個概念,因此OLAP也能夠說是多維數(shù)據(jù)分析工具集合。OLTP強(qiáng)調(diào)是更新數(shù)據(jù)庫——向數(shù)據(jù)庫中添加信息,而OLAP就是從數(shù)據(jù)庫中獲取信息、利用信息。第131頁數(shù)據(jù)倉庫與OLAP關(guān)系
建立數(shù)據(jù)倉庫目標(biāo)是為了支持?jǐn)?shù)據(jù)分析和決策制定過程。 數(shù)據(jù)倉庫中存放數(shù)據(jù)是面向分析目標(biāo)、通過提煉、加工后數(shù)據(jù)集合,這種數(shù)據(jù)存放構(gòu)造為OLAP實(shí)行提供了抱負(fù)環(huán)境;
OLAP作為一種多維查詢和分析工具,是數(shù)據(jù)倉庫功能自然擴(kuò)展,也是數(shù)據(jù)倉庫中大容量數(shù)據(jù)得以有效利用主要保障。第132頁OLAP關(guān)鍵特性(1)迅速性 迅速性是OLAP一項(xiàng)主要特性; 假如顧客不能得到系統(tǒng)及時響應(yīng)就會變得不耐煩,因而也許失去分析主線索,影響分析質(zhì)量; 對于大量數(shù)據(jù)分析要達(dá)成這個速度并不容易,因此就更需要某些技術(shù)上支持,如專門數(shù)據(jù)存放格式、大量事先運(yùn)算、尤其系統(tǒng)設(shè)計(jì)等。第133頁OLAP關(guān)鍵特性(2)可分析性
OLAP系統(tǒng)應(yīng)能處理與應(yīng)用有關(guān)任何邏輯分析和統(tǒng)計(jì)分析。顧客能夠在OLAP平臺上進(jìn)行數(shù)據(jù)分析,也能夠連接到其他外部分析工具上,如時間序列分析工具、數(shù)據(jù)挖掘等。(3)多維性
多維性是OLAP關(guān)鍵屬性。系統(tǒng)必須提供對數(shù)據(jù)分析多維視圖和分析。多維分析是分析數(shù)據(jù)最有效辦法之一,是OLAP靈魂。(4)信息性 無論數(shù)據(jù)量有多大,也無論數(shù)據(jù)存放在何處,OLAP系統(tǒng)應(yīng)能及時取得信息,并且管理大容量信息。第134頁驗(yàn)證型分析與多維分析多維分析基本概念變量維多維視圖多維分析基本操作切片(Slice)和切塊(Dice)鉆取(Drill)旋轉(zhuǎn)(Pivot)第135頁變量
變量是一種數(shù)值型度量指標(biāo),如“銷售額”,“單價”,“人數(shù)”等,說明某一數(shù)據(jù)實(shí)際意義。 顧客在開始驗(yàn)證型分析之前,對變量數(shù)據(jù)含義已經(jīng)確定,并且對分析中也許出現(xiàn)成果有了預(yù)期。
例如,顧客預(yù)期本年度銷售額比去年銷售額增加了30%。在分析過程中,顧客就會去比較本年度銷售額和去年銷售額,此即“驗(yàn)證型分析”含義。
第136頁維維是人們觀測數(shù)據(jù)特定角度;維是相同類型數(shù)據(jù)集合;維有自己固有屬性,如層次構(gòu)造、排序、計(jì)算邏輯;
例如,每個網(wǎng)點(diǎn)、每段時間、每種商品都是某一維一種組員。每個銷售事實(shí)由一種特定網(wǎng)點(diǎn)、特定時間和特定商品組成。第137頁多維分析基本操作
切片(Slice)切塊(Dice)旋轉(zhuǎn)(Pivot)第138頁發(fā)掘分析什么是數(shù)據(jù)挖掘(DataMining)數(shù)據(jù)挖掘分析辦法分類分析根據(jù)數(shù)據(jù)屬性將數(shù)據(jù)分派到不一樣組中。聚簇分析根據(jù)某些聚簇規(guī)則(或數(shù)據(jù)相同性)把數(shù)據(jù)按照相同性歸成若干類別,使得屬于同一類別個體之間距離盡也許小,不一樣類別上個體間距離盡也許大。第139頁發(fā)掘分析關(guān)聯(lián)分析關(guān)聯(lián)(Association)分析目標(biāo)是發(fā)覺隱藏在數(shù)據(jù)間互相關(guān)系,通過挖掘發(fā)覺一組數(shù)據(jù)項(xiàng)與另一組數(shù)據(jù)項(xiàng)密切度或關(guān)系。序列分析關(guān)聯(lián)分析發(fā)覺數(shù)據(jù)項(xiàng)同步出現(xiàn)規(guī)律,序列分析發(fā)覺數(shù)據(jù)項(xiàng)出現(xiàn)時間上或序列上規(guī)律,分析數(shù)據(jù)間前因后果。第140頁發(fā)掘型分析與數(shù)據(jù)挖掘發(fā)掘型分析主要指顧客從大量數(shù)據(jù)中發(fā)覺數(shù)據(jù)模式,預(yù)測趨勢和行為數(shù)據(jù)分析模式。對面向數(shù)據(jù)計(jì)算機(jī)審計(jì)來說,數(shù)據(jù)挖掘是實(shí)現(xiàn)發(fā)掘型分析有效伎倆。 數(shù)據(jù)挖掘與OLAP區(qū)分:OLAP是由顧客驅(qū)動,一般是由分析人員預(yù)先設(shè)定某些假設(shè),然后使用OLAP去驗(yàn)證這些假設(shè),它提供了能夠使得分析人員很方便地進(jìn)行數(shù)據(jù)分析伎倆;數(shù)據(jù)挖掘則是通過對數(shù)據(jù)分析產(chǎn)生某些假設(shè),人們能夠在這些假設(shè)基礎(chǔ)上更有效地進(jìn)行決策。它們之間區(qū)分事實(shí)上就是驗(yàn)證型分析和發(fā)掘型分析之間區(qū)分。第141頁七、關(guān)系數(shù)據(jù)庫標(biāo)準(zhǔn)語言
SQL(StructuredQueryLanguage)第142頁SQL介紹
第143頁Select查詢語句句法圖第144頁Select語句完整語法構(gòu)造Select[all|distinct]<目標(biāo)體現(xiàn)式1>[,<目標(biāo)體現(xiàn)式2>]…From<表名1>[,<表名2>]…[where<條件體現(xiàn)式>][groupby<列名1>[,<列名2>]…[having<條件體現(xiàn)式>]][orderby<列名1>[Asc|Desc][,<列名2>[Asc|Desc]]…]說明:select中all和orderby中Asc是缺省值.“[]”表達(dá)項(xiàng)目可選,“<>”必選,“|”多項(xiàng)選擇一,“…”表達(dá)能夠有更多項(xiàng)
第145頁每個子句功能如下:SELECT子句列出所有要檢索數(shù)據(jù)項(xiàng)。這些項(xiàng)也許是取自數(shù)據(jù)庫中列,也也許是SQL在執(zhí)行查詢時計(jì)算出列。FROM子句列出了所要查詢數(shù)據(jù)表。WHERE子句告訴SQL只查詢某些行中數(shù)據(jù),這些行用搜索條件描述。GROUPBY子句指定匯總查詢,即不是對每行產(chǎn)生一種查詢成果,而是將相同行進(jìn)行分組,再對每組產(chǎn)生一種匯總成果。HAVING子句告訴SQL只產(chǎn)生由GROUPBY得到某些組成果。與WHERE子句同樣,所需要組也用一種搜索條件指定。ORDERBY子句將查詢成果按一列或多列中數(shù)據(jù)排序。假如省略此子句,則查詢成果是無序。第146頁SELECT語句生成查詢成果步驟如下:1.
假如語句是SELECT語句聯(lián)合(UNION),則將第2-7步用于每個語句,生成單獨(dú)查詢成果。2.
根據(jù)FROM子句指定表形成目標(biāo)表。假如FROM子句中只有一種表,則此表為目標(biāo)表。3.
假如有WHERE子句,則將其搜索條件用于目標(biāo)表每一行,只保存那些使搜索條件為TRUE行(剔除使條件為FALSE或NULL行)。第147頁SELECT語句生成查詢成果步驟如下4.
假如有GROUPBY子句,則將目標(biāo)表中保存行分組,使得每個組中各行分組列有同樣值。5.
假如有HAVING子句,則將其搜索條件用于每個行組,保存那些使搜索條件為TRUE組(剔除使條件為FALSE或NULL組)。6.
對保存每行(或行組),計(jì)算選擇表中每項(xiàng)值并生成單行查詢成果。對于簡單列設(shè)定,取目前行(或行組)中該列值。對列函數(shù),若指定了GROUPBY,則將目前行組作為其參數(shù);不然,用所有行作為其參數(shù)。第148頁SELECT語句生成查詢成果步驟如下7若指定了SELECTDISTINCT,則剔除生成成果中所有反復(fù)行。8.語句是SELECT語句聯(lián)合(UNION),則將每個語句查詢成果歸并為一種成果表。若沒有指定UNIONALL,則剔除所有反復(fù)行。9.假如指定了ORDERBY子句,則按要求將成果排序。第149頁Sq
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國中置電機(jī)自行車行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國PTZ電子體積校正器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國軍用飛行器模擬器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國工業(yè)木鋸機(jī)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 期末測試卷01【考試范圍:6-10單元】(原卷版)
- 2025國際商業(yè)代理合同詳細(xì)版樣本
- 擔(dān)保合同范文集錦年
- 健身房私教合同范文
- 電力設(shè)備采購合同模板
- 2025XL數(shù)字地震儀器租賃合同
- 綠色能源項(xiàng)目融資計(jì)劃書范文
- 《人工智能發(fā)展史》課件
- 小學(xué)一年級數(shù)學(xué)20以內(nèi)的口算題(可直接打印A4)
- 一個28歲的漂亮小媳婦在某公司打工-被老板看上之后
- 馬工程教育哲學(xué)課件第十章 教育哲學(xué)與教師發(fā)展
- GB/T 11376-2020金屬及其他無機(jī)覆蓋層金屬的磷化膜
- 成功源于自律 主題班會課件(共34張ppt)
- 新青島版(五年制)五年級下冊小學(xué)數(shù)學(xué)全冊導(dǎo)學(xué)案(學(xué)前預(yù)習(xí)單)
- (完整word版)重點(diǎn)監(jiān)管的危險化學(xué)品名錄(完整版)
- 高級工程師電子版職稱證書在網(wǎng)上打印步驟
- 品牌形象的12個原型
評論
0/150
提交評論