環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫(kù)方案書_第1頁(yè)
環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫(kù)方案書_第2頁(yè)
環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫(kù)方案書_第3頁(yè)
環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫(kù)方案書_第4頁(yè)
環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫(kù)方案書_第5頁(yè)
已閱讀5頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫(kù)方案書第一章.公司介紹7第二章.環(huán)保局信息系統(tǒng)分析82.1 環(huán)保局信息系統(tǒng)現(xiàn)狀82.1.1產(chǎn)生的問(wèn)題82.1.2 問(wèn)題產(chǎn)生的原因92.1.3結(jié)論102.2 需求分析102.2.1“統(tǒng)一污染源數(shù)據(jù)庫(kù)”定義102.2.2統(tǒng)一污染源數(shù)據(jù)庫(kù)的數(shù)據(jù)102.2.3處室-系統(tǒng)-數(shù)據(jù)對(duì)應(yīng)關(guān)系112.2.4各處室與統(tǒng)一污染源數(shù)據(jù)的關(guān)系122.2.5數(shù)據(jù)整合和集成需求122.3 統(tǒng)一污染源數(shù)據(jù)庫(kù)實(shí)質(zhì)上是一個(gè)部門級(jí)數(shù)據(jù)倉(cāng)庫(kù).142.4 統(tǒng)一污染源數(shù)據(jù)庫(kù)是環(huán)保局信息門戶的先鋒.152.5 需求的總結(jié)16統(tǒng)一數(shù)據(jù)16統(tǒng)一操作界面16統(tǒng)一認(rèn)證17統(tǒng)一接口.17第三章.系統(tǒng)解決方案183.1 系統(tǒng)解決

2、方案原則183.1.1可擴(kuò)充性183.1.2易維護(hù)性183.1.3安全性183.1.4合理性183.1.5開(kāi)放性183.2 技術(shù)路線183.3業(yè)務(wù)體系結(jié)構(gòu)193.3.1污染源數(shù)據(jù)內(nèi)容233.3.2基礎(chǔ)數(shù)據(jù)庫(kù)243.3.3數(shù)據(jù)倉(cāng)庫(kù)243.3.4地理信息系統(tǒng)243.3.5信息門戶綜合發(fā)布系統(tǒng)253.3.6綜合辦公系統(tǒng)253.4技術(shù)體系結(jié)構(gòu)25第四章 污染源統(tǒng)一數(shù)據(jù)庫(kù)274.1 數(shù)據(jù)庫(kù)設(shè)計(jì)274.1.1 數(shù)據(jù)庫(kù)設(shè)計(jì)主線274.1.2 數(shù)據(jù)庫(kù)規(guī)范化設(shè)計(jì)304.1.3 粒度設(shè)計(jì)324.1.4 元數(shù)據(jù)管理。324.1.5 性能優(yōu)化344.2 etl(抽取.轉(zhuǎn)換.裝載)354.2.1 抽取374.2.2 轉(zhuǎn)

3、換和清洗384.2.3 裝載384.2.4 自動(dòng)調(diào)度394.3 olap(聯(lián)機(jī)在線分析)394.4 表現(xiàn)層404.4.1 表現(xiàn)層結(jié)構(gòu)404.4.2 表現(xiàn)層功能41第五章 信息門戶設(shè)計(jì)435.1 信息門戶的概念435.2 athene信息門戶系統(tǒng).435.2.1底層數(shù)據(jù)信息存儲(chǔ)445.2.2內(nèi)容管理整合445.3 athene信息門戶特點(diǎn).45第六章 其他功能設(shè)計(jì)476.1 外圍接口設(shè)計(jì)476.1.2 接口分類.486.2 備份設(shè)計(jì)486.2.1日常備份486.2.2 計(jì)劃內(nèi)下線496.2.3 數(shù)據(jù)恢復(fù)49第七章 系統(tǒng)特點(diǎn)49第八章 項(xiàng)目的組織和實(shí)施508.1 組織機(jī)構(gòu)及職責(zé)508.1.1項(xiàng)目經(jīng)

4、理508.1.2專家顧問(wèn)組508.1.3項(xiàng)目執(zhí)行組508.1.4業(yè)務(wù)組508.1.5軟件開(kāi)發(fā)組518.1.6測(cè)試驗(yàn)收組518.1.7 文檔組518.1.8支持組518.2 實(shí)施方法528.3 項(xiàng)目實(shí)施計(jì)劃538.4培訓(xùn)計(jì)劃538.4.1培訓(xùn)對(duì)象與目標(biāo):538.4.2培訓(xùn)內(nèi)容54第九章 技術(shù)支持和服務(wù)55共同制訂明確的服務(wù)和支持計(jì)劃55系統(tǒng)維護(hù)的承諾55熱線服務(wù)系統(tǒng)55客戶檔案管理55常規(guī)性維護(hù)服務(wù)55應(yīng)用軟件服務(wù)的承諾56技術(shù)轉(zhuǎn)移56技術(shù)文檔移交56第一章.公司介紹第二章.環(huán)保局信息系統(tǒng)分析2.1 環(huán)保局信息系統(tǒng)現(xiàn)狀隨著數(shù)據(jù)庫(kù)技術(shù)的廣泛運(yùn)用,環(huán)保局信息系統(tǒng)的運(yùn)營(yíng)環(huán)境逐漸轉(zhuǎn)化為以數(shù)據(jù)庫(kù)為中心的運(yùn)

5、營(yíng)環(huán)境。同時(shí)因?yàn)榄h(huán)保局內(nèi)部對(duì)數(shù)據(jù)的需求是多方面的,所以根據(jù)工作職能的不同而建立了部門級(jí)的數(shù)據(jù)庫(kù)。比如監(jiān)督處關(guān)注環(huán)保局環(huán)境監(jiān)督管理,許可證的管理,因此建立了環(huán)保業(yè)務(wù)系統(tǒng);監(jiān)理所關(guān)注排污收費(fèi),現(xiàn)場(chǎng)檢查,接受投訴糾紛等內(nèi)容,因此建立了排污收費(fèi)系統(tǒng),監(jiān)控中心系統(tǒng);監(jiān)測(cè)站關(guān)注監(jiān)測(cè)數(shù)據(jù)所以有了監(jiān)測(cè)系統(tǒng);而由于根據(jù)不同環(huán)保局不同部門管理的現(xiàn)狀,在監(jiān)督處、監(jiān)理所,各區(qū)分局內(nèi)部都是用了同一套排污申報(bào)系統(tǒng).隨著環(huán)保局信息化建設(shè)的深入以及各部門的業(yè)務(wù)聯(lián)系的需求,部門與部門之間的數(shù)據(jù)交互日益增多,比如在監(jiān)理所的業(yè)務(wù)流程中需要監(jiān)測(cè)站的監(jiān)測(cè)數(shù)據(jù),需要監(jiān)督處的許可證數(shù)據(jù);監(jiān)督處需要察看監(jiān)理所監(jiān)測(cè)到的環(huán)保局違規(guī)數(shù)據(jù);信息中心

6、需要將各部門的排污申報(bào)數(shù)據(jù)進(jìn)行匯總,以供上層領(lǐng)導(dǎo)參考。于是環(huán)保局內(nèi)部系統(tǒng)也都做出了數(shù)據(jù)抽取的努力和嘗試,例如監(jiān)理所系統(tǒng)中增加監(jiān)測(cè)數(shù)據(jù)的接口、審批資料接口;結(jié)合gis系統(tǒng)建立了污染源信息匯總的一套查詢系統(tǒng)以供內(nèi)部使用等等。2.1.1產(chǎn)生的問(wèn)題可以看出,隨著數(shù)據(jù)的交互抽取,很可能會(huì)形成“蜘蛛網(wǎng)”現(xiàn)象,使得數(shù)據(jù)的抽取和訪問(wèn)顯得錯(cuò)綜復(fù)雜。這種演變不是人為制造的,而是自然演變的結(jié)果,如果不在體系結(jié)構(gòu)上進(jìn)行調(diào)整,“蜘蛛網(wǎng)”問(wèn)題將會(huì)越來(lái)越嚴(yán)重。因?yàn)殄e(cuò)綜復(fù)雜的抽取與訪問(wèn)將會(huì)產(chǎn)生很多問(wèn)題:2.1.1.1、數(shù)據(jù)分析的結(jié)果缺乏可靠性例如在環(huán)保局內(nèi)部存在著多套排污申報(bào)系統(tǒng),不同部門各自進(jìn)行匯總的信息與統(tǒng)一匯總的信息經(jīng)

7、常會(huì)不一致,這樣在領(lǐng)導(dǎo)面前就會(huì)出現(xiàn)不一致,缺乏可靠性的數(shù)據(jù)。2.1.1.2、數(shù)據(jù)處理的效率低下在錯(cuò)綜復(fù)雜的體系結(jié)構(gòu)中,不同級(jí)別的數(shù)據(jù)庫(kù)可能使用不同類型的數(shù)據(jù)庫(kù)系統(tǒng),環(huán)保局內(nèi)部就存在了sqlserver,sybase,foxpro等等數(shù)據(jù)庫(kù),根據(jù)各種不同數(shù)據(jù)庫(kù)的開(kāi)發(fā)工具的不同,抽取程序應(yīng)用的技術(shù)不同,因而難以集成。2.1.1.3、數(shù)據(jù)共享困難對(duì)于大量的數(shù)據(jù)不能提供一個(gè)統(tǒng)一的數(shù)據(jù)接口,不能采用一種通用的標(biāo)準(zhǔn)和規(guī)范(如使用不同的指標(biāo)代碼體系和編碼體系),共享通用的數(shù)據(jù)源。隨著業(yè)務(wù)的增加,管理人員的操作越來(lái)越復(fù)雜,操作越來(lái)越多,用戶分散,相互聯(lián)系程度低,信息相對(duì)封閉,共享程度低2.1.1.4、難以將數(shù)

8、據(jù)轉(zhuǎn)化為信息此外,“蜘蛛網(wǎng)”式的結(jié)構(gòu)還難以將數(shù)據(jù)轉(zhuǎn)化為決策信息。因?yàn)槊總€(gè)數(shù)據(jù)庫(kù)由于其數(shù)據(jù)量和業(yè)務(wù)處理的需求不同,同時(shí)對(duì)歷史數(shù)據(jù)的存儲(chǔ)時(shí)間也不同,因此以現(xiàn)有的數(shù)據(jù)庫(kù)系統(tǒng)難以提供完整的歷史數(shù)據(jù)。鑒于這樣的原因,用戶根本不可能從這些數(shù)據(jù)中提取出完整的信息。例如污染源執(zhí)法系統(tǒng)所提供的數(shù)據(jù)就不能夠滿足統(tǒng)一污染源的需求。2.1.2 問(wèn)題產(chǎn)生的原因最根本的原因是由于各業(yè)務(wù)系統(tǒng)建設(shè)和實(shí)施數(shù)據(jù)管理系統(tǒng)的階段性、技術(shù)性以及其它經(jīng)濟(jì)和人為因素等因素影響,導(dǎo)致在發(fā)展過(guò)程中積累了大量采用不同存儲(chǔ)方式的業(yè)務(wù)數(shù)據(jù),包括采用的數(shù)據(jù)管理系統(tǒng)也大不相同,從簡(jiǎn)單的文件數(shù)據(jù)庫(kù)到復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)庫(kù),它們構(gòu)成了環(huán)保局的異構(gòu)數(shù)據(jù)源。這些分散

9、的不同業(yè)務(wù)的數(shù)據(jù)管理系統(tǒng)雖然能夠滿足業(yè)務(wù)數(shù)據(jù)存儲(chǔ)和管理要求,但在許多情況下,為作出一個(gè)決策,可能需要訪問(wèn)分布在網(wǎng)絡(luò)不同位置上的多個(gè)業(yè)務(wù)數(shù)據(jù)管理系統(tǒng)中的數(shù)據(jù)。環(huán)保局?jǐn)?shù)據(jù)源異構(gòu)性主要表現(xiàn)在兩方面:2.1.2.1、系統(tǒng)異構(gòu)即數(shù)據(jù)源所依賴的業(yè)務(wù)應(yīng)用系統(tǒng)、數(shù)據(jù)庫(kù)管理系統(tǒng)乃至操作系統(tǒng)之間的不同構(gòu)成了系統(tǒng)異構(gòu)。2.1.2.2、模式異構(gòu)即數(shù)據(jù)源在存儲(chǔ)模式上的不同。存儲(chǔ)模式主要包括關(guān)系模式、對(duì)象模式、對(duì)象關(guān)系模式和文檔嵌套模式等幾種,其中關(guān)系模式(關(guān)系數(shù)據(jù)庫(kù))為主流存儲(chǔ)模式。同時(shí),即便是同一類存儲(chǔ)模式,它們的模式結(jié)構(gòu)可能也存在著差異。例如不同的關(guān)系數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)類型等方面并不是完全一致的,如db2、orac

10、le、sybase、informix、sqlserver、foxpro等。2.1.2.3、來(lái)源異構(gòu)即環(huán)保局內(nèi)部數(shù)據(jù)源和外部數(shù)據(jù)源之間的異構(gòu)。2.1.3結(jié)論異構(gòu)數(shù)據(jù)源的整和、集成是環(huán)保局信息化建設(shè)過(guò)程經(jīng)常遇到的一個(gè)現(xiàn)實(shí)問(wèn)題。也是制約環(huán)保局各種應(yīng)用信息系統(tǒng)建設(shè)和數(shù)據(jù)共享程度,以及信息化建設(shè)投資重復(fù)或負(fù)擔(dān)重的一個(gè)重要因素。由此可知,解決好現(xiàn)階段環(huán)保局信息系統(tǒng)整合的問(wèn)題,必須要建立一套基于整體、集成各個(gè)業(yè)務(wù)異構(gòu)數(shù)據(jù)源的綜合信息倉(cāng)庫(kù),包括信息基礎(chǔ)數(shù)據(jù)庫(kù)和一個(gè)強(qiáng)大的分布式應(yīng)用系統(tǒng)。2.2 需求分析針對(duì)環(huán)保局現(xiàn)有整體系統(tǒng)結(jié)構(gòu)比較復(fù)雜,業(yè)務(wù)系統(tǒng)多的情況,建立環(huán)境基礎(chǔ)數(shù)據(jù)庫(kù)及在該基礎(chǔ)數(shù)據(jù)庫(kù)上開(kāi)展的分布式應(yīng)用系統(tǒng)

11、需要對(duì)現(xiàn)有業(yè)務(wù)系統(tǒng)需求進(jìn)行詳細(xì)地分析。2.2.1“統(tǒng)一污染源數(shù)據(jù)庫(kù)”定義“統(tǒng)一污染源數(shù)據(jù)庫(kù)”可以從兩方面來(lái)理解。首先,該系統(tǒng)是一“數(shù)據(jù)庫(kù)”,其存儲(chǔ)的數(shù)據(jù)包括了污染源的所有相關(guān)信息。將原有各個(gè)系統(tǒng)的數(shù)據(jù)進(jìn)行收集和格式轉(zhuǎn)化,實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一集中管理,以改善目前環(huán)境信息存在的利用率低、共享程度差等問(wèn)題。其次,該系統(tǒng)注重的是“統(tǒng)一”,因?yàn)楝F(xiàn)有污染源相關(guān)的數(shù)據(jù)來(lái)源比較多,多處存在數(shù)據(jù)不一致的情況,因此有必要通過(guò)數(shù)據(jù)的抽取、過(guò)濾、轉(zhuǎn)換成為統(tǒng)一的,標(biāo)準(zhǔn)的數(shù)據(jù),并把原來(lái)面向事務(wù)的數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)化為面向分析和決策的結(jié)構(gòu),這樣才能夠使得數(shù)據(jù)共享變得有意義,同時(shí)也便于利用統(tǒng)一后的數(shù)據(jù)進(jìn)行分析,統(tǒng)計(jì),決策。從這一立場(chǎng)來(lái)看,

12、“統(tǒng)一污染源數(shù)據(jù)庫(kù)”可以看成是面向“污染源”主題的數(shù)據(jù)倉(cāng)庫(kù)的建立。2.2.2統(tǒng)一污染源數(shù)據(jù)庫(kù)的數(shù)據(jù)統(tǒng)一污染源數(shù)據(jù)庫(kù)的數(shù)據(jù)是原有業(yè)務(wù)系統(tǒng)中涉及到污染源信息的主要業(yè)務(wù)流程產(chǎn)生的數(shù)據(jù),換句話說(shuō)就是確定哪些信息內(nèi)容需要納入到統(tǒng)一污染源數(shù)據(jù)庫(kù),也就是在統(tǒng)一污染源數(shù)據(jù)庫(kù)上集中管理的內(nèi)容。通過(guò)對(duì)環(huán)保局內(nèi)部系統(tǒng)的詳細(xì)了解,我們初步確定了以下業(yè)務(wù)流程數(shù)據(jù):從上圖中可以看到統(tǒng)一污染源數(shù)據(jù)庫(kù)應(yīng)該包括的信息數(shù)據(jù),這些數(shù)據(jù)分散在各個(gè)處室,不同處室不僅使用不同的系統(tǒng),也有可能使用相同的系統(tǒng)單機(jī)版(比如排污申報(bào)軟件)。2.2.3處室-系統(tǒng)-數(shù)據(jù)對(duì)應(yīng)關(guān)系下圖表明了上述污染源相關(guān)數(shù)據(jù)與環(huán)保局內(nèi)各處室、業(yè)務(wù)系統(tǒng)的對(duì)應(yīng)關(guān)系:上圖每

13、一縱列中的綠色模塊表示處室部門,黃色模塊表示該部門該部門使用的業(yè)務(wù)系統(tǒng),白色模塊表示該業(yè)務(wù)系統(tǒng)中包含的與污染源相關(guān)的信息數(shù)據(jù)。由上面兩張圖可以大致歸納出統(tǒng)一污染源數(shù)據(jù)庫(kù)需要集中管理的內(nèi)容包括:1、污染源審批信息(審批清單、環(huán)保設(shè)施、產(chǎn)品原材料、驗(yàn)收信息)2、排污申報(bào)(水氣聲渣申報(bào)、水氣聲渣統(tǒng)計(jì))3、排污許可證(排放量、年審信息)4、排污收費(fèi)(每月每年排污費(fèi)統(tǒng)計(jì))5、現(xiàn)場(chǎng)檢查(統(tǒng)計(jì)信息、投訴信息)6、污染源監(jiān)測(cè)信息(監(jiān)測(cè)報(bào)告)7、環(huán)境統(tǒng)計(jì)信息8、固體廢物處理信息9、環(huán)境執(zhí)法信息(限期整改、整治、罰款、停業(yè) 立案-審議-處罰決定)2.2.4各處室與統(tǒng)一污染源數(shù)據(jù)的關(guān)系當(dāng)統(tǒng)一污染源數(shù)據(jù)庫(kù)之后,各處室

14、可以:向統(tǒng)一污染源數(shù)據(jù)庫(kù)提供其自身?yè)碛械南嚓P(guān)數(shù)據(jù)從統(tǒng)一數(shù)據(jù)庫(kù)中得到更為一致性,全面的業(yè)務(wù)數(shù)據(jù)從統(tǒng)一數(shù)據(jù)庫(kù)中得到其他處室提供的業(yè)務(wù)數(shù)據(jù)因此,從信息共享的角度來(lái)看,各處室對(duì)上述不同信息的關(guān)注程度是不一樣的。下圖中大致表明了各處室關(guān)注統(tǒng)一污染源數(shù)據(jù)庫(kù)中的那些數(shù)據(jù):2.2.5數(shù)據(jù)整合和集成需求對(duì)各處室的異構(gòu)數(shù)據(jù)源數(shù)據(jù)進(jìn)行整合、集成成為統(tǒng)一污染源數(shù)據(jù)庫(kù)的目的是為環(huán)保局提供綜合的、統(tǒng)一的、安全的、快捷的信息查詢、數(shù)據(jù)挖掘和決策支持服務(wù)。為了滿足這個(gè)需求條件,各處室整合、集成后的數(shù)據(jù)必須保證一定的集成性、完整性、一致性和訪問(wèn)安全性。2.2.5.1、集成性各種原先孤立的業(yè)務(wù)信息系統(tǒng)數(shù)據(jù)經(jīng)過(guò)整合、集成后,應(yīng)該達(dá)

15、到查詢一個(gè)綜合信息不必再到各個(gè)處室業(yè)務(wù)系統(tǒng)中進(jìn)行分別查詢和人工處理,只要在整合、集成后的數(shù)據(jù)信息倉(cāng)庫(kù)中就可以直接訪問(wèn)到,即整合、集成后的綜合信息倉(cāng)庫(kù)的數(shù)據(jù)是各異構(gòu)業(yè)務(wù)數(shù)據(jù)的有機(jī)集成和關(guān)聯(lián)存儲(chǔ)(整合、發(fā)掘出各業(yè)務(wù)數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)關(guān)系),而不是簡(jiǎn)單、孤立的堆放在一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)里。2.2.5.2、完整性包括數(shù)據(jù)完整性和約束完整性兩方面。數(shù)據(jù)完整性是指完整提取數(shù)據(jù)本身,約束完整性,約束是指數(shù)據(jù)與數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,是唯一表征數(shù)據(jù)間邏輯的特征。保證約束的完整性是良好的數(shù)據(jù)發(fā)布和交換的前提,可以方便數(shù)據(jù)處理過(guò)程,提高效率。2.2.5.3、一致性不同業(yè)務(wù)信息資源之間存在著語(yǔ)義上的區(qū)別。這些語(yǔ)義上的不同會(huì)引起

16、各種不完整甚至錯(cuò)誤信息的產(chǎn)生,從簡(jiǎn)單的名字語(yǔ)義沖突(不同的名字代表相同的概念),到復(fù)雜的結(jié)構(gòu)語(yǔ)義沖突(不同的模型表達(dá)同樣的信息)。語(yǔ)義沖突會(huì)帶來(lái)數(shù)據(jù)集成結(jié)果的冗余,干擾數(shù)據(jù)處理、發(fā)布和交換。整合、集成后的數(shù)據(jù)應(yīng)該根據(jù)一定的數(shù)據(jù)轉(zhuǎn)換模式和商業(yè)規(guī)則進(jìn)行統(tǒng)一數(shù)據(jù)結(jié)構(gòu)和字段語(yǔ)義編碼轉(zhuǎn)換。2.2.5.4、訪問(wèn)安全性由于數(shù)據(jù)庫(kù)資源可能歸屬不同的單位,各業(yè)務(wù)數(shù)據(jù)系統(tǒng)有著各自的用戶權(quán)限管理模式,訪問(wèn)和安全管理很不方便,不能集中、統(tǒng)一管理,所以保證在訪問(wèn)異構(gòu)數(shù)據(jù)源數(shù)據(jù)基礎(chǔ)上保障原有數(shù)據(jù)庫(kù)的權(quán)限不被侵犯,實(shí)現(xiàn)對(duì)原有數(shù)據(jù)源訪問(wèn)權(quán)限的隔離和控制,就需要設(shè)計(jì)基于整合、集成后的綜合信息倉(cāng)庫(kù)的統(tǒng)一的用戶安全管理模式來(lái)解決此

17、問(wèn)題。 綜上所述,異構(gòu)數(shù)據(jù)源的整合與集成如下圖所示:2.3 統(tǒng)一污染源數(shù)據(jù)庫(kù)實(shí)質(zhì)上是一個(gè)部門級(jí)數(shù)據(jù)倉(cāng)庫(kù).在分析過(guò)程中,我們發(fā)現(xiàn)污染源統(tǒng)一數(shù)據(jù)庫(kù)有以下的特點(diǎn).1 面向決策分析的.2 污染源信息的集成性.3 面向污染源主題的4 相對(duì)穩(wěn)定5 反映歷史變化同時(shí),我們注意到美國(guó)著名信息工程學(xué)家w.h.inmon在建立數(shù)據(jù)倉(cāng)庫(kù)一書中對(duì)數(shù)據(jù)倉(cāng)庫(kù)做了如下定義:“數(shù)據(jù)倉(cāng)庫(kù)(data warehouse)是一個(gè)面向主題的、集成的、穩(wěn)定的、包含歷史數(shù)據(jù)的數(shù)據(jù)集合,它用于支持管理中的決策制定過(guò)程。”所謂主題,它是數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對(duì)應(yīng)一個(gè)客觀分析領(lǐng)域,如銷售狀況、人事?tīng)顩r、整個(gè)企業(yè)的利潤(rùn)狀況等。它可以輔助決策集

18、成多個(gè)部門不同系統(tǒng)的大量數(shù)據(jù)。所謂面向主題,是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是按主題進(jìn)行組織的,為按主題進(jìn)行決策的過(guò)程提供信息。 所謂集成,是指數(shù)據(jù)倉(cāng)庫(kù)中的信息不是從各個(gè)業(yè)務(wù)處理系統(tǒng)中簡(jiǎn)單抽取出來(lái)的,而是經(jīng)過(guò)系統(tǒng)加工、匯總和整理,以確保數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。 所謂穩(wěn)定,是指一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),一般情況下將被長(zhǎng)期保留,也就是數(shù)據(jù)倉(cāng)庫(kù)中一般有大量的插入和查詢操作,但修改和刪除操作很少。 所謂包含歷史數(shù)據(jù),是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息并不只是關(guān)于企業(yè)當(dāng)時(shí)或某一時(shí)點(diǎn)的信息,而是系統(tǒng)記錄了企業(yè)從過(guò)去某一時(shí)點(diǎn)(如開(kāi)始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過(guò)這些信息,可以對(duì)企業(yè)的發(fā)展歷程

19、和未來(lái)趨勢(shì)做出定量分析和預(yù)測(cè)。這樣,我們有理由認(rèn)為,統(tǒng)一污染源數(shù)據(jù)庫(kù)在應(yīng)用的實(shí)質(zhì)意義上就是基于污染源管理的部門級(jí)數(shù)據(jù)倉(cāng)庫(kù).污染源數(shù)據(jù)倉(cāng)庫(kù)的建立主要是針對(duì)污染源的管理進(jìn)行一系列的分析,以便于局領(lǐng)導(dǎo)作出有效的決策.將統(tǒng)一污染源數(shù)據(jù)庫(kù)上升為污染源數(shù)據(jù)倉(cāng)庫(kù)的概念,有利于指導(dǎo)統(tǒng)一污染源數(shù)據(jù)庫(kù)在整體上的規(guī)劃,同時(shí),利用數(shù)據(jù)倉(cāng)庫(kù)現(xiàn)有的開(kāi)發(fā)技術(shù),可以有效的確定用戶需求,快速的開(kāi)發(fā)出高效,穩(wěn)定的產(chǎn)品.第一, 數(shù)據(jù)倉(cāng)庫(kù)有效集成了企業(yè)的業(yè)務(wù)數(shù)據(jù),提供了標(biāo)準(zhǔn)的報(bào)表和圖表的功能。數(shù)據(jù)倉(cāng)庫(kù)的報(bào)表和圖表是關(guān)于整個(gè)企業(yè)集成信息的報(bào)表和圖表,其中的數(shù)據(jù)可來(lái)源于不同的多個(gè)事務(wù)處理系統(tǒng)。從而為企業(yè)提供了按照主題的多方位的決策支持。

20、 第二, 數(shù)據(jù)倉(cāng)庫(kù)可以對(duì)分布在不同系統(tǒng)的業(yè)務(wù)數(shù)據(jù)進(jìn)行清洗和加工。數(shù)據(jù)倉(cāng)庫(kù)的源數(shù)據(jù)可能來(lái)自許多異構(gòu)的事務(wù)處理系統(tǒng),它們具有不同的數(shù)據(jù)格式和數(shù)據(jù)存儲(chǔ)管理組織,數(shù)據(jù)倉(cāng)庫(kù)可以按照面向主題的原則對(duì)這些數(shù)據(jù)進(jìn)行清洗和加工,使它們成為統(tǒng)一格式的易于使用的支持決策的數(shù)據(jù)。 第三, 數(shù)據(jù)倉(cāng)庫(kù)支持多維分析。多維分析是通過(guò)把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維度,使得用戶能方便地匯總數(shù)據(jù)集,簡(jiǎn)化了數(shù)據(jù)的分析處理邏輯,并能對(duì)不同維度值的數(shù)據(jù)進(jìn)行比較,而維度則表示了對(duì)信息的不同理解角度,例如,時(shí)間和地理區(qū)域是經(jīng)常采用的維度。應(yīng)用多維分析可以在一個(gè)查詢中對(duì)不同階段的數(shù)據(jù)進(jìn)行縱向或橫向比較,這在決策過(guò)程中非常有用。 第四,

21、 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)可以幫助企業(yè)決策者對(duì)企業(yè)未來(lái)狀況作出預(yù)測(cè)。數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)倉(cāng)庫(kù)表現(xiàn)的關(guān)鍵技術(shù)。數(shù)據(jù)挖掘技術(shù)可以在已有數(shù)據(jù)中識(shí)別數(shù)據(jù)的模式,以幫助用戶理解現(xiàn)有的信息,并在已有信息的基礎(chǔ)上,對(duì)未來(lái)的狀況作出預(yù)測(cè)。在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上進(jìn)行數(shù)據(jù)挖掘,就可以針對(duì)整個(gè)企業(yè)的狀況和未來(lái)發(fā)展作出比較完整、合理、準(zhǔn)確的分析和預(yù)測(cè)。 第五, 成功的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)可以為企業(yè)帶來(lái)高的投資回報(bào)。結(jié)合企業(yè)業(yè)務(wù)現(xiàn)狀,數(shù)據(jù)倉(cāng)庫(kù)可以建立在原有運(yùn)行系統(tǒng)之上,企業(yè)可以在以分主題方式對(duì)原來(lái)運(yùn)行數(shù)據(jù)重組的基礎(chǔ)之上,為了某種支持特定決策的需要,再跨主題進(jìn)行數(shù)據(jù)重組,這就需要數(shù)據(jù)集市(data marts)了。數(shù)據(jù)集市是聚集的、面向主題的數(shù)據(jù)

22、倉(cāng)庫(kù),它簡(jiǎn)單、靈活,并且建立速度更快,花費(fèi)也更低廉。通常情況下,企業(yè)將建立一系列數(shù)據(jù)集市,用來(lái)處理一定范疇的問(wèn)題,快速?zèng)Q策意味著企業(yè)可以對(duì)市場(chǎng)機(jī)會(huì)做出快速反應(yīng),這將為企業(yè)帶來(lái)巨大的商業(yè)利益。2.4 統(tǒng)一污染源數(shù)據(jù)庫(kù)是環(huán)保局信息門戶的先鋒.為了將污染源數(shù)據(jù)及其分析決策信息能夠方便的讓環(huán)保局內(nèi)部所有相關(guān)人員訪問(wèn)使用,必須要一種大家都易于接受的方式來(lái)表現(xiàn)這些數(shù)據(jù),在這點(diǎn)上,信息中心建議采用b/s結(jié)構(gòu),用瀏覽器作為系統(tǒng)的統(tǒng)一表達(dá)方式。同時(shí),將來(lái)建設(shè)的系統(tǒng)在表現(xiàn)層上也都準(zhǔn)備采用同樣的表現(xiàn)形式,所以,一個(gè)綜合的門戶發(fā)布系統(tǒng)對(duì)于整體環(huán)境信息系統(tǒng)而言是必備的。而在統(tǒng)一污染源項(xiàng)目中將門戶的概念提出是有利于整體系

23、統(tǒng)規(guī)劃的,可以說(shuō)污染源的門戶發(fā)布系統(tǒng)就是整體環(huán)境信息系統(tǒng)的先鋒。這樣,我們可以知道,其實(shí), 統(tǒng)一污染源數(shù)據(jù)庫(kù)是環(huán)保局信息門戶的先鋒.環(huán)保局信息門戶(enterprise information portal),就是采用標(biāo)準(zhǔn)瀏覽器,如internet explorer,提供對(duì)環(huán)保局的intranet和extranet的單點(diǎn)訪問(wèn),使每個(gè)人能通過(guò)統(tǒng)一界面訪問(wèn)經(jīng)授權(quán)的環(huán)保局內(nèi)部和外部信息,從而提高決策水平。環(huán)保局信息門戶為環(huán)保局的各種使用者提供了一個(gè)統(tǒng)一的應(yīng)用界面,使環(huán)保局的使用者可以根據(jù)自己的需要獲得想要的信息,它是通過(guò)提供全面的信息和應(yīng)用來(lái)支持決策和客戶選擇的,主要作用體現(xiàn)在: 第一, 環(huán)保局信息

24、門戶(eip)是將web技術(shù)與環(huán)保局的運(yùn)作過(guò)程相集成的解決方案,它提供了一個(gè)單獨(dú)的網(wǎng)關(guān)來(lái)訪問(wèn)信息和應(yīng)用。環(huán)保局門戶可以對(duì)未組織的信息進(jìn)行編目和跟蹤,也可以訪問(wèn)國(guó)際互連網(wǎng)上的內(nèi)容,并根據(jù)用戶的需求和在環(huán)保局中的角色來(lái)過(guò)濾這些內(nèi)容。一個(gè)門戶通過(guò)開(kāi)放和封閉的網(wǎng)絡(luò),提供了數(shù)據(jù)和信息的傳遞,使用戶更方便地來(lái)了解有關(guān)的信息。 第二, 環(huán)保局信息門戶能夠?qū)⒋鎯?chǔ)在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)和文件中的數(shù)據(jù)轉(zhuǎn)換為可用的信息。它可以使你在環(huán)保局內(nèi)和環(huán)保局外快速地改變信息,并通過(guò)瀏覽器傳送信息。分散的公司通過(guò)網(wǎng)絡(luò)連接在一起,加上最新型的信息傳遞方式,這就意味著在很短的時(shí)間內(nèi),獲取正確的信息,傳送給正確的用戶,從而提高生產(chǎn)率。

25、第三, 環(huán)保局信息門戶提供了一個(gè)對(duì)傳統(tǒng)的個(gè)人桌面工作模式的改進(jìn)方法,可以在通過(guò)簡(jiǎn)便的方法定制出的圖形化的用戶界面下進(jìn)行工作(就像目前的商業(yè)門戶,如netcenter),能夠?qū)崿F(xiàn)信息的有效處理和系統(tǒng)的穩(wěn)定性,就如同在原來(lái)的應(yīng)用和信息系統(tǒng)下獨(dú)立工作一樣可以這么說(shuō),數(shù)據(jù)倉(cāng)庫(kù)為環(huán)保局提供了一個(gè)統(tǒng)一的數(shù)據(jù)視圖,而環(huán)保局信息門戶則為環(huán)保局提供了一個(gè)統(tǒng)一的應(yīng)用界面,使他們方便快捷地訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù),進(jìn)一步加速?zèng)Q策速度,提高決策水平。環(huán)保局信息門戶的貢獻(xiàn)不只在于幫助環(huán)保局了解手中大量信息的意義,更重要的是使他們能夠應(yīng)付那些由于分散的信息資源和處理過(guò)程維護(hù)能力下降而產(chǎn)生的問(wèn)題。環(huán)保局信息門戶能夠通過(guò)超越現(xiàn)在的分散的

26、應(yīng)用環(huán)境實(shí)現(xiàn)這個(gè)目標(biāo),把原來(lái)不同的相互關(guān)系連接到一起,形成廣泛的、相互關(guān)聯(lián)的應(yīng)用環(huán)境,從而縮短環(huán)保局響應(yīng)時(shí)間。環(huán)保局?jǐn)?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)是環(huán)保局信息門戶的基石,為環(huán)保局信息門戶的建立提供了一個(gè)完整的基礎(chǔ)框架和統(tǒng)一的數(shù)據(jù)視圖;而環(huán)保局信息門戶的建立是對(duì)環(huán)保局?jǐn)?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)查詢、檢索、集成等功能的優(yōu)化,二者是相輔相成的、統(tǒng)一的、都是為環(huán)保局的決策信息系統(tǒng)服務(wù)的,也是環(huán)保局實(shí)現(xiàn)電子政務(wù)關(guān)鍵因素。 綜上所訴,統(tǒng)一污染源數(shù)據(jù)庫(kù)項(xiàng)目的建設(shè)是基于污染源數(shù)據(jù)倉(cāng)庫(kù)的環(huán)保局信息門戶的建設(shè).我們將站在數(shù)據(jù)倉(cāng)庫(kù)的高度,利用數(shù)據(jù)倉(cāng)庫(kù)的技術(shù),結(jié)合當(dāng)前環(huán)保局當(dāng)前的狀況,對(duì)環(huán)保局統(tǒng)一污染源數(shù)據(jù)庫(kù)作出規(guī)劃2.5 需求的總結(jié)我們可以把環(huán)保

27、局的需求分為四個(gè)統(tǒng)一統(tǒng)一數(shù)據(jù)關(guān)于污染源的統(tǒng)一數(shù)據(jù)庫(kù).統(tǒng)一操作界面要求以后統(tǒng)一的操作界面.統(tǒng)一認(rèn)證用戶,外部應(yīng)用程序有統(tǒng)一的認(rèn)證機(jī)制,實(shí)現(xiàn)單點(diǎn)認(rèn)證.統(tǒng)一接口.外部應(yīng)用程序有統(tǒng)一的調(diào)用接口第三章.系統(tǒng)解決方案3.1 系統(tǒng)解決方案原則3.1.1可擴(kuò)充性可擴(kuò)充原則能夠最大限度地保護(hù)原有資源,就是原來(lái)已經(jīng)建設(shè)好的業(yè)務(wù)系統(tǒng)。統(tǒng)一污染源數(shù)據(jù)庫(kù)平臺(tái)將最大限度地兼容其他業(yè)務(wù)系統(tǒng)的數(shù)據(jù),但并不干涉原有系統(tǒng)的業(yè)務(wù)數(shù)據(jù)。同時(shí)將來(lái)新開(kāi)展的業(yè)務(wù)系統(tǒng)也可以將其相關(guān)信息數(shù)據(jù)納入其中,而不改動(dòng)其業(yè)務(wù)流程。3.1.2易維護(hù)性由信息中心統(tǒng)一管理的集中數(shù)據(jù)庫(kù)可以根據(jù)各處室需求統(tǒng)一的開(kāi)發(fā)報(bào)表,分析數(shù)據(jù)等操作,通過(guò)靈活的數(shù)據(jù)庫(kù)維護(hù)工具,

28、數(shù)據(jù)分析工具能夠做到統(tǒng)一數(shù)據(jù)庫(kù)的易維護(hù)效果。3.1.3安全性利用工業(yè)強(qiáng)度級(jí)別的關(guān)系型數(shù)據(jù)庫(kù)建設(shè)統(tǒng)一污染源數(shù)據(jù)庫(kù),在污染源數(shù)據(jù)庫(kù)的應(yīng)用系統(tǒng)中根據(jù)實(shí)際情況設(shè)置用戶權(quán)限以達(dá)到數(shù)據(jù)級(jí)別的安全性。3.1.4合理性根據(jù)環(huán)保局現(xiàn)有業(yè)務(wù)系統(tǒng)的現(xiàn)實(shí)狀況進(jìn)行分析,對(duì)數(shù)據(jù)的不一致性作出合理判斷,提供用戶自我判斷數(shù)據(jù)合理性功能。3.1.5開(kāi)放性系統(tǒng)著眼于環(huán)保局環(huán)境信息系統(tǒng)的整體規(guī)劃角度來(lái)看待污染源項(xiàng)目,提出多個(gè)嶄新觀念,其開(kāi)放性便于將來(lái)整體平臺(tái)的深入建設(shè)。3.2 技術(shù)路線.為了充分的保證環(huán)保局現(xiàn)有系統(tǒng)的投資,以及以后系統(tǒng)的擴(kuò)充能力,在綜合考慮了環(huán)保局的現(xiàn)狀以后,我們確定了以統(tǒng)一的平臺(tái)為基本的集成平臺(tái),以信息門戶的構(gòu)建

29、為基本框架.整合已有的業(yè)務(wù)系統(tǒng),同時(shí),要考慮到各種系統(tǒng)以后的接口,充分保證系統(tǒng)的擴(kuò)充性.同時(shí),為了保證環(huán)保局系統(tǒng)的先進(jìn)型和穩(wěn)定性,我們采用當(dāng)今先進(jìn)的j2ee結(jié)構(gòu), 3.3業(yè)務(wù)體系結(jié)構(gòu)根據(jù)對(duì)環(huán)保局內(nèi)部信息系統(tǒng)的信息調(diào)研,我們將在統(tǒng)一污染源數(shù)據(jù)庫(kù)項(xiàng)目中采用以下的系統(tǒng)體系結(jié)構(gòu):3.3.1污染源數(shù)據(jù)內(nèi)容從環(huán)保局原有業(yè)務(wù)系統(tǒng)中提取的數(shù)據(jù)來(lái)源大致有兩處:一是國(guó)家環(huán)??偩窒掳l(fā)的一系列環(huán)境軟件,更污染源相關(guān)的有排污申報(bào)系統(tǒng),環(huán)境統(tǒng)計(jì)系統(tǒng),城考系統(tǒng)等;二是環(huán)保局針對(duì)自身業(yè)務(wù)特點(diǎn)細(xì)節(jié)開(kāi)發(fā)的業(yè)務(wù)系統(tǒng),主要有監(jiān)督處的環(huán)保業(yè)務(wù)系統(tǒng),監(jiān)理所的監(jiān)控中心系統(tǒng),排污收費(fèi)系統(tǒng),監(jiān)測(cè)站的監(jiān)測(cè)系統(tǒng)等等。在上圖中描述了這些業(yè)務(wù)系統(tǒng)分別

30、提供了那些與污染源相關(guān)的信息數(shù)據(jù),這些數(shù)據(jù)就是統(tǒng)一污染源數(shù)據(jù)庫(kù)需要抽取的業(yè)務(wù)數(shù)據(jù)。3.3.2基礎(chǔ)數(shù)據(jù)庫(kù)基礎(chǔ)數(shù)據(jù)庫(kù)是環(huán)保局整體環(huán)境信息系統(tǒng)的重要基礎(chǔ),主要包括“統(tǒng)一污染源”和“環(huán)境質(zhì)量”,這里提到的基礎(chǔ)數(shù)據(jù)庫(kù)指的都是統(tǒng)一污染源數(shù)據(jù)庫(kù),數(shù)據(jù)也是與污染源相關(guān)的數(shù)據(jù)。根據(jù)環(huán)保局信息化建設(shè)的安排,將來(lái)可將“環(huán)境質(zhì)量”也納入到其中。基礎(chǔ)數(shù)據(jù)庫(kù)為各處室提供了共享的、全面的、權(quán)威的污染源信息。3.3.3數(shù)據(jù)倉(cāng)庫(kù)前面提到,隨著環(huán)保局總體電子政務(wù)應(yīng)用需求的發(fā)展,產(chǎn)生了信息“蜘蛛網(wǎng)”的問(wèn)題,要解決這樣的問(wèn)題,必須將用于事務(wù)處理的數(shù)據(jù)環(huán)境和用于數(shù)據(jù)分析的數(shù)據(jù)環(huán)境分離開(kāi),所以我們?cè)诮y(tǒng)一污染源數(shù)據(jù)庫(kù)基礎(chǔ)上建立了數(shù)據(jù)倉(cāng)庫(kù)應(yīng)

31、用。從圖中我們可以看出,數(shù)據(jù)處理被分為操作型處理和分析型處理(或信息型處理)兩大類。操作型處理以各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)為中心進(jìn)行環(huán)保局日常的業(yè)務(wù)處理;分析型處理以統(tǒng)一污染源數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)為中心分析數(shù)據(jù)背后的關(guān)聯(lián)和規(guī)律,為環(huán)保局的決策提供可靠有效的數(shù)據(jù)。所以操作型系統(tǒng)的使用人員通常是具體操作的部門人員,比如監(jiān)督處、監(jiān)理所等,處理的數(shù)據(jù)通常是業(yè)務(wù)的細(xì)節(jié)信息,其目標(biāo)是實(shí)現(xiàn)環(huán)保局的業(yè)務(wù)運(yùn)營(yíng);而分析型系統(tǒng)的使用人員通常是中高層的管理者或者從事數(shù)據(jù)分析的工作人員。分析型系統(tǒng)包含了環(huán)保局宏觀信息而非具體細(xì)節(jié),其目的是為環(huán)保局的決策者提供支持信息。操作型處理和分析型處理的分離,劃清了數(shù)據(jù)處理的分析型環(huán)境與操作

32、型環(huán)境之間的界限,從而由原來(lái)數(shù)據(jù)庫(kù)為中心的數(shù)據(jù)環(huán)境發(fā)展成為以數(shù)據(jù)庫(kù)為中心的業(yè)務(wù)處理系統(tǒng)和以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的分析系統(tǒng)。以數(shù)據(jù)庫(kù)為中心的業(yè)務(wù)處理系統(tǒng)和以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的分析系統(tǒng)的基礎(chǔ)上,就可以建立商業(yè)智能(business intelligence)bi系統(tǒng)作為商業(yè)智能系統(tǒng)中的核心部分,決策支持系統(tǒng)具備下列功能:1、多維信息查詢2、olap在線分析處理3、數(shù)據(jù)挖掘4、趨勢(shì)預(yù)測(cè)3.3.4地理信息系統(tǒng)統(tǒng)一污染源數(shù)據(jù)庫(kù)的上層應(yīng)用之一是與gis系統(tǒng)結(jié)合進(jìn)行開(kāi)發(fā),把污染源的各種完整信息同地理位置和有關(guān)的視圖結(jié)合起來(lái),并可根據(jù)各處室需要對(duì)這些信息進(jìn)行分析,把結(jié)果交由有關(guān)領(lǐng)導(dǎo)和部門作為決策的參考。gis的空間分

33、析功能需要有大量的基礎(chǔ)數(shù)據(jù),其中工業(yè)污染源數(shù)據(jù)是必備數(shù)據(jù)之一,在污染源數(shù)據(jù)庫(kù)設(shè)計(jì)中,我們強(qiáng)調(diào)了數(shù)據(jù)庫(kù)系統(tǒng)與現(xiàn)有arc/info、mapobject等gis系統(tǒng)的結(jié)合,污染源數(shù)據(jù)庫(kù)將環(huán)保局內(nèi)部各部門積累的大量數(shù)據(jù)進(jìn)行統(tǒng)一,并對(duì)這些屬性數(shù)據(jù)進(jìn)行處理和加工從而實(shí)現(xiàn)了數(shù)據(jù)的查詢、統(tǒng)計(jì)和分析,gis系統(tǒng)在此基礎(chǔ)上利用其自身的空間方式就可以很好把污染源排放、治理、達(dá)標(biāo)狀況表現(xiàn)出來(lái)。3.3.5信息門戶綜合發(fā)布系統(tǒng)全面的內(nèi)容整合環(huán)保局門戶平臺(tái)可以集成現(xiàn)有的應(yīng)用系統(tǒng),包括環(huán)保局的各種業(yè)務(wù)系統(tǒng)、一站式單點(diǎn)登錄可使得用戶一次登錄自動(dòng)訪問(wèn)所有授權(quán)的企業(yè)級(jí)應(yīng)用軟件系統(tǒng),無(wú)需記憶多種登錄過(guò)程、id或口令。并作為環(huán)保局統(tǒng)一

34、的工作和溝通平臺(tái).3.3.6綜合辦公系統(tǒng)統(tǒng)一污染源數(shù)據(jù)庫(kù)項(xiàng)目中產(chǎn)生的應(yīng)用信息,如數(shù)據(jù)的查詢,分析結(jié)果,報(bào)表等內(nèi)容可以便利、無(wú)縫的與athene環(huán)保局整體電子政務(wù)方案中的綜合辦公系統(tǒng)交換數(shù)據(jù),為將來(lái)環(huán)保局的建設(shè)提供了可擴(kuò)展性。3.4技術(shù)體系結(jié)構(gòu)根據(jù)上述業(yè)務(wù)體系結(jié)構(gòu)的特點(diǎn),我們?cè)O(shè)計(jì)了下圖所示的技術(shù)體系結(jié)構(gòu):我們?cè)诮y(tǒng)一污染軟數(shù)據(jù)庫(kù)上進(jìn)行數(shù)據(jù)挖掘及olap分析,得到查詢結(jié)果或者統(tǒng)計(jì)報(bào)表數(shù)據(jù),然后配合xml中間件技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)xml格式信息, 通過(guò)xslt(可擴(kuò)展樣式表轉(zhuǎn)換)將xml數(shù)據(jù)轉(zhuǎn)換成為系統(tǒng)中的處理格式信息,這些信息通過(guò)安全認(rèn)證后,以servlet,jsp的形式生成網(wǎng)頁(yè)表現(xiàn)出來(lái)。第四章

35、 污染源統(tǒng)一數(shù)據(jù)庫(kù)4.1 數(shù)據(jù)庫(kù)設(shè)計(jì)在本系統(tǒng)中中.污染源數(shù)據(jù)庫(kù)的設(shè)計(jì)是整個(gè)系統(tǒng)的重點(diǎn)和難點(diǎn),如何保證高效的,準(zhǔn)確的對(duì)現(xiàn)有數(shù)據(jù)的集成,是直接影響到?jīng)Q策圖標(biāo)是否正確,以后新的業(yè)務(wù)系統(tǒng)是否穩(wěn)定和準(zhǔn)確的關(guān)鍵,同時(shí), 污染源數(shù)據(jù)庫(kù)的高效在線處理能力也是對(duì)以后新的業(yè)務(wù)系統(tǒng)性能上起著至關(guān)重要的影響.下面從以下幾個(gè)方面來(lái)論述污染源統(tǒng)一數(shù)據(jù)庫(kù)的建設(shè).4.1.1 數(shù)據(jù)庫(kù)設(shè)計(jì)主線在污染源統(tǒng)一數(shù)據(jù)庫(kù)中,我們發(fā)現(xiàn),貫穿整個(gè)污染源統(tǒng)一數(shù)據(jù)庫(kù)業(yè)務(wù)點(diǎn)有兩個(gè),污染源和排污單位,利用這兩點(diǎn).可以完整的理解現(xiàn)在污染源統(tǒng)一數(shù)據(jù)庫(kù)中的業(yè)務(wù)行為,對(duì)整個(gè)數(shù)據(jù)庫(kù)設(shè)計(jì)起到關(guān)鍵的統(tǒng)領(lǐng)作用.4.1.1.1概念模型設(shè)計(jì)進(jìn)行概念模型設(shè)計(jì)所要完成的工作

36、是: 界定統(tǒng)一污染源數(shù)據(jù)庫(kù)系統(tǒng)邊界 確定統(tǒng)一污染源數(shù)據(jù)庫(kù)主要的主題域及其內(nèi)容 概念模型設(shè)計(jì)的成果是,在原有的業(yè)務(wù)數(shù)據(jù)庫(kù)的基礎(chǔ)上建立了一個(gè)較為穩(wěn)固的概念模型。因?yàn)榻y(tǒng)一污染源數(shù)據(jù)庫(kù)是對(duì)原有業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)進(jìn)行集成和重組而形成的數(shù)據(jù)集合,所以統(tǒng)一污染源數(shù)據(jù)庫(kù)的概念模型設(shè)計(jì),首先要對(duì)原有業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)加以分析理解,看在原有的業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)中“有什么”、“怎樣組織的”和“如何分布的”等,然后再來(lái)考慮應(yīng)當(dāng)如何建立統(tǒng)一污染源數(shù)據(jù)庫(kù)的概念模型。一方面,通過(guò)原有的業(yè)務(wù)數(shù)據(jù)庫(kù)的設(shè)計(jì)文檔以及在數(shù)據(jù)字典中的數(shù)據(jù)庫(kù)關(guān)系模式,可以對(duì)現(xiàn)有的業(yè)務(wù)數(shù)據(jù)庫(kù)中的內(nèi)容有一個(gè)完整而清晰的認(rèn)識(shí);另一方面,統(tǒng)一污染源數(shù)據(jù)庫(kù)的概念模型

37、是面向全局建立的,它為集成來(lái)自各個(gè)面向業(yè)務(wù)的數(shù)據(jù)庫(kù)的數(shù)據(jù)提供了統(tǒng)一的概念視圖。 概念模型的設(shè)計(jì)是在較高的抽象層次上的設(shè)計(jì),因此建立概念模型時(shí)不用考慮具體技術(shù)條件的限制。 1. 界定系統(tǒng)的邊界 統(tǒng)一污染源數(shù)據(jù)庫(kù)是面向決策分析的數(shù)據(jù)庫(kù),我們無(wú)法在統(tǒng)一污染源數(shù)據(jù)庫(kù)設(shè)計(jì)的最初就得到詳細(xì)而明確的需求,但是一些基本的方向性的需求還是擺在了我們的面前: l 要做的決策類型有哪些? l 各個(gè)處室需要的數(shù)據(jù)是什么?l 以后可能會(huì)有怎么樣的業(yè)務(wù)系統(tǒng)接入到本統(tǒng)一污染源數(shù)據(jù)庫(kù)?l 可能需要怎么樣的數(shù)據(jù)接口?l 決策者感興趣的是什么問(wèn)題? l 這些問(wèn)題需要什么樣的信息? l 要得到這些信息需要包含原有數(shù)據(jù)庫(kù)系統(tǒng)的哪些部

38、分的數(shù)據(jù)? 這樣,我們可以劃定一個(gè)當(dāng)前的大致的系統(tǒng)邊界,集中精力進(jìn)行最需要的部分的開(kāi)發(fā)。因而,從某種意義上講,界定系統(tǒng)邊界的工作也可以看作是統(tǒng)一污染源數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)的需求分析.2. 確定主要的主題域 在這一步中,要確定系統(tǒng)所包含的主題域,然后對(duì)每個(gè)主題域的內(nèi)容進(jìn)行較明確的描述,描述的內(nèi)容包括: l 主題域的公共碼鍵; l 主題域之間的聯(lián)系; l 充分代表主題的屬性組。 4.1.1.2 邏輯模型設(shè)計(jì) 在這一步里進(jìn)行的工作主要有: l 分析主題域,確定當(dāng)前要裝載的主題; l 確定粒度層次劃分; l 確定數(shù)據(jù)分割策略; l 關(guān)系模式定義; l 記錄系統(tǒng)定義 邏輯模型設(shè)計(jì)的成果是,對(duì)每個(gè)當(dāng)前要裝載的主

39、題的邏輯實(shí)現(xiàn)進(jìn)行定義,并將相關(guān)內(nèi)容記錄在數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù)中,包括: l 適當(dāng)?shù)牧6葎澐郑?l 合理的數(shù)據(jù)分割策略; l 適當(dāng)?shù)谋韯澐郑?l 定義合適的數(shù)據(jù)來(lái)源等。 1. 分析主題域 在概念模型設(shè)計(jì)中,我們確定了幾個(gè)基本的主題域,但是,統(tǒng)一污染源的設(shè)計(jì)方法是一個(gè)逐步求精的過(guò)程,在進(jìn)行設(shè)計(jì)時(shí),一般是一次一個(gè)主題或一次若干個(gè)主題地逐步完成的。所以,我們必須對(duì)概念模型設(shè)計(jì)步驟中確定的幾個(gè)基本主題域進(jìn)行分析,并選擇首先要實(shí)施的主題域。選擇第一個(gè)主題域所要考慮的是它要足夠大,以便使得該主題域能建設(shè)成為一個(gè)可應(yīng)用的系統(tǒng);它還要足夠小,以便于開(kāi)發(fā)和較快地實(shí)施。如果所選擇的主題域很大并且很復(fù)雜,我們甚至可以針對(duì)

40、它的一個(gè)有意義的子集來(lái)進(jìn)行開(kāi)發(fā)。在每一次的反饋過(guò)程中,都要進(jìn)行主題域的分析。 2. 粒度層次劃分 數(shù)據(jù)倉(cāng)庫(kù)邏輯設(shè)計(jì)中要解決的一個(gè)重要問(wèn)題是決定統(tǒng)一污染源的粒度劃分層次,粒度層次劃分適當(dāng)與否直接影響到統(tǒng)一污染源中的數(shù)據(jù)量和所適合的查詢類型。確定統(tǒng)一污染源的粒度劃分,可以通過(guò)估算數(shù)據(jù)行數(shù)和所需的dasd數(shù),來(lái)確定是采用單一粒度還是多重粒度,以及粒度劃分的層次。 3. 確定數(shù)據(jù)分割策略 在這一步里,要選擇適當(dāng)?shù)臄?shù)據(jù)分割的標(biāo)準(zhǔn),一般要考慮以下幾方面因素:數(shù)據(jù)量(而非記錄行數(shù))、數(shù)據(jù)分析處理的實(shí)際情況、簡(jiǎn)單易行以及粒度劃分策略等。數(shù)據(jù)量的大小是決定是否進(jìn)行數(shù)據(jù)分割和如何分割的主要因素;數(shù)據(jù)分析處理的要求

41、是選擇數(shù)據(jù)分割標(biāo)準(zhǔn)的一個(gè)主要依據(jù),因?yàn)閿?shù)據(jù)分割是跟數(shù)據(jù)分析處理的對(duì)象緊密聯(lián)系的;我們還要考慮到所選擇的數(shù)據(jù)分割標(biāo)準(zhǔn)應(yīng)是自然的、易于實(shí)施的:同時(shí)也要考慮數(shù)據(jù)分割的標(biāo)準(zhǔn)與粒度劃分層次是適應(yīng)的。 4. 關(guān)系模式定義 統(tǒng)一污染源的每個(gè)主題都是由多個(gè)表來(lái)實(shí)現(xiàn)的,這些表之間依靠主題的公共碼鍵聯(lián)系在一起,形成一個(gè)完整的主題。在概念模型設(shè)計(jì)時(shí),我們就確定了統(tǒng)一污染源的基本主題,并對(duì)每個(gè)主題的公共碼鍵、基本內(nèi)容等做了描述在這一步里,我們將要對(duì)選定的當(dāng)前實(shí)施的主題進(jìn)行模式劃分,形成多個(gè)表,并確定各個(gè)表的關(guān)系模式。 4.1.1.3 物理模型設(shè)計(jì) 這一步所做的工作是確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu),確定索引策略,確定數(shù)據(jù)存放位置,

42、確定存儲(chǔ)分配。 確定統(tǒng)一污染源實(shí)現(xiàn)的物理模型,我們必須做到以下幾方面: l 要全面了解所選用的數(shù)據(jù)庫(kù)管理系統(tǒng),特別是存儲(chǔ)結(jié)構(gòu)和存取方法。 l 了解數(shù)據(jù)環(huán)境、數(shù)據(jù)的使用頻度、使用方式、數(shù)據(jù)規(guī)模以及響應(yīng)時(shí)間要求等,這些是對(duì)時(shí)間和空間效率進(jìn)行平衡和優(yōu)化的重要依據(jù)。 l 了解外部存儲(chǔ)設(shè)備的特性,如分塊原則,塊大小的規(guī)定,設(shè)備的io特性等。 1. 確定數(shù)據(jù)的存儲(chǔ)結(jié)構(gòu) 一個(gè)數(shù)據(jù)庫(kù)管理系統(tǒng)往往都提供多種存儲(chǔ)結(jié)構(gòu)供設(shè)計(jì)人員選用,不同的存儲(chǔ)結(jié)構(gòu)有不同的實(shí)現(xiàn)方式,各有各的適用范圍和優(yōu)缺點(diǎn),我們?cè)谶x擇合適的存儲(chǔ)結(jié)構(gòu)時(shí)應(yīng)該權(quán)衡三個(gè)方面的主要因素:存取時(shí)間、存儲(chǔ)空間利用率和維護(hù)代價(jià)。 2. 確定索引策略 統(tǒng)一污染源的數(shù)

43、據(jù)量很大,因而需要對(duì)數(shù)據(jù)的存取路徑進(jìn)行仔細(xì)的設(shè)計(jì)和選擇。由于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)都是不常更新的,因而可以設(shè)計(jì)多種多樣的索引結(jié)構(gòu)來(lái)提高數(shù)據(jù)存取效率。 在數(shù)據(jù)倉(cāng)庫(kù)中,設(shè)計(jì)人員可以考慮對(duì)各個(gè)數(shù)據(jù)存儲(chǔ)建立專用的、復(fù)雜的索引,以獲得最高的存取效率,因?yàn)樵跀?shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是不常更新的,也就是說(shuō)每個(gè)數(shù)據(jù)存儲(chǔ)是穩(wěn)定的,因而雖然建立專用的、復(fù)雜的索引有一定的代價(jià),但一旦建立就幾乎不需維護(hù)索引的代價(jià)。 3. 確定數(shù)據(jù)存放位置 在物理設(shè)計(jì)時(shí),我們常常要按數(shù)據(jù)的重要程度、使用頻率以及對(duì)響應(yīng)時(shí)間的要求進(jìn)行分類,并將不同類的數(shù)據(jù)分別存儲(chǔ)在不同的存儲(chǔ)設(shè)備中。重要程度高、經(jīng)常存取并對(duì)響應(yīng)時(shí)間要求高的數(shù)據(jù)就存放在高速存儲(chǔ)設(shè)備上,如硬

44、盤;存取頻率低或?qū)Υ嫒№憫?yīng)時(shí)間要求低的數(shù)據(jù)則可以放在低速存儲(chǔ)設(shè)備上,如磁盤或磁帶。 數(shù)據(jù)存放位置的確定還要考慮到其它一些方法,如:決定是否進(jìn)行合并表;是否對(duì)一些經(jīng)常性的應(yīng)用建立數(shù)據(jù)序列;對(duì)常用的、不常修改的表或?qū)傩允欠袢哂啻鎯?chǔ)。如果采用了這些技術(shù),就要記入元數(shù)據(jù)。 4. 確定存儲(chǔ)分配 許多數(shù)據(jù)庫(kù)管理系統(tǒng)提供了一些存儲(chǔ)分配的參數(shù)供設(shè)計(jì)者進(jìn)行物理優(yōu)化處理,如:塊的尺寸、緩沖區(qū)的大小和個(gè)數(shù)等等,它們都要在物理設(shè)計(jì)時(shí)確定。這同創(chuàng)建數(shù)據(jù)庫(kù)系統(tǒng)時(shí)的考慮是一樣的。 4.1.1.4 統(tǒng)一污染源數(shù)據(jù)庫(kù)的生成 在這一步里所要做的工作是接口編程,數(shù)據(jù)裝入。 這一步工作的成果是,數(shù)據(jù)已經(jīng)裝入到數(shù)據(jù)倉(cāng)庫(kù)中,可以在其上建

45、立統(tǒng)一污染源的應(yīng)用,即dss應(yīng)用。 1. 設(shè)計(jì)接口 將操作型環(huán)境下的數(shù)據(jù)裝載進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)環(huán)境,需要在兩個(gè)不同環(huán)境的記錄系統(tǒng)之間建立一個(gè)接口。乍一看,建立和設(shè)計(jì)這個(gè)接口,似乎只要編制一個(gè)抽取程序就可以了,事實(shí)上,在這一階段的工作中,的確對(duì)數(shù)據(jù)進(jìn)行了抽取,但抽取并不是全部的工作,這一接口還應(yīng)具有以下的功能: l 從面向應(yīng)用和操作的環(huán)境生成完整的數(shù)據(jù); l 數(shù)據(jù)的基于時(shí)間的轉(zhuǎn)換; l 數(shù)據(jù)的凝聚; l 對(duì)現(xiàn)有記錄系統(tǒng)的有效掃描,以便以后進(jìn)行追加。 當(dāng)然,考慮這些因素的同時(shí),還要考慮到物理設(shè)計(jì)的一些因素和技術(shù)條件限制,根據(jù)這些內(nèi)容,嚴(yán)格地制定規(guī)格說(shuō)明,然后根據(jù)規(guī)格說(shuō)明,進(jìn)行接口編程。從操作型環(huán)境到數(shù)據(jù)

46、倉(cāng)庫(kù)環(huán)境的數(shù)據(jù)接口編程的過(guò)程和一般的編程過(guò)程并無(wú)區(qū)別,它也包括偽碼開(kāi)發(fā)、編碼、編譯、檢錯(cuò)、測(cè)試等步驟。 在接口編程中,要注意: l 保持高效性,這也是一般的編程所要求的; l 要保存完整的文檔記錄; l 要靈活,易于改動(dòng); l 要能完整、準(zhǔn)確地完成從操作型環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)環(huán)境的數(shù)據(jù)抽取、轉(zhuǎn)換與集成。 2. 數(shù)據(jù)裝入 在這一步里所進(jìn)行的就是運(yùn)行接口程序,將數(shù)據(jù)裝入到數(shù)據(jù)倉(cāng)庫(kù)中。主要的工作是: l 確定數(shù)據(jù)裝入的次序; l 清除無(wú)效或錯(cuò)誤數(shù)據(jù); l 數(shù)據(jù)“老化” ; l 數(shù)據(jù)粒度管理; l 數(shù)據(jù)刷新等。最初只使用一部分?jǐn)?shù)據(jù)來(lái)生成第一個(gè)主題域,使得設(shè)計(jì)人員能夠輕易且迅速地對(duì)已做工作進(jìn)行調(diào)整,而且能夠盡

47、早地提交到下一步驟,即數(shù)據(jù)倉(cāng)庫(kù)的使用和維護(hù)。這樣既可以在經(jīng)濟(jì)上最快地得到回報(bào),又能夠通過(guò)最終用戶的使用、盡早發(fā)現(xiàn)一些問(wèn)題并提出新的需求,然后反饋給設(shè)計(jì)人員,設(shè)計(jì)人員繼續(xù)對(duì)系統(tǒng)改進(jìn)、擴(kuò)展。4.1.2 數(shù)據(jù)庫(kù)規(guī)范化設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)的建模方法 邏輯建模是數(shù)據(jù)倉(cāng)庫(kù)實(shí)施中的重要一環(huán),因?yàn)樗苤苯臃从吵鰳I(yè)務(wù)部門的需求,同時(shí)對(duì)系統(tǒng)的物理實(shí)施有著重要的指導(dǎo)作用。目前較常用的兩種建模方法是所謂的第三范式 (3nf,即 third normal form)和星型模式 (star-schema)。什么是第三范式 范式是數(shù)據(jù)庫(kù)邏輯模型設(shè)計(jì)的基本理論,一個(gè)關(guān)系模型可以從第一范式到第五范式進(jìn)行無(wú)損分解,這個(gè)過(guò)程也稱為規(guī)范化

48、(normalize)。在數(shù)據(jù)倉(cāng)庫(kù)的模型設(shè)計(jì)中目前一般采用第三范式,它有非常嚴(yán)格的數(shù)學(xué)定義。如果從其表達(dá)的含義來(lái)看,一個(gè)符合第三范式的關(guān)系必須具有以下三個(gè)條件: 1. 每個(gè)屬性的值唯一,不具有多義性; 2. 每個(gè)非主屬性必須完全依賴于整個(gè)主鍵,而非主鍵的一部分; 3. 每個(gè)非主屬性不能依賴于其他關(guān)系中的屬性,因?yàn)檫@樣的話,這種屬性應(yīng)該歸到其他關(guān)系中去。 可以看到,第三范式的定義基本上是圍繞主鍵與非主屬性之間的關(guān)系而作出的。如果只滿足第一個(gè)條件,則稱為第一范式;如果滿足前面兩個(gè)條件,則稱為第二范式,依此類推。因此,各級(jí)范式是向下兼容的。 什么是星型模式 星型模式是一種多維的數(shù)據(jù)關(guān)系,它由一個(gè)事實(shí)

49、表(fact table)和一組維表(dimens ion table)組成。每個(gè)維表都有一個(gè)維作為主鍵,所有這些維則組合成事實(shí)表的主鍵,換言之,事實(shí)表主鍵的每個(gè)元素都是維表的外鍵。事實(shí)表的非主屬性稱為事實(shí) (fact),它們一般都是數(shù)值或其他可以進(jìn)行計(jì)算的數(shù)據(jù);而維大都是文字、時(shí)間等類型的數(shù)據(jù)。 第三范式和星型模式在統(tǒng)一污染源數(shù)據(jù)庫(kù)中的應(yīng)用 大多數(shù)人在設(shè)計(jì)中央數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型時(shí),都按照第三范式來(lái)設(shè)計(jì);而在進(jìn)行物理實(shí)施時(shí),則由于數(shù)據(jù)庫(kù)引擎的限制,不得不對(duì)邏輯模型進(jìn)行不規(guī)范處理 (de-normalize), 以提高系統(tǒng)的響應(yīng)速度,這當(dāng)然是以增加系統(tǒng)的復(fù)雜度、維護(hù)工作量、磁盤使用比率 (指原始

50、數(shù)據(jù)與磁盤大小的比率)并降低系統(tǒng)執(zhí)行動(dòng)態(tài)查詢能力為代價(jià)的。 根據(jù)數(shù)據(jù)倉(cāng)庫(kù)的測(cè)試標(biāo)準(zhǔn) tpc-d規(guī)范,在數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中,對(duì)數(shù)據(jù)庫(kù)引擎最大的挑戰(zhàn)主要是這樣幾種操作:多表連接、表的累計(jì)、數(shù)據(jù)排序、大量數(shù)據(jù)的掃描。下面列出了一些 dbms在實(shí)際系統(tǒng)中針對(duì)這些困難所采用的折衷處理辦法: 1、 如何避免多表連接:在設(shè)計(jì)模型時(shí)對(duì)表進(jìn)行合并,即所謂的預(yù)連接 (pre-join)。當(dāng)數(shù)據(jù)規(guī)模小時(shí),也可以采用星型模式, 這樣能提高系統(tǒng)速度,但增加了數(shù)據(jù)冗余量。 2、 如何避免表的累計(jì):在模型中增加有關(guān)小計(jì)數(shù)據(jù) (summarized data)的項(xiàng)。這樣也增加了數(shù)據(jù)冗余,而且如果某項(xiàng)問(wèn)題不在預(yù)建的累計(jì)項(xiàng)內(nèi),需臨時(shí)

51、調(diào)整。 3、 如何避免數(shù)據(jù)排序:對(duì)數(shù)據(jù)事先排序。但隨著數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的運(yùn)行,不斷有新的數(shù)據(jù)加入,數(shù)據(jù)庫(kù)管理員的工作將大大增加。大量的時(shí)間將用于對(duì)系統(tǒng)的整理,系統(tǒng)的可用性隨之降低。 4、 如何避免大表掃描:通過(guò)使用大量的索引,可以避免對(duì)大量數(shù)據(jù)進(jìn)行掃描。但這也將增加系統(tǒng)的復(fù)雜程度,降低系統(tǒng)進(jìn)行動(dòng)態(tài)查詢的能力。 這些措施大都屬于不規(guī)范處理。根據(jù)上面的討論,當(dāng)把規(guī)范的系統(tǒng)邏輯模型進(jìn)行物理實(shí)施時(shí),由于數(shù)據(jù)庫(kù)引擎的限制,常常需要進(jìn)行不規(guī)范處理。舉例來(lái)說(shuō),當(dāng)系統(tǒng)數(shù)據(jù)量很小 ,比如只有幾個(gè) gb時(shí),進(jìn)行多表連接之類復(fù)雜查詢的響應(yīng)時(shí)間是可以忍受的。但是設(shè)想一下,如果數(shù)據(jù)量擴(kuò)展到很大,到幾百 gb,甚至上 tb,

52、一個(gè)表中的記錄往往有幾百萬(wàn)、幾千萬(wàn),甚至更多,這時(shí)進(jìn)行多表連接這樣的復(fù)雜查詢,響應(yīng)時(shí)間長(zhǎng)得不可忍受。這時(shí)就有必要把幾個(gè)表合并,盡量減少表的連接操作。當(dāng)然,不規(guī)范處理的程度取決于數(shù)據(jù)庫(kù)引擎的并行處理能力。不規(guī)范處理的階段 現(xiàn)在來(lái)討論一下,當(dāng)不得不選擇不規(guī)范處理時(shí),應(yīng)在哪個(gè)階段進(jìn)行。由于中央數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型反映了整個(gè)企業(yè)的業(yè)務(wù)運(yùn)行規(guī)律,在這里進(jìn)行不規(guī)范處理容易影響整個(gè)系統(tǒng),不利于今后的擴(kuò)展。 而且不規(guī)范處理產(chǎn)生的數(shù)據(jù)冗余將使整個(gè)系統(tǒng)的數(shù)據(jù)量迅速增加,這將增加 dba的工作量和系統(tǒng)投資。因此,當(dāng)系統(tǒng)性能下降而進(jìn)行不規(guī)范處理時(shí),比較好的辦法是選擇問(wèn)題較集中的部門數(shù)據(jù)集市實(shí)施這種措施。這樣既能有效地改

53、善系統(tǒng)性能,又不至于影響整個(gè)系統(tǒng)。在國(guó)外一些成功的大型企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)案例中,基本上都是采用這種方法。 那么,在中央數(shù)據(jù)倉(cāng)庫(kù)中是否可以采用星型模式來(lái)進(jìn)行模型設(shè)計(jì)呢?我們知道,星型模式中有一個(gè)事實(shí)表和一組維表,我們可以把事實(shí)看成是各個(gè)維交叉點(diǎn)上的值。例如,一個(gè)汽車廠在研究其銷售情況時(shí)可以考察汽車的型號(hào)、顏色、代理商等多種因素,這些因素就是維,而銷售量就是事實(shí)。這種多維模型能迅速給出基于各個(gè)維的報(bào)表,這些維必須事先確定。 星型模式之所以速度快,在于針對(duì)各個(gè)維作了大量的預(yù)處理,如按照維進(jìn)行預(yù)先的統(tǒng)計(jì)、分類、排序等。在上面的例子中,就是按照汽車的型號(hào)、顏色、代理商進(jìn)行預(yù)先的銷售量統(tǒng)計(jì)。因此,在星型模式設(shè)

54、計(jì)的數(shù)據(jù)倉(cāng)庫(kù)中,作報(bào)表的速度雖然很快,但由于存在大量的預(yù)處理,其建模過(guò)程相對(duì)來(lái)說(shuō)就比較慢。當(dāng)業(yè)務(wù)問(wèn)題發(fā)生變化,原來(lái)的維不能滿足要求時(shí),需要增加新的維。由于事實(shí)表的主鍵由所有維表的主鍵組成,這種維的變動(dòng)將是非常復(fù)雜、非常耗時(shí)的。星型模式另一個(gè)顯著的缺點(diǎn)是數(shù)據(jù)的冗余量很大。綜合這些討論,不難得出結(jié)論,星型模式比較適合于預(yù)先定義好的問(wèn)題,如需要產(chǎn)生大量報(bào)表的場(chǎng)合;而不適合于動(dòng)態(tài)查詢多、系統(tǒng)可擴(kuò)展能力要求高或者數(shù)據(jù)量很大的場(chǎng)合。因此,星型模式在一些要求大量報(bào)表的部門數(shù)據(jù)集市中有較多的應(yīng)用。 上面討論了數(shù)據(jù)倉(cāng)庫(kù)模型設(shè)計(jì)中常用的兩種方法。在數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用環(huán)境中,主要有兩種負(fù)載:一種是回答重復(fù)性的問(wèn)題;另一

55、種是回答交互性的問(wèn)題。動(dòng)態(tài)查詢具有較明顯的交互性特征,即在一個(gè)問(wèn)題答案的基礎(chǔ)上進(jìn)行進(jìn)一步的探索,這種交互過(guò)程常稱為數(shù)據(jù)挖掘 (data mining)或者知識(shí)探索 (knowledge discovery)。對(duì)于以第一種負(fù)載為主的部門數(shù)據(jù)集市,當(dāng)數(shù)據(jù)量不大、報(bào)表較固定時(shí)可以采用星型模式;對(duì)于中央數(shù)據(jù)倉(cāng)庫(kù),考慮到系統(tǒng)的可擴(kuò)展能力、投資成本和易于管理等多種因素,最好采用第三范式。根據(jù)我們對(duì)環(huán)保局的業(yè)務(wù)的分析,我們知道,在統(tǒng)一污染源數(shù)據(jù)庫(kù)中,大量的查詢是基于固定的,重復(fù)性質(zhì)的查詢和報(bào)表工作,同樣的,也會(huì)具有少量的即席查詢,所以,我們對(duì)統(tǒng)一污染源的建模方面,將以第三范式為主,同時(shí),在可以預(yù)見(jiàn)的查詢和分

56、析主題上,采取適當(dāng)?shù)臄?shù)據(jù)冗余。使用星型模式,增加系統(tǒng)的處理能力和反映能力。4.1.3 粒度設(shè)計(jì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)分為四個(gè)級(jí)別:早期細(xì)節(jié)級(jí)、當(dāng)前細(xì)節(jié)級(jí)、輕度綜合級(jí)、高度綜合級(jí)。源數(shù)據(jù)經(jīng)過(guò)綜合后,首先進(jìn)入當(dāng)前細(xì)節(jié)級(jí),并根據(jù)具體需要進(jìn)行進(jìn)一步的綜合,從而進(jìn)入輕度綜合級(jí)乃至高度綜合級(jí),老化的數(shù)據(jù)將進(jìn)入早期細(xì)節(jié)級(jí)由此可見(jiàn),數(shù)據(jù)倉(cāng)庫(kù)中存在著不同的綜合級(jí)別,一般稱之為粒度。粒度越大,表示細(xì)節(jié)程度越低,綜合程度越高.粒度是數(shù)據(jù)倉(cāng)庫(kù)的重要概念。粒度是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)的綜合程度高低的一個(gè)度量,它既影響數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)量的多少,也影響數(shù)據(jù)倉(cāng)庫(kù)所能回答詢問(wèn)的種類。在數(shù)據(jù)倉(cāng)庫(kù)中,多維粒度是必不可少的。由于數(shù)據(jù)倉(cāng)庫(kù)的主要作用是dss分析,因而絕大多數(shù)查詢都基于一定程度的綜合數(shù)據(jù)之上的,只有極少數(shù)查詢涉及到細(xì)節(jié)。所以應(yīng)該將大粒度數(shù)據(jù)存儲(chǔ)于快速設(shè)備如磁盤上,小粒度數(shù)據(jù)存于低速設(shè)備如磁帶上。 在統(tǒng)一污染源的分析中,我們發(fā)現(xiàn),統(tǒng)一污染源既要保存當(dāng)前業(yè)務(wù)系統(tǒng)的細(xì)節(jié),也要保存深度處理后的數(shù)據(jù),所以,我們決定,在統(tǒng)一污染源的粒度設(shè)計(jì)中,我們采取兩重標(biāo)準(zhǔn),在

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論