數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立和實(shí)現(xiàn)_第1頁
數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立和實(shí)現(xiàn)_第2頁
數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立和實(shí)現(xiàn)_第3頁
數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立和實(shí)現(xiàn)_第4頁
數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的建立和實(shí)現(xiàn)_第5頁
免費(fèi)預(yù)覽已結(jié)束,剩余1頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、 摘 要 本文提出了數(shù)據(jù)質(zhì)量評(píng)價(jià)模型、質(zhì)量校驗(yàn)與評(píng)價(jià)方法,論述了“數(shù)據(jù)質(zhì)量分析評(píng)價(jià)系統(tǒng)”的程序?qū)崿F(xiàn)流程、總體結(jié)構(gòu)及功能,介紹了系統(tǒng)的關(guān)鍵技術(shù)及進(jìn)一步的研究關(guān)鍵詞質(zhì) 量 模 型 質(zhì) 量 檢 驗(yàn) 質(zhì) 量 評(píng) 價(jià), 出來的也的問題。為解決數(shù)據(jù)質(zhì)量問題,各種管理手段、技術(shù)手段和新的數(shù)據(jù)評(píng)價(jià)體系不斷被應(yīng)用在數(shù)據(jù)的采集和加工過程中據(jù)質(zhì)量評(píng)價(jià)模型的提出背景數(shù)據(jù)作為一種資源,是支撐信息化建設(shè)和應(yīng)用的主體,根據(jù)“進(jìn)去的是垃圾 是垃圾”這條原理 ,為了支持正確決策 ,就要求我們所管理的數(shù)據(jù)可靠 ,沒有錯(cuò)誤 , 能夠準(zhǔn)確 地反映采油廠的實(shí)際情況。勝利采油廠數(shù)據(jù)中心存放了 5 千萬條的數(shù)據(jù),還在以每天 2萬條的速度加

2、載,如何使這些海量數(shù)據(jù)在生產(chǎn)管理、科學(xué)研究、企業(yè)決策中發(fā)揮應(yīng)有作用,使 用戶能用、敢用、愿用,使數(shù)據(jù)真正為企業(yè)服務(wù),這是幾乎所有信息化企業(yè)亟需迫切解決采油廠的數(shù)據(jù)資源具有: 橫跨專業(yè)多,數(shù)據(jù)采集密度大、頻度高,數(shù)據(jù)處理流程復(fù)雜等 特點(diǎn),為了保證數(shù)據(jù)的可用性,數(shù)據(jù)管理人員在客戶端、服務(wù)器端均設(shè)置了數(shù)據(jù)質(zhì)量審核 規(guī)則,但是依然不可避免存在比例較高的數(shù)據(jù)質(zhì)量問題,典型的有記錄不全、數(shù)據(jù)遺漏、 數(shù)據(jù)錯(cuò)誤、多義字段、矛盾值、違背業(yè)務(wù)規(guī)則、無法關(guān)聯(lián)等。產(chǎn)生數(shù)據(jù)問題的根本原因可1. 沒有從數(shù)據(jù)資源的戰(zhàn)略高度對(duì)數(shù)據(jù)質(zhì)量進(jìn)行統(tǒng)一完整的定義,導(dǎo)致數(shù)據(jù)的分析評(píng)估2. 數(shù)據(jù)質(zhì)量還停留在定性評(píng)價(jià) , 不能實(shí)現(xiàn)精確的量化

3、評(píng)價(jià),只是在業(yè)務(wù)需要某個(gè)數(shù)據(jù)時(shí), 導(dǎo)致數(shù)據(jù)才到庫里去手動(dòng)統(tǒng)計(jì) , 無法動(dòng)態(tài)記錄某個(gè)單位、某個(gè)月的真實(shí)數(shù)據(jù)質(zhì)量發(fā)生情況 質(zhì)量考核缺乏可信的數(shù)據(jù)依據(jù),大大影響考核力度;3. 沒有一個(gè)能同時(shí)面對(duì)用戶、專業(yè)部門、數(shù)據(jù)管理人員的可視化的數(shù)據(jù)質(zhì)量監(jiān)控評(píng)價(jià) 平臺(tái), 三方無法共享一個(gè)平臺(tái) , 共同實(shí)行數(shù)據(jù)管控一體化 ,導(dǎo)致業(yè)務(wù)規(guī)則的變更滯后 , 問題數(shù), 導(dǎo)致實(shí)際生產(chǎn)中應(yīng)4. 也許有了 N 個(gè)業(yè)務(wù)模型 , 但是沒有把它放到時(shí)間軸上去控制流程該發(fā)生的活動(dòng)的部分生產(chǎn)數(shù)據(jù)遺漏, 提高數(shù)雖然影響采油廠數(shù)據(jù)質(zhì)量的原因是多方面的,但主要的原因還是集中在管理、制度和 數(shù)據(jù)采集加工規(guī)范化方面。對(duì)于如何通過管理、制度、標(biāo)準(zhǔn)和流

4、程來控制數(shù)據(jù)質(zhì)量 據(jù)可信度 , 我們提出建立采油廠統(tǒng)一的數(shù)據(jù)質(zhì)量分析評(píng)價(jià)模型,使用管理手段和技術(shù)手段相結(jié)合的辦法 , 建立一套完善的數(shù)據(jù)定義、控制、評(píng)估流程,依托科學(xué)嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)監(jiān)督和質(zhì)量控制體持續(xù)地改進(jìn)數(shù)據(jù)質(zhì)量。數(shù)據(jù)質(zhì)量分析評(píng)價(jià)模型構(gòu)成構(gòu)成數(shù)據(jù)質(zhì)量分析評(píng)估模型的要素分別為: 基礎(chǔ)模型、數(shù)據(jù)質(zhì)量輔助模型、數(shù)據(jù)質(zhì)量定義模型、數(shù)據(jù)質(zhì)量控制模型、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型。,上1. 基礎(chǔ)模型。基礎(chǔ)模型部分是整個(gè)模型框架的支撐核心部分,其他質(zhì)量模型的定義和 控制必須以基礎(chǔ)模型中的計(jì)劃和標(biāo)準(zhǔn)為依據(jù)?;A(chǔ)模型主要是映射、定義數(shù)據(jù)采集標(biāo)準(zhǔn) 載分單位的采集計(jì)劃 , 同時(shí)納入了約束規(guī)則定義規(guī)范、控制規(guī)則定義規(guī)范、模板定義規(guī)

5、范。數(shù)據(jù)標(biāo)準(zhǔn):分兩部分 ,一部分是直接映射應(yīng)用中的標(biāo)準(zhǔn),例如源數(shù)據(jù)庫標(biāo)準(zhǔn) ;另一部分是針對(duì)新增應(yīng)用庫和項(xiàng)目庫標(biāo)準(zhǔn)的定義規(guī)范 , 包括代碼定義標(biāo)準(zhǔn)、數(shù)據(jù)項(xiàng)定義標(biāo)準(zhǔn) ( 例如是取 英文還是漢語拼音, 取幾個(gè)字符)、值域定義標(biāo)準(zhǔn)等等新增表準(zhǔn)的建立規(guī)范;采集計(jì)劃:采集單位的每月上載的日度、月度、年度的采集計(jì)劃;約 束 規(guī) 則 定 義 規(guī) 范 : 主 要 描 述 質(zhì)量 定 義 模 型 中 的 語 法 構(gòu) 成 ;控制規(guī)則定義規(guī)范 : 針對(duì)服務(wù)器負(fù)載和采集表的及時(shí)性要求建立的后臺(tái)執(zhí)行過程的控制2. 數(shù)據(jù)質(zhì)量定義模型。數(shù)據(jù)質(zhì)量定義模型的建立實(shí)現(xiàn)了以基礎(chǔ)模型為前提對(duì)數(shù)據(jù)質(zhì)量的統(tǒng)一規(guī)范的定義 , 是數(shù)據(jù)質(zhì)量分析評(píng)

6、價(jià)的依據(jù)和基礎(chǔ)。數(shù)據(jù)質(zhì)量定義模型可以使用質(zhì)量特性描述。數(shù)據(jù)質(zhì)量特性歸納為數(shù)據(jù)的一致性、數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時(shí)(1) 數(shù)據(jù)的一致性。數(shù)據(jù)一致性 , 包括源系統(tǒng)之間同一數(shù)據(jù)是否一致, 源數(shù)據(jù)與抽取的數(shù)據(jù)是否一致,數(shù)據(jù)中心內(nèi)部各處理環(huán)節(jié)數(shù)據(jù)是否一致等。例如:單井基礎(chǔ)信息、油井日數(shù)據(jù)中的單元代碼應(yīng)該和本年度的單元代碼表保持一致;05 應(yīng)用庫中抽取的數(shù)據(jù)項(xiàng)要與源頭庫保致 性的量 化評(píng) 價(jià)指標(biāo) : 字段一 致率、表間字段一致率、表間記錄一致率。(2) 數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)準(zhǔn)確性 , 包括數(shù)據(jù)源是否準(zhǔn)確、數(shù)據(jù)值域是否符合業(yè)務(wù)規(guī)則和客觀事實(shí)、編碼映射關(guān)系是否準(zhǔn)確、處理邏輯是否準(zhǔn)確等。例如: 作業(yè)

7、日記的數(shù)據(jù)應(yīng)該來源于作業(yè)隊(duì)而不是采油隊(duì) ; 一天的生產(chǎn)時(shí)間最大不可能超過24小時(shí);水井干線壓力要介于 0準(zhǔn)確性的量化評(píng)價(jià)指標(biāo):準(zhǔn)確率、差錯(cuò)率、問題字段個(gè)數(shù)、問題記錄覆蓋率(3) 數(shù)據(jù)的及時(shí)性。數(shù)據(jù)及時(shí)性,包括數(shù)據(jù)處理 (獲取、整理、加載等 ) 的及時(shí)性,數(shù)據(jù) 異常檢測(cè)的及時(shí)性,數(shù)據(jù)處理更新的及時(shí)性等 , 例如: 一口井油轉(zhuǎn)水了 , 采集單位沒有及時(shí)更改數(shù)據(jù) ,不僅會(huì)影響隊(duì)到礦 , 礦到廠的產(chǎn)量,更會(huì)影響廠到局的產(chǎn)量和油水井?dāng)?shù), 而且取自于 該源數(shù)據(jù)的所有應(yīng)用系統(tǒng)今天的診斷決策都會(huì)發(fā)生偏差。數(shù)據(jù)滯后的更新將嚴(yán)重影響生產(chǎn)及時(shí) 性 的 量化 評(píng) 價(jià) 指 標(biāo) : 采集 項(xiàng) 目 及時(shí) 率 ; 單 位 入

8、庫 及 時(shí) 率(4) 數(shù)據(jù)的完整性。數(shù)據(jù)的完整性,包括數(shù)據(jù)源是否完整、數(shù)據(jù)取值是否完整、實(shí)體類, 這里邊存在多個(gè)數(shù)型、屬性特征、維度取值是否完整等。例如 : 要完成井筒的計(jì)算機(jī)屏幕再現(xiàn) ,它所包含的數(shù)據(jù)包括鉆井?dāng)?shù)據(jù)、固井?dāng)?shù)據(jù)、套管數(shù)據(jù)、井徑測(cè)井?dāng)?shù)據(jù)、井斜數(shù)據(jù)等等據(jù)源情況 , 如果數(shù)據(jù)源不完整 , 或者套管數(shù)據(jù)中缺失數(shù)據(jù)項(xiàng)下深或者壁厚 , 井筒就不可能完整完整性的量化評(píng)價(jià)指標(biāo):字段缺失數(shù)、缺失記錄覆蓋率、計(jì)劃完成率。3. 數(shù)據(jù)質(zhì)量控制模型。數(shù)據(jù)質(zhì)量控制模型以數(shù)據(jù)質(zhì)量定義模型為基礎(chǔ),按照定義的檢 查范圍和時(shí)間以自動(dòng)或手工方式完成對(duì)數(shù)據(jù)質(zhì)量的檢查工作。在質(zhì)量控制過程中違反了數(shù) 據(jù)質(zhì)量定義的,視為數(shù)據(jù)

9、質(zhì)量問題,數(shù)據(jù)質(zhì)量問題直接通過數(shù)據(jù)質(zhì)量的關(guān)鍵特性和指標(biāo)反映出來。數(shù)據(jù)質(zhì)量控制模型的控制內(nèi)容表現(xiàn)在 : 對(duì)數(shù)據(jù)檢查對(duì)象、數(shù)據(jù)檢查頻度、數(shù)據(jù)檢查、數(shù)據(jù)檢查方式等方面進(jìn)行控制(1)數(shù)據(jù)檢查對(duì)象: 是指根據(jù)采集計(jì)劃設(shè)定需要檢查的用戶、專業(yè)數(shù)據(jù)表、數(shù)據(jù)庫實(shí)(2)數(shù)據(jù)檢查頻度; 是指根據(jù)數(shù)據(jù)表的采集計(jì)劃和實(shí)際發(fā)生的頻度,設(shè)定存儲(chǔ)過程的檢(3)數(shù)據(jù)檢查時(shí)間: 是指根據(jù)每日生產(chǎn)應(yīng)用的密集時(shí)間以及數(shù)據(jù)發(fā)生到采集入庫的密集綜合設(shè)定檢查開始執(zhí)行的時(shí)刻。2 小時(shí)(4) 數(shù)據(jù)檢查方式 : 是指執(zhí)行檢查過程的方式可以由后臺(tái)過程自動(dòng)控制,每間隔自動(dòng)檢查一次 ; 也可以由人工干預(yù)手動(dòng)檢查,任意時(shí)刻都可以執(zhí)行檢查(當(dāng)然盡量選擇

10、數(shù)據(jù)據(jù)質(zhì)評(píng)價(jià)數(shù)據(jù)質(zhì)量評(píng)價(jià)模型,是以數(shù)據(jù)質(zhì)量定義模型為依據(jù),由數(shù)據(jù)質(zhì)量控制模型操控執(zhí)行,根據(jù)反饋的質(zhì)量檢查結(jié)果表,評(píng)議出數(shù)據(jù)質(zhì)量的關(guān)鍵指標(biāo),實(shí)現(xiàn)對(duì)數(shù)據(jù)質(zhì)量的量化診斷和數(shù)據(jù)質(zhì)量分析評(píng)價(jià)模型功能核心是 , 通過對(duì)基礎(chǔ)模型中的采集計(jì)劃和質(zhì)量定義模型中的約束規(guī)則的處理 , 由控制模型調(diào)用可以實(shí)現(xiàn)檢查分析的后臺(tái)存儲(chǔ)過程在實(shí)體庫中執(zhí)行檢查, 生成反映采集計(jì)劃完成情況和, 展現(xiàn)所評(píng)估實(shí)體庫的數(shù)形成查詢結(jié)果,再由分析程序進(jìn)行分析、計(jì)算、分類、匯總 數(shù)據(jù)質(zhì)量量化指標(biāo)的結(jié)果 , 存儲(chǔ)到分析結(jié)果表中 , 從前臺(tái)調(diào)用這個(gè)分析結(jié)果表 , 就可以生成一 份詳盡的反映數(shù)據(jù)質(zhì)量問題各類量化指標(biāo)的數(shù)據(jù)質(zhì)量分析評(píng)估報(bào)告 據(jù)入庫的及時(shí)率、數(shù)據(jù)上報(bào)的完整性、數(shù)據(jù)采集的一致性、數(shù)據(jù)入庫的準(zhǔn)確率。數(shù)據(jù)質(zhì)量輔助管理三、數(shù)據(jù)質(zhì)量評(píng)價(jià)模型的在數(shù)據(jù)質(zhì)量評(píng)價(jià)系統(tǒng)中的數(shù)據(jù)質(zhì)量輔助管理包括報(bào)告模版管理、權(quán)限管理、數(shù)據(jù)庫資源占用情況等等。數(shù)據(jù)庫采用三層框架結(jié)構(gòu),數(shù)據(jù)層用于存儲(chǔ)各種質(zhì)量標(biāo)準(zhǔn)數(shù)據(jù)、檢查與評(píng)價(jià)過程數(shù)據(jù)及結(jié)果數(shù)據(jù),邏輯層用于質(zhì)量檢查的各種邏輯處理,表現(xiàn)層是通過用戶界面將檢驗(yàn)與評(píng)價(jià)結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論