數(shù)據(jù)中心質(zhì)量保證方案_第1頁
數(shù)據(jù)中心質(zhì)量保證方案_第2頁
數(shù)據(jù)中心質(zhì)量保證方案_第3頁
數(shù)據(jù)中心質(zhì)量保證方案_第4頁
數(shù)據(jù)中心質(zhì)量保證方案_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、數(shù)據(jù)中心質(zhì)量保證方案廣東第二師范學院第一章引言高校數(shù)據(jù)中心作為校情決策分析的數(shù)據(jù)來源,為保證數(shù)據(jù)中心的質(zhì)量,通常需要進行數(shù)據(jù)處理.主要包括以下幾個重要的步驟、數(shù)據(jù)審查、數(shù)據(jù)清9oo>3s.,pO%表,o洗、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗證四大步驟Q該步驟檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求,字段值的內(nèi)容是否與調(diào)查要求一致,是否全面;還包括利用描述性統(tǒng)計分析廠檢查各個字段的字段類型、字段值的最大值、最小值、平均數(shù)”中位數(shù)等,記錄個數(shù)、缺失值或空值個數(shù)等電(二)數(shù)據(jù)清洗該步驟針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當?shù)姆椒ㄟM療"清洗使“臟”數(shù)據(jù)變?yōu)椤案蓲?q

2、uot;數(shù)據(jù),有利于后續(xù)的統(tǒng)計分析得出可靠的結(jié)論,當然,數(shù)據(jù)清理還包括對重復記錄進行刪除。(三)數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)分析強調(diào)分析對象的可比性艮但不同字段值由于計量單位等不同,。往往造成數(shù)據(jù)不可比:對一些統(tǒng)計指標逃行綜合評浙疇如果統(tǒng)計指標的性質(zhì)、訐量單位不同,也容易引起評價結(jié)果出現(xiàn)較大誤差,再加上分析過程中的其他一些要求,需要在分析前對數(shù)據(jù)進行變換,包括無量綱化處理、線性變換、匯總和聚集、適度概化、規(guī)范化以及屬性構(gòu)造等(四)數(shù)據(jù)驗證該步驟的tr的是初步評估和判斷數(shù)據(jù)是否滿足統(tǒng)計分析的需要,決定是否需翦增四翻夢數(shù)耦量加利用荷單的讖微將翦依及血弟爵,堂老鈍折線圖等圖形進行探索性分析,利用相關分析、一致性檢驗

3、等方法對數(shù)據(jù)的準確性進行驗證,確保不把錯:誤和偏差的數(shù)據(jù)帶盤到數(shù)據(jù)分析中去i第二章數(shù)據(jù)質(zhì)量的基本要素首先,如何評估數(shù)據(jù)的質(zhì)量,或者說怎么樣的數(shù)據(jù)才是符合要求的數(shù)據(jù)?可以從4個方面去考慮,這4個方面共同構(gòu)成了數(shù)據(jù)質(zhì)量的4個基本要素。完整性2. 1完整性數(shù)據(jù)的記錄和藉息是否完整,是否存在缺失的情況.I數(shù)據(jù)的缺失主要有記錄的缺失和記錄中某個字段信息的缺失兩者都會造成統(tǒng)計結(jié)果的不準確$所以完整性是數(shù)據(jù)質(zhì)量最基礎的保障,而對完整性®Pe,p.«<«oRa«k.I*"e0«o»。a*>3P.的評估相對比較容易©:,

4、n2.2一致性數(shù)據(jù)的記錄是否符合規(guī)范,是否與前后及其他數(shù)據(jù)集合保持統(tǒng)一疝數(shù)據(jù)的一致性主要包括數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)邏輯的一致性數(shù)據(jù)記錄的規(guī)范主要是數(shù)據(jù)編碼和格式的問題,比如教工號是7位的數(shù)字、學號是11位的數(shù)字,性別碼包括2個類目,了地址一定是用*分隔的4個0-255的數(shù)字組成,及一些定義的數(shù)據(jù)約束,比如完整性的非空約束、唯一值約束等;:數(shù)據(jù)邏輯性主要是指標統(tǒng)計和計算的一致性,比如PVAUY,新用戶比例在0-1之間等Q數(shù)據(jù)的一也懂審核是鬣據(jù)流量審核中比續(xù)量要也是比較箕雜的一塊92.3準確性數(shù)據(jù)中記錄的信息和數(shù)據(jù)是否準確,是否存在異?;蛘咤e誤的信息證導致一致性問題的原因可能是數(shù)據(jù)記錄的規(guī)則不一,但

5、不一定存在錯誤;而準確性關注的是數(shù)據(jù)記錄中存在的錯誤,比如字符型數(shù)據(jù)的亂碼現(xiàn)象也應該歸到港確性的考核范崎另外就是異常的數(shù)值,異輯大或潛異常小的數(shù)值,不符合有效性要求的數(shù)值,如學生數(shù)一定是整數(shù)*年齡一般在L100之間?轉(zhuǎn)化率一生是介于0到1的值等.對數(shù)據(jù)準確性的審核有時會遇到困難,因為對于沒有明顯異常的錯誤值我們很難發(fā)現(xiàn).2.4及時性>A.'R°:1.u,.p丁“數(shù)據(jù)中心的數(shù)據(jù)及時性主要反映在數(shù)據(jù)交換和數(shù)據(jù)分析的時效性上。數(shù)據(jù)交換中部分業(yè)務數(shù)據(jù)的時效性要求極高,如人員崗位的變動及時到費產(chǎn)的賬單及時到財其他及時性要求不高的數(shù)據(jù)交換也有時效的要求:如1小時。、天、三天等.雖然

6、說數(shù)據(jù)分析的實時性要求并不是太高,但井木意味著就沒有要求, 數(shù)據(jù)分析可以接受當天的數(shù)據(jù)要第二天才能分析查看,但如果數(shù)據(jù)要延時兩 Q ' F7®/7-,、下”s L2 Pn ° 1. O -4 R 1三天才能電來.或者每周的報告要兩周后才能出來耍那么分析的靖稔可能已經(jīng)失去曦忸同時,窠些蜃時分析松筋醺蟹常到小時或者務鐘裝的數(shù)據(jù),這些需求對數(shù)據(jù)的時效性要求極高。所以及時性也是數(shù)據(jù)質(zhì)量的組成要'.,%"°。、素之第三章數(shù)據(jù)審查基于數(shù)據(jù)質(zhì)量的4個要素,可以對數(shù)據(jù)進行審查,以評估數(shù)據(jù)是否滿足完整性、一致性力準確性和及時性這4方面的要求,其中數(shù)據(jù)的及時

7、性主要跟數(shù)據(jù)的同步和處理過程的效率相關,更簍的是通過監(jiān)控ODI任務的方式來保證數(shù)據(jù)的及時性,所以這里的數(shù)據(jù)擇南主要指的是評估數(shù)據(jù)的完整性、一致性和準確性軌審查數(shù)據(jù)的完整性.首先是記錄的完整性,一般使用統(tǒng)計的記錄數(shù)和唯* rL一 pV-WV3.1完整性審查一停上數(shù)。比如圖書管的每天借閱量是相對恒定曲,大就在looG班上下被郎加果某天的借閱量下陣到了口清I加本,那糧有句能記錄域失了;或者甫粘敏哲問記系應談在一天的乞力喇靖分布,曲果某罹點莞圣凌有用戶訪問記錄,那么很有可能網(wǎng)站在當時出了問題或者那個時刻的日志記錄傳輸事現(xiàn)了問題;再如統(tǒng)il教師、學生的籍貫分布時,一般會包括全國的320產(chǎn)A,7,.八?。?/p>

8、P.7.'個省份直轄市,如果統(tǒng)計的省份唯一值個數(shù)少于32,那么很有可能數(shù)據(jù)也存在缺失a完整性的另一方.0,«o.a,0J0”."h0;».,記錄中某個字段的數(shù)據(jù)缺失i可以使用統(tǒng)計信息中的里指(NULL)的個數(shù)進行審榔如果算布字段的信總理論上必篇存在?比:如教師的,所屬單位、學生的班.級等,那么這些率段的空值個數(shù)的統(tǒng)計就應該是0,這些字段我們可以使用非空(NOTNULL)約束來保證數(shù)據(jù)的完整性:對于某些允許空的字段,比如教職工的職稱信息不一定存在;但比值的占比基本值定a'比如取稱為空的教師比例通常在10%-205二.我砧同樣可以夠用球計的空值個數(shù)來訐

9、算空值占比.如果空值的占比明顯增大;很有可能這個字段的記錄出現(xiàn)了問題人信息出現(xiàn)缺失。3.2一致性審查如果數(shù)據(jù)記錄格式有標準的編碼規(guī)則*那么對數(shù)據(jù)記錄的一致性檢驗比較簡單,只要驗證所有的記錄是否滿足這個編碼規(guī)則就可以,最簡單的就是使用字段的長度-唯一值個數(shù)這些統(tǒng)計量。比如對教職工的工號是7位數(shù)字,那么字段的最長和最短字符數(shù)都應該是7如果字段必須保證唯一,那么字段的唯一值個數(shù)跟記錄數(shù)應該是一致的,比如用戶的身份證號一手機<?再如地域的省份直轄市一定是統(tǒng)一編碼的;,記錄的T定是“上海&而不是“上海市卻,此浙江叫而不是“浙江省”,可以把這些唯一值映射到有效的32個省市的列表,如果無法映射

10、,:那么字段通不過一致性檢驗。一致性中邏輯規(guī)則的驗證相對比較復雜,很多時候指標的統(tǒng)計邏輯的一致性需要底層數(shù)據(jù)質(zhì)量的保證,同時也要有非常規(guī)范和標準的統(tǒng)計邏輯的定義,所有指標的計算規(guī)則必須保證1致。我們經(jīng)常犯的錯誤就是匯總數(shù)據(jù)和細分數(shù)據(jù)加起來的結(jié)果對不上,導致這個問題很有可能的原因就是數(shù)據(jù)在細分的時候把那鹿無法明碓歸到某個細分項的數(shù)據(jù)給排除了一比如在細分學生=A畢業(yè)去向,如果我們無法將某些非直接進入的來源明確地歸到升學、就業(yè)、出國等這些既定的來源分類,但也不應該直接過濾掉這些數(shù)據(jù)*而應該給一個,未知來源”的分類,以保證根據(jù)來源細分之后的數(shù)據(jù)加起來還是可以與總體的數(shù)據(jù)保持一致。如果需要審核這些數(shù)據(jù)邏

11、輯的一致性,我們可以建立.一些“有效性規(guī)則",比如A"B,如果C=B/A,那么C的值應該在0,0的范圍內(nèi)等,數(shù)據(jù)無法滿足這些規(guī)則就無法通過一致性檢驗口*"91%o«、,Ja”3. 3準確性審查;數(shù)據(jù)的準確性可能存在于個別記錄I也可能存在于整個數(shù)據(jù)集,.如果整韜螭翼的窠力浮段的燃據(jù)存簿祺,比如常見的數(shù)量級的記錄轆謔,*種錯編很容易黑班利雨銃計襤耕的平蜘明和中位力也可熏發(fā)現(xiàn)這類同感A當數(shù)據(jù)集中存在個別的舁常值時;同蟆使用最大黨最小值的統(tǒng)計量去審施或者使用箱線圖也可以讓異常記錄一目了然.還有幾個準確性的審核問題,字符亂碼的問題或者字符被截斷的問題,可以使用金市

12、來發(fā)現(xiàn)這類問題一面的數(shù)據(jù)記錄基本符合正態(tài)分布或者類正態(tài)分布,那么那些占比異常小的數(shù)據(jù)項很可能存在問題;比如某個字符記錄占叁代的占出兵著Q,I*而其他的占由源在3%以E那么修看雨能送不爭符記錄有異常對于數(shù)值范圍既定的數(shù)據(jù),也可以有效性的限制大超過數(shù)據(jù)有效的值域定義數(shù)據(jù)記錄就是錯誤的如果數(shù)據(jù)并沒有顯著異常,但仍然可能記錄的值是錯誤的,只是這些值與正常的值比較接近而己,這類準確性檢驗最困難.一般只能與其他來源或者統(tǒng)計結(jié)果進行比對來發(fā)現(xiàn)此類問題,第4章數(shù)據(jù)清洗業(yè)務數(shù)據(jù)源所提供的數(shù)據(jù)內(nèi)容不可能完美,存在著“臟數(shù)據(jù)I即數(shù)據(jù)有空缺、噪音等缺陷£而且在數(shù)據(jù)中心的各數(shù)據(jù)之間,其內(nèi)容也存在著不一袤版配為

13、于融猿造aa煽薩對*霸加底標第臬的彭扁程原略隨采取各種有效的措施對其進行處理,這一過程稱為“數(shù)據(jù)清洗用4.1數(shù)據(jù)抽取完成之后的數(shù)據(jù)集所存在的問題4. 1.1不完整的數(shù)據(jù)這一類數(shù)據(jù)主要是一些應該有的信息缺失,如教職工的所屬單位“性別、編制類別;.主表與明細表不能匹配等a4 .L2錯誤的數(shù)據(jù)這一類錯誤通常產(chǎn)生的原因有兩個:一、業(yè)務系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直榛寫入后咨敷癡睡或甑比如除值簸熊鑫僖盛孚軍常字符串數(shù)據(jù)后面有一個回車操作、日期格式不正確、日期越界等7數(shù)據(jù)抽取的過程中產(chǎn)生的錯誤數(shù)據(jù).5 61.3重復的數(shù)據(jù)附序這一羹藕一一特別是維表般出現(xiàn)這種嫡T盞箕數(shù)據(jù)話錄的所有字段導出來,讓客戶

14、確認并整理?!芭K數(shù)據(jù)好會對建立的數(shù)據(jù)中心造成不良影響,.扭曲從數(shù)據(jù)中獲得的信息,直接影響數(shù)據(jù)中心的運行效果,進二步影響數(shù)據(jù)挖掘及分析)最終影響決策管理.因此,為了使數(shù)據(jù)中心的記錄更準確J一致,.消除重復和異常記錄就變得很重要,所以數(shù)據(jù)清洗工作是相當必要的.數(shù)據(jù)清洗作為數(shù)據(jù)處理的一個重要環(huán)節(jié)1在數(shù)據(jù)中心構(gòu)建過程中占據(jù)重要位置©對于任何數(shù)據(jù)中心而言,數(shù)據(jù)清洗過程都是必不可少的a4. 2數(shù)據(jù)清洗的步驟4. 2.1定義和確定錯誤的類型4. 2.1.1數(shù)據(jù)審查數(shù)據(jù)審查是數(shù)據(jù)清洗的前提與基礎,通過詳盡的數(shù)據(jù)審查來檢測豢據(jù)中的錯誤或不一致情況一除了手動檢查數(shù)據(jù)或者數(shù)據(jù)樣本之外,還可以使用一些分析工

15、具或程序來獲得關于數(shù)據(jù)屬性的元數(shù)據(jù).從而發(fā)現(xiàn)數(shù)據(jù)集中存在的問題數(shù)裾可5. 2.1.2定義清洗轉(zhuǎn)換規(guī)則,根據(jù)上一發(fā)進行蝴分析得到的結(jié)果來定義清洗轉(zhuǎn)換規(guī)則與工作流;根據(jù)數(shù)據(jù)源的個數(shù)一數(shù)據(jù)源中不一致數(shù)據(jù)和無臟數(shù)據(jù)”多少的程度,需要執(zhí)行大量.*.嚴F0.<"-0cabo,©.(>.*o.-。.,。二,的數(shù)據(jù)轉(zhuǎn)換和清洗步驟華6. 2.2搜尋并識別異常的數(shù)據(jù)422.1檢測數(shù)據(jù)異常檢測數(shù)據(jù)集中的數(shù)據(jù)異常,需要花費大量的人力、物力和時間,而且這個本身很容易出錯,盡量利用一些振法自動檢測數(shù)據(jù)集中白.【據(jù)療常,方法主察益塞壬繇搟做J聚美聲檄韌視則的方法,生2.2.2檢測重復記錄的算

16、法消除重復記錄可以針對兩個數(shù)據(jù)集或者一個合并后的數(shù)據(jù)集,首先需要檢測出標識同一個現(xiàn)實實體的重復記錄a即匹配過程峰檢測重復記錄的算法主要有:基本的字段匹配算法,遞歸的字段匹配算法.Cosine相似度函數(shù).7. 2.3糾正所發(fā)現(xiàn)的錯誤近1*6在數(shù)據(jù)源執(zhí)行預先定義好的并且已經(jīng)得到驗證的清洗轉(zhuǎn)換規(guī)則和工作流,當直接在源數(shù)據(jù)上進行清洗時,需要備份源數(shù)據(jù)?以防需要撤銷上一次或ro*T戶><aitfV"4又to>»幾次的清洗操作。清洗時根據(jù)“臟數(shù)據(jù)”存在形式的不同,執(zhí)行一系列的轉(zhuǎn)換步驟來解決數(shù)據(jù)質(zhì)M問題二為處理單數(shù)據(jù)源問題并且為其與其他數(shù)據(jù)源的合并做好準備,一般在各個數(shù)

17、據(jù)源上或該分別進行幾種類型的轉(zhuǎn)換,主要包括:生以乳工從自由格式的屬性字段中抽取值(屬性分離)自由格式的屬性一般包含著很多的信息,而這些信息有時候需要細化成多個屬也.歡而您一費支盤局面重復記錄的清洗可4.23.2確認和改正這一步驟處理輸入和拼寫錯誤,并盡可能地使其自動化.基于字典查詢的拼寫檢查對于發(fā)現(xiàn)拼寫錯誤是很有用的。4.Z3.3標準化為了使記錄實例匹配和合并變得更方便九應該把屬性值轉(zhuǎn)換成一個一致和統(tǒng)一的格式。4.2.4干凈數(shù)據(jù)回流當數(shù)據(jù)被清洗后,干凈的數(shù)據(jù)應該替換原來的“臟數(shù)據(jù)”工這樣可以提高系統(tǒng)的數(shù)據(jù)質(zhì)量,還可避免將來再次抽取數(shù)據(jù)后進行重復的清洗工作,4.3數(shù)據(jù)清洗的評價標準4.3.1數(shù)據(jù)

18、的可信性可信性包括精確性、完整性、一致性有效性唯一性等指標。完整性:(3)一致性:有效性,唯一性;描述數(shù)據(jù)是否存在缺失記錄或缺失字段.描述同一實體的同一屬性的值在不同的系統(tǒng)是否一致。描趣據(jù)是否與其對成的客觀重體的特征相Mb描述數(shù)據(jù)是否滿足用戶定義的條件或在一定的域值范闈內(nèi).描述數(shù)據(jù)是否存在重復記錄.。.f«彳<>,kO«4.3.2數(shù)據(jù)的可用性數(shù)據(jù)的可用性考察指標主要包括時間性和穩(wěn)定性學時間性:描述數(shù)據(jù)是當前數(shù)據(jù)還是歷史數(shù)據(jù).穩(wěn)定性才描郵據(jù)是清是確定的p是否輻宥效期內(nèi)。4.4常見的數(shù)據(jù)清洗算法4.4.1,空缺值的清洗A對于空缺值的清洗可以采取忽略元組,人工填寫空缺值,使用一個全局變量填充空缺值.使用屬性的平均值、中間值、最大值、最小值或更為復雜的概率統(tǒng)計函數(shù)值來填充空缺值。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論