商業(yè)智能平臺:EL中的數(shù)據(jù)質(zhì)量控制_第1頁
商業(yè)智能平臺:EL中的數(shù)據(jù)質(zhì)量控制_第2頁
商業(yè)智能平臺:EL中的數(shù)據(jù)質(zhì)量控制_第3頁
商業(yè)智能平臺:EL中的數(shù)據(jù)質(zhì)量控制_第4頁
商業(yè)智能平臺:EL中的數(shù)據(jù)質(zhì)量控制_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1商業(yè)智能平臺研究:ETL中的數(shù)據(jù)質(zhì)量控制來源:本站原創(chuàng)

|

作者:cognoschina網(wǎng)編

|

分類:數(shù)據(jù)轉(zhuǎn)換

|

2021-4-1915:30正文評論(0)數(shù)據(jù)質(zhì)量一直是ETL工具的一個高級特性,為了解釋清楚這個問題,讓我們看看oracle的商業(yè)ETL工具OracleWarehouseBuilder在數(shù)據(jù)質(zhì)量上是如何管理的。ETL難以成功有以下幾個難點:1.數(shù)據(jù)倉庫的數(shù)據(jù)來自于多個數(shù)據(jù)源,所以數(shù)據(jù)的一致性很難得到保證,很多情況下需要一種硬性的標準來決定數(shù)據(jù)的取舍問題.

2.數(shù)據(jù)格式問題,例如數(shù)據(jù)缺失,超出數(shù)據(jù)范圍,無效數(shù)據(jù)格式等等。

3.出現(xiàn)錯誤之后沒有正確的處理問題,導致數(shù)據(jù)的質(zhì)量不斷的下降。

4.數(shù)據(jù)一致性問題,處于數(shù)據(jù)庫性能考慮,有時候可能會有意的去掉一些外間或者檢查約束。

5.業(yè)務邏輯問題.由于數(shù)據(jù)庫在最初設計時就不夠嚴格和謹慎。我們怎么判斷數(shù)據(jù)的質(zhì)量好壞的呢,一般用戶拿原有系統(tǒng)的顯示方式查看某一查詢條件的數(shù)據(jù)與用商業(yè)智能報表所產(chǎn)生出來的數(shù)據(jù)進行比照,看有多大的出入,這個可能需要原先系統(tǒng)有足夠的能力顯示這些數(shù)據(jù)并且商業(yè)智能工具的報表有足夠強大的查詢和報表展示能力,或者是用商業(yè)智能的報表與OLAP運行出來的報表進行比照,看有多大的出入,出入一般都是會存在的,因為數(shù)據(jù)不可能完全的準確,但是一定要搞清楚哪里數(shù)據(jù)出現(xiàn)了問題,并且盡量不要讓這些誤差擴大到用戶無法接受的地步,否那么就認為BI失敗了?!舱ν且粋€工具做出來的,數(shù)據(jù)的出入就這么大呢?〕oraclewarehousebuilder提供三個特性來使ETL的過程簡單轉(zhuǎn)1.勵G透ra意ph子ic晚al險D發(fā)at御a侄Pr誰of赴il畫er矮彎可以找查看究數(shù)據(jù)高的結刊構,葵語義竄,內(nèi)享容,狗異常銅,和焰大綱日,數(shù)捕據(jù)規(guī)甩那么雪于,敲錯這就擦是在扣前一酷篇說您的,睬ke勢tt略le亞的數(shù)嫩據(jù)管健理沒堵有豎or監(jiān)ac攏le救w縮ar論eh適ou芝se里b諸ui眾ld千er余蝴強大鐘的特拋性鴿.k溫et復tl章e皇也提謝供查役看表婚結構牛,童co距l(xiāng)u眼mn詢的結置構,象但是槽它不登會判宴斷一非個婦co烏lu婚mn炊是不唇是主玻鍵或泉外鍵期,一團個字渠符串優(yōu)的最深小長姐度是挨多少渠,最速大長搬度是醬多少豎,一棗個整懲數(shù)的景長度乖是多柄少,轉(zhuǎn)一個植do膜ub胸le叉的精程度是聚多少全。急2.姥C紀or撐re密ct捏io站n寧Wi紐za瓦rd瞎榆把數(shù)凳據(jù)規(guī)旁那么應忽用到茄你的洽ET補L森過程踢中,桑自動勝映射話并更錄正,向清理拘,轉(zhuǎn)應化數(shù)致?lián)?,瞞兇相領先于冊or歉ac飛le禁w突ar核eh衣ou壘se擾b穿ui葵ld岡er約悅提供比一些右默認刊的值傷來幫葵助你汪更快帥的創(chuàng)籌建映罰射規(guī)宰那么,佩這個句功能輩也比芒ke紡tt棵le米強大毀。啟3.炒D醋at改a矩Au塵di訂to虧r惠獲取郵數(shù)據(jù)袋規(guī)那么躁并監(jiān)那控數(shù)墓據(jù)轉(zhuǎn)蠻換的食過程初。季ke瓣tt淚le互也提顫供數(shù)酬據(jù)監(jiān)攻控的扮機制振,并距把題lo緞g癢記入吉下來師,并厲告訴平你重孝復的豈記錄崗數(shù),羞讀寫位多少駕條記樣錄,匯更新迷拒絕惠多少辰條記碑錄,慚時間棵,速艷度,裝步驟殲是否鍬成功廈等信退息羞.忠or勢ac淘le軟w觸ar紹eh交ou丙se灑b弊ui王ld煩er次提供卡查看特選中邀表的敘結構賭信息拳和數(shù)趴據(jù)信起息波

趕數(shù)據(jù)遠歸檔極編輯店器有黨很多肝面板理。這逼些面尼板顯橡示已陳歸檔晃的對牌象和招歸檔基的結蹤果。袋為了愉方便巧解釋軋,可盛以將提整個俱面板涂分成據(jù)6技個部賴分,采分別竿是左陶上角魯?shù)拿娴浒濉残接袃杀蹅€飼ta狂b)息叫做愛1押號面居板,碗左邊慢中間筍的聚pr狂op劍er刻ty材面板座,叫芒做爛2搜號面款板,受左下認角的躺mo罵ni塘to無r遭面板萍,叫誤做腳3脖號面感板,挽右上讓角的攻Pr綁of攔il兄e吵Re特su曾lt柳s彈Ca減nv饑as獨崖面板過〔有柔10膀個抖ta鬧b)黃,叫竭4且號面弄板,醋右邊監(jiān)中間略的跳Da膊ta釘G幸ri桶d斬Pa之na椅l赤,炸叫雄5蠶號面軟板,疑右下歪角的盛Da研ta身R模ul且e珠Pa源na絮l播,暖叫刷6東號面罩板。悅1請?zhí)柮鏄屣@階示已泳歸檔詳?shù)谋砭?、視積圖、轎物化匙視圖蛇〔絕or鄙ac為le佳1負0g正新加桂的特襪性〕靜、外咽部表暢、維輝度和來事實絮等對啟象以傾及已傍經(jīng)創(chuàng)忙建的知任何釘更正貍模塊搞的詳趟細信沾息。栗2副號面樸板顯罷示與燭數(shù)據(jù)稠歸檔陽關聯(lián)送的屬哲性的援列表費。使蠟用該良屬性布列表虜,您什可以觸優(yōu)化待數(shù)據(jù)途歸檔盞的參貼數(shù);母啟用摘或禁舅用某誘些數(shù)位據(jù)歸燙檔組培件并植啟用脂選定鎮(zhèn)表的貫數(shù)據(jù)拌規(guī)那么禁歸檔腿。戰(zhàn)3悄號面最板是做監(jiān)視虎器面召板。徐該面能板顯穿示已雞提交學的所漢有歸動檔作蒜業(yè)的界進度抄。數(shù)完據(jù)歸靠檔需隱要時腔間,財所以旦可以悟在后弱臺完吐成的渾作業(yè)蹄,同句時執(zhí)回行其涼他都Or稻ac拆le雜W京ar診eh妙ou航se垂B熟ui殘ld丑er孝任務培;當擋作業(yè)置完成英時,看Or酸ac位le熄W蟻ar喜eh狐ou很se想B瞎ui包ld廁er偷目會發(fā)們出通痕知,騎ke攀tt勤le繳在執(zhí)繭行監(jiān)頃控上劑提供蝦的信芹息比封or煉ac壩le隆w嫩ar秧eh擱ou卸se秀b為ui湯ld稠er炒多一撈些,傍包括努速度息和時獸間械,棵還可搏以看鎖到你復啟動掩多少傅線程傷組和層線程壩,線物程進逗行到語那一寫步都吃顯示或的出乏來。勾4渾號面奧板提代供最杯多的油信息麥,所剖以分鑄成了邪10區(qū)格揭ta廊b,量包含將大量禽歸檔奴結果初匯總?cè)奶簍a甘b直。皂5緣號面這板顯裹示數(shù)愉據(jù)的瞇統(tǒng)計斧信息騾,某殿一個激co鑒lu炕mn應出現(xiàn)瓶的值季,出抱現(xiàn)的棗次數(shù)浮,占蘭的百顫分比訂,有聰了這謎個功需能,造如果霸出現(xiàn)遣了錯妹誤的燈數(shù)據(jù)蒸,將是可以冒更容處易的余看到扁和清扮除。犧6浮號面肯板顯疾示數(shù)陽據(jù)規(guī)癥那么。腿忍介其中堅4暴號面拜板有恩10夢個瞧ta濾b,絮其中脫有幾盡個血ta螺b臥非常虜有用體。舅(稠看上逆面的歷圖〕輝Da虜ta加T避yp諒e疤ta襯b令詳細男說明合表中告每列甲的列乓名,辟數(shù)據(jù)命格式身,主體要的您數(shù)據(jù)忽類型輕,主視要的堆數(shù)據(jù)暮類型抓所占搶的百恰分比芳,數(shù)筑據(jù)的尋長度促,最漲大值右和最召小值獸,主廳要的受長度少,主喝要的奔長度螺所占挺的百始分比補,類塔型的抽精度溜。其四中所嫩謂的骨主要藥長度寸類型燒在雞Da變te筍那一奧列為鹿40同%棍,可義見有勝些值蒙為空閥,它穿不光竭列出都最小澡值和呆最大緞值,碌而且偶還有你主要稈值的聾長度蒙和它岡所占侵百分浙比,凱統(tǒng)計才方面險功能章比擬陪強大敏,這化種初破步的益數(shù)據(jù)印統(tǒng)計瞧不知照道算吧不算宿接近玉于梨OL控AP陳分析砍,功喊能上誠比授ke謹tt效le球強大任些旬.垮Un殖iq耍ue停K沒ey嚷t揮ab繼顯示萬檢測狀到唯傷一鍵針或主待鍵的宜所有郵列。懷該選屑項卡肯還顯碼示唯政一值父的數(shù)賺量多赴得足只以建席議刪抹除或肉更正郊非唯氧一行論時可略以定才義唯密一鍵脫的列偉。你江可以語看到腰圖中絞有漢Si求x霧Si略gm夜a務列。嗚這是鉤一個焦1瓦橋到寺7虧揭之間憲的數(shù)徐字,致它指默明久“敵每千瑞個的閃缺陷掉〞說數(shù)量梨,即陵對象伶中未律能通蹦過唯更一約冷束的盟行。歷Pr舌of鞋il疑e江Ob組je窗ct俘t塊ab蓋演相當我于搶ke壞tt續(xù)le賞中的腔s棵ql霉己編輯透器朵袖,顯高示所器有的魄數(shù)據(jù)災并加越上查硬詢條數(shù)件。溝Do安ma殊in忽t遵ab散密為歸蘆檔對陜象的朝每列嶄顯示施建議岔的域區(qū),以嗽及數(shù)勾據(jù)與餅該域次的一裳致程天度。滲域就滴是列宅的一還組允穩(wěn)許的肝值,工Or異ac浙le圖W胃ar棵eh幅ou泊se澤B飄ui歌ld評er卡膝認為禮出現(xiàn)檢兩次獻或以騰上值辮的列披就叫賽域。冒從圖丟上看米到,劃PA娘CK尿_c局ou劑nt襲,尖P獄RO培D_反ID剪,獻P舞RO泛D_屑NA盛ME編扶都是追唯一卡性比麗較高浮的列擺,所坑以沒拘有蟲do疼ma英in惕,敵這個環(huán)面板淹同樣引也有挽S海ix嗎S哪ig涉ma倒慕值。階創(chuàng)立將數(shù)據(jù)保轉(zhuǎn)化辮規(guī)那么蘇在它納給出挪的例油子中疊,螞MA篇NU妖F_纏co婆un愧tR榜Y嗽的國克家列秒包含擱No畢t珍Kn倚ow出n延,惱Ca痛na打da妻,手US慕A癥,給UK興和龜Me常xi寧co碗,乖它想噸把所將有的民En濕gl鬼an挺d扮轉(zhuǎn)化緣為譽UK件,象秤在丙Pr毫od冤uc棄t俊表中帥,把稿所有扛RE曬OR架DE德R_庭YN斷為燃’法N’差婚的記浙錄刪蠢掉,羞并使活MA張RK卻ET赴_S錄EG慢ME梳NT右冷表的夾所有乳值為匹’感E蔥co數(shù)no斤my叼’撞蜻或雀’悼e卷xe剝cu盼ti蝶ve測’摟.染當你斬完成右了數(shù)郊據(jù)規(guī)扇那么的分建立級后,吳在實亂際轉(zhuǎn)嫁換的純過程庭中,值有可演能出過現(xiàn)你貫沒有娘考慮亂到的療情況差,賴or興ac撕le夾w密ar添eh燕ou底se辭b蘋ui丑ld紙er東提出用了三金種操損作乒,甩Ig訓or乎e杜這個僑不用搞解釋崗吧。蜘Re農(nóng)po涼rt卡在一回個新土建的勇ER貴R$趙$$拾表中假記錄詢下這攝條記篩錄。躍數(shù)據(jù)狹繼續(xù)課轉(zhuǎn)化勁。

仔Cl嬌ea懸ns珍e獨應用頓轉(zhuǎn)化腦規(guī)那么男來清慮理數(shù)展據(jù)淹.派如果南沒有衛(wèi)什么紡特殊奧的原幟因,艇一般躬最好父不要撲使用祝第一短種策姿略,輔你即先不知歸道有戰(zhàn)沒有晌數(shù)據(jù)潛處錯饑了,資也不礦知道捉有多遙少數(shù)字據(jù)出斑錯了悶,這糠樣很尿容易籌讓你鉤的數(shù)撇據(jù)誤四差越族來越擺大,結第二萍種梨Re爬po佛rt菌策略檢能讓纏我們鉤知道晝那些惠數(shù)據(jù)殊出錯珠了,漏并記猴錄下錦來,貨當我謙們需厭要找搖到數(shù)周據(jù)誤尸差原患因的廳時候陰,或頌者我貿(mào)們需擔要更瞞正這嬌些數(shù)匆據(jù)誤轎差的邊時候返有依瓜據(jù)。譽當然齒如果邀我們等真正村的清倆楚數(shù)減據(jù)轉(zhuǎn)索換規(guī)鴨那么的赤話,僵第三截種策侵略是倒最好割的,斤把這千種誤捷差消攝失在吉ET浩L桌的過打程之昌中業(yè).遣其中撕對于需應用合了數(shù)預據(jù)轉(zhuǎn)割化規(guī)肅那么的嶺列,況or折ac先le泄w秘ar圍eh董ou識se唇b斗ui班l(xiāng)d蔑er寬又提斃供四善種策辛略來鞋使數(shù)姜據(jù)達躁到我催們想瘦要的父程度幼:柳1.晌R祥em優(yōu)ov畝e移,把臣我們悟認為燕滿足功特定藏數(shù)據(jù)溫條件伏的數(shù)千據(jù)刪挪除,場例子備中就徒是要椒把根RE童OR陡DE蓮R_艘YN亮=勾Y供的數(shù)根據(jù)刪呀掉。

抖2.機S度im鼻il月ar時it厲y癥Ma歌tc質(zhì)h鹽把不敏在我能們規(guī)敬定的國域內(nèi)柿的數(shù)堡據(jù)自遇動更足改為墻最接苦近的猜值,表這個嫁值是凝or盆ac裙le蓋遇用特盡定算他法算輛出來佩的,料我不疏清楚刺到底災是怎鏡么樣鋪的規(guī)梅那么。水不過得我猜腎是不務是按科照字鋒典的丑順序居來排瞇序,環(huán)誰接郵近就面轉(zhuǎn)化沒成誰倦,比妹如有甘ap省pl稍et塞,b搏oo漆k,議or呼an腸ge貴,打如果姜要轉(zhuǎn)痕化羽bo予ok攪的話未,就低把染bo澆ok彈轉(zhuǎn)化景為逼ap袋pl矮et詠,葵因為登b乓開頭牽的單載詞比越o溪開頭舍的單氏詞離單的近撲一些仆,中撲文的蘇話可撈能不螞會支豈持吧舅。當拒然,菜這只誕是我纖猜的院.是具體銀是怎日么樣訂只有聞問那銳些高母手了鄙。炒3.答S格ou念nd半ex替M險at牲ch科o娛ra肌cl熱e拾有一暫個函洋數(shù)叫縱做儲SO僵UN沙DE退X悲,佩柏它是萬應用罰以下炒規(guī)那么壯,保嚷留首逼字母奶,把比所有抗的元乎音桐a燥,趨e買,北i蓋,虜o斤,野u冶襯和鍋w售,摔y繳吉刪掉曲。把堤剩下疏的字碌符串顧按如腿下數(shù)飼字相桂加

確威b褲,糾f致,陽p散,v他=雕1

詞昂c,揉g燙,棟j,哥k毯,舌q,光s推,堤x,片z掌=趟2

圍良d,殊t戴=微3

掃奸l狐=譜4

款孟m,寬n諸=退5

食池r昏=烏6勾如果薪兩個熔或兩肢個以金上有圣相同自的數(shù)秀字接浩近原價來的勵值〔堆在第宏一步奇之前千〕,筋或者歌接近短除去僵h霜和斑w慣屯的值票龜,租同忽略海掉除凈第一繁個字巡母以銜外的根數(shù)字康.像返回圾4蘿個字仆節(jié)。末格式青大概揭如下辦:

脫se醒le醒ct鏟n腫am悠e,車S剖OU捧ND爭EX馳(n赤am傍ec賽ol甩)翁FR姑OM掙t線es瘦t;

規(guī)se金le匠ct壇*府F繡RO玉M毛te相st慮w繳he兆re歡S檔OU菊ND芒EX幸(n戚am丑ec恐ol哥)移=稈SO事UN腐DE壁X(怖’S橡MI華TH吸’)疼;

月以上咳例子顛摘自部ht該tp饑:/層/w波ww指.p初so傾ug暢.o欠rg哀/r劃ef如er杜en觸ce兵/s散tr正in科g_聚fu障nc鎮(zhèn).h喂tm束l獨,如銹果你鞏對算固法有浸疑問筒可以兼自己信去看驅(qū)看。擱4.腦C捏us芽to割m雖使用國自定描義的聾轉(zhuǎn)化辦規(guī)那么緒來清愁理數(shù)桿據(jù),屯大多缸數(shù)時師候都杯是使反用這峽種方慎式。括例子客中的圣把跨MA鞏NU利F_些co椒un初tR鏡Y蜜的飯En赴gl握an捏d依轉(zhuǎn)化縣為菌UK懂就是哈這種胳情況只。透在你言進行錘數(shù)據(jù)蝕轉(zhuǎn)化盈之后穿,你舉對數(shù)鼠據(jù)的市質(zhì)量國滿意鍬了,籍你可腳以設離置胞Da搖ta勸A位ud場it綠or所來監(jiān)稿控以桑后傳拋入的篇數(shù)據(jù)盯的質(zhì)亭量

搏Da掠ta念A杏ud吵it皺or屬使用睡定義捧的數(shù)幣據(jù)規(guī)煎那么,臭生成叫關于城數(shù)據(jù)租的一炒致程生度的繩統(tǒng)計如報告腦,然蜘后將畫其存戒儲在泉錯誤遷記錄搜表中武。還寬可以戀對慚Da洋ta靠A熟ud既it危or筋進行萬編程艷,指拌定茫Da湖ta譜A亂ud

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論