下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)清洗1.基本概念數(shù)據(jù)清洗從名字上也看的出就是把"臟"的"洗掉",指發(fā)現(xiàn)并糾正數(shù)據(jù)文獻(xiàn)中可識(shí)別的錯(cuò)誤的最后一道程序,涉及檢查數(shù)據(jù)一致性,解決無(wú)效值和缺失值等。由于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面對(duì)某一主題的數(shù)據(jù)的集合,這些數(shù)據(jù)從多個(gè)業(yè)務(wù)系統(tǒng)中抽取而來(lái)并且包含歷史數(shù)據(jù),這樣就避免不了有的數(shù)據(jù)是錯(cuò)誤數(shù)據(jù)、有的數(shù)據(jù)互相之間有沖突,這些錯(cuò)誤的或有沖突的數(shù)據(jù)顯然是我們不想要的,稱(chēng)為"臟數(shù)據(jù)"。我們要按照一定的規(guī)則把"臟數(shù)據(jù)""洗掉",這就是數(shù)據(jù)清洗。而數(shù)據(jù)清洗的任務(wù)是過(guò)濾那些不符合規(guī)定的數(shù)據(jù),將過(guò)濾的成果交給業(yè)務(wù)主管部門(mén),確認(rèn)與否過(guò)濾掉還是由業(yè)務(wù)單位修正之后再進(jìn)行抽取。不符合規(guī)定的數(shù)據(jù)重要是有不完整的數(shù)據(jù)、錯(cuò)誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)三大類(lèi)。數(shù)據(jù)清洗是與問(wèn)卷審核不同,錄入后的數(shù)據(jù)清理普通是由計(jì)算機(jī)而不是人工完畢。折疊殘缺數(shù)據(jù)這一類(lèi)數(shù)據(jù)重要是某些應(yīng)當(dāng)有的信息缺失,如供應(yīng)商的名稱(chēng)、分公司的名稱(chēng)、客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細(xì)表不能匹配等。對(duì)于這一類(lèi)數(shù)據(jù)過(guò)濾出來(lái),按缺失的內(nèi)容分別寫(xiě)入不同Excel文獻(xiàn)向客戶提交,規(guī)定在規(guī)定的時(shí)間內(nèi)補(bǔ)全。補(bǔ)全后才寫(xiě)入數(shù)據(jù)倉(cāng)庫(kù)。折疊錯(cuò)誤數(shù)據(jù)這一類(lèi)錯(cuò)誤產(chǎn)生的因素是業(yè)務(wù)系統(tǒng)不夠健全,在接受輸入后沒(méi)有進(jìn)行判斷直接寫(xiě)入后臺(tái)數(shù)據(jù)庫(kù)造成的,例如數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串?dāng)?shù)據(jù)背面有一種回車(chē)操作、日期格式不對(duì)的、日期越界等。這一類(lèi)數(shù)據(jù)也要分類(lèi),對(duì)于類(lèi)似于全角字符、數(shù)據(jù)前后有不可見(jiàn)字符的問(wèn)題,只能通過(guò)寫(xiě)SQL語(yǔ)句的方式找出來(lái),然后規(guī)定客戶在業(yè)務(wù)系統(tǒng)修正之后抽取。日期格式不對(duì)的的或者是日期越界的這一類(lèi)錯(cuò)誤會(huì)造成ETL運(yùn)行失敗,這一類(lèi)錯(cuò)誤需要去業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)用SQL的方式挑出來(lái),交給業(yè)務(wù)主管部門(mén)規(guī)定限期修正,修正之后再抽取。折疊重復(fù)數(shù)據(jù)對(duì)于這一類(lèi)數(shù)據(jù)--特別是維表中會(huì)出現(xiàn)這種狀況--將重復(fù)數(shù)據(jù)統(tǒng)計(jì)的全部字段導(dǎo)出來(lái),讓客戶確認(rèn)并整頓。數(shù)據(jù)清洗是一種重復(fù)的過(guò)程,不可能在幾天內(nèi)完畢,只有不停的發(fā)現(xiàn)問(wèn)題,解決問(wèn)題。對(duì)于與否過(guò)濾,與否修正普通規(guī)定客戶確認(rèn),對(duì)于過(guò)濾掉的數(shù)據(jù),寫(xiě)入Excel文獻(xiàn)或者將過(guò)濾數(shù)據(jù)寫(xiě)入數(shù)據(jù)表,在ETL開(kāi)發(fā)的早期能夠每天向業(yè)務(wù)單位發(fā)送過(guò)濾數(shù)據(jù)的郵件,促使他們盡快地修正錯(cuò)誤,同時(shí)也能夠做為將來(lái)驗(yàn)證數(shù)據(jù)的根據(jù)。數(shù)據(jù)清洗需要注意的是不要將有用的數(shù)據(jù)過(guò)濾掉,對(duì)于每個(gè)過(guò)濾規(guī)則認(rèn)真進(jìn)行驗(yàn)證,并要顧客確認(rèn)。數(shù)據(jù)分析是指用適宜的統(tǒng)計(jì)分析辦法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以具體研究和概括總結(jié)的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數(shù)據(jù)分析可協(xié)助人們作出判斷,方便采用適宜行動(dòng)。類(lèi)型在統(tǒng)計(jì)學(xué)領(lǐng)域,有人將數(shù)據(jù)分析劃分為描述性統(tǒng)計(jì)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析;其中,探索性數(shù)據(jù)分析側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特性,而驗(yàn)證性數(shù)據(jù)分析則側(cè)重于已有假設(shè)的證明或證偽。探索性數(shù)據(jù)分析是指為了形成值得假設(shè)的檢查而對(duì)數(shù)據(jù)進(jìn)行分析的一種辦法,是對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)假設(shè)檢查手段的補(bǔ)充。該辦法由美國(guó)出名統(tǒng)計(jì)學(xué)家約翰·圖基(JohnTukey)命名。定性數(shù)據(jù)分析又稱(chēng)為"定性資料分析"、"定性研究"或者"質(zhì)性研究資料分析",是指對(duì)諸如詞語(yǔ)、照片、觀察成果之類(lèi)的非數(shù)值型數(shù)據(jù)(或者說(shuō)資料)的分析。數(shù)據(jù)挖掘(英語(yǔ):Datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(英語(yǔ):Knowledge-DiscoveryinDatabases,簡(jiǎn)稱(chēng):KDD)中的一種環(huán)節(jié)。數(shù)據(jù)挖掘普通是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性(屬于Associationrulelearning)的信息的過(guò)程。數(shù)據(jù)挖掘普通與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析解決、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多辦法來(lái)實(shí)現(xiàn)上述目的。折疊數(shù)據(jù)挖掘的基本環(huán)節(jié)數(shù)據(jù)挖掘的環(huán)節(jié)會(huì)隨不同領(lǐng)域的應(yīng)用而有所變化,每一種數(shù)據(jù)挖掘技術(shù)也會(huì)有各自的特性和使用環(huán)節(jié),針對(duì)不同問(wèn)題和需求所制訂的數(shù)據(jù)挖掘過(guò)程也會(huì)存在差別。另外,數(shù)據(jù)的完整程度、專(zhuān)業(yè)人員支持的程度等都會(huì)對(duì)建立數(shù)據(jù)挖掘過(guò)程有所影響。這些因素造成了數(shù)據(jù)挖掘在各不同領(lǐng)域中的運(yùn)用、規(guī)劃,以及流程的差別性,即使同一產(chǎn)業(yè),也會(huì)由于分析技術(shù)和專(zhuān)業(yè)知識(shí)的涉入程度不同而不同,因此對(duì)于數(shù)據(jù)挖掘過(guò)程的系統(tǒng)化、原則化就顯得格外重要。如此一來(lái),不僅能夠較容易地跨領(lǐng)域應(yīng)用,也能夠結(jié)合不同的專(zhuān)業(yè)知識(shí),發(fā)揮數(shù)據(jù)挖掘的真正精神。數(shù)據(jù)挖掘完整的環(huán)節(jié)以下:①理解數(shù)據(jù)和數(shù)據(jù)的來(lái)源(understanding)。②獲取有關(guān)知識(shí)與技術(shù)(acquisition)。③整合與檢查數(shù)據(jù)(integrationandchecking)。④去除錯(cuò)誤或不一致的數(shù)據(jù)(datacleaning)。⑤建立模型和假設(shè)(modelandhypothesisdevelopment)。⑥實(shí)際數(shù)據(jù)挖掘工作(datamining)。⑦測(cè)試和驗(yàn)證挖掘成果(testingandverification)。⑧解釋和應(yīng)用(interpretationanduse)。由上述環(huán)節(jié)可看出,數(shù)據(jù)挖掘牽涉了大量的準(zhǔn)備工作與
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度LED燈具安裝與節(jié)能效果評(píng)估合同3篇
- 2024糧食購(gòu)銷(xiāo)代理合作合同版B版
- 2024薪資保密制度與員工隱私保護(hù)專(zhuān)項(xiàng)合同3篇
- 2025年度現(xiàn)代農(nóng)業(yè)土地承包種植技術(shù)引進(jìn)合同3篇
- 2025年度智能大門(mén)研發(fā)與購(gòu)銷(xiāo)合同4篇
- 2025年度數(shù)據(jù)中心能源優(yōu)化承包經(jīng)營(yíng)協(xié)議4篇
- 2024水泵安裝項(xiàng)目施工合作合同版B版
- 2025年度五星級(jí)酒店廚師服務(wù)合同細(xì)則4篇
- 2024跨越國(guó)界的藝術(shù)品買(mǎi)賣(mài)合同
- 2025年度水利工程承攬工程施工合同4篇
- 銳途管理人員測(cè)評(píng)試題目的
- 焊接材料-DIN-8555-標(biāo)準(zhǔn)
- 工程索賠真實(shí)案例范本
- 重癥醫(yī)學(xué)科運(yùn)用PDCA循環(huán)降低ICU失禁性皮炎發(fā)生率品管圈QCC持續(xù)質(zhì)量改進(jìn)成果匯報(bào)
- 個(gè)人股權(quán)證明書(shū)
- 醫(yī)院運(yùn)送工作介紹
- 重癥患者的容量管理
- 學(xué)習(xí)游戲?qū)χ行W(xué)生學(xué)業(yè)成績(jī)的影響
- 小學(xué)四年級(jí)上冊(cè)遞等式計(jì)算100題及答案
- 新版?zhèn)€人簡(jiǎn)歷Excel表格模板共2聯(lián)
- (完整)中國(guó)象棋教案
評(píng)論
0/150
提交評(píng)論