




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
第一章
數(shù)據(jù)挖掘緒論Contents數(shù)據(jù)挖掘概述1.1數(shù)據(jù)獲取1.2數(shù)據(jù)挖掘的流程1.3本章小結(jié)1.4數(shù)據(jù)存儲-生活中的數(shù)據(jù)數(shù)據(jù)源多樣數(shù)據(jù)存儲-生活中的數(shù)據(jù)數(shù)據(jù)的收集和存儲以巨大的速度進行(GB/小時)微信每天發(fā)送消息450億條,超過4億次音視頻呼叫。微博內(nèi)容存量己超過千億Facebook每天發(fā)送20多億條消息。Twitter每天產(chǎn)生5800萬條微博YouTube用戶數(shù)達到13.25億,每分鐘上傳視頻的總時長達到300小時,每天的視頻播放量達49.5億次,每月的視頻播放總時長達32.5億小時2020年,抖音僅由大學(xué)生發(fā)布的視頻播放量累計超過300萬億次,分享量27億次2021年我國醫(yī)學(xué)影像掃描量增長至29.33億次,2022年掃描量進一步增長至31.15億次左右80x增加的數(shù)據(jù)數(shù)據(jù)存儲-生活中的數(shù)據(jù)數(shù)據(jù)類型數(shù)據(jù)計算IDC機房冷卻裝置有數(shù)據(jù)難利用數(shù)據(jù)分析師發(fā)現(xiàn)一條有用信息需要數(shù)周的時間因此,大量信息從來沒有被分析過,出現(xiàn)“數(shù)據(jù)豐富,知識匱乏”現(xiàn)象Totalnewdisk(TB)since1995Numberofanalysts數(shù)據(jù)鴻溝挖掘?倉儲?1.1.1數(shù)據(jù)挖掘的定義1.1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(DataMining)是通過特定算法對大量數(shù)據(jù)進行處理和分析以發(fā)現(xiàn)數(shù)據(jù)中的模式、趨勢或關(guān)聯(lián)性的過程數(shù)據(jù)挖掘技術(shù)利用機器學(xué)習(xí)和統(tǒng)計學(xué)方法,從海量、不完整、受噪聲干擾的數(shù)據(jù)中提取出先前未知的、潛在有用的隱含信息,并將其轉(zhuǎn)化為可理解的知識數(shù)據(jù)挖掘也被稱作知識發(fā)現(xiàn)1.1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘的過程可以大致分為四個階段:問題分析:了解業(yè)務(wù)背景和數(shù)據(jù)來源,分析數(shù)據(jù)的特點和分布,明確任務(wù)目標(biāo)和需求。數(shù)據(jù)預(yù)處理:數(shù)據(jù)挖掘中非常重要的一步,涉及數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換與規(guī)范化、數(shù)據(jù)規(guī)約和特征提取等步驟。數(shù)據(jù)挖掘:整個過程中最核心的部分,研究者需要根據(jù)業(yè)務(wù)需求和數(shù)據(jù)特點,建模合適的算法模型,并進行模型訓(xùn)練和參數(shù)調(diào)優(yōu)。結(jié)果評估:旨在評估數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性和可靠性。在這個階段,需要使用一些評估指標(biāo)對挖掘結(jié)果進行評估。還需要對挖掘結(jié)果進行解釋和可視化以幫助業(yè)務(wù)人員更好地理解挖掘結(jié)果。1.1.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘技術(shù)面臨著新的挑戰(zhàn)和機遇一方面,隨著數(shù)據(jù)規(guī)模急劇增長、數(shù)據(jù)類型越發(fā)豐富,使得傳統(tǒng)計算資源和數(shù)據(jù)挖掘算法已經(jīng)難以滿足大數(shù)據(jù)處理和分析的需求。另一方面,數(shù)據(jù)挖掘與機器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)的結(jié)合將為知識發(fā)現(xiàn)帶來更大的發(fā)展空間。未來,數(shù)據(jù)挖掘?qū)⒃诟鱾€領(lǐng)域發(fā)揮更加重要的作用,為人類社會的發(fā)展和進步帶來更多的機遇。1.1.2數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域商業(yè)領(lǐng)域:在市場營銷中,數(shù)據(jù)挖掘可以幫助企業(yè)識別目標(biāo)客戶群體,制定個性化的營銷策略。1.1.2數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域醫(yī)療領(lǐng)域:在疾病診斷中,數(shù)據(jù)挖掘可以幫助醫(yī)生分析患者的醫(yī)療記錄和癥狀,提高診斷的準(zhǔn)確性和效率。1.1.2數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域金融領(lǐng)域:在風(fēng)險管理中,數(shù)據(jù)挖掘可以幫助銀行和風(fēng)投機構(gòu)評估貸款申請人的信用風(fēng)險和投資收益。1.1.2數(shù)據(jù)挖掘的應(yīng)用領(lǐng)域政府領(lǐng)域:在城市規(guī)劃中,數(shù)據(jù)挖掘可以分析人口、交通、環(huán)境等數(shù)據(jù),為城市規(guī)劃提供科學(xué)依據(jù)。1.1.3數(shù)據(jù)挖掘的基本任務(wù)數(shù)據(jù)挖掘的基本任務(wù)主要可以分為以下幾類:分類與預(yù)測:根據(jù)已知的數(shù)據(jù)特征,將數(shù)據(jù)項劃分到預(yù)先定義的類別中。聚類分析:將數(shù)據(jù)集中的數(shù)據(jù)項按照其相似性進行分組的過程。聚類的目標(biāo)是在沒有預(yù)先定義類別的情況下,發(fā)現(xiàn)數(shù)據(jù)中的內(nèi)在結(jié)構(gòu)和關(guān)系。關(guān)聯(lián)規(guī)則挖掘:主要用于發(fā)現(xiàn)數(shù)據(jù)項之間的有趣關(guān)系。序列模式挖掘:發(fā)現(xiàn)數(shù)據(jù)項之間的時間序列關(guān)系的過程。異常檢測:數(shù)據(jù)挖掘中用于發(fā)現(xiàn)與大多數(shù)數(shù)據(jù)項顯著不同的數(shù)據(jù)項的過程。這些異常數(shù)據(jù)項可能表示錯誤、欺詐或其他特殊情況。1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源學(xué)術(shù)資源:CCF-A類通常包括國際上公認(rèn)的頂級會議和頂級期刊CCF-A推薦會議:ACMConferenceonManagementofData(SIGMOD)ACMSIGKDDConferenceonKnowledgeDiscoveryandDataMining(KDD)IEEEInternationalConferenceonDataMining(ICDM)InternationalConferenceonDataEngineering(ICDE)InternationalConferenceonMachineLearning(ICML)InternationalConferenceonVeryLargeDataBases(VLDB)InternationalJointConferenceonArtificialIntelligence(IJCAI)AssociationfortheAdvancementofArtificialIntelligence(AAAI)1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源CCF-A推薦期刊:JournalofMachineLearningResearch(JMLR)IEEETransactionsonKnowledgeandDataEngineering(TKDE)ACMTransactionsonDatabaseSystems(TODS)ACMTransactionsonInformationSystems(TOIS)TheVLDBJournal1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源XindongWuZhihuaZhouJiaweiHanJianPeiQiangYangChih-JenLinHangLiChangshuiZhang1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源數(shù)據(jù)挖掘比賽資源阿里天池:/Kaggle:/滴滴:/1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源數(shù)據(jù)集下載資源UCI數(shù)據(jù)集:/CMU數(shù)據(jù)集:/datasets//afs//project/theo-20/www/data/時序數(shù)據(jù)集:/~reinsel/bjr-data/金融數(shù)據(jù)集:http://lisp.vse.cz/pkdd99/Challenge/chall.htm癌癥基因數(shù)據(jù)集:/cgi-bin/cancer/datasets.cgi綜合數(shù)據(jù)集:/~roweis/data.html數(shù)據(jù)集列表:/datasets/index.html美國政府開放數(shù)據(jù):中國地方政府開放數(shù)據(jù):北京/上海1.1.4數(shù)據(jù)挖掘?qū)W習(xí)資源在線學(xué)習(xí)平臺Coursera:提供眾多數(shù)據(jù)挖掘和數(shù)據(jù)科學(xué)相關(guān)的在線課程,由世界頂尖大學(xué)和機構(gòu)講授。/edX:提供包括數(shù)據(jù)挖掘在內(nèi)的數(shù)據(jù)科學(xué)課程,同樣來自世界著名大學(xué)。/Udemy:提供廣泛的實踐導(dǎo)向的數(shù)據(jù)挖掘課程,適合自學(xué)者。/1.1.5數(shù)據(jù)挖掘的常用工具Python語言易用性、靈活性、擁有大量的第三方庫和工具包廣泛用于數(shù)據(jù)分析和數(shù)據(jù)挖掘。R語言擁有大量的統(tǒng)計和數(shù)據(jù)挖掘包在生物信息學(xué)、金融分析等領(lǐng)域廣泛應(yīng)用Weka開源的數(shù)據(jù)挖掘工具豐富的數(shù)據(jù)挖掘算法和可視化界面Weka易于使用,適用于初學(xué)者和專業(yè)用戶1.1.5數(shù)據(jù)挖掘的常用工具RapidMiner支持?jǐn)?shù)據(jù)挖掘的整個流程適用于各種規(guī)模和復(fù)雜度的數(shù)據(jù)挖掘項目Orange支持?jǐn)?shù)據(jù)預(yù)處理、聚類分析、分類等多種數(shù)據(jù)挖掘任務(wù)提供數(shù)據(jù)可視化、交互式數(shù)據(jù)探索等功能適用于數(shù)據(jù)分析和機器學(xué)習(xí)的初學(xué)者和專業(yè)用戶IBMSPSS綜合性的統(tǒng)計分析和數(shù)據(jù)挖掘軟件直觀的圖形用戶界面適用于研究人員、數(shù)據(jù)分析師、市場研究人員、政策制定者等專業(yè)人士1.1.6數(shù)據(jù)挖掘的主要算法數(shù)據(jù)挖掘十大經(jīng)典算法決策樹分類器C4.5(分類算法):C4.5算法可以處理數(shù)值屬性和缺失值,并且能夠從數(shù)據(jù)中生成規(guī)則。此外,C4.5還支持不完整的數(shù)據(jù)集,并且能夠處理連續(xù)屬性。k-均值算法(聚類算法):k-均值(k-Means)算法是一種聚類算法,用于將數(shù)據(jù)劃分為k個簇。k-Means簡單高效,但需要預(yù)先指定k值,并且對初始簇中心的選擇敏感。支持向量機(分類算法):支持向量機(SupportVectorMachine,SVM)是一種強大的分類算法,它通過找到數(shù)據(jù)點之間的最大邊界來區(qū)分不同的類別。SVM在小樣本情況下表現(xiàn)良好,并且可以應(yīng)用于回歸問題。1.1.6數(shù)據(jù)挖掘的主要算法Apriori算法(頻繁模式分析算法):Apriori算法是一種頻繁項集挖掘算法,主要用于關(guān)聯(lián)規(guī)則學(xué)習(xí)。它基于先驗原則,即如果一個項集頻繁出現(xiàn),那么它的所有子集也必然頻繁出現(xiàn)。最大期望估計算法(聚類算法):期望最大化(Expectation-Maximization)算法是一種用于估計概率模型參數(shù)的迭代算法。它特別適用于存在缺失數(shù)據(jù)的情況。PageRank算法(排序算法):PageRank是由Google創(chuàng)始人開發(fā)的算法,用于網(wǎng)頁排名。它基于網(wǎng)頁之間的鏈接關(guān)系,認(rèn)為一個網(wǎng)頁的重要性由指向它的網(wǎng)頁的數(shù)量和質(zhì)量決定。PageRank算法通過迭代計算每個網(wǎng)頁的排名值,直到收斂。AdaBoost算法(集成弱分類器):AdaBoost是一種集成學(xué)習(xí)方法,通過結(jié)合多個弱分類器來構(gòu)建一個強分類器。1.1.6數(shù)據(jù)挖掘的主要算法k-近鄰分類算法(分類算法):k-近鄰(k-NearestNeighbors)分類算法是一種基于實例的學(xué)習(xí)算法,它通過查找測試數(shù)據(jù)點的k個最近鄰居來進行分類或回歸。kNN簡單直觀,但計算成本較高,因為需要對每個測試數(shù)據(jù)點進行距離計算。樸素貝葉斯算法(分類算法):樸素貝葉斯(NaiveBayes)是一種基于貝葉斯定理的分類算法,它假設(shè)所有特征都是相互獨立的。分類與回歸樹算法(聚類算法):分類與回歸樹(ClassificationandRegressionTrees,CART)算法是一種基于決策樹的分類算法,既可以用于分類也可以用于回歸。CART可以處理數(shù)值和類別屬性,并且可以生成易于理解的模型。Contents數(shù)據(jù)挖掘概述1.1數(shù)據(jù)獲取1.2數(shù)據(jù)挖掘的流程1.3本章小結(jié)1.41.2數(shù)據(jù)獲取端到端機器學(xué)習(xí)的大部分時間都花費在數(shù)據(jù)準(zhǔn)備工作之上,包括獲取、清洗、分析、可視化和特征工程等。數(shù)據(jù)獲取不僅是簡單地收集數(shù)據(jù),而是一個綜合考量數(shù)據(jù)源選擇、數(shù)據(jù)采集方法、數(shù)據(jù)質(zhì)量保證以及合規(guī)性等多方面因素的復(fù)雜過程。Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估1.2.1數(shù)據(jù)類型與來源數(shù)據(jù)類型可以根據(jù)數(shù)據(jù)的結(jié)構(gòu)化程度分為結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)idnamegender1張三female2王二male3李四female結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)1.2.1數(shù)據(jù)類型與來源數(shù)據(jù)來源往往是多種多樣的,包括但不限于以下幾類:內(nèi)部數(shù)據(jù)源:企業(yè)或組織內(nèi)部生成的數(shù)據(jù)。公共數(shù)據(jù)集:由政府、非營利組織或研究機構(gòu)發(fā)布的數(shù)據(jù)集。互聯(lián)網(wǎng)數(shù)據(jù):從網(wǎng)站、社交媒體平臺和其他在線資源獲取的數(shù)據(jù)。傳感器數(shù)據(jù):通過各種傳感器和監(jiān)測設(shè)備收集的數(shù)據(jù)。商業(yè)數(shù)據(jù):咨詢或數(shù)據(jù)服務(wù)公司發(fā)布的數(shù)據(jù)。眾包數(shù)據(jù):通過大量用戶的參與和貢獻收集的數(shù)據(jù)。網(wǎng)絡(luò)爬蟲:使用自動化工具從互聯(lián)網(wǎng)上抓取和提取數(shù)據(jù)。Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估數(shù)據(jù)采集旨在找到可用于訓(xùn)練模型的數(shù)據(jù)集數(shù)據(jù)發(fā)現(xiàn):用戶能夠找到、理解并訪問相關(guān)數(shù)據(jù)集的過程。數(shù)據(jù)增強:通過在原始數(shù)據(jù)集上應(yīng)用一系列變換,增加數(shù)據(jù)的多樣性。數(shù)據(jù)生成:使用人工構(gòu)建或自動化構(gòu)建方法構(gòu)建額外的數(shù)據(jù)集。1.2.2數(shù)據(jù)采集技術(shù)數(shù)據(jù)發(fā)現(xiàn)通常包括以下幾個步驟:需求分析:與利益相關(guān)者進行深入溝通,以明確數(shù)據(jù)需求和業(yè)務(wù)目標(biāo)。數(shù)據(jù)檢索:從更廣泛的數(shù)據(jù)資源中尋找特定的數(shù)據(jù)集或信息。精確地定位到數(shù)據(jù)源。數(shù)據(jù)預(yù)覽:查看數(shù)據(jù)樣本以評估數(shù)據(jù)的質(zhì)量和相關(guān)性。數(shù)據(jù)訪問:下載數(shù)據(jù)、使用API調(diào)用或通過數(shù)據(jù)集成工具將數(shù)據(jù)導(dǎo)入到分析平臺。數(shù)據(jù)發(fā)現(xiàn)需求分析需求分析的核心是與利益相關(guān)者進行深入溝通,以明確他們的數(shù)據(jù)需求和業(yè)務(wù)目標(biāo),理解用戶對數(shù)據(jù)的期望和使用場景。這一階段的目的是確保數(shù)據(jù)發(fā)現(xiàn)工作與數(shù)據(jù)挖掘目標(biāo)保持一致,并為后續(xù)步驟提供清晰的指導(dǎo)。數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)檢索互聯(lián)網(wǎng)分布大量結(jié)構(gòu)化數(shù)據(jù),基于Web的檢索方法自動提取有用的數(shù)據(jù)集例如,WebTables提取所有維基百科信息,GoogleDatasetSearch服務(wù)能夠搜索Web上數(shù)以千計的數(shù)據(jù)存儲庫。GoogleImageSearchDragandDrop數(shù)據(jù)檢索和數(shù)據(jù)共享之間存在密切關(guān)系數(shù)據(jù)共享平臺:GitHub、Datahub、Kaggle、GoogleFusion這些平臺為用戶提供了一個集中、整理和共享數(shù)據(jù)的平臺,用戶可以直接獲取并開始分析和應(yīng)用數(shù)據(jù)。數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)預(yù)覽數(shù)據(jù)樣本查看評估數(shù)據(jù)的質(zhì)量和相關(guān)性樣本記錄檢查檢查數(shù)據(jù)的結(jié)構(gòu)和字段目的確保數(shù)據(jù)集滿足分析需求評估數(shù)據(jù)的完整性、準(zhǔn)確性和一致性識別缺失值、異常值和重復(fù)記錄數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)訪問數(shù)據(jù)訪問關(guān)鍵考慮因素數(shù)據(jù)安全性與合規(guī)性處理數(shù)據(jù)的版權(quán)和隱私問題存儲格式與轉(zhuǎn)換需求確保數(shù)據(jù)可以被分析工具有效處理數(shù)據(jù)采集旨在找到可用于訓(xùn)練模型的數(shù)據(jù)集,主要包括三種技術(shù)數(shù)據(jù)發(fā)現(xiàn):用戶能夠找到、理解并訪問相關(guān)數(shù)據(jù)集的過程。數(shù)據(jù)增強:通過在原始數(shù)據(jù)集上應(yīng)用一系列變換,增加數(shù)據(jù)的多樣性。數(shù)據(jù)生成:使用人工構(gòu)建或自動化構(gòu)建方法構(gòu)建額外的數(shù)據(jù)集。1.2.2數(shù)據(jù)采集技術(shù)常見數(shù)據(jù)增強方法:幾何變換翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪等操作顏色變換調(diào)整圖像亮度、對比度、飽和度等屬性噪聲注入添加高斯噪聲、椒鹽噪聲等Mixup和CutMix通過線性插值混合樣本或部分樣本生成新數(shù)據(jù)點推導(dǎo)潛在語義利用外部工具給數(shù)據(jù)增加細粒度標(biāo)簽或Caption數(shù)據(jù)集成整合多個來源或變種的數(shù)據(jù),擴展和豐富數(shù)據(jù)集數(shù)據(jù)增強數(shù)據(jù)增強圖1.幾何變換圖4.顏色變換圖3.Mix圖2.噪聲注入數(shù)據(jù)采集旨在找到可用于訓(xùn)練模型的數(shù)據(jù)集數(shù)據(jù)發(fā)現(xiàn):用戶能夠找到、理解并訪問相關(guān)數(shù)據(jù)集的過程。數(shù)據(jù)增強:通過在原始數(shù)據(jù)集上應(yīng)用一系列變換,增加數(shù)據(jù)的多樣性。數(shù)據(jù)生成:使用人工構(gòu)建或自動化構(gòu)建方法構(gòu)建額外的數(shù)據(jù)集。1.2.2數(shù)據(jù)采集技術(shù)數(shù)據(jù)生成數(shù)據(jù)生成方法人工構(gòu)建眾包:通過收集和預(yù)處理數(shù)據(jù)生成新數(shù)據(jù)集數(shù)據(jù)收集:在眾包平臺發(fā)布任務(wù),招募志愿者完成數(shù)據(jù)收集數(shù)據(jù)預(yù)處理:管理、解析、連接數(shù)據(jù)集等操作自動化構(gòu)建數(shù)據(jù)合成:利用算法生成新的合成數(shù)據(jù)數(shù)據(jù)生成自動化合成數(shù)據(jù)和標(biāo)簽:低成本和靈活性
生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,
GANs)面向特定應(yīng)用程序的自動化生成技術(shù)GANs旨在訓(xùn)練兩個相互競爭的神經(jīng)網(wǎng)絡(luò):生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)生成網(wǎng)絡(luò)學(xué)習(xí)從潛在空間映射到數(shù)據(jù)分布,判別網(wǎng)絡(luò)從生成網(wǎng)絡(luò)產(chǎn)生的候選者中區(qū)分真實分布MEDGAN基于真實患者記錄信息生成具有高維離散變量特征的合成患者記錄數(shù)據(jù)生成面向特定應(yīng)用的生成技術(shù)合成圖像的自動生成合成文本數(shù)據(jù)的自動生成使用人類定義的策略對原始數(shù)據(jù)進行變換自動合成的新數(shù)據(jù)Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估1.2.3數(shù)據(jù)標(biāo)注技術(shù)數(shù)據(jù)標(biāo)注的目的在于標(biāo)記單個示例,主要包括:利用現(xiàn)有標(biāo)簽:利用任何已經(jīng)存在的標(biāo)簽基于眾包技術(shù):使用眾包技術(shù)標(biāo)記單個示例弱監(jiān)督學(xué)習(xí)方法:在較低成本的前提下生成弱標(biāo)簽利用現(xiàn)有標(biāo)簽少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)分類算法:模型為每個樣本返回一個或多個潛在的類別標(biāo)簽?;貧w算法:模型為每個樣本返回對應(yīng)某個類別的概率值。基于圖標(biāo)簽傳播的算法:從有限標(biāo)記示例數(shù)據(jù)集開始,在圖結(jié)構(gòu)中基于示例的相似性推斷剩余示例的標(biāo)簽。預(yù)測結(jié)果分類模型Label1Label2Label3回歸模型…0.90.8DogCat樣本數(shù)據(jù)基于眾包技術(shù)眾包標(biāo)注方法定義標(biāo)注說明提供詳細的標(biāo)注任務(wù)說明任務(wù)分發(fā)通過網(wǎng)絡(luò)平臺將任務(wù)分發(fā)給標(biāo)注工人數(shù)據(jù)標(biāo)注員數(shù)據(jù)標(biāo)注發(fā)布者客戶端人工質(zhì)檢員客戶端機器質(zhì)檢員客戶端基于眾包技術(shù)主動學(xué)習(xí)定義選擇最有益于模型訓(xùn)練的數(shù)據(jù)樣本的策略工作流程選擇數(shù)據(jù)樣本分發(fā)給眾包工人進行標(biāo)注弱監(jiān)督學(xué)習(xí)方法背景需要大量數(shù)據(jù)標(biāo)注,但人工成本高昂定義通過多種弱監(jiān)督信號滿足數(shù)據(jù)標(biāo)注任務(wù)需求Snorkel結(jié)合多種弱監(jiān)督信號,生成更準(zhǔn)確的標(biāo)簽Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估1.2.4數(shù)據(jù)存儲與管理數(shù)據(jù)備份創(chuàng)建數(shù)據(jù)副本。數(shù)據(jù)安全保護數(shù)據(jù)免受未授權(quán)訪問、數(shù)據(jù)泄露、篡改和破壞的一系列措施。數(shù)據(jù)調(diào)用從存儲介質(zhì)或數(shù)據(jù)倉庫中檢索特定數(shù)據(jù)或信息。數(shù)據(jù)備份備份類型本地備份遠程備份云存儲備份策略的重要性確保數(shù)據(jù)在災(zāi)難性事件中的保護與恢復(fù)防范數(shù)據(jù)丟失和損壞的風(fēng)險數(shù)據(jù)安全加密技術(shù)保護數(shù)據(jù)在存儲和傳輸中的安全性訪問控制限制對敏感數(shù)據(jù)的訪問權(quán)限網(wǎng)絡(luò)安全措施防止黑客攻擊和病毒感染數(shù)據(jù)調(diào)用性能優(yōu)化和查詢優(yōu)化:高效的數(shù)據(jù)存儲和索引策略快速響應(yīng)用戶的查詢請求實時數(shù)據(jù)處理ApacheKafka、ApacheFlink等數(shù)據(jù)安全和隱私保護確保數(shù)據(jù)在調(diào)用過程中的安全性和隱私保護集成和自動化與其他系統(tǒng)集成,實現(xiàn)數(shù)據(jù)的獲取和整合提高數(shù)據(jù)調(diào)用系統(tǒng)的效率和自動化程度Sections1.2.1數(shù)據(jù)類型和來源1.2.2數(shù)據(jù)采集技術(shù)1.2.3數(shù)據(jù)標(biāo)注技術(shù)1.2.4數(shù)據(jù)存儲與管理1.2.5數(shù)據(jù)質(zhì)量與評估1.2.5數(shù)據(jù)質(zhì)量評估從數(shù)據(jù)質(zhì)量維度進行數(shù)據(jù)質(zhì)量評估主要涉及準(zhǔn)確性(Accuracy)數(shù)據(jù)是否正確反映了現(xiàn)實世界的事實。完整性(Completeness)數(shù)據(jù)集是否包含了所有必需的數(shù)據(jù)項。一致性(Consistency)數(shù)據(jù)在不同時間、空間和系統(tǒng)中的一致性。及時性(Timeliness)數(shù)據(jù)從產(chǎn)生到可用的時間??杀刃裕–omparability)數(shù)據(jù)在不同情況下的可比性。適用性(Relevance)數(shù)據(jù)是否滿足用戶的需求??色@得性(Accessibility)用戶獲取數(shù)據(jù)的難易程度。經(jīng)濟性(Cost-Effectiveness)數(shù)據(jù)的生產(chǎn)成本與效益之比。Contents數(shù)據(jù)挖掘概述1.1數(shù)據(jù)獲取1.2數(shù)據(jù)挖掘的流程1.3本章小結(jié)1.41.3數(shù)據(jù)挖掘的流程數(shù)據(jù)挖掘是一個復(fù)雜且系統(tǒng)的過程,包括:業(yè)務(wù)理解與問題定義數(shù)據(jù)獲取與預(yù)處理數(shù)據(jù)挖掘結(jié)果分析與應(yīng)用(可視化)1.3.1業(yè)務(wù)理解與問題定義在數(shù)據(jù)挖掘的過程中,業(yè)務(wù)理解與問題定義是第一步。研究者需要與業(yè)務(wù)人員密切合作,深入了解業(yè)務(wù)需求,明確數(shù)據(jù)挖掘所解決的問題。包括:業(yè)務(wù)環(huán)境業(yè)務(wù)流程業(yè)務(wù)數(shù)據(jù)1.3.2數(shù)據(jù)獲取與預(yù)處理數(shù)據(jù)的質(zhì)量和完整性直接影響到后續(xù)分析的準(zhǔn)確性和效果。主要需要注意:數(shù)據(jù)來源數(shù)據(jù)清洗和預(yù)處理數(shù)據(jù)探索性分析1.3.3數(shù)據(jù)挖掘數(shù)據(jù)挖掘是整個流程中的核心環(huán)節(jié)根據(jù)數(shù)據(jù)類型和問題類型來選擇合適的模型分類模型回歸模型考慮數(shù)據(jù)特征確定編碼方式確定數(shù)據(jù)處理方式1.3.3數(shù)據(jù)挖掘使用獨立的測試數(shù)據(jù)集對模型進行評估確保評估結(jié)果的客觀性和準(zhǔn)確性注意避免過擬合和欠擬合問題:過擬合:模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)過好,但在測試數(shù)據(jù)上表現(xiàn)不佳欠擬合:模型在訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)上的表現(xiàn)都不佳1.3.4結(jié)果分析與應(yīng)用(可視化)結(jié)果分析根據(jù)業(yè)務(wù)需求和問題背景,對模型的輸出結(jié)果進行解釋和闡述揭示數(shù)據(jù)背后的規(guī)律和趨勢結(jié)果可視化從不同維度分析結(jié)果變化或趨勢快速定位數(shù)據(jù)挖掘結(jié)果體現(xiàn)的核心問題結(jié)果應(yīng)用將模型應(yīng)用于實際業(yè)務(wù)場景將模型的輸出結(jié)果與實際業(yè)務(wù)需求相結(jié)合Contents數(shù)據(jù)挖掘概述1.1數(shù)據(jù)獲取1.2數(shù)據(jù)挖掘的流程1.3本章小結(jié)1.4本章小結(jié)本章首先定義了數(shù)據(jù)挖掘的基本概念。強調(diào)了數(shù)據(jù)挖掘在現(xiàn)代決策過程中的重要性,尤其是在處理和分析大數(shù)據(jù)方面。接著,探討了數(shù)據(jù)挖掘的基本任務(wù)。每個任務(wù)都有其獨特的目標(biāo)和應(yīng)用場景,它們共同構(gòu)成了數(shù)據(jù)挖掘的核心。通過這些任務(wù),數(shù)據(jù)挖掘能夠幫助我們從數(shù)據(jù)中發(fā)現(xiàn)知識,支持更加明智的決策。討論了數(shù)據(jù)挖掘的廣泛應(yīng)用領(lǐng)域。這些應(yīng)用展示了數(shù)據(jù)挖掘如何跨越不同行業(yè),為各種問題提供解決方案。最后,詳細介紹了數(shù)據(jù)挖掘的標(biāo)準(zhǔn)流程。每個步驟都是數(shù)據(jù)挖掘成功實施的關(guān)鍵,需要仔細考慮和執(zhí)行。ThankYou!數(shù)據(jù)挖掘中的預(yù)處理Contents數(shù)據(jù)挖掘過程概述01數(shù)據(jù)準(zhǔn)備02數(shù)據(jù)預(yù)處理03數(shù)據(jù)挖掘的對象(1)關(guān)系型數(shù)據(jù)庫、事務(wù)型數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫;(2)數(shù)據(jù)倉庫/多維數(shù)據(jù)庫;(3)空間數(shù)據(jù)(如地圖信息)(4)工程數(shù)據(jù)(如建筑、集成電路的信息)(5)文本和多媒體數(shù)據(jù)(如文本、圖象、音頻、視頻數(shù)據(jù))(6)時間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股票交換數(shù)據(jù))(7)萬維網(wǎng)(如半結(jié)構(gòu)化的HTML,結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息)數(shù)據(jù)挖掘的步驟(1)數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù),補缺);(2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起);(3)數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù));(4)數(shù)據(jù)變換(變換成適合挖掘的形式);(5)數(shù)據(jù)挖掘(使用智能方法提取數(shù)據(jù)模式);(6)模式評估(識別提供知識的真正有趣模式);(7)知識表示(可視化和知識表示技術(shù))。Contents數(shù)據(jù)挖掘過程概述01數(shù)據(jù)準(zhǔn)備02數(shù)據(jù)預(yù)處理03數(shù)據(jù)準(zhǔn)備現(xiàn)實世界的數(shù)據(jù)是不完整的(有些感興趣的屬性缺少屬性值,或僅包含聚集數(shù)據(jù)),含噪音的(包含錯誤,或存在偏離期望的異常值),不一致的(例如,用于商品分類的部門編碼存在差異)。需要數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換等技術(shù)對數(shù)據(jù)進行處理。
數(shù)據(jù)準(zhǔn)備——維歸約/特征提取決策樹歸約(1)決策樹歸約構(gòu)造一個類似于流程圖的結(jié)構(gòu):其每個非葉子結(jié)點表示一個屬性上的測試,每個分枝對應(yīng)于測試的一個輸出;每個葉子結(jié)點表示一個決策類。(2)在每個結(jié)點,算法選擇“當(dāng)前對分類最有幫助”的屬性,出現(xiàn)在樹中的屬性形成歸約后的屬性子集。數(shù)據(jù)準(zhǔn)備——維歸約/特征提取粗糙集歸約(1)粗糙集理論在數(shù)學(xué)意義上描述了知識的不確定性,它的特點是把用于分類的知識嵌入集合內(nèi),使分類與知識聯(lián)系在一起。(2)知識的粒度、不可分辨關(guān)系、上近似、下近似、邊界等概念見下圖。數(shù)據(jù)準(zhǔn)備——維歸約/特征提取粗糙集歸約(3)令Q代表屬性的集合。q∈Q是一個屬性,如果IND(Q?q)=IND(Q),則q在S中不是獨立的;否則稱q在S中是獨立的。(4)若集合滿足IND(R)=IND(Q)且R中的每一個屬性都是獨立的,則R被稱為Q的一個“約簡”,記作R=RED(Q)。(5)約簡可以通過刪除冗余的(不獨立的)屬性而獲得,約簡包含的屬性即為“對分類有幫助”的屬性。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)變換歸一化與模糊化有限區(qū)間的歸一化:無限區(qū)間的歸一化:模糊隸屬度:數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)變換核函數(shù)(1)核函數(shù)的基本思想是將在低維特征向量線性不可分的數(shù)據(jù)映射到線性可分的高維特征空間中去。(2)映射可以是顯式的,也可以是隱式的。顯式映射即找到一個映射關(guān)系f,使高維空間的特征向量f(x)可以被直接計算出來。(3)隱式映射,即引入一個核函數(shù)進行整體處理,就避免了對的直接求f(x)的計算困難。核函數(shù)即某高維特征空間中向量的內(nèi)積,是核矩陣中的一個元素。(4)并不是所有的實值函數(shù)f(x)都可以作為空間映射的核函數(shù),只有f(x)是某一特征空間的內(nèi)積時,即符合Mercer條件,它才能成為核函數(shù)。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)變換核函數(shù)多項式函數(shù):
高斯(RBF)函數(shù):
多層感知機函數(shù):低維空間向量映射到高維空間向量舉例:
數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮離散化離散化的用途:(1)適應(yīng)某些僅接受離散值的算法;(2)減小數(shù)據(jù)的尺度。離散化的方法包括幾下幾種。(1)等距分割;(2)聚類分割;(3)直方圖分割;(4)基于熵的分割;(5)基于自然屬性的分割。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮回歸回歸和對數(shù)線性模型可以用來近似給定的數(shù)據(jù)。在線性回歸中,用一條直線來模擬數(shù)據(jù)的生成規(guī)則。多元回歸是線性回歸的擴展,涉及多個預(yù)測變量。在多項式回歸中,通過對變量進行變換,可以將非線性模型轉(zhuǎn)換成線性的,然后用最小平方和法求解。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮回歸利用線性回歸可以為連續(xù)取值的函數(shù)建模。廣義線性模型則可以用于對離散取值變量進行回歸建模。在廣義線性模型中,因變量Y的變化速率是Y均值的一個函數(shù);這一點與線性回歸不同。常見的廣義線性模型有:對數(shù)回歸和泊松回歸。對數(shù)回歸模型是利用一些事件發(fā)生的概率作為自變量所建立的線性回歸模型。泊松回歸模型主要是描述數(shù)據(jù)出現(xiàn)次數(shù)的模型,因為它們常常表現(xiàn)為泊松分布。數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮主成分分析(PCA)PCA算法搜索c個最能代表數(shù)據(jù)的k-維正交向量;這里c
k。這樣,原來的數(shù)據(jù)投影到一個較小的空間,導(dǎo)致數(shù)據(jù)壓縮。步驟如下:(1)對輸入數(shù)據(jù)歸一化,使得每個屬性都落入相同的區(qū)間。(2)PCA計算c個規(guī)范正交向量,作為歸一化輸入數(shù)據(jù)的基。這些是單位向量,每一個都垂直于另一個:稱為主成分。輸入數(shù)據(jù)是主要成分的線性組合。(3)對主成分按“意義”或強度降序排列,選擇部分主成分充當(dāng)數(shù)據(jù)的一組新坐標(biāo)軸。
數(shù)據(jù)準(zhǔn)備——數(shù)據(jù)壓縮離散小波變換(DWT)離散小波變換是一種線性信號處理技術(shù)。該技術(shù)方法可以將一個數(shù)據(jù)向量轉(zhuǎn)換為另一個數(shù)據(jù)向量(為小波相關(guān)系數(shù));且兩個向量具有相同長度??梢陨釛夀D(zhuǎn)換后的數(shù)據(jù)向量中的一些小波相關(guān)系數(shù)。保留所有大于用戶指定閾值的小波系數(shù),而將其它小波系數(shù)置為0,以幫助提高數(shù)據(jù)處理的運算效率。這一技術(shù)方法可以在保留數(shù)據(jù)主要特征情況下除去數(shù)據(jù)中的噪聲,因此該方法可以有效地進行數(shù)據(jù)清洗。給定一組小波相關(guān)系數(shù),利用離散小波變換的逆運算還可以近似恢復(fù)原來的數(shù)據(jù)。Contents數(shù)據(jù)挖掘過程概述01數(shù)據(jù)準(zhǔn)備02數(shù)據(jù)預(yù)處理03數(shù)據(jù)預(yù)處理什么是數(shù)據(jù)預(yù)處理?數(shù)據(jù)挖掘的前提:真實世界中的數(shù)據(jù)來源復(fù)雜、體積巨大,往往難以避免地存在缺失、噪聲、不一致等問題。為了提高數(shù)據(jù)挖掘的質(zhì)量,產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。數(shù)據(jù)和特征決定了機器學(xué)習(xí)的上限,而所選模型和算法只是去逼近這個上限。數(shù)據(jù)預(yù)處理為什么做數(shù)據(jù)預(yù)處理?通過特征提取,我們能得到未經(jīng)處理的特征,這時的特征可能有以下問題:不屬于同一量綱:即特征的規(guī)格不一樣,不能夠放在一起比較。信息冗余:對于某些定量特征,其包含的有效信息為區(qū)間劃分,例如學(xué)習(xí)成績,假若只關(guān)心“及格”或不“及格”,那么需要將定量的考分,轉(zhuǎn)換成“1”和“0”表示及格和未及格定性特征不能直接使用:某些機器學(xué)習(xí)算法和模型只能接受定量特征的輸入,那么需要將定性特征轉(zhuǎn)換為定量特征。存在缺失值:缺失值需要補充。信息利用率低:不同的機器學(xué)習(xí)算法和模型對數(shù)據(jù)中信息的利用是不同的。當(dāng)數(shù)據(jù)的維數(shù)過高時還會存在所謂的“維數(shù)災(zāi)難(Curseofdimensionality)”問題,過高的維度不僅增加了計算量,反而可能會降低算法的效果。數(shù)據(jù)預(yù)處理常見數(shù)據(jù)預(yù)處理方法數(shù)據(jù)清洗處理數(shù)據(jù)的某些紀(jì)錄值缺失,平滑數(shù)據(jù)中的噪聲、發(fā)現(xiàn)異常值,改正不一致等。數(shù)據(jù)融合將不同來源的、異質(zhì)的數(shù)據(jù)融合到一起。良好的數(shù)據(jù)融合可以減少數(shù)據(jù)中的冗余和不一致性,進而提升后續(xù)步驟的精度和速度。數(shù)據(jù)轉(zhuǎn)換通過平滑聚集,數(shù)據(jù)概化,規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。數(shù)據(jù)降維將高維度數(shù)據(jù)化為低維度數(shù)據(jù),仍保持原數(shù)據(jù)的大部分信息,使數(shù)據(jù)挖掘結(jié)果與降維前結(jié)果相同或幾乎相同。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗缺失值處理缺失值在實際數(shù)據(jù)中是不可避免的問題,對于不同的數(shù)據(jù)場景應(yīng)該采取不同的策略,首先應(yīng)該判斷缺失值的分布情況:如果缺失值極少且這個維度信息不重要,一般刪除它們對于整體數(shù)據(jù)情況影響不大;如果缺失值較多或這個維度的信息還很重要的時候,直接刪除會對后面的算法跑的結(jié)果造成不好的影響。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗缺失值處理我們常用的方法有以下幾種:直接刪除——適合缺失值數(shù)量較小,并且是隨機出現(xiàn)的,刪除它們對整體數(shù)據(jù)影響不大的情況;使用一個全局常量填充——譬如將缺失值用“Unknown”等填充,但是效果不一定好,因為算法可能會把它識別為一個新的類別,一般很少用;使用均值或中位數(shù)代替:
優(yōu)點:不會減少樣本信息,處理簡單。缺點:當(dāng)缺失數(shù)據(jù)不是隨機數(shù)據(jù)時會產(chǎn)生偏差,對于正常分布的數(shù)據(jù)
可以使用均值代替,如果數(shù)據(jù)是傾斜的,使用中位數(shù)可能更好。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗缺失值處理插補法
1)隨機插補法——從總體中隨機抽取某個樣本代替缺失樣本
2)多重插補法——通過變量之間的關(guān)系對缺失數(shù)據(jù)進行預(yù)測,例如利用蒙特卡洛方法
生成多個完整的數(shù)據(jù)集,在對這些數(shù)據(jù)集進行分析,最后對分析結(jié)果進行匯總處理
3)熱平臺插補——指在非缺失數(shù)據(jù)集中找到一個與缺失值所在樣本相似的樣本(匹配
樣本)利用其中的觀測值對缺失值進行插補。
4)拉格朗日差值法和牛頓插值法建模法——可以用回歸、使用貝葉斯形式化方法的基于推理的工具或決策樹歸納確定。例如,利用數(shù)據(jù)集中其他數(shù)據(jù)的屬性,可以構(gòu)造一棵判定樹,來預(yù)測缺失值的值。
以上方法各有優(yōu)缺點,具體情況要根據(jù)實際數(shù)據(jù)分分布情況、傾斜程度、缺失值所占比例等等來選擇方法。一般而言,建模法是比較常用的方法,它根據(jù)已有的值來預(yù)測缺失值,準(zhǔn)確率更高。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理異常值我們通常也稱為“離群點”(outlier),即在樣本空間中,與其他樣本點的一般行為或特征不一致的點。一般可能有如下產(chǎn)生原因:計算的誤差或者操作的錯誤所致,比如:某人的年齡
-999
歲,這就是明顯由誤操作所導(dǎo)致的離群點;數(shù)據(jù)本身的可變性或彈性所致,比如:一個公司中
CEO
的工資肯定是明顯高于其他普通員工的工資,于是
CEO
變成為了由于數(shù)據(jù)本身可變性所導(dǎo)致的離群點。注意:離群點不一定是無用數(shù)據(jù),它也許正是用戶感興趣的,比如在欺詐檢測領(lǐng)域,那些與正常數(shù)據(jù)行為不一致的離群點,往往預(yù)示著欺詐行為,因此成為執(zhí)法者所關(guān)注的。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理常見異常值檢測方法:基于統(tǒng)計分布的離群點檢測
這類檢測方法假設(shè)樣本空間中所有數(shù)據(jù)符合某個分布或者數(shù)據(jù)模型,然后根據(jù)模型采用不和諧校驗(discordancytest)識別離群點。例如:1)3?原則如果數(shù)據(jù)服從正態(tài)分布,在3?原則下,異常值為一組測定值中與平均值的偏差超過3倍標(biāo)準(zhǔn)差的值。如果數(shù)據(jù)服從正態(tài)分布,距離平均值3?之外的值出現(xiàn)的概率為P(|x-u|>3?)<=0.003,屬于極個別的小概率事件。如果數(shù)據(jù)不服從正態(tài)分布,也可以用遠離平均值的多少倍標(biāo)準(zhǔn)差來描述。2)箱型圖分析
箱型圖提供了識別異常值的一個標(biāo)準(zhǔn):如果一個值小于QL-1.5IQR或大于QU-1.5IQR的值,則被稱為異常值。QL為下四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它?。籕U為上四分位數(shù),表示全部觀察值中有四分之一的數(shù)據(jù)取值比它大;IQR為四分位數(shù)間距,是上四分位數(shù)QU與下四分位數(shù)QL的差值,包含了全部觀察值的一半。箱型圖判斷異常值的方法以四分位數(shù)和四分位距為基礎(chǔ),四分位數(shù)具有魯棒性:25%的數(shù)據(jù)可以變得任意遠并且不會干擾四分位數(shù),所以異常值不能對這個標(biāo)準(zhǔn)施加影響。因此箱型圖識別異常值比較客觀,在識別異常值時有一定的優(yōu)越性。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理常見異常值檢測方法:基于距離的離群點檢測通??梢栽趯ο笾g定義鄰近性度量,異常對象是那些遠離其他對象的對象。如果樣本空間D中至少有N個樣本點與對象O的距離大于dmin,那么稱對象O是以{至少N個樣本點}和dmin為參數(shù)的基于距離的離群點。優(yōu)點:簡單;缺點:基于鄰近度量的方法需要O(m^2)時間,大數(shù)據(jù)集不適用;該方法對參數(shù)的選擇也是敏感的,不同的距離度量其結(jié)果也不一樣;不能處理具有不同密度區(qū)域的數(shù)據(jù)集,因為它使用全局閾值,不能考慮這
種密度的變化。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理常見異常值檢測方法:基于密度的局部離群點檢測當(dāng)一個點的局部密度顯著低于它的大部分近鄰時才將其分類為離群點。適合非均勻分布的數(shù)據(jù)。不同于基于距離的方法,基于密度的離群點檢測不將離群點看做一種二元性質(zhì),即不簡單用YesorNo來斷定一個點是否是離群點,而是用一個權(quán)值來評估它的離群度。它是局部的,意思是該程度依賴于對象相對于其領(lǐng)域的孤立情況。這種方法可以同時檢測出全局離群點和局部離群點。優(yōu)點:給出了對象是離群點的定量度量,并且即使數(shù)據(jù)具有不同的區(qū)域也能夠很好的處理;缺點:基于距離的方法一樣,具有O(m^2)的時間時間復(fù)雜度,對于低維數(shù)據(jù)使用特定的數(shù)據(jù)結(jié)構(gòu)可
以
達到O(mlogm);參數(shù)選擇困難。仍然需要選擇這些離群度的上下界。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗異常值處理處理方法:刪除異常值——明顯看出是異常且數(shù)量較少可以直接刪除不處理——如果算法對異常值不敏感則可以不處理,但如果算法對異常值敏感,則最好不要用,如基于距離計算的一些算法,包括kmeans,knn之類的。平均值替代——損失信息小,簡單高效。視為缺失值——可以按照處理缺失值的方法來處理數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗數(shù)據(jù)去重數(shù)據(jù)重復(fù)在實際生活中很常見,在一些數(shù)據(jù)挖掘模型中,這些冗余的數(shù)據(jù)加大了數(shù)據(jù)分析的難度和處理速度,因此需要對數(shù)據(jù)去重。常見方法:遍歷數(shù)據(jù)搜索,復(fù)雜度高,僅適用于數(shù)據(jù)規(guī)模較小的情形。哈希表示,生成數(shù)據(jù)指紋,簡單高效,適用于大規(guī)模數(shù)據(jù),代表算法:1)Bitmap:位圖法2)SimHash:相似哈希3)布隆過濾器數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗數(shù)據(jù)去噪噪聲,是被測量變量的隨機誤差或方差。我們在上文中提到過異常點(離群點),那么離群點和噪音是不是一回事呢?觀測量(Measurement)=真實數(shù)據(jù)(TrueData)+噪聲(Noise)離群點(Outlier)屬于觀測量,既有可能是真實數(shù)據(jù)產(chǎn)生的,也有可能是噪聲帶來的,但是總的來說是和大部分觀測量之間有明顯不同的觀測值。噪聲包括錯誤值或偏離期望的孤立點值,但也不能說噪聲點包含離群點,雖然大部分?jǐn)?shù)據(jù)挖掘方法都將離群點視為噪聲或異常而丟棄。然而,在一些應(yīng)用(例如:欺詐檢測),會針對離群點做離群點分析或異常挖掘。而且有些點在局部是屬于離群點,但從全局看是正常的。數(shù)據(jù)預(yù)處理——數(shù)據(jù)清洗數(shù)據(jù)去噪常見數(shù)據(jù)去噪方法分箱法分箱方法通過考察數(shù)據(jù)的“近鄰”(即周圍的值)來光滑有序數(shù)據(jù)值。這些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近鄰的值,因此它進行局部光滑。1)用箱均值光滑:箱中每一個值被箱中的平均值替換。2)用箱中位數(shù)平滑:箱中的每一個值被箱中的中位數(shù)替換。3)用箱邊界平滑:箱中的最大和最小值同樣被視為邊界。箱中的每一個值被最近的邊界值替換。一般而言,寬度越大,光滑效果越明顯。箱也可以是等寬的,其中每個箱值的區(qū)間范圍是個常量。分箱也可以作為一種離散化技術(shù)使用?;貧w法可以用一個函數(shù)擬合數(shù)據(jù)來光滑數(shù)據(jù)。線性回歸涉及找出擬合兩個屬性(或變量)的“最佳”直線,使得一個屬性能夠預(yù)測另一個。多線性回歸是線性回歸的擴展,它涉及多于兩個屬性,并且數(shù)據(jù)擬合到一個多維面。使用回歸,找出適合數(shù)據(jù)的數(shù)學(xué)方程式,能夠幫助消除噪聲。數(shù)據(jù)預(yù)處理——數(shù)據(jù)融合數(shù)據(jù)融合就是將不同來源的、異質(zhì)的數(shù)據(jù)融合到一起。良好的數(shù)據(jù)融合可以減少數(shù)據(jù)中的冗余(redundacies)和不一致性(inconsistence),進而提升后續(xù)步驟的精度和速度。數(shù)據(jù)融合包括如下幾個步驟:實體識別問題(EntityIdentificationProblem)實體識別中最主要的問題匹配不同的數(shù)據(jù)源中指向現(xiàn)實世界相同實體的紀(jì)錄。比如分析有不同銷售員紀(jì)錄的17年和18年兩年的銷售數(shù)據(jù),由于不同的銷售員有不同的紀(jì)錄習(xí)慣,顧客的名字紀(jì)錄方式并不一樣,一個銷售員喜歡紀(jì)錄全名(例如WardellStephenCurryII),另外一個銷售員喜歡將中間名省略(WardellSCurryII),雖然WardellStephenCurryII和WardellSCurryII是現(xiàn)實世界中是同一名顧客,但計算機會識別為兩位不同的顧客,解決這個問題就需要EntityIdentification。一個常用的EntityIndentificationProblem的解決算法是LSH算法。冗余和相關(guān)性分析當(dāng)能夠從樣本的一個或多個屬性推導(dǎo)出另外的屬性的時候,那么數(shù)據(jù)中就存在冗余。檢測冗余的一種方法是相關(guān)性分析——給定要進行檢測的兩個屬性,相關(guān)性分析可以給出一個屬性隱含(imply)另外一個屬性的程度。對于標(biāo)稱型(Nominal)數(shù)據(jù),可以使用χ2檢驗,而對于數(shù)值數(shù)據(jù),可以根據(jù)方差和相關(guān)系數(shù)來分析。當(dāng)相關(guān)系數(shù)是正的時候表示屬性A和屬性B正相關(guān),當(dāng)相關(guān)系數(shù)是負(fù)的時候?qū)傩訟和屬性B負(fù)相關(guān),注意,相關(guān)關(guān)系并不等同于因果關(guān)系。數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換在對數(shù)據(jù)進行統(tǒng)計分析時,要求數(shù)據(jù)必須滿足一定的條件,數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)從一種表示形式變?yōu)榱硪环N表現(xiàn)形式的過程。常見的數(shù)據(jù)轉(zhuǎn)換方法大致可分為如下幾類:離散化二值化歸一化標(biāo)準(zhǔn)化正則化特征編碼數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換離散化有些數(shù)據(jù)挖掘算法,特別是某些分類算法,要求數(shù)據(jù)是分類屬性形式。例如,發(fā)現(xiàn)關(guān)聯(lián)模式的算法要求數(shù)據(jù)是二元屬性形式。這樣,常常需要將連續(xù)屬性變換成分類屬性(離散化,discretization),并且連續(xù)和離散屬性可能都需要變換成一個或多個二元屬性。此外,如果一個分類屬性具有大量不同值(類別),或者某些值出現(xiàn)不頻繁,則對于某些數(shù)據(jù)挖掘任務(wù),通過合并某些值減少類別的數(shù)目可能是有益的。相比于連續(xù)屬性值,離散屬性值有一下優(yōu)點:①通過離散化數(shù)據(jù)將被簡化并且減少;②離散特征更容易被理解,使用和解釋;③離散化使學(xué)習(xí)更加準(zhǔn)確,快速;④使用離散特征獲得的結(jié)果(如decisiontrees,inductionrules)更加緊湊,簡短,準(zhǔn)確,結(jié)果更容易進行檢查,比較,使用和重復(fù)使用;⑤很多分類學(xué)習(xí)算法只能處理離散數(shù)據(jù)。常見離散化方法:1)無監(jiān)督:分箱法(等寬/等頻)、直觀劃分等2)有監(jiān)督:1R方法、基于卡方的離散方法、基于熵的離散方法等數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換二值化特征二值化是把數(shù)值特征轉(zhuǎn)化成布爾值的過程,其核心在于設(shè)定一個閾值,大于閾值的賦值為1,小于等于閾值的賦值為0。這個方法對符合多變量伯努利分布的輸入數(shù)據(jù)進行預(yù)測概率參數(shù)很有效。數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換歸一化歸一化是一種簡化計算的方式,即將有量綱的表達式,經(jīng)過變換,化為無量綱的表達式,成為標(biāo)量。它可將數(shù)據(jù)縮放至給定的最小值與最大值之間,通常是0與1之間。歸一化常見兩種方式:最小最大值歸一化,將數(shù)據(jù)歸一化到[0,1]區(qū)間絕對值最大歸一化,將數(shù)據(jù)歸一化到[-1,1]區(qū)間數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)化不同的特征有不同的取值范圍,如線性模型,特征的取值范圍會對最終的結(jié)果產(chǎn)生較大的影響,取值范圍不一致會導(dǎo)致模型會更偏向取值范圍較大的特征。標(biāo)準(zhǔn)化通常是為了消除不同屬性或樣本間的不齊性,使同一樣本內(nèi)的不同屬性間或同一屬性在不同樣本內(nèi)的方差減小。另外數(shù)據(jù)的標(biāo)準(zhǔn)化也會加快數(shù)據(jù)的收斂速度。例如:Z-score標(biāo)準(zhǔn)化:數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換正則化通常是為給數(shù)據(jù)加入某種限制,使其滿足某一特性,常見的:L1正則化(稀疏性):L2正則化(平滑性):數(shù)據(jù)預(yù)處理——數(shù)據(jù)轉(zhuǎn)換特征編碼我們經(jīng)常會遇到一些類別特征,這些特征不是離散型的數(shù)值,而是這樣的:[“男性”,“女性”],[“來自歐洲”,“來自美國”,“來自亞洲”],[“使用Firefox瀏覽器”,“使用Chrome瀏覽器”,“使用Safari瀏覽器”,“使用IE瀏覽器”]等等。這種類型的特征可以被編碼為整型(int),如[“男性”,“來自美國”,“使用IE瀏覽器”]可以表示成[0,1,3],[“女性”,“來自亞洲”,“使用Chrome瀏覽器”]可以表示成[1,2,1]。這些整數(shù)式的表示不能直接作為機器學(xué)習(xí)模型的參數(shù),因為我們需要的是連續(xù)型的輸入,而且我們通常是有序的翻譯這些特征,而不是所有的特征都是有序化的(譬如瀏覽器就是按人工排的序列)。將這些類別特征轉(zhuǎn)化成機器學(xué)習(xí)模型的參數(shù),可以使用的方法是:使用one-of-K或者one-hot編碼(獨熱編碼OneHotEncoding)。它可以把每一個有m種類別的特征轉(zhuǎn)化成m中二值特征。注意:除了上述所提及的6種數(shù)據(jù)轉(zhuǎn)換方法,我們可以根據(jù)模型需求和數(shù)據(jù)特性,自定義轉(zhuǎn)換方法。數(shù)據(jù)預(yù)處理——數(shù)據(jù)降維維數(shù)災(zāi)難指在涉及到向量的計算的問題中,隨著維數(shù)的增加,計算量呈指數(shù)倍增長的一種現(xiàn)象。維度災(zāi)難最直接的后果就是過擬合現(xiàn)象,而發(fā)生該現(xiàn)象最根本的原因是:維度增加時,有限的樣本空間會越來越稀疏。因此模型出現(xiàn)在訓(xùn)練集上表現(xiàn)良好,但對新數(shù)據(jù)缺乏泛化能力的現(xiàn)象。維度增加時,每個樣本數(shù)據(jù)越來越不可能符合所有維度(特征),這使得大部分樣本都變成了噪聲。數(shù)據(jù)降維,又稱特征降維,是將高維空間的數(shù)據(jù)集映射到低維度空間,同時盡可能少的丟失數(shù)據(jù),或者降維后的數(shù)據(jù)點盡可能的被區(qū)分。數(shù)據(jù)預(yù)處理——數(shù)據(jù)降維常見特征降維方法特性選擇尋找最優(yōu)子集,剔除不相關(guān)(irrelevant)或冗余(redundant)的特征,從而達到減少特征的個數(shù),提高模型的緊缺度,減少運行時間,特征選擇后留下的特征在選擇前后沒有變化。常見的特征選擇的方法有:1)過濾方式:將所有特征進行打分,選擇最有效的特征。比如,卡方檢驗、信息增益、相關(guān)系數(shù)(皮爾遜、Cos、互信息等)等。2)包裝方式:將特征組合的選擇看做是一個在特征空間的搜索問題,比如啟發(fā)式的搜索方法等。3)嵌入方式:將特征選擇的過程嵌入到模型訓(xùn)練的過程中,其實也是就是正則化的方法,比如lasso回歸、ridge回歸等。數(shù)據(jù)預(yù)處理——數(shù)據(jù)降維常見特征降維方法特性抽取特征抽取是指改變原有的特征空間,并將其映射到一個新的特征空間。例如某個特征是一張圖片,將這張圖片中的點,線條或顏色提取出來并參數(shù)化,就是一個特征抽取的過程。常見的特征抽取方法有:1)PCA主成分分析。其思想是將n維特征映射到k維上(k<n),這k維是全新的正交特征。這k維特征稱為主元,是重新構(gòu)造出來的k維特征,而不是簡單地從n維特征中去除其余n-k維特征。通過協(xié)方差矩陣的特征值分解能夠得到數(shù)據(jù)的主成分,PCA的目標(biāo)是發(fā)現(xiàn)特征之間的線性關(guān)系,并去除。數(shù)據(jù)需要去中心化。2)LDA線性判別式分析。使用類別信息,選擇使類內(nèi)方差小而類間方差大的方向作為投影方向,將數(shù)據(jù)投影到維度更低的空間中,使得投影后的點區(qū)分度更高。3)SVD奇異值分解。直接對特征矩陣進行SVD分解,然后近似表示原矩陣。注意,SVD可以獲取多個方向上的主成分,而PCA只能獲得單個方向上的主成分。數(shù)據(jù)預(yù)處理參考資料《數(shù)據(jù)挖掘:概念與技術(shù)》韓家煒《數(shù)據(jù)挖掘?qū)д摗逢惙饽堋稒C器學(xué)習(xí)實戰(zhàn)》Peter參考工具Python:scikit-learn、pandas
/stable/MatlabRThankYou!數(shù)據(jù)倉庫與數(shù)據(jù)立方體Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)數(shù)據(jù)倉庫產(chǎn)生的背景數(shù)據(jù)的一項重要作用是為管理決策人員提供幫助,通過對數(shù)據(jù)進行整合、清洗和分析,管理人員能夠得到更準(zhǔn)確、更全面的信息支持,從而做出更具前瞻性和決策性的選擇。一種直接的想法是利用數(shù)據(jù)庫進行統(tǒng)計分析,形成如圖3-1所示的自然演化的體系架構(gòu)。數(shù)據(jù)倉庫產(chǎn)生的背景自然演化的體系架構(gòu)主要存在以下缺陷:缺乏統(tǒng)一的數(shù)據(jù)來源缺乏統(tǒng)一的時間基準(zhǔn)數(shù)據(jù)口徑差異數(shù)據(jù)獲取效率低數(shù)據(jù)集成時間長看懂?dāng)?shù)據(jù)困難以及數(shù)據(jù)加工速度慢數(shù)據(jù)倉庫概念的提出為了應(yīng)對這些問題,提出了數(shù)據(jù)倉庫的概念。與“分散式管理”的自然演化體系架構(gòu)不同,數(shù)據(jù)倉庫是一種“中央集中式管理”的數(shù)據(jù)架構(gòu)。這種管理架構(gòu)會對數(shù)據(jù)統(tǒng)一進行清洗、整合和建模,使得數(shù)據(jù)變得更加一致、準(zhǔn)確和可信,消除不同數(shù)據(jù)源之間的口徑差異,提高數(shù)據(jù)一致性和質(zhì)量。數(shù)據(jù)倉庫的定義數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理者的決策過程。
面向主題的(subject-oriented):數(shù)據(jù)倉庫的構(gòu)建通常圍繞的是一些比較重要的主題而構(gòu)建,例如產(chǎn)品、客戶或銷售等。集成的(integrated):數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫進行數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的時變的(time-variant):數(shù)據(jù)倉庫可以保存過去的數(shù)據(jù),并且可以顯示數(shù)據(jù)隨著時間的推移而發(fā)生的變化。非易失的(nonvolatile):數(shù)據(jù)倉庫的非易失性意味著數(shù)據(jù)在數(shù)據(jù)倉庫中是安全的、不容易丟失的。數(shù)據(jù)倉庫與數(shù)據(jù)庫之間的區(qū)別數(shù)據(jù)庫與數(shù)據(jù)倉庫的區(qū)別,在本質(zhì)上就是在線事務(wù)處理(OLTP)和在線分析處理(OLAP)的區(qū)別Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)基本架構(gòu)介紹每個數(shù)據(jù)倉庫系統(tǒng)的核心都有三個主要的組件,分別是:數(shù)據(jù)來源、提取-加載-轉(zhuǎn)換(ELT)過程以及數(shù)據(jù)倉庫本身。大部分?jǐn)?shù)據(jù)倉庫系統(tǒng)還有數(shù)據(jù)應(yīng)用部分?jǐn)?shù)據(jù)倉庫系統(tǒng)分層意義數(shù)據(jù)倉庫系統(tǒng)的分層模式是一種在數(shù)據(jù)倉庫設(shè)計中常用的組織模式,通過將數(shù)據(jù)按照不同的層級進行劃分和管理,以實現(xiàn)更高效、更靈活的數(shù)據(jù)處理和利用。數(shù)據(jù)倉庫系統(tǒng)的分層模式主要具備以下幾點作用:分層模式使得數(shù)據(jù)組織結(jié)構(gòu)更清晰提供數(shù)據(jù)血緣追蹤功能減少重復(fù)開發(fā)簡化復(fù)雜的問題減少業(yè)務(wù)的影響數(shù)據(jù)倉庫分層介紹從數(shù)據(jù)倉庫的基本架構(gòu)圖中可以看到,數(shù)據(jù)倉庫包含了多個層級,其中每個層級都有著其特定的功能和處理原則。下面依次介紹數(shù)據(jù)倉庫各層級的用途和處理原則
原始數(shù)據(jù)層(OperationalDataStore)是數(shù)據(jù)倉庫中的一個重要組成部分,它用于存儲從各個業(yè)務(wù)系統(tǒng)中提取的、經(jīng)過簡單清洗和整合后的原始數(shù)據(jù)。原始數(shù)據(jù)層通常是數(shù)據(jù)倉庫架構(gòu)中的第一層,也是與業(yè)務(wù)系統(tǒng)交互的接口。數(shù)據(jù)倉庫分層介紹數(shù)據(jù)明細層(DataWarehouseDetail)中的數(shù)據(jù)是原始數(shù)據(jù)層數(shù)據(jù)經(jīng)過清洗、轉(zhuǎn)換后得到的明細數(shù)據(jù),保留了數(shù)據(jù)加載過程中的全部信息。同時包含了各種維度表和事實表,可以支持復(fù)雜的查詢和分析需求。此外還保留了歷史數(shù)據(jù),能夠支持時間上的溯源和趨勢分析。該層中的數(shù)據(jù)質(zhì)量較高,經(jīng)過清洗、轉(zhuǎn)換、整合等處理,確保數(shù)據(jù)準(zhǔn)確性和一致性。數(shù)據(jù)倉庫分層介紹數(shù)據(jù)匯總層(DataWarehouseSummary)通常用于存儲經(jīng)過清洗、轉(zhuǎn)換和集成后的數(shù)據(jù)。這一層位于數(shù)據(jù)倉庫的核心位置,主要負(fù)責(zé)將來自數(shù)據(jù)源的數(shù)據(jù)進行整合,并提供給決策支持系統(tǒng)和業(yè)務(wù)智能應(yīng)用程序使用。數(shù)據(jù)倉庫分層介紹數(shù)據(jù)應(yīng)用層(ApplicationDataStore)是根據(jù)業(yè)務(wù)需要,由數(shù)據(jù)明細層、數(shù)據(jù)匯總層數(shù)據(jù)統(tǒng)計而出的結(jié)果,該層旨在為數(shù)據(jù)分析和報表生成等工作提供高性能的數(shù)據(jù)查詢和訪問能力,以支持業(yè)務(wù)決策和報告需求。該層與數(shù)據(jù)應(yīng)用部分結(jié)合之后,可以為用戶提供靈活的數(shù)據(jù)查詢和分析功能,支持用戶通過圖表、報表等形式直觀地分析數(shù)據(jù),使用戶能夠根據(jù)自身需求快速獲取所需數(shù)據(jù),并進行多維分析、數(shù)據(jù)挖掘等操作。Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)數(shù)據(jù)立方體的基本概念數(shù)據(jù)立方體是一種多維數(shù)據(jù)集合,通常用于存儲和分析數(shù)據(jù)倉庫中的大量數(shù)據(jù)。它由一個或多個維度和度量組成,維度表示數(shù)據(jù)的屬性或者類別,度量則表示要分析的數(shù)據(jù)指標(biāo)。通過將數(shù)據(jù)按照不同維度組織,可以形成一個多維數(shù)據(jù)集合,這種數(shù)據(jù)結(jié)構(gòu)就是數(shù)據(jù)立方體。數(shù)據(jù)立方體的基本概念需要注意的是,盡管人們經(jīng)常把數(shù)據(jù)立方體看作三維幾何結(jié)構(gòu),但是在數(shù)據(jù)倉庫中,數(shù)據(jù)立方體是N維的,而不限于三維。數(shù)據(jù)立方體主要具備以下特點:1)多維性:數(shù)據(jù)立方體是一個多維數(shù)據(jù)集合,可以包含多個維度和度量,從而更全面地描述數(shù)據(jù)。2)預(yù)計算:為了提高查詢效率,數(shù)據(jù)立方體通常會事先計算并存儲聚合數(shù)據(jù),而不是每次查詢時都重新計算。3)快速響應(yīng):由于預(yù)計算的結(jié)果,數(shù)據(jù)立方體可以快速響應(yīng)用戶的查詢請求,提高數(shù)據(jù)分析的效率。4)易于理解:通過數(shù)據(jù)立方體,用戶可以直觀地理解數(shù)據(jù)之間的關(guān)系,進行交互式分析和探索。數(shù)據(jù)立方體的基本概念二維數(shù)據(jù)立方體四維數(shù)據(jù)立方體三維數(shù)據(jù)立方體數(shù)據(jù)立方體的組成元素數(shù)據(jù)立方體的組成元素主要包括維度、度量、層次、聚集、維度表和事實表等1)維度(Dimensions):維度是數(shù)據(jù)立方體中用于對數(shù)據(jù)進行分類和分組的屬性或者特征。2)度量(Measures):度量是數(shù)據(jù)立方體中需要進行分析和計算的指標(biāo)或數(shù)值,用來衡量業(yè)務(wù)績效或者其他關(guān)鍵性能指標(biāo)。3)層次(Hierarchies):層次定義了維度之間的父子關(guān)系,描述了維度值之間的層級結(jié)構(gòu)。4)聚集(Aggregates):聚集是預(yù)先計算并存儲在數(shù)據(jù)立方體中的匯總數(shù)據(jù),例如總銷售額、平均利潤等。5)維度表(DimensionTables):維度表是包含維度屬性信息的表格,用于描述維度的具體內(nèi)容和特征。6)事實表(FactTable):事實表是包含度量信息的表格,用于存儲需要分析的數(shù)值型數(shù)據(jù)。多維數(shù)據(jù)模型的模式多維數(shù)據(jù)模型的模式定義了數(shù)據(jù)在多個維度上的組織結(jié)構(gòu)和關(guān)聯(lián)關(guān)系。目前最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型,包括星形模式、雪花模式和事實星座模式等星形模式(starschema):星型模式是數(shù)據(jù)倉庫中最常用的多維數(shù)據(jù)模型之一,它采用星型結(jié)構(gòu)來組織數(shù)據(jù)。在星型模式中,中心是一個事實表(FactTable),周圍圍繞著多個維度表(DimensionTables),構(gòu)成了一個星型的結(jié)構(gòu)。多維數(shù)據(jù)模型的模式多維數(shù)據(jù)模型的模式定義了數(shù)據(jù)在多個維度上的組織結(jié)構(gòu)和關(guān)聯(lián)關(guān)系。目前最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型,包括星形模式、雪花模式和事實星座模式等雪花模式(snowflakeschema):雪花模式是一種數(shù)據(jù)倉庫多維數(shù)據(jù)模型設(shè)計結(jié)構(gòu),是在星型模式的基礎(chǔ)上發(fā)展而來的設(shè)計模式。在雪花模式中,維度表被進一步規(guī)范化,因此比星型模式具有更復(fù)雜的結(jié)構(gòu),其組成要素包括事實表、維度表和規(guī)范化維度表。多維數(shù)據(jù)模型的模式多維數(shù)據(jù)模型的模式定義了數(shù)據(jù)在多個維度上的組織結(jié)構(gòu)和關(guān)聯(lián)關(guān)系。目前最流行的數(shù)據(jù)倉庫數(shù)據(jù)模型是多維數(shù)據(jù)模型,包括星形模式、雪花模式和事實星座模式等事實星座模式(factconstellation):復(fù)雜的應(yīng)用可能需要多個事實表共享維表。這種模式可以看做星形模式的匯集,因此稱做星系模式(galaxyschema)或事實星座。事實星座模式支持復(fù)雜的數(shù)據(jù)關(guān)系和多變的數(shù)據(jù)分析需求,適用于需要處理多種不同業(yè)務(wù)過程和度量的場景。事實星座的組成要素包括多個事實表、多個維度表和事實表之間的聯(lián)系。Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)OLAP概念在線分析處理OLAP,是一種用于快速分析、探索和匯總多維數(shù)據(jù)的計算技術(shù)。OLAP技術(shù)是基于數(shù)據(jù)倉庫中數(shù)據(jù)立方體的操作,旨在幫助用戶進行復(fù)雜的數(shù)據(jù)分析和提供決策支持,OLAP的核心特點如下:多維性:OLAP能夠處理多維數(shù)據(jù),允許用戶以不同的角度(維度)對數(shù)據(jù)進行分析,支持多維數(shù)據(jù)切片和切塊操作。實時分析:OLAP技術(shù)支持用戶對數(shù)據(jù)進行即時的、動態(tài)的分析,用戶可以隨時根據(jù)需要進行數(shù)據(jù)探索和交互式查詢。聯(lián)機:OLAP能夠直接連接到數(shù)據(jù)倉庫或數(shù)據(jù)源,具有快速響應(yīng)用戶查詢的特點,以便用戶可以實時獲取數(shù)據(jù)分析結(jié)果。分析功能:OLAP提供強大的分析功能,如數(shù)據(jù)的上卷、下鉆、轉(zhuǎn)軸、切片和切塊等方法,幫助用戶深入分析數(shù)據(jù)OLAP的基本操作OLAP依托于多維數(shù)據(jù)模型,定義了一系列專門針對數(shù)據(jù)分析的基本操作類型,主要包括:上卷(Roll-up)、下鉆(Drill-down)、切片(Slice)、切塊(Dice)以及轉(zhuǎn)軸(Pivot)。通過這些基本操作的組合使用,用戶可以很方便的在數(shù)據(jù)倉庫中完成對數(shù)據(jù)的處理和分析OLAP的基本操作上卷(roll-up):上卷操作是將數(shù)據(jù)從較低層次的維度匯總到較高層次的維度,減少數(shù)據(jù)的細節(jié),以獲得總體性的視圖。下圖顯示了在維location上對中心立方體執(zhí)行上卷操作的結(jié)果。所展示的上卷操作沿location的分層,由city層向上到country層聚集數(shù)據(jù)。OLAP的基本操作下鉆(drill-down):下鉆操作是在匯總數(shù)據(jù)的基礎(chǔ)上,查看較低層次的細節(jié)數(shù)據(jù),以便深入了解具體細節(jié)。下圖顯示沿著“day<month<quarter<year”定義的time維的概念分層向下,在中心立方體執(zhí)行下鉆操作的結(jié)果。這里下鉆由time維的分層結(jié)構(gòu)向下,從quarter層到更詳細的month層。OLAP的基本操作切片(slice):切片是選取多維數(shù)據(jù)集中的一個子集,即在某個固定維度上進行數(shù)據(jù)的篩選和分析。下圖表示了一個切片操作,它對中心立方體使用條件time=“Q1”對維time選擇銷售數(shù)據(jù)。OLAP的基本操作切塊(dice):切塊是在多維數(shù)據(jù)集中選擇兩個或多個維度的交叉區(qū)塊(subset),對其進行分析和比較。下圖表示了一個切塊操作,它涉及三個維,根據(jù)如下條件對中心立方體切塊:(location=“南京”or“武漢”)and(time=“Q1”or“Q2”)and(item=“日常用品”or“飲料”)。OLAP的基本操作轉(zhuǎn)軸(pivot):轉(zhuǎn)軸操作是改變多維數(shù)據(jù)立方體中的視角,重新排列維度的位置以獲得新的數(shù)據(jù)觀察角度。下圖顯示了一個轉(zhuǎn)軸操作,其中item和location軸在一個2-D切片上轉(zhuǎn)動。OLAP系統(tǒng)的實現(xiàn)分類常見的OLAP系統(tǒng)可以分為以下三類::多維聯(lián)機實時分析系統(tǒng)(MOLAP),關(guān)系型聯(lián)機實時分析系統(tǒng)(ROLAP),混合型聯(lián)機實時分析系統(tǒng)(HOLAP)MOLAP通過基于數(shù)組的多維存儲引擎,支持?jǐn)?shù)據(jù)的多維視圖。它們將多維視圖直接映射到數(shù)據(jù)立方體數(shù)組結(jié)構(gòu)。典型的MOLAP框架如下圖所示。MOLAP中的數(shù)據(jù)來自數(shù)據(jù)倉庫或者來自存儲在多維立方體中的操作型數(shù)據(jù)源。底層數(shù)據(jù)的復(fù)雜性對于MOLAP工具的使用者是隱藏的。OLAP系統(tǒng)的實現(xiàn)分類常見的OLAP系統(tǒng)可以分為以下三類::多維聯(lián)機實時分析系統(tǒng)(MOLAP),關(guān)系型聯(lián)機實時分析系統(tǒng)(ROLAP),混合型聯(lián)機實時分析系統(tǒng)(HOLAP)ROLAP介于關(guān)系型數(shù)據(jù)庫(后端)和客戶前端工具之間。它們使用關(guān)系的或擴充關(guān)系的數(shù)據(jù)庫管理系統(tǒng)存儲并管理數(shù)據(jù)倉庫數(shù)據(jù),而OLAP中間件支持其余部分。典型的ROLAP框架的高層視圖如圖3-17所示。ROLAP工具也提供本章之前描述的常用OLAP功能。ROLAP服務(wù)將查詢轉(zhuǎn)換成SQL語句,SQL語句被發(fā)送到由關(guān)系型數(shù)據(jù)庫支持的數(shù)據(jù)倉庫中。關(guān)系型數(shù)據(jù)庫執(zhí)行查詢,并將查詢的結(jié)果集合發(fā)送到ROLAP服務(wù)器上,最終交給OLAP/BI工具終端用戶。OLAP系統(tǒng)的實現(xiàn)分類常見的OLAP系統(tǒng)可以分為以下三類::多維聯(lián)機實時分析系統(tǒng)(MOLAP),關(guān)系型聯(lián)機實時分析系統(tǒng)(ROLAP),混合型聯(lián)機實時分析系統(tǒng)(HOLAP)混合OLAP方法結(jié)合ROLAP和MOLAP技術(shù),得益于ROLAP較大的可伸縮性和MOLAP的快速計算,使得其既能處理大規(guī)模數(shù)據(jù),又能提供快速查詢性能。HOLAP在數(shù)據(jù)存儲和查詢時能夠根據(jù)需求自動選擇合適的存儲方式,既可以利用多維數(shù)據(jù)立方體進行快速查詢,也可以利用關(guān)系型數(shù)據(jù)庫支持復(fù)雜查詢。Contents數(shù)據(jù)倉庫背景及定義01數(shù)據(jù)倉庫系統(tǒng)架構(gòu)02數(shù)據(jù)立方體03OLAP0405本章小結(jié)本章小結(jié)數(shù)據(jù)倉庫是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉庫的產(chǎn)生背景主要是由于企業(yè)需要更好地管理和分析海量數(shù)據(jù)以支持決策,而傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)無法滿足復(fù)雜的分析需求。數(shù)據(jù)倉庫核心組件包括數(shù)據(jù)來源、ELT、數(shù)據(jù)倉庫和數(shù)據(jù)應(yīng)用等。數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別在于目標(biāo)、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)處理方式等方面。數(shù)據(jù)倉庫旨在支持決策分析,數(shù)據(jù)處理方式大都“讀多寫少”;而數(shù)據(jù)庫用于日常事務(wù)處理,數(shù)據(jù)結(jié)構(gòu)為規(guī)范化形式,讀寫操作相對平衡。數(shù)據(jù)立方體是數(shù)據(jù)倉庫中一種多維數(shù)據(jù)模型,用于對數(shù)據(jù)進行多維分析。數(shù)據(jù)立方體由維度、度量、層次、聚集、維度表和事實表等部分組成,常見的模式包括星型模式、雪花模式和事實星座模式。OLAP是一種用于多維數(shù)據(jù)分析的技術(shù),基本操作包括上卷、下鉆、切片、切塊和轉(zhuǎn)軸等。常見的OLAP系統(tǒng)可以分為多維聯(lián)機實時分析系統(tǒng)、關(guān)系型聯(lián)機實時分析系統(tǒng)和混合型聯(lián)機實時分析系統(tǒng)。ThankYou!關(guān)聯(lián)規(guī)則挖掘05高級關(guān)聯(lián)模式挖掘背景介紹01Contents關(guān)聯(lián)規(guī)則挖掘的基本概念02頻繁項集挖掘算法03關(guān)聯(lián)規(guī)則挖掘0406推薦系統(tǒng)中的關(guān)聯(lián)規(guī)則挖掘超市消費者購物小票說起“購買啤酒的男士經(jīng)常會購買小孩的紙尿布”不同商品間的關(guān)聯(lián)規(guī)則背景介紹谷歌預(yù)測2009年部分地區(qū)的流感“2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進行比較,并建立一個特定的數(shù)學(xué)模型。最終Google成功預(yù)測了2009冬季流感的傳播甚至可以具體到特定的地區(qū)和州。”背景介紹超市預(yù)知高中生顧客懷孕明尼蘇達州一家塔吉特(Target)門店被客戶投訴,一位中年男子指控塔吉特將嬰兒產(chǎn)品優(yōu)惠券寄給他的女兒——一個高中生。但沒多久他卻來電道歉,因為女兒經(jīng)他逼問后坦承自己真的懷孕了。塔吉特百貨就是靠著分析用戶所有的購物數(shù)據(jù),然后通過相關(guān)關(guān)系分析得出事情的真實狀況。背景介紹電表與空置房的匹配背景介紹05高級關(guān)聯(lián)模式挖掘背景介紹01Contents關(guān)聯(lián)規(guī)則挖掘的基本概念02頻繁項集挖掘算法03關(guān)聯(lián)規(guī)則挖掘0406推薦系統(tǒng)中的關(guān)聯(lián)規(guī)則挖掘購物籃事務(wù)下面表格中存儲的數(shù)據(jù)可以稱為購物籃事務(wù)。事務(wù):事務(wù)表示為形如<t,X>的元組事務(wù)標(biāo)識符(TID):事務(wù)中的t項集:
,如果一個項集包含k個項,則稱為k-項集。如{面包,尿布,啤酒,牛奶}為3-項集。TID項集1{面包,牛奶}2{面包,尿布,啤酒,牛奶}3{牛奶,尿布,啤酒,可樂}事務(wù)關(guān)聯(lián)規(guī)則挖掘關(guān)聯(lián)規(guī)則:是形如的表達式,其中
和是兩個不相交的項集。關(guān)聯(lián)規(guī)則挖掘步驟:頻繁項集產(chǎn)生:使用頻繁項集挖掘算法,找出滿足最小支持度閾值的所有項集,這些項集為頻繁項集。規(guī)則生成:從上一步得到的頻繁項集中過濾出滿足最小置信度閾值的規(guī)則,這些規(guī)則稱為強規(guī)則。關(guān)聯(lián)規(guī)則挖掘支持度計數(shù):指一個項集在所有事務(wù)中出現(xiàn)的次數(shù)。換言之,它是該項集在事務(wù)數(shù)據(jù)庫中的絕對頻率。數(shù)學(xué)上可以表示為。支持度:支持度計數(shù)與總事務(wù)數(shù)的比例,表示在所有事務(wù)中有多少比例的事務(wù)包含該項集。這是一個標(biāo)準(zhǔn)化的指標(biāo),用于評估項集的普遍性。支持度的數(shù)學(xué)定義如下,N表示事務(wù)總數(shù)。在關(guān)聯(lián)規(guī)則挖掘中,支持度是用于初步篩選數(shù)據(jù)中潛在有用模式的重要工具。只有當(dāng)項集的支持度達到預(yù)設(shè)的最小支持度閾值時,這些項集才被認(rèn)為是頻繁項集。格結(jié)構(gòu)格結(jié)構(gòu):挖掘頻繁項集時,候選項集之間的包含關(guān)系所形成的結(jié)構(gòu)。性質(zhì):如果一個項集是另一個項集的子集,那么它們之間就存在一條連接。圖中顯示的是的項集格,其中2-項集{A,B}是3-項集{A,B,C}的直接子集。05高級關(guān)聯(lián)模式挖掘背景介紹01Contents關(guān)聯(lián)規(guī)則挖掘的基本概念02頻繁項集挖掘算法03關(guān)聯(lián)規(guī)則挖掘0406推薦系統(tǒng)中的關(guān)聯(lián)規(guī)則挖掘樸素法樸素法:將所有的k-項集作為候選項集,然后確定其在輸入數(shù)據(jù)中的支持度選出頻繁項集。算法步驟:候選生成:一次性生成所有候選項集,第k層的候選項集的數(shù)目為,其中d
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 軟硬件在金融中的應(yīng)用試題及答案
- 2024年CFA考試的考核標(biāo)準(zhǔn)試題及答案
- CFA考試候選人策略分享與試題及答案
- 中學(xué)英語教師專業(yè)化及對高師英語專業(yè)的啟示
- 2024年金融分析師考試知識重難點與試題及答案
- 潛能開發(fā)心理課件
- 投資組合的風(fēng)險收益分析試題及答案
- 特許金融分析師考試的新增內(nèi)容試題及答案
- 2025年遼寧省名校聯(lián)盟高考英語模擬試卷(3月份)
- 【初中歷史】北宋的政治課件-2024-2025學(xué)年統(tǒng)編版七年級歷史下冊
- 第13課走進青春期友誼課件小學(xué)心理健康六年級
- 河南機電職業(yè)學(xué)院單招《職業(yè)技能測試》參考試題庫(含答案)
- 電力各種材料重量表總
- 《如何做好辯證施護》課件
- 加油站安全風(fēng)險評估與控制培訓(xùn)
- 中醫(yī)養(yǎng)生館運營方案項目運營方案
- 質(zhì)檢員識圖培訓(xùn)機械制圖基礎(chǔ)培訓(xùn)快速識圖
- 尪痹的護理查房
- 艾瑞咨詢-2024年中國數(shù)字世界平臺創(chuàng)新趨勢發(fā)展研究報告:以實為本以虛強實
- 精神科理論知識考核試題題庫及答案
- 99D102-1 6~10kV鐵橫擔(dān)架空絕緣線路安裝
評論
0/150
提交評論