版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘技術(shù)與應(yīng)用萬(wàn)千Contents什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘與其他學(xué)科間的關(guān)系數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的功能和算法數(shù)據(jù)挖掘案例分析 數(shù)據(jù)挖掘是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。 與數(shù)據(jù)挖掘類似但稍有不同含義的術(shù)語(yǔ)有:p 從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)(Knowledge Discovery from/in Database, KDD)p 知識(shí)提?。↘nowledge extract)p 數(shù)據(jù) /模式分析(Data / Model analysis )。p 數(shù)據(jù)考古p 數(shù)據(jù)捕撈 技術(shù)上的定義 商業(yè)角度的定義什么是數(shù)據(jù)挖掘技術(shù)上的定義 數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊
2、的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。商業(yè)角度的定義 數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。 數(shù)據(jù)挖掘的定義(續(xù)) 人們給數(shù)據(jù)挖掘下過(guò)很多定義,內(nèi)涵也各不相同,目前公認(rèn)的定義是由Fayyad等人提出的。 所謂基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)(KDD)是指從大量數(shù)據(jù)中提取有效的、新穎的、潛在有用的、最終可被理解的模式的非平凡過(guò)程。 Contents什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘與其他學(xué)科間的關(guān)系數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的功能和算法數(shù)據(jù)挖掘案例分析
3、數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)技術(shù)高性能計(jì)算統(tǒng)計(jì)學(xué)人工智能可視化數(shù)據(jù)挖掘是多學(xué)科的產(chǎn)物數(shù)據(jù)挖掘與統(tǒng)計(jì)學(xué)的關(guān)系為什么數(shù)據(jù)挖掘不是傳統(tǒng)的數(shù)據(jù)分析?數(shù)據(jù)挖掘不是統(tǒng)計(jì)學(xué)的分支統(tǒng)計(jì)學(xué)是數(shù)據(jù)挖掘的核心910為什么數(shù)據(jù)挖掘不是傳統(tǒng)的數(shù)據(jù)分析?u1、海量數(shù)據(jù)高維、高復(fù)雜度的數(shù)據(jù)算法必須能夠處理諸如千兆的海量數(shù)據(jù)。u2、統(tǒng)計(jì)學(xué)具有某種保守性,它傾向于盡量地避免出現(xiàn)特殊方法的運(yùn)用,而偏好于數(shù)學(xué)上的嚴(yán)格性;數(shù)據(jù)挖掘分析問(wèn)題喜歡“冒險(xiǎn)”的態(tài)度。u3、在現(xiàn)代統(tǒng)計(jì)學(xué)中,模型是主要的,而對(duì)于模型的選擇標(biāo)準(zhǔn)、如何計(jì)算等則都是次要的。但是在數(shù)據(jù)挖掘中,算法也扮演著重要的角色。u4、統(tǒng)計(jì)學(xué)方法的前提假設(shè)。而數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提
4、下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知、有效和可實(shí)用三個(gè)特征。11u5、在統(tǒng)計(jì)理論方面:統(tǒng)計(jì)推斷的基礎(chǔ)“總體”和“樣本”的概念是否還繼續(xù)適用?l面對(duì)如此大量的數(shù)據(jù)很難定義總體和樣本;大樣本漸近性質(zhì)是否滿足?l由于數(shù)據(jù)量太大,傳統(tǒng)的統(tǒng)計(jì)量無(wú)論真實(shí)情況如何都會(huì)變得“顯著”;統(tǒng)計(jì)假設(shè)檢驗(yàn)使用的小概率原理是否還適用?l因?yàn)榧俣ㄐ「怕适录谝淮螌?shí)驗(yàn)中不會(huì)發(fā)生是合理的,而數(shù)據(jù)量大到一定程度之后,小概率事件一定會(huì)發(fā)生。12統(tǒng)計(jì)學(xué)是數(shù)據(jù)挖掘的核心u統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo)。統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘有著共同的目標(biāo):發(fā)現(xiàn)數(shù)據(jù)中的結(jié)構(gòu)或模式。u統(tǒng)計(jì)學(xué)在數(shù)據(jù)挖掘中起著重要的作用。傳統(tǒng)的統(tǒng)計(jì)學(xué)方法是數(shù)據(jù)
5、挖掘的經(jīng)典方法,統(tǒng)計(jì)學(xué)思想在整個(gè)數(shù)據(jù)挖掘過(guò)程都有重要的體現(xiàn),擔(dān)負(fù)著不可忽視的重任。13數(shù)據(jù)挖掘與人工智能、統(tǒng)計(jì)學(xué) 數(shù)據(jù)挖掘利用了人工智能和統(tǒng)計(jì)分析的進(jìn)步所帶來(lái)的好處。這兩門(mén)學(xué)科都致力于模式發(fā)現(xiàn)和預(yù)測(cè)。 數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計(jì)分析技術(shù)。相反,它是統(tǒng)計(jì)分析方法學(xué)的延伸和擴(kuò)展。大多數(shù)的統(tǒng)計(jì)分析技術(shù)都基于完善的數(shù)學(xué)理論和高超的技巧,預(yù)測(cè)的準(zhǔn)確度還是令人滿意的,但對(duì)使用者的要求很高。而隨著計(jì)算機(jī)計(jì)算能力的不斷增強(qiáng),我們有可能利用計(jì)算機(jī)強(qiáng)大的計(jì)算能力只通過(guò)相對(duì)簡(jiǎn)單和固定的方法完成同樣的功能。一些新興的技術(shù)同樣在知識(shí)發(fā)現(xiàn)領(lǐng)域取得了很好的效果,如神經(jīng)元網(wǎng)絡(luò)和決策樹(shù),在足夠多的數(shù)據(jù)和計(jì)算能力下,它們幾乎
6、不需人工干預(yù)就能自動(dòng)完成許多有價(jià)值的功能。 數(shù)據(jù)挖掘就是充分利用了統(tǒng)計(jì)學(xué)和人工智能技術(shù)的應(yīng)用程序,并把這些高深復(fù)雜的技術(shù)封裝起來(lái),使人們不用自己掌握這些技術(shù)也能完成同樣的功能,并且更專注于自己所要解決的問(wèn)題。Contents什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘與其他學(xué)科間的關(guān)系數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的功能和算法數(shù)據(jù)挖掘案例分析知識(shí) 目標(biāo)數(shù)據(jù) 已預(yù)處理 數(shù)據(jù) 變換后 數(shù)據(jù) 模式 數(shù)據(jù) 篩選 預(yù)處理 變換 數(shù)據(jù)挖掘 解釋/評(píng)價(jià) 數(shù)據(jù)挖掘(KDD)過(guò)程數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的核心數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)的核心步驟步驟數(shù)據(jù)挖掘過(guò)程u數(shù)據(jù)挖掘是一個(gè)反復(fù)迭代的人機(jī)交互處理過(guò)程。該過(guò)程需要經(jīng)歷多個(gè)步驟,并且很多決策需要由用戶
7、提供。 u從宏觀上看,數(shù)據(jù)挖掘過(guò)程主要由三個(gè)部分組成,即數(shù)據(jù)整理、數(shù)據(jù)挖掘和結(jié)果的解釋評(píng)估。 (1)定義商業(yè)問(wèn)題 要想充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,必須要對(duì)目標(biāo)有一個(gè)清晰明確的定義,即決定到底想干什么。否則,很難得到正確的結(jié)果。 (2)建立數(shù)據(jù)挖掘庫(kù) 數(shù)據(jù)準(zhǔn)備工作大概要花去整個(gè)數(shù)據(jù)挖掘項(xiàng)目的50%-90%的時(shí)間和精力。一般來(lái)說(shuō),直接在公司的數(shù)據(jù)倉(cāng)庫(kù)上進(jìn)行數(shù)據(jù)挖掘是不合適的,最好建立一個(gè)獨(dú)立的數(shù)據(jù)集。 建立數(shù)據(jù)挖掘庫(kù)可分成如下幾個(gè)部分: a) 數(shù)據(jù)收集 b) 數(shù)據(jù)描述 c) 選擇 d) 數(shù)據(jù)質(zhì)量評(píng)估和數(shù)據(jù)清理 e) 合并與整合 f) 構(gòu)建元數(shù)據(jù) g) 加載數(shù)據(jù)挖掘庫(kù) h) 維護(hù)數(shù)據(jù)挖掘庫(kù) (3)分析數(shù)
8、據(jù) 數(shù)據(jù)分析的目的:是找到對(duì)預(yù)測(cè)輸出影響最大的數(shù)據(jù)字段,并決定是否需要定義導(dǎo)出字段。(4)準(zhǔn)備數(shù)據(jù) 這是建立模型之前的最后一步數(shù)據(jù)準(zhǔn)備工作??煞殖?個(gè)部分:a)選擇變量; b)選擇記錄; c)創(chuàng)建新變量; d) 轉(zhuǎn)換變量。(5)建立模型 對(duì)建立模型來(lái)說(shuō)要記住的最重要的事是它是一個(gè)反復(fù)的過(guò)程。需要仔細(xì)考察不同的模型以判斷哪個(gè)模型對(duì)你的商業(yè)問(wèn)題最有用。 為了保證得到的模型具有較好的精確度和健壯性,需要一個(gè)定義完善的“訓(xùn)練驗(yàn)證”協(xié)議。有時(shí)也稱此協(xié)議為帶指導(dǎo)的學(xué)習(xí)。驗(yàn)證方法主要分為: a)簡(jiǎn)單驗(yàn)證法 b)交叉驗(yàn)證法:首先把原始數(shù)據(jù)隨機(jī)平分成兩份,然后用一部分做訓(xùn)練集另一部分做測(cè)試集計(jì)算錯(cuò)誤率,做完之后
9、把兩部分?jǐn)?shù)據(jù)交換再計(jì)算一次,得到另一個(gè)錯(cuò)誤率,最后再用所有的數(shù)據(jù)建立一個(gè)模型,把上面得到的兩個(gè)錯(cuò)誤率進(jìn)行平均作為最后用所有數(shù)據(jù)建立的模型的錯(cuò)誤率。 c)自舉法:是另一種評(píng)估模型錯(cuò)誤率的技術(shù)。在數(shù)據(jù)量很小時(shí)尤其適用。與交叉驗(yàn)證一樣模型是用所有的數(shù)據(jù)建立。(6)評(píng)價(jià)和解釋 a) 模型驗(yàn)證。模型建立好之后,必須評(píng)價(jià)其結(jié)果、解釋其價(jià)值。從測(cè)試集中得到的準(zhǔn)確率只對(duì)用于建立模型的數(shù)據(jù)有意義。在實(shí)際應(yīng)用中,隨著應(yīng)用數(shù)據(jù)的不同,模型的準(zhǔn)確率肯定會(huì)變化。更重要的是,準(zhǔn)確度自身并不一定是選擇最好模型的正確評(píng)價(jià)方法。需要進(jìn)一步了解錯(cuò)誤的類型和由此帶來(lái)的相關(guān)費(fèi)用的多少。 b)外部驗(yàn)證。無(wú)論我們用模擬的方法計(jì)算出來(lái)的模
10、型的準(zhǔn)確率有多高,都不能保證此模型在面對(duì)現(xiàn)實(shí)世界中真實(shí)的數(shù)據(jù)時(shí)能取得好的效果。經(jīng)驗(yàn)證有效的模型并不一定是正確的模型。造成這一點(diǎn)的直接原因就是模型建立中隱含的各種假定。 例如,在建立用戶購(gòu)買(mǎi)模式的模型時(shí),可能沒(méi)有考慮通貨膨脹的影響,但實(shí)施模型時(shí)通貨膨脹率突然由3%增加為17%,這顯然會(huì)對(duì)人們的購(gòu)買(mǎi)意向產(chǎn)生重大影響,因此再用原來(lái)的模型來(lái)預(yù)測(cè)客戶購(gòu)買(mǎi)情況必然會(huì)出現(xiàn)重大失誤。 (7)實(shí)施 模型建立并經(jīng)驗(yàn)證之后,可以有兩種主要的使用方法: 第一種方法,是提供給分析人員做參考,由他通過(guò)察看和分析這個(gè)模型之后提出行動(dòng)方案建議。比如可以把模型檢測(cè)到的聚集、模型中蘊(yùn)含的規(guī)則、或表明模型效果的圖表拿給分析人員看。
11、 另一種方法:是把此模型應(yīng)用到不同的數(shù)據(jù)集上。模型可以用來(lái)標(biāo)示一個(gè)事例的類別,給一項(xiàng)申請(qǐng)打分等。還可以用模型在數(shù)據(jù)庫(kù)中選擇符合特定要求的記錄,以用OLAP工具做進(jìn)一步的分析。 當(dāng)提交一個(gè)復(fù)雜的應(yīng)用時(shí),數(shù)據(jù)挖掘可能只是整個(gè)產(chǎn)品的一小部分,雖然可能是最關(guān)鍵的一部分。例如,常常把數(shù)據(jù)挖掘得到的知識(shí)與領(lǐng)域?qū)<业闹R(shí)結(jié)合起來(lái),然后應(yīng)用到數(shù)據(jù)庫(kù)中的數(shù)據(jù)。在欺詐檢測(cè)系統(tǒng)中可能既包含了數(shù)據(jù)挖掘發(fā)現(xiàn)的規(guī)律,也有人們?cè)趯?shí)踐中早已總結(jié)出的規(guī)律。 Contents什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘與其他學(xué)科間的關(guān)系數(shù)據(jù)挖掘的基本過(guò)程數(shù)據(jù)挖掘的功能和算法數(shù)據(jù)挖掘案例分析數(shù)據(jù)挖掘功能數(shù)據(jù)挖掘任務(wù)有兩類: 第一類是描述性挖掘任務(wù):刻
12、劃數(shù)據(jù)庫(kù)中數(shù)據(jù)的一般特性; 第二類是預(yù)測(cè)性挖掘任務(wù):在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。概念 / 類描述:特征化和區(qū)分 概念 / 類描述 (class / concept description):用匯總的、簡(jiǎn)潔的、精確的方式描述每個(gè)類和概念。 數(shù)據(jù)特征化 (data characterization) :是目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總。其中數(shù)據(jù)特征的輸出形式有:餅圖、條圖、曲線、多維數(shù)據(jù)立方體、多維表等。 數(shù)據(jù)區(qū)分 (Data discrimination) :是將目標(biāo)類對(duì)象的一般特性與一個(gè)或多個(gè)對(duì)比類對(duì)象的一般特性比較。關(guān)聯(lián)分析(1)定義:關(guān)聯(lián)分析 (association analys
13、is):發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示“屬性值”頻繁地在給定數(shù)據(jù)集中一起出現(xiàn)的條件。 關(guān)聯(lián)規(guī)則 (association rule): “X Y”,即 A1 A2 Am B1 B2 Bn 關(guān)聯(lián)規(guī)則分為兩類:一類是“多維關(guān)聯(lián)規(guī)則”(multi-dimensional association rule);另一類是“單維關(guān)聯(lián)規(guī)則”(single-dimensional association rule)。(2)實(shí)例 age(x, “20.29”) income(X, “20K.29K”) buys(X, “CD_player”) support = 2%, confidence = 60% 幾年來(lái),在基
14、于關(guān)聯(lián)規(guī)則的算法研究中先后出現(xiàn)了AIS、SETM等數(shù)據(jù)挖掘算法。其中最著名的算法是R.Agrawal等人提出的Apriori。 Apriori算法的核心思想是把發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的工作分為兩步:第一步通過(guò)迭代檢索出事務(wù)數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集,即頻繁項(xiàng)集的支持度不低于用戶設(shè)定的閾值;第二步從頻繁項(xiàng)集中構(gòu)造出滿足用戶最低信任度的規(guī)則。 關(guān)聯(lián)分析(1)定義 分類 (classification):是找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型(或函數(shù)),以便能夠使用模型預(yù)測(cè)類標(biāo)記未知的對(duì)象的過(guò)程。 注:導(dǎo)出模型(或函數(shù))是基于對(duì)訓(xùn)練數(shù)據(jù)集(即其類標(biāo)記已知的數(shù)據(jù)對(duì)象)的分析。(2)分類模型的導(dǎo)出方式 分類規(guī)則(IF-T
15、HEN)、決策樹(shù)、數(shù)學(xué)公式、神經(jīng)網(wǎng)絡(luò)等。(3)相關(guān)分析 (relevance analysis) 一般情況下,相關(guān)分析需要在分類和預(yù)測(cè)之前進(jìn)行,它試圖識(shí)別對(duì)于分類和預(yù)測(cè)無(wú)用的屬性,且這些屬性應(yīng)被排除。分類和預(yù)測(cè)Decision Tree決策樹(shù) 決策樹(shù)是用二叉樹(shù)形圖來(lái)表示處理邏輯的一種工具,是對(duì)數(shù)據(jù)進(jìn)行分類的方法。決策樹(shù)的目標(biāo)是針對(duì)類別因變量加以預(yù)測(cè)或解釋反應(yīng)結(jié)果。 主要有兩個(gè)步驟:首先,通過(guò)一批已知的樣本數(shù)據(jù)建立一棵決策樹(shù);然后,利用建好的決策樹(shù),對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)。 決策樹(shù)的建立過(guò)程可以看成是數(shù)據(jù)規(guī)則的生成過(guò)程,因此,決策樹(shù)實(shí)現(xiàn)了數(shù)據(jù)規(guī)則的可視化,其輸出結(jié)果也容易理解。292022-2-25決策
16、樹(shù)的應(yīng)用舉例2022-2-2530客戶信貸分類輸出結(jié)果:關(guān)于“buys_computer”的決策樹(shù)31神經(jīng)網(wǎng)絡(luò)32類神經(jīng)網(wǎng)絡(luò),類似人類神經(jīng)元結(jié)構(gòu)。神經(jīng)元的主要功能是接受刺激和傳遞信息。神經(jīng)元通過(guò)傳入神經(jīng)接受來(lái)自體內(nèi)外環(huán)境變化的刺激信息,并對(duì)這些信息加以分析、綜合和儲(chǔ)存,再經(jīng)過(guò)傳出神經(jīng)把指令傳到所支配的器官和組織,產(chǎn)生調(diào)節(jié)和控制效應(yīng)。33 單純貝葉斯分類主要是根據(jù)貝葉斯定理(Bayesian Theorem),來(lái)預(yù)測(cè)分類的結(jié)果。 貝葉斯定理:P(X)、P(H)和P(X|H)可以由給定的數(shù)據(jù)計(jì)算,是先驗(yàn)概率。貝葉斯定理提供了一種由P(X)、P(H)和P(X|H)計(jì)算后驗(yàn)概率P(H|X)的方法。貝葉
17、斯定理是:342022-2-25Nave Bayes 分類(|) ()(|)(|) ()(|) ()P X H P HP H XP X H P HP X H P H 實(shí)例:辦信用卡意愿分析項(xiàng)目年齡學(xué)生身分收入辦卡1男45否高 會(huì)2女3145否高會(huì)3女2030是低會(huì)4男20是低不會(huì)5女2030是中不會(huì)6女2030否中會(huì)7女3145否高會(huì)8男3145是中不會(huì)9男3145否中會(huì)10女01()= ()()niiikikP X CP CP CP x C()38 訓(xùn)練樣本中對(duì)于(女性,年齡介于3145之間,不具學(xué)生身份,收入中等)的個(gè)人,按照樸素貝葉斯分類會(huì)將其分到辦信用卡一類中。 辦卡的概率是(0.04
18、4)/(0.044+0)=1(正規(guī)化分類的結(jié)果P(會(huì))/(P(會(huì))+P(不會(huì))Logistic 回歸 假設(shè)有個(gè)科學(xué)家想要了解某種毒物對(duì)于老鼠死亡率的分析,他做了三次實(shí)驗(yàn),分別使用不同的毒物用量,去計(jì)算每一百只老鼠的死亡概率,然后他得到以下的結(jié)果: 使用10毫克毒物,死亡率為15 使用20毫克毒物,死亡率35 使用30毫克毒物,死亡率55 從這些數(shù)值看起來(lái),毒物的用量與死亡率呈現(xiàn)顯著的正比關(guān)系,而且我們可以計(jì)算出一條非常完美準(zhǔn)確的回歸線:Y=2X-5(Y為死亡率,X為毒物用量)。39 但是,這個(gè)方程式包含有一個(gè)重大錯(cuò)誤。假設(shè)我們使用100毫克毒物,根據(jù)方程式計(jì)算,這些老鼠的死亡率為195,也就是
19、說(shuō)每一百只老鼠會(huì)死195只,而如果我們完全不放任何毒物時(shí),死亡率為-5%,也就是每一百只老鼠會(huì)死負(fù)五只。 很顯然,這個(gè)線性回歸模型沒(méi)有考慮到幾個(gè)重要的限制,即當(dāng)我們使用毒物量降低時(shí),死亡率應(yīng)該是近于零(不會(huì)是負(fù)值),而當(dāng)毒物量增加時(shí),死亡率應(yīng)該是接近于100。 當(dāng)需要把概率限制在01時(shí),就可以考慮使用LOGISTIC回歸。40Logistic回歸模型的構(gòu)造v現(xiàn)y為發(fā)病或未發(fā)病,生存與死亡等定性分類變量,不能直接用回歸模型進(jìn)行分析。v能否用發(fā)病的概率P來(lái)直接代替 y呢?即v不行。但可以v因此,定義logit(P)= lnP/(1-P)為L(zhǎng)ogistic變換,則Logistic回歸模型為: 01122pp+PXXX01122ppln+1PXXXP 01122pplog+it PXXX41經(jīng)數(shù)學(xué)變換可得:01122pp01122ppexp(+)1+exp(+)XXXPXXX42 Logistic回歸模型是一種概率模型, 它是以疾病,死亡等結(jié)果發(fā)生的概率為因變量, 影響疾病發(fā)生的因素為自變量建立回歸模型。 它特別適用于因變量為二項(xiàng), 多項(xiàng)分類的資料。 43(1)定義 聚類 (clustering):與
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 單位管理制度集合大全人員管理篇十篇
- 單位管理制度集粹選集人事管理篇十篇
- 單位管理制度匯編大全人員管理十篇
- 《語(yǔ)文作業(yè)要求》課件
- 單位管理制度分享合集職工管理十篇
- 單位管理制度分享大合集職工管理
- 單位管理制度范文大合集職員管理十篇
- 單位管理制度范例匯編員工管理十篇
- 單位管理制度呈現(xiàn)匯編【人力資源管理】十篇
- 單位管理制度呈現(xiàn)大全員工管理十篇
- 手術(shù)室發(fā)生地震應(yīng)急預(yù)案演練
- 配合、協(xié)調(diào)、服務(wù)方案
- 市政工程監(jiān)理大綱
- 2023-2024學(xué)年廣東省廣州市黃埔區(qū)六年級(jí)(上)期末數(shù)學(xué)試卷(A卷)
- 初中數(shù)學(xué)新課程標(biāo)準(zhǔn)(2024年版)
- 2024年北京市學(xué)業(yè)水平合格性地理試卷(第一次)
- 黑龍江哈爾濱六中2025屆高三第六次模擬考試數(shù)學(xué)試卷含解析
- GB/T 36547-2024電化學(xué)儲(chǔ)能電站接入電網(wǎng)技術(shù)規(guī)定
- 期末測(cè)試卷(一)2024-2025學(xué)年 人教版PEP英語(yǔ)五年級(jí)上冊(cè)(含答案含聽(tīng)力原文無(wú)聽(tīng)力音頻)
- 2023-2024學(xué)年廣東省深圳市南山區(qū)八年級(jí)(上)期末英語(yǔ)試卷
- 漢服娃衣創(chuàng)意設(shè)計(jì)與制作智慧樹(shù)知到期末考試答案章節(jié)答案2024年四川文化產(chǎn)業(yè)職業(yè)學(xué)院
評(píng)論
0/150
提交評(píng)論