




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘最常見的十種方法下面介紹十種數(shù)據(jù)挖掘(Data Mining)的分析方法,以便于大家對(duì)模型的初步了解,這些都是日常挖掘中經(jīng)常遇到的算法,希望對(duì)大家有用?。ㄉ踔劣袛?shù)據(jù)挖掘公司,用其中的一種算法就能獨(dú)步天下)1、基于歷史的MBR分析(Memory-Based Reasoning;MBR)基于歷史的MBR分析方法最主要的概念是用已知的案例(case)來預(yù)測(cè)未來案例的一些屬性(attribute),通常找尋最相似的案例來做比較。記憶基礎(chǔ)推理法中有兩個(gè)主要的要素,分別為距離函數(shù)(distance function)與結(jié)合函數(shù)(combination function)。距離函數(shù)的用意在找出最相似
2、的案例;結(jié)合函數(shù)則將相似案例的屬性結(jié)合起來,以供預(yù)測(cè)之用。記憶基礎(chǔ)推理法的優(yōu)點(diǎn)是它容許各種型態(tài)的數(shù) 據(jù),這些數(shù)據(jù)不需服從某些假設(shè)。另一個(gè)優(yōu)點(diǎn)是其具備學(xué)習(xí)能力,它能藉由舊案例的學(xué)習(xí)來獲取關(guān)于新案例的知識(shí)。較令人詬病的是它需要大量的歷史數(shù)據(jù),有足夠 的歷史數(shù)據(jù)方能做良好的預(yù)測(cè)。此外記憶基礎(chǔ)推理法在處理上亦較為費(fèi)時(shí),不易發(fā)現(xiàn)最佳的距離函數(shù)與結(jié)合函數(shù)。其可應(yīng)用的范圍包括欺騙行為的偵測(cè)、客戶反應(yīng)預(yù) 測(cè)、醫(yī)學(xué)診療、反應(yīng)的歸類等方面。2、購物籃分析(Market Basket Analysis)購物籃分析最主要的目的在于找出什么樣的東西應(yīng)該放在一起?商業(yè)上的應(yīng)用在藉由顧客的購買行為來了解是什么樣的顧客以及這
3、些顧客為什么買這些產(chǎn)品,找出相 關(guān)的聯(lián)想(association)規(guī)則,企業(yè)藉由這些規(guī)則的挖掘獲得利益與建立競(jìng)爭(zhēng)優(yōu)勢(shì)。舉例來說,零售店可藉由此分析改變置物架上的商品排列或是設(shè)計(jì) 吸引客戶的商業(yè)套餐等等。購物籃分析基本運(yùn)作過程包含下列三點(diǎn):(1)選擇正確的品項(xiàng):這里所指的正確乃是針對(duì)企業(yè)體而言,必須要在數(shù)以百計(jì)、千計(jì)品項(xiàng)中選擇出真正有用的品項(xiàng)出來。(2)經(jīng)由對(duì)共同發(fā)生矩陣(co-occurrence matrix)的探討挖掘出聯(lián)想規(guī)則。(3)克服實(shí)際上的限制:所選擇的品項(xiàng)愈多,計(jì)算所耗費(fèi)的資源與時(shí)間愈久(呈現(xiàn)指數(shù)遞增),此時(shí)必須運(yùn)用一些技術(shù)以降低資源與時(shí)間的損耗。購物籃分析技術(shù)可以應(yīng)用在下列問題
4、上:(1)針對(duì)信用卡購物,能夠預(yù)測(cè)未來顧客可能購買什么。(2)對(duì)于電信與金融服務(wù)業(yè)而言,經(jīng)由購物籃分析能夠設(shè)計(jì)不同的服務(wù)組合以擴(kuò)大利潤。(3)保險(xiǎn)業(yè)能藉由購物籃分析偵測(cè)出可能不尋常的投保組合并作預(yù)防。(4)對(duì)病人而言,在療程的組合上,購物籃分析能作為是否這些療程組合會(huì)導(dǎo)致并發(fā)癥的判斷依據(jù)。3、決策樹(Decision Trees)決策樹在解決歸類與預(yù)測(cè)上有著極強(qiáng)的能力,它以法則的方式表達(dá),而這些法則則以一連串的問題表示出來,經(jīng)由不斷詢問問題最終能導(dǎo)出所需的結(jié)果。典型的決策 樹頂端是一個(gè)樹根,底部有許多的樹葉,它將紀(jì)錄分解成不同的子集,每個(gè)子集中的字段可能都包含一個(gè)簡(jiǎn)單的法則。此外,決策樹可能有
5、著不同的外型,例如二元 樹、三元樹或混和的決策樹型態(tài)。4、遺傳算法(Genetic Algorithm)遺傳算法學(xué)習(xí)細(xì)胞演化的過程,細(xì)胞間可經(jīng)由不斷的選擇、復(fù)制、交配、突變產(chǎn)生更佳的新細(xì)胞?;蛩惴ǖ倪\(yùn)作方式也很類似,它必須預(yù)先建立好一個(gè)模式,再經(jīng) 由一連串類似產(chǎn)生新細(xì)胞過程的運(yùn)作,利用適合函數(shù)(fitness function)決定所產(chǎn)生的后代是否與這個(gè)模式吻合,最后僅有最吻合的結(jié)果能夠存活,這個(gè)程序一直運(yùn)作直到此函數(shù)收斂到最佳解?;蛩惴ㄔ谌杭?(cluster)問題上有不錯(cuò)的表現(xiàn),一般可用來輔助記憶基礎(chǔ)推理法與類神經(jīng)網(wǎng)絡(luò)的應(yīng)用。5、聚類分析(Cluster Detection)這個(gè)技術(shù)涵
6、蓋范圍相當(dāng)廣泛,包含基因算法、類神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)中的群集分析都有這個(gè)功能。它的目標(biāo)為找出數(shù)據(jù)中以前未知的相似群體,在許許多多的分析中,剛開始都運(yùn)用到群集偵測(cè)技術(shù),以作為研究的開端。6、連接分析(Link Analysis)連接分析是以數(shù)學(xué)中之圖形理論(graph theory)為基礎(chǔ),藉由記錄之間的關(guān)系發(fā)展出一個(gè)模式,它是以關(guān)系為主體,由人與人、物與物或是人與物的關(guān)系發(fā)展出相當(dāng)多的應(yīng)用。例如電信服務(wù)業(yè)可藉 連結(jié)分析收集到顧客使用電話的時(shí)間與頻率,進(jìn)而推斷顧客使用偏好為何,提出有利于公司的方案。除了電信業(yè)之外,愈來愈多的營銷業(yè)者亦利用連結(jié)分析做有利于 企業(yè)的研究。7、OLAP分析(On-Line
7、 Analytic Processing;OLAP)嚴(yán)格說起來,OLAP分析并不算特別的一個(gè)數(shù)據(jù)挖掘技術(shù),但是透過在線分析處理工具,使用者能更清楚的了解數(shù)據(jù)所隱藏的潛在意涵。如同一些視覺處理技術(shù)一般,透過圖表或圖形等方式顯現(xiàn),對(duì)一般人而言,感覺會(huì)更友善。這樣的工具亦能輔助將數(shù)據(jù)轉(zhuǎn)變成信息的目標(biāo)。8、神經(jīng)網(wǎng)絡(luò)(Neural Networks)神經(jīng)網(wǎng)絡(luò)是以重復(fù)學(xué)習(xí)的方法,將一串例子交與學(xué)習(xí),使其歸納出一足以區(qū)分的樣式。若面對(duì)新的例證,神經(jīng)網(wǎng)絡(luò)即可根據(jù)其過去學(xué)習(xí)的成果歸納后,推導(dǎo)出新的結(jié)果,乃屬于機(jī)器學(xué)習(xí)的一種。數(shù)據(jù)挖掘的相關(guān)問題也可采類神經(jīng)學(xué)習(xí)的方式,其學(xué)習(xí)效果十分正確并可做預(yù)測(cè)功能。9、判別分析
8、(Discriminant Analysis)當(dāng)所遭遇問題它的因變量為定性(categorical),而自變量(預(yù)測(cè)變量)為定量(metric)時(shí),判別分析為一非常適當(dāng)之技術(shù),通常應(yīng)用在解決 分類的問題上面。若因變量由兩個(gè)群體所構(gòu)成,稱之為雙群體 判別分析 (Two-Group Discriminant Analysis);若由多個(gè)群體構(gòu)成,則稱之為多元判別分析(Multiple Discriminant Analysis;MDA)。(1) 找出預(yù)測(cè)變量的線性組合,使組間變異相對(duì)于組內(nèi)變異的比值為最大,而每一個(gè)線性組合與先前已經(jīng)獲得的線性組合均不相關(guān)。(2) 檢定各組的重心是否有差異。(3)
9、找出哪些預(yù)測(cè)變量具有最大的區(qū)別能力。(4) 根據(jù)新受試者的預(yù)測(cè)變量數(shù)值,將該受試者指派到某一群體。10、羅吉斯回歸分析(Logistic Analysis)當(dāng)判別分析中群體不符合正態(tài)分布假設(shè)時(shí),羅吉斯回歸分析是一個(gè)很好的替代方法。羅吉斯回歸分析并非預(yù)測(cè)事件(event)是否發(fā)生,而是預(yù)測(cè)該事件的機(jī) 率。它將自變量與因變量的關(guān)系假定是S行的形狀,當(dāng)自變量很小時(shí),機(jī)率值接近為零;當(dāng)自變量值慢慢增加時(shí),機(jī)率值沿著曲線增加,增加到一定程度時(shí),曲線協(xié) 率開始減小,故機(jī)率值介于0與1之間。補(bǔ)充:常用數(shù)據(jù)挖掘算法頻繁模式挖掘,關(guān)系挖掘,以及相互關(guān)系挖掘所謂頻繁模式挖掘,指的是比如在商品交易數(shù)據(jù)庫記錄中,找出
10、一起出現(xiàn)的商品集合,這些商品集合出現(xiàn)的頻率要高于一個(gè)閾值,這些經(jīng)常出現(xiàn)的商品集合稱之為頻繁模式。頻繁模式的思路很簡(jiǎn)單,首先統(tǒng)計(jì)出每個(gè)單個(gè)商品出現(xiàn)的次數(shù),這就構(gòu)成了一個(gè)一維表。然后再根據(jù)一維表,商品兩兩組合產(chǎn)生一個(gè)二維表。然后再由二維表產(chǎn)生三維表,直至到n維表。其中可以利用apriori,進(jìn)行剪枝,也就是說一維表中如果出現(xiàn)的頻率低于閾值的商品,就可以直接去掉,應(yīng)為包含該商品的高維商品集合的出現(xiàn)頻率不可能高于該閾值,可以直接剪枝去掉。頻繁模式挖掘還有一種更加高效的方式,就是FP Growth,該方法通過掃描一遍數(shù)據(jù)庫,在內(nèi)存中構(gòu)造一顆FP tree,基于這棵樹就可以產(chǎn)生所有的頻繁模式。很顯然FP
11、Growth算法的效率要高很多,但是其缺陷也很明顯,在內(nèi)存中維護(hù)一顆FP tree的開銷也是很大的。為了解決這個(gè)問題,一個(gè)直接的思路是將數(shù)據(jù)庫水平分表到各臺(tái)機(jī)器上,在各臺(tái)機(jī)器上執(zhí)行本地的FP Growth,然后再將各臺(tái)機(jī)器上的結(jié)果匯總起來,得到最終的FP Growth的結(jié)果。所謂關(guān)系挖掘,值得是挖掘出各個(gè)項(xiàng)目之間的因果關(guān)系。關(guān)系挖掘的基礎(chǔ)是頻繁模式挖掘,通過頻繁模式挖掘,很容易得出關(guān)系,舉例就很容易明白,比如我們得到一個(gè)頻繁集合:那么通過排列組合可以得到l的子集集合:那么很容易得到下面的推理集合,也就是挖掘出的關(guān)系:所有的關(guān)系挖掘本質(zhì)上都是基于頻繁模式推導(dǎo)出來的。在關(guān)系挖掘中,有一種非常有用的
12、關(guān)系模式挖掘:mining quantitative association rules。所謂quantitative association rules是這樣一種關(guān)系模式:該關(guān)系模式的挖掘,首先是確定我們所感興趣的屬性:quan1,quan2,cat,然后根據(jù)事先確定的間隔,將quan1,quan2按照一定的間隔劃分成一定的catorgory,然后進(jìn)行頻繁模式挖掘,得出一些關(guān)系,然后將這些關(guān)系按照grid進(jìn)行聚合,生成最后的關(guān)系模式。通過關(guān)系挖掘挖出的關(guān)系中往往有很多不是非常有用,因此需要通過另外的指標(biāo)排除一些這樣的關(guān)系,這個(gè)指標(biāo)就是correlation,如下:Correlation是用來
13、衡量A,B之間的相關(guān)性,從而排除那些沒有意義的規(guī)則。對(duì)于上述所提到的關(guān)系挖掘,有一種稱之為constraint-based association mining,這是一種特殊的關(guān)系挖掘,它對(duì)于所挖掘出的條件加了一些限制條件,這些限制條件可能是由用戶提出的,其主要目的是排除一些不感興趣的關(guān)系。對(duì)于這種關(guān)系挖掘,最直接的辦法先按照最普通的關(guān)系挖掘方法進(jìn)行挖掘,然后利用條件來對(duì)結(jié)果進(jìn)行。但是還有更好的方法,就是在挖掘的過程中利用這些條件,從而縮小整個(gè)挖掘過程中的search space,從而提高效率。這些限制條件分為這么幾種:antimonotonic,monotonic,succinct,conv
14、ertible,inconvertible,針對(duì)每一種的限制條件,都有一些通用的方法或策略來縮小挖掘的search space,可參閱相關(guān)資料。分類和預(yù)測(cè)分類樹分類樹是一種很常用的分類方法,它該算法的框架表述還是比較清晰的,從根節(jié)點(diǎn)開始不斷得分治,遞歸,生長,直至得到最后的結(jié)果。根節(jié)點(diǎn)代表整個(gè)訓(xùn)練樣本集,通過在每個(gè)節(jié)點(diǎn)對(duì)某個(gè)屬性的測(cè)試驗(yàn)證,算法遞歸得將數(shù)據(jù)集分成更小的數(shù)據(jù)集.某一節(jié)點(diǎn)對(duì)應(yīng)的子樹對(duì)應(yīng)著原數(shù)據(jù)集中滿足某一屬性測(cè)試的部分?jǐn)?shù)據(jù)集.這個(gè)遞歸過程一直進(jìn)行下去。該算法是數(shù)據(jù)挖掘中常用的一類方法。貝葉斯分類器貝葉斯分類的思想很簡(jiǎn)單,就是計(jì)算屬性和分類之間的條件概率,選擇使得條件概率最大的分類作
15、為最終的分類結(jié)果,這是一種基于統(tǒng)計(jì)的分類方法,得到了廣泛的引用。貝葉斯分類器分為兩種,一種是樸素貝葉斯分類器,它基于貝葉斯理論:其中X代表特征向量, C代表分類.我們的目標(biāo)就是找出使得這個(gè)后驗(yàn)概率最大的那個(gè)類.其中需要注意的是X中的各個(gè)特征分量是分布獨(dú)立的.這樣就有: 樸素貝葉斯分類器最經(jīng)典的應(yīng)用場(chǎng)景就是垃圾郵件過濾。樸素貝葉斯分類器的升級(jí)版本就是貝葉斯網(wǎng)絡(luò),因?yàn)闃闼刎惾~斯網(wǎng)絡(luò)假設(shè)樣本的特征向量的各個(gè)特征屬性是獨(dú)立的,但對(duì)于現(xiàn)實(shí)世界,這樣的建模未必合理,因此有人就提出了貝葉斯網(wǎng)絡(luò),貝葉斯網(wǎng)絡(luò)假設(shè)各個(gè)屬性之間是存在條件概率的。貝葉斯網(wǎng)絡(luò)是一個(gè)各個(gè)屬性組成的有向拓?fù)渚W(wǎng)絡(luò),每條邊代表?xiàng)l件概
16、率,通過貝葉斯網(wǎng)絡(luò)能夠計(jì)算出各個(gè)屬性相互組合的條件概率?;谝?guī)則的分類器這種分類器利用IF THEN的規(guī)則來進(jìn)行分類。對(duì)于如何產(chǎn)生規(guī)則,有兩種方法:第一種方法,就是從決策樹中生成規(guī)則。因?yàn)闆Q策樹天然的就是規(guī)則。第二種方法,是采用Sequential Covering Algorithm,直接從訓(xùn)練樣本中生成規(guī)則集。該方法的思路是一種general-to-specific的方法,該方法從一個(gè)空規(guī)則開始,然后向規(guī)則中依次逐漸增加屬性測(cè)試條件,選擇該屬性測(cè)試值(也就是測(cè)試分界點(diǎn),attr < val)的依據(jù)就是是否能夠最大限度得改進(jìn)規(guī)則的分類質(zhì)量?;谏窠?jīng)網(wǎng)絡(luò)的分類器神經(jīng)網(wǎng)絡(luò)分類器是依據(jù)屬性構(gòu)
17、造一個(gè)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),該拓?fù)浣Y(jié)構(gòu)的邊具有權(quán)重值,我們的目的是不斷得利用訓(xùn)練樣本然后不斷得更新神經(jīng)網(wǎng)絡(luò)的邊權(quán)重值。然后利用該網(wǎng)絡(luò)就可以得到輸出的分類。該算法模擬神經(jīng)的組成結(jié)構(gòu),利用了單元之間的反饋機(jī)制。但該算法的缺點(diǎn)也很明顯,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的確定沒有明確統(tǒng)一的方法論,很多只能靠規(guī)劃者的經(jīng)驗(yàn),因此訓(xùn)練結(jié)果往往因人而異,限制了神經(jīng)網(wǎng)絡(luò)的使用。支持向量機(jī)分類器支持向量機(jī)是在訓(xùn)練樣本空間中構(gòu)造超平面來對(duì)樣本進(jìn)行分類,它的優(yōu)勢(shì)是對(duì)高維度不敏感。但效率較低,實(shí)施較為復(fù)雜。關(guān)聯(lián)分類器關(guān)聯(lián)分類器的思路很簡(jiǎn)單,前面我們提到頻繁模式挖掘,我們將樣本的某一屬性的(屬性,值)對(duì)作為一個(gè)條目,我們找出經(jīng)常在一起出現(xiàn)的條目集合
18、,然后找出這些頻繁項(xiàng)目集合,這些頻繁項(xiàng)目集合對(duì)應(yīng)的樣本集合中占主流的分類就作為關(guān)聯(lián)規(guī)則的分類結(jié)果,該結(jié)果如下:關(guān)聯(lián)分類器有三種方法:CBA, CMAR和CPARLazy LearnerLazy Learner主要有兩種分類器:Knn分類器和Cbr分類器。Knn分類器思路很直接,找出和待分類樣本最近的K的樣本,然后將這k個(gè)樣本中占主流的的類別作為分類結(jié)果分配給待分類樣本。該分類器的關(guān)鍵在于如何確定k,一種思路是根據(jù)經(jīng)驗(yàn),另外一種思路是迭代,讓k從1開始遞增,計(jì)算每個(gè)k取值時(shí)對(duì)某一測(cè)試集的錯(cuò)誤率,選擇錯(cuò)誤最小的那個(gè)k。另外一個(gè)關(guān)鍵就是如何快速得找出k個(gè)最近的鄰居,這需要我們對(duì)各個(gè)樣本點(diǎn)進(jìn)行事先排序
19、,并設(shè)計(jì)一個(gè)合適的數(shù)據(jù)結(jié)構(gòu),使得找出k個(gè)最近鄰居的復(fù)雜度降為log|D|.預(yù)測(cè)所謂預(yù)測(cè),就是根據(jù)既有的數(shù)據(jù)預(yù)測(cè)新出現(xiàn)的數(shù)據(jù)的預(yù)測(cè)值。預(yù)測(cè)有兩種方法,線性回歸和非線性回歸。所謂線性回歸,指的是Y = b + wX 公式1其中X可以是向量,比如(x1,x2),因此線性回歸則變成y=w0+w1*x1+w2*x2 公式2對(duì)于公式1,其目標(biāo)就是求出w向量。那么比較常用的方法就是最小二乘法,使得求出的w對(duì)于已有的樣本使其方差和最小。方差和就是目標(biāo)函數(shù),目標(biāo)函數(shù)就是自變量w的一個(gè)函數(shù),通過求導(dǎo)求極值,很容易得到使得目標(biāo)函數(shù)最小的w的值。通過一些軟件包,如SAS,matlab,SPSS很容易做這種線性回歸的w
20、計(jì)算。并不是所有的模型都是線性模型,實(shí)際的問題中很多模型是非線性的,比如多項(xiàng)式,如下y = w0 +w1*x+w2*x*x + w3*x*x*x解決這種問題的思路是將非線性模型轉(zhuǎn)化為線性模型,然后再用線性回歸的方法來解決。比如上面的多項(xiàng)式公式,我們令x1=x x2=x*x x3=x*x*x這樣就變成了y = w0 + w1*x1 + w2*x2 + w3*x3,這就變成了線性回歸的問題。聚類聚類是數(shù)據(jù)挖掘需要解決的另外一個(gè)問題,分類是我們知道確切的分類結(jié)果,知道我們需要將樣本分成具體的哪幾類。而聚類問題是實(shí)現(xiàn)不知道我們的樣本具體屬于哪些類別,而需要我們從樣本中發(fā)掘出這些類別。下面談幾種較為通用
21、的聚類方法談?wù)劇;诜謪^(qū)的聚類法該方法的一個(gè)典型的方法就是K-means,該方法非常簡(jiǎn)單,首先確定我們需要將數(shù)據(jù)樣本分成多少個(gè)類,這個(gè)需要確定,我們稱之為k。然后從樣本中任意選擇k個(gè)樣本作為k個(gè)類的中心,然后計(jì)算每個(gè)樣本到這k個(gè)中心的距離,把他們分配到最相近的類。這樣就得到k個(gè)聚類,然后重新計(jì)算這k個(gè)聚類的中心,然后再重復(fù)前面的過程,直至沒有樣本被重新分配從而達(dá)到收斂。下面是k-means的偽碼 基于層次的分類法基于層次的分類法有兩種:凝聚和分裂。凝聚:它基于一種自底而上的策略,在最開始的時(shí)候,每個(gè)樣本都代表一個(gè)聚類,然后計(jì)算兩兩之間的區(qū)分度,然后進(jìn)行合并,這個(gè)合并一直按照這樣的方式
22、持續(xù)下去,直至所有的樣本都被合并為一個(gè)類。分裂:它基于一種自上而下的策略,在最開始的時(shí)候,所有的樣本都是一個(gè)類,然后會(huì)依據(jù)一些區(qū)分方法,進(jìn)行分裂,直至每個(gè)樣本都分裂成一個(gè)聚類。基于層次的分類法,其意義在于其他的聚類方法引入這種基于層次的思路,可以被改造成一個(gè)多階段的的聚類方法,可以大大改進(jìn)聚類的質(zhì)量。基于密度的分類法這種方法的一個(gè)代表就是DBSCAN。要理解DBSCAN,首先要明白這么幾種概念:某一樣本在e半徑內(nèi)的鄰居稱之為e-鄰居。如果某一樣本的e-鄰居個(gè)數(shù)大于某一最小值,那該樣本被稱之為核心樣本。如果q是核心樣本,p是q的e-鄰居,那么p是q的直接密度可達(dá)。對(duì)于一個(gè)樣本鏈p1,p2,.pn
23、,如果p1=q,pn=p,pi+1是pi的直接可達(dá),那么p就是q的密度可達(dá)。如果p,q都是o的密度可達(dá),那么p,q就是密度連通的。有了這些概念,算法就很簡(jiǎn)單了,首先找出樣本中所有的核心樣本,那么基于這些核心樣本,這些核心樣本就代表某一個(gè)聚類。遍歷這些核心樣本,不斷找到他們的密度可達(dá)的樣本,其間某些樣本就會(huì)被不斷合并,直至所有的樣本分類趨于穩(wěn)定,不會(huì)再有新的點(diǎn)被加入各個(gè)聚類。基于grid的聚類法該算法的代表是STING,它比較晦澀,從表面上來看,它似乎不是一種顯然的聚類法。首先我們先劃分一些層次,每個(gè)層次上我們根據(jù)維度或者概念分層不同的cell,實(shí)際上這里的每個(gè)層次對(duì)應(yīng)的是樣本的一個(gè)分辨率。每個(gè)高層的cell在其下一層中被對(duì)應(yīng)得劃分成多個(gè)cell,每個(gè)cell我們都計(jì)算出它的統(tǒng)計(jì)信息,估計(jì)出它的分布。利用這樣的結(jié)構(gòu),我們很容易進(jìn)行查詢,比如我們查詢具有某些屬性的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 期貨市場(chǎng)品牌建設(shè)與維護(hù)服務(wù)考核試卷
- 木材加工行業(yè)人才培養(yǎng)計(jì)劃考核試卷
- 攝影器材行業(yè)市場(chǎng)動(dòng)態(tài)監(jiān)測(cè)與競(jìng)爭(zhēng)情報(bào)分析考核試卷
- 辦公室員工職業(yè)發(fā)展與培訓(xùn)體系建設(shè)案例考核試卷
- 天然氣開采項(xiàng)目財(cái)務(wù)管理與成本控制考核試卷
- 固體飲料的無添加與天然成分趨勢(shì)考核試卷
- 木材貿(mào)易風(fēng)險(xiǎn)管理與防范考核試卷
- 搪瓷衛(wèi)生潔具的顧客滿意度調(diào)查考核試卷
- 放射性金屬礦選礦實(shí)驗(yàn)方法與技術(shù)考核試卷
- 鋼板出售轉(zhuǎn)讓合同范本
- 2023年2024年演出經(jīng)紀(jì)人之演出經(jīng)紀(jì)實(shí)務(wù)考試題庫附答案(達(dá)標(biāo)題)
- DG-T 076-2024 采茶機(jī)標(biāo)準(zhǔn)規(guī)范
- 《分娩機(jī)轉(zhuǎn)》課件
- 軍隊(duì)文職備考(面試)近年考試真題(參考300題)
- 金融業(yè)稅收優(yōu)惠政策指引
- 乳腺癌課件教學(xué)課件
- 第五期健康講座乳腺癌與宮頸癌防治知識(shí)
- 2025年神經(jīng)內(nèi)科專科護(hù)士培訓(xùn)計(jì)劃范文
- 葉圣陶杯作文
- 電子商務(wù)平臺(tái)供貨方案及風(fēng)險(xiǎn)控制措施
- 文獻(xiàn)檢索與利用
評(píng)論
0/150
提交評(píng)論