




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
聚類分析1留意我們考核非常松盡能夠全部高于80分。2一個簡單的聚類例子這是按照顏色進展一維聚類。實際中,維度經(jīng)常多于一個。3根本特點聚類(clustering)是指根據(jù)“物以類聚〞原理,將本身尚未歸類的樣本根據(jù)多個維度〔多個屬性〕聚集成不同的組,這樣的一組數(shù)據(jù)對象的集合叫做簇或群組。怎樣聚類算勝利呢?經(jīng)過劃分后,使得:屬于同一群組的樣本之間彼此足夠類似,屬于不同群組的樣本應(yīng)該足夠不類似。4分類與聚類的區(qū)別分類(Classification)有訓(xùn)練過程。分類是事先定義好類別,類別數(shù)不變。分類器需求由人工標(biāo)注的分類訓(xùn)練數(shù)據(jù)集訓(xùn)練得到,屬于有指點學(xué)習(xí)范疇。而聚類那么是沒有訓(xùn)練過程。在進展聚類前,并不知道將要劃分成幾個組和什么樣的組。聚類那么沒有事先預(yù)定的類別,類別數(shù)不確定。聚類不需求人工標(biāo)注和預(yù)先訓(xùn)練分類器,類別在聚類過程中自動生成。5聚類分析的主要運用領(lǐng)域作為獨立的工具來分析數(shù)據(jù)發(fā)現(xiàn)離群點為其他算法做數(shù)據(jù)預(yù)處置6聚類分析的最典型運用領(lǐng)域客戶分群,進而制定差別化的營銷方案
7聚類分析的最典型運用領(lǐng)域客戶分群,進而制定差別化的營銷方案
例子:如圖,按照收入和年齡把客戶聚類為兩類8聚類的其他運用按照血型對學(xué)生進展分班確定婚禮客人如何排座位9離群點檢測離群點檢測和聚類是高度相關(guān)的。聚類是發(fā)現(xiàn)數(shù)據(jù)集中的主要群體,而離群點檢測那么試圖識別那些顯著偏離多數(shù)實例的異常情況。離群點檢測可以用聚類方法,但也可以用其它方法,例如:分類方法。其常見的目的是:信譽卡欺詐檢測。這需求把和正常買賣明顯不同的買賣識別出來。例如,盜竊卡的人的購物地點和所購商品都很不同于真正的卡主、也不同于大多數(shù)顧客。比如,其一次購物量比卡主大得多,并且購物地點遠離卡主的通常的購物地點。10聚類算法的分類聚類算法主要包括:劃分方法〔PartitioningMethod〕:包括K均值方法等層次方法〔HierarchicalMethod〕基于密度的方法〔Density-based〕基于網(wǎng)格的方法〔Grid-based〕基于模型的方法〔Model-based〕其中,前兩種方法最常用。11K均值算法K-means算法是無可爭議的運用最多的算法。它是劃分方法的一種。它原理簡單,容易實現(xiàn)。它適宜運用數(shù)值型屬性,而不是類別型屬性。它的一個缺乏之處是:對于離兩個群組的中心都很近的點,他會不知道該放到哪個群組中。這其實也是其他一些聚類算法的局限性。12K均值算法的步驟K均值算法,概括起來有五個步驟:設(shè)定一個數(shù)K,闡明總共有幾個群簇〔組〕;從一切實例中隨機選擇K個實例,分別代表一個群簇的初始中心;對剩余的每個實例,根據(jù)其與各個組的初始中心的間隔,將它們分配到離本人最近的一個群簇中;然后,更新群簇中心,即:重新計算得出每個群簇的新的中心點;這個過程不斷反復(fù)〔即:反復(fù)第3、4步〕,直到每個群簇中心不再變化,即直到一切實例在K組分布中都找到離本人最近的群簇。13K均值算法——什么是中心值14K均值算法的步驟留意看C點,它離上面的群的新的的間隔中心比離下面那個群的新的中心更近,所以它被重新劃分到上面那個群了。15K均值算法的步驟16K均值算法的運用:圖像緊縮群的個數(shù)越少,意味著圖像被轉(zhuǎn)化成顏色數(shù)量很少的圖像了。17K均值算法的運用:圖像緊縮原理和上面人物照片是一致的。18K均值算法可以用于三個維度前面圖像緊縮的例子是基于一個維度。這里籠統(tǒng)展現(xiàn)了基于三個維度的聚類。19如何在軟件中為K均值算法設(shè)定參數(shù)在軟件中,通常都要設(shè)定群的個數(shù)。還可以指定間隔的度量方式。例如選擇歐幾里德間隔或曼哈頓間隔。大多數(shù)聚類分析都運用間隔度量來衡量兩個實例之間的遠近。20如何在軟件中為K均值算法設(shè)定參數(shù)此外,還可以設(shè)定聚類時采用哪些屬性同時,數(shù)據(jù)規(guī)范化是聚類分析中最重要的一個數(shù)據(jù)預(yù)處置步驟。假設(shè)之前沒做過規(guī)范化,可以如今進展。21如何評價聚類分析的結(jié)果?這方面和分類算法有一個顯著不同:分類算法的評判有訓(xùn)練集、驗證集的客觀參照。而聚類結(jié)果的評判缺乏很明確、客觀的、統(tǒng)計學(xué)意義上的參照根據(jù)。對于聚類,業(yè)務(wù)專家從實際角度的評價是最重要的評價層面。假設(shè)多數(shù)業(yè)務(wù)專家對于聚類的結(jié)果都看不懂,那么這個結(jié)果很能夠是值得疑心的。假設(shè)聚類的結(jié)果比較容易了解、解釋,業(yè)務(wù)人員會更能實施這個結(jié)果。22聚類之前的預(yù)處置——特征挑選在實際中,聚類中的輸入變量不能太多,尤其是在樣本數(shù)量有限的情況下。否那么:運算耗時;更重要的是變量之間的相關(guān)性會損害聚類效果;變量太多會使人難以了解每個群的實踐含義。因此,通常會采用相關(guān)性分析、結(jié)合業(yè)務(wù)知識進展變量挑選等方法來降維。然后根據(jù)少量幾個維度進展聚類。被篩掉的變量可以在聚類完成后再用于對每個群的進一步分析,比如描畫性統(tǒng)計、分類算法。23聚類之前的預(yù)處置——異常值K-means對數(shù)據(jù)的噪聲和異常值比較敏感。這些個別數(shù)據(jù)對于平均值的影響非常大。為此,我們可以:直接刪除那些比其他任何數(shù)據(jù)點都要遠離聚類中心點的異常值。與此類似地,在聚類之后,有些群體內(nèi)樣本數(shù)量太少、這種群體在實踐運用中可以忽略不計。采用隨機抽樣。這樣,作為稀有事
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 戶外健康宣講活動方案
- 驚蟄節(jié)氣賣安宮活動方案
- 戶外led廣告活動方案
- 2024年國家綜合性消防救援隊伍招錄消防員考試真題
- 2025屆江蘇省東臺市第二聯(lián)盟七年級數(shù)學(xué)第一學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測試題含解析
- 廣西物流職業(yè)技術(shù)學(xué)院《廣告學(xué)概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 青島遠洋船員職業(yè)學(xué)院《土木工程材料C》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年河北省邯鄲市復(fù)興區(qū)數(shù)學(xué)七上期末達標(biāo)檢測試題含解析
- 曲靖職業(yè)技術(shù)學(xué)院《生物學(xué)綜合大實驗》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年臨沂市郯城縣消防救援大隊政府專職消防員考試真題
- 初中學(xué)校教學(xué)常規(guī)培訓(xùn)
- 山東省菏澤市單縣2024年數(shù)學(xué)八年級下冊期末經(jīng)典試題含解析
- (2024年)羊水栓塞完整版pptx
- 工貿(mào)行業(yè)安全監(jiān)管工作培訓(xùn)
- 2023年10月自考03200預(yù)防醫(yī)學(xué)(二)試題及答案含評分標(biāo)準(zhǔn)
- 編制說明-《自動駕駛乘用車線控底盤性能要求及試驗方法 第2部分:制動系統(tǒng)》
- 校園保潔服務(wù)項目管理制度
- 中國親子關(guān)系調(diào)研報告親子互動與家庭教育現(xiàn)狀分析
- b端營銷和c端營銷
- 直播運營團隊人員分工與職責(zé)明細
- JB-T 14227-2022 流砂過濾器標(biāo)準(zhǔn)
評論
0/150
提交評論