數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信.ppt_第1頁(yè)
數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信.ppt_第2頁(yè)
數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信.ppt_第3頁(yè)
數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信.ppt_第4頁(yè)
數(shù)據(jù)挖掘與Clementine使用培訓(xùn)電信.ppt_第5頁(yè)
已閱讀5頁(yè),還剩301頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

數(shù)據(jù)挖掘與Clementine使用培訓(xùn),北京瑞斯泰得數(shù)據(jù)技術(shù)開(kāi)發(fā)有限公司 2019/7/15,,1,一、數(shù)據(jù)挖掘概述,什么是數(shù)據(jù)挖掘 數(shù)據(jù)挖掘的實(shí)現(xiàn)路線和流程 數(shù)據(jù)挖掘方法論CRISP-DM,,2,為什么進(jìn)行數(shù)據(jù)挖掘? 商業(yè)觀點(diǎn),業(yè)務(wù)中產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)存儲(chǔ)在業(yè)務(wù)系統(tǒng)中卻不能創(chuàng)造價(jià)值 客戶信息數(shù)據(jù) 客戶交易行為數(shù)據(jù) 客戶反饋數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù) 計(jì)算機(jī)變得越來(lái)越便宜、功能卻越來(lái)越強(qiáng)大 商業(yè)競(jìng)爭(zhēng)越來(lái)越激烈,對(duì)客戶了解越多就意味著機(jī)會(huì)越大,,3,為什么進(jìn)行數(shù)據(jù)挖掘? 技術(shù)觀點(diǎn),業(yè)務(wù)中的數(shù)據(jù)量呈現(xiàn)指數(shù)增長(zhǎng)(GB/小時(shí)) 傳統(tǒng)技術(shù)難以從這些大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)律 數(shù)據(jù)挖掘可以幫助我們從大量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)律,,4,一個(gè)市場(chǎng)營(yíng)銷(xiāo)的例子,在數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的規(guī)則或者模式,女性對(duì)市場(chǎng)活動(dòng)做出回應(yīng),男性對(duì)市場(chǎng)活動(dòng)不做出回應(yīng),和年齡無(wú)關(guān),,5,一個(gè)市場(chǎng)營(yíng)銷(xiāo)的例子,數(shù)據(jù)變的復(fù)雜會(huì)如何?,女性對(duì)市場(chǎng)活動(dòng)做出回應(yīng),老年男性也可能對(duì)市場(chǎng)活動(dòng)做出回應(yīng),,6,一個(gè)市場(chǎng)營(yíng)銷(xiāo)的例子,數(shù)據(jù)挖掘可以從異常復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)回應(yīng)的5條規(guī)則: 1、如果收入大于29622,有孩子,并且孩子的數(shù)量小于等于2,那么對(duì)市場(chǎng)活動(dòng)會(huì)回應(yīng) ,通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)不回應(yīng)的5條規(guī)則: 1、如果收入小于12640.3,并且有一個(gè)孩子,那么對(duì)市場(chǎng)活動(dòng)不會(huì)回應(yīng) ,,7,數(shù)據(jù)挖掘收益分析,,8,利潤(rùn)分析圖,,9,數(shù)據(jù)挖掘效果模擬分析,目的:發(fā)現(xiàn)新客戶(使響應(yīng)率從1%提高到1.2%),,10,什么是數(shù)據(jù)挖掘?,不同的定義 從大量數(shù)據(jù)中發(fā)現(xiàn)非平凡的、先前不知道的、有價(jià)值的規(guī)律的過(guò)程 從大量數(shù)據(jù)中自動(dòng)化(或者半自動(dòng)化)的發(fā)現(xiàn)有價(jià)值規(guī)律的過(guò)程 數(shù)據(jù)挖掘的其他名稱(chēng) 數(shù)據(jù)庫(kù)內(nèi)知識(shí)發(fā)現(xiàn)(KDD- Knowledge discovery in databases ) 數(shù)據(jù)/模式分析 商業(yè)智能 人工智能 ,,11,數(shù)據(jù)挖掘的起源,來(lái)源于機(jī)器學(xué)習(xí)/人工智能、模式識(shí)別、統(tǒng)計(jì)學(xué)和數(shù)據(jù)庫(kù) 傳統(tǒng)技術(shù)的局限性 巨量的數(shù)據(jù) 高維數(shù)據(jù) 數(shù)據(jù)分布不理想,,12,數(shù)據(jù)挖掘面臨的挑戰(zhàn),海量數(shù)據(jù) 高維數(shù)據(jù) 數(shù)據(jù)復(fù)雜性 數(shù)據(jù)質(zhì)量問(wèn)題 數(shù)據(jù)所有權(quán)和分布 隱私問(wèn)題,,13,數(shù)據(jù)挖掘方法論項(xiàng)目順利實(shí)施的保證,商業(yè)理解 數(shù)據(jù)理解 數(shù)據(jù)準(zhǔn)備 建立模型 模型評(píng)估 模型發(fā)布,,14,商業(yè)理解,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評(píng)估,結(jié)果 發(fā)布,確定商業(yè) 目標(biāo),形勢(shì)評(píng)估,確定數(shù)據(jù) 挖掘目標(biāo),制定項(xiàng)目 計(jì)劃,背景,商業(yè)目標(biāo),成功標(biāo)準(zhǔn),擁有資源,需求、假定 和限制,風(fēng)險(xiǎn)和 偶然性,專(zhuān)業(yè) 術(shù)語(yǔ),成本和 收益,數(shù)據(jù)挖掘 目標(biāo),數(shù)據(jù)挖掘 成功標(biāo)準(zhǔn),項(xiàng)目計(jì)劃,工具和方法 評(píng)估,,15,數(shù)據(jù)理解,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評(píng)估,結(jié)果 發(fā)布,收集原始 數(shù)據(jù),數(shù)據(jù)描述,數(shù)據(jù)探索 性分析,數(shù)據(jù)質(zhì)量 描述,數(shù)據(jù)收集 報(bào)告,數(shù)據(jù)描述 報(bào)告,探索性數(shù)據(jù) 分析報(bào)告,數(shù)據(jù)質(zhì)量 報(bào)告,,16,數(shù)據(jù)準(zhǔn)備,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評(píng)估,結(jié)果 發(fā)布,選擇數(shù)據(jù),確定分析包含/剔除數(shù)據(jù),數(shù)據(jù)集,數(shù)據(jù)集 描述,數(shù)據(jù)清理,數(shù)據(jù)清理報(bào)告,數(shù)據(jù)重構(gòu),生成新的變量(字段),生成新的記錄,整合數(shù)據(jù),合并相關(guān)數(shù)據(jù),格式化數(shù)據(jù),改變數(shù)據(jù)格式,適應(yīng)分析,,17,建立模型,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評(píng)估,結(jié)果 發(fā)布,選擇建模 技術(shù),產(chǎn)生檢驗(yàn) 設(shè)計(jì),建立模型,評(píng)價(jià)模型,模型 技術(shù),模型假設(shè),檢驗(yàn)設(shè)計(jì),參數(shù)設(shè)定,建模,模型評(píng)價(jià),參數(shù)設(shè)定 的修訂,模型描述,,18,模型評(píng)估,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評(píng)估,結(jié)果 發(fā)布,結(jié)果評(píng)估,數(shù)據(jù)挖掘 過(guò)程回顧,確定下一 步的工作,評(píng)估數(shù)據(jù) 挖掘結(jié)果,被認(rèn)可的模型,數(shù)據(jù)挖掘過(guò)程 的回顧,列出可能 的行動(dòng),決策,,19,結(jié)果發(fā)布,商業(yè) 理解,數(shù)據(jù) 理解,數(shù)據(jù) 準(zhǔn)備,建立 模型,模型 評(píng)估,結(jié)果 發(fā)布,發(fā)布結(jié)果 計(jì)劃,監(jiān)測(cè)和維護(hù) 模型計(jì)劃,生成最終數(shù)據(jù) 挖掘報(bào)告,項(xiàng)目回顧,結(jié)果發(fā)布計(jì)劃,監(jiān)測(cè)和維護(hù) 模型計(jì)劃,最終數(shù)據(jù) 挖掘報(bào)告,數(shù)據(jù)挖掘 報(bào)告展現(xiàn),項(xiàng)目檢驗(yàn) 總結(jié),,20,商業(yè)理解是數(shù)據(jù)挖掘的起點(diǎn),解決方案,商業(yè)需要,,21,商業(yè)理解的內(nèi)容,數(shù)據(jù)挖掘能解決什么樣的商業(yè)問(wèn)題? 數(shù)據(jù)挖掘得到的結(jié)果,是否可以采取相應(yīng)的行動(dòng)以提高利潤(rùn)或降低成本? 我們期望模型能夠給我們?cè)鯓拥木_率? 有那些前提假定?,,22,約束分析,時(shí)間約束分析 資源約束分析 人力資源 數(shù)據(jù)資源 軟件資源 硬件資源,,23,制定特定的數(shù)據(jù)挖掘目標(biāo),制定的數(shù)據(jù)挖掘目標(biāo)應(yīng)具有: 可評(píng)估性(assessable) 可實(shí)現(xiàn)性(attainable),,24,如何給定一個(gè)數(shù)據(jù)挖掘問(wèn)題,是檢驗(yàn)性數(shù)據(jù)挖掘還是探索性數(shù)據(jù)挖掘? 確定哪些是可以實(shí)現(xiàn)的數(shù)據(jù)挖掘問(wèn)題 結(jié)果可測(cè)度性 信息(數(shù)據(jù))的可獲得性 評(píng)估和控制其他相關(guān)因素的影響,,25,數(shù)據(jù)來(lái)源與數(shù)據(jù)之間的關(guān)系,,26,使數(shù)據(jù)適合數(shù)據(jù)挖掘,對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)暮喜⒑蛥R總 一般數(shù)據(jù)挖掘分析都要一個(gè)行列(記錄變量)的二維表,必須把從不同數(shù)據(jù)源得到的不同格式的數(shù)據(jù)整合成這樣一張表,要求: 所有的記錄含有排列順序一致的變量 所有記錄的變量信息是完整的(理想化狀態(tài),在現(xiàn)實(shí)中很難達(dá)到),,27,檢查數(shù)據(jù)質(zhì)量,影響數(shù)據(jù)質(zhì)量的幾個(gè)主要問(wèn)題 缺失值 不合理值 不同數(shù)據(jù)源的不一致 異常值,,28,對(duì)數(shù)據(jù)進(jìn)行適當(dāng)?shù)淖儞Q,數(shù)據(jù)的標(biāo)準(zhǔn)化變換 生成新的變量 數(shù)據(jù)的重新編碼 數(shù)據(jù)降維,從變量角度或者從記錄角度,,29,數(shù)據(jù)挖掘模型的分類(lèi),數(shù)據(jù)描述和匯總(Data description and summarization) 細(xì)分(Segmentation) 概念描述(Concept descriptions) 分類(lèi)(Classification) 預(yù)測(cè)(Prediction) 相關(guān)分析(Dependency analysis),,30,數(shù)據(jù)挖掘技術(shù)的分類(lèi),數(shù)據(jù)挖掘,描述,預(yù)測(cè),統(tǒng)計(jì)回歸,關(guān)聯(lián)規(guī)則,決策樹(shù),可視化,聚類(lèi),順序關(guān)聯(lián),匯總,神經(jīng)網(wǎng)絡(luò),分類(lèi),時(shí)間序列預(yù)測(cè),,31,數(shù)據(jù)挖掘的典型結(jié)果金融,問(wèn)題描述:預(yù)測(cè)信用水平是好還是差,銀行據(jù)此決定是否向客戶發(fā)放貸款,發(fā)放多少 結(jié)果描述:(決策樹(shù)),收入大于5萬(wàn)元/年,是,否,有無(wú)儲(chǔ)蓄帳戶,是否房主,否,是,是,否,批準(zhǔn),不批準(zhǔn),批準(zhǔn),,32,數(shù)據(jù)挖掘的典型結(jié)果電信,問(wèn)題描述:根據(jù)客戶信息,預(yù)測(cè)客戶流失可能性 結(jié)果描述:(神經(jīng)網(wǎng)絡(luò)),輸 入,流失概率 (0.87),輸 出,男,29,3000元/月,套餐A,130元/月,,33,數(shù)據(jù)挖掘的典型結(jié)果零售,問(wèn)題描述:如何決定超市中商品的擺放來(lái)增加銷(xiāo)售額 結(jié)果描述:(Web圖),,34,數(shù)據(jù)挖掘的典型結(jié)果制造業(yè),問(wèn)題描述:如何對(duì)市場(chǎng)進(jìn)行細(xì)分,使產(chǎn)品滿足最有價(jià)值客戶 結(jié)果描述:(Koholen聚類(lèi)),,35,數(shù)據(jù)挖掘的典型結(jié)果政府,問(wèn)題描述:如何從眾多申請(qǐng)經(jīng)費(fèi)或者納稅中發(fā)現(xiàn)欺詐 結(jié)果描述:(回歸、神經(jīng)網(wǎng)絡(luò)),,36,檢驗(yàn)的形式,方法層面的檢驗(yàn) 訓(xùn)練集和檢驗(yàn)集 不同方法的互相印證和比較 模型準(zhǔn)確性的檢驗(yàn): 商業(yè)層面上的檢驗(yàn) 利潤(rùn)率的檢驗(yàn) 模型結(jié)果可操作性的檢驗(yàn) 其他檢驗(yàn),,37,關(guān)注那些錯(cuò)誤的預(yù)測(cè),,38,數(shù)據(jù)挖掘不成功的幾種可能性,糟糕的數(shù)據(jù) 組織抵制 結(jié)果沒(méi)有被有效的發(fā)布 得到了無(wú)用的結(jié)果,,39,模型發(fā)布的形式,書(shū)面報(bào)告 數(shù)據(jù)庫(kù)更新 針對(duì)特定主題的應(yīng)用系統(tǒng),,40,數(shù)據(jù)挖掘的體系結(jié)構(gòu),,41,問(wèn)題&討論,,42,二、Clementine概述,Clementine在數(shù)據(jù)挖掘中的地位 Clementine發(fā)展歷史 Clementine的配置 Clementine操作基礎(chǔ),,43,數(shù)據(jù)挖掘的一般流程及數(shù)據(jù)挖掘軟件在數(shù)據(jù)挖掘過(guò)程中的地位,,44,數(shù)據(jù)挖掘方法論項(xiàng)目順利實(shí)施的保證,商業(yè)理解 數(shù)據(jù)理解 數(shù)據(jù)準(zhǔn)備 建立模型 模型評(píng)估 模型發(fā)布,,45,Clementine發(fā)展歷程,Clementine是ISL (Integral Solutions Limited)公司開(kāi)發(fā)的數(shù)據(jù)挖掘工具平臺(tái) 1998年SPSS公司收購(gòu)了ISL公司,對(duì)Clementine產(chǎn)品進(jìn)行重新整合和開(kāi)發(fā),現(xiàn)在Clementine已經(jīng)成為SPSS公司的又一亮點(diǎn),,46,Clementine的軟件構(gòu)成,Clementine Client; Clementine Server; Clementine Batch; SPSS Data Access Pack; Clementine Solution Publisher (Optional)。,,47,Clementine的兩種運(yùn)行方式,單機(jī)版運(yùn)行 以下情況必須使用單機(jī)版運(yùn)行: 數(shù)據(jù)存儲(chǔ)在本機(jī),且不能在網(wǎng)絡(luò)上共享; 機(jī)器不聯(lián)網(wǎng); 無(wú)Clementine Server可供使用。 以下情況可以使用單機(jī)版運(yùn)行: 要處理的數(shù)據(jù)量很?。ū热纾盒∮?M)并且數(shù)據(jù)存儲(chǔ)在單機(jī)或可到達(dá)局域網(wǎng)處; 單機(jī)內(nèi)存、硬盤(pán)相對(duì)要處理的數(shù)據(jù)量來(lái)說(shuō)足夠大,并且速度也滿足要求。,C/S結(jié)構(gòu)運(yùn)行 以下情況必須使用C/S結(jié)構(gòu)運(yùn)行: 單機(jī)內(nèi)存或者硬盤(pán)不夠大,難以運(yùn)行大量數(shù)據(jù); 單機(jī)上沒(méi)有或者無(wú)法配置數(shù)據(jù)連結(jié),無(wú)法從數(shù)據(jù)庫(kù)中獲取數(shù)據(jù); 組織規(guī)則不允許下載大量數(shù)據(jù)到單機(jī)。 以下情況可以使用C/S結(jié)構(gòu)運(yùn)行: 要處理的數(shù)據(jù)量很大,并且存儲(chǔ)在可以通過(guò)SPSS Data Access技術(shù)可到達(dá)的數(shù)據(jù)庫(kù)處; 單機(jī)速度慢,Clementine Server運(yùn)行的機(jī)器配置高。,,48,Clementine的系統(tǒng)結(jié)構(gòu),Clementine的三層結(jié)構(gòu): 1、數(shù)據(jù)庫(kù)層; 通過(guò)Clementine Server進(jìn)行調(diào)度,把那些可以通過(guò)SQL語(yǔ)句執(zhí)行的數(shù)據(jù)操作過(guò)程以SQL語(yǔ)句的形式導(dǎo)入數(shù)據(jù)庫(kù)并在其中進(jìn)行; 2、服務(wù)器端; 進(jìn)行調(diào)度,不能在數(shù)據(jù)庫(kù)層面進(jìn)行的操作在服務(wù)器端進(jìn)行(比如數(shù)據(jù)挖掘模型計(jì)算過(guò)程) 3、客戶端。 在三層結(jié)構(gòu)下通過(guò)Clementine Server進(jìn)行調(diào)度,由客戶端向服務(wù)器端發(fā)送數(shù)據(jù)挖掘指令,并接受和展示數(shù)據(jù)挖掘結(jié)果。,Clementine Client和Clementine Server通過(guò)SDL(Stream Description Language )之間進(jìn)行信息交換,Clementine Server和Database通過(guò)SQL語(yǔ)句進(jìn)行信息交換。,,49,Clementine運(yùn)行的兩種方式,圖形界面方式 適用操作系統(tǒng) Windows系列 特點(diǎn): 圖形化界面 與客戶直接交互 適合交互式分析過(guò)程,命令行方式 使用操作系統(tǒng) Windows系列 Unix系列 特點(diǎn): 命令行操作 不能生成圖形,所有結(jié)果保存在文件里或者數(shù)據(jù)庫(kù)中 適合于以下情況使用: 運(yùn)行耗時(shí)較長(zhǎng)的建模過(guò)程 希望在后臺(tái)運(yùn)行一些耗時(shí)較長(zhǎng)的數(shù)據(jù)準(zhǔn)備 過(guò)程希望按照一定的時(shí)間定期運(yùn)行(比如每周、每月等) 希望把Clementine(數(shù)據(jù)挖掘過(guò)程)運(yùn)行過(guò)程嵌入應(yīng)用系統(tǒng)中,,50,Clementine的界面和設(shè)計(jì)思路,可視化界面 四個(gè)區(qū)域分別是建模區(qū)、結(jié)點(diǎn)區(qū)、模型描述區(qū)、項(xiàng)目管理區(qū) 通過(guò)連接結(jié)點(diǎn)構(gòu)成數(shù)據(jù)流建立模型 Clementine通過(guò)6類(lèi)結(jié)點(diǎn)的連接完成數(shù)據(jù)挖掘工作,它們是: Source(源結(jié)點(diǎn)):Database、Var. Files等 Record Ops (記錄處理結(jié)點(diǎn)):Select、Sample等 Field Ops(字段處理結(jié)點(diǎn)):Type、Filter等 Graphs(圖形結(jié)點(diǎn)):Plot、Distribute等 Modeling(模型結(jié)點(diǎn)):Neural Net、C5.0等 Output(輸出結(jié)點(diǎn)):Table、Matrix等,,51,Clementine操作基本知識(shí),鼠標(biāo)應(yīng)用 三鍵與雙鍵鼠標(biāo) 左鍵 選擇節(jié)點(diǎn)或圖標(biāo)置于建模區(qū) 右鍵 激活浮動(dòng)菜單 中鍵 連接或斷開(kāi)兩個(gè)節(jié)點(diǎn) 幫助,,52,Clementine操作基本知識(shí),節(jié)點(diǎn)的增加,以 為例 Click “Sources”,Click ,Click “流區(qū)域” Click “Sources”,Double Click Click “Sources”,Drag to “流區(qū)域” 節(jié)點(diǎn)的刪除 Click , Delete Right Click ,Click “Delete” 節(jié)點(diǎn)的移動(dòng):Drag,,53,Clementine操作基本知識(shí),節(jié)點(diǎn)的編輯 Double Click Right Click ,Click “Edit” 節(jié)點(diǎn)的重命名和解釋 Right Click ,Click “Edit”,Click “Annotations” Double Click ,Click “Annotations” Right Click ,Click “Rename and Annotations” 拷貝、粘貼,,54,Clementine操作基本知識(shí),構(gòu)建流時(shí)節(jié)點(diǎn)的連接 Highlight ,Add to the Canvas Right Click ,Click “Connect”,Click Drag the middle mutton from to 構(gòu)建流時(shí)節(jié)點(diǎn)連接的刪除 Right Click or , Click “Disconnect” Right Click “Connection”,Click “Delete Connection” Double Click or,,55,Clementine操作基本知識(shí),流的執(zhí)行 Highlight “Stream”,Click Right Click ,Click “Execute” In the Edit Window of the , Click “Execute” 流的保存 幫助 Help Menu Dialogue Window,,56,一個(gè)例子羅斯文商貿(mào)公司,商業(yè)問(wèn)題: 微軟公司提供的案例數(shù)據(jù)庫(kù)羅斯文商貿(mào)公司,如何對(duì)客戶價(jià)值進(jìn)行評(píng)估 背景介紹: 1.羅斯文商貿(mào)公司是Microsoft數(shù)據(jù)庫(kù)產(chǎn)品(Access, SQL Server等)中的一個(gè)示例數(shù)據(jù)庫(kù); 2.它虛擬了一家經(jīng)銷(xiāo)日用品的商貿(mào)公司的情況; 3.目前該公司保存的歷史數(shù)據(jù)資料,見(jiàn)下頁(yè); 4.我們需要對(duì)客戶的價(jià)值進(jìn)行評(píng)估,以便采取有效的市場(chǎng)銷(xiāo)售策略。,,57,羅斯林商貿(mào)公司數(shù)據(jù),,58,羅斯文商貿(mào)公司統(tǒng)計(jì)問(wèn)題,數(shù)據(jù)挖掘問(wèn)題: (1)如何描述客戶價(jià)值?購(gòu)買(mǎi)總金額?購(gòu)買(mǎi)頻次?平均每次購(gòu)買(mǎi)金額?最近購(gòu)買(mǎi)金額?它們的線性組合?使用最簡(jiǎn)單的購(gòu)買(mǎi)總金額 (2)需要什么樣的數(shù)據(jù)挖掘方法?描述匯總?分類(lèi)?預(yù)測(cè)?概念描述?細(xì)分?相關(guān)分析?使用最簡(jiǎn)單的描述匯總 (3)需要的數(shù)據(jù)從哪里來(lái)?從以下幾個(gè)來(lái)源: 客戶 訂單 訂單明細(xì),,59,羅斯文商貿(mào)公司商業(yè)問(wèn)題解決方案,商業(yè)問(wèn)題解決方案 從所有客戶中找出最有價(jià)值的10個(gè)客戶,將名單發(fā)給市場(chǎng)部門(mén),讓其對(duì)這些客戶進(jìn)行更多的關(guān)注,,60,Clementine的優(yōu)化,包括兩個(gè)方面的優(yōu)化 結(jié)構(gòu)優(yōu)化 用戶優(yōu)化,,61,結(jié)構(gòu)優(yōu)化,把中間結(jié)果存儲(chǔ)在Server上(盡量使用server版處理) 從數(shù)據(jù)流上整理考慮的執(zhí)行數(shù)據(jù)流(能一步完成的處理盡量不要分解到多個(gè)執(zhí)行) 減少數(shù)據(jù)的遷移(數(shù)據(jù)提前進(jìn)行規(guī)劃),,62,用戶優(yōu)化,自動(dòng)優(yōu)化數(shù)據(jù)流:當(dāng)使用這一選項(xiàng)時(shí),Clementine將重寫(xiě)數(shù)據(jù)流以使效率最高(可以通過(guò)Clementine Server中的sql_rewriting_enabled來(lái)調(diào)整是否可以使用) 優(yōu)化的SQL生成。使盡可能的操作在數(shù)據(jù)庫(kù)內(nèi)進(jìn)行。 優(yōu)化Clementine執(zhí)行。調(diào)整數(shù)據(jù)降維的操作盡可能接近數(shù)據(jù)源完成。 手動(dòng)優(yōu)化數(shù)據(jù)流 操作順序:有些操作可以在SQL中完成,有些操作不能在SQL中完成,盡可能把能夠在SQL中完成的一起排在前面 數(shù)據(jù)類(lèi)型:盡可能在源節(jié)點(diǎn)處由用戶自定義數(shù)據(jù)類(lèi)型,而不是Clementine自動(dòng)讀取。,,63,一個(gè)數(shù)據(jù)挖掘的實(shí)例 客戶信用級(jí)別判斷系統(tǒng),,64,問(wèn)題的提出,如何通過(guò)數(shù)據(jù)挖掘?qū)崿F(xiàn)小靈通信用級(jí)別的判斷系統(tǒng) 某電信公司按照某種標(biāo)準(zhǔn)將小靈通客戶信用等級(jí)分為5類(lèi),分別是gradeA、gradeB 、gradeC、gradeX、gradeY?,F(xiàn)在希望建立一套系統(tǒng),能夠使得市場(chǎng)部人員根據(jù)用戶的幾項(xiàng)關(guān)鍵的個(gè)人基本信息判斷該客戶的信用級(jí)別,從而有針對(duì)性地對(duì)其采用不同的市場(chǎng)營(yíng)銷(xiāo)策略。,,65,數(shù)據(jù)描述,,66,遵循CRISP-DM的數(shù)據(jù)挖掘過(guò)程,,67,在進(jìn)行數(shù)據(jù)挖掘過(guò)程中應(yīng)該注意的幾個(gè)問(wèn)題,商業(yè)經(jīng)驗(yàn)的作用 數(shù)據(jù)的拆分訓(xùn)練集與檢驗(yàn)集 不同模型的印證與比較,,68,結(jié)果發(fā)布,信用級(jí)別靜態(tài)列表 信用級(jí)別寫(xiě)回?cái)?shù)據(jù)庫(kù) 實(shí)時(shí)判斷信用級(jí)別的分析應(yīng)用,,69,問(wèn)題&討論,,70,三、數(shù)據(jù)理解:數(shù)據(jù)的可視化和報(bào)告,數(shù)據(jù)組織形式 數(shù)據(jù)圖形展現(xiàn) 數(shù)據(jù)表格展現(xiàn),,71,數(shù)據(jù)挖掘要求的數(shù)據(jù)格式,變量 記錄(行代表記錄,列代表變量),,72,數(shù)據(jù)尺度,根據(jù)數(shù)據(jù)的不同,可以把變量分為以下一些類(lèi)型 定類(lèi)變量 例如:客戶編號(hào)、性別、郵編等 不能比較大小 定序變量 產(chǎn)品等級(jí)、信用級(jí)別、客戶收入水平分類(lèi)等 可以比較大小、不能進(jìn)行加減運(yùn)算 定距變量 出生日期、溫度等 可以進(jìn)行加減運(yùn)算、不能進(jìn)行乘除運(yùn)算 定比變量 收入、長(zhǎng)度等 可以進(jìn)行乘除運(yùn)算,,73,各類(lèi)變量尺度比較,,74,描述性統(tǒng)計(jì)量,描述統(tǒng)計(jì)量(summary statistic),也稱(chēng)匯總統(tǒng)計(jì)量或概括統(tǒng)計(jì)量 用少量數(shù)字概括大量數(shù)據(jù)的技術(shù),,75,離散變量的描述性統(tǒng)計(jì),頻數(shù) 累計(jì)頻數(shù) 頻率 累計(jì)頻率(累計(jì)必須是定序變量),,76,連續(xù)變量的描述指標(biāo),反映數(shù)據(jù)平均趨勢(shì)和位置的指標(biāo) 反映數(shù)據(jù)離散趨勢(shì)的指標(biāo) 反映數(shù)據(jù)分布狀況的指標(biāo),,77,反映連續(xù)數(shù)據(jù)平均趨勢(shì)的指標(biāo),平均數(shù) 算術(shù)平均數(shù) 幾何平均數(shù) 截尾算術(shù)平均數(shù):比較穩(wěn)健有效地描述平均值 中位數(shù):(代表群體基本的趨勢(shì),集中的趨勢(shì)) 眾數(shù)(多用于離散變量) 四分位數(shù)(25%,50%,75%) 百分位數(shù),,78,平均數(shù)與中位數(shù)的結(jié)合使用,對(duì)5個(gè)數(shù)值表示的內(nèi)容說(shuō)法有些不同,含義與左圖不同,含義與左圖不同,,79,反映連續(xù)數(shù)據(jù)離散趨勢(shì)的指標(biāo),極差(全距)range =max-min 內(nèi)距 50%的差距 方差 :更適合離散趨勢(shì)的描述(趨勢(shì)放大) 標(biāo)準(zhǔn)差 變異系數(shù):標(biāo)準(zhǔn)差/均值,值越大,則離散程度越大。,,80,平均數(shù)與標(biāo)準(zhǔn)差的應(yīng)用,切比雪夫定理 在任何一個(gè)數(shù)據(jù)集中,至少有(1-1/z2 )的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在z個(gè)標(biāo)準(zhǔn)差之內(nèi),其中z是任意大于1的值。 切比雪夫定理含義 1.至少75%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在2個(gè)標(biāo)準(zhǔn)差之內(nèi); 2.至少89%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在3個(gè)標(biāo)準(zhǔn)差之內(nèi);(6西格瑪質(zhì)量管理應(yīng)用) 3.至少94%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在4個(gè)標(biāo)準(zhǔn)差之內(nèi)。,,81,連續(xù)變量的經(jīng)驗(yàn)法則,正態(tài)分布是一種最常用的連續(xù)型分布 關(guān)于正態(tài)分布的經(jīng)驗(yàn)法則 1.約68%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在1個(gè)標(biāo)準(zhǔn)差之內(nèi); 2.約95%的數(shù)據(jù)項(xiàng)與平均數(shù)的距離在2個(gè)標(biāo)準(zhǔn)差之內(nèi); 3.幾乎全部數(shù)據(jù)項(xiàng)(99.97%)與平均數(shù)的距離在3個(gè)標(biāo)準(zhǔn)差之內(nèi)。,,82,切比雪夫和經(jīng)驗(yàn)法則的應(yīng)用,問(wèn)題 某單位有100個(gè)人,他們的平均身高是170cm,標(biāo)準(zhǔn)差為5cm,那么有多少人的身高是落在160cm-180cm這個(gè)區(qū)間里的呢? 經(jīng)驗(yàn)法則的應(yīng)用 根據(jù)切比雪夫定理,該單位至少有75%的人身高在160cm180cm這個(gè)區(qū)間里 根據(jù)正態(tài)分布經(jīng)驗(yàn)法則,該單位大約有95%的人身高在160cm180cm這個(gè)區(qū)間里,,83,反映連續(xù)數(shù)據(jù)分布狀況的指標(biāo),偏度 峰度,,84,圖形展現(xiàn)數(shù)據(jù),,85,圖形技術(shù)的應(yīng)用,圖形可以用來(lái)直觀的展示數(shù)據(jù)的分布特征和取值情況 常見(jiàn)的描述離散變量的圖形有 條形圖 餅形圖 常見(jiàn)的描述連續(xù)變量的圖形有 直方圖 常見(jiàn)的描述兩個(gè)離散變量之間關(guān)系的圖形有 Web圖 條形圖 常見(jiàn)的描述兩個(gè)連續(xù)變量之間關(guān)系的圖形有 散點(diǎn)圖 常見(jiàn)的描述一個(gè)離散變量和一個(gè)連續(xù)變量之間關(guān)系的圖形是 條形圖,,86,通過(guò)圖形可以表現(xiàn)多個(gè)變量之間的關(guān)系,,87,Chapter 2,Clementine 簡(jiǎn)介,,88,Chapter 2 Clementine 簡(jiǎn)介,目的: 初步了解Clementine軟件 內(nèi)容: 2.1 SPSS Clementine C/S 2.2 SPSS Clementine 面板 2.3 SPSS Clementine 可視化程序使用基礎(chǔ) 節(jié)點(diǎn) SPSS file 節(jié)點(diǎn) Table 節(jié)點(diǎn),,89,2.1 Clementine C/S,啟動(dòng): StartProgramsClementine 8.1 Clementine and Clementine Server ToolsServer Login,,90,Clementine的結(jié)構(gòu)示意圖,,91,2.2 Clementine 面板,,92,第二講:數(shù)據(jù)簡(jiǎn)單準(zhǔn)備與理解,數(shù)據(jù)準(zhǔn)備之讀入數(shù)據(jù) 數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量 數(shù)據(jù)理解之?dāng)?shù)據(jù)分布,,93,Chapter 3,讀取數(shù)據(jù)文件,,94,Chapter 3 讀取數(shù)據(jù)文件,目的 掌握Clementine如何讀取文本格式數(shù)據(jù) 了解Clementine可以讀取的數(shù)據(jù)格式 掌握Clementine中的字段類(lèi)型和方向 數(shù)據(jù) S,,95,Chapter 3 讀取數(shù)據(jù)文件,內(nèi)容及節(jié)點(diǎn): 3.1 Clementine可以讀取的數(shù)據(jù)格式 3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù) 3.3 讀取SPSS數(shù)據(jù) 3.4 讀取數(shù)據(jù)庫(kù)數(shù)據(jù)(專(zhuān)用spss配置的鏈接) 3.5 Clementine中的字段類(lèi)型 3.6 Clementine中的字段方向 3.7 保存Clementine流,,96,3.1 Clementine可以讀取的數(shù)據(jù)格式,文本格式數(shù)據(jù) SPSS/SAS數(shù)據(jù) Excel,Access,dBase,F(xiàn)oxpro,Oracle,SQL Server,DB2等數(shù)據(jù)庫(kù)(每次只能讀一個(gè)表) 用戶輸入數(shù)據(jù),,97,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),,98,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),,99,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),,100,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),,101,3.2 讀取文本數(shù)據(jù)與查看數(shù)據(jù),,102,3.3 讀取SPSS數(shù)據(jù),變量標(biāo)簽 值標(biāo)簽,,103,3.4 讀取數(shù)據(jù)庫(kù)數(shù)據(jù),ODBC設(shè)置,數(shù)據(jù)庫(kù)-表,,104,3.5 Clementine中的字段類(lèi)型,離散型 二分 eg:sex:m/f 多分 eg:等級(jí):好/中/差 離散 eg: 連續(xù)型 整數(shù) 實(shí)數(shù) 日期、時(shí)間 其它,,105,3.6 Clementine中的字段方向,,106,3.7 讀取其它格式的數(shù)據(jù),Sas Fixed text file:同一字段在各行的同一列,,107,Chapter 4,數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量,,108,Chapter 4 數(shù)據(jù)理解之?dāng)?shù)據(jù)質(zhì)量,目的: 掌握如何應(yīng)用Clementine發(fā)現(xiàn)數(shù)據(jù)的準(zhǔn)確性、完整性 熟悉用于數(shù)據(jù)質(zhì)量分析的幾個(gè)節(jié)點(diǎn) 內(nèi)容: 4.1 數(shù)據(jù)理解 4.2 缺失值定義 4.3 Quality節(jié)點(diǎn)介紹 4.4 Distribution節(jié)點(diǎn)-初步理解字符型字段的分布 4.5 Histogram/Statistics節(jié)點(diǎn)-初步理解數(shù)值型字段的分布 數(shù)據(jù): Smallsamplemissing.txt Risk.txt,,109,數(shù)據(jù)理解的內(nèi)容,對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià) 對(duì)數(shù)據(jù)進(jìn)行初步的描述 對(duì)數(shù)據(jù)之間的關(guān)系進(jìn)行探索性分析,,110,4.1 數(shù)據(jù)理解,在數(shù)據(jù)挖掘之前,理解數(shù)據(jù)的取值范圍及數(shù)值分布是非常重要的 Histogram/Statistics Distribution 數(shù)據(jù)質(zhì)量越高,挖掘結(jié)果準(zhǔn)確性越高 Quality,,111,4.2 缺失值定義,Missing values are values in the data set that are unknown, uncollected, or incorrectly entered. They are invalid for their fields. 缺失值的定義:type節(jié)點(diǎn) 系統(tǒng)默認(rèn)缺失值-on Null-數(shù)值型字段-空值-“”-“$Null” Empty String -字符型字段-空值-“” White Space -字符型字段-空值以及空格值-“”或“ ”-包括Empty String 指定缺失值-Blank Value 系統(tǒng)默認(rèn)缺失值 指定特殊缺失值-“99” 缺失值的檢查:quality節(jié)點(diǎn),,112,4.2 缺失值定義,,113,4.2 缺失值定義,數(shù)據(jù)缺失情況 數(shù)據(jù)量的大小 包含缺失值的字段的數(shù)量 缺失值的數(shù)量 缺失值的處理方法 忽略含缺失值的字段 忽略含缺失值的記錄 默認(rèn)值代替缺失值 根據(jù)一定規(guī)則填充缺失值,,114,4.3 Quality節(jié)點(diǎn)介紹,查看缺失值情況 查看各類(lèi)型缺失值的分布情況 Blank Value的指定,,115,4.3 Quality節(jié)點(diǎn)介紹,Quality結(jié)果,,116,4.4 Distribution節(jié)點(diǎn)-初步理解字符型字段的分布,單個(gè)字段的值分布 例:人群中各種風(fēng)險(xiǎn)等級(jí)人數(shù)及百分比 與其它分類(lèi)字段合并 例:分性別顯示各種風(fēng)險(xiǎn)等級(jí)人數(shù)及百分比 例:各種風(fēng)險(xiǎn)等級(jí)中男性女性各占比例,,117,4.5 Histogram/Statistics節(jié)點(diǎn)-初步理解數(shù)值型字段的分布,單個(gè)字段的值分布 例:人群收入水平 與其它分類(lèi)字段合并 例:顯示各種風(fēng)險(xiǎn)等級(jí)的收入水平 例:顯示各收入水平的各風(fēng)險(xiǎn)等級(jí)比例,,118,Chapter 5,簡(jiǎn)單數(shù)據(jù)整理,,119,Chapter 5 簡(jiǎn)單數(shù)據(jù)整理,目的: 掌握Clementine中的數(shù)據(jù)整理技術(shù) 熟悉用于數(shù)據(jù)整理的幾個(gè)節(jié)點(diǎn) 內(nèi)容 5.1 Clem語(yǔ)言簡(jiǎn)介 5.2 Select節(jié)點(diǎn)介紹 5.3 Filter節(jié)點(diǎn)介紹 5.4 Derive節(jié)點(diǎn)介紹 5.5 自動(dòng)生成操作節(jié)點(diǎn) 數(shù)據(jù) Risk.txt SmallSampleMissing.txt,,120,5.1 Clem語(yǔ)言簡(jiǎn)介,Clementine Language of Expression Manipulation 應(yīng)用節(jié)點(diǎn):Derive導(dǎo)出, Select選擇, Filter過(guò)濾 構(gòu)建材料:函數(shù)、符號(hào)、數(shù)字、字段 記錄敏感:對(duì)每條記錄返回值(整數(shù)、實(shí)數(shù)、布爾值、字符值、日期、時(shí)間)或評(píng)估是否滿足條件 兩種表達(dá)式:條件表達(dá)式與計(jì)算表達(dá)式,,121,5.2 Select節(jié)點(diǎn)介紹,用于根據(jù)一定條件選擇或丟棄某些記錄 CLEM構(gòu)建,,122,5.3 Filter節(jié)點(diǎn)介紹,對(duì)某些字段進(jìn)行重命名或丟棄某些無(wú)意義的字段 無(wú)意義字段 缺失值占大比例 所有記錄有相同值 中間過(guò)程生成的中間變量,,123,5.4 Derive節(jié)點(diǎn)介紹,根據(jù)原有字段值生成新字段值 按公式生成字段 生成二分型字段 生成多分型字段 對(duì)所有記錄按同樣標(biāo)準(zhǔn)生成新字段 對(duì)不同記錄按不同標(biāo)準(zhǔn)生成新字段 對(duì)多個(gè)字段進(jìn)行同一轉(zhuǎn)換,,124,5.4 Derive節(jié)點(diǎn)介紹,可以利用導(dǎo)出把連續(xù)數(shù)據(jù)離散化(導(dǎo)出為標(biāo)志及集合),以進(jìn)一步分析,,125,5.5 自動(dòng)生成操作節(jié)點(diǎn),自動(dòng)生成“Select” 自動(dòng)生成“Filter”,,126,第三講主要內(nèi)容,數(shù)據(jù)理解之?dāng)?shù)據(jù)關(guān)系探測(cè) 基本建模方法簡(jiǎn)要介紹,,127,Chapter 6,數(shù)據(jù)理解之 數(shù)據(jù)間簡(jiǎn)單關(guān)系,,128,Chapter 6 數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡(jiǎn)單關(guān)系,目的: 掌握如何理解字段間關(guān)系 熟悉用于字段關(guān)系理解的幾個(gè)節(jié)點(diǎn) 內(nèi)容 6.1 Matrix節(jié)點(diǎn)-研究字符型字段間關(guān)系 6.2 Web節(jié)點(diǎn)-研究字符型字段間關(guān)系 6.3 Statistics節(jié)點(diǎn)-研究連續(xù)型字段間線性相關(guān)關(guān)系 6.4 Plot節(jié)點(diǎn)-研究連續(xù)型字段間關(guān)系 6.5 Histogram節(jié)點(diǎn)-研究連續(xù)型字段與字符型字段的關(guān)系 數(shù)據(jù) Risk.txt,,129,Chapter 6 數(shù)據(jù)理解之?dāng)?shù)據(jù)間簡(jiǎn)單關(guān)系,解決問(wèn)題 風(fēng)險(xiǎn)等級(jí)是否與收入有關(guān) 風(fēng)險(xiǎn)等級(jí)是否與性別有關(guān) 如果一個(gè)人的信用卡數(shù)量較多,是否意味著它欺詐的可能性也大,,130,6.1 Matrix節(jié)點(diǎn)-研究字符型字段間關(guān)系,解決問(wèn)題 月付款的人是否比周付款的人風(fēng)險(xiǎn)程度更高 男性是否比女性風(fēng)險(xiǎn)程序更高 Matrix節(jié)點(diǎn): 交叉表(列聯(lián)表)來(lái)顯示字符型數(shù)據(jù)間關(guān)系 行字段與列字段的選擇 顯示百分比,,131,6.1 Matrix節(jié)點(diǎn)-研究字符型字段間關(guān)系,,132,6.2 Web節(jié)點(diǎn)-研究字符型字段間關(guān)系,例:婚姻狀態(tài)、抵押貸款等是否與風(fēng)險(xiǎn)等級(jí)有關(guān) 幾個(gè)小概念: 人數(shù) 總數(shù)百分比 大類(lèi)百分比 小類(lèi)百分比 強(qiáng)、中、弱相關(guān)關(guān)系 結(jié)果解讀,,133,6.2 Web節(jié)點(diǎn)-研究字符型字段間關(guān)系,,134,6.3 Statistics節(jié)點(diǎn)-研究連續(xù)型字段間線性相關(guān)關(guān)系,例:收入是否隨年齡呈線性增長(zhǎng) Statistics節(jié)點(diǎn)設(shè)置 結(jié)果解讀 注意: 線性相關(guān)關(guān)系而非相關(guān)關(guān)系(線形相關(guān)是相關(guān)關(guān)系的一種,其他相關(guān)關(guān)系最終需要轉(zhuǎn)化為線形相關(guān)來(lái)研究),,135,6.3 Statistics節(jié)點(diǎn)-研究連續(xù)型字段間線性相關(guān)關(guān)系,,136,6.4 Plot節(jié)點(diǎn)-研究連續(xù)型字段間關(guān)系,例:顯示孩子數(shù)目與貸款數(shù)目的關(guān)系 用點(diǎn)的大小來(lái)反映其代表記錄的多少 用點(diǎn)的密度來(lái)反映其代表記錄的多少 用不同顏色的點(diǎn)來(lái)反映不同類(lèi)別的記錄,,137,6.4 Plot節(jié)點(diǎn)-研究連續(xù)型字段間關(guān)系,,138,6.5 Histogram節(jié)點(diǎn)-研究連續(xù)型字段與字符型字段的關(guān)系,例:不同風(fēng)險(xiǎn)等級(jí)的人的收入情況 顯示某收入水平的各風(fēng)險(xiǎn)等級(jí)人數(shù) 顯示某收入水平-各風(fēng)險(xiǎn)等級(jí)在該收入水平所占的比例,,139,表格展現(xiàn)數(shù)據(jù),,140,表格的元素構(gòu)成,,141,表格類(lèi)型 在SPSS里實(shí)現(xiàn),堆疊表(Stacking) 嵌套表(Nesting) 交叉表(Crosstabulation) 分層表(Layers),,142,堆疊表,,143,嵌套表,,144,交叉表,,145,分層表,,146,把層去掉以后的效果,,147,樞軸表技術(shù)(Pivot Tables),行、列、層可自由互換,達(dá)到從各個(gè)角度觀察數(shù)據(jù)的目的,,148,Clementine表格,,149,問(wèn)題&討論,,150,Chapter 7,建模技術(shù)概覽,,151,Chapter 7 Clementine中的建模技術(shù),目的: 了解Clementine中提供的各種建模技術(shù) 內(nèi)容 7.1 Clementine提供的模型技術(shù) 7.2 Neural Networks(神經(jīng)網(wǎng)絡(luò)) 7.3 規(guī)則歸納模型 7.4 統(tǒng)計(jì)模型 7.5 聚類(lèi)模型 7.6 關(guān)聯(lián)規(guī)則模型 7.7 Sequence模型 7.8 總述,,152,Data Mining Model,Supervised Model(監(jiān)督模型,預(yù)測(cè)模型,有目標(biāo)的,關(guān)注風(fēng)險(xiǎn)狀況) (Predictive Model),Unsupervised Model,Data Reduction(數(shù)據(jù)整理),Neural Networks,C5.0,C&RT(CART),Regression,Logistic regression(分類(lèi)變量預(yù)測(cè)),Kohonen,K-means,Two-Step,PCA(Principal Component Analysis)主成分分析,Factor因子分析,Clementine提供模型概述,Clustering(聚類(lèi)),APRIORI,GRI(多維關(guān)聯(lián)),Sequence,Associations(關(guān)聯(lián)),,153,7.1 Clementine提供的模型技術(shù),幾種技術(shù):預(yù)測(cè)、聚類(lèi)、關(guān)聯(lián)規(guī)則 預(yù)測(cè)技術(shù): InputsOutput 六種方法: Neural Networks 規(guī)則歸納:C5.0,C&RT 與時(shí)間或順序有關(guān)的關(guān)聯(lián)規(guī)則:Sequence(Capri) 統(tǒng)計(jì)學(xué):回歸、Logistic回歸,,154,7.1 Clementine提供的模型技術(shù),聚類(lèi)技術(shù) 無(wú)Output 無(wú)監(jiān)督的學(xué)習(xí) 三種方法: Kohonen 統(tǒng)計(jì)學(xué):K-means、TwoStep 關(guān)聯(lián)規(guī)則 Both Input and Output 三種方法 GRI,Apriori Sequence (Capri),,155,7.2 Neural Networks,模仿人腦 Input/Output可以是Num,也可以是Symbolic MLP與RBFN 劣勢(shì):黑匣子,,156,7.3 規(guī)則歸納模型,是決策樹(shù)算法 與Neural Net相比的優(yōu)勢(shì) 結(jié)果好解釋 自動(dòng)刪除無(wú)意義的Input字段 主要是根據(jù)結(jié)果變量值對(duì)數(shù)據(jù)按Input進(jìn)行細(xì)分 有兩種結(jié)果形式:決策樹(shù)形式或規(guī)則集形式,,157,7.4 統(tǒng)計(jì)模型之線性回歸,統(tǒng)計(jì)模型與Neural Net相比: 嚴(yán)格的假設(shè)(如誤差正態(tài)分布) 用簡(jiǎn)單方程表達(dá)模型,便于解釋 可自動(dòng)選擇字段 無(wú)法捕捉Inputs字段間的交互作用 統(tǒng)計(jì)模型: 線性回歸 Logistic回歸 主成分分析,,158,7.4 統(tǒng)計(jì)模型之回歸,線性回歸: 方程:Y=a+b1x1+b2x2+ +bnxn 原理:尋找使誤差平方和最小的系數(shù) Output字段-Numeric輸出必須是連續(xù)型 Input字段-Numeric/Symbolic Logistic回歸: 方程 原理:尋找使誤差平方和最小的系數(shù) 回歸系數(shù)隨結(jié)果值而改變,與NN,RI相比,不適合復(fù)雜數(shù)據(jù) Output字段-Symbolic輸出必須是離散性 Input字段-Numeric/Symbolic,,159,7.4 統(tǒng)計(jì)模型之主成分分析,數(shù)據(jù)降維技術(shù): 用少量不相關(guān)數(shù)據(jù)(主成分)來(lái)代替大量相關(guān)數(shù)據(jù)(原始數(shù)據(jù))作分析 主成分是原始數(shù)據(jù)的線性組合 更可能與統(tǒng)計(jì)分析方法合并使用(相對(duì)于機(jī)器學(xué)習(xí)),尤其是在多個(gè)等級(jí)分類(lèi)字段 可用于預(yù)測(cè)模型或聚類(lèi)分析之前,,160,7.5 聚類(lèi)模型,發(fā)現(xiàn)有相似值記錄的群體 多用于市場(chǎng)(細(xì)分客戶)和其它商業(yè)應(yīng)用 與主成分分析相似,多用于預(yù)測(cè)模型之前 無(wú)監(jiān)督學(xué)習(xí)(無(wú)output) 三種聚類(lèi)分析方法: Kohonen K-means TwoStep,,161,7.5 聚類(lèi)模型,Kohonen聚類(lèi) 是一種實(shí)施無(wú)監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)算法 一維或二維網(wǎng)格,各神經(jīng)元相互連接 K-means聚類(lèi) 又稱(chēng)為快速聚類(lèi),(速度快,適合大量數(shù)據(jù)) 用戶指定類(lèi)別數(shù) 與記錄順序有關(guān)(小數(shù)據(jù)量與記錄順序無(wú)關(guān),大數(shù)據(jù)需要先執(zhí)行一定程序找出數(shù)據(jù)各類(lèi)別中心) TwoStep聚類(lèi) 用戶指定范圍,模型根據(jù)統(tǒng)計(jì)學(xué)標(biāo)準(zhǔn)自動(dòng)選擇類(lèi)數(shù) 消耗機(jī)器資源少 能給出一個(gè)較好的結(jié)果,,162,7.6 關(guān)聯(lián)規(guī)則模型,尋找數(shù)據(jù)中一起發(fā)生的事情 與Web相似,但以極快的速度發(fā)掘更復(fù)雜的模式 與規(guī)則歸納不同之處 每個(gè)規(guī)則的Output字段可能各不相同 規(guī)則可用于查看,但非預(yù)測(cè) 可生成同一output字段的規(guī)則,用于預(yù)測(cè) 與規(guī)則歸納相比,運(yùn)行較慢,可增加限制條件從而提高速度 兩種算法:Apriori,GRI(廣義規(guī)則探測(cè)),,163,7.7 Sequence模型,與關(guān)聯(lián)規(guī)則不同之處在于尋找與時(shí)間/順序有關(guān)的規(guī)則 應(yīng)用領(lǐng)域:零售、網(wǎng)絡(luò)日志、過(guò)程改進(jìn) 用于字符型字段,數(shù)值被當(dāng)作是字符 用CARMA算法,,164,7.8 綜述,如果要預(yù)測(cè)某個(gè)字段-有監(jiān)督的機(jī)器學(xué)習(xí)和其中一種統(tǒng)計(jì)方法(依結(jié)果字段而定) 如果想發(fā)現(xiàn)有相似行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論