數(shù)據(jù)挖掘(第一部分)SPSS-clementine11培訓(xùn)1cindy課件_第1頁(yè)
數(shù)據(jù)挖掘(第一部分)SPSS-clementine11培訓(xùn)1cindy課件_第2頁(yè)
數(shù)據(jù)挖掘(第一部分)SPSS-clementine11培訓(xùn)1cindy課件_第3頁(yè)
數(shù)據(jù)挖掘(第一部分)SPSS-clementine11培訓(xùn)1cindy課件_第4頁(yè)
數(shù)據(jù)挖掘(第一部分)SPSS-clementine11培訓(xùn)1cindy課件_第5頁(yè)
已閱讀5頁(yè),還剩155頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Clementine基礎(chǔ)培訓(xùn)

第一部分介紹Clementine數(shù)據(jù)挖掘軟件的基本操作和環(huán)境,學(xué)習(xí)如何使用Clementine讀取、處理數(shù)據(jù)Clementine基礎(chǔ)培訓(xùn)

第一部分介紹Clementin培訓(xùn)內(nèi)容第一章數(shù)據(jù)挖掘簡(jiǎn)介第二章

Clementine簡(jiǎn)介第三章讀取數(shù)據(jù)文件第四章數(shù)據(jù)質(zhì)量第五章數(shù)據(jù)處理第六章

尋找數(shù)據(jù)之間的關(guān)系2?2006SPSSInc.培訓(xùn)內(nèi)容第一章數(shù)據(jù)挖掘簡(jiǎn)介2?2006SPSSIn第一章數(shù)據(jù)挖掘簡(jiǎn)介第一章數(shù)據(jù)挖掘簡(jiǎn)介第一章數(shù)據(jù)挖掘簡(jiǎn)介內(nèi)容介紹數(shù)據(jù)挖掘概念介紹CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)概述課程計(jì)劃目的介紹數(shù)據(jù)挖掘過(guò)程,理解數(shù)據(jù)挖掘中的術(shù)語(yǔ)和關(guān)鍵概念,以及如何使用CRISP-DM過(guò)程模型管理一個(gè)數(shù)據(jù)挖掘項(xiàng)目4?2006SPSSInc.第一章數(shù)據(jù)挖掘簡(jiǎn)介內(nèi)容4?2006SPSSInc.什么是數(shù)據(jù)挖掘?利用各種技術(shù)發(fā)現(xiàn)數(shù)據(jù)的隱含關(guān)系(知識(shí))使用歷史數(shù)據(jù)預(yù)測(cè)、分類,并且預(yù)測(cè)未來(lái)常用技術(shù):人工智能、機(jī)器學(xué)習(xí)、決策樹一個(gè)交互、反復(fù)的過(guò)程5?2006SPSSInc.什么是數(shù)據(jù)挖掘?利用各種技術(shù)發(fā)現(xiàn)數(shù)據(jù)的隱含關(guān)系(知識(shí))5?Clementine中對(duì)數(shù)據(jù)挖掘的支持主動(dòng)支持:計(jì)算機(jī)使用各種算法在數(shù)據(jù)中識(shí)別規(guī)則和關(guān)系被動(dòng)支持:使用者處理并且瀏覽數(shù)據(jù)來(lái)尋找可疑的關(guān)系6?2006SPSSInc.Clementine中對(duì)數(shù)據(jù)挖掘的支持主動(dòng)支持:6?20數(shù)據(jù)數(shù)據(jù)是可以得到的嗎?數(shù)據(jù)包含所需要了解的屬性嗎?數(shù)據(jù)是否有噪聲?數(shù)據(jù)量足夠嗎?可以獲得關(guān)于數(shù)據(jù)的專家知識(shí)嗎?7?2006SPSSInc.數(shù)據(jù)數(shù)據(jù)是可以得到的嗎?7?2006SPSSInc.數(shù)據(jù)挖掘的策略(計(jì)劃性)主要想解決什么樣的問(wèn)題?可以得到什么樣的數(shù)據(jù)來(lái)源,并且與當(dāng)前問(wèn)題相關(guān)的是哪部分?jǐn)?shù)據(jù)?在挖掘數(shù)據(jù)前,需要做什么樣的數(shù)據(jù)預(yù)整理和數(shù)據(jù)清洗?將會(huì)使用什么樣的數(shù)據(jù)挖掘技巧?將會(huì)如何評(píng)估數(shù)據(jù)挖掘的分析結(jié)果?8?2006SPSSInc.數(shù)據(jù)挖掘的策略(計(jì)劃性)主要想解決什么樣的問(wèn)題?8?200CRISP-DM過(guò)程模型跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過(guò)程(CRISP-DM)定位是面向行業(yè)、工具導(dǎo)向、面向應(yīng)用適用于大型工業(yè)和商業(yè)實(shí)踐的一般標(biāo)準(zhǔn)六個(gè)階段:商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評(píng)估結(jié)果發(fā)布9?2006SPSSInc.CRISP-DM過(guò)程模型跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過(guò)程(CRISP課程計(jì)劃數(shù)據(jù)挖掘及數(shù)據(jù)挖掘軟件數(shù)據(jù)理解:從數(shù)據(jù)源抽取數(shù)據(jù)用表格圖形技術(shù)透視數(shù)據(jù)處理缺失值數(shù)據(jù)準(zhǔn)備:針對(duì)記錄的數(shù)據(jù)準(zhǔn)備,如選擇記錄、對(duì)記錄排序針對(duì)字段的數(shù)據(jù)準(zhǔn)備,如生成新的字段針對(duì)文件的數(shù)據(jù)準(zhǔn)備,如合并文件10?2006SPSSInc.課程計(jì)劃數(shù)據(jù)挖掘及數(shù)據(jù)挖掘軟件10?2006SPSSI課程計(jì)劃建模技術(shù):監(jiān)督學(xué)習(xí)技術(shù),神經(jīng)網(wǎng)絡(luò)、歸納規(guī)則(決策樹)、線性回歸、Logistic回歸非監(jiān)督學(xué)習(xí)技術(shù),Kohonen網(wǎng)絡(luò)、兩步聚類、K-means聚類關(guān)聯(lián)規(guī)則、時(shí)序探測(cè)模型評(píng)估如何應(yīng)用CRISP-DM流程研究數(shù)據(jù)挖掘問(wèn)題11?2006SPSSInc.課程計(jì)劃建模技術(shù):11?2006SPSSInc.第二章Clementine簡(jiǎn)介第二章Clementine簡(jiǎn)介

Clementine簡(jiǎn)介內(nèi)容熟悉Clementine中的工具和面板介紹可視化編程的思想目的初步了解Clementine的功能數(shù)據(jù)課程的數(shù)據(jù)文件存放在目錄“C:\培訓(xùn)\基礎(chǔ)培訓(xùn)1”中13?2006SPSSInc.Clementine簡(jiǎn)介內(nèi)容13?2006SPSSClementine用戶界面數(shù)據(jù)流區(qū)域工具欄菜單欄選項(xiàng)板區(qū)節(jié)點(diǎn)數(shù)據(jù)流,輸出和模型管理器項(xiàng)目窗口14?2006SPSSInc.Clementine用戶界面數(shù)據(jù)流區(qū)域工具欄菜單欄選項(xiàng)板可視化編程節(jié)點(diǎn)一個(gè)圖標(biāo)代表在Clementine中進(jìn)行的一個(gè)操作工作流一系列連接在一起的節(jié)點(diǎn)選項(xiàng)板包含一系列不同功能的圖標(biāo)15?2006SPSSInc.可視化編程節(jié)點(diǎn)15?2006SPSSInc.選項(xiàng)板源節(jié)點(diǎn)用來(lái)將數(shù)據(jù)讀入Clementine中記錄選項(xiàng)節(jié)點(diǎn)在記錄上進(jìn)行操作一條記錄是一種“情形”或一“行”數(shù)據(jù)字段選項(xiàng)節(jié)點(diǎn)在字段上進(jìn)行操作一個(gè)字段是一個(gè)變量圖形節(jié)點(diǎn)在建模之前和之后用來(lái)可視化數(shù)據(jù)建模節(jié)點(diǎn)代表有效建模算法注意:建模算法產(chǎn)生生成的模型16?2006SPSSInc.選項(xiàng)板源節(jié)點(diǎn)16?2006SPSSInc.在下面一部分…舉例:增加一個(gè)節(jié)點(diǎn)移動(dòng)一個(gè)節(jié)點(diǎn)編輯一個(gè)節(jié)點(diǎn)重新命名一個(gè)節(jié)點(diǎn)復(fù)制一個(gè)節(jié)點(diǎn)刪除一個(gè)節(jié)點(diǎn)注釋一個(gè)節(jié)點(diǎn)保存一個(gè)節(jié)點(diǎn)重新載入一個(gè)節(jié)點(diǎn)連接節(jié)點(diǎn)刪除節(jié)點(diǎn)連接獲得幫助17?2006SPSSInc.在下面一部分…舉例:增加一個(gè)節(jié)點(diǎn)注釋一個(gè)節(jié)點(diǎn)17?2006增加一個(gè)節(jié)點(diǎn)在選項(xiàng)板上雙擊節(jié)點(diǎn),自動(dòng)放置節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域注意:它會(huì)自動(dòng)地連接到“中心”節(jié)點(diǎn)將節(jié)點(diǎn)從選項(xiàng)板拖放到數(shù)據(jù)流區(qū)域中在選項(xiàng)板上點(diǎn)擊一個(gè)節(jié)點(diǎn),然后在數(shù)據(jù)流區(qū)域中點(diǎn)擊一下未選擇選擇當(dāng)節(jié)點(diǎn)在選項(xiàng)板中被選中后,會(huì)變成淡藍(lán)色18?2006SPSSInc.增加一個(gè)節(jié)點(diǎn)在選項(xiàng)板上雙擊節(jié)點(diǎn),自動(dòng)放置節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域注意編輯一個(gè)節(jié)點(diǎn)在節(jié)點(diǎn)上右擊,展開一個(gè)節(jié)點(diǎn)點(diǎn)擊“編輯”在菜單上還可以選擇連接、斷開連接、重命名、注釋、復(fù)制、刪除、載入、保存等操作19?2006SPSSInc.編輯一個(gè)節(jié)點(diǎn)在節(jié)點(diǎn)上右擊,展開一個(gè)節(jié)點(diǎn)19?2006SP連接節(jié)點(diǎn)使用鼠標(biāo)中鍵來(lái)連接節(jié)點(diǎn)在數(shù)據(jù)流區(qū)域上,把一個(gè)節(jié)點(diǎn)連接到另一個(gè)上,可以通過(guò)鼠標(biāo)中間鍵點(diǎn)擊和拖放來(lái)完成(如果您的鼠標(biāo)沒(méi)有中間鍵,可以通過(guò)按住“Alt”鍵來(lái)模擬這個(gè)過(guò)程)通過(guò)雙擊來(lái)連接節(jié)點(diǎn)雙擊選項(xiàng)板上的節(jié)點(diǎn),自動(dòng)把新節(jié)點(diǎn)連接到數(shù)據(jù)流區(qū)域中的“中心”節(jié)點(diǎn)上使用鼠標(biāo)中鍵未選中的節(jié)點(diǎn)(灰白色)被選中的節(jié)點(diǎn)(淡藍(lán)色)20?2006SPSSInc.連接節(jié)點(diǎn)使用鼠標(biāo)中鍵來(lái)連接節(jié)點(diǎn)通過(guò)雙擊來(lái)連接節(jié)點(diǎn)使用鼠標(biāo)中鍵刪除節(jié)點(diǎn)之間的連接在連接箭頭的頭部按住鼠標(biāo)右鍵選擇“刪除連接”21?2006SPSSInc.刪除節(jié)點(diǎn)之間的連接在連接箭頭的頭部按住鼠標(biāo)右鍵21?200關(guān)于連接節(jié)點(diǎn):源節(jié)點(diǎn)源節(jié)點(diǎn)是連接到初始數(shù)據(jù)源的節(jié)點(diǎn)源節(jié)點(diǎn)只能發(fā)送數(shù)據(jù)不能連接到一個(gè)源節(jié)點(diǎn)22?2006SPSSInc.關(guān)于連接節(jié)點(diǎn):源節(jié)點(diǎn)源節(jié)點(diǎn)是連接到初始數(shù)據(jù)源的節(jié)點(diǎn)22?2關(guān)于連接節(jié)點(diǎn):終端節(jié)點(diǎn)終端節(jié)點(diǎn)是生成輸出、圖形、表格和模型的節(jié)點(diǎn)不能從終端節(jié)點(diǎn)連接到任何節(jié)點(diǎn)23?2006SPSSInc.關(guān)于連接節(jié)點(diǎn):終端節(jié)點(diǎn)終端節(jié)點(diǎn)是生成輸出、圖形、表格和模型的設(shè)置目錄為了方便地存取數(shù)據(jù)文件或流,您可以將目錄設(shè)定為自己文件的位置只在本次操作中起作用通過(guò)選擇菜單“文件”中“設(shè)置目錄”選項(xiàng),然后輸入或選擇工作目錄24?2006SPSSInc.設(shè)置目錄為了方便地存取數(shù)據(jù)文件或流,您可以將目錄設(shè)定為自己文Clementine客戶端和服務(wù)器端Clementine可以運(yùn)行在客戶端和服務(wù)器端兩種模式下默認(rèn)的模式是客戶端在菜單“工具”中選擇“服務(wù)器登錄”注意Clementine客戶端和服務(wù)器端版本必須匹配25?2006SPSSInc.Clementine客戶端和服務(wù)器端Clementine幫助菜單幫助主題CRISP-DM幫助教程軟件使用輔助選項(xiàng)幫助鍵盤代替鼠標(biāo)操作這是什么26?2006SPSSInc.幫助菜單幫助主題26?2006SPSSInc.練習(xí):熟悉Clementine的環(huán)境熟悉Clementine的環(huán)境:菜單幫助練習(xí)在數(shù)據(jù)流區(qū)域加入節(jié)點(diǎn):選擇變項(xiàng)文件節(jié)點(diǎn)從輸出選項(xiàng)板中,選擇表節(jié)點(diǎn)連接兩個(gè)節(jié)點(diǎn)編輯變項(xiàng)文件節(jié)點(diǎn)斷開節(jié)點(diǎn)之間的連接刪除節(jié)點(diǎn)27?2006SPSSInc.練習(xí):熟悉Clementine的環(huán)境熟悉Clementi第三章讀取數(shù)據(jù)文件第三章讀取數(shù)據(jù)文件課程簡(jiǎn)介內(nèi)容Clementine中可以讀取的數(shù)據(jù)格式讀取文本數(shù)據(jù)文件讀取SPSS數(shù)據(jù)文件使用ODBC讀取數(shù)據(jù)庫(kù)查看數(shù)據(jù)Clementine中的數(shù)據(jù)類型和字段方向保存Clementine數(shù)據(jù)流目的介紹數(shù)據(jù)讀入Clementine的一些方法29?2006SPSSInc.課程簡(jiǎn)介內(nèi)容29?2006SPSSInc.Clementine中讀取數(shù)據(jù)格式文本文件SPSS數(shù)據(jù)文件ODBC兼容的數(shù)據(jù)庫(kù)SAS數(shù)據(jù)文件用戶輸入文件30?2006SPSSInc.Clementine中讀取數(shù)據(jù)格式文本文件30?2006文本文件自由字段文本文件是包含分隔符(逗號(hào)、制表符、空格或一些其它字符)的數(shù)據(jù)文件,可以使用變項(xiàng)文件節(jié)點(diǎn)讀取數(shù)據(jù)如果數(shù)據(jù)是列界定的(字段未被分隔,但是始于相同的位置并有固定長(zhǎng)度),應(yīng)該使用固定文本文件導(dǎo)入固定文件節(jié)點(diǎn)讀取文件SmallSampleComma.txtSmallSampleFixed.txt31?2006SPSSInc.文本文件自由字段文本文件是包含分隔符(逗號(hào)、制表符、空格或一讀取自由字段文本文件添加變量文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域編輯節(jié)點(diǎn)指向文件

SmallSampleComma.txt通過(guò)選擇“類型”條目檢查結(jié)果32?2006SPSSInc.讀取自由字段文本文件添加變量文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域32?20讀取固定字段文本文件移動(dòng)一個(gè)固定文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域編輯這個(gè)節(jié)點(diǎn)指向文件

SmallSampleFixed.txt構(gòu)造4個(gè)新字段,列出變量名和字段長(zhǎng)度交互式手動(dòng)輸入33?2006SPSSInc.讀取固定字段文本文件移動(dòng)一個(gè)固定文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域33?讀取SPSS數(shù)據(jù)文件添加SPSS文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域編輯節(jié)點(diǎn),指向文件

SmallSample.savSPSS數(shù)據(jù)文件有特殊的“標(biāo)簽”:變量標(biāo)簽描述字段數(shù)值標(biāo)簽附上解釋數(shù)值的編碼34?2006SPSSInc.讀取SPSS數(shù)據(jù)文件添加SPSS文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域數(shù)據(jù)庫(kù)節(jié)點(diǎn)使用數(shù)據(jù)庫(kù)節(jié)點(diǎn)前必須配置ODBC驅(qū)動(dòng)去指定數(shù)據(jù)庫(kù)的位置“控制面板--管理工具”選擇ODBC選擇“添加…”35?2006SPSSInc.數(shù)據(jù)庫(kù)節(jié)點(diǎn)使用數(shù)據(jù)庫(kù)節(jié)點(diǎn)前必須配置ODBC驅(qū)動(dòng)去指定數(shù)據(jù)添加ODBC數(shù)據(jù)源選擇合適的ODBC驅(qū)動(dòng),該驅(qū)動(dòng)應(yīng)該匹配數(shù)據(jù)庫(kù)的名稱和版本數(shù)據(jù)源Holidays數(shù)據(jù)庫(kù)文件custandhol.mdb36?2006SPSSInc.添加ODBC數(shù)據(jù)源選擇合適的ODBC驅(qū)動(dòng),該驅(qū)動(dòng)應(yīng)該使用數(shù)據(jù)庫(kù)節(jié)點(diǎn)添加并編輯數(shù)據(jù)庫(kù)節(jié)點(diǎn):選擇數(shù)據(jù)庫(kù)節(jié)點(diǎn)連接數(shù)據(jù)源選擇“添加新的數(shù)據(jù)庫(kù)連接”在數(shù)據(jù)源列表中選擇需要連接的數(shù)據(jù)源,點(diǎn)擊連接選擇需要讀取的表格37?2006SPSSInc.使用數(shù)據(jù)庫(kù)節(jié)點(diǎn)添加并編輯數(shù)據(jù)庫(kù)節(jié)點(diǎn):37?2006SPS定義字段類型類型節(jié)點(diǎn)指定字段的一系列重要屬性指定字段類型、方向和缺失值Clementine可以自動(dòng)設(shè)置變量類型,用戶也可以強(qiáng)制指定類型為建立模型,指定字段的方向指定缺失值以及如何處理缺失值變量值檢查保證字段值滿足一定的設(shè)置38?2006SPSSInc.定義字段類型類型節(jié)點(diǎn)指定字段的一系列重要屬性38?2006定義字段類型字段類型幫助您理解正在使用的數(shù)據(jù),是一些數(shù)據(jù)準(zhǔn)備和所有建模程序所必需的字段類型:連續(xù)型–用于描述數(shù)值,如0-100

或者0.75-1.25

內(nèi)的連續(xù)值一個(gè)連續(xù)值可以是整數(shù)、實(shí)數(shù)或日期/時(shí)間離散型–用于當(dāng)一個(gè)具體值的精確數(shù)量未知時(shí)描述字符串,一旦數(shù)據(jù)被讀取,其類型就會(huì)是標(biāo)記、集合或者無(wú)類型集合型–用于描述帶有多個(gè)具體值的數(shù)據(jù)(黃、綠、藍(lán))標(biāo)記型–用于只取兩個(gè)具體值的數(shù)據(jù)(真、假)無(wú)類型–用于不符合上述任一種類型的數(shù)據(jù)或者含有太多元素的集合類型數(shù)據(jù)39?2006SPSSInc.定義字段類型字段類型幫助您理解正在使用的數(shù)據(jù),是一些數(shù)據(jù)準(zhǔn)備字段實(shí)例化在讀取值前數(shù)據(jù)稱為未實(shí)例化,字段設(shè)置為連續(xù)或離散型通過(guò)讀取值后數(shù)據(jù)完全實(shí)例化,字段的取值和類型都是可知的通過(guò)類型節(jié)點(diǎn)或數(shù)據(jù)源節(jié)點(diǎn)上的類型條目可以指定數(shù)據(jù)類型40?2006SPSSInc.字段實(shí)例化在讀取值前數(shù)據(jù)稱為未實(shí)例化,字段設(shè)置為連續(xù)或離散型字段實(shí)例化何時(shí)在源節(jié)點(diǎn)實(shí)例化數(shù)據(jù)集不太大不打算以后在流中增加字段何時(shí)在類型節(jié)點(diǎn)實(shí)例化數(shù)據(jù)集較大,而且流在類型節(jié)點(diǎn)前就過(guò)濾了子集數(shù)據(jù)在流中被過(guò)濾數(shù)據(jù)在流中被合并或追加在處理過(guò)程中導(dǎo)出新的數(shù)據(jù)字段41?2006SPSSInc.字段實(shí)例化何時(shí)在源節(jié)點(diǎn)實(shí)例化41?2006SPSSIn字段類型用變項(xiàng)文件節(jié)點(diǎn)讀取SmallSampleComma.txt字段實(shí)例化將ID字段的類型修改為無(wú)類型42?2006SPSSInc.字段類型用變項(xiàng)文件節(jié)點(diǎn)讀取SmallSampleComma.字段方向輸入:輸入或者預(yù)測(cè)字段輸出:輸出或者被預(yù)測(cè)字段字段兩者:既是輸入又是輸出,只在關(guān)聯(lián)規(guī)則中用到無(wú):建模過(guò)程中不使用該字段分區(qū):將數(shù)據(jù)拆分為訓(xùn)練、測(cè)試(驗(yàn)證)部分字段方向設(shè)置只有在建模時(shí)才起作用43?2006SPSSInc.字段方向輸入:輸入或者預(yù)測(cè)字段43?2006SPSSI練習(xí):用Clementine讀取數(shù)據(jù)文件數(shù)據(jù)文件:逗號(hào)分隔文本文件charity.csvSPSS數(shù)據(jù)文件charity.sav具體步驟:打開Clementine在數(shù)據(jù)流區(qū)域添加變項(xiàng)節(jié)點(diǎn)編輯該節(jié)點(diǎn)連接表節(jié)點(diǎn)在數(shù)據(jù)流區(qū)域添加SPSS文件節(jié)點(diǎn)編輯該節(jié)點(diǎn)(兩種方法)連接表節(jié)點(diǎn)保存其中一個(gè)流為ExerChapter3.str44?2006SPSSInc.練習(xí):用Clementine讀取數(shù)據(jù)文件數(shù)據(jù)文件:44?2第四章數(shù)據(jù)質(zhì)量第四章數(shù)據(jù)質(zhì)量課程計(jì)劃內(nèi)容缺失數(shù)據(jù)定義介紹質(zhì)量節(jié)點(diǎn)使用數(shù)據(jù)審核節(jié)點(diǎn)檢查所有字段的分布目的熟悉Clementine中的一些用來(lái)發(fā)現(xiàn)數(shù)據(jù)的準(zhǔn)確性、完整性和數(shù)據(jù)整體分布的方法46?2006SPSSInc.課程計(jì)劃內(nèi)容46?2006SPSSInc.缺失數(shù)據(jù)類型系統(tǒng)缺失值,也被稱作nulls,這些值在數(shù)據(jù)庫(kù)中被留為空格,而且在類型節(jié)點(diǎn)上它們并不被明確設(shè)置為“缺失”系統(tǒng)缺失值在Clementine中顯示為$null$用戶自定義缺失值,也被稱作空白blanks,這些值在類型節(jié)點(diǎn)上被明確地定義為缺失確定為空白的數(shù)據(jù)值被標(biāo)記為特殊對(duì)待,而且在大多數(shù)計(jì)算中被剔除47?2006SPSSInc.缺失數(shù)據(jù)類型系統(tǒng)缺失值,也被稱作nulls,這些值在數(shù)據(jù)庫(kù)SmallSampleMissing.txt48?2006SPSSInc.SmallSampleMissing.txt48?200評(píng)估數(shù)據(jù)質(zhì)量使用變項(xiàng)文件節(jié)點(diǎn)讀取數(shù)據(jù)文件SmallSampleMissing.txt用類型條目實(shí)例化數(shù)據(jù)質(zhì)量節(jié)點(diǎn)連接變項(xiàng)文件節(jié)點(diǎn)并輸出質(zhì)量報(bào)告取消選擇空白(Whitespace)取消選擇字符型空值(Emptystring)49?2006SPSSInc.評(píng)估數(shù)據(jù)質(zhì)量使用變項(xiàng)文件節(jié)點(diǎn)讀取數(shù)據(jù)文件SmallSampl定義缺失值后評(píng)估數(shù)據(jù)質(zhì)量類型條目選中Children字段“缺失”選項(xiàng)定義空白缺失值99質(zhì)量節(jié)點(diǎn)中選擇Whitespace、Emptystring和Blankvalue分解含無(wú)效值的記錄計(jì)數(shù)再次輸出質(zhì)量報(bào)告50?2006SPSSInc.定義缺失值后評(píng)估數(shù)據(jù)質(zhì)量類型條目選中Children字段自動(dòng)定義缺失值在類型條目對(duì)話框中:右擊菜單中選中“全選”再右擊選中設(shè)置“缺失”選擇“開”51?2006SPSSInc.自動(dòng)定義缺失值在類型條目對(duì)話框中:51?2006SPSS數(shù)據(jù)審核打開數(shù)據(jù)流:數(shù)據(jù)審核.str使用制表節(jié)點(diǎn)輸出表格:共有4117條記錄使用數(shù)據(jù)審核節(jié)點(diǎn)連接類型節(jié)點(diǎn)檢查數(shù)據(jù)整體的分布抽樣條目選擇抽樣當(dāng)記錄數(shù)多于5000,這樣可以檢查所有的記錄執(zhí)行數(shù)據(jù)審核節(jié)點(diǎn)輸出檢查結(jié)果52?2006SPSSInc.數(shù)據(jù)審核打開數(shù)據(jù)流:數(shù)據(jù)審核.str52?2006SPS輸出檢查結(jié)果點(diǎn)擊小圖看完整的分布圖或直方圖53?2006SPSSInc.輸出檢查結(jié)果點(diǎn)擊小圖看完整的53?2006SPSSIn練習(xí):檢查數(shù)據(jù)的完整性打開數(shù)據(jù)流ExerChapter3.str在源節(jié)點(diǎn)設(shè)置數(shù)據(jù)類型并實(shí)例化注意字段中blank的定義連接到一個(gè)質(zhì)量節(jié)點(diǎn),并執(zhí)行該流查看質(zhì)量報(bào)告連接到一個(gè)數(shù)據(jù)審核節(jié)點(diǎn),執(zhí)行該流特別注意字段pre-(

post-)campaignexpenditure(visits)選擇字段(集合或標(biāo)記),觀察其分布圖選擇連續(xù)型字段,觀察其直方圖保存流54?2006SPSSInc.練習(xí):檢查數(shù)據(jù)的完整性打開數(shù)據(jù)流ExerChapter3第五章數(shù)據(jù)處理介紹第五章數(shù)據(jù)處理介紹課程計(jì)劃內(nèi)容介紹選擇節(jié)點(diǎn)處理記錄介紹幾個(gè)字段處理節(jié)點(diǎn):過(guò)濾、字段重排、導(dǎo)出和重新分類介紹如何自動(dòng)生成字段和記錄處理節(jié)點(diǎn)目的學(xué)會(huì)使用Clementine中一些可用的數(shù)據(jù)處理技術(shù),并使用這些技術(shù)清洗和精煉數(shù)據(jù)56?2006SPSSInc.課程計(jì)劃內(nèi)容56?2006SPSSInc.數(shù)據(jù)處理技術(shù)CLEM(ClementineLanguageforExpressionManipulation)是一種功能強(qiáng)大的語(yǔ)言,用來(lái)分析操作Clementine中使用的數(shù)據(jù)用在導(dǎo)出、選擇、過(guò)濾、平衡和報(bào)告等節(jié)點(diǎn)這些函數(shù)可以導(dǎo)出新的值、根據(jù)條件選擇記錄、比較和評(píng)估數(shù)據(jù)、插入數(shù)據(jù)注意:為了將錯(cuò)誤減少到最小,當(dāng)使用CLEM時(shí)經(jīng)常需要為字段名加上單引號(hào)57?2006SPSSInc.數(shù)據(jù)處理技術(shù)CLEM(ClementineLanguag表達(dá)式構(gòu)造器盡量不要手動(dòng)輸入CLEM表達(dá)式58?2006SPSSInc.表達(dá)式構(gòu)造器盡量不要手動(dòng)輸入CLEM表達(dá)式58?2006選擇節(jié)點(diǎn)打開數(shù)據(jù)流:選擇節(jié)點(diǎn).str使用選擇節(jié)點(diǎn)連接類型節(jié)點(diǎn)選擇符合條件“INCOME<20000”的記錄選擇模式“包含”使用分布節(jié)點(diǎn)分別連接類型節(jié)點(diǎn)和選擇節(jié)點(diǎn)生成字段RISK的分布比較選擇前后的分布59?2006SPSSInc.選擇節(jié)點(diǎn)打開數(shù)據(jù)流:選擇節(jié)點(diǎn).str59?2006SPS兩個(gè)分布的比較選擇前選擇后60?2006SPSSInc.兩個(gè)分布的比較選擇前選擇后60?2006SPSSInc過(guò)濾節(jié)點(diǎn)打開數(shù)據(jù)流:過(guò)濾節(jié)點(diǎn).str使用過(guò)濾節(jié)點(diǎn)連接類型節(jié)點(diǎn)改變字段名STORECAR為STORECARDS移除字段ID使用制表節(jié)點(diǎn)輸出表格查看結(jié)果61?2006SPSSInc.過(guò)濾節(jié)點(diǎn)打開數(shù)據(jù)流:過(guò)濾節(jié)點(diǎn).str61?2006SPS字段重排節(jié)點(diǎn)使用字段重排節(jié)點(diǎn)連接過(guò)濾節(jié)點(diǎn)重新排列字段順序點(diǎn)擊“選擇字段”按鈕選擇字段:NUMKIDS,NUMCARDS和RISK點(diǎn)擊“移動(dòng)選定字段到頂部”選項(xiàng)將字段Risk移到頂部使用制表節(jié)點(diǎn)輸出表格查看結(jié)果62?2006SPSSInc.字段重排節(jié)點(diǎn)使用字段重排節(jié)點(diǎn)連接過(guò)濾節(jié)點(diǎn)重新排列字段順序62導(dǎo)出節(jié)點(diǎn)使用導(dǎo)出節(jié)點(diǎn)連接過(guò)濾節(jié)點(diǎn)導(dǎo)出新字段導(dǎo)出節(jié)點(diǎn)四種形式:導(dǎo)出規(guī)則導(dǎo)出標(biāo)記導(dǎo)出集合導(dǎo)出條件63?2006SPSSInc.導(dǎo)出節(jié)點(diǎn)使用導(dǎo)出節(jié)點(diǎn)連接過(guò)濾節(jié)點(diǎn)導(dǎo)出新字段63?2006重新分類節(jié)點(diǎn)使用重新分類節(jié)點(diǎn)連接最后一個(gè)導(dǎo)出節(jié)點(diǎn)選擇單一模式重分類Risk字段為新字段RISKCATbadloss,badprofit新值badgoodrisk新值good使用制表節(jié)點(diǎn)輸出表格通過(guò)表格比較兩個(gè)字段64?2006SPSSInc.重新分類節(jié)點(diǎn)使用重新分類節(jié)點(diǎn)連接最后一個(gè)導(dǎo)出節(jié)點(diǎn)64?20CLEM建議…大小寫敏感性在字符值和所有變量(字段)名上加引號(hào)當(dāng)涉及數(shù)值時(shí)使用小數(shù)點(diǎn)(0.0)標(biāo)準(zhǔn)CLEM函數(shù)全部是小寫字母任何以@開頭的CLEM函數(shù)都是大寫字母使用表達(dá)式構(gòu)造器!65?2006SPSSInc.CLEM建議…大小寫敏感性65?2006SPSSIn自動(dòng)生成節(jié)點(diǎn)大部分輸出都包含“生成”菜單項(xiàng),可以自動(dòng)生成一個(gè)節(jié)點(diǎn)66?2006SPSSInc.自動(dòng)生成節(jié)點(diǎn)大部分輸出都包含“生成”菜單項(xiàng),可以自動(dòng)生成一個(gè)自動(dòng)生成導(dǎo)出節(jié)點(diǎn)使用直方圖節(jié)點(diǎn)連接最后一個(gè)導(dǎo)出節(jié)點(diǎn)直方圖節(jié)點(diǎn)中選擇字段INCOME生成直方圖在生成的直方圖上數(shù)值20000、30000、40000處點(diǎn)擊自動(dòng)生成導(dǎo)出節(jié)點(diǎn)導(dǎo)出集合67?2006SPSSInc.自動(dòng)生成導(dǎo)出節(jié)點(diǎn)使用直方圖節(jié)點(diǎn)連接最后一個(gè)導(dǎo)出節(jié)點(diǎn)67?2自動(dòng)選擇沒(méi)有缺失值的字段和記錄數(shù)據(jù)流:數(shù)據(jù)質(zhì)量.str生成質(zhì)量報(bào)告:輸出窗口點(diǎn)擊“%完成”標(biāo)題排序表格選中字段INCOME,SEX和CHILDREN自動(dòng)生成過(guò)濾節(jié)點(diǎn)過(guò)濾有缺失值的字段自動(dòng)生成選擇節(jié)點(diǎn)選擇沒(méi)有缺失值的記錄68?2006SPSSInc.自動(dòng)選擇沒(méi)有缺失值的字段和記錄數(shù)據(jù)流:數(shù)據(jù)質(zhì)量.str68?練習(xí):數(shù)據(jù)的處理打開數(shù)據(jù)流ExerChapter3.str對(duì)TotalSpend字段畫直方圖在直方圖上畫三條線,把總消費(fèi)數(shù)據(jù)分割成四段用生成菜單自動(dòng)生成導(dǎo)出節(jié)點(diǎn)使用導(dǎo)出節(jié)點(diǎn)導(dǎo)出新字段BandedTotalSpend使用重新分類節(jié)點(diǎn)派生新的字段Title_Gender值分別為Male或Female用選擇節(jié)點(diǎn),選擇年齡大于50歲的男性記錄檢驗(yàn)節(jié)點(diǎn)設(shè)置是否正確,并刪除選擇節(jié)點(diǎn)保存流69?2006SPSSInc.練習(xí):數(shù)據(jù)的處理打開數(shù)據(jù)流ExerChapter3.st第六章尋找數(shù)據(jù)之間的關(guān)系第六章尋找數(shù)據(jù)之間的關(guān)系課程計(jì)劃內(nèi)容介紹網(wǎng)絡(luò)圖節(jié)點(diǎn)和矩陣節(jié)點(diǎn)研究符號(hào)字段之間關(guān)系使用相關(guān)系數(shù)來(lái)研究數(shù)值字段之間關(guān)系目的探索一些在Clementine中研究字段之間關(guān)系的途徑71?2006SPSSInc.課程計(jì)劃內(nèi)容71?2006SPSSInc.在數(shù)據(jù)中尋找關(guān)系數(shù)據(jù)審核節(jié)點(diǎn)使用目標(biāo)字段層疊矩陣節(jié)點(diǎn)生成符號(hào)數(shù)據(jù)交叉列聯(lián)表網(wǎng)絡(luò)圖節(jié)點(diǎn)可視化表現(xiàn)符號(hào)數(shù)據(jù)之間的關(guān)系統(tǒng)計(jì)量節(jié)點(diǎn)計(jì)算數(shù)值字段之間的相關(guān)系數(shù)散點(diǎn)圖節(jié)點(diǎn)和直方圖節(jié)點(diǎn)可視化表現(xiàn)數(shù)值數(shù)據(jù)(交疊符號(hào)字段)72?2006SPSSInc.在數(shù)據(jù)中尋找關(guān)系數(shù)據(jù)審核節(jié)點(diǎn)使用目標(biāo)字段層疊72?2006矩陣節(jié)點(diǎn):關(guān)聯(lián)兩個(gè)符號(hào)字段打開數(shù)據(jù)流:Riskdef.str使用矩陣節(jié)點(diǎn)連接類型節(jié)點(diǎn)生成列聯(lián)表RISK是否隨GENDER改變行RISK,列GENDERRISK是否隨HOWPAID改變改變列為HOWPAID選擇行百分比注意在輸出矩陣的顯示條目,用戶可以直接選擇用何種匯總方式生成列聯(lián)表73?2006SPSSInc.矩陣節(jié)點(diǎn):關(guān)聯(lián)兩個(gè)符號(hào)字段打開數(shù)據(jù)流:Riskdef.str網(wǎng)絡(luò)圖節(jié)點(diǎn):可視化表現(xiàn)符號(hào)字段使用網(wǎng)絡(luò)圖節(jié)點(diǎn)連接類型節(jié)點(diǎn)MARITAL,MORTGAGE和RISK之間是否表現(xiàn)出關(guān)聯(lián)選擇字段MARITAL,MORTGAGE和RISK線段值為絕對(duì)數(shù)值連接規(guī)模連續(xù)變化只顯示大于300的連接400以下為弱連接,600以上為強(qiáng)連接輸出網(wǎng)絡(luò)圖74?2006SPSSInc.網(wǎng)絡(luò)圖節(jié)點(diǎn):可視化表現(xiàn)符號(hào)字段使用網(wǎng)絡(luò)圖節(jié)點(diǎn)連接類型節(jié)點(diǎn)74網(wǎng)絡(luò)圖修改使用滑動(dòng)控制丟棄450以下的連接使用控制條目設(shè)置:1000以下為弱連接,1500以上為強(qiáng)連接右擊與y沒(méi)有連接的點(diǎn)(divsepwid)選擇隱藏點(diǎn)擊強(qiáng)連接(married和y,badprofit和y)自動(dòng)生成導(dǎo)出節(jié)點(diǎn)(選擇后連接變成紅色)75?2006SPSSInc.網(wǎng)絡(luò)圖修改使用滑動(dòng)控制丟棄450以下的連接75?200統(tǒng)計(jì)量節(jié)點(diǎn):數(shù)值字段之間的相關(guān)性使用統(tǒng)計(jì)量節(jié)點(diǎn)連接類型節(jié)點(diǎn)計(jì)算相關(guān)系數(shù)檢查相關(guān)字段:選擇所有連續(xù)型字段(ID除外)相關(guān)性設(shè)定:定義相關(guān)強(qiáng)度標(biāo)簽76?2006SPSSInc.統(tǒng)計(jì)量節(jié)點(diǎn):數(shù)值字段之間的相關(guān)性使用統(tǒng)計(jì)量節(jié)點(diǎn)連接類型節(jié)點(diǎn)計(jì)散點(diǎn)圖節(jié)點(diǎn)使用散點(diǎn)圖節(jié)點(diǎn)連接類型節(jié)點(diǎn)X字段=NUMCARDSY字段=LOANS交疊=RISK選項(xiàng)條目中:X,Y攪動(dòng)=0.3使用全部數(shù)據(jù)77?2006SPSSInc.散點(diǎn)圖節(jié)點(diǎn)使用散點(diǎn)圖節(jié)點(diǎn)連接類型節(jié)點(diǎn)77?2006SPS直方圖節(jié)點(diǎn)使用直方圖節(jié)點(diǎn)連接類型節(jié)點(diǎn)字段=INCOME交疊=RISK選項(xiàng)條目中:選中按顏色標(biāo)準(zhǔn)化指定范圍30000到5000078?2006SPSSInc.直方圖節(jié)點(diǎn)使用直方圖節(jié)點(diǎn)連接類型節(jié)點(diǎn)78?2006SPS練習(xí):探索數(shù)據(jù)之間的簡(jiǎn)單關(guān)系打開數(shù)據(jù)流ExerChapter3.str使用網(wǎng)絡(luò)圖節(jié)點(diǎn)生成網(wǎng)絡(luò)圖,初步展示數(shù)據(jù)之間的關(guān)系:Responsetocampaign,Pre-campaignvisit,Pre-campaignspendcategory,Gender,Agecategory設(shè)置只顯示200以上的連接,低于300為弱連接,高于400為強(qiáng)連接編輯網(wǎng)絡(luò)圖,隱藏不相關(guān)的連接:與對(duì)活動(dòng)響應(yīng)值相關(guān)性最大的三個(gè)字段?哪個(gè)年齡段與non-responders關(guān)聯(lián)性最大?用散點(diǎn)圖描述Pre-campaignexpenditure和Pre-campaignvisits之間的關(guān)系,并觀察這兩者之間存在關(guān)系嗎?用直方圖探索Pre-campaignexpenditure和Responseto

campaign之間是否相關(guān)標(biāo)準(zhǔn)化直方圖,比較直方圖和網(wǎng)絡(luò)圖的結(jié)果保存流Visual.str79?2006SPSSInc.練習(xí):探索數(shù)據(jù)之間的簡(jiǎn)單關(guān)系打開數(shù)據(jù)流ExerChapte演講完畢,謝謝觀看!演講完畢,謝謝觀看!Clementine基礎(chǔ)培訓(xùn)

第一部分介紹Clementine數(shù)據(jù)挖掘軟件的基本操作和環(huán)境,學(xué)習(xí)如何使用Clementine讀取、處理數(shù)據(jù)Clementine基礎(chǔ)培訓(xùn)

第一部分介紹Clementin培訓(xùn)內(nèi)容第一章數(shù)據(jù)挖掘簡(jiǎn)介第二章

Clementine簡(jiǎn)介第三章讀取數(shù)據(jù)文件第四章數(shù)據(jù)質(zhì)量第五章數(shù)據(jù)處理第六章

尋找數(shù)據(jù)之間的關(guān)系82?2006SPSSInc.培訓(xùn)內(nèi)容第一章數(shù)據(jù)挖掘簡(jiǎn)介2?2006SPSSIn第一章數(shù)據(jù)挖掘簡(jiǎn)介第一章數(shù)據(jù)挖掘簡(jiǎn)介第一章數(shù)據(jù)挖掘簡(jiǎn)介內(nèi)容介紹數(shù)據(jù)挖掘概念介紹CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)概述課程計(jì)劃目的介紹數(shù)據(jù)挖掘過(guò)程,理解數(shù)據(jù)挖掘中的術(shù)語(yǔ)和關(guān)鍵概念,以及如何使用CRISP-DM過(guò)程模型管理一個(gè)數(shù)據(jù)挖掘項(xiàng)目84?2006SPSSInc.第一章數(shù)據(jù)挖掘簡(jiǎn)介內(nèi)容4?2006SPSSInc.什么是數(shù)據(jù)挖掘?利用各種技術(shù)發(fā)現(xiàn)數(shù)據(jù)的隱含關(guān)系(知識(shí))使用歷史數(shù)據(jù)預(yù)測(cè)、分類,并且預(yù)測(cè)未來(lái)常用技術(shù):人工智能、機(jī)器學(xué)習(xí)、決策樹一個(gè)交互、反復(fù)的過(guò)程85?2006SPSSInc.什么是數(shù)據(jù)挖掘?利用各種技術(shù)發(fā)現(xiàn)數(shù)據(jù)的隱含關(guān)系(知識(shí))5?Clementine中對(duì)數(shù)據(jù)挖掘的支持主動(dòng)支持:計(jì)算機(jī)使用各種算法在數(shù)據(jù)中識(shí)別規(guī)則和關(guān)系被動(dòng)支持:使用者處理并且瀏覽數(shù)據(jù)來(lái)尋找可疑的關(guān)系86?2006SPSSInc.Clementine中對(duì)數(shù)據(jù)挖掘的支持主動(dòng)支持:6?20數(shù)據(jù)數(shù)據(jù)是可以得到的嗎?數(shù)據(jù)包含所需要了解的屬性嗎?數(shù)據(jù)是否有噪聲?數(shù)據(jù)量足夠嗎?可以獲得關(guān)于數(shù)據(jù)的專家知識(shí)嗎?87?2006SPSSInc.數(shù)據(jù)數(shù)據(jù)是可以得到的嗎?7?2006SPSSInc.數(shù)據(jù)挖掘的策略(計(jì)劃性)主要想解決什么樣的問(wèn)題?可以得到什么樣的數(shù)據(jù)來(lái)源,并且與當(dāng)前問(wèn)題相關(guān)的是哪部分?jǐn)?shù)據(jù)?在挖掘數(shù)據(jù)前,需要做什么樣的數(shù)據(jù)預(yù)整理和數(shù)據(jù)清洗?將會(huì)使用什么樣的數(shù)據(jù)挖掘技巧?將會(huì)如何評(píng)估數(shù)據(jù)挖掘的分析結(jié)果?88?2006SPSSInc.數(shù)據(jù)挖掘的策略(計(jì)劃性)主要想解決什么樣的問(wèn)題?8?200CRISP-DM過(guò)程模型跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過(guò)程(CRISP-DM)定位是面向行業(yè)、工具導(dǎo)向、面向應(yīng)用適用于大型工業(yè)和商業(yè)實(shí)踐的一般標(biāo)準(zhǔn)六個(gè)階段:商業(yè)理解數(shù)據(jù)理解數(shù)據(jù)準(zhǔn)備建模模型評(píng)估結(jié)果發(fā)布89?2006SPSSInc.CRISP-DM過(guò)程模型跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)過(guò)程(CRISP課程計(jì)劃數(shù)據(jù)挖掘及數(shù)據(jù)挖掘軟件數(shù)據(jù)理解:從數(shù)據(jù)源抽取數(shù)據(jù)用表格圖形技術(shù)透視數(shù)據(jù)處理缺失值數(shù)據(jù)準(zhǔn)備:針對(duì)記錄的數(shù)據(jù)準(zhǔn)備,如選擇記錄、對(duì)記錄排序針對(duì)字段的數(shù)據(jù)準(zhǔn)備,如生成新的字段針對(duì)文件的數(shù)據(jù)準(zhǔn)備,如合并文件90?2006SPSSInc.課程計(jì)劃數(shù)據(jù)挖掘及數(shù)據(jù)挖掘軟件10?2006SPSSI課程計(jì)劃建模技術(shù):監(jiān)督學(xué)習(xí)技術(shù),神經(jīng)網(wǎng)絡(luò)、歸納規(guī)則(決策樹)、線性回歸、Logistic回歸非監(jiān)督學(xué)習(xí)技術(shù),Kohonen網(wǎng)絡(luò)、兩步聚類、K-means聚類關(guān)聯(lián)規(guī)則、時(shí)序探測(cè)模型評(píng)估如何應(yīng)用CRISP-DM流程研究數(shù)據(jù)挖掘問(wèn)題91?2006SPSSInc.課程計(jì)劃建模技術(shù):11?2006SPSSInc.第二章Clementine簡(jiǎn)介第二章Clementine簡(jiǎn)介

Clementine簡(jiǎn)介內(nèi)容熟悉Clementine中的工具和面板介紹可視化編程的思想目的初步了解Clementine的功能數(shù)據(jù)課程的數(shù)據(jù)文件存放在目錄“C:\培訓(xùn)\基礎(chǔ)培訓(xùn)1”中93?2006SPSSInc.Clementine簡(jiǎn)介內(nèi)容13?2006SPSSClementine用戶界面數(shù)據(jù)流區(qū)域工具欄菜單欄選項(xiàng)板區(qū)節(jié)點(diǎn)數(shù)據(jù)流,輸出和模型管理器項(xiàng)目窗口94?2006SPSSInc.Clementine用戶界面數(shù)據(jù)流區(qū)域工具欄菜單欄選項(xiàng)板可視化編程節(jié)點(diǎn)一個(gè)圖標(biāo)代表在Clementine中進(jìn)行的一個(gè)操作工作流一系列連接在一起的節(jié)點(diǎn)選項(xiàng)板包含一系列不同功能的圖標(biāo)95?2006SPSSInc.可視化編程節(jié)點(diǎn)15?2006SPSSInc.選項(xiàng)板源節(jié)點(diǎn)用來(lái)將數(shù)據(jù)讀入Clementine中記錄選項(xiàng)節(jié)點(diǎn)在記錄上進(jìn)行操作一條記錄是一種“情形”或一“行”數(shù)據(jù)字段選項(xiàng)節(jié)點(diǎn)在字段上進(jìn)行操作一個(gè)字段是一個(gè)變量圖形節(jié)點(diǎn)在建模之前和之后用來(lái)可視化數(shù)據(jù)建模節(jié)點(diǎn)代表有效建模算法注意:建模算法產(chǎn)生生成的模型96?2006SPSSInc.選項(xiàng)板源節(jié)點(diǎn)16?2006SPSSInc.在下面一部分…舉例:增加一個(gè)節(jié)點(diǎn)移動(dòng)一個(gè)節(jié)點(diǎn)編輯一個(gè)節(jié)點(diǎn)重新命名一個(gè)節(jié)點(diǎn)復(fù)制一個(gè)節(jié)點(diǎn)刪除一個(gè)節(jié)點(diǎn)注釋一個(gè)節(jié)點(diǎn)保存一個(gè)節(jié)點(diǎn)重新載入一個(gè)節(jié)點(diǎn)連接節(jié)點(diǎn)刪除節(jié)點(diǎn)連接獲得幫助97?2006SPSSInc.在下面一部分…舉例:增加一個(gè)節(jié)點(diǎn)注釋一個(gè)節(jié)點(diǎn)17?2006增加一個(gè)節(jié)點(diǎn)在選項(xiàng)板上雙擊節(jié)點(diǎn),自動(dòng)放置節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域注意:它會(huì)自動(dòng)地連接到“中心”節(jié)點(diǎn)將節(jié)點(diǎn)從選項(xiàng)板拖放到數(shù)據(jù)流區(qū)域中在選項(xiàng)板上點(diǎn)擊一個(gè)節(jié)點(diǎn),然后在數(shù)據(jù)流區(qū)域中點(diǎn)擊一下未選擇選擇當(dāng)節(jié)點(diǎn)在選項(xiàng)板中被選中后,會(huì)變成淡藍(lán)色98?2006SPSSInc.增加一個(gè)節(jié)點(diǎn)在選項(xiàng)板上雙擊節(jié)點(diǎn),自動(dòng)放置節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域注意編輯一個(gè)節(jié)點(diǎn)在節(jié)點(diǎn)上右擊,展開一個(gè)節(jié)點(diǎn)點(diǎn)擊“編輯”在菜單上還可以選擇連接、斷開連接、重命名、注釋、復(fù)制、刪除、載入、保存等操作99?2006SPSSInc.編輯一個(gè)節(jié)點(diǎn)在節(jié)點(diǎn)上右擊,展開一個(gè)節(jié)點(diǎn)19?2006SP連接節(jié)點(diǎn)使用鼠標(biāo)中鍵來(lái)連接節(jié)點(diǎn)在數(shù)據(jù)流區(qū)域上,把一個(gè)節(jié)點(diǎn)連接到另一個(gè)上,可以通過(guò)鼠標(biāo)中間鍵點(diǎn)擊和拖放來(lái)完成(如果您的鼠標(biāo)沒(méi)有中間鍵,可以通過(guò)按住“Alt”鍵來(lái)模擬這個(gè)過(guò)程)通過(guò)雙擊來(lái)連接節(jié)點(diǎn)雙擊選項(xiàng)板上的節(jié)點(diǎn),自動(dòng)把新節(jié)點(diǎn)連接到數(shù)據(jù)流區(qū)域中的“中心”節(jié)點(diǎn)上使用鼠標(biāo)中鍵未選中的節(jié)點(diǎn)(灰白色)被選中的節(jié)點(diǎn)(淡藍(lán)色)100?2006SPSSInc.連接節(jié)點(diǎn)使用鼠標(biāo)中鍵來(lái)連接節(jié)點(diǎn)通過(guò)雙擊來(lái)連接節(jié)點(diǎn)使用鼠標(biāo)中鍵刪除節(jié)點(diǎn)之間的連接在連接箭頭的頭部按住鼠標(biāo)右鍵選擇“刪除連接”101?2006SPSSInc.刪除節(jié)點(diǎn)之間的連接在連接箭頭的頭部按住鼠標(biāo)右鍵21?200關(guān)于連接節(jié)點(diǎn):源節(jié)點(diǎn)源節(jié)點(diǎn)是連接到初始數(shù)據(jù)源的節(jié)點(diǎn)源節(jié)點(diǎn)只能發(fā)送數(shù)據(jù)不能連接到一個(gè)源節(jié)點(diǎn)102?2006SPSSInc.關(guān)于連接節(jié)點(diǎn):源節(jié)點(diǎn)源節(jié)點(diǎn)是連接到初始數(shù)據(jù)源的節(jié)點(diǎn)22?2關(guān)于連接節(jié)點(diǎn):終端節(jié)點(diǎn)終端節(jié)點(diǎn)是生成輸出、圖形、表格和模型的節(jié)點(diǎn)不能從終端節(jié)點(diǎn)連接到任何節(jié)點(diǎn)103?2006SPSSInc.關(guān)于連接節(jié)點(diǎn):終端節(jié)點(diǎn)終端節(jié)點(diǎn)是生成輸出、圖形、表格和模型的設(shè)置目錄為了方便地存取數(shù)據(jù)文件或流,您可以將目錄設(shè)定為自己文件的位置只在本次操作中起作用通過(guò)選擇菜單“文件”中“設(shè)置目錄”選項(xiàng),然后輸入或選擇工作目錄104?2006SPSSInc.設(shè)置目錄為了方便地存取數(shù)據(jù)文件或流,您可以將目錄設(shè)定為自己文Clementine客戶端和服務(wù)器端Clementine可以運(yùn)行在客戶端和服務(wù)器端兩種模式下默認(rèn)的模式是客戶端在菜單“工具”中選擇“服務(wù)器登錄”注意Clementine客戶端和服務(wù)器端版本必須匹配105?2006SPSSInc.Clementine客戶端和服務(wù)器端Clementine幫助菜單幫助主題CRISP-DM幫助教程軟件使用輔助選項(xiàng)幫助鍵盤代替鼠標(biāo)操作這是什么106?2006SPSSInc.幫助菜單幫助主題26?2006SPSSInc.練習(xí):熟悉Clementine的環(huán)境熟悉Clementine的環(huán)境:菜單幫助練習(xí)在數(shù)據(jù)流區(qū)域加入節(jié)點(diǎn):選擇變項(xiàng)文件節(jié)點(diǎn)從輸出選項(xiàng)板中,選擇表節(jié)點(diǎn)連接兩個(gè)節(jié)點(diǎn)編輯變項(xiàng)文件節(jié)點(diǎn)斷開節(jié)點(diǎn)之間的連接刪除節(jié)點(diǎn)107?2006SPSSInc.練習(xí):熟悉Clementine的環(huán)境熟悉Clementi第三章讀取數(shù)據(jù)文件第三章讀取數(shù)據(jù)文件課程簡(jiǎn)介內(nèi)容Clementine中可以讀取的數(shù)據(jù)格式讀取文本數(shù)據(jù)文件讀取SPSS數(shù)據(jù)文件使用ODBC讀取數(shù)據(jù)庫(kù)查看數(shù)據(jù)Clementine中的數(shù)據(jù)類型和字段方向保存Clementine數(shù)據(jù)流目的介紹數(shù)據(jù)讀入Clementine的一些方法109?2006SPSSInc.課程簡(jiǎn)介內(nèi)容29?2006SPSSInc.Clementine中讀取數(shù)據(jù)格式文本文件SPSS數(shù)據(jù)文件ODBC兼容的數(shù)據(jù)庫(kù)SAS數(shù)據(jù)文件用戶輸入文件110?2006SPSSInc.Clementine中讀取數(shù)據(jù)格式文本文件30?2006文本文件自由字段文本文件是包含分隔符(逗號(hào)、制表符、空格或一些其它字符)的數(shù)據(jù)文件,可以使用變項(xiàng)文件節(jié)點(diǎn)讀取數(shù)據(jù)如果數(shù)據(jù)是列界定的(字段未被分隔,但是始于相同的位置并有固定長(zhǎng)度),應(yīng)該使用固定文本文件導(dǎo)入固定文件節(jié)點(diǎn)讀取文件SmallSampleComma.txtSmallSampleFixed.txt111?2006SPSSInc.文本文件自由字段文本文件是包含分隔符(逗號(hào)、制表符、空格或一讀取自由字段文本文件添加變量文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域編輯節(jié)點(diǎn)指向文件

SmallSampleComma.txt通過(guò)選擇“類型”條目檢查結(jié)果112?2006SPSSInc.讀取自由字段文本文件添加變量文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域32?20讀取固定字段文本文件移動(dòng)一個(gè)固定文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域編輯這個(gè)節(jié)點(diǎn)指向文件

SmallSampleFixed.txt構(gòu)造4個(gè)新字段,列出變量名和字段長(zhǎng)度交互式手動(dòng)輸入113?2006SPSSInc.讀取固定字段文本文件移動(dòng)一個(gè)固定文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域33?讀取SPSS數(shù)據(jù)文件添加SPSS文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域編輯節(jié)點(diǎn),指向文件

SmallSample.savSPSS數(shù)據(jù)文件有特殊的“標(biāo)簽”:變量標(biāo)簽描述字段數(shù)值標(biāo)簽附上解釋數(shù)值的編碼114?2006SPSSInc.讀取SPSS數(shù)據(jù)文件添加SPSS文件節(jié)點(diǎn)到數(shù)據(jù)流區(qū)域數(shù)據(jù)庫(kù)節(jié)點(diǎn)使用數(shù)據(jù)庫(kù)節(jié)點(diǎn)前必須配置ODBC驅(qū)動(dòng)去指定數(shù)據(jù)庫(kù)的位置“控制面板--管理工具”選擇ODBC選擇“添加…”115?2006SPSSInc.數(shù)據(jù)庫(kù)節(jié)點(diǎn)使用數(shù)據(jù)庫(kù)節(jié)點(diǎn)前必須配置ODBC驅(qū)動(dòng)去指定數(shù)據(jù)添加ODBC數(shù)據(jù)源選擇合適的ODBC驅(qū)動(dòng),該驅(qū)動(dòng)應(yīng)該匹配數(shù)據(jù)庫(kù)的名稱和版本數(shù)據(jù)源Holidays數(shù)據(jù)庫(kù)文件custandhol.mdb116?2006SPSSInc.添加ODBC數(shù)據(jù)源選擇合適的ODBC驅(qū)動(dòng),該驅(qū)動(dòng)應(yīng)該使用數(shù)據(jù)庫(kù)節(jié)點(diǎn)添加并編輯數(shù)據(jù)庫(kù)節(jié)點(diǎn):選擇數(shù)據(jù)庫(kù)節(jié)點(diǎn)連接數(shù)據(jù)源選擇“添加新的數(shù)據(jù)庫(kù)連接”在數(shù)據(jù)源列表中選擇需要連接的數(shù)據(jù)源,點(diǎn)擊連接選擇需要讀取的表格117?2006SPSSInc.使用數(shù)據(jù)庫(kù)節(jié)點(diǎn)添加并編輯數(shù)據(jù)庫(kù)節(jié)點(diǎn):37?2006SPS定義字段類型類型節(jié)點(diǎn)指定字段的一系列重要屬性指定字段類型、方向和缺失值Clementine可以自動(dòng)設(shè)置變量類型,用戶也可以強(qiáng)制指定類型為建立模型,指定字段的方向指定缺失值以及如何處理缺失值變量值檢查保證字段值滿足一定的設(shè)置118?2006SPSSInc.定義字段類型類型節(jié)點(diǎn)指定字段的一系列重要屬性38?2006定義字段類型字段類型幫助您理解正在使用的數(shù)據(jù),是一些數(shù)據(jù)準(zhǔn)備和所有建模程序所必需的字段類型:連續(xù)型–用于描述數(shù)值,如0-100

或者0.75-1.25

內(nèi)的連續(xù)值一個(gè)連續(xù)值可以是整數(shù)、實(shí)數(shù)或日期/時(shí)間離散型–用于當(dāng)一個(gè)具體值的精確數(shù)量未知時(shí)描述字符串,一旦數(shù)據(jù)被讀取,其類型就會(huì)是標(biāo)記、集合或者無(wú)類型集合型–用于描述帶有多個(gè)具體值的數(shù)據(jù)(黃、綠、藍(lán))標(biāo)記型–用于只取兩個(gè)具體值的數(shù)據(jù)(真、假)無(wú)類型–用于不符合上述任一種類型的數(shù)據(jù)或者含有太多元素的集合類型數(shù)據(jù)119?2006SPSSInc.定義字段類型字段類型幫助您理解正在使用的數(shù)據(jù),是一些數(shù)據(jù)準(zhǔn)備字段實(shí)例化在讀取值前數(shù)據(jù)稱為未實(shí)例化,字段設(shè)置為連續(xù)或離散型通過(guò)讀取值后數(shù)據(jù)完全實(shí)例化,字段的取值和類型都是可知的通過(guò)類型節(jié)點(diǎn)或數(shù)據(jù)源節(jié)點(diǎn)上的類型條目可以指定數(shù)據(jù)類型120?2006SPSSInc.字段實(shí)例化在讀取值前數(shù)據(jù)稱為未實(shí)例化,字段設(shè)置為連續(xù)或離散型字段實(shí)例化何時(shí)在源節(jié)點(diǎn)實(shí)例化數(shù)據(jù)集不太大不打算以后在流中增加字段何時(shí)在類型節(jié)點(diǎn)實(shí)例化數(shù)據(jù)集較大,而且流在類型節(jié)點(diǎn)前就過(guò)濾了子集數(shù)據(jù)在流中被過(guò)濾數(shù)據(jù)在流中被合并或追加在處理過(guò)程中導(dǎo)出新的數(shù)據(jù)字段121?2006SPSSInc.字段實(shí)例化何時(shí)在源節(jié)點(diǎn)實(shí)例化41?2006SPSSIn字段類型用變項(xiàng)文件節(jié)點(diǎn)讀取SmallSampleComma.txt字段實(shí)例化將ID字段的類型修改為無(wú)類型122?2006SPSSInc.字段類型用變項(xiàng)文件節(jié)點(diǎn)讀取SmallSampleComma.字段方向輸入:輸入或者預(yù)測(cè)字段輸出:輸出或者被預(yù)測(cè)字段字段兩者:既是輸入又是輸出,只在關(guān)聯(lián)規(guī)則中用到無(wú):建模過(guò)程中不使用該字段分區(qū):將數(shù)據(jù)拆分為訓(xùn)練、測(cè)試(驗(yàn)證)部分字段方向設(shè)置只有在建模時(shí)才起作用123?2006SPSSInc.字段方向輸入:輸入或者預(yù)測(cè)字段43?2006SPSSI練習(xí):用Clementine讀取數(shù)據(jù)文件數(shù)據(jù)文件:逗號(hào)分隔文本文件charity.csvSPSS數(shù)據(jù)文件charity.sav具體步驟:打開Clementine在數(shù)據(jù)流區(qū)域添加變項(xiàng)節(jié)點(diǎn)編輯該節(jié)點(diǎn)連接表節(jié)點(diǎn)在數(shù)據(jù)流區(qū)域添加SPSS文件節(jié)點(diǎn)編輯該節(jié)點(diǎn)(兩種方法)連接表節(jié)點(diǎn)保存其中一個(gè)流為ExerChapter3.str124?2006SPSSInc.練習(xí):用Clementine讀取數(shù)據(jù)文件數(shù)據(jù)文件:44?2第四章數(shù)據(jù)質(zhì)量第四章數(shù)據(jù)質(zhì)量課程計(jì)劃內(nèi)容缺失數(shù)據(jù)定義介紹質(zhì)量節(jié)點(diǎn)使用數(shù)據(jù)審核節(jié)點(diǎn)檢查所有字段的分布目的熟悉Clementine中的一些用來(lái)發(fā)現(xiàn)數(shù)據(jù)的準(zhǔn)確性、完整性和數(shù)據(jù)整體分布的方法126?2006SPSSInc.課程計(jì)劃內(nèi)容46?2006SPSSInc.缺失數(shù)據(jù)類型系統(tǒng)缺失值,也被稱作nulls,這些值在數(shù)據(jù)庫(kù)中被留為空格,而且在類型節(jié)點(diǎn)上它們并不被明確設(shè)置為“缺失”系統(tǒng)缺失值在Clementine中顯示為$null$用戶自定義缺失值,也被稱作空白blanks,這些值在類型節(jié)點(diǎn)上被明確地定義為缺失確定為空白的數(shù)據(jù)值被標(biāo)記為特殊對(duì)待,而且在大多數(shù)計(jì)算中被剔除127?2006SPSSInc.缺失數(shù)據(jù)類型系統(tǒng)缺失值,也被稱作nulls,這些值在數(shù)據(jù)庫(kù)SmallSampleMissing.txt128?2006SPSSInc.SmallSampleMissing.txt48?200評(píng)估數(shù)據(jù)質(zhì)量使用變項(xiàng)文件節(jié)點(diǎn)讀取數(shù)據(jù)文件SmallSampleMissing.txt用類型條目實(shí)例化數(shù)據(jù)質(zhì)量節(jié)點(diǎn)連接變項(xiàng)文件節(jié)點(diǎn)并輸出質(zhì)量報(bào)告取消選擇空白(Whitespace)取消選擇字符型空值(Emptystring)129?2006SPSSInc.評(píng)估數(shù)據(jù)質(zhì)量使用變項(xiàng)文件節(jié)點(diǎn)讀取數(shù)據(jù)文件SmallSampl定義缺失值后評(píng)估數(shù)據(jù)質(zhì)量類型條目選中Children字段“缺失”選項(xiàng)定義空白缺失值99質(zhì)量節(jié)點(diǎn)中選擇Whitespace、Emptystring和Blankvalue分解含無(wú)效值的記錄計(jì)數(shù)再次輸出質(zhì)量報(bào)告130?2006SPSSInc.定義缺失值后評(píng)估數(shù)據(jù)質(zhì)量類型條目選中Children字段自動(dòng)定義缺失值在類型條目對(duì)話框中:右擊菜單中選中“全選”再右擊選中設(shè)置“缺失”選擇“開”131?2006SPSSInc.自動(dòng)定義缺失值在類型條目對(duì)話框中:51?2006SPSS數(shù)據(jù)審核打開數(shù)據(jù)流:數(shù)據(jù)審核.str使用制表節(jié)點(diǎn)輸出表格:共有4117條記錄使用數(shù)據(jù)審核節(jié)點(diǎn)連接類型節(jié)點(diǎn)檢查數(shù)據(jù)整體的分布抽樣條目選擇抽樣當(dāng)記錄數(shù)多于5000,這樣可以檢查所有的記錄執(zhí)行數(shù)據(jù)審核節(jié)點(diǎn)輸出檢查結(jié)果132?2006SPSSInc.數(shù)據(jù)審核打開數(shù)據(jù)流:數(shù)據(jù)審核.str52?2006SPS輸出檢查結(jié)果點(diǎn)擊小圖看完整的分布圖或直方圖133?2006SPSSInc.輸出檢查結(jié)果點(diǎn)擊小圖看完整的53?2006SPSSIn練習(xí):檢查數(shù)據(jù)的完整性打開數(shù)據(jù)流ExerChapter3.str在源節(jié)點(diǎn)設(shè)置數(shù)據(jù)類型并實(shí)例化注意字段中blank的定義連接到一個(gè)質(zhì)量節(jié)點(diǎn),并執(zhí)行該流查看質(zhì)量報(bào)告連接到一個(gè)數(shù)據(jù)審核節(jié)點(diǎn),執(zhí)行該流特別注意字段pre-(

post-)campaignexpenditure(visits)選擇字段(集合或標(biāo)記),觀察其分布圖選擇連續(xù)型字段,觀察其直方圖保存流134?2006SPSSInc.練習(xí):檢查數(shù)據(jù)的完整性打開數(shù)據(jù)流ExerChapter3第五章數(shù)據(jù)處理介紹第五章數(shù)據(jù)處理介紹課程計(jì)劃內(nèi)容介紹選擇節(jié)點(diǎn)處理記錄介紹幾個(gè)字段處理節(jié)點(diǎn):過(guò)濾、字段重排、導(dǎo)出和重新分類介紹如何自動(dòng)生成字段和記錄處理節(jié)點(diǎn)目的學(xué)會(huì)使用Clementine中一些可用的數(shù)據(jù)處理技術(shù),并使用這些技術(shù)清洗和精煉數(shù)據(jù)136?2006SPSSInc.課程計(jì)劃內(nèi)容56?2006SPSSInc.數(shù)據(jù)處理技術(shù)CLEM(ClementineLanguageforExpressionManipulation)是一種功能強(qiáng)大的語(yǔ)言,用來(lái)分析操作Clementine中使用的數(shù)據(jù)用在導(dǎo)出、選擇、過(guò)濾、平衡和報(bào)告等節(jié)點(diǎn)這些函數(shù)可以導(dǎo)出新的值、根據(jù)條件選擇記錄、比較和評(píng)估數(shù)據(jù)、插入數(shù)據(jù)注意:為了將錯(cuò)誤減少到最小,當(dāng)使用CLEM時(shí)經(jīng)常需要為字段名加上單引號(hào)137?2006SPSSInc.數(shù)據(jù)處理技術(shù)CLEM(ClementineLanguag表達(dá)式構(gòu)造器盡量不要手動(dòng)輸入CLEM表達(dá)式138?2006SPSSInc.表達(dá)式構(gòu)造器盡量不要手動(dòng)輸入CLEM表達(dá)式58?2006選擇節(jié)點(diǎn)打開數(shù)據(jù)流:選擇節(jié)點(diǎn).str使用選擇節(jié)點(diǎn)連接類型節(jié)點(diǎn)選擇符合條件“INCOME<20000”的記錄選擇模式“包含”使用分布節(jié)點(diǎn)分別連接類型節(jié)點(diǎn)和選擇節(jié)點(diǎn)生成字段RISK的分布比較選擇前后的分布139?2006SPSSInc.選擇節(jié)點(diǎn)打開數(shù)據(jù)流:選擇節(jié)點(diǎn).str59?2006SPS兩個(gè)分布的比較選擇前選擇后140?2006SPSSInc.兩個(gè)分布的比較選擇前選擇后60?2006SPSSInc過(guò)濾節(jié)點(diǎn)打開數(shù)據(jù)流:過(guò)濾節(jié)點(diǎn).str使用過(guò)濾節(jié)點(diǎn)連接類型節(jié)點(diǎn)改變字段名STORECAR為STORECARDS移除字段ID使用制表節(jié)點(diǎn)輸出表格查看結(jié)果141?2006SPSSInc.過(guò)濾節(jié)點(diǎn)打開數(shù)據(jù)流:過(guò)濾節(jié)點(diǎn).str61?2006SPS字段重排節(jié)點(diǎn)使用字段重排節(jié)點(diǎn)連接過(guò)濾節(jié)點(diǎn)重新排列字段順序點(diǎn)擊“選擇字段”按鈕選擇字段:NUMKIDS,NUMCARDS和RISK點(diǎn)擊“移動(dòng)選定字段到頂部”選項(xiàng)將字段Risk移到頂部使用制表節(jié)點(diǎn)輸出表格查看結(jié)果142?2006SPSSInc.字段重排節(jié)點(diǎn)使用字段重排節(jié)點(diǎn)連接過(guò)濾節(jié)點(diǎn)重新排列字段順序62導(dǎo)出節(jié)點(diǎn)使用導(dǎo)出節(jié)點(diǎn)連接過(guò)濾節(jié)點(diǎn)導(dǎo)出新字段導(dǎo)出節(jié)點(diǎn)四種形式:導(dǎo)出規(guī)則導(dǎo)出標(biāo)記導(dǎo)出集合導(dǎo)出條件143?2006SPSSInc.導(dǎo)出節(jié)點(diǎn)使用導(dǎo)出節(jié)點(diǎn)連接過(guò)濾節(jié)點(diǎn)導(dǎo)出新字段63?2006重新分類節(jié)點(diǎn)使用重新分類節(jié)點(diǎn)連接最后一個(gè)導(dǎo)出節(jié)點(diǎn)選擇單一模式重分類Risk字段為新字段RISKCATbadloss,badprofit新值badgoodrisk新值good使用制表節(jié)點(diǎn)輸出表格通過(guò)表格比較兩個(gè)字段144?2006SPSSInc.重新分類節(jié)點(diǎn)使用重新分類節(jié)點(diǎn)連接最后一個(gè)導(dǎo)出節(jié)點(diǎn)64?20CLEM建議…大小寫敏感性在字符值和所有變量(字段)名上加引號(hào)當(dāng)涉及數(shù)值時(shí)使用小數(shù)點(diǎn)(0.0)標(biāo)準(zhǔn)CLEM函數(shù)全部是小寫字母任何以@開頭的CLEM函數(shù)都是大寫字母使用表達(dá)式構(gòu)造器!145?2006SPSSInc.CLEM建議…大小寫敏感性65?2006SPSSIn自動(dòng)生成節(jié)點(diǎn)大部分輸出都包含“生成”菜單項(xiàng),可以自動(dòng)生成一個(gè)節(jié)點(diǎn)146?2006SPSSInc.自動(dòng)生成節(jié)點(diǎn)大部分輸出都包含“生成”菜單項(xiàng),可以自動(dòng)生成一個(gè)自動(dòng)生成導(dǎo)出節(jié)點(diǎn)使用直方圖節(jié)點(diǎn)連接最后一個(gè)導(dǎo)出節(jié)點(diǎn)直方圖節(jié)點(diǎn)中選擇字段INCOME生成直方圖在生成的直方圖上數(shù)值20000、30000、40000處點(diǎn)擊自動(dòng)生成導(dǎo)出節(jié)點(diǎn)導(dǎo)出集合147?2006SPSSInc.自動(dòng)生成導(dǎo)出節(jié)點(diǎn)使用直方圖節(jié)點(diǎn)連接最后一個(gè)導(dǎo)出節(jié)點(diǎn)67?2自動(dòng)選擇沒(méi)有缺失值

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論