統(tǒng)計(jì)分析軟件基礎(chǔ)教程-Insight的數(shù)據(jù)探索功能課件_第1頁
統(tǒng)計(jì)分析軟件基礎(chǔ)教程-Insight的數(shù)據(jù)探索功能課件_第2頁
統(tǒng)計(jì)分析軟件基礎(chǔ)教程-Insight的數(shù)據(jù)探索功能課件_第3頁
統(tǒng)計(jì)分析軟件基礎(chǔ)教程-Insight的數(shù)據(jù)探索功能課件_第4頁
統(tǒng)計(jì)分析軟件基礎(chǔ)教程-Insight的數(shù)據(jù)探索功能課件_第5頁
已閱讀5頁,還剩84頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、SAS/Insight的數(shù)據(jù)探索功能Page2掌握 SAS/Insight的操作掌握SAS/Insight的數(shù)據(jù)管理掌握SAS/Insight的數(shù)據(jù)探索內(nèi)容與要求Page3SAS菜單系統(tǒng)簡(jiǎn)介1Insight的數(shù)據(jù)管理功能2Insight的其他功能4Insight的數(shù)據(jù)探索功能3Page4SAS菜單系統(tǒng)簡(jiǎn)介 在SAS系統(tǒng)統(tǒng)計(jì)分析功能的使用中,除通過編程方式外,對(duì)常用的分析功能SAS還提供簡(jiǎn)便的菜單系統(tǒng),使得用戶不用編程就可以方便地享用SAS的許多深入的統(tǒng)計(jì)分析功能.目前已提供的菜單系統(tǒng)有: SAS/Insight:是一個(gè)進(jìn)行探索性的交互式數(shù)據(jù)分析的菜單系統(tǒng). SAS/STATAnalyst Ap

2、plication:是一個(gè)為分析員設(shè)計(jì)的菜單系統(tǒng). SAS/STATMarketing Research(市場(chǎng)調(diào)查):是一個(gè)為市場(chǎng)調(diào)查數(shù)據(jù)進(jìn)行較深入的分析而開發(fā)的一個(gè)菜單系統(tǒng).Page5 SAS/QC SQC:(質(zhì)量控制):是為企業(yè)使用各種質(zhì)量控制方法而提供的菜單系統(tǒng).SAS/QC (X)ADX:是為安排各種試驗(yàn)和獲得數(shù)據(jù)后進(jìn)行分析的菜單系統(tǒng).SAS/ETS 時(shí)間序列預(yù)報(bào)系統(tǒng)(FORECAST):是在運(yùn)用時(shí)間序列分析中為各種建模和預(yù)測(cè)功能而開發(fā)的菜單系統(tǒng). 與統(tǒng)計(jì)分析有關(guān)的菜單系統(tǒng)還有 向?qū)綌?shù)據(jù)分析(LAB);投資分析; 企業(yè)數(shù)據(jù)挖掘; 排隊(duì)仿真等等Page6 SAS/Insight是一個(gè)交

3、互式的數(shù)據(jù)探索和分析的工具。它將統(tǒng)計(jì)方法與交互式的圖形顯示結(jié)合在一起,隨時(shí)為用戶提供數(shù)據(jù)、圖形和分析結(jié)果三方面的內(nèi)容,便于用戶發(fā)現(xiàn)異常數(shù)據(jù)及包含在數(shù)據(jù)中的模式或規(guī)律,探索性地使用各種統(tǒng)計(jì)分析方法并觀察分析結(jié)果。它為用戶提供一種全新的使用統(tǒng)計(jì)分析方法的環(huán)境。Insight的數(shù)據(jù)管理功能Page7進(jìn)入SAS/Insight的幾種方法: (1) 在命令框鍵入命令 Insight(2) 用下拉菜單 解決方案(Solutions) 分析(Analysis)交互式數(shù)據(jù)分析( Interactive Data Analysis)(3) 提交 Proc Insight ;(4) 建立Insight的圖標(biāo),用圖

4、標(biāo)啟動(dòng).進(jìn)入SAS/InsightPage8Page9 Insight軟件提供數(shù)據(jù)探索和分析中很廣泛的一些方法.在Insight環(huán)境下的主菜單包括文件File, 編輯Edit,分析Analyze,表Tables,圖形Graphs,曲線Curves,變量Vars和幫助Help欄目,這些欄目提供Insight的功能. File欄目下提供打開數(shù)據(jù)集,存貯數(shù)據(jù)集、分析結(jié)果的表格和圖形的管理. Edit欄目下提供對(duì)打開數(shù)據(jù)集中的變量、觀測(cè)進(jìn)行增刪,設(shè)定數(shù)據(jù)顯示格式和窗口管理 功能.SAS/Insight的功能Page10 Analyze欄目下提供分析和作圖的功能.分析功能包括分布的擬合檢驗(yàn)、線性模型(含

5、回歸分析、方差分析Logistic回歸等)、多變量分析三大類. Tables欄目下提供顯示分析結(jié)果的各種表格功能. Graphs欄目下提供生成與分析有關(guān)的各種圖形,包括直方圖、盒形圖、馬賽克(mosaic) 圖、線圖和三維旋轉(zhuǎn)圖等. Curves欄目下提供與分析有關(guān)的各種曲線.包括擬合的分布密度函數(shù)和經(jīng)驗(yàn)累計(jì)分布函數(shù)圖、分位數(shù)-分位數(shù)圖(Q-Q圖)等. Vars欄目下提供由分析結(jié)果形成新的變量.Page11SAS/Insight的幫助信息提供十分廣泛的內(nèi)容.用戶可以通過Help系統(tǒng)來得到幫助信息.Help(幫助)的下拉菜單(見左下圖) 如下: 選定對(duì)象的幫助(Help on Selection

6、)/:提供與加亮區(qū)或內(nèi)容有關(guān)的幫助信息. 介紹(Introduction):學(xué)習(xí) SAS/Insight軟件的導(dǎo)引. 技巧(Techniques):學(xué)習(xí)如何執(zhí)行一項(xiàng)特殊任務(wù),比如數(shù)據(jù)輸入、坐標(biāo)軸和標(biāo)尺調(diào)整等.SAS/Insight的功能-幫助信息Page12 參考(Reference):可以瀏覽由下拉菜單列出與SAS/Insight系統(tǒng)有關(guān)的詳細(xì)信息. 索引(Index):可快速查看SAS/Insight專題的索引. SAS系統(tǒng)(SAS System):查看SAS系統(tǒng)專題的一般索引. 創(chuàng)建樣本(Create Samples):在SASUSER庫中建立樣本數(shù)據(jù)集(即本使用手冊(cè)所涉及的),執(zhí)行過程

7、的有關(guān)信息可從LOG窗查看.Page13在SAS/Insight中,可對(duì)SAS數(shù)據(jù)集進(jìn)行: (1) 用表格方式輸入數(shù)據(jù)生成數(shù)據(jù)集并瀏覽 ; (2) 增加變量和觀測(cè); (3) 修改測(cè)量水平; (4) 移動(dòng)變量的顯示次序(在數(shù)據(jù)窗口移動(dòng)列); (5) 創(chuàng)建新的變量; (6) 按某個(gè)變量的值對(duì)數(shù)據(jù)集進(jìn)行排序; (7) 選取子集; (8) 存貯數(shù)據(jù).對(duì)數(shù)據(jù)集的操作Page14使用下拉菜單進(jìn)入SAS/Insight后,則顯示以下打開數(shù)據(jù)集的對(duì)話窗.輸入數(shù)據(jù)或打開數(shù)據(jù)集Page15 如果所要分析的數(shù)據(jù)還沒有生成SAS數(shù)據(jù)集,則在對(duì)話窗中選擇新建(New)(即用鼠標(biāo)單擊在新建按鈕上),系統(tǒng)將打開一個(gè)供用戶輸

8、入數(shù)據(jù)的新數(shù)據(jù)窗口,用戶可在該窗口中方便地輸入數(shù)據(jù). Page16 如果數(shù)據(jù)已生成SAS數(shù)據(jù)集,則從邏輯庫(Library)下選中存放數(shù)據(jù)集的庫名字,再?gòu)臄?shù)據(jù)集(Data Set)下選中數(shù)據(jù)集名字(如CLASS),然后按打開(Open)即打開數(shù)據(jù)窗口,顯示該數(shù)據(jù)集的數(shù)值表. 數(shù)據(jù)窗口的左上角給出變量個(gè)數(shù)和觀測(cè)個(gè)數(shù);每個(gè)觀測(cè)有一個(gè)觀測(cè)序號(hào),序號(hào)前的符號(hào)及顏色表示該觀測(cè)在作圖時(shí)使用的符號(hào)和顏色;數(shù)據(jù)表上方除了給變量名外,還標(biāo)明每個(gè)變量的類型是區(qū)間型(Int)或是名義型(Nom);及每個(gè)變量的作用(角色).Page17第二章變量名觀測(cè)個(gè)數(shù)變量個(gè)數(shù)數(shù)據(jù)窗菜單觀測(cè)序號(hào)繪圖符號(hào)和顏色變量類型變量的作用Pa

9、ge18點(diǎn)擊數(shù)據(jù)窗口左上角的,彈出的菜單項(xiàng)為用戶編輯數(shù)據(jù)表(如移動(dòng)行或列的位置、增加變量和觀測(cè)、定義變量、對(duì)觀測(cè)排序等)提供許多選項(xiàng).菜單項(xiàng)如下:1. 查找下一個(gè)(Find Next):翻卷數(shù)據(jù)窗口到下一個(gè)被選中的觀測(cè) .若沒有被選中的觀測(cè),則翻卷到當(dāng)前的下一個(gè)觀測(cè).2. 移至第一個(gè)(Move to First):將選中的觀測(cè)或變量分別移至數(shù)據(jù)窗口的第一行或第一列.3. 移至最后(Move to Last):將選中的觀測(cè)或變量分別移至數(shù)據(jù)窗口的最后一行或最后一列.窗口菜單瀏覽數(shù)據(jù)Page19 當(dāng)數(shù)據(jù)窗口中變量較多時(shí),可以用滾動(dòng)條滾動(dòng)窗口內(nèi)容來查看。如果某個(gè)變量比較重要,可以考慮把它放到第一列的

10、位置,這只要先單擊該變量的名字選中它,然后在數(shù)據(jù)窗的菜單中選 移至第一個(gè)(Move to First)要把某列移到最后,選中它后用 移至最后(Move to Last)Page20 選中一列只要單擊其變量名。如果要選中多個(gè)列,在選中一個(gè)后按住Ctrl鍵單擊其它列的名字可以添加選中的其它變量。選中一個(gè)變量后按住Shift單擊另一個(gè)變量名則表示選中這兩個(gè)變量及它們之間的所有變量。選中的多個(gè)列也可以用移至第一個(gè)(Move to First)和移至最后(Move to Last)菜單項(xiàng)來移動(dòng)。要取消所有選中,只要單擊某一單元格而不是行、列標(biāo)題即可。 Page21 要選中一個(gè)觀測(cè)(行),只要單擊其觀測(cè)序

11、號(hào)(行號(hào))。選多個(gè)觀測(cè)可以用Ctrl單擊或Shift單擊的方法。選中的觀測(cè)也可以用移至第一個(gè)(Move to First)和移至最后(Move to Last)移動(dòng)到最前或最后。 還可以選中某些列同時(shí)選中某些行。只要在后續(xù)的選中操作時(shí)用添加選中(Shift單擊或Ctrl單擊)即可。用鼠標(biāo)在數(shù)據(jù)窗口數(shù)值顯示部分拖出一個(gè)方框也可以選定一部分?jǐn)?shù)值。 選定了列或者行以后,用 編輯(Edit)=刪除(Delete)菜單可以刪除選定的列或行。 窗口菜單整理數(shù)據(jù)Page22 通過使用手動(dòng)工具(hand tool),用戶可以把某變量(或某個(gè)行)移到不同的位置上(不一定是第一列或最后一列)。步驟如下: 選擇編輯

12、(Edit)窗口(Windows) 工具(Tool)瀏覽數(shù)據(jù)手動(dòng)工具Page23則顯示一工具窗口(見右圖)。 用鼠標(biāo)單擊在工具窗口上方的“手動(dòng)”工具項(xiàng)上。這時(shí)光標(biāo)變成一只手的形狀。移動(dòng)這只手到變量(如AGE)名字或某個(gè)行的序號(hào)(如序號(hào)5)上。 按下鼠標(biāo)左鍵并按住它,這時(shí)有一個(gè)虛線的矩形作為變量列(或觀測(cè)行)的輪廓出現(xiàn)。Page24 拽這個(gè)矩形,并把它放到變量NAME(第一個(gè)變量)和SEX(第二個(gè)變量)之間的分界線上;或某二行(如第10和11行)間的分界線上。 釋放鼠標(biāo)左鍵,則變量AGE變?yōu)閿?shù)據(jù)窗口中的第二個(gè)變量;或者第5號(hào)觀測(cè)變?yōu)榈?0號(hào)觀測(cè)。 用鼠標(biāo)單擊在工具窗口上方的“箭頭”工具項(xiàng)上,這時(shí)

13、光標(biāo)還原為原來形狀。Page25排序(Sort): 選定一個(gè)或幾個(gè)變量(列)對(duì)觀測(cè)按上升或下降的順序進(jìn)行排序. 在選定了一列的情況下,把數(shù)據(jù)集按此列從小到大排序;在選定了多列的情況下,由選定的變量次序按這些變量綜合排序,比如在SASUSER.CLASS窗口中先選定SEX,再按住Ctrl單擊另一選定的變量HEIGHT,然后排序,這樣的結(jié)果是把數(shù)據(jù)集先按女生、男生分類排序,然后在女生內(nèi)部和男生內(nèi)部分別按身高從小到大排序。窗口菜單數(shù)據(jù)排序Page26 如果沒有選定任何列,則彈出一個(gè)菜單,詢問按哪些變量排序,比如說DATA.BCLASS數(shù)據(jù)集,可以先點(diǎn)SEX,然后單擊Y按鈕,把性別加入了排序變量中;再

14、選中HEIGHT,單擊Y按鈕,把身高作為第二排序變量; 再單擊排序變量中的HEIGHT,單擊Asc/Des按鈕(這是要求對(duì)身高值要由高到低排序),按OK后數(shù)據(jù)將按性別分組,然后女生、男生內(nèi)部分別按身高由高到低排列。Page27新建觀測(cè)(New Observations): 用于快速插入若干個(gè)空數(shù)據(jù)行,以便輸入新觀測(cè)。 彈出一個(gè)對(duì)話框要求輸入添加的觀測(cè)數(shù),缺省時(shí)是100個(gè)。添加的空行中字符型數(shù)據(jù)先置為空值,數(shù)值型數(shù)據(jù)先置為缺失值(用單獨(dú)的小數(shù)點(diǎn)代表)。新變量(New Variables): 用于快速加入空列,以便輸入新變量.定義變量(Define Variables):將顯示對(duì)話窗(見下頁)。窗

15、口菜單整理數(shù)據(jù)Page28 用戶可以設(shè)置變量類型、缺省時(shí)的角色、量測(cè)水平、名字和標(biāo)簽.在這一對(duì)話窗內(nèi),用戶可以改變一個(gè)變量或幾個(gè)變量的名字等屬性.Page29填充值(Fill Value): 修改該數(shù)據(jù)窗口中某個(gè)選中變量或觀測(cè)的數(shù)據(jù)值,它對(duì)生成常數(shù)或以常數(shù)為增量的等差數(shù)列變量值是特別方便的. 先選定一個(gè)數(shù)值型變量,用此命令,將彈出一個(gè)對(duì)話框要求輸入起始值(Value)和增量(Increment),比如起始值填1,增量填10,則此變量的在各觀測(cè)中的值分別填入為1,11,21,。Page30抽取(Extract): 從已存在的數(shù)據(jù)窗口抽取某些列(變量)或行(觀測(cè))的數(shù)據(jù)子集來生成新的數(shù)據(jù)窗口. 此

16、項(xiàng)功能很強(qiáng),它可以把選定的部分行,部分列或者部分行和列抽取出來生成另一個(gè)新的數(shù)據(jù)窗口。比如在CLASS中先選定所有男生的觀測(cè),再用添加選擇(Shift或Ctrl單擊)的辦法選定NAME,AGE和WEIGHT變量,然后用此命令,可以抽取出一個(gè)名為SASUSER.CLASS1的數(shù)據(jù)窗口,此數(shù)據(jù)窗口中只有姓名,年齡和體重三列及男生的觀測(cè)行。Page31Page32可以在主菜單中選 文件(File) 保存(Save) 數(shù)據(jù)(Data)把此新數(shù)據(jù)集保存為SASUSER.CLASS1。這樣可以由已有數(shù)據(jù)集挑選部分列、部分行組成新數(shù)據(jù)集。Page33 在數(shù)據(jù)選項(xiàng)窗口: 用戶可以選擇數(shù)據(jù)表用變量名或變量的標(biāo)簽

17、顯示; 還可以選擇Enter (回車)的方向(如向下)和Tab的方向(如為向右)。數(shù)據(jù)選項(xiàng)(Data Options):設(shè)置控制數(shù)據(jù)窗口外觀和操縱的選項(xiàng).Page34 在數(shù)據(jù)窗口中如果需要修改某一個(gè)值或幾個(gè)值,只要直接用鼠標(biāo)點(diǎn)到其單元格修改,然后按回車鍵就實(shí)現(xiàn)了修改。在單元格之間移動(dòng)可以用鼠標(biāo)單擊、制表鍵(Tab)、回車、上下光標(biāo)鍵等方法。 Page35 在SAS數(shù)據(jù)集中,變量分為字符型和數(shù)值型.在Insight中,為了區(qū)分變量在分析中的不同作用,變量又按其測(cè)量水平分為區(qū)間型(interval)和名義型或列名型(nominal).對(duì)于字符變量系統(tǒng)自動(dòng)地設(shè)置為名義型;而對(duì)數(shù)值變量系統(tǒng)自動(dòng)地設(shè)置為

18、區(qū)間型.如果某個(gè)數(shù)值變量在分析中將作為分類變量,進(jìn)行分析之前應(yīng)先設(shè)置該變量為名義型(Nominal).整理數(shù)據(jù)設(shè)置測(cè)量水平Page36在SAS/Insight中,變量按其測(cè)量水平分為:區(qū)間型的(Interval) 名義型的(Nominal)數(shù)值型 字符型區(qū)間型名義型以連續(xù)變化尺度測(cè)量具有可進(jìn)行分析的數(shù)值變量有數(shù)值或字符值用于作分類變量SAS變量Page37 設(shè)置變量的測(cè)量水平有兩種方法:(1)在數(shù)據(jù)窗菜單中用定義變量菜單項(xiàng)在對(duì)話框里規(guī)定所選中變量的測(cè)量水平;(2)在數(shù)據(jù)窗口所選中變量名字的上方顯示該變量默認(rèn)的測(cè)量水平。如果需要修改默認(rèn)的測(cè)量水平,在該處點(diǎn)擊鼠標(biāo)右鍵,從顯示的兩種測(cè)量水平選中所需

19、要的區(qū)間型(interval)或名義型(nominal).Page38 如果用戶想對(duì)已打開的數(shù)據(jù)窗口再創(chuàng)建一些新變量,有以下幾種方法: (1)由數(shù)據(jù)窗菜單的菜單項(xiàng)新變量(New Variables)來插入新變量; (2) 通過 編輯(Edit)變量(Variables)由生成新變量的計(jì)算公式來創(chuàng)建新變量; (3) 在統(tǒng)計(jì)分析過程中,如果用戶想把分析計(jì)算的統(tǒng)計(jì)量添加到數(shù)據(jù)集中,分析計(jì)算后通過主菜單項(xiàng)變量(Vars)選擇統(tǒng)計(jì)量作為數(shù)據(jù)集的新變量.整理數(shù)據(jù)創(chuàng)建新變量Page39 有時(shí)用戶想尋找某個(gè)變量具有共同特性的觀測(cè)。例如在CLASS數(shù)據(jù)集中,為了尋找所有男生。步驟以下(使用CLASS數(shù)據(jù)集,假定

20、NAME變量放在第一列): 選擇編輯(Edit)觀測(cè)(Observations )查找(Find)則顯示查找觀測(cè)(Find Observations)對(duì)話窗(見下圖)。整理數(shù)據(jù)查找觀測(cè)Page40 選擇變量SEX(記錄性別)。用鼠標(biāo)左鍵點(diǎn)擊查找觀測(cè)對(duì)話窗左邊的CLASS集變量列表中的變量SEX,表示選中它。在上圖中,對(duì)話窗右邊的值(Value)列表中列出了變量SEX的所有取值;并用上圖對(duì)話窗中間檢查(Test)的等號(hào)(=)來選擇SEX等于右邊Value表中第二個(gè)值(即“M”)的觀測(cè)。 選擇SEX的值(Value)為“M”。如果選多個(gè)值,可以通過Shift+擊或CTRL+擊來選擇這些值。Page

21、41 用鼠標(biāo)擊在應(yīng)用(Apply)按鈕上來尋找符合條件的中學(xué)生所對(duì)應(yīng)的觀測(cè)。此時(shí)選擇觀測(cè)時(shí)并沒有關(guān)閉查找觀測(cè)對(duì)話窗。當(dāng)選擇符合條件的觀測(cè)后,若點(diǎn)擊在確定(OK)按鈕上,則關(guān)閉查找觀測(cè)對(duì)話窗。至此,SEX=M的所有觀測(cè)被加亮。 從數(shù)據(jù)窗菜單上選擇查找下一個(gè)(Find Next) 數(shù)據(jù)窗口將往下滾動(dòng),使得具有SEX=M 的觀測(cè)移到數(shù)據(jù)窗口的頂部。Page42 從數(shù)據(jù)窗菜單選擇移至第一個(gè)(Move to First)。允許用戶把選擇的觀測(cè)集中在一起查看,即所有選擇的觀測(cè)都移到數(shù)據(jù)窗口的開始位置。 從數(shù)據(jù)窗菜單選擇抽取,可以抽取出一個(gè)名為CLASS1的數(shù)據(jù)窗口,此數(shù)據(jù)窗口中只有包含男生所的觀測(cè)行。 可

22、把查找后抽取出來的觀測(cè)存貯為SAS數(shù)據(jù)集,以備后用。Page43 在數(shù)據(jù)窗口,為了存貯輸入的數(shù)據(jù)或修改后的新數(shù)據(jù)窗口的數(shù)據(jù): 選文件(File) 保存(Save) 數(shù)據(jù)(Data)保存數(shù)據(jù)Page44則顯示以下的保存數(shù)據(jù)(Save Data)窗口.首先選擇存貯數(shù)據(jù)的邏輯庫(如WORK),并輸入數(shù)據(jù)集的名字,然后按確定(OK)即完成新數(shù)據(jù)窗口中數(shù)據(jù)的保存.Page45練 習(xí) 題1、瀏覽數(shù)據(jù)表: 數(shù)據(jù)集DST.FITNESS記錄了某健身俱樂部客戶的基本數(shù)據(jù) (1) 用Insight打開數(shù)據(jù)集DST.FITNESS,瀏覽該數(shù)據(jù)集。該數(shù)據(jù)集有多少個(gè)變量,多少個(gè)觀測(cè)值?變量是否使用標(biāo)簽?Page46 (

23、2) 把變量Age移到數(shù)據(jù)表的第二列,而變量group移到數(shù)據(jù)表的第三列; (3) 對(duì)以下變量確定其類型和測(cè)量水平: 變量 類型 測(cè)量水平 RUNTIME RUNPULSE (4) 對(duì)變量GROUP加上標(biāo)簽名 “客戶分組”.Page472、數(shù)據(jù)集排序: (1) 按變量OXYGEN對(duì)數(shù)據(jù)集從大到小重新排序; (2) 按變量GROUP和OXYGEN排序,找出各種GROUP中OXYGEN最大的數(shù)值。3、建立新變量: 創(chuàng)建一個(gè)名為RATIO的新變量,其值等于OXYGEN與RUNTIME的比,并在其標(biāo)簽名中注明.4、創(chuàng)建數(shù)據(jù)集的子集: 將數(shù)據(jù)集中的所有oxygen大于50的客戶抽取出來,生成新的數(shù)據(jù)集,

24、并把它另存為WORK.maxoxygen.Page48Insight的數(shù)據(jù)探索功能 Insight除完成數(shù)據(jù)管理及基本統(tǒng)計(jì)分析的功能外,還有非常強(qiáng)的圖形功能,可以繪制如直方圖或條形圖、盒形圖或散布圖、連線圖、等高線圖、旋轉(zhuǎn)圖等,進(jìn)一步地還有分布擬合和檢驗(yàn)(Distribution)、線性模型的擬合(Fit)和多變量分析(multivariate). 重點(diǎn)介紹用Insight進(jìn)行數(shù)據(jù)探索的圖形功能.Page49數(shù)據(jù)探索的一維方法直方圖或條形圖 SAS/Insight提供了十分方便的數(shù)據(jù)探索功能.對(duì)一維數(shù)據(jù),可以作直方圖、盒形圖、馬賽克圖,對(duì)二維數(shù)據(jù),可以作散點(diǎn)圖、曲線圖、散點(diǎn)圖矩陣,對(duì)三維數(shù)據(jù)可

25、以作旋轉(zhuǎn)圖(三維散點(diǎn)圖).在圖上可以選定一些觀測(cè),這些選擇結(jié)果會(huì)同時(shí)反映在數(shù)據(jù)窗口和其它圖中. 以SASUSER.CLASS數(shù)據(jù)集為例.選定變量EIGHT,由 分析(Analyze)直方圖/條形圖Histogram/Bar Charts(Y))菜單可以打開一個(gè)圖形窗口生成身高的分布直方圖(也稱柱狀圖). Page50Page51 直方圖的每一個(gè)條形代表了繪圖變量(HEIGHT)在一個(gè)區(qū)間范圍內(nèi)的取值情況,比如144到152之間的條形代表身高在144到152厘米的人,條形高度為該組頻數(shù),即取值在這一區(qū)間內(nèi)的觀測(cè)個(gè)數(shù),可以看出這一組只有9個(gè)學(xué)生.單擊這一條形選中在此范圍的觀測(cè),可以發(fā)現(xiàn)這時(shí)數(shù)據(jù)窗口

26、的相應(yīng)觀測(cè)也被選定了.如果雙擊某一條形, 就可以在選定相應(yīng)觀測(cè)的同時(shí)彈出一個(gè)檢查觀測(cè)窗口,窗口中顯示各被選中的觀測(cè)序號(hào),以及其中一個(gè)觀測(cè)的各變量值.這樣可以很方便地檢查圖中各部分所對(duì)應(yīng)的觀測(cè).為取消選定,只要在圖中空白處單擊即可.Page52 繪制的圖形有一個(gè)方框包圍.如果想改變圖形大小,可以單擊方框使其變粗,然后拖動(dòng)四個(gè)角中的一個(gè),就可以把圖形放大或縮小.甚至還可以把一個(gè)角向其對(duì)角方向拖動(dòng)一直拖過對(duì)角,這樣可以改變圖形的橫縱軸方向. 拖動(dòng)邊框可以把圖形移動(dòng)到窗口內(nèi)其它位置.圖形中提供了一個(gè)設(shè)置菜單,可以單擊圖形邊框左下角上的向右箭頭()或在圖形內(nèi)單擊右鍵來打開.Page53第二章 菜單內(nèi)容包

27、括刻度(Ticks),可以設(shè)置坐標(biāo)軸的具體刻度;軸(Axes)用來指定畫不畫坐標(biāo)軸;觀測(cè)(Observations)用來指定是否畫觀測(cè);值(Values)指定是否標(biāo)出各條形高度值(即頻數(shù)).Page54 對(duì)連續(xù)數(shù)據(jù)(Int型)作直方圖可以反映其分布情況,對(duì)離散數(shù)據(jù)(Nom型)作直方圖同樣可以反映其分布,即取每一個(gè)離散值的頻數(shù)分布.比如,在繪制身高的直方圖后,選定變量AGE,并修改變量AGE的類型為名義型(Nom)后對(duì)其作直方圖,則結(jié)果打開一個(gè)新圖形窗口作出有6個(gè)條形的條形圖,分別為年齡從12至17的學(xué)生人數(shù).如選中(單擊)年齡為15的條形,可以看到數(shù)據(jù)窗口中所有AGE=15的觀測(cè)被選定. 另外

28、還可以看到已作的身高的直方圖也發(fā)生了變換,身高的條形中有一部分被選中(顏色變亮),加亮的這一部分表示年齡為15歲在身高中的分布.Page55Page56 在用分析(Analyse)菜單中的作圖命令作圖時(shí)如果沒有選定的變量則彈出一個(gè)對(duì)話框提問用哪一個(gè)變量作圖.如果對(duì)身高作圖,只要選中 HEIGHT,然后按Y鈕即可.Page57 如果在以上對(duì)話窗中還選中SEX作為分組變量,則將分別對(duì)男生和女生生成如下并排的直方圖.Page58數(shù)據(jù)探索的一維方法盒形圖或馬賽克圖 盒形圖是另一種表現(xiàn)數(shù)值型變量分布的圖形.例如要繪制身高分布的盒形圖,選中變量HEIGHT,然后由 分析(Analyze) 盒形圖/馬賽克圖

29、(Box Plot/Mosaic Plot(Y)菜單可以打開一個(gè)圖形窗口生成身高分布的盒形圖. 從圖形菜單中選值(Values)和均值(Means),則將顯示如左圖的一個(gè)盒形圖并在圖中標(biāo)出重要數(shù)據(jù)值.Page59Page60 盒形圖的縱軸代表身高的取值范圍。盒形的中間有一條粗線,這是變量分布的中位數(shù)的位置,盒子上邊線是分布的上四分位數(shù),下邊線是分布的下四分位數(shù),盒子上下邊線包含了分布的中間50%的觀測(cè).盒子的長(zhǎng)度叫做分布的四分位差,其作用類似于標(biāo)準(zhǔn)差,可以反映數(shù)據(jù)分布的分散程度.從盒子邊線向外畫了兩條線叫做觸須線,最長(zhǎng)可以延伸到四分位差的1.5倍,但是如果已經(jīng)到了數(shù)據(jù)的最小值或最大值處就不再延

30、伸.如果觸須線沒有達(dá)到數(shù)據(jù)的極值點(diǎn),則這些極端的數(shù)據(jù)點(diǎn)用觸須線以外的點(diǎn)畫出,一般認(rèn)為這樣的點(diǎn)是異常點(diǎn).Page61 從盒形圖可以看出數(shù)據(jù)的偏斜情況,比如我們看到盒子的下半部比上半部長(zhǎng),而且下觸須線比上觸須線長(zhǎng),說明身高分布略左偏. 用盒形圖菜單中的均值(Means)選項(xiàng)可以在盒形圖上加畫一個(gè)菱形,菱形的中間代表變量分布的均值,菱形的上端點(diǎn)到下端點(diǎn)間距離為兩倍標(biāo)準(zhǔn)差.如果變量是服從正態(tài)分布,菱形上下端點(diǎn)之間應(yīng)該包含大約68%的觀測(cè).均值和中位數(shù)的比較也能反映變量的偏斜情況,平均值低于中位數(shù)可能左偏. 單擊或雙擊盒形圖的某一部分(盒子上半部或下半部、觸須線、極端值)可以選定觀測(cè).Page62 盒形

31、圖還可以很直觀地比較按某分組變量分組后的分布情況.比如,如果我們想看一看男女的身高分布有何異同,先不選中任何變量,而是由菜單 分析(Analyze) 盒形圖/馬賽克圖(Box Plot/Mosaic Plot(Y)在彈出選擇變量的對(duì)話窗中選身高為Y變量,選性別為X變量,畫出的盒形圖如下(在同一張圖里,便于比較). 如果在彈出選擇變量的對(duì)話窗中選身高為Y變量,而選性別為分組變量,則將繪制出的兩張分開的盒形圖. Page63Page64 圖中有兩個(gè)盒形圖,女生一個(gè),男生一個(gè).從圖中看出,男生身高普遍高于女生,且女生身高分布左偏較男生嚴(yán)重.這種并排盒形圖可以十分直觀地比較不同性別身高的分布. 繪制盒

32、形圖時(shí)若指定多個(gè)Y變量也可以作出并排的盒形圖.比如,同時(shí)指定身高和體重作為Y變量作盒形圖就可以生成身高和體重的并排的盒形圖. Page65分析(Analyze) 盒形圖/馬賽克圖(Box Plot/Mosaic Plot(Y) 對(duì)連續(xù)型變量作盒形圖,而對(duì)名義型變量將作出馬賽克圖.比如,對(duì)性別變量作馬賽克圖后,點(diǎn)擊菜單項(xiàng)值(Values)后將標(biāo)出男女生的人數(shù)、百分比. 馬賽克圖一般是對(duì)兩個(gè)名義型變量來作圖.比如,先把數(shù)據(jù)集CLASS中變量AGE的量測(cè)水平由Int改為Nom,并取消所有變量的選定,點(diǎn)擊盒形圖/馬賽克圖,在彈出的選擇變量的對(duì)話窗中選SEX為Y變量,AGE為X變量,畫出的馬賽克圖如下(

33、選中值菜單后的結(jié)果).Page66Page67數(shù)據(jù)探索的二維方法線圖 SAS/Insight可以作折線圖、散點(diǎn)圖、散點(diǎn)圖矩陣,可以在散點(diǎn)圖中刷亮觀測(cè). 線圖要求指定一個(gè)取值由小到大的X變量,還有一個(gè)或幾個(gè)Y變量,以X變量為橫坐標(biāo)對(duì)Y變量畫曲線.為了演示連線圖,打開SASUSER.AIR數(shù)據(jù)集(由 文件(File)打開(Open)菜單),這個(gè)數(shù)據(jù)集收集了德國(guó)某城市一周中每小時(shí)記錄的空氣污染情況.變量DATETIME是記錄的日期時(shí)間,為特殊SAS格式數(shù)據(jù),變量DAY為星期幾,HOUR為幾點(diǎn)鐘,CO、O3、SO2、NO、DUST分別為一氧化碳、臭氧、二氧化硫、一氧化氮、粉塵的濃度,WIND為風(fēng)速.要

34、求繪制一氧化碳隨日期時(shí)間變化的連線圖.步驟如下:可以在未選任何變量的情況下, 由分析(Analyse)線圖(Line Plot),彈出變量對(duì)話框如下圖: Page68 選DATETIME為X變量,CO為Y變量,并選HOUR為標(biāo)簽變量,然后按確定鍵,即可繪制出CO的時(shí)間序列曲線圖. Page69Page70 單擊曲線上某一個(gè)點(diǎn)可以顯示該觀測(cè)點(diǎn)的時(shí)間是幾點(diǎn)(若沒有規(guī)定標(biāo)簽變量,則顯示觀測(cè)序號(hào)),雙擊某點(diǎn)可以查看該觀測(cè)的全部資料.由圖上可以看出CO的高峰一般在早晨8點(diǎn)和晚上17點(diǎn)21點(diǎn). 用圖形菜單(右鍵或單擊向右三角)中的Observations可以畫出各個(gè)數(shù)據(jù)點(diǎn)的符號(hào).可以在圖上同時(shí)畫出多條連線

35、圖.Page71 比如,想考察風(fēng)速對(duì)污染的影響,在圖形窗口中再由主菜單 編輯(Edit)窗口(Window)重建(Renew), 把WIND也作為Y變量,畫出的圖就有兩條不同顏色的連線,單擊圖形左邊變量名WIND可以加亮表示對(duì)應(yīng)的曲線(如下圖),以便區(qū)分這兩條連線.若點(diǎn)擊風(fēng)速最高的點(diǎn),則將顯示時(shí)間是11點(diǎn),而此時(shí)間OC濃度很小.注意在一條曲線中被選中時(shí)在另一條連線也被選中.從此圖可以看出風(fēng)速對(duì)污染有較明顯的影響,風(fēng)大時(shí)污染較輕.Page72Page73 繪制散點(diǎn)圖也要求規(guī)定一個(gè)X變量和一個(gè)Y變量,但不要求X變量有從小到大的次序,畫圖不用連線而是用散點(diǎn)畫出每一對(duì)觀測(cè)點(diǎn)的X、Y坐標(biāo)的位置.比如對(duì)S

36、ASUSER.CLASS,我們希望通過畫散點(diǎn)圖了解身高和體重的關(guān)系.在數(shù)據(jù)窗口中先選定體重(為Y軸變量),再選定身高(為X軸變量),由菜單 分析(Analyze) 散點(diǎn)圖(Scatter Plot) 就可以生成以體重為縱軸以身高為橫軸的散點(diǎn)圖. 從圖中可以看出體重與身高有明顯的線性相關(guān)關(guān)系.以下散點(diǎn)圖中還借用手動(dòng)工具改變散點(diǎn)的符號(hào)和顏色(男生為藍(lán)色用+號(hào),女生為紅色用*號(hào))數(shù)據(jù)探索的二維方法散點(diǎn)圖Page74Page75 為了解哪一個(gè)點(diǎn)代表哪一個(gè)學(xué)生,單擊一個(gè)點(diǎn)可以顯示其觀測(cè)序號(hào),雙擊可以查看觀測(cè)的信息.為了在單擊時(shí)可以顯示學(xué)生名字而不是觀測(cè)序號(hào),需要把NAME指定為標(biāo)簽變量.這時(shí)先不在數(shù)據(jù)窗

37、口選X、Y變量,而是直接由菜單 分析(Analyze) 散點(diǎn)圖(Scatter Plot)彈出變量對(duì)話框,在其中選X、Y變量并把NAME指定為標(biāo)簽(Label)變量.這時(shí),如單擊散點(diǎn)圖中最左下角的那個(gè)點(diǎn)可以顯示名字. 選多個(gè)點(diǎn)可以用附加選中的辦法(Shift或Ctrl單擊). Page76 為了在散點(diǎn)圖中選定多個(gè)點(diǎn),SAS/Insight還提供了一種稱為“ 刷亮(Brushing)”的操作.在圖中拖動(dòng)鼠標(biāo)光標(biāo)可以拖出一個(gè)小長(zhǎng)方形,在這個(gè)長(zhǎng)方形中的點(diǎn)都被選中,稱它為刷子.選中的點(diǎn)在數(shù)據(jù)窗口也被選中,可以在數(shù)據(jù)窗口翻頁查看,或用數(shù)據(jù)窗口的查找下一個(gè)(Find Next)菜單命令查看,或在數(shù)據(jù)窗口用

38、 移至第一個(gè)(Move to First)菜單命令把選中的點(diǎn)移到最前查看.雙擊長(zhǎng)方形(刷子)可以彈出查看觀測(cè)窗口,在那里可以逐個(gè)查看選中的觀測(cè)內(nèi)容.Page77 拖動(dòng)刷子的角可以改變其大小.拖動(dòng)刷子內(nèi)部可以移動(dòng)它的刷亮位置,使進(jìn)入刷子的點(diǎn)被選中,而離開了刷子的點(diǎn)被取消選中.可以同時(shí)用附加選中(Ctrl單擊)的辦法加選不在刷子內(nèi)的點(diǎn),這些點(diǎn)還可以顯示標(biāo)簽.在拖動(dòng)刷子時(shí)如果同時(shí)按住Shift或Ctrl鍵則為附加選定,即進(jìn)入刷子的點(diǎn)被選中而離開刷子的點(diǎn)仍保持被選中.可以按住Shift或Ctrl鍵拖出第二個(gè)刷子,這時(shí)第一個(gè)刷子不再顯示但它刷亮的點(diǎn)仍保持刷亮,移動(dòng)第二個(gè)刷子時(shí)如果按住Shift或Ctrl

39、鍵仍可保持已有選定.為了取消所有選定,只要點(diǎn)擊圖內(nèi)空白處.Page78 散點(diǎn)圖矩陣?yán)L制多個(gè)變量?jī)蓛砷g的散點(diǎn)圖,用予考察多變量間的關(guān)系.以BCLASS為例,比如說我們想了解年齡、身高、體重間的關(guān)系.先把年齡的量測(cè)水平仍設(shè)為連續(xù)型(Int),在數(shù)據(jù)窗口依次選定年齡、身高和體重,由菜單分析(Analyze) 散點(diǎn)圖(Scatter Plot) 就可以生成對(duì)角圖除外的 6張散圖構(gòu)成的散點(diǎn)圖矩陣. 數(shù)據(jù)探索的二維方法散點(diǎn)圖陣Page79 Page80 散點(diǎn)圖矩陣除了可以同時(shí)看到多個(gè)散點(diǎn)圖的優(yōu)點(diǎn)外主要是在一個(gè)散點(diǎn)圖中被選中的點(diǎn)在其它散點(diǎn)圖和數(shù)據(jù)窗口中也同時(shí)被選中.這樣,我們可以在一個(gè)圖中選中一個(gè)極端點(diǎn),然后查看它在其它圖中是否也處于極端位置.在一個(gè)散點(diǎn)圖中刷亮的點(diǎn)在其它散點(diǎn)圖中也同時(shí)被刷亮,這樣,我們可以觀察,年齡和身高都比較小時(shí),體重是否也比較低.可以移動(dòng)刷子,同時(shí)其它散點(diǎn)圖中被選中的點(diǎn)也在變化. 從以上散點(diǎn)圖陣可以看出,年齡由小到大變化時(shí)身高、體重一般也變大,但同一年齡的學(xué)生的身高、體重差距較大.Page81數(shù)據(jù)探索的三維方法旋

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論