SAS系統(tǒng)和數(shù)據(jù)分析散布圖折線圖和層次圖_第1頁
SAS系統(tǒng)和數(shù)據(jù)分析散布圖折線圖和層次圖_第2頁
SAS系統(tǒng)和數(shù)據(jù)分析散布圖折線圖和層次圖_第3頁
SAS系統(tǒng)和數(shù)據(jù)分析散布圖折線圖和層次圖_第4頁
SAS系統(tǒng)和數(shù)據(jù)分析散布圖折線圖和層次圖_第5頁
已閱讀5頁,還剩23頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第二十課 散布圖、折線圖和層次圖sas系統(tǒng)中繪制散布圖、折線圖和層次圖,使用proc plot過程和proc gplot過程。proc plot過程是用來畫易生成的低分辨率的圖形,輸出在output窗口。而proc gplot過程是用來生成訂制的、高分辨率的圖形,輸出在graph窗口,并且還可以對(duì)輸出的圖形進(jìn)行編輯修改。一、 proc plot過程使用plot過程可以在兩個(gè)不同的坐標(biāo)系中對(duì)兩個(gè)變量作散布圖、折線圖、半對(duì)數(shù)圖和層次圖。用于數(shù)據(jù)處理中,直觀地了解數(shù)據(jù)的變化趨勢(shì)和數(shù)據(jù)間的相互關(guān)系等。它的一般形式為:porc plot data=數(shù)據(jù)集 ;plot 縱坐標(biāo)變量y*橫坐標(biāo)變量x;run

2、; 1. proc plot語句proc plot語句中的選項(xiàng)列表主要分成三類:有關(guān)圖形的坐標(biāo)軸選項(xiàng)、有關(guān)外觀的選項(xiàng)和有關(guān)圖形大小的選項(xiàng)。其中,圖形大小的兩個(gè)選項(xiàng)較為常用:l vpct=百分比列表規(guī)定產(chǎn)生圖形在垂直方向占一頁的百分比。例如,vpct=33表示這張輸出圖占一頁的33%,即占一頁的1/3,所以一頁可以縱向打印3張圖。vpct=50 25 25表示每一頁在縱向打印3張圖,第一張占全頁的一半,第二和第三張各占1/4頁。vpct=200表示要求輸出圖占2頁的長(zhǎng)度。l hpct=百分比列表規(guī)定產(chǎn)生圖形在水平方向占一頁的百分比。2. plot語句plot語句里首先要規(guī)定數(shù)據(jù)集中的哪兩個(gè)變量作

3、為圖形中的垂直變量和水平變量,以及在圖形中用于畫點(diǎn)的作圖字符。plot語句的幾種使用格式如下:plot y*x ;plot y*x =+;plot y*x=符號(hào)變量 ;plot y*x $ 標(biāo)記變量 =+;plot y*x=+ b*a=* /overlay ;第一條語句作圖符號(hào)用缺省形式,依次用英文大寫字母a、b、cz作為作圖符號(hào)。當(dāng)觀測(cè)的條數(shù)較多時(shí),低分辨率圖不可能畫出所有觀測(cè)的點(diǎn),所以當(dāng)圖中的某一點(diǎn)表示有一條觀測(cè)的點(diǎn)時(shí),用作圖符號(hào)a表示;當(dāng)圖中的某一點(diǎn)表示有二條觀測(cè)的點(diǎn)時(shí),用作圖符號(hào)b表示;以此類推。例如,輸出圖中有一個(gè)z符號(hào),表示在這點(diǎn)上共有26條觀測(cè)的點(diǎn)或更多點(diǎn)。proc gplot過

4、程默認(rèn)的作圖符號(hào)為加號(hào)(+)。第二條語句用等號(hào)(=)規(guī)定一個(gè)字符作為作圖符號(hào)。此例中每個(gè)散點(diǎn)用加號(hào)(+)表示。第三條語句用等號(hào)(=)規(guī)定一個(gè)變量的值作為作圖符號(hào),變量可以是字符變量,也可以是數(shù)值變量。此時(shí),每個(gè)散點(diǎn)的作圖符號(hào)用數(shù)據(jù)集中同一條觀測(cè)的這個(gè)符號(hào)變量的值表示。例如,假定為=sex變量,則作圖符號(hào)為sex變量的值f或m。第四條語句用符號(hào)($)規(guī)定一個(gè)變量的值用于標(biāo)記圖中的散點(diǎn)。此例中每個(gè)散點(diǎn)不僅用加號(hào)(+)表示,而且還標(biāo)出了圖中每一個(gè)散點(diǎn)在數(shù)據(jù)集的同一條觀測(cè)中這個(gè)標(biāo)記變量的值。第五條語句規(guī)定在同一張圖上重疊兩個(gè)圖,當(dāng)然可以重疊更多的圖。overlay選項(xiàng)要求定義在plot語句中的幾個(gè)圖打

5、印在一張圖上。例如,我們有一個(gè)上證指數(shù)周線數(shù)據(jù)集indexsh,包含日期變量date、成交量變量volume、開盤價(jià)變量open、最高價(jià)變量high、最低價(jià)變量low、收盤價(jià)變量close和漲跌百分比change,用proc plot過程訂制一個(gè)指數(shù)對(duì)交易周的最高和最低價(jià)的重疊散點(diǎn)圖。程序如下:libname study “d:/sasdata/mydir”;proc plot data=study.indexsh vpct=50 hpct=70 formchar=|-|- ;where date01feb91 d ;plot high*date=+ low*date $low =- /ove

6、rlay ;run ;程序的運(yùn)行結(jié)果顯示在output窗口中,如圖20.1所示(為顯示清晰起見,窗口的大小和顯示內(nèi)容的位置移動(dòng)過)。圖20.1 用plot過程訂制重疊散點(diǎn)圖3. plot語句中的選項(xiàng)plot語句除了上述的重疊作圖選項(xiàng)overlay外,還有幾類重要的選項(xiàng)如下:(1) 關(guān)于坐標(biāo)軸刻度的任選項(xiàng)用vaxis(或haxis)=標(biāo)記值列表,定義沿垂直(或水平)坐標(biāo)軸相等間隔的刻度標(biāo)記值??梢杂胋y n的方式規(guī)定刻度的增量。這些值可以是均勻上升或下降,也可以不是,既可以是數(shù)字值,也可以是日期時(shí)間值。幾種可能的選項(xiàng)格式如下:haxis=0 to 100 by 5haxis=01jan20d t

7、o 31dec20d by 7vaxis=1 10 100 100 1000haxis=by 10其他還有vexpand(或hexpand)、vreverse(或hreverse)、vzero(或hzero)等有關(guān)坐標(biāo)軸刻度選項(xiàng)。(2) 關(guān)于參考線的任選項(xiàng)如果要求在散布圖的垂直或水平軸的指定數(shù)值上畫出垂直或水平線作為參考線,可以使用如下選項(xiàng):verf=100 400 1000 (三條水平參考線)href=01mar20d 01oct20d (兩條垂直參考線)還可以用verfchar或hrefchar=字符定義參考線的畫線符號(hào)。(3) 關(guān)于圖形輪廓的任選項(xiàng)box選項(xiàng)可以畫出邊框圍住整個(gè)圖形,而不

8、僅僅是畫出底部和左邊框。vpos或hpos=軸長(zhǎng)度,規(guī)定水平或垂直軸上打印輸出的數(shù)目。(4) 關(guān)于作等值線(層次圖)的任選項(xiàng)當(dāng)要求散點(diǎn)(x,y)的作圖符號(hào)能根據(jù)z(通常z=f(x,y))值的大小規(guī)定不同的層次強(qiáng)度字符時(shí),也就是相同z值的點(diǎn)用相同的作圖符號(hào),不同z值的點(diǎn)用不同的作圖符號(hào),但最多只能把z值分成10個(gè)層次的不同值。我們可以使用如下選項(xiàng):plot x*y=z /contour=3 s1=a s2=+ s3=* ;plot x*y=z /contour=3語句說明:=z指定按z變量的內(nèi)容確定散點(diǎn)作圖符號(hào),選項(xiàng)contour =3規(guī)定三個(gè)層次強(qiáng)度,s1=a s2=+ s3=*按上升順序給出

9、層次強(qiáng)度的作圖符號(hào)。用戶自己可以不定義s1、s2、s3的層次強(qiáng)度的作圖符號(hào),而使用缺省值。下面我們舉例說明plot語句中選項(xiàng)的使用。例如,繪制上證指數(shù)周線數(shù)據(jù)集indexsh的散點(diǎn)圖時(shí),根據(jù)股票技術(shù)分析的需要,要畫支撐和阻力線,以及趨勢(shì)變異的時(shí)間和周期,這對(duì)以后的各種分析都很重要。我們可以通過調(diào)整縱橫坐標(biāo)軸的刻度和增加水平和垂直參考線來實(shí)現(xiàn)。程序如下:libname study “d:/sasdata/mydir”;proc plot data=study.indexsh vpct=50 hpct=80 formchar=|-|- ;plot close*date=+ /haxis=21dec

10、90d to 01jan93d by 98 vaxis=100 200 400 800 1600href=16aug91d 30apr92d 20nov92dvref=96 135 400 1429 ;title1 shanghai stockindex ;title2 21dec90-01jan93 ;run ;程序的運(yùn)行結(jié)果顯示在output窗口中,如圖20.2所示。圖20.2 用plot過程訂制重疊散點(diǎn)圖輸出解釋:對(duì)上證指數(shù)從1990年12月21日開市到1993年1月1日的交易數(shù)據(jù)進(jìn)行分析,主要經(jīng)歷三種市場(chǎng)狀況:第一種市場(chǎng)狀況是從1990年12月21日到1991年7月底8月初,在9613

11、5點(diǎn)之間盤整筑底,歷經(jīng)大約3134周,形成w底;第二種市場(chǎng)狀況是從1991年8月中旬有效突破阻力線135,形成穩(wěn)步盤升單邊市,至1992年4月24日歷經(jīng)大約2831周;第三種市場(chǎng)狀況是從1992年4月30日至1992年11月20,在400點(diǎn)一線開始飆升沖頂1429點(diǎn),最后回落原地400點(diǎn),歷經(jīng)大約29周。從上面的分析我們可以看到,水平和垂直參考線提供了一種看得見的暗示。技術(shù)分析的目的就是找到購買資產(chǎn)的適宜點(diǎn),盡可能地識(shí)別一種趨勢(shì)結(jié)束且另一種趨勢(shì)開始的點(diǎn),然后可作出適宜的交易。二、 生成高分辨率圖形雖然proc plot過程生成的散布圖對(duì)基本數(shù)據(jù)分析是有用的,但是為了更詳細(xì)的分析和表達(dá)目的也可用

12、proc gplot過程來生成高分辨率圖形。1. gopitons語句通常,當(dāng)在使用proc gplot和proc gchart等能生成高分辨率圖形的過程時(shí),要用到系統(tǒng)的一些特定特征,因此,要求指定圖形設(shè)備和計(jì)算機(jī)系統(tǒng)的一些另外可能的選擇。用下列g(shù)opitons語句能規(guī)定一個(gè)圖形設(shè)備以運(yùn)行sas/graph軟件。 goptions device=圖形設(shè)備 ;例如,如果我們要指定圖形輸出設(shè)備為windows環(huán)境下的黑白打印機(jī),程序?yàn)椋篻options device=winprtm ;又如,如果我們要指定圖形輸出設(shè)備為windows環(huán)境下的彩色打印機(jī),程序?yàn)椋篻options device=win

13、prtc ;另外,我們還可以通過選擇菜單命令globals/options/global options或globals/graph/file/print/sas graph driver來設(shè)定圖形輸出設(shè)備。2. proc gplot過程生成高分辨率圖形的proc gplot過程的一般使用格式如下:porc gplot data=數(shù)據(jù)集 ;plot 縱坐標(biāo)變量y*橫坐標(biāo)變量x;symboln ;axisn ;run ;使用proc gplot過程和proc plot過程的區(qū)別是,對(duì)于proc gplot語句,proc plot語句中的vpct和hpct等選項(xiàng)不可使用。兩者的plot語句使用方法

14、基本相同。最主要的區(qū)別是,在proc gplot過程中,可使用symboln語句和axisn語句。3. 用symboln語句定義線和符號(hào)symboln語句的主要作用:可以定義數(shù)據(jù)點(diǎn)的符號(hào),可以定義數(shù)據(jù)點(diǎn)之間的連接方式,可以定義數(shù)據(jù)點(diǎn)和線的顏色。symboln語句的n取值范圍從1到99,缺省值是1,n代表y*x兩個(gè)變量形成數(shù)據(jù)連線的系列數(shù)。一些主要選項(xiàng)如下:l v=數(shù)據(jù)點(diǎn)圖形符號(hào)數(shù)據(jù)點(diǎn)的符號(hào)有none(沒有)、plus(缺省值加號(hào))、star(星號(hào))、squar(小方塊)、diamond(小菱形)、trangle(三角形)、circle(小圓圈)。l i=數(shù)據(jù)點(diǎn)間連接方式常用的連接有none(沒

15、有)、join(直線)、spline(平滑)、needle(從數(shù)據(jù)點(diǎn)到橫坐標(biāo)畫垂直線)、hiloc(最高、最低、收盤價(jià))、rl(直線回歸線)、box25(盒形線)。l w=連線的線寬例如,w=5。l h=圖形符號(hào)的高度例如,h=2.5。l l=定義連線的類型例如,l=2。l c=定義顏色例如,c=red。l font=定義一種字體例如,font=swissb。symboln語句所定義的各種選項(xiàng),由于數(shù)量眾多,用戶一般很難記憶,我們上面所列出的僅僅是一小部分。通??梢栽诿钶斎肟蛑邪l(fā)布symbol命令,調(diào)出symbol窗口,在選項(xiàng)參數(shù)的橫線上鍵入?后,在參數(shù)對(duì)話框中選擇參數(shù)。共有14項(xiàng)參數(shù)選項(xiàng),

16、每項(xiàng)中還有許多參數(shù)值。一個(gè)symboln語句一旦被定義就一直保持有效,直到重新定義或者退出sas系統(tǒng)。執(zhí)行一個(gè)不帶任何選項(xiàng)的symboln語句將取消symboln的全部定義,并不影響其他的symbol語句。如果想要取消所有的symbol語句定義,提交下面的語句:goptions reset=symbol ;4. 用axisn語句定義坐標(biāo)軸在proc gplot中,可以通過plot語句的選項(xiàng)、label語句和format語句來修飾坐標(biāo)軸。plot語句的選項(xiàng)允許控制坐標(biāo)軸的刻度、文本和顏色。但使用axisn語句的選項(xiàng)可以更集中、更方便地控制和管理坐標(biāo)軸。常見的使用格式如下:proc gplot d

17、ata=數(shù)據(jù)集 ;plot y*x / vaxis=axis1 haxis=axis2 ;symboln ;axis1 label=(price) order=(100 to 1500 by 200 ) offset=(20,10) ;axis2 label=(date) order=(21dec90d to 01jan93d by 98 ) ;run ;axisn語句的label選項(xiàng)規(guī)定該軸的標(biāo)簽,order選項(xiàng)規(guī)定該軸的取值范圍,offset選項(xiàng)規(guī)定從該軸的原點(diǎn)開始的第一個(gè)主刻度空間大小,及從該軸最末端到最后一個(gè)刻度的空間大小。例如,語句中的offset=(20,10),當(dāng)單位是pct時(shí),

18、表示第一個(gè)主刻度空間為圖形輸出區(qū)域的20%,最后一個(gè)刻度的空間為圖形輸出區(qū)域的10%。有時(shí)需要給圖形加第二根縱軸,用來表示在同一時(shí)間期間上的另一個(gè)變量。兩個(gè)變量不用同一縱坐標(biāo)軸的原因,常常是兩個(gè)變量的值相差太大,如果兩個(gè)變量的值顯示在同一縱軸上,在圖形上就會(huì)很難分辨值較小那個(gè)變量的值的變化。定義第二根縱軸(右軸)的方法如下:proc gplot data=數(shù)據(jù)集 ;plot y1*x / vaxis=axis1 haxis=axis2 ;plot2 y2*x / vaxis=axis3 ;symboln ;axis1 ;axis2 ;axis3 ;run ;用第二條plot2語句定義了第二根縱

19、軸axis3。例如,我們要在同一圖形上繪制上證指數(shù)的最高價(jià)最低價(jià)收盤價(jià)和交易量的圖形。由于價(jià)格和交易量的取值范圍不同且相差懸殊,交易量用左邊的縱軸來度量,價(jià)格采用右邊的縱軸來度量。要生成最高價(jià)最低價(jià)收盤價(jià)圖,原來indexsh數(shù)據(jù)集中的數(shù)據(jù)排列格式不符合要求,需要用數(shù)據(jù)步修改indexsh為indexsh2,將一條觀測(cè)中最高價(jià)high、最低價(jià)low、收盤價(jià)close三個(gè)數(shù)據(jù),轉(zhuǎn)換成三條觀測(cè)中value變量的數(shù)據(jù),且三條觀測(cè)的日期date不變。程序如下:libname study d:sasdatamydir ;data study.indexsh2;set study.indexsh;valu

20、e=high; output;value=low; output;value=close; output;run ;goptions reset=global gunit=pct cback=white borderhtitle=6 htext=3 ftext=swissb colors=(back) ;proc gplot data=study.indexsh2;plot volume*date /vaxis=axis1 hvxis=axis2;plot2 value*date /vaxis=axis3 vref=0;symbol1 i=needle;symbol2 i=hiloc;axis

21、1 label=(volume) order=( 0 to 700000 by 100000) offset=(0,50) ;axis2 label=(date) order=(21dec90d to 01jan93d by 98) ;axis3 label=(price) order=(0 to 1500 by 100) offset=(25,0) ;title shanghai stockindex;run ;程序的運(yùn)行結(jié)果顯示在graph窗口中,如圖20.3所示。圖20.3 用gplot過程訂制的價(jià)格和成交量圖在用proc gplot過程繪制高分辨率的圖形前,首先把繪圖的數(shù)據(jù)轉(zhuǎn)換和處理成

22、能符合i=holoc連接方式的數(shù)據(jù)格式,另外為了確保在生成圖形時(shí),各種符號(hào)定義準(zhǔn)確,一般先使用goptions語句,清除先前定義的各種符號(hào)(reset=global),然后再定義將在圖中使用的全局符號(hào)體系。三、 散布圖散布圖又稱散點(diǎn)圖或相關(guān)圖。它是以散點(diǎn)的分布反映變量之間相關(guān)情況的統(tǒng)計(jì)圖。根據(jù)圖中的各點(diǎn)分布和密集程度,大致可以判斷變量之間協(xié)變關(guān)系的類型。在回歸模型中,常用散布圖來描述變量之間的相關(guān)關(guān)系,橫軸上自變量的改變將引起縱軸上因變量的改變?;貧w模型中參數(shù)的計(jì)算,是通過使因變量的理論值與實(shí)際值之間偏差的平方和達(dá)到最小而得到的。為了便于理解散布圖在回歸模型中的應(yīng)用,我們先用已知的線性方程來虛

23、擬構(gòu)造一組樣本數(shù)據(jù),畫出散布圖,從圖中各散點(diǎn)形成的趨勢(shì)看,是否符合線性關(guān)系,然后決定用線性回歸模型求回歸方程。作為對(duì)總體回歸直線的近似,必須進(jìn)行統(tǒng)計(jì)檢驗(yàn)才能確定這種近似是否恰當(dāng),最后我們可以得到確認(rèn)的總體回歸方程,再比較我們已知的方程,應(yīng)該發(fā)現(xiàn)非常接近。例如,新創(chuàng)建的數(shù)據(jù)集line,是我們用身高(heigh)=體重(weight)+100這樣一個(gè)簡(jiǎn)單直線方程來生成的模擬數(shù)據(jù)集。數(shù)據(jù)集中有一組高度heigh和體重weight的觀測(cè)值。假設(shè)我們需要繪制回歸直線及置信帶等,可以先畫出高度對(duì)體重的散布圖進(jìn)行觀察和分析,然后利用回歸過程建立高度(因變量)和體重(自變量)的線性方程式后,進(jìn)一步畫出高度預(yù)測(cè)

24、值對(duì)體重的散布圖,進(jìn)行比較和分析。程序如下:libname study d:sasdatamydir;data study.line ;do n=1 to 200 by 1;weight=40+60*ranuni(1) ;height=1*weight+100+5*normal(1) ;output ;end ;proc reg data=study.line;model height=weight; output out=study.linereg p=predict ;proc gplot data=study.linereg ;plot height*weight predict*wei

25、ght / overlay;symbol1 v=dot c=red i=none;symbol2 v=none c=blue i=spline;run ;程序說明:數(shù)據(jù)步data自動(dòng)生成200條觀測(cè),sas系統(tǒng)提供了兩個(gè)均勻分布的隨機(jī)函數(shù)ranuni()和uniform()產(chǎn)生01之間的隨機(jī)數(shù),用隨機(jī)函數(shù)構(gòu)成的40+60*ranuni(1)表達(dá)式,將使weight變量的取值范圍為40100公斤之間的隨機(jī)值。sas系統(tǒng)還提供了兩個(gè)標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)函數(shù)normal()和rannor(),產(chǎn)生均值為0標(biāo)準(zhǔn)差為1標(biāo)準(zhǔn)正態(tài)隨機(jī)數(shù)。隨機(jī)數(shù)表達(dá)式1*weight+100+5*normal(1)是經(jīng)過線性變

26、換產(chǎn)生的均值為1*weight+100,標(biāo)準(zhǔn)差為5的隨機(jī)數(shù),對(duì)于正態(tài)分布將有95%的數(shù)據(jù)落在均值附近的兩個(gè)標(biāo)準(zhǔn)差之內(nèi),例如,對(duì)于weight=50來說,身高的均值為50+100=150,因此height變量的取值范圍將有95%的可能為140160厘米。proc reg回歸過程,首先建立輸入為weight輸出為height的回歸模型,并用output語句創(chuàng)建包含身高預(yù)測(cè)值的輸出數(shù)據(jù)集,定義輸出數(shù)據(jù)集名為study.linereg,定義存放預(yù)測(cè)值的變量名為predict。最后,用proc gplot過程把實(shí)際高度對(duì)重量及預(yù)測(cè)高度對(duì)重量?jī)蓮埳⒉紙D重疊放在一張圖上,通常兩張圖應(yīng)該用不同的作圖字符來表示

27、散點(diǎn),實(shí)際高度對(duì)重量用無任何連線的小圓點(diǎn)表示,預(yù)測(cè)高度對(duì)重量用平滑曲線連接散點(diǎn)。高分辨率的輸出圖形顯示在graph窗口,在output窗口還顯示輸出proc reg過程的統(tǒng)計(jì)報(bào)告,如下所示:model: model1dependent variable: height analysis of variance sum of mean source df squares square f value probf model 1 58792.37183 58792.37183 2524.881 0.0001 error 198 4610.47060 23.28521 c total 199 634

28、02.84243 root mse 4.82547 r-square 0.9273 dep mean 170.67056 adj r-sq 0.9269 c.v. 2.82736 parameter estimates parameter standard t for h0: variable df estimate error parameter=0 prob |t|intercep 1 97.812209 1.48957643 65.664 0.0001weight 1 1.033179 0.02056151 50.248 0.0001從回歸分析報(bào)告中我們看出,對(duì)樣本回歸直線與觀測(cè)值之間的

29、擬合程度的檢驗(yàn)(也稱擬合優(yōu)度檢驗(yàn))用判定系數(shù)r2檢驗(yàn),r2的取值范圍為01,越接近1,擬合程度越好;反之越差。本例中r2為0.9273,調(diào)整后的r2也為0.9269,非常接近于1。還有參數(shù)顯著性檢驗(yàn)(t檢驗(yàn))和回歸總體線性的顯著性檢驗(yàn)(f檢驗(yàn))都顯示高度顯著。我們可以確認(rèn)回歸模型的估計(jì)式為:height=1.033179*weight+97.812209sas系統(tǒng)的許多圖形過程都帶有統(tǒng)計(jì)計(jì)算,許多統(tǒng)計(jì)分析過程都帶有圖形輸出。proc gplot畫圖過程就帶有回歸模型的預(yù)測(cè)值和置信帶計(jì)算,并用曲線連接。程序如下:goptions reset=global gunit=pct cback=whit

30、e borderhtitle=6 htext=3 ftext=swissb colors=(back) ;proc gplot data=study.line ;plot height*weight height*weight /vaxis=axis1 haxis=axis2 overlay;symbol1 i=none v=dot cv=black h=1.5 ;symbol2 i=rlcli95 ci=black cv=black co=black w=2.5 l=1;axis1 label=(height) order=(130 to 210 by 10) ;axis2 label=(w

31、eight) order=(40 to 100 by 10) ;title linear regression;run ;程序說明:對(duì)樣本數(shù)據(jù)集study.line不先調(diào)用統(tǒng)計(jì)計(jì)算過程求回歸預(yù)測(cè)值,而是直接繪制實(shí)際身高對(duì)體重的兩張重疊散點(diǎn)圖。然后對(duì)第二張圖的連接方式i選項(xiàng)確定為rlcli95,包括三部分含義:rl表示作直線回歸,還可用表示作2次回歸rq和rq0(消除截距,強(qiáng)制線經(jīng)過原點(diǎn))代替,或表示作3次回歸的rc、rc0代替;cli表示作單個(gè)預(yù)測(cè)值的置信帶,可用clm代替,表示作均數(shù)的置信帶;95表示置信度為95%,另有兩個(gè)可用值為90和99。有關(guān)散布圖中i選項(xiàng)的回歸參數(shù)取值,可在symbo

32、l窗口的type參數(shù)選項(xiàng)橫線上鍵入?后,再選擇user regress analysis子菜單來查看或選定。ci表示回歸線的顏色,co表示置信帶的顏色,cv表示散點(diǎn)的顏色,w表示連接線的寬度,l表示連接線的類型。程序的運(yùn)行結(jié)果顯示在graph窗口中,如圖21.4所示。圖中大約有5%的數(shù)據(jù)點(diǎn)落在兩條虛線構(gòu)成的置信帶之外。圖20.4 一元線性回歸和95%置信限四、 折線圖折線圖又稱曲線圖,是用線段的升降來說明現(xiàn)象變動(dòng)情況的一種統(tǒng)計(jì)圖,它主要用于表現(xiàn)在時(shí)間上的變化趨勢(shì)、現(xiàn)象的分配情況和兩個(gè)現(xiàn)象之間的依存關(guān)系等。折線圖常應(yīng)用于時(shí)間序列模型中,把有關(guān)時(shí)間序列的數(shù)據(jù)繪制成圖形。廣義上說,模型可劃分為回歸模

33、型與時(shí)間序列模型。從數(shù)學(xué)角度看,時(shí)間序列數(shù)據(jù)的建模是構(gòu)造一個(gè)包含時(shí)間序列本身、推薦函數(shù)的殘差以及可選擇的其他時(shí)間序列的函數(shù)。我們所觀測(cè)到的時(shí)間序列的值是時(shí)間序列過程的實(shí)現(xiàn)。用描述方法判定時(shí)間序列數(shù)據(jù)的趨勢(shì)后,技術(shù)分析人員往往要對(duì)該序列建立模型并預(yù)測(cè)它們的將來值。用時(shí)間序列的數(shù)據(jù)建立模型時(shí),可以去掉序列的確定分量,也可以對(duì)確定部分建立一個(gè)明確的模型。利用時(shí)間序列的其他組成部分建模后,把確定部分也加進(jìn)去形成最終模型。例如,股票價(jià)格趨向于沿看得見可識(shí)別的趨勢(shì)移動(dòng),技術(shù)分析想盡可能地識(shí)別趨勢(shì)并在趨勢(shì)反轉(zhuǎn)點(diǎn)改變投資。然而,由于隨機(jī)波動(dòng)遮掩了反轉(zhuǎn)點(diǎn)或使反轉(zhuǎn)點(diǎn)錯(cuò)誤地出現(xiàn),因此技術(shù)分析必須借助于估計(jì)序列成分(

34、包括趨勢(shì)周期計(jì)算、季節(jié)和交易日方式的循環(huán)和非規(guī)則成分的循環(huán))或計(jì)算序列的移動(dòng)平均來估計(jì)序列的趨勢(shì)。直接使用一些股票市場(chǎng)的時(shí)間序列數(shù)據(jù)繪制折線圖,全部趨勢(shì)可能難以直觀識(shí)別。如果移去非趨勢(shì)成分會(huì)使趨勢(shì)更容易顯現(xiàn)??梢允褂胹as/ets軟件中proc x11過程來估計(jì)和調(diào)節(jié)序列成分。作為對(duì)使用proc x11過程去估計(jì)趨勢(shì)成分的一種補(bǔ)充,可以采用平滑時(shí)間序列的數(shù)據(jù)的方法,以便移去隨機(jī)波動(dòng)從而揭示數(shù)據(jù)中的趨勢(shì)。一般地,通過計(jì)算數(shù)據(jù)的移動(dòng)平均可實(shí)現(xiàn)數(shù)據(jù)的平滑。移動(dòng)平均有很多種類,主要有簡(jiǎn)單移動(dòng)平均、加權(quán)移動(dòng)平均和指數(shù)加權(quán)移動(dòng)平均,最優(yōu)長(zhǎng)度依賴于使用的時(shí)間結(jié)構(gòu)。理解了數(shù)據(jù)中有關(guān)趨勢(shì)的知識(shí),將有助于買、賣和

35、持有股票的決定及交易的時(shí)機(jī)。下面,我們首先對(duì)上證指數(shù)indexsh數(shù)據(jù)集計(jì)算簡(jiǎn)單的、加權(quán)的和指數(shù)加權(quán)的移動(dòng)平均線。然后繪制原始序列和移動(dòng)平均的圖形。程序如下:goptions reset=global gunit=pct cback=white borderhtitle=6 htext=3 ftext=swissb colors=(back) ;libname study “d:sasdatamydir”;data study.indexma ;set study.indexsh ; ma10=(close+lag(close)+lag2(close) +lag3(close) +lag4(c

36、lose) +lag5(close)+lag6(close)+lag7(close) +lag8(close) +lag9(close)/10; wma10=(10*close+9*lag(close)+8*lag2(close)+7*lag3(close)+6*lag4(close) +5*lag5(close)+4*lag6(close)+3*lag7(close)+2*lag8(close)+lag9(close)/55 ; w1=0.3 ; retain ewma1 ; if _n_=1 then ewma1=close ; else ewma1=w1*close+(1-w1)*ewm

37、a1 ; w2=0.75 ; retain ewma2 ; if _n_2 then ewma2=ewma1 ; else ewma2=w2*ewma1+(1-w2)*ewma2 ;proc gplot data=study.indexma ;plot close*date ma10*date /vaxis=axis1 haxis=axis2 overlay ;symbol1 i=join v=none l=1 h=2.5 ;symbol2 i=join v=none l=1 h=2.5 w=2;axis1 label=(price) logbase=10 order=(100 200 400

38、 800 1600 3200);axis2 label=(date) ;title shanghai stockindex;title2 close and moveaverage;run ;程序說明:data數(shù)據(jù)步創(chuàng)建了一個(gè)名為indexma的數(shù)據(jù)集,共生成了四種移動(dòng)平均線,使用滯后函數(shù)lagn()生成了收盤價(jià)close的十日簡(jiǎn)單移動(dòng)平均線ma10和十日加權(quán)移動(dòng)平均線wma10;用平滑因子w1生成一次指數(shù)加權(quán)移動(dòng)平均ewma1,用平滑因子w2生成二次指數(shù)加權(quán)移動(dòng)平均ewma2,平滑因子值較大,則對(duì)最近的序列值給出較大的權(quán)數(shù),作為一個(gè)一般原則,較小的平滑因子適于緩緩改變的趨勢(shì)序列,而較大的平滑

39、因子適于快速改變的易變序列。ifthenelse語句的作用是將初始化處理和后面的正常處理分開來。retain語句的作用是data步從這次到下次重復(fù)時(shí),保留變量ewma1和ewma2的值。調(diào)用proc gplot過程繪制了收盤價(jià)和十日簡(jiǎn)單移動(dòng)平均的圖形,其中對(duì)縱軸(price)定義的axis1語句中加上了logbase=10(或pi或e)的選項(xiàng),就表示該軸是以10為底的對(duì)數(shù)軸。程序的運(yùn)行結(jié)果顯示在graph窗口中,如圖21.5所示圖21.5 對(duì)時(shí)間序列的數(shù)據(jù)用移動(dòng)平均估計(jì)趨勢(shì)除了用data數(shù)據(jù)步直接計(jì)算移動(dòng)平均外,我們還可以用sas/ets軟件的expand過程來生成時(shí)間序列數(shù)據(jù)的簡(jiǎn)單、加權(quán)和中

40、心移動(dòng)平均,用sas/qc軟件的macontrol過程生成一致加權(quán)和指數(shù)加權(quán)的移動(dòng)平均控制圖表。 五、 層次圖proc plot過程還能繪制層次圖,又稱等值線圖或輪廓圖。在地理學(xué)研究中用來繪制等高線,在經(jīng)濟(jì)學(xué)研究中常用來畫等值的利潤(rùn)曲線。例如,線性規(guī)劃中的產(chǎn)品混合問題,經(jīng)濟(jì)學(xué)的一個(gè)核心問題是在有限的資源情況下,如何合理的分配資源,使效益最大化。假設(shè)我們要生產(chǎn)兩種產(chǎn)品x和y,但受到時(shí)間t、空間s、能力c三種資源約束,在已知兩個(gè)產(chǎn)品的單位利潤(rùn)為f1(x)和f2(y)情況下,各生產(chǎn)產(chǎn)品x和y多少數(shù)量,才能使利潤(rùn)z最大化。即:時(shí)間資源約束: ft(x,y)t空間資源約束: fs(x,y)s能力資源約束

41、: fc(x,y)c利潤(rùn) z= f1(x)x+ f2(y)y產(chǎn)品的單位利潤(rùn)一般受市場(chǎng)的需求和成本等因素影響,要銷售的數(shù)量多,單價(jià)就要便宜,單位利潤(rùn)就會(huì)變小,但生產(chǎn)的數(shù)量多,單位成本就會(huì)低,單位利潤(rùn)就會(huì)變大,兩者的平衡點(diǎn)在邊際收益等于邊際成本時(shí)生產(chǎn)的數(shù)量,但這僅是針對(duì)一種產(chǎn)品和資源不受約束的情況下。通常的做法,是將利潤(rùn)函數(shù)z在x和y平面上畫出等值線,而三種資源的約束函數(shù)曲線也將在x和y平面上圍成可行域,然后在可行域中找出(x,y)使等值線最大。設(shè)f1(x)=7-x+1/x,f2(y)=9-y+1/y,那么:z=2+7x-x2+9y-y2用上面的這個(gè)函數(shù)生成一個(gè)包含三個(gè)變量x、y、z的利潤(rùn)數(shù)據(jù)集p

42、rofit,然后用plot語句的contour選項(xiàng)就可以繪制出等值線圖。程序如下:libname study d:sasdatamydir;data fit;format z 5.1;do x=0 to 9 by 0.2;do y=0 to 9 by 0.1;z=2+7*x-x*x+9*y-y*y;output; end;end;proc plot data=fit formchar=|-|-;plot y*x=z /contour ;run ;用proc plot過程plot語句選項(xiàng)contour,最多只能分成10個(gè)層次,由z的取值來決定所屬的層次。第一層

43、z的取值范圍-16.5-11.0,第二層z的取值范圍-11.0-5.5,第十層z的取值范圍33.038.5。每一層用一個(gè)不同的作圖字符表示。由于生成的是低分辨率的圖形,顯示不清楚,我們改用proc gcontour過程來繪制高分辨率的層次圖,最多可以繪制100層。程序如下:goptions reset=global gunit=pct cback=white borderhtitle=6 htext=3 ftext=swissb colors=(back) ;proc gcontour data=fit ;plot y*x=z / nlevels=20 autolabelxt

44、icknum=10yticknum=10nolegend ;title profit gcontour ;run ;程序的運(yùn)行結(jié)果顯示在graph窗口中,如圖21.6所示。程序說明:nlevels=20選項(xiàng)定義層次圖的層次數(shù)為20,autolabel選項(xiàng)定義層次線的標(biāo)簽為自動(dòng)生成,如圖中32.3、29.9、27.5等,xticknum=10和yticknum=10選項(xiàng)定義x和y軸上刻度線的數(shù)目,nolegend選項(xiàng)定義在層次圖的下方不顯示圖例,若無此選項(xiàng),將顯示每一層次線z的具體值。還有許多其他選項(xiàng),如可定義各個(gè)對(duì)象的顏色,可選擇網(wǎng)格線、垂直和水平參考線等。用等值線和可行域方法研究?jī)蓚€(gè)產(chǎn)品x和

45、y的混合問題,還可以推廣到求解n個(gè)產(chǎn)品的混合問題。此時(shí)的利潤(rùn)值是一個(gè)在n維空間的曲面,可以稱為等值面,而可行域也為n維的一個(gè)體積。圖21.6 用gcontour過程繪制的利潤(rùn)等值線圖第二十一課 條形圖、圓餅圖和星形圖與plot過程和gplot過程的關(guān)系一樣,proc chart過程是用來畫易生成的低分辨率的圖形,輸出在output窗口。而proc gchart過程是用來生成訂制的、高分辨率的圖形,輸出在graph窗口。在這里我們將只介紹gchart過程。使用gchart圖表可以形象地表示變量的取值大小和兩個(gè)以上變量之間的關(guān)系??梢岳L制垂直和水平的條形圖、塊形圖、圓餅圖、星形圖等。一、 proc

46、 gchart過程的功能和語句說明gchart過程不僅能把輸入數(shù)據(jù)集中的變量值以各種圖形的方式顯示出來,而且能把輸入數(shù)據(jù)集中的一個(gè)或多個(gè)變量按分組進(jìn)行各種統(tǒng)計(jì)計(jì)算,然后再把統(tǒng)計(jì)結(jié)果以圖形的方式顯示出來。也就是說,gchart過程具有統(tǒng)計(jì)和顯示圖表的兩大功能。1. proc gchart過程的一般格式gchart過程一般由下列語句控制:proc gchart data=數(shù)據(jù)集 ;vbar 變量列表 /;hbar 變量列表 /;block 變量列表 /;pie 變量列表 /;star 變量列表 /;by 變量列表 ;run ;在proc gchart語句后面可以跟隨著任何多個(gè)圖形要求的語句,如上面

47、的vbar、block等語句。也就是一個(gè)gchart過程能夠?qū)σ粋€(gè)指定的數(shù)據(jù)集畫出任意多個(gè)各種不同的圖形。每一個(gè)圖形要求語句需要指定一個(gè)圖形變量或多個(gè)圖形變量用于將它們的值畫圖。由于每個(gè)圖形要求語句的選項(xiàng)眾多,將它們的選項(xiàng)分成兩部分:通用選項(xiàng)列表和專用選項(xiàng)列表。所謂通用選項(xiàng)列表是指這些選項(xiàng)可以用在每個(gè)圖形要求語句中,而專用選項(xiàng)列表是指這些選項(xiàng)只有本語句可使用。在使用proc gchart過程時(shí),常常選用by語句。by語句指定一個(gè)變量或多個(gè)變量后,將按指定的變量進(jìn)行分組處理,然后按每一個(gè)被by語句指定的變量分組生成分開的圖形。我們以vbar圖形要求語句為例來說明各個(gè)圖形要求語句的基本使用情況。v

48、bab語句用來列出用戶想要畫的垂直條形圖的那些變量。每個(gè)圖形變量對(duì)應(yīng)一張垂直條形圖。每張圖表占一頁。垂直條形圖的縱坐標(biāo)軸用來表示頻數(shù)、累計(jì)頻數(shù)、百分?jǐn)?shù)、累計(jì)百分?jǐn)?shù)、總和或平均值。在每個(gè)條形圖的橫坐標(biāo)軸上都標(biāo)有該圖形變量的各個(gè)對(duì)應(yīng)值。如果圖形變量是字符變量或離散的數(shù)值變量,那么在對(duì)應(yīng)的橫坐標(biāo)上將標(biāo)記真實(shí)值;如果圖形變量是連續(xù)變量,那么在對(duì)應(yīng)的橫坐標(biāo)上將標(biāo)記變量值的區(qū)間中點(diǎn)。除此之外,在proc gchart過程中還可以使用axisn、legendn、patternn、titlen、footnoten、note、donud語句。2. proc gchart過程的三要素由proc gchart過程產(chǎn)

49、生圖形要決定以下三個(gè)要素:(1) 選擇圖形的表示方法下面的幾種圖形至少要選一種:l vbar語句繪制垂直條形圖或垂直直方圖。l hbar語句繪制水平條形圖或水平直方圖。l block語句繪制塊形圖。l pie語句繪制圓餅圖。l star語句繪制星形圖。通過對(duì)上面不同語句的選擇,確定圖形的表示方法。在每種圖形中,由圖表變量確定的值畫出對(duì)應(yīng)大小的條圖或線段。(2) 選擇變量的統(tǒng)計(jì)量在選定了圖形以后,可以在語句后面的選項(xiàng)中,通過type選項(xiàng)來選擇對(duì)變量的不同統(tǒng)計(jì)量,type的缺省值是freq,然后將統(tǒng)計(jì)量以條形或線段表示。統(tǒng)計(jì)量的類型有:l type=freq統(tǒng)計(jì)圖形變量的各個(gè)給定值或間隔的頻數(shù)。l

50、 type=cfreq統(tǒng)計(jì)圖形變量各個(gè)給定值或落入給定區(qū)間的累計(jì)頻數(shù)。l type=pct統(tǒng)計(jì)圖形變量各個(gè)給定值或落入給定區(qū)間的觀測(cè)數(shù)的百分比。l type=cpct統(tǒng)計(jì)圖形變量各個(gè)給定值或落入給定區(qū)間觀測(cè)數(shù)的累計(jì)百分比。l type=sum統(tǒng)計(jì)圖形變量所有值的總和。l type=mean統(tǒng)計(jì)圖形變量所有值的平均值。例如:vbar x / type=mean 語句,是指對(duì)輸入數(shù)據(jù)集中的x變量求平均值,然后將平均值用垂直條形圖顯示。(3) 選擇分組特性可以使用圖形選擇語句后面的一些選項(xiàng),來控制在語句中指定的圖形變量的分組,下面的選項(xiàng)可控制如何進(jìn)行分組:l discrete把一個(gè)數(shù)字變量當(dāng)成離散變

51、量,而不是連續(xù)變量。把每一個(gè)數(shù)字值作為圖形的一個(gè)分開的條形或線段。如果省略該選項(xiàng),過程則假定變量都是連續(xù)的。如果沒有規(guī)定選項(xiàng)midpoints=或levels=,過程自動(dòng)選擇圖表的間隔。l group=變量用于對(duì)指定變量進(jìn)行并排分組。l subgroup=變量列表將條形或線段按照指定變量的值分成段。l midpoints=數(shù)值列表規(guī)定連續(xù)型圖形變量按數(shù)字列表中的中心點(diǎn)數(shù)字次序進(jìn)行排列。缺省值為,如果圖形變量是數(shù)字型,過程將自動(dòng)計(jì)算各個(gè)中心點(diǎn)值;如果圖形變量是字符型,或是數(shù)字型但選擇了discrete選項(xiàng)(即離散型數(shù)字變量),過程為每個(gè)圖形變量的不同值產(chǎn)生一個(gè)中心點(diǎn)值。l levels=數(shù)字指定

52、數(shù)字型圖形變量的條形或線段個(gè)數(shù)。l sumvar=變量指定用于計(jì)算總和或均數(shù)的變量。3. 通用和專用選項(xiàng)列表通用選項(xiàng)列表中的選項(xiàng)是用于vbar、hbar、block、pie和star語句的共同選項(xiàng),主要是一些我們剛在上面已介紹的分組特性選項(xiàng)和變量統(tǒng)計(jì)量type選項(xiàng)。專用選項(xiàng)列表中的選項(xiàng)是各個(gè)不同的圖形語句自己的特有選項(xiàng)。主要的選項(xiàng)見下表:選項(xiàng)應(yīng)用語句功能說明axis=最大值vbar、hbar定義坐標(biāo)軸的最小值和最大值gspace=間隔數(shù)定義條形組間的間隔空間數(shù)大小asc/descvbar、hbar、pie每組內(nèi)按升序/降序顯示條形及有關(guān)統(tǒng)計(jì)量g100vbar、hbar、block強(qiáng)迫每個(gè)組的條圖和統(tǒng)計(jì)量加到100%blockmaxblock定義圖中最高塊的統(tǒng)計(jì)量值angle=角度數(shù)字pie、star定義開始逆時(shí)針旋轉(zhuǎn)的角度fill=solid或x每一區(qū)域用純色或交叉線填充cfill=顏色定義圖中所有文本的顏色nolegend除了star不輸出subgroup變量的圖例noheadingblock、pie、star不輸出在圖表頂部的抬頭行二、 條形圖條形圖是利用相同寬度條形的長(zhǎng)短或高低表現(xiàn)各相互對(duì)立的統(tǒng)計(jì)數(shù)據(jù)大小或變動(dòng)的統(tǒng)計(jì)圖。條形圖可分成水平條形圖(又稱帶形圖)和垂直條形圖(又稱柱形圖),分別用hbar和vbar語句實(shí)現(xiàn)。無論水平條形圖還是垂直條形圖,都

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論