




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第三/四章:描述性統(tǒng)計和直觀圖形,1、概率密度及隨機數(shù) 2、統(tǒng)計量 3、R的作圖環(huán)境:圖形分解、繪圖命令 4、統(tǒng)計圖形:散點圖、直方圖、ecdf、QQ 箱線圖、多維圖 5、特殊圖形,3.1 概率密度及隨機數(shù),隨機變量及其分布是概率統(tǒng)計研究中的重要基礎(chǔ),離散型:隨機抽樣【放回和不放回】sample, 二項分布binom,泊松分布pois, 幾何分布geom, 超幾何分布hyper, 連續(xù)型:均勻分布unif, 指數(shù)分布exp, beta分布 正態(tài)分布norm, 卡方分布chisq, t分布t, F分布f, 對數(shù)正態(tài)分布lnorm, 伽瑪分布gamma,柯西分布cauchy,注:加上p,d,r,q
2、計算概率,密度,隨機數(shù),下分位點,3.1 概率密度及隨機數(shù),例1:繪制標(biāo)準(zhǔn)正態(tài)分布密度圖,區(qū)間3,3,x=seq(-3,3,length=200) plot(x,dnorm(x,0,1),type=l) 或者 plot(x,dnorm(x),type=l),3.1 概率密度及隨機數(shù),例2:Xt(10), 求 P(|X|1.5),pt(1.5, 10)-pt(-1.5,10) 返回:0.8354927,例3:Xt(10), 求y滿足P(Xy)=0.9177463,qt(0.9177463, 10) 返回:1.5,例4:XN(60,42), 模擬產(chǎn)生10個隨機數(shù),rx=rnorm(10, 60,
3、4) 某次返回值: 56.61105 56.04935 66.63273 57.15021 53.14499 56.67600 60.84096 64.60479,62.34092 66.46923,3.1 概率密度及隨機數(shù),例5:驗證關(guān)系Tt(n), F=T2F(1,n),從概率上驗證: P(F0 P(Tx)=1-pf(x2,1,n)/2, x0 x=1.5; n=10 pf(x,1,n)-pt(sqrt(x),n)+pt(-sqrt(x),n) pt(-x,n)-(1-pf(x2,1,n)/2,3.1 概率密度及隨機數(shù),例6:Fa(m,n)=1/F1-a(n,m),例7:n-, t(n)-
4、N(0,1),例8:正態(tài)抽樣的樣本,,確定n的起點,3.2 統(tǒng)計量,統(tǒng)計量是數(shù)理統(tǒng)計及應(yīng)用統(tǒng)計中的一項基礎(chǔ)工作 也是富有創(chuàng)意的一項工作,是區(qū)間估計/假設(shè)檢驗/回歸/方差分析等諸項工作的基礎(chǔ)。,對于統(tǒng)計量的理解:,1. 是樣本的函數(shù) G(X1,X2,Xn) 2. 是隨機變量 r.v. 3. 具有值的特性 G(x1,x2,xn),3.2 統(tǒng)計量-基本統(tǒng)計量,1. 樣本均值,樣本方差,樣本中位數(shù),極差,分位數(shù),眾數(shù),中程數(shù)等。,R中的實現(xiàn) mean(x); mean(x, trim=0); apply(mat,1,mean) median(x); (min(x)+max(x)/2 quantile(
5、x,type=2) var(x); sd(x) range(x); max(x)-min(x) sd(x)/mean(x) #注意mean(x)0,3.2 統(tǒng)計量-基本統(tǒng)計量,2. 討論均值與中位數(shù)的應(yīng)用差異,模擬:來自標(biāo)準(zhǔn)正態(tài)總體的樣本,加入擾動(異常值)看看,樣本均值和中位數(shù)的變化。,3.2 統(tǒng)計量-基本統(tǒng)計量,3 討論樣本方差和有偏方差的區(qū)別,模擬:來自標(biāo)準(zhǔn)正態(tài)總體的樣本,樣本方差和有偏方差的取值變化。,3.2 統(tǒng)計量-基本統(tǒng)計量,4 偏度系數(shù)和峰度系數(shù),利用包TSA和leaps兩個包中的兩個函數(shù)計算 skewness(), kurtosis() 問題: 如何通過模擬數(shù)據(jù)理解和直觀展示偏
6、度和峰度,3.3 圖形分解,主標(biāo)題,子標(biāo)題,X軸標(biāo)簽,y軸標(biāo)簽,圖 例,四周邊距,刻度,par(mai=c(0.6,0.6,0.6,0.1) #指定四周空白 plot(1:10,1:10,type=n,main=主標(biāo)題,sub=副標(biāo)題, xlab=,ylab=,xlim=c(0,15),ylim=c(0,10), frame.plot=TRUE,axes=FALSE,mgp=c(0.3,0.3,0), cex.main=1,cex.sub=0.8) #不畫坐標(biāo)軸, 標(biāo)題的字體大小各不同,標(biāo)題離坐標(biāo)軸距離 lines(c(1,11),c(8,8),lty=2); lines(c(1,11),c(
7、6,6),lty=3); lines(c(1,11),c(4,4),lty=1) #畫三種線 legend(12.5,10,c(L1, L2, L3),lty = c(2, 3, 1),cex=0.75) #圖例 axis(1, 0:15, labels=0:15,cex=0.75) #x坐標(biāo)軸 axis(2, 0:10, labels=0:10,cex=0.75) # y坐標(biāo)軸 title(xlab=x軸標(biāo)簽,adj=1,mgp=c(0.3,0.3,0),cex=0.75) title(ylab=y軸標(biāo)簽,adj=1,mgp=c(0.3,0.3,0),cex=0.75) # x軸標(biāo)簽右對齊,
8、 y軸標(biāo)簽右對齊,3.3 圖形分解代碼,通常一個統(tǒng)計圖形的右側(cè)邊空是沒有多大意義的,左側(cè)邊空也沒有必要留太多,同理上下邊空的空白也不能太大。 而R默認繪制的圖形的邊空都比較大,這在截圖編輯的時候總是造成麻煩。所以可以在繪圖開始的時候進行統(tǒng)一邊空控制。 par(mai=c(bottom,left,top,right) 單位:英寸, 一英寸=2.539999918 厘米,3.3 圖形分解邊空統(tǒng)一控制,如果希望將所繪制的圖形覆蓋在一個有效的刻度范圍內(nèi),則必須 使用上例中參數(shù):xlim=c() 和 ylim=c() 例如:來自標(biāo)準(zhǔn)正態(tài)分布的100個隨機數(shù),畫出其頻數(shù)直方圖 x=rnorm(100);
9、hist(x),3.3 圖形分解有效區(qū)域控制,改寫代碼: hist(x,xlim=c(-4,3),ylim=c(0,35),繪制不同數(shù)據(jù)圖形的直觀說明可通過 legend圖例實現(xiàn) 比如上例中,繪制三種不同線型是用圖例區(qū)別: legend(12.5,10,c(Line1, Line2, Lline3), lty = c(2, 3, 1) 注意:12.5,10表示的相對于xlim和ylim的坐標(biāo)位置, 坐標(biāo)起點(原點)是左下角(left,bottom),3.3 圖形分解圖例的作用,如果希望對x,y軸標(biāo)簽的輸出位置進行控制,可以使用幾個參數(shù): mgp(x,y,0) : 距離x刻度的英寸, 距離y刻度
10、的英寸 adj=0,0.5,1 : 0 左對齊 0.5居中 1右對齊,3.3 圖形分解坐標(biāo)軸控制,如果希望對坐標(biāo)軸刻度及刻度值進行控制,可以使用axis axis(which, ticks, labels,las) which=1,2,3,4 分別表示bottom,left,top,right坐標(biāo) ticks表示刻度位置,向量 labels表示刻度值文本,向量 las=0,1,2,3 分別表示labels的讀方向: 平行坐標(biāo)軸,水行垂直 坐標(biāo)軸,垂直,main表示頂端的主標(biāo)題 sub 表示底端的副標(biāo)題(子標(biāo)題) xlab 表示x軸標(biāo)簽 ylab 表示y軸標(biāo)簽,3.3 圖形分解標(biāo)題控制,另外:c
11、ex=0.75 表示字體大小的縮放比例 分類控制cex.main, cex.sub, cex.xlab, cex.ylab lty表示線的類型,lwd表示線的寬度 pch表示線以字符方式繪圖,abline(v=x,lty,col); abline(h=y,lty,col) 在當(dāng)前圖中添加x=x, y=y的直線 abline(a,b,lty,col) 在當(dāng)前圖中添加 y=a+bx points(x,y,pch,col) 在當(dāng)前途中加入點 其中:lty控制線的類型,col控制顏色 pch控制點的形狀,3.3 圖形分解直線或點繪制,plot(x,y) 繪制y關(guān)于x的散點圖 plot(x) 繪制x關(guān)于
12、1:length(x)的散點圖 例如: plot(rnorm(100) abline(h=c(-2,-1,0,1,2) 練習(xí):繪制-3,3之間的標(biāo)準(zhǔn)正態(tài)分布,t(10)分布的密度圖,要求分別用實線紅色和虛線藍色,并給出圖例說明。,3.4 統(tǒng)計圖-散點圖,hist(x, freq=TRUE) 頻數(shù)直方圖 hist(x, freq=FALSE) 密度直方圖 問題:如何根據(jù)給定的分組來畫直方圖?,3.4 統(tǒng)計圖-直方圖,使用參數(shù):breaks 1 指定區(qū)間個數(shù),R會自動調(diào)整 breaks=6 不好用 2 指定區(qū)間的端點,區(qū)間數(shù)等于端點個數(shù)減1 例如:x=rnorm(100) hist(x) hist
13、(x, breaks=6) hist(x,breaks=c(-4,-2,-1,0,1,2,4),3.4 統(tǒng)計圖-直方圖求解眾數(shù),問題:請根據(jù)圖形自行推導(dǎo)公式,3.4 統(tǒng)計圖經(jīng)驗分布圖,格列文科定理給出,隨機抽樣的經(jīng)驗分布函數(shù)與分布函數(shù)之間的關(guān)系表達成:,R中繪制經(jīng)驗分布函數(shù)圖的函數(shù)是 ecdf和plot re=ecdf(x) plot(re,veticals=TRUE,do.p=FALSE) 另外可以計算給定x0的經(jīng)驗分布函數(shù)值 re(x0) 練習(xí):生成標(biāo)準(zhǔn)正態(tài)隨機數(shù)100個,計算x=2處的ecdf.,3.4 統(tǒng)計圖正態(tài)QQ圖,利用如下的關(guān)系式:,顯然:k/n=1時,上式無法給出,故進行修正,
14、R中給出:qqnorm(x); qqline(x)實現(xiàn) 練習(xí):請自行畫出這個QQ圖,3.4 統(tǒng)計圖箱線圖,通過一個箱體來展現(xiàn)數(shù)據(jù)的對稱性和離散性分布特征,可用于鑒別異常值數(shù)據(jù),還可用于多組數(shù)據(jù)的差異性比較,非常直觀有效。,3.4 統(tǒng)計圖箱線圖,在R中,通過函數(shù) boxplot(x, range=1.5,horizontal=FALSE) 實現(xiàn)箱線圖的繪制。 其中:x可以是一個數(shù)值向量,將繪制一組 也可以是一個數(shù)據(jù)框,將繪制多組,例子:數(shù)據(jù)框A含有4個小組的同一門成績變量 g1score,g2score,g3score,g4score 請按照均值為(65,70,75,80),標(biāo)準(zhǔn)差=4隨機產(chǎn)生
15、四組數(shù)據(jù)各30個,然后繪制箱線圖,比較差異.,3.4 統(tǒng)計圖輪廓圖多維,所謂輪廓圖就是將數(shù)據(jù)矩陣中的每一行畫成圖上的一條折線。需將每列數(shù)據(jù)按比例換算到同一個坐標(biāo)系中。 注意:這使得輪廓圖的繪制對各列數(shù)據(jù)的數(shù)值大小有一定的要求,比較適合分析各列數(shù)據(jù)量綱接近,數(shù)值相差在一定的范圍內(nèi),即不太大也不太小的情況。,3.4 統(tǒng)計圖輪廓圖多維,n=nrow(df); m=ncol(df) plot(c(1,m),c(min(df),max(df),type=n, main=輪廓圖,xlab=序,ylab=值,sub=) for(i in 1:n) lines(as.numeric(dfi,) points(
16、c(1,m),c(dfi,1,dfi,m),type=p, pch=15+(i-1)%/%5) #針對成績數(shù)據(jù),網(wǎng)絡(luò)教學(xué)平臺實驗材料中,3.4 統(tǒng)計圖調(diào)和曲線多維,第r條調(diào)和曲線定義為,3.4 統(tǒng)計圖雷達圖多維,雷達圖因其繪制的圖象猶如雷達屏幕上看到的圖象而得名,該圖象又有些像蜘蛛網(wǎng),故又稱為蜘蛛圖或者星圖。 R軟件提供stars()函數(shù)用來繪制雷達圖: stars(df, locations = c(0,0), radius = FALSE, key.loc=c(0,0), main=成績數(shù)據(jù), lty = 2) stars(df,full=FALSE,draw.segments=TRUE,
17、 key.loc=c(5,0.5),mar=c(2,0,0,0) 數(shù)據(jù):網(wǎng)絡(luò)教學(xué)平臺的 實驗材料中,3.4 統(tǒng)計圖切爾諾夫臉 多維,通過15個變量來定義臉型、微笑、嘴巴、眼睛、鼻子、耳朵和頭發(fā)等的長度和寬度將多維數(shù)據(jù)的特征通過直觀的人臉及表情表現(xiàn)出來 在R中,專門給出這樣的軟件包和函數(shù)來進行臉譜的繪制。 先安裝軟件包aplpack, 然后加載該軟件包,通過函數(shù)faces()將數(shù)據(jù)矩陣帶入,編繪制出臉譜來。,3.4 統(tǒng)計圖切爾諾夫臉 多維,install.packages(aplpack); library(aplpack) faces(matrix(sample(1:1000,240),16,
18、15), main=“random faces”,face.type=1) #face.type=0 黑白繪制,3.4 統(tǒng)計圖散布圖 多維,繪制多維數(shù)據(jù)中任意兩個變量之間的散點圖,直觀展示多維數(shù)據(jù)兩兩之間的趨勢關(guān)系。,有三種方法繪制散布圖: 1 plot(data.frame() 2 paris(data.frame() 3 plot(x+y+z,data=data.frame(),3.4 統(tǒng)計圖條件散點圖 多維,函數(shù)coplot(expr, data=df)主要用來顯示多元數(shù)據(jù)之間的條件散點圖,df=data.frame(hei=rnorm(50,130,10), wei=rnorm(50,
19、30,9), grade=as.factor(sample(3:6,50,replace=TRUE), class=as.factor(sample(1:3,50,replace=TRUE) coplot(weihei|grade, data=df) coplot(weihei|grade+class,data=df),3.5 疊加圖形,3.5 疊加圖形,x=runif(100,-1,1) y=runif(100,-1,1) opar=par(no.readonly=TRUE) par(fig=c(0,0.8,0,0.8) plot(x,y,xlab=x runif,ylab=y runif)
20、 par(fig=c(0,0.8,0.55,1),new=TRUE) boxplot(x,horizontal=TRUE,axes=FALSE) par(fig=c(0.65,1,0,0.8),new=TRUE) boxplot(y,axes=FALSE) mtext(疊加圖形,side=3,outer=TRUE,line=-3) par(opar),利用:par函數(shù)中的fig=c(x1,x2,y1,y2)和new參數(shù),4 高密度散點圖,當(dāng)數(shù)據(jù)點重合度很高時,用plot繪制的二維圖重疊嚴(yán)重,無法區(qū)分二者的關(guān)系。,n=10000 x=matrix(rnorm(n,0,0.5),ncol=2) y
21、=matrix(rnorm(n,3,2),ncol=2) plot(x,y,pch=19,xlab=x,ylab=y),4 高密度散點圖,R提供一個smoothScatter()函數(shù),利用核密度估計生成用顏色密度來表示點分布的散點圖。,smoothScatter(x,y),4 高密度散點圖,R提供一個hexbin包,plot(hexbin(x,y,xbins=50),5 三維散點圖,R提供一個scatterplot3d包來實現(xiàn)三維圖形的繪制,甚至可以旋轉(zhuǎn)三維圖形。,例: (x,y) 落在 -1,1*-1,1中的隨機數(shù),令 z=exp(-x2+y2),繪制三維圖,x=runif(100,-1,1
22、) y=runif(100,-1,1) z=exp(-x2-y2) scatterplot3d(x,y,z),5 三維散點圖,scatterplot3d(x,y,z,type=h),5 三維散點圖旋轉(zhuǎn)圖,R提供rgl包中的plot3d函數(shù)用來通過鼠標(biāo)旋轉(zhuǎn)坐標(biāo)軸,這樣更有利于理解數(shù)據(jù)和圖形。,plot3d(x,y,z,type=h),5 三維散點圖旋轉(zhuǎn)圖,還可以通過Rcmdr這個包中的scatter3d()函數(shù)實現(xiàn)更加美觀的旋轉(zhuǎn)三維圖形。,scatter3d(x,y,z,type=h),5 三維散點圖旋轉(zhuǎn)圖,還可以通過rgl包實現(xiàn)旋轉(zhuǎn)三維圖形。 library(rgl) library(Rcmdr) scatter3d(x,y,z),第三
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年撫順市稅務(wù)系統(tǒng)遴選面試真題附解析含答案
- 2024年事業(yè)單位考試四川省涼山彝族自治州《公共基礎(chǔ)知識》深度預(yù)測試題含解析
- 老年人醫(yī)藥消費行為調(diào)查分析
- 老年衛(wèi)生健康宣教課件
- 老師職業(yè)介紹
- 老師關(guān)愛留守兒童課件
- 老師介紹自己的課件
- 房地產(chǎn)開發(fā)不定期按揭貸款借款合同
- 美食廣場承包經(jīng)營與品牌整合管理合同
- 美術(shù)生班會課件
- 2025年天津市中考歷史試卷(含答案)
- 2025秋初升高銜接新高一物理模擬卷-分班模擬卷(五)
- 2024年上海高中學(xué)業(yè)水平合格性考試歷史試卷真題(含答案)
- 2025年人教版七年級數(shù)學(xué)下冊期末測試卷
- 公司年終答謝宴策劃方案
- 小學(xué)一年級數(shù)學(xué)下冊應(yīng)用題100道
- 安徽省馬鞍山市2023-2024學(xué)年高一下學(xué)期期末教學(xué)質(zhì)量監(jiān)測化學(xué)試卷(含解析)
- 反詐騙(企業(yè)員工)講座培訓(xùn)課件
- T/CBMCA 019-2021醫(yī)用潔凈室裝飾材料技術(shù)標(biāo)準(zhǔn)
- 2025-2030中國微晶纖維素市場深度評估與需求潛力分析研究報告
- 2025年社會調(diào)查方法與實踐考試試題及答案
評論
0/150
提交評論