《R語言程序設計》 課件 第5、6章 數(shù)據(jù)探索、數(shù)據(jù)分析_第1頁
《R語言程序設計》 課件 第5、6章 數(shù)據(jù)探索、數(shù)據(jù)分析_第2頁
《R語言程序設計》 課件 第5、6章 數(shù)據(jù)探索、數(shù)據(jù)分析_第3頁
《R語言程序設計》 課件 第5、6章 數(shù)據(jù)探索、數(shù)據(jù)分析_第4頁
《R語言程序設計》 課件 第5、6章 數(shù)據(jù)探索、數(shù)據(jù)分析_第5頁
已閱讀5頁,還剩142頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)探索數(shù)據(jù)描述數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)范數(shù)據(jù)重構目錄數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)范數(shù)據(jù)重構數(shù)據(jù)描述數(shù)據(jù)描述

數(shù)據(jù)的種類平均值和中位數(shù) 數(shù)據(jù)的離散程度 數(shù)據(jù)的分布特征 數(shù)據(jù)的相似性 目錄數(shù)據(jù)是數(shù)據(jù)對象及其屬性的集合。一個數(shù)據(jù)對象是對一個事物或者物理對象的描述。在數(shù)據(jù)集中,通常把數(shù)據(jù)對象稱為樣本,數(shù)據(jù)對象的屬性稱為變量。數(shù)據(jù)種類描述數(shù)據(jù)集中位置的統(tǒng)計量主要有:平均值mean():所有樣本之和再除以樣本數(shù)。中位數(shù)median():一組數(shù)據(jù)按順序依次排列后處在中間位置的數(shù)。平均值和中位數(shù)描述數(shù)據(jù)離散程度的統(tǒng)計量:平均值、中位數(shù)、方差、標準差、絕對偏差、變異系數(shù)、四分位數(shù)、極差…數(shù)據(jù)的離散程度 正態(tài)分布偏度和峰度是描述數(shù)據(jù)分布特征的統(tǒng)計量。數(shù)據(jù)的分布特征偏度(Skewness)峰度(Kurtosis)install.packages(“tidyr”)library(“tidyr”)install.packages(“ggplot2”)library(“ggplot2”)相似性度量是綜合評定兩個事物之間相近程度的度量,主要有:相關系數(shù)(變量之間的接近程度)和相似系數(shù)(樣本之間的接近程度)。相關系數(shù):Pearson相關系數(shù)、Spearman秩相關系數(shù),等。使用cor()函數(shù)計算相關系數(shù)數(shù)據(jù)的相似性:相關系數(shù)相似系數(shù):計算樣本間的“距離”,主要有歐氏距離、曼哈頓距離、最大距離等方法。使用dist()函數(shù)計算相似系數(shù)。數(shù)據(jù)的相似性:相似系數(shù)(共有150個樣本,產生150*150矩陣,后面數(shù)據(jù)顯示略去)數(shù)據(jù)描述數(shù)據(jù)的種類平均值和中位數(shù):mean,median數(shù)據(jù)的離散程度:var,sd,mad,quantile,range數(shù)據(jù)的分布特征:skewness,kurtosis數(shù)據(jù)的相似性:cor,dist小結數(shù)據(jù)清洗

數(shù)據(jù)探索的主要任務:數(shù)據(jù)描述數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)范數(shù)據(jù)重構目錄數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)范數(shù)據(jù)重構數(shù)據(jù)描述第七章數(shù)據(jù)變換數(shù)據(jù)清洗:處理缺失值、重復值、異常值NA(NotAvailable,缺失值):該數(shù)據(jù)遺失或不存在NaN(NotaNumber,非數(shù)值):不可能出現(xiàn)的值(被0除的結果)NULL:表示未知的狀態(tài)數(shù)據(jù)清洗NA的函數(shù)缺失值判別函數(shù)名含義返回值summary()顯示數(shù)據(jù)的總體概況

is.na()檢測缺失值是否存在TRUE或FALSEcomplete.cases()檢測行是否完整

TRUE或FALSEna.omit()移除所有含缺失數(shù)據(jù)的行

aggr()在vim包中,缺失值的可視化描述

第七章數(shù)據(jù)變換缺失值處理:刪除記錄、數(shù)據(jù)插補和不處理方法1:當缺失數(shù)據(jù)較少時,直接刪除相應樣本方法2:對缺失數(shù)據(jù)進行插補方法3:使用對缺失數(shù)據(jù)不敏感的分析方法缺失值處理常用的數(shù)據(jù)插補方法缺失值處理--插值法常用插補方法描述固定值插補固定值均值插補法均值/中位數(shù)/眾數(shù),近鄰平均數(shù)多重插補法回歸模擬預測等模型方法缺失值處理包:mice包(MultivariateImputationbyChainedEquations)處理步驟:

載入數(shù)據(jù)集

產生多個插補數(shù)據(jù)(mice函數(shù))

數(shù)學建模測試(with函數(shù))

模型結果整合(pool函數(shù))

評價模型優(yōu)劣(summary函數(shù))

選擇最優(yōu)插補數(shù)據(jù)(complete函數(shù))缺失值處理—多重插補法例#mice進行插補法處理缺失值inputfile<-read.table(“inputfile.csv”,header=TRUE,sep=‘,’)#缺失數(shù)據(jù)集md.pattern(inputfile)#數(shù)據(jù)缺失情況可視化library(mice)imp=mice(inputfile,m=4)#返回包含多個完成插補的完整數(shù)據(jù)集imp$imp$sales#查看具體插值的數(shù)fit=with(imp,lm(sales~date,data=inputfile))#對每個完整數(shù)據(jù)集應用統(tǒng)計模型pooled=pool(fit)#將這些單獨的分析結果整合為一組結果summary(pooled)#查看結果result4=complete(imp,action=3)#選擇第三個插補數(shù)據(jù)集作為結果md.pattern(result4)#查看插補后缺失值的統(tǒng)計可視化imp對象包含:插補方法(PMM:預測均值匹配)

預測變量矩陣其他插補方法,

貝葉斯線性回歸(norm)基于bootstrap的線性回歸(norm.boot)線性回歸預測值(norm.predict)分類回歸樹(cart)隨機森林(rf),等with:插補模型可以多樣化,lm,glm等都可應用。pool:整合結果。summary:顯示模型系數(shù),查看是否該模型有效。complete:顯示完整插補數(shù)據(jù)集。異常值(離群點):數(shù)據(jù)中的隨機錯誤或偏差在數(shù)據(jù)處理中,異常值會影響回歸或分類的效果。但在某些情況下,如殘次品檢測、電腦入侵檢測等,異常值檢測是研究的主要目的異常值處理數(shù)據(jù)重復檢測函數(shù):unique()、duplicated()unique()函數(shù)

:用于向量,去掉重復值。duplicated()函數(shù)

:用于向量或數(shù)據(jù)框,返回TRUE和FALSE,標注該索引所對應的值是否是重復值。重復值處理第七章數(shù)據(jù)變換數(shù)據(jù)清洗處理缺失值:判別:summary,is.na,complete.cases,aggr處理:na.omit,mice包,等處理異常值:參考缺失值處理方法處理重復值:duplicated,unique小結數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)范數(shù)據(jù)重構數(shù)據(jù)描述數(shù)據(jù)集成

數(shù)據(jù)集成數(shù)據(jù)集的合并 數(shù)據(jù)子集的獲取 數(shù)據(jù)的分組匯總 數(shù)據(jù)的頻度計算 使用SQL語句 目錄數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)范數(shù)據(jù)重構數(shù)據(jù)描述數(shù)據(jù)集成:將多個數(shù)據(jù)源合并存放在一個一致的數(shù)據(jù)存儲中的過程。數(shù)據(jù)集的合并:

merge()函數(shù):將多個數(shù)據(jù)框以關鍵字為依據(jù)進行合并cbind()函數(shù):橫向合并,即是向數(shù)據(jù)框添加列,不需要關鍵字rbind()函數(shù):綜向合并,即是向數(shù)據(jù)框添加行數(shù)據(jù)集的合并>Totalframe1<-merge(dataframe1,dataframe2,by="ID")>Totalframe2<-cbind(dataframe1,dataframe2)>Totalframe3<-rbind(dataframe1,dataframe2)通過獲取數(shù)據(jù)子集,可使數(shù)據(jù)更清晰、更易于進行后續(xù)處理。數(shù)據(jù)子集獲取數(shù)據(jù)結構的索引方法(參考第二章)[row,col]的方式選擇行和列通過“==”、“!”、“TRUE”“FALSE”等組成的邏輯表達式subset()函數(shù):獲取數(shù)據(jù)子集的通用函數(shù)transform()和within()函數(shù):主要對列變量進行操作數(shù)據(jù)子集的獲取subset()函數(shù):獲取數(shù)據(jù)子集的通用函數(shù)。數(shù)據(jù)子集的獲取>subset(mtcars,cyl==4&gear==3)mpgcyldisphpdratwtqsecvsamgearcarbToyotaCorona21.54120.1973.72.46520.011031>subset(mtcars,cyl==4&gear==3,select=c(1:8))mpgcyldisphpdratwtqsecvsToyotaCorona21.54120.1973.72.46520.011>head(airquality,2)OzoneSolar.RWindTempMonthDay1411907.467512361188.07252>newaq1<-transform(airquality,logozone=log(Ozone))>head(newaq1,2)OzoneSolar.RWindTempMonthDaylogozone1411907.467513.7135722361188.072523.583519>newaq2<-transform(airquality,logozone=log(Ozone),Ozone=NULL,WindWind=Wind*Wind,Wind=NULL)>head(newaq2,2)Solar.RTempMonthDaylogozoneWindWind119067513.71357254.76211872523.58351964.00transform()

:對列變量進行增加、刪除、修改等操作數(shù)據(jù)的分組匯總是數(shù)據(jù)探索的重要應用。apply函數(shù)族:通過向量化操作快速對數(shù)據(jù)進行計算。aggregate()函數(shù):專門用于分組匯總的功能強大的函數(shù)。先按變量對行分組,再進行計算,最后組合展示。可以單個變量分組,也可以是多個變量的組合,通過by參數(shù)設置。數(shù)據(jù)的分組匯總aggregate()函數(shù):專門用于分組匯總的功能強大的函數(shù)。數(shù)據(jù)的分組匯總>#按照cyl和gear兩個變量進行分組計算均值,結果顯示所有行的第1-6列>aggregate(mtcars,by=list(cyl,gear),FUN=mean)[,1:6]Group.1Group.2mpgcyldisphp14321.5004120.100097.000026319.7506241.5000107.500038315.0508357.6167194.166744426.9254102.625076.000056419.7506163.8000116.500064528.2004107.7000102.000076519.7006145.0000175.000088515.4008326.0000299.5000table()函數(shù):統(tǒng)計數(shù)據(jù)出現(xiàn)的頻率的重要函數(shù)。頻度表數(shù)據(jù)的頻度計算>nrow(mtcars)#查看mtcars的行數(shù)[1]32>table(cyl)#統(tǒng)計以cyl分組的頻數(shù)cyl46811714>table(gear,cyl)#統(tǒng)計以gear和cyl分組的頻數(shù)cylgear4683121248405212SQL功能靈活強大,可以實現(xiàn)數(shù)據(jù)的增刪改查、運算控制等多種操作。sqldf包是R的擴展包,按照SQL的方式來查詢數(shù)據(jù)框的內容。使用SQL語句>library(sqldf)>#計算每個人的總成績并排名(要求顯示字段:姓名,總成績)>sqldf("selectname,sum(score)asallscorefromstuscoregroupbynameorderbyallscore")

nameallscore1張三2392李四240

數(shù)據(jù)集成數(shù)據(jù)集的合并:merge,cbind,rbind

數(shù)據(jù)子集的獲?。簊ubset,transform,within

數(shù)據(jù)的分組匯總:aggregate

數(shù)據(jù)的頻度計算:table使用SQL語句:sqldf包

小結數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)范數(shù)據(jù)重構數(shù)據(jù)描述數(shù)據(jù)規(guī)范

數(shù)據(jù)規(guī)范:將數(shù)據(jù)轉換成適當?shù)男问侥康模合烤V和取值范圍差異的影響、提高結果的可靠性量綱:數(shù)據(jù)的單位無量綱化:去除數(shù)據(jù)的單位限制,將其轉化為無量綱的純數(shù)值中心化:將數(shù)據(jù)減去均值標準化:將數(shù)據(jù)按照比例縮放,使之落入一個特定的區(qū)間歸一化:數(shù)據(jù)標準化的方式之一,把數(shù)據(jù)變?yōu)閇0,1]或[-1,1]之間數(shù)據(jù)規(guī)范數(shù)據(jù)規(guī)范化方法零-均值規(guī)范化:也稱標準差標準化,經(jīng)過處理的數(shù)據(jù)的平均數(shù)為0最小-最大規(guī)范化:也稱離差標準化,是對原始數(shù)據(jù)的線性變換,使結果值映射到[0,1]之間小數(shù)定標規(guī)范化:通過移動屬性值的小數(shù)位數(shù),將屬性值映射到[-1,1]之間標準差均值options()函數(shù):小數(shù)定標規(guī)范scale()函數(shù):實現(xiàn)零-均值規(guī)范化示例scale()函數(shù)參數(shù)center:中心化scale:標準化options()函數(shù)t()函數(shù):轉置函數(shù)示例原始數(shù)據(jù):(1,2,3,4,5,6,7)均值:4中心化:(-3,-2,-1,0,1,2,3)

標準差:sqrt((9+4+1+0+1+4+9)/6)=2.16標準化:(-1.39,-0.926,-0.463,0,0.463,0.926,1.39)數(shù)據(jù)規(guī)范中心化標準化歸一化函數(shù):options,scale小結數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)范數(shù)據(jù)重構數(shù)據(jù)描述數(shù)據(jù)重構

數(shù)據(jù)重構:通過將行移動到列、或將列移動到行,便于數(shù)據(jù)的計算。使用reshape2包進行數(shù)據(jù)重構。melt():分解,使每個數(shù)據(jù)成為唯一的樣本-變量組合。dcast():重構,對melt后的數(shù)據(jù)進行重新構造。數(shù)據(jù)重構原始數(shù)據(jù)melt拆分數(shù)據(jù)dcast重構數(shù)據(jù)dcast重構數(shù)據(jù)dcast重構數(shù)據(jù)dcast重構數(shù)據(jù)dcast重構數(shù)據(jù)dcast重構數(shù)據(jù)>library(reshape2)>datax<-array(1:8,dim=c(2,2,2))>melt(datax)>datay<-array(letters[1:8],dim=c(2,2,2))>melt(datay)meltmelt():分解使每個數(shù)據(jù)成為唯一的樣本-變量組合。使用mtcars數(shù)據(jù)集的melt應用例使用airquality數(shù)據(jù)集的melt應用例使用airquality數(shù)據(jù)集的melt應用例

dcast()重構,對melt后的數(shù)據(jù)進行重新構造。melt數(shù)據(jù)dcast重構數(shù)據(jù)dcast重構數(shù)據(jù)(后略)(后略)數(shù)據(jù)重構:通過將行移動到列、或將列移動到行,便于數(shù)據(jù)的計算使用reshape2包melt:分解dcast:重構小結數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)規(guī)范數(shù)據(jù)重構數(shù)據(jù)描述綜合實驗理解數(shù)據(jù)描述、數(shù)據(jù)清洗、數(shù)據(jù)集成、

數(shù)據(jù)規(guī)范、數(shù)據(jù)重構的概念。掌握本章函數(shù)的用法。熟悉本章示例代碼,掌握實際應用方法。能夠通過help方法學習函數(shù)中參數(shù)的用法。實驗目標第5章講義中的案例第5章綜合實驗第5章使用的函數(shù)第5章思考與練習實驗內容及資料目標:學習數(shù)據(jù)描述方法;熟練掌握R語言常用函數(shù)內容:實驗1:mtcars數(shù)據(jù)集的初步探索實驗1-1:描述mtcars數(shù)據(jù)集主要列變量的數(shù)據(jù)離散情況;實驗1-2:描述mtcars數(shù)據(jù)集主要列變量的數(shù)據(jù)分布情況;實驗1-3:探索mtcars數(shù)據(jù)集主要列變量相關性和樣本間的相似性。Mtcars數(shù)據(jù)集主要變量:mpg(耗油量)wt(重量)hp(總功率)實驗1:mtcars數(shù)據(jù)集的初步探索apply(mtcars,2,mean)#平均值apply(mtcars,2,median)#中位數(shù)apply(mtcars,2,quantile)#四分位數(shù)apply(mtcars,2,range)#極差summary(mtcars)apply(mtcars,2,var)#方差apply(mtcars,2,sd)#標準差(均方差)apply(mtcars,2,mad)#中位數(shù)絕對偏差#變異系數(shù),公式計算apply(mtcars,2,sd)/apply(mtcars,2,mean)apply(mtcars[,c(1,6,4)],2,mean)#多個變量的平均值mean(mtcars$mpg)#一個變量的平均值table(mtcars$mpg)#基于頻數(shù)表看眾數(shù)數(shù)據(jù)離散情況實驗1:mtcars數(shù)據(jù)集的初步探索library(moments)#偏度:表示分布的不對稱程度或偏斜程度apply(mtcars,2,skewness)#峰度:表示峰部的尖度,以正態(tài)分布的峰度3位基準apply(mtcars,2,kurtosis)數(shù)據(jù)分布情況library(tidyr)gather()library(ggplot2)ggplot()實驗1:mtcars數(shù)據(jù)集的初步探索#使用cor()函數(shù)計算相關系數(shù)#相關系數(shù)小于0,說明為變量間負相關,越接近于-1負相關性越強;大于0說明為變量間正相關,越接近于1,正相關性越強cor(mtcars)變量的相關#使用dist()函數(shù)計算距離,表示樣本的相似度#當距離為0時表示其本身,距離越小,表示樣本越相似dist(mtcars,method=“euclidean”,upper=T,diag=T)#歐式距離樣本的相似目標:理解數(shù)據(jù)清洗中處理缺失值的多種方法;熟練掌握R語言函數(shù)內容:實驗2:處理數(shù)據(jù)集中的缺失值 實驗2-1:使用myair.csv數(shù)據(jù)集,對缺失值進行判別分析,繪制數(shù)據(jù)缺失值分布圖;實驗2-2:使用多種缺失值插補方法(刪除、平均值、眾數(shù)、等),對缺失值進行簡單處理;實驗2-3:嘗試考慮數(shù)據(jù)之間關系,使用較為復雜的方法(K近鄰、隨機森林、多重插補、等)對缺失值進行插補。實驗2:處理數(shù)據(jù)集中的缺失值 read.table("XXX.csv",header=F,sep=",")#讀取csv文件library(VIM)#加載VIM包aggr(myair)#查看數(shù)據(jù)缺失圖summary(myair)#查看數(shù)據(jù)特征na.omit(myair)#刪掉缺失值所在的行dim(myair)

#查看數(shù)據(jù)維度初步分析缺失值實驗2:處理數(shù)據(jù)集中的缺失值 myair<-read.table("myair.csv",header=T,sep=",")medvalue<-median(myair$Ozone,na.rm=T)for(iin1:nrow(myair)){myair[i,is.na(myair[i,c("Ozone")])]<-medvalue}缺失值的插補myair$Ozone[which(is.na(myair$Ozone))]

<-medvalue兩種方法中位數(shù)插補實驗2:處理數(shù)據(jù)集中的缺失值 myair1<-missForest(myair,ntree=50)myair2<-knnImputation(myair,k=5,scale=T,meth=“weighAvg”)myair3<-mice(myair,m=5,method=c(“norm.pred“,“pmm“,“rf“,“norm“))#使用隨機森林進行缺失值插補missForest包#使用K近鄰進行缺失值插補DMwR2包#使用多重插補進行缺失值插補mice包缺失值的插補-復雜的方法(拓展)目標:了解數(shù)據(jù)中心化、標準化、歸一化、規(guī)范化的概念和方法;熟練掌握R語言數(shù)據(jù)處理相關函數(shù)內容:實驗3:mtcars數(shù)據(jù)集的標準化 實驗3-1:使用mtcars數(shù)據(jù)集,完成一些變量的數(shù)據(jù)中心化、標準化操作;實驗3-2:使用mtcars數(shù)據(jù)集,完成一些變量的數(shù)據(jù)歸一化[0,1]操作;實驗3-3:使用plot或ggplot,繪制某變量中心化、標準化、歸一化后的圖形。實驗3:mtcars數(shù)據(jù)集的標準化 中心化:將數(shù)據(jù)減去均值標準化:中心化后的數(shù)據(jù)除以數(shù)據(jù)的標準差scale(mtcars$mpg,center=T,scale=T)歸一化:把數(shù)據(jù)區(qū)間變?yōu)閇0,1]或[-1,1]之間mtcars$mpg-min(mtcars$mpg))/(max(mtcars$mpg)-min(mtcars$mpg)plot()繪制散點圖,x坐標為不同車型,y為去量綱后的數(shù)據(jù)目標:了解數(shù)據(jù)重構的概念和方法;掌握reshape2包中函數(shù)用法內容:實驗4:數(shù)據(jù)重構實驗4-1:熟悉airquality數(shù)據(jù)集,對數(shù)據(jù)集進行melt操作并觀察數(shù)據(jù)變化;實驗4-2:設計并畫出數(shù)據(jù)重構總體設計圖,使用dcast()函數(shù)進行多種數(shù)據(jù)重構,顯示前10行數(shù)據(jù)重構結果。實驗4:數(shù)據(jù)重構melt(airquality)melt(airquality,id.vars=c("month","day"))#將月日作為id變量melt(airquality,measure.vars=c("Solar.R","Wind","Temp"),="V.type",="value")dcast(aq,Ozone+Month+Day~V.type)#對每月數(shù)據(jù)進行分組計算平均值dcast(aq,Month~V.type,fun.aggregate=mean,na.rm=TRUE)思考與討論數(shù)據(jù)分析隨機數(shù)模擬假設檢驗方差分析線性回歸廣義線性回歸綜合實驗目錄隨機數(shù)模擬隨機數(shù)模擬生成隨機數(shù) 特定分布的隨機數(shù)隨機抽樣目錄隨機數(shù)是在一定范圍內隨機產生的數(shù),并且得到這個范圍內的每一個數(shù)的機會一樣。它可以被用來安排和模擬一些實驗,也可以代替做一些大量重復的實驗。runif()函數(shù):生成均勻分布默認為0和1之間的值round()函數(shù):按照四舍五入取整ceiling()和floor()函數(shù):向上或者向下取整生成隨機數(shù)>runif(5)[1]0.080098530.752247700.340951990.010634130.98427423>round(runif(5))[1]10010>round(runif(5,0,2))[1]02110>ceiling(runif(5,-2,1))[1]111-11>floor(runif(5,-1,2))[1]1-1-11-1函數(shù)組合使用,可以靈活生成隨機數(shù)。經(jīng)常使用的分布有正態(tài)分布、F分布、均勻分布、泊松分布等。統(tǒng)計概率函數(shù)特定分布的隨機數(shù)分布概率密度函數(shù)累計分布函數(shù)分位數(shù)函數(shù)隨機數(shù)函數(shù)正態(tài)分布dnorm()pnorm()qnorm()rnorm()泊松分布dpois()ppois()qpois()rpois()二項分布dbinom()pbinom()qbinom()rbinom()d:概率密度函數(shù)(density)p:分布函數(shù)(distributionfunction)q:分位數(shù)函數(shù)(quantilefunction)

r:隨機數(shù)生成函數(shù)特定分布的隨機數(shù)>#實驗:隨機生成正態(tài)分布數(shù)據(jù)并求其密度和累積分布>data<-rnorm(20)#生成20個正態(tài)分布的隨機數(shù)>data#輸出data[1]0.911444095-1.5166547410.3819337331.3226692330.874481314[6]-0.1464821730.847957627-0.9730623510.0702208140.029339198[11]-0.0666645031.525276527-0.774989642-0.4908499080.528699849[16]-0.0777487300.588223015-0.8384714600.0088585761.628828244>dnorm(data)#計算data中各個值對應的標準正態(tài)分布的密度[1]0.26334150.12630450.37088060.16634930.27217850.39468510.2784673[8]0.24848730.39795990.39877060.39805680.12465910.29545370.3536649[15]0.34690640.39773830.33556430.28070370.39892660.1058768>pnorm(data)#計算data中各個值對應的標準正態(tài)分布的累積分布[1]0.818969290.064676940.648744740.907027300.809071900.44177038[7]0.801769220.165261160.527991050.511702970.473424400.93640493[13]0.219172890.311766300.701493160.469013970.721808690.20088299[19]0.503534010.94832531d:概率密度函數(shù)(density)p:分布函數(shù)(distributionfunction)q:分位數(shù)函數(shù)(quantilefunction)

r:隨機數(shù)生成函數(shù)從數(shù)據(jù)集中隨機抽樣:重復隨機抽樣和不重復隨機抽樣。sample()函數(shù):隨機抽樣set.seed()函數(shù):設定隨機數(shù)種子,用于隨機結果的可重復性隨機抽樣>#從1-5中隨機抽取5次,不重復抽樣>sample(1:5,5)[1]41235>#從1-5中隨機抽取5次,可重復抽樣>sample(1:5,5,replace=TRUE)[1]41541>set.seed(100)#設定種子,其中的數(shù)字為任意數(shù)>sample(1:52,5)#從52張撲克牌中隨機抽取5張[1]1038482514>sample(1:52,5)[1]44232264>set.seed(100)>sample(1:52,5)[1]1038482514隨機數(shù)模擬生成隨機數(shù)runif,round,ceiling,floor

特定分布的隨機數(shù)rnorm,dnorm,pnorm,qnorm隨機抽樣sample,set.seed小結假設檢驗假設檢驗

假設檢驗的方法均值檢驗相關性檢驗目錄常用統(tǒng)計方法描述統(tǒng)計:應用在所有數(shù)據(jù)集合,包括樣本和總體。推斷統(tǒng)計:從樣本出發(fā)推斷總體性質。總體分布為已知,根據(jù)樣本數(shù)據(jù)對總體的參數(shù)(均值、方差等)進行推斷

假設檢驗的方法??傮w分布未知,根據(jù)樣本數(shù)據(jù)對總體分布或特征進行推斷

非參數(shù)檢驗。顯著性檢驗分布檢驗、均值檢驗、方差齊性檢驗、相關性檢驗等。Z檢驗、t檢驗、卡方檢驗、F檢驗等。假設檢驗的方法假設檢驗的主要步驟:提出假設:根據(jù)研究目的提出相應的原假設和備擇假設,選擇檢驗方式。選擇檢驗統(tǒng)計量:根據(jù)原假設提供的前提條件,選擇合適的檢驗統(tǒng)計量。計算概率值:根據(jù)統(tǒng)計量分布,計算樣本觀測值對應的統(tǒng)計量觀測值發(fā)生的概率值,又稱為p值或觀測到的顯著性水平。比較判斷:若p值小于顯著性水平即小概率事件(p<0.01或p<0.05),則拒絕原假設,即總體均值與檢驗值之間有顯著性差異;反之,則不能拒絕原假設,即總體均值與檢驗值之間無顯著性差異。假設檢驗的方法均值檢驗,是用樣本的均值來估計總體的均值。t.test()函數(shù)均值檢驗>t1<-rnorm(100,mean=0,sd=4)#生成正態(tài)分布隨機數(shù),均值為0,標準差為4>t.test(t1,mu=0)#t檢驗

OneSamplet-test

data:t1t=-0.019173,df=99,p-value=0.9847alternativehypothesis:truemeanisnotequalto095percentconfidenceinterval:-0.67847380.6654876sampleestimates:meanofx-0.006493091均值檢驗,是用樣本的均值來估計總體的均值。均值檢驗>t2<-rnorm(100,mean=1,sd=4)>t.test(t2,mu=0) OneSamplet-testdata:t2t=2.309,df=99,p-value=0.02302alternativehypothesis:truemeanisnotequalto095percentconfidenceinterval:0.13300951.7579973sampleestimates:meanofx0.9455034>t1<-rnorm(100,mean=0,sd=4)>t.test(t1,mu=0)#t檢驗

OneSamplet-test

data:t1t=-0.019173,df=99,p-value=0.9847alternativehypothesis:truemeanisnotequalto095percentconfidenceinterval:-0.67847380.6654876sampleestimates:meanofx-0.006493091相關性檢驗(correlationtest)是對變量之間是否相關以及相關的程度所進行的統(tǒng)計檢驗。相關系數(shù):cor()函數(shù),相關性檢驗:cor.test()函數(shù)。相關性檢驗>cor(iris[,c(1:4)])

Sepal.Length

Sepal.Width

Petal.Length

Petal.WidthSepal.Length1.0000000-0.11756980.87175380.8179411Sepal.Width-0.11756981.0000000-0.4284401-0.3661259Petal.Length0.8717538-0.42844011.00000000.9628654

Petal.Width0.8179411-0.36612590.96286541.0000000相關性檢驗:cor.test()函數(shù)相關性檢驗>cor.test(iris$Sepal.Length,iris$Petal.Length)

Pearson'sproduct-momentcorrelationdata:iris$Sepal.Lengthandiris$Petal.Lengtht=21.646,df=148,p-value<2.2e-16alternativehypothesis:truecorrelationisnotequalto095percentconfidenceinterval:0.82703630.9055080sampleestimates:cor0.8717538>#對照下面代碼分析比較結果>cor.test(iris$Sepal.Length,iris$Sepal.Length)假設檢驗的方法均值檢驗:

t.test相關性檢驗:cor,cor.test小結方差分析方差分析 什么是方差分析單因素方差案例1單因素方差案例2目錄方差分析(AnalysisofVariance,簡稱ANOVA)特點:研究一個或多個分類型自變量與一個數(shù)值型因變量之間的關系。目的:分析各個因素的影響以及因素間的交互影響。區(qū)別:均值檢驗(t檢驗)用于檢驗兩個正態(tài)分布的總體均值是否相等,方差分析則檢驗多個總體(多個組)的均值是否存在差異。分類:單因素方差分析、雙因素方差分析、協(xié)方差分析等。單因素方差分析:只考慮一個因素對結果的影響。函數(shù):oneway.test()、aov()等方差分析方法單因素方差分析例1:顯著相關>aggregate(iris[,1:4],by=list(iris$Species),FUN=mean)Group.1Sepal.LengthSepal.WidthPetal.LengthPetal.Width1setosa5.0063.4281.4620.2462versicolor5.9362.7704.2601.3263virginica6.5882.9745.5522.026>oneway.test(Sepal.Length~Species,iris)

One-wayanalysisofmeans(notassumingequalvariances)

data:Sepal.LengthandSpeciesF=138.91,numdf=2.000,denomdf=92.211,p-value<2.2e-16>summary(aov(Sepal.Length~Species,iris))DfSumSqMeanSqFvaluePr(>F)Species263.2131.606119.3<2e-16***Residuals14738.960.265---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1分組計算函數(shù)aggregate()

3個類別對應的變量均值有差異單因素方差分析函數(shù)oneway.test()

設置“Sepal.Length~Species”,查看不同種類對Sepal.Length的影響。p值小于0.05,因此拒絕原假設,得出結論:不同種類的特征變量有顯著差異,和aggregate()函數(shù)結果相對應。方差分析函數(shù)aov()

輸出結果需要加上summary()函數(shù)。最后一行顯示顯著性,其中‘***’表示最顯著,‘’表示不顯著。p值遠小于0.05,說明拒絕原假設,即三種類型花的Sepal.Length變量有顯著差異。單因素方差分析例1:顯著相關單因素方差分析例2:不顯著相關>str(sleep)'data.frame': 20obs.of3variables:$extra:num0.7-1.6-0.2-1.2-0.13.43.70.802...$group:Factorw/2levels"1","2":1111111111...$ID:Factorw/10levels"1","2","3","4",..:12345678910...>oneway.test(extra~group,data=sleep) One-wayanalysisofmeans(notassumingequalvariances)

data:extraandgroupF=3.4626,numdf=1.000,denomdf=17.776,p-value=0.07939

>summary(aov(extra~group,sleep))DfSumSqMeanSqFvaluePr(>F)group112.4812.4823.4630.0792.Residuals1864.893.605---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1描述函數(shù)str()描述sleep中各變量取值,value為數(shù)值型變量,group和ID為因子型變量。單因素方差分析函數(shù)oneway.test()設置“extra~group”,查看不同分組對extra值的影響。p-value=0.07939,表明接受原假設,得出結論兩組沒有顯著差異。方差分析函數(shù)aov()p值的顯著性標記為‘.’,不顯著,表明兩種催眠藥對時間的結果不顯著。單因素方差分析例2:不顯著相關方差分析 什么是方差分析單因素方差案例相關函數(shù):oneway.test,

aov,aggregate,str,summary小結線性回歸(LinearRegression)線性回歸變量間關系一元線性回歸多項式回歸多元線性回歸目錄含義:用觀察使得認知接近真值的過程,回歸本源?;貧w是很多算法的基礎。回歸(Regression)真值測量值回歸回歸分析可以衡量不同尺度的變量之間的相互影響,有利于排除并估計出一組最佳的變量,用來構建預測模型。如:如價格變動與促銷活動數(shù)量之間聯(lián)系。司機的魯莽駕駛與道路交通事故數(shù)量之間的關系。飯店銷售額和顧客消費特點的關系?;貧w方程表明自變量和因變量之間的顯著關系。表明多個自變量對一個因變量的影響強度?;貧w的應用相關概念方差分析:分類型自變量與數(shù)值型因變量之間的關系;回歸分析:數(shù)值型自變量和數(shù)值型因變量之間關系。線性(linear):量與量之間按比例、成直線的關系,在數(shù)學上可以理解為一階導數(shù)為常數(shù)的函數(shù);非線性(non-linear):指不按比例、不成直線的關系,一階導數(shù)不為常數(shù)。一元線性回歸方程:一個因變量和一個自變量回歸的應用

目標y:因變量、響應變量

預測器

x:自變量、預報變量、解釋變量一元線性回歸:一個因變量和一個自變量多項式回歸:只有一個自變量,但同時包含自變量的冪多元線性回歸:一個因變量和多個自變量回歸方程

最小二乘法(ordinaryleastsquares,OLS)估算最佳擬合線相關分析是對兩個變量之間線性關系的描述與度量。變量之間是否存在關系?如果存在關系,它們之間是什么樣的關系?變量之間的關系強度如何?樣本所反映的變量之間的關系能否代表總體變量之間的關系?兩個假定:兩個變量之間是線性關系,兩個變量是隨機變量。方法:散點圖(第4章),相關系數(shù)(第5章)測量關系強度,顯著性檢驗(第6章)判斷樣本所反映總體的關系。變量間關系lm()函數(shù)lm()函數(shù)是擬合線性模型最基本的函數(shù)。(analysisofvariance:方差分析)lm()函數(shù)formula中的操作符~對擬合線性模型有用的其他函數(shù)一元線性回歸attach(women)#建立簡單線性回歸模型fit<-lm(weight~height)plot(height,weight)abline(fit,col="red")detach(women)一元線性回歸>str(women)'data.frame': 15obs.of2variables:$height:num58596061626364656667...$weight:num115117120123126129132135139142...>cor(women)heightweightheight1.00000000.9954948weight0.99549481.0000000>fit<-lm(weight~height,data=women)>summary(fit)Call:lm(formula=weight~height,data=women)Residuals:Min1QMedian3QMax-1.7333-1.1333-0.38330.74173.1167

Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)-87.516675.93694-14.741.71e-09***height3.450000.0911437.851.09e-14***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:1.525on13degreesoffreedomMultipleR-squared:0.991, AdjustedR-squared:0.9903F-statistic:1433on1and13DF,p-value:1.091e-14Weight=-87.52+3.45*Height多項式回歸fit2<-lm(weight~height+I(height^2),data=women)plot(women$height,women$weight)lines(women$height,fitted(fit2))

>fit2<-lm(weight~height+I(height^2),data=women)>summary(fit2)Call:lm(formula=weight~height+I(height^2),data=women)

Residuals:Min1QMedian3QMax-0.50941-0.29611-0.009410.286150.59706

Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)261.8781825.1967710.3932.36e-07***height-7.348320.77769-9.4496.58e-07***I(height^2)0.083060.0059813.8919.32e-09***---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:0.3841on12degreesoffreedomMultipleR-squared:0.9995, AdjustedR-squared:0.9994F-statistic:1.139e+04on2and12DF,p-value:<2.2e-16Weight=261.88-7.35*Height+0.08*Height^2一元回歸方程在二維空間中是一條直線,在直角坐標中畫出來含有兩個自變量的回歸方程,在三維空間中以一個平面表示。回歸方程中的各項參數(shù)仍然使用最小二乘法求得,回歸方程的擬合優(yōu)度、顯著性檢驗等概念和一元線性回歸類似。多元線性回歸

以state.x77數(shù)據(jù)集為例,它是一個美國50州對應8個統(tǒng)計項目的矩陣,利用它來進行犯罪率(Murder)與其它因素(Population人口,Illiteracy文盲率,Income收入,F(xiàn)rost結霜天數(shù))多元回歸分析。多元線性回歸>str(state.x77)num[1:50,1:8]36153652212211021198...-attr(*,"dimnames")=Listof2..$:chr[1:50]"Alabama""Alaska""Arizona""Arkansas".....$:chr[1:8]"Population""Income""Illiteracy""LifeExp"...>class(state.x77)[1]"matrix">states<-as.data.frame(state.x77[,c("Murder","Population","Illiteracy","Income","Frost")])>str(states)'data.frame': 50obs.of5variables:$Murder:num15.111.37.810.110.36.83.16.210.713.9...$Population:num36153652212211021198...$Illiteracy:num2.11.51.81.91.10.71.10.91.32...$Income:num36246315453033785114...$Frost:num201521565201661391031160..state.x77數(shù)據(jù)集>cor(states)MurderPopulationIlliteracyIncomeFrostMurder1.00000000.34364280.7029752-0.2300776-0.5388834Population0.34364281.00000000.10762240.2082276-0.3321525Illiteracy0.70297520.10762241.0000000-0.4370752-0.6719470Income-0.23007760.2082276-0.43707521.00000000.2262822Frost-0.5388834-0.3321525-0.67194700.22628221.0000000>fit3<-lm(Murder~Population+Illiteracy+Income+Frost,data=states)>summary(fit3)

Call:lm(formula=Murder~Population+Illiteracy+Income+Frost,data=states)

Residuals:Min1QMedian3QMax-4.7960-1.6495-0.08111.48157.6210

Coefficients:EstimateStd.ErrortvaluePr(>|t|)(Intercept)1.235e+003.866e+000.3190.7510Population2.237e-049.052e-052.4710.0173*Illiteracy4.143e+008.744e-014.7382.19e-05***Income6.442e-056.837e-040.0940.9253Frost5.813e-041.005e-020.0580.9541---Signif.codes:0‘***’0.001‘**’0.01‘*’0.05‘.’0.1‘’1

Residualstandarderror:2.535on45degreesoffreedomMultipleR-squared:0.567, AdjustedR-squared:0.5285F-statistic:14.73on4and45DF,p-value:9.133e-08小結線性回歸變量間關系一元線性回歸多項式回歸多元線性回歸函數(shù)lm()的靈活運用廣義線性模型(GeneralizeLinearModel)廣義線性模型廣義線性模型與glm()函數(shù)Logistic回歸泊松回歸目錄回顧:線性回歸一元線性回歸、多項式回歸、多元線性回歸因變量:定量(quantitative)的連續(xù)型數(shù)值數(shù)據(jù)lm()函數(shù),最小二乘法方法廣義線性模型

目標y:因變量、響應變量

預測器

x:自變量、預報變量、解釋變量廣義線性模型正態(tài)線性模型的拓展,適用于連續(xù)和離散等多種類型數(shù)據(jù)。離散型分類數(shù)據(jù),離散型計數(shù)數(shù)據(jù)。glm()函數(shù),通過極大似然方法估計出系數(shù)。因變量的不同,采用不同方法。如果是連續(xù)值:多元線性回歸如果是二項分布:logistic回歸如果是泊松分布:泊松回歸廣義線性模型glm()函數(shù)glm(formula,family=family(link=function),data,…)廣義線性模型分布名稱參數(shù)名稱默認的連接函數(shù)二項分布binomiallink=”logit”高斯分布gaussianlink=”identity”Gamma分布gammalink=”inverse”逆高斯分布inverse.gaussianlink=”1/mu^2”泊松分布poissonlink=”log”對擬合線性模型有用的其他函數(shù)Logistic回歸主要研究二元分類因變量與諸多自變量間的相互關系。二元變量的取值為1和0,1表示某件事情的發(fā)生,0表示不發(fā)生。假設y是1的概率是P1,是0的概率是P0,P1+P0=1,Logistic回歸的y是P1/P0的自然對數(shù),即:Logistic回歸y=ln(P1/P0)=ln(P1/(1-P1))=ax+b回歸系數(shù)是當其他預測變量不變時,一單位預測變量的變化可以引起的因變量對數(shù)優(yōu)勢比(log)的變化。優(yōu)勢比是某種推測為真的概率與某種推測為假的概率的比值。AER包中的婚外情數(shù)據(jù)集(Affairs)為例。Logistic回歸>library(AER)>str(Affairs)'data.frame': 601obs.of9variables:$affairs:num0000000000...$gender:Factorw/2levels"female","male":2112211212...$age:num37273257223222573222...$yearsmarried:num10415150.751.50.7515151.5...$children:Factorw/2levels"no","yes":1122111221...$religiousness:int3415222244...$education:num18141218171712141614...$occupation:int7616651414...$rating:int4445353425...>Affairs$ynaffair[Affairs$affairs>0]<-1#設置新變量ynaffair值>Affairs$ynaffair[Affairs$affairs==0]<-0>Affairs$ynaffair<-factor(Affairs$ynaffair,levels=c(0,1))>#設置為因子型變量>table(Affairs$ynaffair)#得到頻數(shù)表,未有婚外情的樣本為451

01451150>#所有變量進行分析>fit.full<-glm(ynaffair~gender+age+yearsmarried+children+religiousness+education+occupation+rating,data=Affairs,family=binomial())>summary(fit.full)

從結果看到,age,yearsmarried,religiousness,rating這四個變量有*標記,具有顯著性。其他四個變量不顯著。去除這些不顯著變量后重新擬合模型。>fit.less<-glm(ynaffair~age+yearsmarried+religiousness+rating,data=Affairs,family=binomial())>summary(fit.less)新模型的每個回歸系數(shù)都非常顯著(p<0.05),可以使用第二個簡單模型進行分析解釋。在Logistic回歸中,回歸系數(shù)表示對數(shù)的變化,由于對數(shù)比的解釋性差,可以將結果進行指數(shù)化后查看。>coef(fit.less)(Intercept)ageyearsmarriedreligiousnessrating1.93083017-0.035271120.10062274-0.32902386-0.46136144>exp(coef(fit.less))(Intercept)ageyearsmarriedreligiousnessrating6.89523210.96534371.10585940.71962580.6304248婚齡增加1年,婚外情的優(yōu)勢比將乘以1.11;年齡增加1歲,婚外情的優(yōu)勢比乘以0.96,影響較??;婚姻評分升高1級,婚外情的優(yōu)勢比將乘以0.6?!纱丝闯瞿挲g增加、宗教信仰和婚姻評分的增加,婚外情的優(yōu)勢比將下降。拓展:使用predict()函數(shù),觀察預測變量在各個水平時對結果概率的影響。二項分布觀測到的因變量的方差大于期望的方差,稱為過度離勢,會導致不精確的顯著性檢驗,需要將二項分布改為類二項分布。檢測過度離勢也是得到準確分析結果的步驟之一。Logistic回歸還有很多拓展,如:穩(wěn)健logistic回歸,robust包中的函數(shù)glmRob()。多項分布logistic回歸,mlogit包中的函數(shù)mlogit()。序數(shù)logistic回歸,rms包中的函數(shù)lrm()。Logistic回歸當因變量是分類型數(shù)據(jù),如是/否、通過/未通過等二分類或多分類時,使用Logistic回歸。當因變量是計數(shù)型數(shù)據(jù),如一周交通事故的次數(shù)、足球進球個數(shù)等問題時,采用泊松回歸。泊松回歸結果顯示age,yearsmarried,religiousness,occupation,rating這五個變量有*標記,具有顯著性,其他三個變量不顯著。進行回歸系數(shù)指數(shù)化變形。對回歸系數(shù)進行指數(shù)化變形后:年齡增加一歲,婚外情次數(shù)將乘以0.967,意味著年齡的增加次數(shù)減少;當婚姻評分升高1級,婚外情次數(shù)將乘0.663,說明其他因素不變時,婚姻評分升高1級婚外情次數(shù)降低了34%。小結廣義線性模型與glm()函數(shù)Logistic回歸泊松回歸分布名稱參數(shù)名稱默認的連接函數(shù)二項分布binomiallink=”logit”高斯分布gaussianlink=”identity”Gamma分布gammalink=”inverse”逆高斯分布inverse.gaussianlink=”1/mu^2”泊松分布poissonlink=”log”glm(formula,family=family(link=function),…)綜合實驗理解隨機數(shù)、假設檢驗、方差分析、回歸分析的概念。掌握本章函數(shù)的用法。熟悉本章示例代碼,掌握實際應用方法。能夠通過help方法學習函數(shù)中參數(shù)的用法。實驗目標第6章講義中的案例第6章綜合實驗第6章使用的函數(shù)第6章思考與練習實驗內容及資料目標:理解常用假設檢驗概念和方法;熟練掌握R語言常用函數(shù)。內容:實驗1:假設檢驗應用實驗1-1:使用甲乙兩臺機床來加工同種零件,兩種機床加工零件的尺寸服從正態(tài)分布,且方差相同,從兩種機床加工的零件中分別抽取若干零件測得的其尺寸如下,請檢驗兩臺機床加工的零件尺寸均值是否一致?甲:20.9,19.1,19.7,20.4,20.1,20.0,19.0,19.99乙:20.72,19.82,19.52,20.82,20.42,19.62,20.22目標:理解常用假設檢驗概念和方法;熟練掌握R語言常用函數(shù)。內容:實驗1:假設檢驗應用實驗1-2:使用同一設備和試劑進行樣品的提純,先使用標準試劑,再用新試劑,交替進行各獲得10組數(shù)據(jù)如下(數(shù)據(jù)值越大效果越好)。設樣本相互獨立且正態(tài)分布,問新試劑能否提高效果?標準試劑:78.172.476.274.377.478.476.075.576.777.3新試劑:79.181.077.379.180.079.179.177.380.282.1目標:理解常用假設檢驗概念和方法;熟練

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論