R語言大數(shù)據(jù)分析中的統(tǒng)計(jì)方法及應(yīng)用_第1頁
R語言大數(shù)據(jù)分析中的統(tǒng)計(jì)方法及應(yīng)用_第2頁
R語言大數(shù)據(jù)分析中的統(tǒng)計(jì)方法及應(yīng)用_第3頁
R語言大數(shù)據(jù)分析中的統(tǒng)計(jì)方法及應(yīng)用_第4頁
R語言大數(shù)據(jù)分析中的統(tǒng)計(jì)方法及應(yīng)用_第5頁
已閱讀5頁,還剩88頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第一章

R語言與統(tǒng)計(jì)分析概述第1章R語言與統(tǒng)計(jì)分析概述大數(shù)據(jù)的廣義概念:一般概念:5V特征,即:海量的數(shù)據(jù)規(guī)模(volume)、迅速流轉(zhuǎn)且動(dòng)態(tài)激增的數(shù)據(jù)體系(velocity)、多樣異構(gòu)的數(shù)據(jù)類型(variety)和潛力大但密度低的數(shù)據(jù)價(jià)值(value),以及噪聲影響的數(shù)據(jù)質(zhì)量(Veracity)廣義概念:即大數(shù)據(jù)是圍繞大數(shù)據(jù)集的一種涉及大數(shù)據(jù)理論、技術(shù)、應(yīng)用和生態(tài)四個(gè)方面的組合架構(gòu)概念第1章R語言與統(tǒng)計(jì)分析概述目的定位:明確目的:兩大技術(shù)方向:大數(shù)據(jù)工程和大數(shù)據(jù)分析,其相應(yīng)著大數(shù)據(jù)工程師和大數(shù)據(jù)分析師的角色明確途徑:初學(xué)者學(xué)習(xí)大數(shù)據(jù)分析,能夠從統(tǒng)計(jì)措施、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)這個(gè)途徑循序邁進(jìn),逐漸提升明確工具:大數(shù)據(jù)的統(tǒng)計(jì)分析需要功能強(qiáng)大,靈活易用的實(shí)現(xiàn)工具。作為面對(duì)統(tǒng)計(jì)分析的計(jì)算機(jī)語言,R無疑是一種最佳的選擇初識(shí)R:第一種角度:商業(yè)軟件和共享軟件第二種角度:“傻瓜”軟件和“非傻瓜”軟件第1章R語言與統(tǒng)計(jì)分析概述R中的基本概念R語言是一種面對(duì)統(tǒng)計(jì)分析的共享性和開源性軟件平臺(tái),是一種面對(duì)統(tǒng)計(jì)分析的計(jì)算機(jī)高級(jí)語言。詳細(xì)講,R是一種有關(guān)包的集合。包是有關(guān)函數(shù)、數(shù)據(jù)集、編譯器等的集合包是R的關(guān)鍵,可劃分為基礎(chǔ)包(Base)和共享包(contrib)兩大類基礎(chǔ)包,顧名思義為R的基本關(guān)鍵系統(tǒng),是默認(rèn)下載和安裝的包共享包是由R的全球性研究型小區(qū)和第三方提供的多種包的集合。第1章R語言與統(tǒng)計(jì)分析概述R中的基本概念函數(shù):R是存在于R包中的實(shí)現(xiàn)某個(gè)計(jì)算或某種分析的程序段,每個(gè)函數(shù)都有一種函數(shù)名??山?jīng)過函數(shù)調(diào)用的方式,直接借助已經(jīng)有函數(shù)處理分析中的各類計(jì)算問題。函數(shù)名是函數(shù)調(diào)用的唯一標(biāo)識(shí)??山?jīng)過如下兩種格式實(shí)現(xiàn)函數(shù)調(diào)用格式一:函數(shù)名(形式參數(shù)列表)格式二:函數(shù)名()工作空間:也稱工作內(nèi)存。R的全部計(jì)算都是基于工作內(nèi)存的,即需要將外存中的R包、數(shù)據(jù)等,首先加載到工作內(nèi)存中,然后才干夠進(jìn)行后續(xù)的計(jì)算?;谶@種工作機(jī)制,R成功開啟后會(huì)首先自動(dòng)將基礎(chǔ)包加載到工作空間中對(duì)象:R對(duì)象是存在于工作空間中的基本單元第1章R語言與統(tǒng)計(jì)分析概述R的下載安裝:上免費(fèi)下載并安裝R軟件第1章R語言與統(tǒng)計(jì)分析概述R程序的運(yùn)營第1章R語言與統(tǒng)計(jì)分析概述了解R的工作環(huán)境第一,目前工作空間已加載了基礎(chǔ)包中的哪些“小包”;第二,已加載包中有哪些可被調(diào)用的函數(shù)。第三,怎樣取得幫助文檔第1章R語言與統(tǒng)計(jì)分析概述運(yùn)營R程序:R有兩種程序運(yùn)營方式:第一,命令行運(yùn)營方式;第二,腳本運(yùn)營方式首先編寫R程序,然后一次性提交并運(yùn)營該程序,合用于較為復(fù)雜、環(huán)節(jié)較多的數(shù)據(jù)處理和分析第1章R語言與統(tǒng)計(jì)分析概述R使用的其他方面怎樣拓展使用R包和函數(shù)第一,目前下載安裝了哪些R包;第二,怎樣加載還未加載的R包并調(diào)用其中的函數(shù);第三,怎樣使用R的共享包R的環(huán)境文件若需以文件形式保存R工作空間中的對(duì)象和控制臺(tái)窗口中的語句等,就應(yīng)創(chuàng)建R的環(huán)境文件第1章R語言與統(tǒng)計(jì)分析概述Rstudio簡介RStudio是Rstudio企業(yè)推出的一款R語言程序集成開發(fā)工具,可有效提升R語言程序開發(fā)的便利性第1章R語言與統(tǒng)計(jì)分析概述從大數(shù)據(jù)分析案例看統(tǒng)計(jì)分析的基本框架第1章R語言與統(tǒng)計(jì)分析概述數(shù)據(jù)集:統(tǒng)計(jì)分析的對(duì)象是數(shù)據(jù)集合,簡稱數(shù)據(jù)集數(shù)據(jù)集是由變量及多種變量值構(gòu)成的集合。變量一般用于描述研究對(duì)象的某種屬性,變量值為某種屬性的詳細(xì)取值第1章R語言與統(tǒng)計(jì)分析概述分析目的和數(shù)據(jù)預(yù)處理基于已經(jīng)有數(shù)據(jù)界定研究問題,擬定分析目的,是數(shù)據(jù)分析的重中之重,它將直接影響后續(xù)數(shù)據(jù)分析的有關(guān)環(huán)節(jié)和詳細(xì)策略以北京市空氣質(zhì)量監(jiān)測數(shù)據(jù)的分析為例,對(duì)北京市空氣質(zhì)量監(jiān)測的隨機(jī)樣本,界定的研究問題能夠有:分析供暖季各污染物濃度有怎樣的分布特征。是否存在PM2.5濃度“爆表”的情況。哪些監(jiān)測點(diǎn)在哪些天出現(xiàn)了“爆表”。估計(jì)2023年供暖季北京市PM2.5濃度的總體平均值。對(duì)比不同類型監(jiān)測點(diǎn)各污染物濃度總體平均值的差別。第1章R語言與統(tǒng)計(jì)分析概述服務(wù)于分析目的,對(duì)原始數(shù)據(jù)的預(yù)處理是極為主要的。數(shù)據(jù)預(yù)處理涉及多種數(shù)據(jù)集的合并,派生新變量,數(shù)值型變量的分組或變換,類別變換的重編碼等等第1章R語言與統(tǒng)計(jì)分析概述數(shù)據(jù)的基本分析:數(shù)據(jù)的基本分析是數(shù)據(jù)分析的入手點(diǎn),涵蓋內(nèi)容較為寬泛,一般涉及描述統(tǒng)計(jì)和數(shù)據(jù)的可視化等方面。描述統(tǒng)計(jì):第一,揭示單個(gè)變量的分布特點(diǎn);第二,刻畫兩個(gè)或多種變量的有關(guān)性特征數(shù)據(jù)的可視化第1章R語言與統(tǒng)計(jì)分析概述總體特征的推斷:基于樣本統(tǒng)計(jì)量估計(jì)總體參數(shù)單個(gè)總體參數(shù)的推斷,是指利用一種隨機(jī)樣本,對(duì)它來自的這一種總體的參數(shù)進(jìn)行推斷多種總體參數(shù)的對(duì)比,是利用兩個(gè)或多種隨機(jī)樣本,對(duì)它們來自的多種總體的參數(shù)有怎樣的差別進(jìn)行推斷推斷多種變量間的總體有關(guān)性:分析事物之間的相互影響關(guān)系,是大數(shù)據(jù)分析中的普遍應(yīng)用要求數(shù)據(jù)的聚類:需要對(duì)數(shù)據(jù)的內(nèi)在構(gòu)造進(jìn)行剖析從統(tǒng)計(jì)角度處理這些問題,本質(zhì)就是經(jīng)過聚類分析發(fā)覺數(shù)據(jù)中的“自然”分組。聚類分析涉及數(shù)據(jù)建模、模型評(píng)價(jià)和應(yīng)用等方面。R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第二章

R的數(shù)據(jù)組織第2章R的數(shù)據(jù)組織R的數(shù)據(jù)對(duì)象:數(shù)據(jù)對(duì)象是R存儲(chǔ)管理數(shù)據(jù)的基本方式。每個(gè)數(shù)據(jù)對(duì)象都有一種對(duì)象名,它是創(chuàng)建、訪問和管理對(duì)象的唯一標(biāo)識(shí)。對(duì)象名一般由若干個(gè)辨別大小寫的英文字母構(gòu)成。R數(shù)據(jù)對(duì)象可有兩種不同角度的類型劃分:從存儲(chǔ)角度劃分類型:數(shù)據(jù)對(duì)象是R組織數(shù)據(jù)的基本方式。R數(shù)據(jù)對(duì)象可劃分為數(shù)值型、字符型、邏輯型等主要存儲(chǔ)類型從構(gòu)造角度劃分類型:數(shù)據(jù)對(duì)象是R組織數(shù)據(jù)的基本方式。R數(shù)據(jù)對(duì)象可劃分為向量、矩陣、數(shù)組、數(shù)據(jù)框、列表等多種構(gòu)造類型第2章R的數(shù)據(jù)組織創(chuàng)建和管理R對(duì)象創(chuàng)建R對(duì)象:對(duì)象名<-R常量或R函數(shù)訪問R對(duì)象:對(duì)象名;print(對(duì)象名)查看R對(duì)象的構(gòu)造:str(對(duì)象名)管理R對(duì)象:ls();rm(對(duì)象名或?qū)ο竺斜?第2章R的數(shù)據(jù)組織R數(shù)據(jù)組織的基本方式R向量及其創(chuàng)建與訪問:is.vector(對(duì)象名)訪問R向量中的元素:訪問指定位置上的元素:向量名[位置常量];向量名[位置常量1:位置常量2];向量名[c(位置常量列表)]利用位置向量訪問指定位置上的元素:向量名[位置向量名]訪問指定位置之外的元素:向量名[-位置常量];向量名[-(位置常量1:位置常量2)]第2章R的數(shù)據(jù)組織R的特殊向量:因子因子是一種特殊形式的向量。一般意義的向量相應(yīng)數(shù)值型變量,而因子則相應(yīng)著分類型變量(涉及類別型變量或順序型變量)判斷指定對(duì)象是否為因子:is.factor(對(duì)象名)顯示因子水平值相應(yīng)的類別值:levels(因子名)將向量轉(zhuǎn)換為因子:as.factor(向量名);factor(向量名,order=TURE/FALSE,levels=c(類別值列表))第2章R的數(shù)據(jù)組織R矩陣及其創(chuàng)建與訪問矩陣用來組織具有相同存儲(chǔ)類型的一組變量判斷數(shù)據(jù)對(duì)象是否為矩陣:is.matrix(對(duì)象名)取得矩陣的行數(shù)和列數(shù):dim(矩陣名)將多種向量合并成R矩陣:cbind函數(shù)將向量轉(zhuǎn)換成R矩陣:matrix(向量名,nrow=行數(shù),ncol=列數(shù),byrow=TRUE/FALSE)訪問R矩陣中的元素訪問指定位置上的元素訪問指定行上的全部元素訪問指定列上的全部元素第2章R的數(shù)據(jù)組織創(chuàng)建和訪問R數(shù)組:數(shù)組以三維方式組織數(shù)據(jù),是矩陣的擴(kuò)展形式??蓪?shù)組視為由多張二維表格羅列而成的“長方體”。判斷數(shù)據(jù)對(duì)象是否為數(shù)組:is.array(對(duì)象名)創(chuàng)建數(shù)組:array(向量名,c(n1,n2,n3),dimnames=list(維名稱列表))數(shù)組元素的訪問方式與矩陣元素的訪問類似,但需分別指定行號(hào),列號(hào),表號(hào)三個(gè)位置參數(shù)第2章R的數(shù)據(jù)組織R數(shù)據(jù)框及其創(chuàng)建與訪問數(shù)據(jù)框用于組織多種存儲(chǔ)類型不盡相同的變量。數(shù)據(jù)框也是一張二維表格。統(tǒng)計(jì)上稱行為觀察、列為變量,計(jì)算機(jī)則分別稱之為統(tǒng)計(jì)和域,且變量名相應(yīng)域名判斷數(shù)據(jù)對(duì)象是否為數(shù)據(jù)框:is.data.frame(對(duì)象名)創(chuàng)建R數(shù)據(jù)框:data.frame(域名1=向量名1,域名2=向量名2,….)顯示各個(gè)域名:names(數(shù)據(jù)框名)第2章R的數(shù)據(jù)組織

訪問R數(shù)據(jù)框中的元素?cái)?shù)據(jù)框名$域名數(shù)據(jù)框名[[“域名”]]attach(數(shù)據(jù)框名)訪問域名函數(shù)1訪問域名函數(shù)2…detach(數(shù)據(jù)框名)第2章R的數(shù)據(jù)組織R列表及其創(chuàng)建與訪問列表是對(duì)象的集合,可涉及向量、矩陣、數(shù)組、數(shù)據(jù)框甚至列表等等。其中的每個(gè)對(duì)象稱為列表的一種成份,且都有一種成份名判斷數(shù)據(jù)對(duì)象是否為列表:is.list(數(shù)據(jù)對(duì)象名)創(chuàng)建列表:list(成份名1=對(duì)象名1,成份名2=對(duì)象名2,……)第2章R的數(shù)據(jù)組織R對(duì)象數(shù)據(jù)的保存保存數(shù)據(jù)到文本文件:write.table(數(shù)據(jù)對(duì)象名,file="文本文件名",sep="分隔符",quote=TRUE/FALSE,append=TRUE/FALSE,na="NA",s=TRUE/FALSE,s=TRUE/FALSE)經(jīng)過鍵盤讀入數(shù)據(jù):對(duì)象名<-scan()共享R自帶的數(shù)據(jù)包:data()第2章R的數(shù)據(jù)組織保存大數(shù)據(jù)案例的數(shù)據(jù)構(gòu)造和R組織讀文本文件:read.table(file="文件名.txt",header=TRUE/FALSE,sep="數(shù)據(jù)分隔符",stringsAsFactors=TRUE/FALSE)或read.csv(file="文件名.csv",header=TRUE/FALSE,stringsAsFactors=TRUE/FALSE)R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第三章R的數(shù)據(jù)整頓和編程基礎(chǔ)第3章R的數(shù)據(jù)整頓和編程基礎(chǔ)從大數(shù)據(jù)分析案例看數(shù)據(jù)整頓美食餐館食客點(diǎn)評(píng)數(shù)據(jù)的整頓問題超市顧客購置行為數(shù)據(jù)的整頓問題北京市空氣質(zhì)量監(jiān)測數(shù)據(jù)的整頓問題數(shù)據(jù)的初步整頓數(shù)據(jù)整合:merge(數(shù)據(jù)框名1,數(shù)據(jù)框名2,by="關(guān)鍵字")數(shù)據(jù)篩選:按條件篩選:關(guān)系體現(xiàn)式subset(數(shù)據(jù)框名,關(guān)系體現(xiàn)式)隨機(jī)篩選:sample(向量名,size=樣本量,prob=c(各元素抽取概率表),replace=TRUE/FALSE)第3章R的數(shù)據(jù)整頓和編程基礎(chǔ)數(shù)據(jù)質(zhì)量評(píng)估缺失數(shù)據(jù)報(bào)告:數(shù)據(jù)集存在缺失數(shù)據(jù)是普遍的現(xiàn)象。R用NA(NotAvailable)或NaN(NotaNumber)表達(dá)缺失值判斷缺失值和完整觀察:is.na(向量名),is.nan(向量名);complete.cases(矩陣名或數(shù)據(jù)框名)生成缺失數(shù)據(jù)報(bào)告:md.pattern(矩陣名)異常值排查:第一,數(shù)據(jù)取值明顯不符合實(shí)際常理的值第二,數(shù)據(jù)明顯偏離大多數(shù)的取值范圍。order(向量名列表,na.last=TRUE/FALSE/NA,decreasing=TRUE/FALSE)第3章R的數(shù)據(jù)整頓和編程基礎(chǔ)數(shù)據(jù)加工R的數(shù)據(jù)加工是經(jīng)過變量計(jì)算實(shí)現(xiàn)的。變量計(jì)算能夠在原有數(shù)據(jù)基礎(chǔ)上得出信息愈加豐富的新變量,也涉及為滿足后續(xù)建模需要對(duì)原有變量進(jìn)行的其他變換處理。賦值語句:對(duì)象名<-R的算術(shù)體現(xiàn)式第3章R的數(shù)據(jù)整頓和編程基礎(chǔ)數(shù)據(jù)加工管理中的常用函數(shù)數(shù)學(xué)函數(shù)統(tǒng)計(jì)函數(shù)概率函數(shù)矩陣運(yùn)算函數(shù)字符串函數(shù)數(shù)據(jù)管理函數(shù)邏輯判斷函數(shù)文件管理函數(shù)第3章R的數(shù)據(jù)整頓和編程基礎(chǔ)數(shù)據(jù)分組和重編碼數(shù)據(jù)分組:按一定方式將數(shù)值型變量的變量值提成若干個(gè)區(qū)間,每個(gè)區(qū)間即是一種分組重編碼:對(duì)分類型變量各個(gè)類別值或水平值重新進(jìn)行編碼R可經(jīng)過賦值語句實(shí)現(xiàn)數(shù)據(jù)分組和重編碼。也可利用第2章的factor函數(shù)完畢重編碼,或者調(diào)用car包中的recode函數(shù)等第3章R的數(shù)據(jù)整頓和編程基礎(chǔ)數(shù)據(jù)管理中的R編程基礎(chǔ)R程序設(shè)計(jì)的關(guān)鍵是控制程序處理的流程順序構(gòu)造的流程控制、分支構(gòu)造的流程控制、循環(huán)構(gòu)造的流程控制分支構(gòu)造的流程控制及示例:促銷折扣的計(jì)算R實(shí)現(xiàn)分支構(gòu)造流程控制的主要途徑是:if語句if-else語句第3章R的數(shù)據(jù)整頓和編程基礎(chǔ)循環(huán)構(gòu)造的流程控制及示例:等差數(shù)列的求和循環(huán)構(gòu)造的流程控制是指R程序在某處開始,根據(jù)條件判斷成果決定是否反復(fù)執(zhí)行某個(gè)程序段R實(shí)現(xiàn)循環(huán)構(gòu)造流程控制的主要途徑是:for語句;while語句;repeat語句第3章R的數(shù)據(jù)整頓和編程基礎(chǔ)顧客自定義函數(shù)及示例:匯總數(shù)據(jù)還原為原始數(shù)據(jù)以由R的研發(fā)者事先開發(fā)好可直接調(diào)用的“現(xiàn)成”函數(shù),稱為R的系統(tǒng)函數(shù)。滿足顧客個(gè)性化需求的計(jì)算任務(wù)時(shí),假如這個(gè)計(jì)算任務(wù)具有一定的功能獨(dú)立性且應(yīng)用場合較多,就有必要將其編寫成,或稱定義成一種獨(dú)立程序段,即函數(shù)。與系統(tǒng)函數(shù)不同的是,這些函數(shù)是顧客自行編寫的,因而稱為R的顧客自定義函數(shù)對(duì)任何一種顧客自定義函數(shù)都需要:定義函數(shù)調(diào)用函數(shù):調(diào)用顧客自定義函數(shù)的方式與調(diào)用系統(tǒng)函數(shù)的方式相同。第3章R的數(shù)據(jù)整頓和編程基礎(chǔ)定義顧客自定義函數(shù):即明確給出函數(shù)闡明和函數(shù)體顧客自定義函數(shù)名<-function(參數(shù)列表){計(jì)算環(huán)節(jié)1計(jì)算環(huán)節(jié)2……return(函數(shù)值)}R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第四章

R的基本分析和統(tǒng)計(jì)圖形第4章R的基本分析和統(tǒng)計(jì)圖形數(shù)據(jù)基本分析是從單個(gè)變量的描述統(tǒng)計(jì)開始的。描述統(tǒng)計(jì)的目的是揭示變量的分布特點(diǎn),描述統(tǒng)計(jì)的基本工具有兩類:第一,描述統(tǒng)計(jì)量;第二,數(shù)據(jù)可視化。不同類型變量的基本分析措施有所不同,體目前需要采用不同的描述統(tǒng)計(jì)量和不同的可視化圖形。從大數(shù)據(jù)分析案例看數(shù)據(jù)基本分析美食餐館食客點(diǎn)評(píng)數(shù)據(jù)的基本分析北京市空氣質(zhì)量監(jiān)測數(shù)據(jù)的基本分析第4章R的基本分析和統(tǒng)計(jì)圖形R的繪圖基礎(chǔ)數(shù)據(jù)可視化的基本工具是統(tǒng)計(jì)圖形。一方面,圖形是直觀展示變量分布特征以及變量在不同本組分布特征差別性的主要工具。另一方面,R的圖形繪制功能強(qiáng)大,圖形種類豐富,在數(shù)據(jù)可視化方面優(yōu)勢(shì)突出圖形設(shè)備和圖形文件圖形構(gòu)成和圖形參數(shù)圖形布局第4章R的基本分析和統(tǒng)計(jì)圖形分類型單變量的基本分析計(jì)算頻數(shù)分布表:經(jīng)過編制頻數(shù)分布表展示單個(gè)分類型變量的分布特征編制頻數(shù)分布表:table()prop.table(表名)直觀展示單個(gè)分類型變量分布特征的常用統(tǒng)計(jì)圖形有柱形圖或條形圖、餅圖等,還有扇形圖barplot(數(shù)值型向量名,horiz=TRUE/FALSE,names.arg=條形標(biāo)簽向量)pie(數(shù)值型向量名,labels=切片標(biāo)簽向量,clockwise=TRUT/FALSE)fan.plot(數(shù)值型向量名,labels=切片標(biāo)簽向量)第4章R的基本分析和統(tǒng)計(jì)圖形數(shù)值型單變量的基本分析計(jì)算基本描述統(tǒng)計(jì)量:刻畫單個(gè)數(shù)值型變量分布特征的描述統(tǒng)計(jì)量主要涉及:均值原則差偏態(tài)系數(shù)峰度系數(shù)第4章R的基本分析和統(tǒng)計(jì)圖形數(shù)值型單變量的基本分析常用的直觀展示單個(gè)數(shù)值型變量分布特征的統(tǒng)計(jì)圖形有:直方圖,核密度圖,箱線圖,小提琴圖等等直方圖:hist(數(shù)值型向量名或域名,freq=TRUE/FALSE)核密度圖:density(數(shù)值型向量)箱線圖:boxplot(數(shù)值型向量名或域名,horizontal=TRUE/FALSE,axes=TRUE/FALSE)小提琴圖:vioplot(數(shù)值型向量名或域名列表,names=橫坐標(biāo)軸標(biāo)題向量)R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第五章R的變量有關(guān)性分析和統(tǒng)計(jì)圖形第5章R的變量有關(guān)性分析和統(tǒng)計(jì)圖形兩個(gè)或多種變量間的有關(guān)性研究,旨在揭示變量取值間的相互影響的特點(diǎn)和相互作用的程度。變量有關(guān)性分析有兩個(gè)層面:第一,樣本有關(guān)性層面,即視數(shù)據(jù)集為隨機(jī)樣本,選擇恰當(dāng)?shù)拿枋鼋y(tǒng)計(jì)量,刻畫樣本中兩個(gè)變量間有關(guān)性的強(qiáng)弱;第二,總體有關(guān)性層面,即基于樣本有關(guān)性對(duì)樣原來自的總體有關(guān)性進(jìn)行推斷。從統(tǒng)計(jì)學(xué)的措施體系上看,第二個(gè)層面的研究屬于推斷統(tǒng)計(jì)的范圍。不同類型變量間有關(guān)性分析的措施也有所不同,表目前所采用的描述統(tǒng)計(jì)量不同,可視化統(tǒng)計(jì)圖形也不同。第5章R的變量有關(guān)性分析和統(tǒng)計(jì)圖形分類型變量有關(guān)性的分析:研究對(duì)象是兩個(gè)或多種分類型變量,主要研究目的是考察一種分類型變量的取值是否與另一種分類型變量的取值有關(guān)分類型變量有關(guān)性的描述編制列聯(lián)表基于列聯(lián)表卡方統(tǒng)計(jì)量的有關(guān)性描述phi系數(shù)列聯(lián)絡(luò)數(shù)Cramer’sV系數(shù)第5章R的變量有關(guān)性分析和統(tǒng)計(jì)圖形等級(jí)有關(guān)系數(shù):研究兩分類型變量有關(guān)性的另一種常見措施是計(jì)算等級(jí)有關(guān)系數(shù)。該措施只合用于兩順序型變量間的有關(guān)性研究Spearman等級(jí)有關(guān)系數(shù)Kendall-等級(jí)有關(guān)系數(shù)R函數(shù):cor(矩陣或數(shù)據(jù)框列號(hào),use=缺失值處理方式,method="spearman/kendall“)第5章R的變量有關(guān)性分析和統(tǒng)計(jì)圖形分類型變量有關(guān)性的統(tǒng)計(jì)圖形馬賽克圖:mosaicplot(~分類型域名1+分類型域名2+…,data=數(shù)據(jù)框名)第5章R的變量有關(guān)性分析和統(tǒng)計(jì)圖形數(shù)值型變量有關(guān)性的分析:數(shù)值型變量有關(guān)性分析的研究對(duì)象是兩個(gè)或多種數(shù)值型變量,主要研究目的是考察兩個(gè)數(shù)值型變量取值的有關(guān)性強(qiáng)弱。簡樸有關(guān)系數(shù):R函數(shù):cor(矩陣或數(shù)據(jù)框列號(hào),use=缺失值處理方式,method="pearson")第5章R的變量有關(guān)性分析和統(tǒng)計(jì)圖形數(shù)值型變量有關(guān)性的統(tǒng)計(jì)圖形:簡樸散點(diǎn)圖、三維散點(diǎn)圖、氣泡圖、矩陣散點(diǎn)圖等簡樸散點(diǎn)圖:plot(x=數(shù)值型向量名1,y=數(shù)值型向量名2)plot(域名2~域名1,data=數(shù)據(jù)框名)三維散點(diǎn)圖:symbols(向量名1,向量名2,circle=向量名3,inches=計(jì)量單位,fg=繪圖顏色,bg=填充色)矩陣散點(diǎn)圖:pairs(~域名1+域名2+…+域名n,data=數(shù)據(jù)框名)簡樸有關(guān)系數(shù)和有關(guān)系數(shù)圖:corrgram(矩陣或數(shù)據(jù)框列,lower.panel=面板樣式,upper.panel=面板樣式,text.panel=面板樣式,diag.panel=面板樣式)R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第六章

R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比第6章R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比從大數(shù)據(jù)分析案例看推斷統(tǒng)計(jì)美食餐館食客點(diǎn)評(píng)數(shù)據(jù)分析中的推斷統(tǒng)計(jì)問題北京市空氣質(zhì)量監(jiān)測數(shù)據(jù)分析中的推斷統(tǒng)計(jì)問題第6章R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比單個(gè)總體的均值推斷:關(guān)鍵措施是假設(shè)檢驗(yàn)假設(shè)檢驗(yàn)是一種基于樣本數(shù)據(jù)以小概率原理為指導(dǎo)的反證措施。小概率原理的關(guān)鍵思想是發(fā)生概率很小的小概率事件,在一次特定的觀察中是不會(huì)出現(xiàn)或發(fā)生的。假設(shè)檢驗(yàn)的首要任務(wù)是提出原假設(shè)(記為H0)和備擇假設(shè)(記為H1)。其中,原假設(shè)是基于樣本數(shù)據(jù)希望推翻的假設(shè),備擇假設(shè)是希望證明成立的假設(shè)基于樣本均值在原假設(shè)成立的前提下,計(jì)算取得樣本均值及更極端值的概率,也稱為概率-P值第一,怎樣計(jì)算原假設(shè)成立前提下取得樣本均值及更極端值的概率;第二,怎樣判斷是否為小概率事件。第6章R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比樣本均值的抽樣分布:正態(tài)分布基于樣本均值的抽樣分布計(jì)算概率-P值第6章R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比兩總體均值的對(duì)比:基于獨(dú)立樣本的常規(guī)t檢驗(yàn)檢驗(yàn)的合用數(shù)據(jù):來自兩個(gè)總體的兩個(gè)獨(dú)立樣本,即在兩個(gè)總體(設(shè)總體1和總體2)中分別獨(dú)立抽樣,所得的兩個(gè)樣本在抽樣過程中互不影響兩個(gè)獨(dú)立樣本均值差的抽樣分布第6章R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比兩總體均值的對(duì)比:基于獨(dú)立樣本的常規(guī)t檢驗(yàn)基于兩個(gè)獨(dú)立樣本均值差的抽樣分布計(jì)算概率-P值兩總體方差已知:兩總體方差未知:當(dāng)兩總體方差未知且相等情況下當(dāng)兩總體方差未知且不相等情況下第6章R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比兩總體均值的對(duì)比:基于獨(dú)立樣本的常規(guī)t檢驗(yàn)R函數(shù):t.test(數(shù)值域名~因子,data=數(shù)據(jù)框名,paired=FALSE,var.equal=TRUE/FALSE,mu=檢驗(yàn)值,alternative=檢驗(yàn)方向)進(jìn)一步問題:方差齊性檢驗(yàn)和R實(shí)現(xiàn)levene方差同質(zhì)性檢驗(yàn):leveneTest(數(shù)值型向量,因子,center=mean)第6章R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比兩總體均值的對(duì)比:置換檢驗(yàn)置換檢驗(yàn)(PermutaionTest)是基于Fisher的“隨機(jī)化原則”的一種統(tǒng)計(jì)檢驗(yàn)措施。無需分布的前提假設(shè),完全基于樣本所涉及的信息進(jìn)行檢驗(yàn)?;舅枷耄杭偃鐑蓸釉瓉碜缘膬蓚€(gè)總體的均值不存在明顯差別(原假設(shè))成立,那么基于觀察到的兩個(gè)獨(dú)立樣本,計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀察值(記為t0)并做檢驗(yàn),便無法推翻原假設(shè)。此時(shí),假如將兩個(gè)樣本混合起來,然后再隨機(jī)分開,并基于這兩個(gè)新樣本,也稱置換樣本,再次計(jì)算檢驗(yàn)統(tǒng)計(jì)量的觀察值并做檢驗(yàn),也將得到一致的推斷結(jié)論R函數(shù):oneway_test(數(shù)值型域名~因子,data=數(shù)據(jù)框名,distribution=分布形式)第6章R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比兩總體均值的對(duì)比:自舉法檢驗(yàn):基于自舉樣本。首先,在兩個(gè)樣本(偽總體)中分別進(jìn)行有放回的隨機(jī)抽樣,得到樣本量仍分別為n1和n2的兩個(gè)獨(dú)立樣本X1和X2,稱為自舉樣本;計(jì)算兩自舉樣本的均值差。上述過程反復(fù)M次,可得到M個(gè)樣本均值差,記為Di(i=1,2,…,M);最終,將M個(gè)Di按升序排序,找到位于2.5%和97.5%處的分位值,構(gòu)成的區(qū)間即為置信度(1-)為95%的樣本均值差的置信區(qū)間。假如0未落入該區(qū)間內(nèi),則應(yīng)以5%的明顯性水平拒絕原假設(shè),覺得兩總體均值存在明顯差別。不然,不能拒絕原假設(shè)R函數(shù):boot(data=數(shù)據(jù)集,statistics=顧客自定義函數(shù)名,R=自舉反復(fù)次數(shù)M)第6章R的均值檢驗(yàn):單個(gè)總體的均值推斷及兩個(gè)總體均值的對(duì)比兩總體的均值對(duì)比:基于配對(duì)樣本的常規(guī)t檢驗(yàn)檢驗(yàn)的合用數(shù)據(jù):來自兩個(gè)總體的兩個(gè)配對(duì)樣本,即在兩個(gè)總體(設(shè)總體1和總體2)中配對(duì)抽樣,所得的兩個(gè)樣本在觀察個(gè)體上具有一一相應(yīng)的關(guān)系兩配對(duì)樣本的均值檢驗(yàn)問題,本質(zhì)是一種差值總體的均值檢驗(yàn)問題R函數(shù):t.test(數(shù)值型向量名1,數(shù)值向量名2,paired=TRUE,alternative=檢驗(yàn)方向)R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第七章R的方差分析:多種總體均值的對(duì)比第7章R的方差分析:多種總體均值的對(duì)比從大數(shù)據(jù)分析案例看方差分析美食餐館食客點(diǎn)評(píng)數(shù)據(jù)分析中的方差分析問題北京市空氣質(zhì)量監(jiān)測數(shù)據(jù)分析中的方差分析問題多種總體均值的對(duì)比:單原因方差分析單原因方差分析用來研究一種控制變量的不同水平是否對(duì)觀察變量產(chǎn)生了明顯影響。這里,因?yàn)閮H研究單個(gè)原因?qū)τ^察變量的影響,所以稱為單原因方差分析單原因方差分析覺得:觀察變量值的變動(dòng)(變差)受到控制變量和隨機(jī)原因兩方面的影響第7章R的方差分析:多種總體均值的對(duì)比多種總體均值的對(duì)比:單原因方差分析R函數(shù):aov(觀察變量域名~控制變量域名,data=數(shù)據(jù)框名)進(jìn)一步問題:多重比較檢驗(yàn)LSD(LeastSignificantDifference)檢驗(yàn),稱為最小明顯性差別法檢驗(yàn)。字面體現(xiàn)了其檢驗(yàn)敏感性高的特點(diǎn),即:控制變量不同水平間觀察變量的均值,僅存在較小差別就能夠被檢驗(yàn)出來第7章R的方差分析:多種總體均值的對(duì)比多種總體均值的對(duì)比:多原因方差分析怎樣對(duì)其他影響原因(分類型變量)加以控制,是多原因方差分析所要處理的問題多原因方差分析還可用于研究多種控制變量的不同水平是否對(duì)觀察變量產(chǎn)生了明顯影響。在多原因方差分析中,觀察變量的取值變動(dòng)受到三個(gè)方面的影響:第一,控制變量獨(dú)立作用的影響;第二,控制變量交互效應(yīng)的影響;第三,隨機(jī)原因的影響R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第八章

R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測從數(shù)據(jù)分析案例看線性回歸分析美食餐館食客點(diǎn)評(píng)數(shù)據(jù)分析中的回歸分析問題北京市空氣質(zhì)量監(jiān)測數(shù)據(jù)分析中的回歸分析問題線性回歸分析的一般環(huán)節(jié)第一步,擬定被解釋變量和解釋變量第二步,擬定回歸模型第三步,建立回歸方程第四步,回歸方程的檢驗(yàn)第五步,回歸方程的應(yīng)用第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測建立回歸方程線性回歸模型:線性回歸方程:經(jīng)驗(yàn)回歸方程:線性回歸方程的參數(shù)估計(jì)和R實(shí)現(xiàn)一般最小二乘估計(jì):在線性回歸分析中,最常用的統(tǒng)計(jì)準(zhǔn)則是一般最小二乘準(zhǔn)則,由此得到的參數(shù)估計(jì)稱為一般最小二估計(jì)lm(R公式,data=數(shù)據(jù)框名)第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測回歸方程的檢驗(yàn),關(guān)鍵任務(wù):解釋變量全體是否與被解釋變量呈明顯的線性關(guān)系,進(jìn)行的檢驗(yàn)稱為回歸方程的明顯性檢驗(yàn);每個(gè)解釋變量是否與被解釋變量呈明顯的線性關(guān)系,進(jìn)行的檢驗(yàn)稱為回歸系數(shù)的明顯性檢驗(yàn)回歸方程的明顯性檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量:回歸系數(shù)的明顯性檢驗(yàn)檢驗(yàn)統(tǒng)計(jì)量:第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測回歸方程的應(yīng)用回歸方程擬合效果的度量鑒定系數(shù):調(diào)整的鑒定系數(shù):均方誤差:第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測回歸模型的驗(yàn)證模型驗(yàn)證的做法是:在建立模型前,將已經(jīng)有的全部觀察,隨機(jī)劃提成兩部分。一部分用于建立和訓(xùn)練模型,稱為訓(xùn)練(Training)樣本集。另一部分用于模型預(yù)測誤差的估計(jì),稱為測試(Testing)樣本集。在訓(xùn)練樣本集上得到經(jīng)驗(yàn)回歸方程,計(jì)算經(jīng)驗(yàn)方程在測試樣本集上的預(yù)測誤差,并將其作為模型真實(shí)預(yù)測誤差的估計(jì)。假如模型在測試樣本集上仍有很好的預(yù)測體現(xiàn),就有理由覺得該模型具有一般性和穩(wěn)健性,可用于對(duì)將來數(shù)據(jù)的預(yù)測將全部觀察隨機(jī)劃分為訓(xùn)練樣本集和測試樣本集的措施,稱為旁置(HoldOut)法第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測回歸模型的N折交叉驗(yàn)證和R實(shí)現(xiàn)設(shè)總樣本容量為n。N折交叉驗(yàn)證法,首先將樣本隨機(jī)劃提成不相交的N組,稱為N折,一般N取10;令其中的N-1組為訓(xùn)練樣本集用于建立模型,剩余的一組為測試樣本集用于計(jì)算模型的預(yù)測誤差。反復(fù)進(jìn)行組的輪換R函數(shù):crossval(x=解釋變量矩陣,y=被解釋變量向量,theta.fit=回歸系數(shù)向量,theta.predict=擬合值向量,ngroup=折數(shù))第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測回歸模型的自舉法驗(yàn)證和R實(shí)現(xiàn)若希望對(duì)線性回歸模型MSE(或鑒定系數(shù))的真值給出良好的估計(jì),需進(jìn)行M次的自舉過程。每次自舉中,分別取得自舉樣本并建立線性回歸模型,計(jì)算MSE(或鑒定系數(shù))。M次自舉過程完畢后將得到M個(gè)MSE(或鑒定系數(shù)),它們的平均值可作為模型MSE(或鑒定系數(shù))真值的估計(jì)。進(jìn)一步,還可得到MSE(或鑒定系數(shù))的置信區(qū)間R函數(shù):boot函數(shù)第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測虛擬自變量回歸分析被解釋變量怎樣受到數(shù)值型解釋變量以及分類型解釋變量影響時(shí),應(yīng)采用帶虛擬變量的線性回歸分析虛擬變量的取只有0和1兩個(gè)值,分別表達(dá)“是”和“不是”帶虛擬變量的回歸方程的含義第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測虛擬自變量回歸分析被解釋變量怎樣受到數(shù)值型解釋變量以及分類型解釋變量影響時(shí),應(yīng)采用帶虛擬變量的線性回歸分析虛擬變量的取只有0和1兩個(gè)值,分別表達(dá)“是”和“不是”帶虛擬變量的回歸方程的含義若將虛擬自變量回歸相應(yīng)到方差分析的框架下有:回歸分析中的被解釋變量,相應(yīng)方差分析中的觀察變量;回歸分析中的分類型解釋變量,相應(yīng)方差分析中的控制變量;回歸分析中的數(shù)值型解釋變量,相應(yīng)方差分析中的協(xié)變量,這么的方差分析稱為協(xié)方差分析第8章R的線性回歸分析:對(duì)數(shù)值變量影響程度的度量和預(yù)測協(xié)方差分析:若將虛擬自變量回歸相應(yīng)到方差分析的框架下有:回歸分析中的被解釋變量,相應(yīng)方差分析中的觀察變量;回歸分析中的分類型解釋變量,相應(yīng)方差分析中的控制變量;回歸分析中的數(shù)值型解釋變量,相應(yīng)方差分析中的協(xié)變量,這么的方差分析稱為協(xié)方差分析協(xié)方差分析覺得觀察變量的變動(dòng)既受到控制變量的作用,也受到協(xié)變量以及其他隨機(jī)原因的影響。并在排除協(xié)變量對(duì)觀察變量影響的條件下,分析分類型控制變量對(duì)觀察變量的作用,從而愈加精確地對(duì)控制原因進(jìn)行評(píng)價(jià)R函數(shù):aov(觀察變量域名~協(xié)變量域名+控制變量域名,data=數(shù)據(jù)框名)R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第九章

R的Logistic回歸分析:對(duì)分類變量影響程度的度量和預(yù)測第9章R的Logistic回歸分析:對(duì)分類變量影響程度的度量和預(yù)測從大數(shù)據(jù)分析案例看Logistic回歸分析人力資源調(diào)查數(shù)據(jù)分析中的Logistic回歸分析問題Logistic回歸分析的基本建模思緒進(jìn)行兩步變換:Logistic回歸方程,也稱對(duì)數(shù)單位模型概率p和解釋變量之間的非線性關(guān)系第9章R的Logistic回歸分析:對(duì)分類變量影響程度的度量和預(yù)測Logistic回歸方程的系數(shù)優(yōu)勢(shì)Ω=p/(1-p),即某事件發(fā)生概率與不發(fā)生概率之比當(dāng)其他解釋變量保持不變時(shí),研究x變化一種單位對(duì)Ω的影響當(dāng)其他解釋變量保持不變時(shí),xi每增長一種單位所造成的優(yōu)勢(shì)是原來優(yōu)勢(shì)的exp(βi)倍,即優(yōu)勢(shì)比為:回歸方程的明顯性檢驗(yàn)解釋變量未引入回歸方程前的對(duì)數(shù)似然函數(shù):解釋變量引入回歸方程后的對(duì)數(shù)似然函數(shù)=似然比檢驗(yàn)統(tǒng)計(jì)量:第9章R的Logistic回歸分析:對(duì)分類變量影響程度的度量和預(yù)測回歸系數(shù)的明顯性檢驗(yàn)Wald統(tǒng)計(jì)量:R函數(shù):glm(R公式,data=數(shù)據(jù)框名,family=分布名(link=連接函數(shù)名))第9章R的Logistic回歸分析:對(duì)分類變量影響程度的度量和預(yù)測Logistic回歸方程的應(yīng)用Logistic回歸方程擬合效果的評(píng)價(jià)麥克法登偽R2混同矩陣:R語言:大數(shù)據(jù)分析中的統(tǒng)計(jì)措施及應(yīng)用第十章

R的聚類分析:數(shù)據(jù)分組第10章R的聚類:數(shù)據(jù)分組從大數(shù)據(jù)分析案例看聚類分析超市顧客購置行為數(shù)據(jù)分析中的聚類分析問題北京市空氣質(zhì)量監(jiān)測數(shù)據(jù)分析中的聚類分析問題聚類分析的基本思緒聚類分析能夠?qū)⒁慌鷺颖居^察數(shù)據(jù),在沒有先驗(yàn)知識(shí)的前提下,根據(jù)數(shù)據(jù)的諸多特征,按照其在性質(zhì)上的親疏程度進(jìn)行自動(dòng)分組(或稱分類),且使組(類)內(nèi)部個(gè)體的構(gòu)造特征具有較大相同性,組(類)之間個(gè)體的特征相同性較小。這里,所謂“沒有先驗(yàn)知識(shí)”是指沒有事先指定分組原則,所謂“親疏程度”是指樣本在變量取值上的總體相同程度或差別程度。第10章R的聚類:數(shù)據(jù)分組從聚類成果角度劃分聚類算法可分為覆蓋聚類算法與非覆蓋聚類算法,即假如每個(gè)觀察點(diǎn)都至少屬于一種組,則稱

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論