版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一章導(dǎo)論1.1.1 什么是統(tǒng)計(jì)學(xué)統(tǒng)計(jì)學(xué)是收集、處理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)。數(shù)據(jù)分析所用的方法分為描述統(tǒng)計(jì)方法和推斷統(tǒng)計(jì)方法。1.2統(tǒng)計(jì)數(shù)據(jù)的類型1.2.1 分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值型數(shù)據(jù)按照所采用的計(jì)算尺度不同,可以將統(tǒng)計(jì)數(shù)據(jù)分為分類數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值型數(shù)據(jù)。分類數(shù)據(jù):只能歸于某一類別的非數(shù)字型數(shù)據(jù),它是對(duì)事物進(jìn)行分類的結(jié)果,數(shù)據(jù)表現(xiàn)為類別,是用文字來(lái)表示。例如:支付方式、性別、企業(yè)類型等。順序數(shù)據(jù):只能歸于某一有序類別的非數(shù)字型數(shù)據(jù)。例如:?jiǎn)T工對(duì)改革措施的態(tài)度、產(chǎn)品等級(jí)、受教育程度等。數(shù)值型數(shù)據(jù):按數(shù)字尺度測(cè)量的觀測(cè)值,其結(jié)果表現(xiàn)為具體的數(shù)值。例如:年齡、工資、產(chǎn)量等。
2、統(tǒng)計(jì)數(shù)據(jù)大體上可分為品質(zhì)數(shù)據(jù)(定性數(shù)據(jù))和數(shù)量數(shù)據(jù)(定量數(shù)據(jù)、數(shù)值型數(shù)據(jù))。1.2.2 觀測(cè)數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)按照統(tǒng)計(jì)數(shù)據(jù)的收集方法,可以分為觀測(cè)數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)。觀測(cè)數(shù)據(jù):通過(guò)調(diào)查或觀測(cè)而收集的數(shù)據(jù)。例如:降雨量、GDP、家庭收入等。實(shí)驗(yàn)數(shù)據(jù):在實(shí)驗(yàn)中控制實(shí)驗(yàn)對(duì)象而收集到的數(shù)據(jù)。例如:醫(yī)藥實(shí)驗(yàn)數(shù)據(jù)、化學(xué)實(shí)驗(yàn)數(shù)據(jù)等。1.2.3 截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)按照被描述的現(xiàn)象與時(shí)間的關(guān)系,可分類截面數(shù)據(jù)和時(shí)間序列數(shù)據(jù)。截面數(shù)據(jù):在相同或近似相同的時(shí)間點(diǎn)上收集的數(shù)據(jù)。例如:2012年我國(guó)各省市的GDP。時(shí)間序列數(shù)據(jù):同一現(xiàn)象在不同的時(shí)間收集的數(shù)據(jù)。例如:2000-2012年湖北省的GDP。1.3.1 總體和樣本
3、總體:包含所研究的全部個(gè)體(數(shù)據(jù))的集合。樣本:從總體中抽取的一部分元素的集合。1.3.2 參數(shù)和統(tǒng)計(jì)量參數(shù):用來(lái)描述總體特征的概括性數(shù)字度量。統(tǒng)計(jì)量:用類描述樣本特征的概括性數(shù)字度量。例如:某研究機(jī)構(gòu)準(zhǔn)備從某鄉(xiāng)鎮(zhèn)5萬(wàn)個(gè)家庭中抽取1000個(gè)家庭用于推斷該鄉(xiāng)鎮(zhèn)所有農(nóng)村居民家庭的年人均純收入。這項(xiàng)研究的總體是5萬(wàn)個(gè)家庭;樣本是1000個(gè)家庭;參數(shù)是5萬(wàn)個(gè)家庭的人均純收入;統(tǒng)計(jì)量是1000個(gè)家庭的人均純收入。第二章數(shù)據(jù)的搜集2.1 數(shù)據(jù)的來(lái)源2.1.1 數(shù)據(jù)的間接來(lái)源間接來(lái)源的數(shù)據(jù):如果與研究?jī)?nèi)容有關(guān)的原信息已經(jīng)存在,我們只是對(duì)這些原信息重新加工、整理,使之成為我們進(jìn)行統(tǒng)計(jì)分析可以使用的數(shù)據(jù)。例如:
4、統(tǒng)計(jì)公報(bào)、統(tǒng)計(jì)年鑒、某機(jī)構(gòu)或某團(tuán)體提供的數(shù)據(jù)、期刊、報(bào)紙和圖書提供的數(shù)據(jù)、會(huì)議交流的數(shù)據(jù)、互聯(lián)網(wǎng)查閱的數(shù)據(jù)等。二手?jǐn)?shù)據(jù)的優(yōu)缺點(diǎn):優(yōu)點(diǎn):搜集方便,采集成本低,數(shù)據(jù)采集快,作用廣泛等。缺點(diǎn):針對(duì)性不夠。2.1.2 數(shù)據(jù)的直接來(lái)源普查:調(diào)查針對(duì)總體中的所有個(gè)體單位進(jìn)行。普查數(shù)據(jù)的優(yōu)缺點(diǎn):優(yōu)點(diǎn):調(diào)查范圍廣,被調(diào)查單位多,信息全面,完整。缺點(diǎn):調(diào)查費(fèi)時(shí),費(fèi)力,費(fèi)錢。2.2 調(diào)查數(shù)據(jù)2.2.1 概率抽樣和非概率抽樣重復(fù)抽樣:從總體中抽取一個(gè)元素后,把這個(gè)元素放回到總體中再抽取第二個(gè)元素,直至抽取n個(gè)元素為止的抽樣方法。簡(jiǎn)單隨機(jī)抽樣:從含有N個(gè)元素的總體中,抽取n個(gè)元素作為樣本,使得總體中的每一個(gè)元素都有相
5、同的概率被抽中的抽樣方式。分層抽樣:在抽樣時(shí),將總體分成互不交叉的若干個(gè)層級(jí),然后按一定的比例,從各層次獨(dú)立地隨機(jī)抽取一定數(shù)量的個(gè)體,將各層次取出的個(gè)體合在一起作為樣本。整群抽樣:先將總體劃分為若干群體,然后以群作為抽樣單位從中抽取部分群,再對(duì)抽中的各個(gè)群中所包含的所有元素進(jìn)行觀察的抽樣方式。方便抽樣:調(diào)查過(guò)程中由調(diào)查員依據(jù)方便原則,自行確定入樣單位。滾雪球抽樣:調(diào)查時(shí)首先選擇一組調(diào)查單位,對(duì)其實(shí)施調(diào)查后,再請(qǐng)他們提供另外一些屬于研究總體的調(diào)查對(duì)象,調(diào)查人員根據(jù)所提供的線索,進(jìn)行此后的調(diào)查的調(diào)查方式。2.4.1抽樣誤差樣本量與抽樣誤差成反比。隨著樣本量的逐漸增大,抽樣誤差就越小。2.4.3誤差
6、的控制通過(guò)樣本量的大小控制可以改變誤差大小,要求的抽樣誤差越小,所需要的樣本量就越大。第三章數(shù)據(jù)的圖表展示3.2.1分類數(shù)據(jù)的整理與圖示(3)餅圖主要用于表示一個(gè)樣本(或總體)中各組成部分的數(shù)據(jù)占全部數(shù)據(jù)的比例。適合于描述結(jié)構(gòu)性問(wèn)題。(4)環(huán)形圖顯示多個(gè)樣本各部分所占的相應(yīng)比例。適合于比較研究?jī)蓚€(gè)或多個(gè)樣本或總體的結(jié)構(gòu)性問(wèn)題。3.3.1 數(shù)據(jù)分組為解決數(shù)據(jù)分組不重的問(wèn)題,統(tǒng)計(jì)分組時(shí)習(xí)慣上規(guī)定“上組限不在內(nèi)”即當(dāng)相鄰兩組的上下限重疊時(shí),恰好等于某一組上限的變量值不算在本組內(nèi),而計(jì)算在下一組。(a&x<b)3.3.2 數(shù)值型數(shù)據(jù)的圖示1.分組數(shù)據(jù):直方圖用于展示分組數(shù)據(jù)分布的一種圖形
7、。直方圖與條形圖區(qū)別:條形圖:條形長(zhǎng)度表示頻數(shù);寬度固定不變;矩形分開排列;展示分類數(shù)據(jù)直方圖:面積表示頻數(shù);寬度表示組距;矩形連續(xù)排列;展示數(shù)值型數(shù)據(jù)3 .時(shí)間序列數(shù)據(jù):線圖主要用于反映現(xiàn)象隨時(shí)間變化的特征,描述其變化趨勢(shì)。4 .多變量數(shù)據(jù)的圖示5 1)散點(diǎn)圖適合用于描述兩變量之間是否存在某種關(guān)系。數(shù)據(jù)圖示的原則:適合于低層次數(shù)據(jù)的整理和顯示方法也適合于高層次的數(shù)據(jù);但適合于高層次數(shù)據(jù)的整理和顯示方法并不適合于低層次的數(shù)據(jù)第四章數(shù)據(jù)的概率性度量4.1 集中趨勢(shì)的度量集中趨勢(shì):一組數(shù)據(jù)向其中心值靠攏的傾向和程度,它反映了一組數(shù)據(jù)中心點(diǎn)的位置所在。原則:低層次數(shù)據(jù)的測(cè)度值適用于高層次的測(cè)量數(shù)據(jù),
8、但高層次數(shù)據(jù)的測(cè)度值并不適用于低層次的測(cè)量數(shù)據(jù)4.1.1 分類數(shù)據(jù):眾數(shù)一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的變量值。適合于數(shù)據(jù)量較多時(shí)使用。主要用于分類數(shù)據(jù),也可用于順序數(shù)據(jù)和數(shù)值型數(shù)據(jù)。4.1.2 順序數(shù)據(jù):中位數(shù)和分位數(shù)1 .中位數(shù)一組數(shù)據(jù)排序后處于中間位置上的變量值,用Me表示。中位數(shù)將全部數(shù)據(jù)平分為兩部分,各占50%數(shù)據(jù)。適用范圍:順序數(shù)據(jù)、數(shù)值型數(shù)據(jù)的集中趨勢(shì)測(cè)度,不適用于分類數(shù)據(jù)測(cè)量。中位數(shù)計(jì)算步驟:1 .數(shù)據(jù)排序;2.確定中位數(shù)位置;3.確定具體值中位數(shù)位置計(jì)算:(n+1)/2中位數(shù)值的計(jì)算:奇數(shù)時(shí),X(n+1)/2;偶數(shù)時(shí),1/2X(n/2)+X(n/2+1)2 .四分位數(shù)將一組數(shù)據(jù)數(shù)據(jù)排
9、序后四等份(各占25%數(shù)據(jù)),處于25%位置點(diǎn)(下四分位)和75%位置點(diǎn)(上四分位)上的值。四分位數(shù)計(jì)算步驟:1 .數(shù)據(jù)排序;2.確定四分位數(shù)位置;3.確定具體值四分位數(shù)位置確定方法:(不同確定方法,不同四分位數(shù)值)QL=n/4;Qu=3n/4"整數(shù)位置:整數(shù)對(duì)應(yīng)值0.5的位置:兩側(cè)值得平均值0.25或0.75的位置:下側(cè)值+(上側(cè)值一下側(cè)值)*0.25或者0.754.1.3 數(shù)值型數(shù)據(jù):平均數(shù)一組數(shù)據(jù)相加之后除以數(shù)據(jù)個(gè)數(shù)得到的數(shù)值,是集中趨勢(shì)的最主要測(cè)度值適用范圍:數(shù)值型數(shù)據(jù),不適用于順序數(shù)據(jù)和分類數(shù)據(jù)。4.1.4 眾數(shù)、中位數(shù)和平均數(shù)的比較1.眾數(shù)、中位數(shù)和平均數(shù)的關(guān)系眾數(shù):一組
10、數(shù)據(jù)分布的最高峰中位數(shù):處于一組數(shù)據(jù)的中間位置的值平均數(shù):全部數(shù)據(jù)的算術(shù)平均對(duì)稱分布情況:眾數(shù)=中位數(shù)=平均數(shù)左偏分布情況:存在較小值,平均數(shù)(中位數(shù)(眾數(shù)右偏分布情況:存在極大值,眾數(shù)(中位數(shù)(平均數(shù)4.2離散程度的度量反映各變量值遠(yuǎn)離中心值的程度。離散程度越大,集中趨勢(shì)測(cè)度值的代表性越差。4.2.3數(shù)值型數(shù)據(jù):方差和標(biāo)準(zhǔn)差1.極差(全距)一組數(shù)據(jù)的最大值與最小值的差。3.方差和標(biāo)準(zhǔn)差方差是各變量值與平均數(shù)離差平方的平均數(shù)(通過(guò)平方消去正負(fù)號(hào))。標(biāo)準(zhǔn)差是方差的平方根。方差和標(biāo)準(zhǔn)差能較好地反映出數(shù)據(jù)的離散程度,是實(shí)際中應(yīng)用最廣的離散程度測(cè)度值。4.2.4相對(duì)離散程度:離散系數(shù)離散系數(shù)是一組數(shù)據(jù)
11、的標(biāo)準(zhǔn)差與平均數(shù)的比值,是離散程度的相對(duì)統(tǒng)計(jì)量。適用于比較不同樣本數(shù)據(jù)的離散程度。離散系數(shù)越大,離散程度越大(正比)。練習(xí)題:4.1(P94)、4.2(P95)第六章統(tǒng)計(jì)量及其抽樣分布6.4樣本均值的分布于中心極限定理當(dāng)總體服從正態(tài)分布N(j62)時(shí),來(lái)自該總體的所有容量為n的樣本的均值x也服從正態(tài)分布,x的數(shù)學(xué)期望為n,方差為2/n。即xN(g(r2/n)中心極限定理:從均值為,方差為2的一個(gè)任意總體中抽取容量為n的樣本,當(dāng)n充分大時(shí),樣本均值的抽樣分布近似服從均值為n、方差為62/n的正態(tài)分布。經(jīng)驗(yàn)法則是n>30時(shí)算是充分大,滿足中心極限定理要求。關(guān)于大樣本和小樣本:理論而言,小樣本
12、:樣本量固定,不論樣本量多少;大樣本:樣本量n-00經(jīng)驗(yàn)做法,大樣本:n>30小樣本:n<30第七章參數(shù)估計(jì)7.1.2 點(diǎn)估計(jì)與區(qū)間估計(jì)當(dāng)置信水平固定時(shí),置信區(qū)間的寬度隨著樣本量的增大而減小。95%的置信水平是指在用同樣方法構(gòu)造的總體參數(shù)的多個(gè)區(qū)間中,包含該總體參數(shù)的區(qū)間的比例為95%。這個(gè)概率不是用來(lái)描述某個(gè)特定區(qū)間包含真值的可能性,一個(gè)特定的區(qū)間總是包含或者絕不包含真值,不存在一會(huì)包含,一會(huì)不包含的問(wèn)題。用概率可以知道在多次抽樣得到的區(qū)間中大概有多少個(gè)包含了參數(shù)的真值。7.1.3 評(píng)估估計(jì)量的標(biāo)準(zhǔn)無(wú)偏性無(wú)偏性是指估計(jì)量抽樣分布的數(shù)學(xué)期望等于被估計(jì)的總體參數(shù)。有效性較小標(biāo)準(zhǔn)誤差的
13、點(diǎn)估計(jì)量比其他點(diǎn)估計(jì)量相對(duì)有效。一致性一個(gè)大樣本給出的估計(jì)量要比一個(gè)小樣本給出的估計(jì)量更接近總體參數(shù)。第八章假設(shè)檢驗(yàn)8.1 假設(shè)檢驗(yàn)的基本問(wèn)題假設(shè)檢驗(yàn)的基本思想:假設(shè)檢驗(yàn)推斷過(guò)程所依據(jù)的基本思想是小概率反證法思想。小概率思想是指發(fā)生概率很小的隨機(jī)事件,在某一次特定的實(shí)驗(yàn)中是幾乎不可能發(fā)生的。若小概率事件在一次實(shí)驗(yàn)中發(fā)生了則假設(shè)可能錯(cuò)誤。反證法思想是首先對(duì)總體參數(shù)值提出假設(shè),然后再利用樣本提供的信息去驗(yàn)證先前提出的假設(shè)是否成立。如果樣本數(shù)據(jù)不能夠充分證明和支持假設(shè),則在一定概率條件下,應(yīng)該拒絕該假設(shè);相反,如果樣本數(shù)據(jù)不能夠充分證明和支持假設(shè)是不成立的,則不能推翻假設(shè)成立的合理性和真實(shí)性。8.1
14、.2 假設(shè)的表達(dá)式原假設(shè)假定兩個(gè)或多個(gè)事物之間是等同的或沒(méi)有關(guān)系的,是變量之間無(wú)關(guān)的陳述。原假設(shè)表示否定的意義。備擇假設(shè)假定變量間存在一定的關(guān)系。零假設(shè)是變量之間無(wú)關(guān)的陳述,而研究假設(shè)是變量有關(guān)系的明確陳述。在邏輯上與原假設(shè)內(nèi)容完全對(duì)立的假設(shè)成為備擇假設(shè)。原假設(shè)與備擇假設(shè)在邏輯上是互斥的,肯定原假設(shè),則備擇假設(shè)就必須放棄;否定原假設(shè),則接受備擇假設(shè)。8.1.3 兩類錯(cuò)誤根據(jù)所犯錯(cuò)誤的類型,我們分為兩種類型:(舉例見(jiàn)教材P188)第一類:原假設(shè)為真,拒絕真假設(shè),犯此類錯(cuò)誤的概率為,稱為錯(cuò)誤或棄真錯(cuò)誤。第二類:原假設(shè)為偽,接受偽假設(shè),犯此類錯(cuò)誤的概率為,稱為錯(cuò)誤或取偽錯(cuò)誤。對(duì)原假設(shè)為真的判斷與概率
15、:(1)拒絕原真假設(shè)的概率為,也稱為顯著性水平。(2)接受原真假設(shè),做出正確判斷的概率為1-。在實(shí)踐中,由進(jìn)行假設(shè)檢驗(yàn)的人設(shè)定顯著性水平,一般取為0.05和0.01.通過(guò)選擇,控制了犯第一類錯(cuò)誤的概率。在應(yīng)用中,一般將只控制第一類錯(cuò)誤的結(jié)社檢驗(yàn)稱為顯著性檢驗(yàn)。許多假設(shè)檢驗(yàn)的應(yīng)用都屬于這一種類型。對(duì)原假設(shè)為偽的判斷與概率:(1)接受原偽假設(shè)的概率為(2)拒絕原偽假設(shè),做出正確判斷的概率為1-正確決策與犯錯(cuò)誤決策的概率歸納表見(jiàn)表8-1。我們希望犯這兩類錯(cuò)誤的概率越小越好。但是對(duì)于特定樣本量來(lái)說(shuō),不能同時(shí)做到犯這兩類錯(cuò)誤的概率都很小。如果減小錯(cuò)誤(棄真),則犯錯(cuò)(取偽錯(cuò)誤)的概率就增加。棄真取偽如果
16、減小錯(cuò)誤(取偽),則犯錯(cuò)誤(棄真錯(cuò)誤)的概率就增加。取偽棄真8.1.4 假設(shè)檢驗(yàn)的流程1 .提出原始假設(shè)和備擇假設(shè)2 .選擇檢驗(yàn)統(tǒng)計(jì)量3 .確定顯著性水平4 .根據(jù)數(shù)據(jù)計(jì)算出檢驗(yàn)統(tǒng)計(jì)量的值5 .得到檢驗(yàn)是否顯著的結(jié)論假設(shè)檢驗(yàn)決策的兩種方法:(1)臨界值法是利用檢驗(yàn)統(tǒng)計(jì)量與其臨界值進(jìn)行比較作出決策,根據(jù)檢驗(yàn)統(tǒng)計(jì)量落入的區(qū)域作出是否拒絕原假設(shè)的決策。若檢驗(yàn)統(tǒng)計(jì)量大于臨界值,落入拒絕域,則拒絕原假設(shè),反之,則不能拒絕原假設(shè)。以F檢驗(yàn)為例。若F>F,拒絕H0;若F<F,不拒絕H0( 2) P值法是根據(jù)檢驗(yàn)統(tǒng)計(jì)量的概率P值與顯著性水平,進(jìn)行比較,以要判定應(yīng)拒絕原假設(shè)還是不應(yīng)拒絕原假設(shè)。如果P
17、值小于顯著性水平,則拒絕原假設(shè);如果P值大于顯著性水平,則不能拒絕原假設(shè)。8.1.5利用P值進(jìn)行決策P值:當(dāng)原假設(shè)為真是所得到的樣本觀察結(jié)果或更極端結(jié)果出現(xiàn)的概率。P值決策原理:得到檢驗(yàn)統(tǒng)計(jì)量的概率P值后的決策就是要判定應(yīng)拒絕原假設(shè)還是不應(yīng)拒絕原假設(shè)。如果檢驗(yàn)統(tǒng)計(jì)量的概率P值小于顯著性水平,則拒絕原假設(shè);P值越小,拒絕原假設(shè)的理由就越充分。反之,如果檢驗(yàn)統(tǒng)計(jì)量的概率P值大于顯著性水平,則不應(yīng)拒絕原假設(shè)。8.2.1檢驗(yàn)統(tǒng)計(jì)量的確定檢驗(yàn)統(tǒng)計(jì)量選擇的影響因素:樣本量n、總體標(biāo)準(zhǔn)差。1 .樣本量在大樣本情況下,樣本量都服從正態(tài)分布,我們使用z統(tǒng)計(jì)量。2 .總體標(biāo)準(zhǔn)差是否已知3 1)總體標(biāo)準(zhǔn)差已知樣本統(tǒng)
18、計(jì)量服從正態(tài)分布,采用z統(tǒng)計(jì)量。4 2)總體標(biāo)準(zhǔn)差未知使用樣本標(biāo)準(zhǔn)差代替總體標(biāo)準(zhǔn)差,樣本統(tǒng)計(jì)量服從t分布,采用t統(tǒng)計(jì)量。當(dāng)n<30且總體標(biāo)準(zhǔn)差未知時(shí),采用t統(tǒng)計(jì)量;當(dāng)n>30時(shí),根據(jù)使用者偏好選擇z統(tǒng)計(jì)量還是t統(tǒng)計(jì)量。一個(gè)總體參數(shù)檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量的確定歸納為圖8-7,見(jiàn)教材p195。8.4.1 關(guān)于檢測(cè)結(jié)果的解釋通常統(tǒng)計(jì)學(xué)家建議我們?cè)跀⑹鲋胁捎谩安荒芫芙^Ho”而不采用“接受Ho”這種說(shuō)法。8.4.2 單側(cè)檢驗(yàn)中假設(shè)的建立在實(shí)際應(yīng)用中,我們通常把希望驗(yàn)證的命題放在備擇假設(shè),通過(guò)備擇假設(shè)來(lái)確定原假設(shè),即把原有的、傳統(tǒng)的觀點(diǎn)或結(jié)論放在原假設(shè)上。我們需要注意的是:如果沒(méi)有拒絕原假設(shè),并不意
19、味著原假設(shè)是真實(shí)的、真理,也并不意味著備擇假設(shè)就是錯(cuò)的,只是暫時(shí)沒(méi)有充分的證據(jù)證明原假設(shè)不成立(如同無(wú)罪假設(shè));接受備擇假設(shè)則一定意味著原假設(shè)是錯(cuò)誤的。關(guān)于何謂“原有的、傳統(tǒng)的”,原假設(shè),即原有理論、看法、狀況、歷史經(jīng)驗(yàn)、以及被大多數(shù)人認(rèn)可的事情,在沒(méi)有充分證據(jù)的情況下,被假定為正確的事情。關(guān)于何謂“新的、可能的”備擇假設(shè),即檢驗(yàn)者感興趣的那些新事物、可能的、猜測(cè)質(zhì)疑的問(wèn)題,希望用事實(shí)推翻原假設(shè)以得出新觀點(diǎn)。第十章方差分析10.1.1 方差分析及其有關(guān)術(shù)語(yǔ)方差分析是比較多個(gè)總體的均值是否相等的統(tǒng)計(jì)方法,本質(zhì)上主要是研究一個(gè)或多個(gè)分類自變量與一個(gè)數(shù)值型變量之間的關(guān)系(即分類自變量對(duì)數(shù)值型因變量的
20、影響)。10.1.2 方差分析的基本思想和原理2.誤差分解組內(nèi)誤差:來(lái)自水平內(nèi)部的數(shù)據(jù)誤差,反映了一個(gè)樣本內(nèi)部數(shù)據(jù)的離散程度。組內(nèi)誤差只含有隨機(jī)誤差。(見(jiàn)教材P238)組間誤差:來(lái)自不同水平之間的數(shù)據(jù)誤差,是隨機(jī)誤差和系統(tǒng)誤差的總和,反映了不同樣本之間數(shù)據(jù)的離散程度。在方差分析中,數(shù)據(jù)的誤差是用平方和來(lái)表示的??偲椒胶停⊿ST):反映全部數(shù)據(jù)誤差大小的平方和。教材P239誤差平方和(SSE):反映組內(nèi)誤差大小的平方和。教材P239因素平方和(SSA):反映組間誤差大小的平方和。教材P239SST=SSE+SSA10.1.3方差分析中的基本假定(1)每個(gè)總體應(yīng)服從于正態(tài)分布。(2)各總體的方差必
21、須相同。(3)觀測(cè)值是獨(dú)立的。10.2.2分析步驟1 .提出假設(shè)2 .構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量為構(gòu)造檢驗(yàn)的統(tǒng)計(jì)量,在方差分析中,需要計(jì)算三個(gè)誤差平方和。SSE:每個(gè)組的各樣本數(shù)據(jù)與其組均值的誤差平方和,反映了每個(gè)樣本各觀測(cè)值的離散程度(隨機(jī)誤差的大?。?。對(duì)隨機(jī)誤差大小的度量,反映了除自變量對(duì)因變量的影響之外,其他因素對(duì)因變量的總影響,也即殘差變量。殘差變量所引起的誤差成為殘差效應(yīng)。SSA:各組均值與總均值的誤差平方和,反映各樣本均值之間的差異程度。對(duì)隨機(jī)誤差和系統(tǒng)誤差大小的測(cè)度,反映了自變量對(duì)因變量的影響,稱為自變量效應(yīng)或因子效應(yīng)。SST:全部觀測(cè)值與總均值的誤差平方和。對(duì)全部數(shù)據(jù)總誤差程度的度量,反
22、映了自變量和殘差變量的共同影響,等于自變量效應(yīng)與殘差效應(yīng)之和??偲椒胶停⊿ST)=組間平方和(SSA)+組內(nèi)平方和(SSE)為了消除觀測(cè)值多少對(duì)誤差平方和大小的影響,需要將其平均,也就是用各平方和除以它們所對(duì)應(yīng)的自由度。計(jì)算結(jié)果成為均方或方差。三個(gè)平方和所對(duì)應(yīng)的自由度分別為:SST的自由度為n-1,其中n為全部觀測(cè)值的個(gè)數(shù)。SSA的自由度為k-1,其中k為因素水平的個(gè)數(shù)。SSE的自由度為n-koSSA的均方也稱為組間均方或組間方差,記為MSA,其計(jì)算公式:MSA=SSA/(k-1)SSE的均方也稱為組內(nèi)均方或組內(nèi)方差,記為MSE,其計(jì)算公式:MSE=SSE/(n-k)將上述MSA與MSE進(jìn)行對(duì)
23、比(MSA/MSE),即得到所需要的檢驗(yàn)統(tǒng)計(jì)量F。3 .統(tǒng)計(jì)決策如果F>F“,則拒絕原假設(shè),表明各水平的均值有顯著差異,也即所檢驗(yàn)的因素(行業(yè))對(duì)觀測(cè)值有顯著影響。如果F<F“,則不能拒絕原假設(shè),沒(méi)有證據(jù)表明各水平的均值有顯著差異,也即不能認(rèn)為所檢驗(yàn)的因素(行業(yè))對(duì)觀測(cè)值有顯著影響。在進(jìn)行決策時(shí),除了使用以上方法進(jìn)行判斷之外,還可以直接利用方差分析表中的P值與顯著性水平a的值進(jìn)行比較。如果P<a時(shí),則拒絕原假設(shè);如果P>a時(shí),則不能拒絕原假設(shè)。4 .方差分析表教材P246、P247,表10-4、表10-5,熟練掌握表中各字母及數(shù)值的代表意義、利用臨界值或P值進(jìn)行統(tǒng)計(jì)決策
24、。練習(xí)題:10.7(P263),熟練應(yīng)用。第十一章一元線性回歸11.1.1 變量間的關(guān)系函數(shù)關(guān)系:因變量隨著自變量一起變化,并完全依賴于自變量。一一對(duì)應(yīng)的確定關(guān)系。例如:銷售額與銷售量相關(guān)關(guān)系:非完全確定關(guān)系、一個(gè)變量的取值不能由另一個(gè)變量唯一確定。(比如:家庭儲(chǔ)蓄與家庭收入、父母身高與子女身高、教育程度與個(gè)人收入、產(chǎn)量與施肥量)。11.1.2 相關(guān)關(guān)系的描述與測(cè)度相關(guān)分析就是對(duì)兩個(gè)變量之間線性關(guān)系的描述與度量。它要解決的問(wèn)題包括:( 1)變量之間是否存在關(guān)系(YES/NO)( 2)存在什么樣的關(guān)系(What)( 3)關(guān)系強(qiáng)度如何?( 4)樣本能否代表總體關(guān)系相關(guān)系數(shù)相關(guān)系數(shù):根據(jù)統(tǒng)計(jì)數(shù)據(jù)計(jì)算
25、的度量?jī)蓚€(gè)變量之間線性關(guān)系強(qiáng)度的統(tǒng)計(jì)量。相關(guān)系數(shù)的性質(zhì):1 .r的取值范圍是-1,1若0<r1,正線性相關(guān);若-1r<0,負(fù)線性相關(guān);r=+1,完全正線性相關(guān);r=-1,完全負(fù)線性相關(guān);r=1,y的取值完全意外與x,二者為函數(shù)關(guān)系;r=0,無(wú)線性相關(guān)2 .r具有對(duì)稱性。rxy小3 .r的數(shù)值大小與x和y的原點(diǎn)及尺度無(wú)關(guān)。4 .r僅僅是x與y之間線性關(guān)系的度量,不能用于描述非線性關(guān)系。這意味著,當(dāng)r=0時(shí),只能表示兩變量之間不存在線性相關(guān)關(guān)系,但并不表示變量之間沒(méi)有任何關(guān)系,可能存在曲線相關(guān)關(guān)系。5 .r是兩變量之間線性關(guān)系的度量,但是不一定意味著x與y一定有因果關(guān)系。了解相關(guān)系數(shù)的
26、性質(zhì)有助于對(duì)其實(shí)際意義的解釋。根據(jù)實(shí)際計(jì)算出的r取值一般在-1與1之間;r取值越接近于1,則說(shuō)明兩變量之間的線性相關(guān)越強(qiáng);r取值越接近于0,則說(shuō)明兩變量之間的線性關(guān)系越弱。經(jīng)驗(yàn)法則:r0.8時(shí),可視為高度相關(guān)0.5r<0.8時(shí),可視為中度相關(guān)0.3|r<0.5時(shí),可視為低度相關(guān)r<0.3時(shí),可視為不相關(guān)11.2一元線性回歸回歸分析主要解決以下幾個(gè)方面的問(wèn)題:(1)從一組樣本數(shù)據(jù)出發(fā),確定變量之間的數(shù)學(xué)關(guān)系式。(2)對(duì)這些關(guān)系式的可信程度進(jìn)行各種統(tǒng)計(jì)檢驗(yàn),并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著,哪些是不顯著的。(3)利用所求的關(guān)系式,根據(jù)一個(gè)或幾個(gè)變量的取值來(lái)
27、估計(jì)或預(yù)測(cè)另一個(gè)特定變量的取值,并給出這種估計(jì)或預(yù)測(cè)的可靠程度。11.2.1一元線性回歸模型3.估計(jì)的回歸方程11.2.2 參數(shù)的最小二乘估計(jì)最小二乘估計(jì)的思想原理最小二乘法估計(jì)的基本出發(fā)點(diǎn)是:應(yīng)使每個(gè)樣本點(diǎn)(x,yj與回歸線上的對(duì)應(yīng)點(diǎn)(xi,E(yi)在垂直方向上的利差平方和最小。最小二乘法是利用樣本數(shù)據(jù),通過(guò)使應(yīng)變量的觀測(cè)值y與應(yīng)變量的估計(jì)值?之間的離差平方和達(dá)到最小的方法求得?0和?1的值。11.2.3 回歸直線的擬合優(yōu)度1.判定系數(shù)判定系數(shù)是對(duì)估計(jì)的回歸方程擬合優(yōu)度的度量。SST分解為兩部分:SSR和SSE。SST=SSR+SSE回歸直線擬合的好壞取決于SSR及SSE的大小,或者取決于SSR(回歸平方和)占SST(總平方和)的比例(SSR/SST)的大小。SSR/SST越大,各觀測(cè)點(diǎn)越靠近直線,回歸直線擬合越好。SSR/SST被稱為判定系數(shù)。公式見(jiàn)P261判定系數(shù)R2測(cè)度了回歸直線對(duì)觀測(cè)數(shù)據(jù)的擬合程度。若所有觀測(cè)點(diǎn)都落在直線上,那么估計(jì)的回歸方程將給出一個(gè)完全的擬合。在這種情
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國(guó)逆變直流手工弧焊/氬焊雙用機(jī)數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)單人型光波浴房數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 二零二五年度爬架租賃業(yè)務(wù)戰(zhàn)略合作框架合同4篇
- 二零二四年度新媒體主播網(wǎng)絡(luò)直播內(nèi)容版權(quán)合作合同3篇
- 2025年度美國(guó)新移民必知的移民政策解析與法律服務(wù)合同3篇
- 2025年度科技項(xiàng)目出差補(bǔ)貼與保障服務(wù)合同3篇
- 2025年度個(gè)人傭金提成及獎(jiǎng)勵(lì)合同3篇
- 二零二五版南匯農(nóng)業(yè)志版權(quán)授權(quán)合同4篇
- 二零二五年度物業(yè)小區(qū)門衛(wèi)安全防護(hù)服務(wù)合同4篇
- 2025年中國(guó)汽車零部件信息化行業(yè)市場(chǎng)全景調(diào)研及投資規(guī)劃建議報(bào)告
- 《風(fēng)電場(chǎng)項(xiàng)目經(jīng)濟(jì)評(píng)價(jià)規(guī)范》(NB-T 31085-2016)
- GB/T 43391-2023市場(chǎng)、民意和社會(huì)調(diào)查調(diào)查報(bào)告編制指南
- 拔罐技術(shù)操作考核評(píng)分標(biāo)準(zhǔn)
- 戒賭法律協(xié)議書范本
- 競(jìng)選市級(jí)三好學(xué)生PPT
- 2024屆甘肅省蘭州市五十一中生物高一上期末檢測(cè)模擬試題含解析
- 高標(biāo)準(zhǔn)農(nóng)田建設(shè)上圖入庫(kù)(技術(shù)培訓(xùn))
- 火災(zāi)隱患整改登記表
- 天津華寧KTC101說(shuō)明書
- 【智慧校園】-智慧校園系統(tǒng)方案
- 外研版高中新教材英語(yǔ)單詞表(必修一)
評(píng)論
0/150
提交評(píng)論