版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《應(yīng)用統(tǒng)計(jì)學(xué)》筆記第一章統(tǒng)計(jì)學(xué)導(dǎo)論1.1統(tǒng)計(jì)學(xué)的定義與作用統(tǒng)計(jì)學(xué)是一門(mén)研究如何收集、整理、分析和解釋數(shù)據(jù)的科學(xué)。它不僅涉及對(duì)數(shù)據(jù)的描述,還包括通過(guò)數(shù)據(jù)分析來(lái)推斷總體特征以及預(yù)測(cè)未來(lái)趨勢(shì)。統(tǒng)計(jì)學(xué)在科學(xué)研究、商業(yè)決策、政策制定和社會(huì)科學(xué)等多個(gè)領(lǐng)域中發(fā)揮著重要作用。定義:統(tǒng)計(jì)學(xué)是利用數(shù)學(xué)方法對(duì)數(shù)據(jù)進(jìn)行處理的一門(mén)學(xué)科。作用:描述性統(tǒng)計(jì):總結(jié)和展示數(shù)據(jù)的基本特征。推斷性統(tǒng)計(jì):基于樣本數(shù)據(jù)對(duì)總體參數(shù)進(jìn)行估計(jì)或檢驗(yàn)假設(shè)。預(yù)測(cè)分析:根據(jù)歷史數(shù)據(jù)預(yù)測(cè)未來(lái)的趨勢(shì)或行為。1.2數(shù)據(jù)類(lèi)型與數(shù)據(jù)收集在統(tǒng)計(jì)學(xué)中,正確理解不同類(lèi)型的數(shù)據(jù)對(duì)于后續(xù)的分析至關(guān)重要。常見(jiàn)的數(shù)據(jù)類(lèi)型包括定量數(shù)據(jù)和定性數(shù)據(jù)。定量數(shù)據(jù)(QuantitativeData):可以進(jìn)行數(shù)值運(yùn)算的數(shù)據(jù),分為離散型和連續(xù)型。離散型數(shù)據(jù):只能取整數(shù)或有限個(gè)值,如人數(shù)、車(chē)輛數(shù)量等。連續(xù)型數(shù)據(jù):可以在一定區(qū)間內(nèi)取任意值,如溫度、時(shí)間等。定性數(shù)據(jù)(QualitativeData):描述性質(zhì)或?qū)傩缘臄?shù)據(jù),通常是非數(shù)值形式。名義數(shù)據(jù):沒(méi)有順序關(guān)系的分類(lèi)數(shù)據(jù),如性別、顏色等。有序數(shù)據(jù):具有順序關(guān)系的分類(lèi)數(shù)據(jù),如教育水平(小學(xué)、中學(xué)、大學(xué))。數(shù)據(jù)收集的方法多種多樣,每種方法都有其適用場(chǎng)景和局限性:觀察法:直接觀察并記錄現(xiàn)象,適用于自然狀態(tài)下的數(shù)據(jù)收集。實(shí)驗(yàn)法:控制某些變量,觀察其他變量的變化,適用于因果關(guān)系的研究。調(diào)查問(wèn)卷:通過(guò)設(shè)計(jì)問(wèn)卷收集信息,廣泛應(yīng)用于社會(huì)科學(xué)研究。1.3統(tǒng)計(jì)軟件介紹隨著計(jì)算機(jī)技術(shù)的發(fā)展,統(tǒng)計(jì)分析變得越來(lái)越依賴(lài)于軟件工具。常用的統(tǒng)計(jì)軟件有R、SPSS、SAS和Excel等。R語(yǔ)言:開(kāi)源且功能強(qiáng)大的統(tǒng)計(jì)計(jì)算和圖形繪制軟件,適合科研人員和高級(jí)用戶(hù)。安裝與基本操作:從CRAN網(wǎng)站下載并安裝R和RStudio,熟悉工作環(huán)境和基本命令。SPSS:用戶(hù)友好的統(tǒng)計(jì)軟件,廣泛應(yīng)用于社會(huì)科學(xué)領(lǐng)域。數(shù)據(jù)導(dǎo)入與處理:學(xué)習(xí)如何導(dǎo)入數(shù)據(jù)文件、進(jìn)行數(shù)據(jù)清洗和變量定義。SAS:企業(yè)級(jí)統(tǒng)計(jì)軟件,適用于大規(guī)模數(shù)據(jù)分析。編程基礎(chǔ):了解SAS程序結(jié)構(gòu),掌握數(shù)據(jù)步和過(guò)程步的基本語(yǔ)法。Excel:辦公軟件中的表格處理工具,適合初級(jí)數(shù)據(jù)分析。常用函數(shù):SUM,AVERAGE,COUNT,VLOOKUP等,用于簡(jiǎn)單的數(shù)據(jù)處理和可視化。第二章描述性統(tǒng)計(jì)2.1頻數(shù)分布表和直方圖頻數(shù)分布表和直方圖是描述數(shù)據(jù)分布的有效工具。頻數(shù)分布表:將數(shù)據(jù)按照一定的區(qū)間分組,并統(tǒng)計(jì)每個(gè)區(qū)間的頻數(shù)。步驟:確定數(shù)據(jù)范圍。選擇合適的組距。計(jì)算各組的頻數(shù)。直方圖:用條形圖表示頻數(shù)分布,條形的高度代表頻數(shù)。制作步驟:畫(huà)出橫軸和縱軸。標(biāo)注橫軸上的組界。在每個(gè)組界上畫(huà)出相應(yīng)高度的條形。2.2中心趨勢(shì)度量中心趨勢(shì)度量用來(lái)描述一組數(shù)據(jù)的集中趨勢(shì),主要包括平均數(shù)、中位數(shù)和眾數(shù)。平均數(shù)(Mean):所有數(shù)據(jù)之和除以數(shù)據(jù)個(gè)數(shù)。公式:xˉ=∑xinxˉ=n∑xi??特點(diǎn):受極端值影響較大。中位數(shù)(Median):將數(shù)據(jù)按大小順序排列后位于中間位置的值。計(jì)算方法:奇數(shù)個(gè)數(shù)據(jù):中間位置的值。偶數(shù)個(gè)數(shù)據(jù):中間兩個(gè)值的平均數(shù)。特點(diǎn):不受極端值影響。眾數(shù)(Mode):出現(xiàn)次數(shù)最多的值。特點(diǎn):可以有多個(gè)眾數(shù),適用于定性數(shù)據(jù)。2.3離散程度度量離散程度度量用來(lái)描述數(shù)據(jù)的分散程度,主要指標(biāo)有方差、標(biāo)準(zhǔn)差、極差和四分位差。方差(Variance):衡量數(shù)據(jù)偏離平均數(shù)的程度。公式:s2=∑(xi?xˉ)2n?1s2=n?1∑(xi??xˉ)2?標(biāo)準(zhǔn)差(StandardDeviation):方差的平方根,單位與原始數(shù)據(jù)相同。公式:s=s2s=s2?極差(Range):最大值與最小值之差。公式:R=max?(x)?min?(x)R=max(x)?min(x)四分位差(InterquartileRange,IQR):第75百分位數(shù)(Q3)與第25百分位數(shù)(Q1)之差。公式:IQR=Q3-Q12.4圖形展示圖形展示是直觀地呈現(xiàn)數(shù)據(jù)分布和關(guān)系的重要手段,常用的圖形包括散點(diǎn)圖、箱線(xiàn)圖和正態(tài)概率圖。散點(diǎn)圖(ScatterPlot):展示兩個(gè)變量之間的關(guān)系。用途:發(fā)現(xiàn)相關(guān)性、異常值。箱線(xiàn)圖(BoxPlot):展示數(shù)據(jù)的五數(shù)概括(最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)、最大值)。用途:識(shí)別異常值、比較不同組的數(shù)據(jù)分布。正態(tài)概率圖(NormalProbabilityPlot):檢查數(shù)據(jù)是否符合正態(tài)分布。用途:評(píng)估數(shù)據(jù)的正態(tài)性。第三章概率基礎(chǔ)3.1事件與樣本空間事件是隨機(jī)試驗(yàn)中可能發(fā)生的任何結(jié)果,而樣本空間則是所有可能結(jié)果的集合。事件(Event):一個(gè)或多個(gè)結(jié)果的集合。簡(jiǎn)單事件:只有一個(gè)結(jié)果的事件。復(fù)合事件:包含多個(gè)結(jié)果的事件。樣本空間(SampleSpace,S):所有可能結(jié)果的集合。示例:拋一枚硬幣的樣本空間為{正面,反面}。3.2概率的計(jì)算概率是描述事件發(fā)生可能性的數(shù)值,介于0到1之間。古典概率:當(dāng)所有結(jié)果等可能時(shí),事件A的概率為:公式:P(A)=事件A的結(jié)果數(shù)總結(jié)果數(shù)P(A)=總結(jié)果數(shù)事件A的結(jié)果數(shù)?幾何概率:適用于無(wú)限多個(gè)結(jié)果的情況,例如在一個(gè)區(qū)域內(nèi)隨機(jī)選擇一點(diǎn)。公式:P(A)=事件A對(duì)應(yīng)的區(qū)域面積總區(qū)域面積P(A)=總區(qū)域面積事件A對(duì)應(yīng)的區(qū)域面積?3.3條件概率與獨(dú)立性條件概率是指在已知某事件B發(fā)生的情況下,事件A發(fā)生的概率。獨(dú)立事件是指兩個(gè)事件的發(fā)生互不影響。條件概率(ConditionalProbability):公式:P(A∣B)=P(A∩B)P(B)P(A∣B)=P(B)P(A∩B)?解釋?zhuān)涸贐發(fā)生的條件下A發(fā)生的概率。獨(dú)立事件:定義:如果P(A∣B)=P(A)P(A∣B)=P(A),則A和B是獨(dú)立事件。乘法規(guī)則:如果A和B是獨(dú)立事件,則P(A∩B)=P(A)?P(B)P(A∩B)=P(A)?P(B)3.4概率分布概率分布描述了隨機(jī)變量取各個(gè)值的概率。離散型隨機(jī)變量的概率分布:概率質(zhì)量函數(shù)(ProbabilityMassFunction,PMF):P(X=x)P(X=x)累積分布函數(shù)(CumulativeDistributionFunction,CDF):F(x)=P(X≤x)F(x)=P(X≤x)連續(xù)型隨機(jī)變量的概率分布:概率密度函數(shù)(ProbabilityDensityFunction,PDF):f(x)累積分布函數(shù)(CDF):F(x)=∫?∞xf(t)?dtF(x)=∫?∞x?f(t)dt第四章離散型概率分布4.1二項(xiàng)分布二項(xiàng)分布是離散型概率分布的一種,描述了在n次獨(dú)立的伯努利試驗(yàn)中成功次數(shù)的概率分布。每次試驗(yàn)只有兩種可能的結(jié)果:成功或失敗。定義:如果一個(gè)隨機(jī)變量X表示n次獨(dú)立的伯努利試驗(yàn)中的成功次數(shù),且每次試驗(yàn)成功的概率為p,則X服從參數(shù)為n和p的二項(xiàng)分布。公式:P(X=k)=(nk)pk(1?p)n?kP(X=k)=(kn?)pk(1?p)n?k其中,(nk)(kn?)
是組合數(shù),表示從n次試驗(yàn)中選擇k次成功的組合方式。期望與方差:期望(ExpectedValue):E(X)=npE(X)=np方差(Variance):Var(X)=np(1?p)Var(X)=np(1?p)4.2泊松分布泊松分布是一種描述單位時(shí)間內(nèi)事件發(fā)生次數(shù)的概率分布,適用于稀有事件的發(fā)生率分析。定義:如果一個(gè)隨機(jī)變量X表示在固定時(shí)間間隔內(nèi)某事件發(fā)生的次數(shù),且該事件的平均發(fā)生率為λ,則X服從參數(shù)為λ的泊松分布。公式:P(X=k)=λke?λk!P(X=k)=k!λke?λ?其中,e是自然對(duì)數(shù)的底數(shù),約為2.71828。期望與方差:期望:E(X)=λE(X)=λ方差:Var(X)=λVar(X)=λ泊松分布的應(yīng)用:電話(huà)呼叫中心的來(lái)電量預(yù)測(cè)交通流量分析放射性衰變計(jì)數(shù)4.3超幾何分布超幾何分布用于描述有限總體中不放回抽樣時(shí)的成功次數(shù)的概率分布。定義:如果一個(gè)隨機(jī)變量X表示從含有N個(gè)物品的總體中抽取n個(gè)物品(不放回),其中有K個(gè)成功物品,則X服從參數(shù)為N,K,n的超幾何分布。公式:P(X=k)=(Kk)(N?Kn?k)(Nn)P(X=k)=(nN?)(kK?)(n?kN?K?)?其中,(Kk)(kK?)
表示從K個(gè)成功物品中選擇k個(gè)的組合數(shù)。期望與方差:期望:E(X)=nKNE(X)=nNK?方差:Var(X)=nKN(1?KN)N?nN?1Var(X)=nNK?(1?NK?)N?1N?n?超幾何分布的應(yīng)用:質(zhì)量控制中的抽樣檢驗(yàn)生物學(xué)中的基因頻率分析第五章連續(xù)型概率分布5.1正態(tài)分布正態(tài)分布(NormalDistribution)是最重要也是最常見(jiàn)的連續(xù)型概率分布之一,廣泛應(yīng)用于自然科學(xué)和社會(huì)科學(xué)領(lǐng)域。定義:如果一個(gè)隨機(jī)變量X的密度函數(shù)為f(x)=1σ2πe?(x?μ)22σ2f(x)=σ2π?1?e?2σ2(x?μ)2?則X服從均值為μ、標(biāo)準(zhǔn)差為σ的正態(tài)分布,記作
X~N(μ,σ2)X~N(μ,σ2)。性質(zhì):對(duì)稱(chēng)性:正態(tài)分布關(guān)于均值μ對(duì)稱(chēng)。68-95-99.7規(guī)則:約68%的數(shù)據(jù)落在均值的一個(gè)標(biāo)準(zhǔn)差范圍內(nèi),95%的數(shù)據(jù)落在兩個(gè)標(biāo)準(zhǔn)差范圍內(nèi),99.7%的數(shù)據(jù)落在三個(gè)標(biāo)準(zhǔn)差范圍內(nèi)。標(biāo)準(zhǔn)正態(tài)分布:當(dāng)均值μ=0,標(biāo)準(zhǔn)差σ=1時(shí),稱(chēng)為標(biāo)準(zhǔn)正態(tài)分布,記作
Z~N(0,1)Z~N(0,1)。Z分?jǐn)?shù)轉(zhuǎn)換:將任意正態(tài)分布轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布,使用公式
Z=X?μσZ=σX?μ?。正態(tài)分布的應(yīng)用:身高、體重等生理特征的分布測(cè)量誤差分析金融市場(chǎng)的收益率分析5.2t分布t分布(Student'st-distribution)是正態(tài)分布的小樣本近似,常用于小樣本數(shù)據(jù)的統(tǒng)計(jì)推斷。定義:如果一個(gè)隨機(jī)變量T的密度函數(shù)為f(t)=Γ(ν+12)νπ?Γ(ν2)(1+t2ν)?ν+12f(t)=νπ?Γ(2ν?)Γ(2ν+1?)?(1+νt2?)?2ν+1?則T服從自由度為ν的t分布,記作
T~t(ν)T~t(ν)。性質(zhì):當(dāng)自由度ν較大時(shí),t分布趨近于標(biāo)準(zhǔn)正態(tài)分布。t分布的峰度比正態(tài)分布更高,尾部更厚。t分布的應(yīng)用:小樣本均值的區(qū)間估計(jì)假設(shè)檢驗(yàn)中的t檢驗(yàn)5.3卡方分布卡方分布(Chi-SquaredDistribution)是多個(gè)獨(dú)立標(biāo)準(zhǔn)正態(tài)分布平方和的概率分布,常用于擬合優(yōu)度檢驗(yàn)和獨(dú)立性檢驗(yàn)。定義:如果一個(gè)隨機(jī)變量X的密度函數(shù)為f(x;k)=12k/2Γ(k/2)xk/2?1e?x/2f(x;k)=2k/2Γ(k/2)1?xk/2?1e?x/2則X服從自由度為k的卡方分布,記作
X~χ2(k)X~χ2(k)。性質(zhì):卡方分布是非負(fù)的。隨著自由度增加,卡方分布逐漸接近正態(tài)分布??ǚ椒植嫉膽?yīng)用:擬合優(yōu)度檢驗(yàn)方差分析獨(dú)立性檢驗(yàn)5.4F分布F分布(F-Distribution)是兩個(gè)獨(dú)立卡方分布的比值的概率分布,常用于方差分析(ANOVA)和回歸分析中的假設(shè)檢驗(yàn)。定義:如果一個(gè)隨機(jī)變量F的密度函數(shù)為f(x;d1,d2)=(d1x)d1d2d2(d1x+d2)d1+d2xB(d12,d22)f(x;d1?,d2?)=xB(2d1??,2d2??)(d1?x+d2?)d1?+d2?(d1?x)d1?d2d2?????則F服從第一自由度為d1、第二自由度為d2的F分布,記作
F~F(d1,d2)F~F(d1?,d2?)。性質(zhì):F分布是非負(fù)的。當(dāng)d1和d2都較大時(shí),F(xiàn)分布趨近于正態(tài)分布。F分布的應(yīng)用:方差分析中的F檢驗(yàn)回歸分析中的方差齊性檢驗(yàn)第六章抽樣與抽樣分布6.1抽樣的基本原則抽樣是從總體中選取一部分個(gè)體進(jìn)行研究的過(guò)程,目的是通過(guò)對(duì)樣本的研究來(lái)推斷總體的特征。簡(jiǎn)單隨機(jī)抽樣(SimpleRandomSampling,SRS):每個(gè)個(gè)體被選中的概率相同。方法:使用隨機(jī)數(shù)表或計(jì)算機(jī)生成的隨機(jī)數(shù)進(jìn)行抽樣。分層抽樣(StratifiedSampling):將總體分成若干互不重疊的子群體(層),然后從每一層中隨機(jī)抽取樣本。優(yōu)點(diǎn):提高樣本的代表性,減少抽樣誤差。系統(tǒng)抽樣(SystematicSampling):按一定順序排列總體,每隔固定的間隔抽取一個(gè)個(gè)體。方法:確定抽樣間隔k,從1到k中隨機(jī)選擇一個(gè)起始點(diǎn),然后每隔k個(gè)個(gè)體抽取一個(gè)樣本。整群抽樣(ClusterSampling):將總體分成若干群組,隨機(jī)抽取一些群組作為樣本,然后對(duì)這些群組中的所有個(gè)體進(jìn)行調(diào)查。優(yōu)點(diǎn):操作簡(jiǎn)便,適合大規(guī)模調(diào)查。6.2抽樣誤差抽樣誤差是指由于樣本不能完全代表總體而產(chǎn)生的誤差。定義:抽樣誤差是樣本統(tǒng)計(jì)量與總體參數(shù)之間的差異。影響因素:樣本大?。簶颖驹酱螅闃诱`差越小??傮w變異程度:總體變異越大,抽樣誤差越大。抽樣方法:不同的抽樣方法會(huì)導(dǎo)致不同程度的抽樣誤差。減小抽樣誤差的方法:增加樣本量采用更有效的抽樣方法提高數(shù)據(jù)質(zhì)量6.3中心極限定理中心極限定理(CentralLimitTheorem,CLT)是統(tǒng)計(jì)學(xué)中的一個(gè)重要定理,描述了大量獨(dú)立同分布的隨機(jī)變量之和的分布趨近于正態(tài)分布。定理內(nèi)容:對(duì)于任意分布的總體,當(dāng)樣本容量足夠大時(shí)(通常n≥30),樣本均值的分布趨近于正態(tài)分布,其均值等于總體均值,方差等于總體方差除以樣本容量。公式:若總體均值為μ,總體方差為σ2,則樣本均值XˉXˉ的分布為Xˉ~N(μ,σ2n)Xˉ~N(μ,nσ2?)應(yīng)用:樣本均值的置信區(qū)間的構(gòu)建假設(shè)檢驗(yàn)中的z檢驗(yàn)6.4抽樣分布抽樣分布是指樣本統(tǒng)計(jì)量(如樣本均值、樣本比例等)的概率分布。樣本均值的抽樣分布:中心極限定理:當(dāng)樣本容量足夠大時(shí),樣本均值的分布趨近于正態(tài)分布。標(biāo)準(zhǔn)誤差:樣本均值的標(biāo)準(zhǔn)誤差為SEXˉ=σnSEXˉ?=n?σ?樣本比例的抽樣分布:二項(xiàng)分布近似:當(dāng)樣本容量足夠大時(shí),樣本比例的分布可以近似為正態(tài)分布。標(biāo)準(zhǔn)誤差:樣本比例的標(biāo)準(zhǔn)誤差為SEp^=p(1?p)nSEp^??=np(1?p)??
第七章參數(shù)估計(jì)7.1點(diǎn)估計(jì)點(diǎn)估計(jì)是通過(guò)樣本數(shù)據(jù)來(lái)估計(jì)總體參數(shù)的一種方法。它提供了一個(gè)具體的數(shù)值作為參數(shù)的估計(jì)值。定義:點(diǎn)估計(jì)是用一個(gè)統(tǒng)計(jì)量(如樣本均值、樣本比例等)來(lái)估計(jì)總體參數(shù)。常用點(diǎn)估計(jì)量:樣本均值
XˉXˉ
估計(jì)總體均值
μμ。樣本方差
S2S2
估計(jì)總體方差
σ2σ2。樣本比例
p^p^?
估計(jì)總體比例
pp。無(wú)偏性:如果估計(jì)量的期望值等于被估計(jì)的參數(shù),則該估計(jì)量是無(wú)偏的。公式:E(θ^)=θE(θ^)=θ有效性:在所有無(wú)偏估計(jì)量中,具有最小方差的估計(jì)量是最有效的。公式:Var(θ^1)≤Var(θ^2)Var(θ^1?)≤Var(θ^2?)7.2區(qū)間估計(jì)區(qū)間估計(jì)是通過(guò)樣本數(shù)據(jù)來(lái)估計(jì)總體參數(shù)的一個(gè)范圍,而不是一個(gè)具體的數(shù)值。這個(gè)范圍通常包含真實(shí)的總體參數(shù),并且有一定的置信水平。置信區(qū)間(ConfidenceInterval,CI):給定一個(gè)置信水平
1?α1?α,置信區(qū)間是一個(gè)隨機(jī)區(qū)間,有
1?α1?α
的概率包含真實(shí)的總體參數(shù)。構(gòu)造步驟:選擇估計(jì)量:選擇合適的統(tǒng)計(jì)量(如樣本均值
XˉXˉ)。確定標(biāo)準(zhǔn)誤差:計(jì)算估計(jì)量的標(biāo)準(zhǔn)誤差(如
σnn?σ?
或
Snn?S?)。選擇臨界值:根據(jù)置信水平
1?α1?α
和分布類(lèi)型(如正態(tài)分布或t分布),查找相應(yīng)的臨界值(如
zα/2zα/2?
或
tα/2,n?1tα/2,n?1?)。構(gòu)建置信區(qū)間:使用公式
Xˉ±zα/2?σnXˉ±zα/2??n?σ?
或
Xˉ±tα/2,n?1?SnXˉ±tα/2,n?1??n?S?
構(gòu)建置信區(qū)間。常見(jiàn)置信區(qū)間的構(gòu)造:總體均值的置信區(qū)間:已知總體方差
σ2σ2:Xˉ±zα/2?σnXˉ±zα/2??n?σ?未知總體方差
σ2σ2:Xˉ±tα/2,n?1?SnXˉ±tα/2,n?1??n?S?總體比例的置信區(qū)間:p^±zα/2?p^(1?p^)np^?±zα/2??np^?(1?p^?)??7.3總體均值的區(qū)間估計(jì)總體均值的區(qū)間估計(jì)是基于樣本均值和標(biāo)準(zhǔn)誤差來(lái)估計(jì)總體均值的一個(gè)范圍。已知總體方差
σ2σ2:公式:Xˉ±zα/2?σnXˉ±zα/2??n?σ?應(yīng)用:當(dāng)總體方差已知時(shí),可以使用正態(tài)分布來(lái)構(gòu)造置信區(qū)間。未知總體方差
σ2σ2:公式:Xˉ±tα/2,n?1?SnXˉ±tα/2,n?1??n?S?應(yīng)用:當(dāng)總體方差未知時(shí),需要使用t分布來(lái)構(gòu)造置信區(qū)間。樣本大小的影響:增加樣本大小可以減小置信區(qū)間的寬度,提高估計(jì)的精度。置信水平的影響:提高置信水平會(huì)增加置信區(qū)間的寬度,降低估計(jì)的精度。7.4總體比例的區(qū)間估計(jì)總體比例的區(qū)間估計(jì)是基于樣本比例來(lái)估計(jì)總體比例的一個(gè)范圍。公式:p^±zα/2?p^(1?p^)np^?±zα/2??np^?(1?p^?)??應(yīng)用:適用于二項(xiàng)分布數(shù)據(jù),如調(diào)查中的支持率、患病率等。樣本大小的影響:增加樣本大小可以減小置信區(qū)間的寬度,提高估計(jì)的精度。置信水平的影響:提高置信水平會(huì)增加置信區(qū)間的寬度,降低估計(jì)的精度。第八章假設(shè)檢驗(yàn)8.1假設(shè)檢驗(yàn)的基本原理假設(shè)檢驗(yàn)是一種統(tǒng)計(jì)方法,用于判斷關(guān)于總體參數(shù)的某個(gè)假設(shè)是否成立。它通過(guò)樣本數(shù)據(jù)來(lái)推斷總體參數(shù)的真實(shí)情況。原假設(shè)(NullHypothesis,
H0H0?):假設(shè)總體參數(shù)等于某個(gè)特定值。備擇假設(shè)(AlternativeHypothesis,
H1H1?):假設(shè)總體參數(shù)不等于、大于或小于某個(gè)特定值。顯著性水平(SignificanceLevel,
αα):預(yù)先設(shè)定的拒絕原假設(shè)的概率閾值。P值(P-value):在原假設(shè)成立的情況下,觀察到當(dāng)前樣本結(jié)果或更極端結(jié)果的概率。決策規(guī)則:如果P值小于顯著性水平
αα,則拒絕原假設(shè)。如果P值大于或等于顯著性水平
αα,則不拒絕原假設(shè)。8.2I類(lèi)錯(cuò)誤與II類(lèi)錯(cuò)誤在假設(shè)檢驗(yàn)中,可能會(huì)犯兩種類(lèi)型的錯(cuò)誤:I類(lèi)錯(cuò)誤和II類(lèi)錯(cuò)誤。I類(lèi)錯(cuò)誤(TypeIError):當(dāng)原假設(shè)
H0H0?
為真時(shí),錯(cuò)誤地拒絕了原假設(shè)。概率:記作
αα,即顯著性水平。II類(lèi)錯(cuò)誤(TypeIIError):當(dāng)原假設(shè)
H0H0?
為假時(shí),錯(cuò)誤地接受了原假設(shè)。概率:記作
ββ。功效(PoweroftheTest):正確拒絕原假設(shè)的概率,即
1?β1?β。影響因素:樣本大小:增大樣本大小可以減少I(mǎi)類(lèi)錯(cuò)誤和II類(lèi)錯(cuò)誤的概率。顯著性水平:提高顯著性水平
αα
可以減少I(mǎi)類(lèi)錯(cuò)誤的概率,但會(huì)增加II類(lèi)錯(cuò)誤的概率。效應(yīng)大?。盒?yīng)越大,越容易檢測(cè)到,從而減少I(mǎi)I類(lèi)錯(cuò)誤的概率。8.3單個(gè)總體均值的檢驗(yàn)單個(gè)總體均值的檢驗(yàn)是通過(guò)樣本均值來(lái)檢驗(yàn)總體均值是否等于某個(gè)特定值。已知總體方差
σ2σ2:Z檢驗(yàn):公式:Z=Xˉ?μ0σ/nZ=σ/n?Xˉ?μ0??應(yīng)用:當(dāng)總體方差已知時(shí),使用正態(tài)分布進(jìn)行檢驗(yàn)。未知總體方差
σ2σ2:t檢驗(yàn):公式:t=Xˉ?μ0S/nt=S/n?Xˉ?μ0??應(yīng)用:當(dāng)總體方差未知時(shí),使用t分布進(jìn)行檢驗(yàn)。步驟:提出假設(shè):設(shè)定原假設(shè)
H0H0?
和備擇假設(shè)
H1H1?。選擇顯著性水平
αα。計(jì)算檢驗(yàn)統(tǒng)計(jì)量:根據(jù)樣本數(shù)據(jù)計(jì)算Z或t值。確定臨界值:查找相應(yīng)的臨界值
zα/2zα/2?
或
tα/2,n?1tα/2,n?1?。做出決策:比較檢驗(yàn)統(tǒng)計(jì)量與臨界值,決定是否拒絕原假設(shè)。8.4單個(gè)總體比例的檢驗(yàn)單個(gè)總體比例的檢驗(yàn)是通過(guò)樣本比例來(lái)檢驗(yàn)總體比例是否等于某個(gè)特定值。公式:Z=p^?p0p0(1?p0)nZ=np0?(1?p0?)??p^??p0??應(yīng)用:適用于二項(xiàng)分布數(shù)據(jù),如調(diào)查中的支持率、患病率等。步驟:提出假設(shè):設(shè)定原假設(shè)
H0H0?
和備擇假設(shè)
H1H1?。選擇顯著性水平
αα。計(jì)算檢驗(yàn)統(tǒng)計(jì)量:根據(jù)樣本數(shù)據(jù)計(jì)算Z值。確定臨界值:查找相應(yīng)的臨界值
zα/2zα/2?。做出決策:比較檢驗(yàn)統(tǒng)計(jì)量與臨界值,決定是否拒絕原假設(shè)。第九章兩個(gè)總體的比較9.1兩個(gè)獨(dú)立樣本均值的比較兩個(gè)獨(dú)立樣本均值的比較是通過(guò)兩組獨(dú)立樣本的數(shù)據(jù)來(lái)檢驗(yàn)兩個(gè)總體均值是否存在顯著差異。已知總體方差
σ12σ12?
和
σ22σ22?:Z檢驗(yàn):公式:Z=(Xˉ1?Xˉ2)?(μ1?μ2)σ12n1+σ22n2Z=n1?σ12??+n2?σ22???(Xˉ1??Xˉ2?)?(μ1??μ2?)?應(yīng)用:當(dāng)兩個(gè)總體方差已知時(shí),使用正態(tài)分布進(jìn)行檢驗(yàn)。未知總體方差
σ12σ12?
和
σ22σ22?:t檢驗(yàn):公式:t=(Xˉ1?Xˉ2)?(μ1?μ2)S12n1+S22n2t=n1?S12??+n2?S22???(Xˉ1??Xˉ2?)?(μ1??μ2?)?應(yīng)用:當(dāng)兩個(gè)總體方差未知時(shí),使用t分布進(jìn)行檢驗(yàn)。方差齊性檢驗(yàn):在進(jìn)行t檢驗(yàn)之前,需要檢驗(yàn)兩個(gè)總體的方差是否相等。F檢驗(yàn):公式:F=S12S22F=S22?S12??應(yīng)用:如果F值落在臨界值范圍內(nèi),則認(rèn)為方差相等。步驟:提出假設(shè):設(shè)定原假設(shè)
H0H0?
和備擇假設(shè)
H1H1?。選擇顯著性水平
αα。計(jì)算檢驗(yàn)統(tǒng)計(jì)量:根據(jù)樣本數(shù)據(jù)計(jì)算Z或t值。確定臨界值:查找相應(yīng)的臨界值
zα/2zα/2?
或
tα/2,dftα/2,df?。做出決策:比較檢驗(yàn)統(tǒng)計(jì)量與臨界值,決定是否拒絕原假設(shè)。9.2成對(duì)樣本均值的比較成對(duì)樣本均值的比較是通過(guò)配對(duì)樣本的數(shù)據(jù)來(lái)檢驗(yàn)兩個(gè)總體均值是否存在顯著差異。t檢驗(yàn):公式:t=Dˉ?μDSD/nt=SD?/n?Dˉ?μD??應(yīng)用:適用于前后測(cè)量、對(duì)照實(shí)驗(yàn)等配對(duì)設(shè)計(jì)。其中:DˉDˉ
是差值的均值,SDSD?
是差值的標(biāo)準(zhǔn)差,nn
是樣本對(duì)數(shù)。步驟:提出假設(shè):設(shè)定原假設(shè)
H0H0?
和備擇假設(shè)
H1H1?。選擇顯著性水平
αα。計(jì)算檢驗(yàn)統(tǒng)計(jì)量:根據(jù)樣本數(shù)據(jù)計(jì)算t值。確定臨界值:查找相應(yīng)的臨界值
tα/2,n?1tα/2,n?1?。做出決策:比較檢驗(yàn)統(tǒng)計(jì)量與臨界值,決定是否拒絕原假設(shè)。9.3兩個(gè)總體比例的比較兩個(gè)總體比例的比較是通過(guò)兩組獨(dú)立樣本的數(shù)據(jù)來(lái)檢驗(yàn)兩個(gè)總體比例是否存在顯著差異。Z檢驗(yàn):公式:Z=(p^1?p^2)?(p1?p2)p^(1?p^)(1n1+1n2)Z=p^?(1?p^?)(n1?1?+n2?1?)?(p^?1??p^?2?)?(p1??p2?)?其中:p^=x1+x2n1+n2p^?=n1?+n2?x1?+x2??,x1x1?
和
x2x2?
分別是兩組樣本中成功事件的數(shù)量。應(yīng)用:適用于二項(xiàng)分布數(shù)據(jù),如不同群體的支持率、患病率等。步驟:提出假設(shè):設(shè)定原假設(shè)
H0H0?
和備擇假設(shè)
H1H1?。選擇顯著性水平
αα。計(jì)算檢驗(yàn)統(tǒng)計(jì)量:根據(jù)樣本數(shù)據(jù)計(jì)算Z值。確定臨界值:查找相應(yīng)的臨界值
zα/2zα/2?。做出決策:比較檢驗(yàn)統(tǒng)計(jì)量與臨界值,決定是否拒絕原假設(shè)。第十章方差分析10.1單因素ANOVA單因素方差分析(One-WayANOVA)用于比較兩個(gè)或多個(gè)獨(dú)立組的均值是否存在顯著差異。它假設(shè)所有組的數(shù)據(jù)來(lái)自具有相同方差的正態(tài)分布總體。定義:?jiǎn)我蛩胤讲罘治鍪峭ㄟ^(guò)比較組間變異與組內(nèi)變異來(lái)判斷不同組的均值是否顯著不同的方法。基本原理:組間變異(Between-GroupsVariance,
SSBSSB):各組均值與總均值之間的差異。組內(nèi)變異(Within-GroupsVariance,
SSWSSW):每個(gè)組內(nèi)部數(shù)據(jù)與其組均值之間的差異??傋儺悾═otalVariance,
SSTSST):所有數(shù)據(jù)與其總均值之間的差異。公式:SST=SSB+SSWSST=SSB+SSWF統(tǒng)計(jì)量:計(jì)算公式:F=MSBMSWF=MSWMSB?其中:MSB=SSBdfBMSB=dfB?SSB?,MSW=SSWdfWMSW=dfW?SSW?自由度:dfB=k?1dfB?=k?1,dfW=N?kdfW?=N?k,kk
是組數(shù),NN
是總樣本量。步驟:提出假設(shè):原假設(shè)
H0H0?:所有組的均值相等;備擇假設(shè)
H1H1?:至少有一組的均值與其他組不同。選擇顯著性水平
αα。計(jì)算F統(tǒng)計(jì)量:根據(jù)樣本數(shù)據(jù)計(jì)算F值。確定臨界值:查找相應(yīng)的臨界值
Fα,dfB,dfWFα,dfB?,dfW??。做出決策:如果F值大于臨界值,則拒絕原假設(shè),否則不拒絕原假設(shè)。10.2多重比較在單因素ANOVA中,當(dāng)拒絕原假設(shè)時(shí),表明至少有一組的均值與其他組不同,但具體哪些組之間存在顯著差異需要進(jìn)一步進(jìn)行多重比較。TukeyHSD法(HonestlySignificantDifference):定義:通過(guò)計(jì)算每對(duì)組均值之間的差異,并與一個(gè)臨界值進(jìn)行比較,以確定哪些組之間存在顯著差異。公式:q=Xˉi?XˉjMSWnq=nMSW??Xˉi??Xˉj??臨界值:查表得到
qα,k,N?kqα,k,N?k?Bonferroni校正:定義:通過(guò)對(duì)每個(gè)比較的顯著性水平進(jìn)行調(diào)整,以控制整體的I類(lèi)錯(cuò)誤率。公式:調(diào)整后的顯著性水平
α′=αmα′=mα?,其中
mm
是比較的次數(shù)。其他方法:Duncan'sMultipleRangeTestScheffé'sMethod10.3雙因素ANOVA雙因素方差分析(Two-WayANOVA)用于研究?jī)蓚€(gè)因素及其交互作用對(duì)響應(yīng)變量的影響。定義:雙因素方差分析考慮了兩個(gè)因素(A和B)及其交互作用對(duì)響應(yīng)變量的影響。主效應(yīng)(MainEffects):因素A的主效應(yīng):不同水平的A對(duì)響應(yīng)變量的影響。因素B的主效應(yīng):不同水平的B對(duì)響應(yīng)變量的影響。交互效應(yīng)(InteractionEffect):定義:因素A和因素B的組合對(duì)響應(yīng)變量的影響。公式:交互效應(yīng)的檢驗(yàn)通過(guò)計(jì)算交互項(xiàng)的平方和
SSABSSAB?
并構(gòu)造F統(tǒng)計(jì)量來(lái)進(jìn)行。模型:無(wú)重復(fù)測(cè)量的設(shè)計(jì):每個(gè)單元格只有一個(gè)觀測(cè)值。有重復(fù)測(cè)量的設(shè)計(jì):每個(gè)單元格有多個(gè)觀測(cè)值。步驟:提出假設(shè):設(shè)定原假設(shè)
H0H0?
和備擇假設(shè)
H1H1?。選擇顯著性水平
αα。計(jì)算平方和:計(jì)算各個(gè)效應(yīng)的平方和
SSASSA?,
SSBSSB?,
SSABSSAB?,
SSWSSW。計(jì)算F統(tǒng)計(jì)量:構(gòu)造F統(tǒng)計(jì)量
FAFA?,
FBFB?,
FABFAB?。確定臨界值:查找相應(yīng)的臨界值
Fα,dfA,dfWFα,dfA?,dfW??,
Fα,dfB,dfWFα,dfB?,dfW??,
Fα,dfAB,dfWFα,dfAB?,dfW??。做出決策:比較F統(tǒng)計(jì)量與臨界值,決定是否拒絕原假設(shè)。第十一章回歸分析11.1簡(jiǎn)單線(xiàn)性回歸簡(jiǎn)單線(xiàn)性回歸(SimpleLinearRegression)是一種用于研究?jī)蓚€(gè)連續(xù)變量之間線(xiàn)性關(guān)系的方法。定義:簡(jiǎn)單線(xiàn)性回歸通過(guò)擬合一條直線(xiàn)來(lái)描述自變量
XX
與因變量
YY
之間的關(guān)系。模型:Y=β0+β1X+?Y=β0?+β1?X+?其中:β0β0?
是截距,β1β1?
是斜率,??
是誤差項(xiàng)。最小二乘法(LeastSquaresMethod):目標(biāo):使殘差平方和最小化。公式:∑(Yi?Y^i)2∑(Yi??Y^i?)2
最小估計(jì)參數(shù):β^1=∑(Xi?Xˉ)(Yi?Yˉ)∑(Xi?Xˉ)2β^?1?=∑(Xi??Xˉ)2∑(Xi??Xˉ)(Yi??Yˉ)?,β^0=Yˉ?β^1Xˉβ^?0?=Yˉ?β^?1?Xˉ假設(shè)檢驗(yàn):斜率的顯著性檢驗(yàn):t=β^1SE(β^1)t=SE(β^?1?)β^?1??相關(guān)系數(shù)
rr:衡量
XX
和
YY
之間的線(xiàn)性相關(guān)程度。應(yīng)用:預(yù)測(cè)因變量
YY
的值評(píng)估自變量
XX
對(duì)因變量
YY
的影響11.2多元線(xiàn)性回歸多元線(xiàn)性回歸(MultipleLinearRegression)是一種用于研究多個(gè)自變量與一個(gè)因變量之間線(xiàn)性關(guān)系的方法。定義:多元線(xiàn)性回歸通過(guò)擬合一個(gè)平面或超平面來(lái)描述多個(gè)自變量
X1,X2,…,XkX1?,X2?,…,Xk?
與因變量
YY
之間的關(guān)系。模型:Y=β0+β1X1+β2X2+?+βkXk+?Y=β0?+β1?X1?+β2?X2?+?+βk?Xk?+?最小二乘法:目標(biāo):使殘差平方和最小化。公式:∑(Yi?Y^i)2∑(Yi??Y^i?)2
最小估計(jì)參數(shù):使用矩陣方法或逐步回歸法估計(jì)參數(shù)。假設(shè)檢驗(yàn):整體顯著性檢驗(yàn):F=MSRMSEF=MSEMSR?,其中
MSRMSR
是回歸平方和的均值,MSEMSE
是誤差平方和的均值。個(gè)別回歸系數(shù)的顯著性檢驗(yàn):t=β^jSE(β^j)t=SE(β^?j?)β^?j??應(yīng)用:預(yù)測(cè)因變量
YY
的值評(píng)估多個(gè)自變量對(duì)因變量
YY
的聯(lián)合影響11.3回歸診斷回歸診斷用于評(píng)估回歸模型的假設(shè)是否成立,以及模型的擬合效果如何。殘差分析:定義:殘差是實(shí)際觀測(cè)值與預(yù)測(cè)值之間的差異。圖形:殘差圖、標(biāo)準(zhǔn)化殘差圖目的:檢查殘差是否符合正態(tài)分布、是否存在異方差、是否有異常值異方差性:定義:誤差項(xiàng)的方差隨自變量的變化而變化。檢測(cè)方法:Breusch-Pagan檢驗(yàn)、White檢驗(yàn)解決方法:加權(quán)最小二乘法(WeightedLeastSquares,WLS)多重共線(xiàn)性:定義:自變量之間存在高度相關(guān)性。檢測(cè)方法:方差膨脹因子(VIF)解決方法:刪除冗余變量、使用主成分回歸(PCR)、嶺回歸(RidgeRegression)異常值檢測(cè):定義:離群點(diǎn)是指與其他觀測(cè)值顯著不同的數(shù)據(jù)點(diǎn)。檢測(cè)方法:Cook'sDistance、Leverage處理方法:刪除異常值、穩(wěn)健回歸第十二章相關(guān)分析12.1Pearson相關(guān)系數(shù)Pearson相關(guān)系數(shù)(PearsonCorrelationCoefficient)用于衡量?jī)蓚€(gè)連續(xù)變量之間的線(xiàn)性相關(guān)程度。定義:Pearson相關(guān)系數(shù)
rr
表示兩個(gè)變量
XX
和
YY
之間的線(xiàn)性相關(guān)程度。公式:r=∑(Xi?Xˉ)(Yi?Yˉ)∑(Xi?Xˉ)2∑(Yi?Yˉ)2r=∑(Xi??Xˉ)2∑(Yi??Yˉ)2?∑(Xi??Xˉ)(Yi??Yˉ)?取值范圍:?1≤r≤1?1≤r≤1r=1r=1:完全正相關(guān)r=?1r=?1:完全負(fù)相關(guān)r=0r=0:無(wú)線(xiàn)性相關(guān)顯著性檢驗(yàn):假設(shè):H0:ρ=0H0?:ρ=0,H1:ρ≠0H1?:ρ=0檢驗(yàn)統(tǒng)計(jì)量:t=rn?21?r2t=1?r2?rn?2??自由度:df=n?2df=n?212.2Spearman秩相關(guān)Spearman秩相關(guān)(SpearmanRankCorrelation)用于衡量?jī)蓚€(gè)變量之間的單調(diào)關(guān)系,適用于非線(xiàn)性關(guān)系或定序數(shù)據(jù)。定義:Spearman秩相關(guān)系數(shù)
rsrs?
表示兩個(gè)變量
XX
和
YY
之間的單調(diào)相關(guān)程度。公式:rs=1?6∑di2n(n2?1)rs?=1?n(n2?1)6∑di2??其中,didi?
是
XX
和
YY
的秩次之差。取值范圍:?1≤rs≤1?1≤rs?≤1rs=1rs?=1:完全正單調(diào)相關(guān)rs=?1rs?=?1:完全負(fù)單調(diào)相關(guān)rs=0rs?=0:無(wú)單調(diào)相關(guān)顯著性檢驗(yàn):假設(shè):H0:ρs=0H0?:ρs?=0,H1:ρs≠0H1?:ρs?=0檢驗(yàn)統(tǒng)計(jì)量:t=rsn?21?rs2t=1?rs2??rs?n?2??自由度:df=n?2df=n?212.3Kendall'stauKendall'stau(肯德?tīng)柕燃?jí)相關(guān)系數(shù))用于衡量?jī)蓚€(gè)變量之間的單調(diào)關(guān)系,適用于小樣本數(shù)據(jù)。定義:Kendall'stau
ττ
表示兩個(gè)變量
XX
和
YY
之間的單調(diào)相關(guān)程度。公式:τ=P?Q(P+Q+Tx)(P+Q+Ty)τ=(P+Q+Tx?)(P+Q+Ty?)?P?Q?其中,PP
是一致對(duì)數(shù),QQ
是不一致對(duì)數(shù),TxTx?
和
TyTy?
是結(jié)點(diǎn)數(shù)。取值范圍:?1≤τ≤1?1≤τ≤1τ=1τ=1:完全正單調(diào)相關(guān)τ=?1τ=?1:完全負(fù)單調(diào)相關(guān)τ=0τ=0:無(wú)單調(diào)相關(guān)顯著性檢驗(yàn):假設(shè):H0:τ=0H0?:τ=0,H1:τ≠0H1?:τ=0檢驗(yàn)統(tǒng)計(jì)量:z=3τn(n?1)2(2n+5)z=2(2n+5)?3τn(n?1)??自由度:df=1df=1第十三章時(shí)間序列分析13.1時(shí)間序列的基本概念時(shí)間序列(TimeSeries)是一組按時(shí)間順序排列的數(shù)據(jù),通常用于分析和預(yù)測(cè)未來(lái)趨勢(shì)。定義:時(shí)間序列是一組按時(shí)間順序記錄的數(shù)據(jù)點(diǎn)。組成:趨勢(shì)(Trend):長(zhǎng)期的上升或下降趨勢(shì)。季節(jié)性(Seasonality):周期性的波動(dòng)。周期性(Cyclicality):非固定的、較長(zhǎng)周期的波動(dòng)。隨機(jī)性(Randomness):不可預(yù)測(cè)的隨機(jī)波動(dòng)。平穩(wěn)性(Stationarity):定義:時(shí)間序列的統(tǒng)計(jì)特性(如均值、方差)不隨時(shí)間變化。重要性:許多時(shí)間序列分析方法要求數(shù)據(jù)是平穩(wěn)的。分解:加法模型:Yt=Tt+St+Ct+RtYt?=Tt?+St?+Ct?+Rt?乘法模型:Yt=Tt×St×Ct×RtYt?=Tt?×St?×Ct?×Rt?13.2平滑技術(shù)平滑技術(shù)用于減少時(shí)間序列中的隨機(jī)波動(dòng),使其更容易識(shí)別趨勢(shì)和季節(jié)性。移動(dòng)平均法(MovingAverage,MA):定義:通過(guò)計(jì)算一定窗口內(nèi)的平均值來(lái)平滑數(shù)據(jù)。公式:MAt=1k∑i=0k?1Yt?iMAt?=k1?∑i=0k?1?Yt?i?優(yōu)點(diǎn):簡(jiǎn)單易用缺點(diǎn):滯后效應(yīng)指數(shù)平滑法(ExponentialSmoothing,ES):定義:通過(guò)賦予近期數(shù)據(jù)更高的權(quán)重來(lái)平滑數(shù)據(jù)。公式:ESt=αYt+(1?α)ESt?1ESt?=αYt?+(1?α)ESt?1?參數(shù):平滑系數(shù)
αα(0<
αα
<1)類(lèi)型:簡(jiǎn)單指數(shù)平滑:適用于無(wú)趨勢(shì)、無(wú)季節(jié)性的數(shù)據(jù)雙重指數(shù)平滑(Holt'sMethod):適用于有趨勢(shì)的數(shù)據(jù)三重指數(shù)平滑(Holt-WintersMethod):適用于有趨勢(shì)和季節(jié)性的數(shù)據(jù)13.3自回歸模型自回歸模型(AutoregressiveModel,AR)用于建模時(shí)間序列數(shù)據(jù),基于當(dāng)前值與過(guò)去值之間的線(xiàn)性關(guān)系。定義:AR(p)模型表示當(dāng)前值
YtYt?
是其前p個(gè)值的線(xiàn)性組合加上一個(gè)誤差項(xiàng)。公式:Yt=c+?1Yt?1+?2Yt?2+?+?pYt?p+?tYt?=c+?1?Yt?1?+?2?Yt?2?+?+?p?Yt?p?+?t?其中,cc
是常數(shù)項(xiàng),?1,?2,…,?p?1?,?2?,…,?p?
是自回歸系數(shù),?t?t?
是誤差項(xiàng)。參數(shù)估計(jì):使用最大似然估計(jì)或最小二乘法估計(jì)參數(shù)。模型選擇:通過(guò)AIC(AkaikeInformationCriterion)或BIC(BayesianInformationCriterion)選擇最優(yōu)模型。13.4季節(jié)性時(shí)間序列模型季節(jié)性時(shí)間序列模型用于處理具有明顯季節(jié)性特征的時(shí)間序列數(shù)據(jù)。SARIMA模型(SeasonalAutoregressiveIntegratedMovingAverage):定義:結(jié)合自回歸、差分、移動(dòng)平均和平穩(wěn)性處理的季節(jié)性時(shí)間序列模型。公式:SARIMA(p,d,q)(P,D,Q)s其中,p,d,q分別是非季節(jié)部分的自回歸階數(shù)、差分階數(shù)和移動(dòng)平均階數(shù)。P,D,Q分別是季節(jié)部分的自回歸階數(shù)、差分階數(shù)和移動(dòng)平均階數(shù)。s是季節(jié)周期長(zhǎng)度。季節(jié)性調(diào)整:定義:從時(shí)間序列中去除季節(jié)性成分,以便更好地分析趨勢(shì)和其他特征。方法:X-13ARIMA-SEATS、TRAMO/SEATS應(yīng)用:經(jīng)濟(jì)指標(biāo):GDP、失業(yè)率氣象數(shù)據(jù):溫度、降水量銷(xiāo)售數(shù)據(jù):月度銷(xiāo)售額第十四章非參數(shù)統(tǒng)計(jì)方法14.1符號(hào)檢驗(yàn)符號(hào)檢驗(yàn)(SignTest)是一種非參數(shù)檢驗(yàn)方法,用于檢驗(yàn)兩個(gè)相關(guān)樣本的中位數(shù)是否相同。它基于符號(hào)(正或負(fù))的數(shù)量來(lái)進(jìn)行假設(shè)檢驗(yàn)。定義:符號(hào)檢驗(yàn)通過(guò)比較兩組配對(duì)數(shù)據(jù)之間的差異符號(hào)來(lái)判斷兩組數(shù)據(jù)的中位數(shù)是否有顯著差異。步驟:提出假設(shè):原假設(shè)
H0H0?:中位數(shù)差為0;備擇假設(shè)
H1H1?:中位數(shù)差不為0。選擇顯著性水平
αα。計(jì)算差異符號(hào):對(duì)于每一對(duì)數(shù)據(jù),計(jì)算其差值,并記錄差值的符號(hào)(正或負(fù))。統(tǒng)計(jì)符號(hào)數(shù)量:計(jì)算正符號(hào)和負(fù)符號(hào)的數(shù)量。確定臨界值:根據(jù)樣本大小查找相應(yīng)的臨界值。做出決策:如果正符號(hào)或負(fù)符號(hào)的數(shù)量落在拒絕域內(nèi),則拒絕原假設(shè),否則不拒絕原假設(shè)。應(yīng)用:比較治療前后的效果檢驗(yàn)兩種測(cè)量方法的一致性14.2Wilcoxon符號(hào)秩檢驗(yàn)Wilcoxon符號(hào)秩檢驗(yàn)(WilcoxonSigned-RankTest)是符號(hào)檢驗(yàn)的一種擴(kuò)展,不僅考慮了符號(hào),還考慮了差值的大小。定義:Wilcoxon符號(hào)秩檢驗(yàn)通過(guò)比較兩組配對(duì)數(shù)據(jù)之間的差異符號(hào)及其大小來(lái)判斷兩組數(shù)據(jù)的中位數(shù)是否有顯著差異。步驟:提出假設(shè):原假設(shè)
H0H0?:中位數(shù)差為0;備擇假設(shè)
H1H1?:中位數(shù)差不為0。選擇顯著性水平
αα。計(jì)算差異:對(duì)于每一對(duì)數(shù)據(jù),計(jì)算其差值。排除零差值:去掉差值為0的數(shù)據(jù)。排序并賦予秩:按絕對(duì)值從小到大對(duì)差值進(jìn)行排序,并賦予秩。計(jì)算秩和:分別計(jì)算正秩和與負(fù)秩和。確定臨界值:根據(jù)樣本大小查找相應(yīng)的臨界值。做出決策:如果較小的秩和落在拒絕域內(nèi),則拒絕原假設(shè),否則不拒絕原假設(shè)。應(yīng)用:比較治療前后的效果檢驗(yàn)兩種測(cè)量方法的一致性14.3Mann-WhitneyU檢驗(yàn)Mann-WhitneyU檢驗(yàn)(Mann-WhitneyUTest)是一種非參數(shù)檢驗(yàn)方法,用于比較兩個(gè)獨(dú)立樣本的分布是否存在顯著差異。定義:Mann-WhitneyU檢驗(yàn)通過(guò)比較兩個(gè)獨(dú)立樣本的秩次來(lái)判斷它們的分布是否有顯著差異。步驟:提出假設(shè):原假設(shè)
H0H0?:兩個(gè)總體的分布相同;備擇假設(shè)
H1H1?:兩個(gè)總體的分布不同。選擇顯著性水平
αα。合并數(shù)據(jù)并排序:將兩個(gè)樣本合并,并按大小順序排列。賦秩:給每個(gè)數(shù)據(jù)點(diǎn)賦予一個(gè)秩次。計(jì)算秩和:分別計(jì)算兩個(gè)樣本的秩和。計(jì)算U統(tǒng)計(jì)量:U1=n1n2+n1(n1+1)2?R1U1?=n1?n2?+2n1?(n1?+1)??R1?
U2=n1n2+n2(n2+1)2?R2U2?=n1?n2?+2n2?(n2?+1)??R2?
其中,R1R1?
和
R2R2?
分別是兩個(gè)樣本的秩和。確定臨界值:根據(jù)樣本大小查找相應(yīng)的臨界值。做出決策:如果較小的U值落在拒絕域內(nèi),則拒絕原假設(shè),否則不拒絕原假設(shè)。應(yīng)用:比較兩個(gè)獨(dú)立樣本的中心位置檢驗(yàn)兩個(gè)處理組的效果差異14.4Kruskal-Wallis檢驗(yàn)Kruskal-Wallis檢驗(yàn)(Kruskal-WallisHTest)是一種非參數(shù)檢驗(yàn)方法,用于比較多個(gè)獨(dú)立樣本的分布是否存在顯著差異。定義:Kruskal-Wallis檢驗(yàn)通過(guò)比較多個(gè)獨(dú)立樣本的秩次來(lái)判斷它們的分布是否有顯著差異。步驟:提出假設(shè):原假設(shè)
H0H0?:所有總體的分布相同;備擇假設(shè)
H1H1?:至少有一個(gè)總體的分布與其他不同。選擇顯著性水平
αα。合并數(shù)據(jù)并排序:將所有樣本合并,并按大小順序排列。賦秩:給每個(gè)數(shù)據(jù)點(diǎn)賦予一個(gè)秩次。計(jì)算秩和:分別計(jì)算每個(gè)樣本的秩和。計(jì)算H統(tǒng)計(jì)量:H=12N(N+1)∑i=1kRi2ni?3(N+1)H=N(N+1)12?∑i=1k?ni?Ri2???3(N+1)
其中,NN
是總樣本量,kk
是樣本組數(shù),RiRi?
是第
ii
組的秩和,nini?
是第
ii
組的樣本量。確定臨界值:根據(jù)自由度
df=k?1df=k?1
查找相應(yīng)的臨界值。做出決策:如果H值大于臨界值,則拒絕原假設(shè),否則不拒絕原假設(shè)。應(yīng)用:比較多個(gè)獨(dú)立樣本的中心位置檢驗(yàn)多個(gè)處理組的效果差異第十五章統(tǒng)計(jì)軟件實(shí)戰(zhàn)15.1R語(yǔ)言入門(mén)R語(yǔ)言是一種開(kāi)源的統(tǒng)計(jì)計(jì)算和圖形繪制軟件,廣泛應(yīng)用于數(shù)據(jù)分析、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)建模等領(lǐng)域。15.2SPSS實(shí)戰(zhàn)SPSS(StatisticalPackagefortheSocialSciences)是一種用戶(hù)友好的統(tǒng)計(jì)分析軟件,廣泛應(yīng)用于社會(huì)科學(xué)領(lǐng)域。數(shù)據(jù)導(dǎo)入與處理:導(dǎo)入數(shù)據(jù):File->Open->Data
選擇文件類(lèi)型(如CSV、Excel)導(dǎo)入數(shù)據(jù)。查看數(shù)據(jù):在數(shù)據(jù)視圖中查看導(dǎo)入的數(shù)據(jù)。變量定義:在變量視圖中定義變量屬性(名
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東科貿(mào)職業(yè)學(xué)院《嵌入式測(cè)控系統(tǒng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東警官學(xué)院《數(shù)字邏輯與EDA技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東江門(mén)中醫(yī)藥職業(yè)學(xué)院《移動(dòng)應(yīng)用開(kāi)發(fā)A》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東技術(shù)師范大學(xué)《計(jì)算機(jī)輔助設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東海洋大學(xué)《環(huán)境大數(shù)據(jù)處理課程設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東第二師范學(xué)院《人體解剖生理學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東財(cái)貿(mào)職業(yè)學(xué)院《智能物流系統(tǒng)設(shè)計(jì)I》2023-2024學(xué)年第一學(xué)期期末試卷
- 《包裝機(jī)械生產(chǎn)線(xiàn)》課件
- 《淚器病及治療》課件
- 廣東碧桂園職業(yè)學(xué)院《勞動(dòng)教育II》2023-2024學(xué)年第一學(xué)期期末試卷
- 200句搞定中考英語(yǔ)詞匯
- 2024年型材切割機(jī)市場(chǎng)需求分析報(bào)告
- 二型糖尿病足
- 汽車(chē)文化教案(汽車(chē)發(fā)展史)
- 實(shí)習(xí)生安全教育培訓(xùn)課件
- 土木工程認(rèn)識(shí)實(shí)習(xí)報(bào)告
- 服務(wù)區(qū)安全生產(chǎn)培訓(xùn)
- 兒童顱內(nèi)腫瘤的診斷與手術(shù)治療
- 家長(zhǎng)的陪伴孩子的寒假守護(hù)
- IATA區(qū)域的劃分(TC1區(qū))
- 蒸汽梯級(jí)利用能評(píng)報(bào)告
評(píng)論
0/150
提交評(píng)論