人民大學(xué)多元統(tǒng)計(jì)_第1頁(yè)
人民大學(xué)多元統(tǒng)計(jì)_第2頁(yè)
人民大學(xué)多元統(tǒng)計(jì)_第3頁(yè)
人民大學(xué)多元統(tǒng)計(jì)_第4頁(yè)
人民大學(xué)多元統(tǒng)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多元統(tǒng)計(jì)大數(shù)定律:切比雪夫大數(shù)定理,伯努利大數(shù)定理,辛欽大數(shù)定理(最常用)a)辛欽大數(shù)定律:設(shè)為獨(dú)立同分布的隨機(jī)變量序列,若山的數(shù)學(xué)期望存在,limP—£二[則服從大數(shù)定律:即對(duì)任意的£>0,有公式三:L|心1中心極限定理:從均值為u,方差為sigma方的總體中任意抽取樣本量為n的樣本,當(dāng)樣本量充分大的時(shí)候,樣本均值X-bar服從均值為u,方差為n分之sigma方的正態(tài)分布;格力文科定理:當(dāng)n相當(dāng)大時(shí)經(jīng)驗(yàn)分布函數(shù)是總體分布函數(shù)的一個(gè)良好近似變量值:從一次觀察到另一次觀察呈現(xiàn)差別或者發(fā)生變化的某種特征(變量)隨機(jī)變量:隨機(jī)試驗(yàn)結(jié)果數(shù)量化;變量按照隨機(jī)規(guī)律所取的值?分布:統(tǒng)計(jì)學(xué)的核心概念隨機(jī)變量的分布:隨機(jī)變量的所有取值,以及其對(duì)應(yīng)的概率的一攬子表示;包含兩個(gè)意思,第一,隨機(jī)變量的每個(gè)取值都包含在內(nèi),第二,取值對(duì)應(yīng)的概率都包含在內(nèi);隨機(jī)變量的分布:a)總體分布:??b)樣本分布:??c)抽樣分布:??參數(shù):總體的某種特征,是我們所關(guān)心的感興趣的,或者要研究的總體的某個(gè)或者某些方面的數(shù)量表現(xiàn);10?總體:所有個(gè)體的集合稱(chēng)為總體,個(gè)體規(guī)模N樣本:被抽中的個(gè)體稱(chēng)為樣本,對(duì)應(yīng)的規(guī)模是樣本量n總體均值a)問(wèn)題:憑什么用樣本均值估計(jì)總體b)回答:因?yàn)榭傮w均值是變量,但不是隨機(jī)變量,它由隨機(jī)變量來(lái)確定,也就是有樣本均值會(huì)服從以總體均值為期望的~~~分布(就是中心極限定理)為什么服從t分布??d和alpha和n和N的關(guān)系:公式見(jiàn)書(shū)上1-f:n和N的關(guān)系工與s的關(guān)系a)問(wèn)題:為什么不用小工,用sb)回答:因?yàn)楣の粗秸`和其估計(jì)的異同?R"2相當(dāng)于y-hat和y的相關(guān)系數(shù)?P(AB)-P(A)*P(B)二距離??Spearman和pearson相關(guān)系數(shù)的等價(jià)性?施密特變換和主成分變換的異同??隨機(jī)抽樣:抽取樣本的時(shí)候,總體中每個(gè)個(gè)體都有同等機(jī)會(huì)選入樣本中隨機(jī)樣本:從總體中隨機(jī)抽樣得到的樣本;隨機(jī)試驗(yàn):?隨機(jī)試驗(yàn):a)條件試驗(yàn)可以重復(fù)進(jìn)行試驗(yàn)的所有可能結(jié)果事先是知道的;每一次試驗(yàn)之前無(wú)法預(yù)知結(jié)果(這是隨機(jī)的本質(zhì)性質(zhì))所有的試驗(yàn)結(jié)果用一個(gè)變量表示,每一種試驗(yàn)結(jié)果都對(duì)應(yīng)一個(gè)變量值;一個(gè)變量值只是一種試驗(yàn)結(jié)果的記號(hào)或代碼;“隨機(jī)試驗(yàn)=隨機(jī)抽樣”的原因:由于變量值只有在抽樣后的調(diào)查才能獲得,所以顯然不能認(rèn)為試驗(yàn)的所有可能結(jié)果已知,不能滿足設(shè)計(jì)實(shí)驗(yàn)三個(gè)條件中的第二個(gè);因此隨機(jī)試驗(yàn)結(jié)果只能理解為樣本(受查客體的集合),于是實(shí)驗(yàn)只能理解為隨機(jī)抽樣尤其是簡(jiǎn)單隨機(jī)抽樣;簡(jiǎn)單隨機(jī)抽樣:就是一個(gè)典型的隨機(jī)試驗(yàn),N中抽取n,依不放回抽樣方式一舉從中抽取n個(gè)個(gè)體構(gòu)成一個(gè)樣本,若將其看成實(shí)驗(yàn),則完全滿足隨機(jī)試驗(yàn)的三個(gè)條件;其中“可重復(fù)”這個(gè)條件是在理想進(jìn)行,所有條件環(huán)境均可嚴(yán)格控制;隨機(jī)試驗(yàn)之結(jié)論變量值不是試驗(yàn)的直接結(jié)果,而是隨機(jī)抽樣的連帶結(jié)果;正因此變量值才可以合理的被當(dāng)作是隨機(jī)實(shí)驗(yàn)結(jié)果。而所有實(shí)驗(yàn)結(jié)果才能可以用隨機(jī)變量來(lái)概括反映;變量值是隨機(jī)變量,一定是因?yàn)樽兞恐凳菑碾S機(jī)抽樣調(diào)查中取得的;隨機(jī)性僅僅來(lái)源于隨機(jī)抽樣;實(shí)體與屬性:概念:實(shí)體:人們能清晰感知其邊界范圍的客觀存在屬性:是實(shí)體的組成構(gòu)建或者附在其上的性質(zhì),可以區(qū)分此實(shí)體與不同類(lèi)的實(shí)體,也可以區(qū)分與同類(lèi)的其他實(shí)體;關(guān)系:屬性不能離開(kāi)實(shí)體,不同實(shí)體的區(qū)分借助屬性實(shí)現(xiàn);多個(gè)屬性組合在一起的組合體就是實(shí)體描述實(shí)體的特征稱(chēng)為屬性意義:一個(gè)屬性值對(duì)應(yīng)一個(gè)個(gè)體,而屬性值可以對(duì)個(gè)體分類(lèi)或者作為個(gè)體的一種標(biāo)識(shí),所以隨機(jī)試驗(yàn)結(jié)果可以用隨機(jī)變量表示;??概率個(gè)體承載試驗(yàn)結(jié)果,不同個(gè)體對(duì)應(yīng)相同試驗(yàn)結(jié)果;存在兩種概率解釋?zhuān)簜€(gè)體是等概率的;變量值可能等概率可能不等概率;變量值的概率=對(duì)應(yīng)該變量值的個(gè)體數(shù)/總體全部個(gè)數(shù)某一變量值的頻率=對(duì)應(yīng)該變量值的個(gè)體數(shù)/樣本全部個(gè)體數(shù)估計(jì):根據(jù)取自總體的樣本的統(tǒng)計(jì)量來(lái)推斷或評(píng)價(jià)總體參數(shù)的過(guò)程描述統(tǒng)計(jì)學(xué):分布+分布特征樣本分布+樣本分布特征總體分布+總體分布特征33.推斷統(tǒng)計(jì)學(xué):樣本分布特征T總體分布特征樣本分布T總體分布樣本分布特征T總體分布特征T總體分布34.多元統(tǒng)計(jì)核心:降維,描述,推斷

35.分布的表示方法:a)文示法:以文字表述,簡(jiǎn)單b)表示法:以表格陳列,較復(fù)雜c)圖示法:以圖形展示,復(fù)雜36.分布特征:a)幾何特征:?集中趨勢(shì),離散程度代數(shù)特征:?數(shù)字特征?均值,方差等抽樣誤差??誤:相對(duì)真值而言,總體分布特征而言差:相對(duì)均值而言40.聯(lián)合分布41.邊緣分布42.條件分布a)條件b)條件概率c)條件期望43.多元統(tǒng)計(jì)的框架:a)自變量分類(lèi)+因變量分類(lèi)b)自變量分類(lèi)+因變量數(shù)值c)自變量數(shù)值+因變量分類(lèi)d)自變量數(shù)值+因變量數(shù)值列聯(lián)分析、對(duì)應(yīng)分析方差分析、聯(lián)合分析判別分析,邏輯回歸回歸分析,結(jié)構(gòu)方程44.列聯(lián)分析a)公式列聯(lián)分析斗=^Pj列聯(lián)分析斗=^PjM/HPtPrb)最終類(lèi)類(lèi)相關(guān)系數(shù):Pearson列聯(lián)系數(shù)Cramer關(guān)聯(lián)系數(shù)iii.Cramer修正關(guān)聯(lián)系數(shù)45.方差分析:公式a)分類(lèi)對(duì)數(shù)值的相關(guān)關(guān)系:A=組間差/(組內(nèi)差+組間差)總平方和=組間平方和+組內(nèi)平方和b)公式:對(duì)比回歸分析:回歸分析SSE=£(兀-見(jiàn)廣]■!二£w-y)2fpMEE=z(r.-y.f加一P-nJ-lF=MSR/MSE證明:兩種組間平方和的關(guān)系

=3-V:2ri?.*i,i^j一*、=3-V:2ri?.*i,i^j一*、J-I-咬、£心?外y:sr!—£?“|:乳外少-*■瓦哥込阿“-若心‘」卜莎心―-沖、即可、.遠(yuǎn)“曲-沙-韜如耆薛賦;為跟汕閽護(hù)林亍汕一汕卵絆斤護(hù)e)?關(guān)鍵詞:多類(lèi),每類(lèi)不同的樣本量,數(shù)據(jù)f)數(shù)據(jù)要求:這樣的數(shù)據(jù)可以認(rèn)為是每層獨(dú)立的進(jìn)行抽樣,且每層都獨(dú)立進(jìn)行簡(jiǎn)單隨機(jī)抽樣的所謂分層抽樣的樣本數(shù)據(jù);i.獨(dú)立性假設(shè)ii.各類(lèi)均為多元正態(tài)總體iii.各類(lèi)協(xié)方差矩陣相等g)“每層=每類(lèi)”的原因:獨(dú)立性假設(shè)即每類(lèi)內(nèi)部樣本點(diǎn)之間彼此獨(dú)立其樣本量都能大到中心極限定理成立的(n大,nh大)同時(shí)每類(lèi)的樣本之間都彼此獨(dú)立(類(lèi)與類(lèi)之間獨(dú)立forF統(tǒng)計(jì)量構(gòu)造順利,其分子分母都服從卡方分布,且相互獨(dú)立)h)方差分析的F比卡方優(yōu)的地方i.F檢驗(yàn)融入了統(tǒng)計(jì)學(xué)外的邏輯準(zhǔn)則:組間差平均應(yīng)至少大于組內(nèi)差平均,增加結(jié)論說(shuō)服力,邏輯合理;i)不同類(lèi)或組的方差都相等的假設(shè)合理性i.理論:每類(lèi)里的抽樣的都是大樣本量的,樣本方差既然都是總體方差的容許估計(jì),則應(yīng)該相等;ii.實(shí)際:標(biāo)準(zhǔn)化是保證方差相等的有效手段;(大樣本有時(shí)被經(jīng)費(fèi)限制,不能滿足;所以要求最后通過(guò)檢驗(yàn));(要求齊方差)聯(lián)合分析:??方差分析和聯(lián)合分析的區(qū)別:詳見(jiàn)PPT典型相關(guān)分析:a)基本思想:找到兩組自變量線性組合,使得這兩組變量組合生成的變量(和其他線性組合相比)之間的相關(guān)系數(shù)最大b)基本思想2:每組變量都進(jìn)行線性組合,生成代表性變量;計(jì)算不同組任意兩個(gè)代表性變量的相關(guān)關(guān)系;找到相關(guān)系數(shù)最大對(duì)應(yīng)的兩個(gè)代表性變量作為“典型”,將“典型”之間的相關(guān)系數(shù)用來(lái)代表兩組變量的線性相關(guān)程度稱(chēng)為典型相關(guān)系數(shù),又稱(chēng)為廣義相關(guān)系數(shù);i.典型相關(guān)系數(shù)的檢驗(yàn):Qk檢驗(yàn)ii.典型相關(guān)系數(shù)的性質(zhì):堆成rou=0,u和v不相關(guān),從而任一與任一中的隨機(jī)變量都不相關(guān)rou=l,u和v可以相互線性表出rou=p=1,等于Pearson相關(guān)系數(shù)的平方p大于rou=1,等于復(fù)相關(guān)系數(shù)的平方或決定系數(shù)c)數(shù)學(xué)表達(dá):對(duì)兩組變量X和Y尋找系數(shù)向量a,b使得新的綜合變量(稱(chēng)為典型變量),有盡可能大的相關(guān)關(guān)系(公式見(jiàn)PPT,感覺(jué)不會(huì)考),實(shí)現(xiàn)的最大相關(guān)系數(shù)的一對(duì)綜合變量(稱(chēng)為典型變量)就是稱(chēng)為第1對(duì)典型相關(guān)變量,他們之間的相關(guān)系數(shù)就是第一典型相關(guān)系數(shù)典型變量的性質(zhì):a)第一,X的典型變量U不相關(guān),Y的典型變量W不相關(guān)b)第二,同一對(duì)典型變量Ui和Wi之間的典型相關(guān)系數(shù)lamdai,不同對(duì)的lamdai不相關(guān)典型相關(guān):a)問(wèn)題:Spearman和pearson相關(guān)系數(shù)的等價(jià)性?b)回答:因子分析+主成分a)思想:多元,變量之間存在很高的相關(guān)關(guān)系,其本質(zhì)是信息的重疊性?;貧w分析時(shí),相關(guān)程度很高,也就是出現(xiàn)了多重共線性時(shí)i.處理1,去除一部分變量,只保留很少的一部分變量;ii.處理2,使用這些變量的線性組合代替原有變量,而盡量不減少它們所包含的信息;(同時(shí)認(rèn)為這些組合表征的是深層原因--因子)b)滿足條件:i.第一,減少變量的個(gè)數(shù)ii.第二,新變量之間不再線性相關(guān),最好正交第三,新變量和原變量之間的關(guān)系清晰容易判斷c)問(wèn)題:i.以何表示原來(lái)變量的所含信息ii.如何尋找達(dá)成條件的線性組合此處線性組合和回歸分析和判別分析里的線性組合有何區(qū)別?主成分分析性質(zhì):主成分是原變量的線性變換a)主成分彼此獨(dú)立的原因?b)方差遞減的原因?c)方差總和守恒的原因?目標(biāo):施密特變換和主成分變換的異同??聚類(lèi)分析a)譜系聚類(lèi)i.步驟:定義點(diǎn)間距定義類(lèi)間距所有的樣品看成n類(lèi)計(jì)算點(diǎn)間距,并將距離最小者歸為一類(lèi),其余不變確定各類(lèi)之間的類(lèi)間距,并將距離最小者歸為一類(lèi),其余不變以此類(lèi)推,直至所有樣品歸為一類(lèi)ii.點(diǎn)間距:絕對(duì)值距離歐式距離歐式平方距離馬氏距離(標(biāo)準(zhǔn)歐式平方距離)切氏距離藍(lán)氏距離明氏距離iii.組間距最短距離法最遠(yuǎn)距離法中間距離法重心距離法可變類(lèi)平均距離法可變距離法ward距離法(離差平方和法)b)動(dòng)態(tài)聚類(lèi):見(jiàn)PPTc)一分為二聚類(lèi):見(jiàn)PPTd)有序聚類(lèi):離差平方和法最?。ň植孔顑?yōu)解?)56.判別分析:a)思想:假設(shè)早先依據(jù)訓(xùn)練樣本的信息得到了某種隱含的標(biāo)準(zhǔn),那么就可以據(jù)此標(biāo)準(zhǔn)對(duì)待判樣本進(jìn)行判別:將待判樣本歸于不同的“類(lèi)”中;b)本質(zhì):預(yù)測(cè)行為,區(qū)別(回歸)預(yù)測(cè):i.預(yù)測(cè)依據(jù)是公式化的模型;ii.判別依據(jù)的非公式化的隱含關(guān)系(訓(xùn)練樣品的分類(lèi)結(jié)果與判別變量值之間的對(duì)應(yīng)關(guān)系)c)方法:i.距離判別問(wèn)題:馬氏距離的離散形式回答:?ii.費(fèi)歇爾判別:投影到使樣本點(diǎn)盡可能分開(kāi)的方向,也就是類(lèi)間離差平方和與類(lèi)內(nèi)離差平方和之比最大的方向,然后計(jì)算待判樣本與各類(lèi)中心(已經(jīng)投影之后)的距離,哪類(lèi)最近,就歸哪類(lèi)iii.貝葉斯判別:G,q,f,L;L=l-sigma(詳見(jiàn)PPT),使得損失函數(shù)最小的判別結(jié)果就是所求結(jié)果;57.邏輯回歸a)引入模型的原因i.誤差項(xiàng):只能取兩個(gè)值,為離散非正態(tài)分布ii.異方差:誤差項(xiàng)仍然保持零均值,但是不具有方差齊性;回歸方程的限制:y

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論