




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、馬昕 經(jīng)濟(jì)學(xué)教研室 電話:62783253(H) Email: ,應(yīng)用統(tǒng)計(jì)學(xué),教材:何曉群多元統(tǒng)計(jì)分析,中國人民大學(xué)出版社,2004,參考書 何曉群現(xiàn)代統(tǒng)計(jì)分析方法與應(yīng)用,中國人民大學(xué)出版社,1998 王學(xué)民應(yīng)用多元分析,上海財(cái)經(jīng)大學(xué)出版社 Jams M Lattin等著,多元數(shù)據(jù)分析(英文版),機(jī)械工業(yè)出版社 考核方法: 讀書報(bào)告:30分(考試前交) 期末考試(開卷) :70分,第一章 緒論,多元數(shù)據(jù)分析的必要性 多元數(shù)據(jù)分析方法概論 多元數(shù)據(jù)的描述 統(tǒng)計(jì)基本知識回顧,一、多元數(shù)據(jù)分析的必要性,信息時代數(shù)據(jù)時代,決策:經(jīng)驗(yàn)科學(xué) 經(jīng)濟(jì)發(fā)展 科學(xué)研究 軍事 企業(yè)組織信息組織 市場分析 投資決策
2、設(shè)備管理,你的直覺判斷 總是正確的嗎?,基于數(shù)據(jù)分析的決策,對La Quinta旅館進(jìn)行以 回歸分析為基礎(chǔ)的選址,數(shù)據(jù)分析,從大量數(shù)據(jù)中發(fā)現(xiàn)盡可能多的有用信息,從而把握事物特征的過程 每個數(shù)據(jù):反映某個事物某一方面的特征,統(tǒng)計(jì)學(xué):單變量分析,描述統(tǒng)計(jì) 集中趨勢 離散趨勢 變量分布 異常點(diǎn) 推斷統(tǒng)計(jì):從樣本統(tǒng)計(jì)量推斷總體參數(shù) 參數(shù)估計(jì):樣本均值估計(jì)總體均值, 假設(shè)檢驗(yàn):總體均值或方差的檢驗(yàn),兩總體均值/方差相等的檢驗(yàn) 相關(guān)分析:兩個隨機(jī)變量間的(線性)相關(guān)程度 回歸分析:一個隨機(jī)變量和一組隨機(jī)變量間的依存/相關(guān)關(guān)系,為什么需要多元數(shù)據(jù)?,一般來說事物通常具有多面性,即每一事物有多方面特征 例:學(xué)
3、生的能力、物種、國家經(jīng)濟(jì)實(shí)力、企業(yè)競爭力 必須全面考慮事物的各個方面,才能對其正確認(rèn)識。 兩變量分析有時會得到虛假結(jié)果,Distinguishing Midges,Suppose we are interested in measuring the wing length and the antenna length.,Distinguishing Midges,What can you do with both variables that you cant do with just one of them?,Simpsons Paradox,Example: 44% of male app
4、licants are admitted by a university, but only 33% of female applicants Does this mean there is unfair discrimination? University investigates and breaks down figures for Engineering and English programmes,為什么需要多元數(shù)據(jù)-續(xù),Simpsons Paradox,No relationship between sex and acceptance for either programme S
5、o no evidence of discrimination Why? More females apply for the English programme, but it it hard to get into More males applied to Engineering, which has a higher acceptance rate than English Must look deeper than single cross-tab to find this out,Simpsons Paradox,In this example, the bivariate ana
6、lysis (cross-tabulation or correlation) gave misleading results Introducing another variable gave a better understanding of the data It even reversed the initial conclusions,二、多元數(shù)據(jù)分析過程及方法,行為數(shù)據(jù)結(jié)構(gòu),蠓:身體長度、翅膀長度、翅膀?qū)挾?、觸角長度、,翅膀長度、觸角長度,定比數(shù)據(jù),Some Common Patterns in Point Clouds planes filaments clusters outl
7、iers,Data Analysis:Finding and Interpreting such Patterns,多元數(shù)據(jù)分析方法概述,多元分析的目的:探索數(shù)據(jù)的模式(結(jié)構(gòu)) 多元數(shù)據(jù)分析的難點(diǎn): 維度太多使我們難以發(fā)現(xiàn)規(guī)律、把握重點(diǎn) 多元分析方法的核心:概要和簡化 工具:矩陣代數(shù)、統(tǒng)計(jì)軟件,具體方法,聚類分析:按距離遠(yuǎn)近分類 判別分析: 給定樣本定類親疏判別 主成分分析、因子分析、對應(yīng)分析:找出主要因素,化簡數(shù)據(jù) 方差分析 多元回歸分析 結(jié)構(gòu)方程模型,Grouping,Discriminating,Principle Component, Factoring,Correspondence,
8、Inferring推斷,exploring 探索數(shù)據(jù)模式,Structural Equation Model,課程內(nèi)容:,第一章 緒論 第二章 向量、矩陣與多維正態(tài)分布 第三章 聚類分析 第四章 判別分析 第五章 方差分析 第六章 回歸分析 第七章 主成分分析 第八章 因子分析 第九章 對應(yīng)分析 第十章 結(jié)構(gòu)方程模型,課程重點(diǎn),強(qiáng)調(diào)方法的應(yīng)用而非理論推導(dǎo) 強(qiáng)調(diào)方法的內(nèi)涵與幾何解釋 強(qiáng)調(diào)SPSS軟件的應(yīng)用和結(jié)果的解釋,牢記: 從數(shù)據(jù)中獲取信息沒有確定的方法 具體問題具體分析,三、多元數(shù)據(jù)的描述,數(shù)據(jù)的計(jì)量尺度:告訴我們從數(shù)據(jù)中可獲得哪些信息。 品質(zhì)數(shù)據(jù):計(jì)算無意義 定類尺度:按窮盡和互斥原則將對
9、象某種特征歸類 通常用虛擬變量表示: 定序尺度 對象特征等級或順序差別的測度,三、多元數(shù)據(jù)的描述,數(shù)值數(shù)據(jù) 定距尺度:測度對象特征的間距,不能做絕對比較。 定比尺度:即可測度間距,又可做絕對比較。 數(shù)值數(shù)據(jù)的矩陣表示: 樣本數(shù)n,變量數(shù)p,數(shù)據(jù)的矩陣描述,注:若無特別說明,向量均指列向量,四、統(tǒng)計(jì)基本知識回顧:單變量分析,描述統(tǒng)計(jì) 參數(shù)估計(jì) 假設(shè)檢驗(yàn) 相關(guān)與回歸,1. 描述統(tǒng)計(jì),描述數(shù)據(jù)的集中趨勢 均值 中位數(shù) 眾數(shù) 描述數(shù)據(jù)的離散趨勢 極差 方差、標(biāo)準(zhǔn)差 變異系數(shù),異常點(diǎn),目的:描述數(shù)據(jù)分布與正態(tài)分布的可能偏離 正態(tài)分布具有許多有利于統(tǒng)計(jì)的特性 一般獨(dú)立隨機(jī)事件的分布都服從正態(tài)分布 人的身高
10、,產(chǎn)品質(zhì)量 偏度:用來度量對稱性的指標(biāo) 峰度:刻畫一個分布陡峭或平緩程度的指標(biāo),分布的偏度與峰度,標(biāo)準(zhǔn)化變量,對于任意變量x,將觀測值轉(zhuǎn)換成相應(yīng)Z值的過程稱為將該變量標(biāo)準(zhǔn)化,所得到的變量Z稱為標(biāo)準(zhǔn)化變量。,例:地區(qū)供電局?jǐn)?shù)據(jù),基本概念,2、參數(shù)估計(jì),基本概念(續(xù)),標(biāo)準(zhǔn)差:小 標(biāo)準(zhǔn)誤:小,標(biāo)準(zhǔn)差:大 標(biāo)準(zhǔn)誤:小,標(biāo)準(zhǔn)誤差 standard error,標(biāo)準(zhǔn)差 standard deviation,抽樣推斷:,從樣本統(tǒng)計(jì)量推斷總體參數(shù) 參數(shù)估計(jì):在未知總體參數(shù)的情況下,利用樣本統(tǒng)計(jì)量來估計(jì)總體參數(shù)的方法。 參數(shù)點(diǎn)估計(jì) 參數(shù)區(qū)間估計(jì) 假設(shè)檢驗(yàn):先對總體參數(shù)作一個假設(shè),然后通過搜集樣本數(shù)據(jù),用樣本統(tǒng)
11、計(jì)量判斷對總體參數(shù)的假設(shè)是否成立,參數(shù)估計(jì):總體參數(shù)的點(diǎn)估計(jì),假設(shè)在總體X中, 為未知參數(shù)(均值、方差、成數(shù)等)。由樣本(x1、x2xn )構(gòu)造統(tǒng)計(jì)量 來估計(jì)未知參數(shù),稱 為的點(diǎn)估計(jì)量。 將某次抽樣的樣本觀測值,代入 即得該估計(jì)量的一個點(diǎn)估計(jì)值 。,矩估計(jì)法 極大似然估計(jì)法 最小二乘法,設(shè)為待估計(jì)的總體參數(shù), 為樣本統(tǒng)計(jì)量,則的優(yōu)良標(biāo)準(zhǔn)為:,點(diǎn)估計(jì)量的優(yōu)良性標(biāo)準(zhǔn),如果隨著樣本容量n的增大,樣本估計(jì)量在概率意義下越來越接近于總體真實(shí)值,則稱該估計(jì)量是待估參數(shù)的一致估計(jì)量。,一致性,一致性是對一個估計(jì)量的最起碼要求。“如果你在n趨于無窮大時還不能正確地得到它,那你就不應(yīng)該做這件事”葛蘭杰,置信度(
12、1-)反映了估計(jì)的可靠程度。根據(jù)樣本指標(biāo)和抽樣極限誤差可以得到滿足一定置信度的總體指標(biāo)的可能范圍,設(shè)總體參數(shù)為,L、U為由樣本確定的兩個統(tǒng)計(jì)量,對于給定的(01),有P(LU)=1-,則稱(L, U)為參數(shù)的置信度為1-的置信區(qū)間,參數(shù)估計(jì):參數(shù)的區(qū)間估計(jì),可靠度,精確度,為什么要做區(qū)間估計(jì)?,任意抽出一個婦女,試猜測其體重,猜對贏50元,猜錯輸50元 如何猜?輸贏概率如何?,例:20個婦女的體重資料如表, 平均體重:123.6pound,標(biāo)準(zhǔn)差:15.5,猜均值上下一個標(biāo)準(zhǔn)差:贏的概率?輸?shù)母怕?猜均值上下兩個標(biāo)準(zhǔn)差:輸贏概率?,區(qū)間估計(jì)原理,0.6827,落在范圍內(nèi)的概率為68.27%,置
13、信度1-=0.6827,區(qū)間估計(jì)原理,0.9545,落在范圍內(nèi)的概率為95.45%,樣本抽樣分布曲線,原總體分布曲線,置信度1-=0.9545,置信區(qū)間一覽表,總體分布知,正態(tài)總體方差未知 (大樣本),例 某保險(xiǎn)公司從投保人中隨機(jī)抽取36人,計(jì)算出此36人平均年齡為39.5歲,已知投保人年齡近似正態(tài)分布,標(biāo)準(zhǔn)差7.2歲,試以99%的可靠度求所有投保人平均年齡的置信區(qū)間。如果將可靠度降低到95%的水平呢?,解:求所有投保人平均年齡的置信區(qū)間?,F(xiàn)有一個點(diǎn)估計(jì)量,在點(diǎn)估計(jì)量基礎(chǔ)上,構(gòu)造投保人平均年齡的置信區(qū)間,關(guān)鍵是置信區(qū)間的寬度是多少。置信區(qū)間寬度取決于置信度和抽樣平均誤差:,根據(jù)置信度查表得到,
14、在99%的置信度下,投保人年齡總體均值的置信區(qū)間為: (39.5-3.1, 39.5+3.1)36.442.6,置信度95%,Z/2=1.96, =1.96*1.2=2.35, 置信區(qū)間(37.2,41.9),3、假設(shè)檢驗(yàn),采用邏輯上的反證法 先認(rèn)為假設(shè)為真,觀察在此前提下所抽到樣本的出現(xiàn)是否合理。若合理則判斷假設(shè)可接受,反之拒絕假設(shè)。 判斷是否合理的依據(jù)統(tǒng)計(jì)上的小概率原理(即這里的反證法是基于一定概率的反證法)。,假設(shè)檢驗(yàn)的步驟,提出原假設(shè)和備擇假設(shè): 收集樣本數(shù)據(jù),確定適當(dāng)?shù)臋z驗(yàn)統(tǒng)計(jì)量及其分布 規(guī)定顯著性水平,確定拒絕域和接受域 計(jì)算檢驗(yàn)統(tǒng)計(jì)量的值 作出統(tǒng)計(jì)決策,假設(shè)的三種形式:,在原假設(shè)
15、為真的前提下,出現(xiàn)觀察到的樣本以及更極端樣本的概率。 P值(P-value):拒絕原假設(shè)的最小顯著性水平。,如果檢驗(yàn)的統(tǒng)計(jì)量為t,c是從樣本得到的統(tǒng)計(jì)量的值。 左側(cè)檢驗(yàn)時,P值= ptc 右側(cè)檢驗(yàn)時,P值= ptc 雙側(cè)檢驗(yàn)中,P值=單側(cè)P值的2倍。,精確p值,例:某機(jī)器制造出的肥皂厚度為5公分。今欲了解機(jī)器性能是否良好,隨機(jī)抽取10塊肥皂為樣本,測得平均厚度為5.3公分,樣本標(biāo)準(zhǔn)差為0.3公分。試以0.05的顯著性水平檢驗(yàn)機(jī)器性能良好的假設(shè)。,建立假設(shè),檢驗(yàn)統(tǒng)計(jì)量,接受域:,利用 P 值進(jìn)行決策,若P值 ,不能拒絕 H0 若P值 , 拒絕 H0,4、相關(guān)與回歸,相關(guān)關(guān)系與確定性關(guān)系 相關(guān)與回
16、歸 相關(guān)分析:兩個變量間的關(guān)聯(lián)程度 回歸分析:一變量對一組變量的依賴關(guān)系 相關(guān)關(guān)系因果關(guān)系:“虱子使人健康”?,“一個統(tǒng)計(jì)關(guān)系式不管多強(qiáng),也不管多么有啟發(fā)性,永遠(yuǎn)不能確立因果方面的聯(lián)系:對因果關(guān)系的理念必須來自統(tǒng)計(jì)學(xué)之外,最終來自這種或那種理論” 肯達(dá)爾和斯圖亞蒂,定性分析,是依據(jù)研究者的理論知識和實(shí)踐經(jīng)驗(yàn),通過編制相關(guān)表、繪制相關(guān)圖,對客觀現(xiàn)象之間是否存在相關(guān)關(guān)系,以及何種相關(guān)關(guān)系作出判斷,定量分析,在定性分析的基礎(chǔ)上,計(jì)算相關(guān)系數(shù)與判定系數(shù)等方法,來判斷現(xiàn)象之間相關(guān)的方向、形態(tài)及密切程度,相關(guān)關(guān)系的測定,正 相 關(guān),負(fù) 相 關(guān),非線性相關(guān),不 相 關(guān),又稱散點(diǎn)圖,用直角坐標(biāo)系的x軸代表自變
17、量,y軸代表因變量,將兩個變量間相對應(yīng)的變量值用坐標(biāo)點(diǎn)的形式描繪出來,用以表明相關(guān)點(diǎn)分布狀況的圖形。,相關(guān)圖,線性相關(guān),線性相關(guān)的條件下,用以反映兩變量間相關(guān)密切程度的統(tǒng)計(jì)指標(biāo)。,相關(guān)系數(shù),總體相關(guān)系數(shù),符號,相關(guān)系數(shù)的取值范圍:-11,樣本相關(guān)系數(shù),有容量為n的樣本(xi,yi)i=1,2,n,相關(guān)系數(shù)的假設(shè)檢驗(yàn),實(shí)際研究中,相關(guān)系數(shù)一般都是利用樣本數(shù)據(jù)計(jì)算得到的,因而隨樣本的變化而變化,具有一定的隨機(jī)性。 從樣本相關(guān)系數(shù)推斷總體相關(guān)系數(shù)需要進(jìn)行假設(shè)檢驗(yàn)。 相關(guān)系數(shù)的檢驗(yàn)分為兩類: 總體相關(guān)系數(shù)是否為0的檢驗(yàn),即總體是否相關(guān)的檢驗(yàn) 相關(guān)系數(shù)等于某一給定值的檢驗(yàn),相關(guān)系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn)法),提出假設(shè):,目的,檢驗(yàn)總體兩變量間線性相關(guān)性是否顯著,步 驟,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量:,相關(guān)系數(shù)的顯著性檢驗(yàn)(t檢驗(yàn)法), 根據(jù)給定的顯著性水
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 初中學(xué)業(yè)水平考試實(shí)驗(yàn)操作中常見設(shè)備問題及解決方案
- 江蘇省大豐區(qū)萬盈鎮(zhèn)沈灶初級中學(xué)2024年數(shù)學(xué)七上期末調(diào)研模擬試題含解析
- 廣東省廣州白云廣雅實(shí)驗(yàn)學(xué)校2025屆七上數(shù)學(xué)期末考試試題含解析
- 四川省雅安市雨城區(qū)雅安中學(xué)2024年物理八上期末學(xué)業(yè)質(zhì)量監(jiān)測模擬試題含解析
- 車輛買賣合同書及車輛改裝及年檢及保險(xiǎn)協(xié)議
- 采石廠礦產(chǎn)資源開采權(quán)終止合同
- 游戲開發(fā)與編程技巧
- 醫(yī)院潔凈手術(shù)室安全隱患自查手冊
- 行業(yè)發(fā)展趨勢預(yù)測與未來展望
- 智能穿戴設(shè)備技術(shù)的發(fā)展趨勢及市場分析
- 籃球裁判法課件:三人制裁判法基礎(chǔ)知識
- YS/T 655-2016四氯化鈦
- GB/T 5185-2005焊接及相關(guān)工藝方法代號
- GB/T 307.2-2005滾動軸承測量和檢驗(yàn)的原則及方法
- 10kV高壓配電室交接性試驗(yàn)報(bào)告
- 藥品不良反應(yīng)報(bào)告事件表
- DB31T 405-2021 集中空調(diào)通風(fēng)系統(tǒng)衛(wèi)生管理規(guī)范
- 新教材波音手冊查詢(高級)課件
- DB4404-T 29-2022 球墨鑄鐵排水井蓋管理規(guī)范
- 151 醫(yī)用一次性防護(hù)服質(zhì)量檢驗(yàn)原始記錄(客戶需要根據(jù)實(shí)際修改)
- 現(xiàn)代漢語常用字表(拼音版本)
評論
0/150
提交評論