




已閱讀5頁,還剩530頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
本課內(nèi)容包含 統(tǒng)計(jì)回顧 方差分析 主成分分析和因子分析 聚類分析 判別分析 典型相關(guān)分析 對(duì)應(yīng)分析 列聯(lián)表 Logistic回歸 Poisson對(duì)數(shù)線性模型 時(shí)間序列分析 。 統(tǒng)計(jì)基本概念回顧 隨機(jī)性和 規(guī)律性 現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性 從中學(xué)起,我們就知道自然科學(xué)的許多定律,例如物理中的牛頓三定律,物質(zhì)不滅定律以及化學(xué)中的各種定律等等。 但是在許多領(lǐng)域, 很難用如此確定的公式或論述來描述一些現(xiàn)象。 比如,人的壽命是很難預(yù)先確定的。一個(gè)吸煙、喝酒、不鍛煉、而且一口長葷的人可能比一個(gè)很少得病、生活習(xí)慣良好的人活得長。 因此,可以說,活得長短是有一定隨機(jī)性的(randomness)。這種隨機(jī)性可能和人的經(jīng)歷、基因、習(xí)慣等 無數(shù)說不清的因素 都有關(guān)系。 現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性 但是從總體來說,我國公民的平均年齡卻是非常穩(wěn)定的。而且女性的平均年齡也穩(wěn)定地比男性高幾年。這就是 規(guī)律性 。 一個(gè)人可能活過這個(gè)平均年齡,也可能活不到這個(gè)年齡,這是 隨機(jī)的 。 但是總體來說,平均年齡的穩(wěn)定性,卻說明了 隨機(jī)之中有規(guī)律性 。這種規(guī)律就是統(tǒng)計(jì)規(guī)律。 概率和機(jī)會(huì) 你可能經(jīng)常聽到概率( probability)這個(gè)名詞。例如在天氣預(yù)報(bào)中會(huì)提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。 因此,從某種意義說來, 概率描述了某件事情發(fā)生的機(jī)會(huì)。 顯然,這種概率不可能超過百分之百,也不可能少于百分之零。換言之, 概率是在 0和 1之間的一個(gè)數(shù) ,說明某事件發(fā)生的機(jī)會(huì)有多大。 有些概率是無法精確推斷的 比如你對(duì)別人說你下一個(gè)周末去公園的概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八。 其實(shí)你想說的是你很可能去,但又沒有完全肯定。 實(shí)際上,到了周末,你或者去,或者不去;不可能有分身術(shù)把百分之八十的你放到公園,而其余的放在別處。 有些概率是可以估計(jì)的 比如擲骰子。只要沒有人在骰子上做手腳,你得到 6點(diǎn)的概率應(yīng)該是六分之一。得到其他點(diǎn)的概率也是一樣。 得到 6的概率或者機(jī)會(huì)是可以知道的,但擲骰子的結(jié)果還 只可能是六個(gè)數(shù)目之一。 這個(gè)已知的規(guī)律就反映了規(guī)律性,而得到哪個(gè)結(jié)果則反映了隨機(jī)性。 如果你擲 1000次骰子,那么,大約有六分之一的可能會(huì)得到 6; 這也是隨機(jī)性呈現(xiàn)有規(guī)律的一個(gè)體現(xiàn)。 變量 做任何事情都要有 對(duì)象 。比如一個(gè)班上注冊(cè)的學(xué)生有 200人,這是一個(gè)固定的數(shù)目,稱為常數(shù)( constant) 或者常量。 但是,如果猜測(cè)今天這個(gè)班有多少人會(huì)來上課,那就沒準(zhǔn)了。這有隨機(jī)性。 可能有請(qǐng)病假或事假的,也可能有逃課的。這樣,就要來上課的人數(shù)是個(gè) 變量 (variable)。 另外對(duì)于某項(xiàng)政策同意與否的回答,也有“同意”、“不同意”或者“不知道”三種可能值;這也是變量,只不過 不是數(shù)量 而已。 變量 當(dāng)變量按照隨機(jī)規(guī)律所取的值是數(shù)量時(shí)該變量稱為 定量變量或數(shù)量變量 ( quantitative variable);因?yàn)槭请S機(jī)的,也稱為隨機(jī)變量( random variable)。 象性別,觀點(diǎn)之類的取非數(shù)量值的變量就稱為 定性變量或?qū)傩宰兞炕蚍诸愖兞?( qualitative variable, categorical variable)。 這些定性變量也可以由隨機(jī)變量來描述,比如男性和女性的數(shù)目,同意某政策人數(shù)的比例等等。只有當(dāng)變量用數(shù)量來描述時(shí),才有可能建立數(shù)學(xué)模型,才可能使用計(jì)算機(jī)來分析。 數(shù)據(jù) 有了變量的概念,什么是數(shù)據(jù)呢?拿擲骰子來說,擲骰子會(huì)得到什么值,是個(gè)隨機(jī)變量;而每次取得 1至 6點(diǎn)中任意點(diǎn)數(shù)的概率它在理論上都是六分之一(如果骰子公平)。這依賴于在擲骰子背后的理論或假定;而在實(shí)際擲骰子過程中,如果擲 100次,會(huì)得到 100個(gè)由 1至 6點(diǎn)組成的數(shù)字串;再擲 100次,又得到一個(gè)數(shù)字串,和前一次的結(jié)果多半不一樣。這些試驗(yàn)結(jié)果就是數(shù)據(jù)。所以說 ,數(shù)據(jù)是關(guān)于變量的觀測(cè)值 . 通過數(shù)據(jù)可以驗(yàn)證有關(guān)的理論或假定 (比如每一次得到每個(gè)點(diǎn)的概率是不是 1/6等等)。對(duì)于顧客是否喜歡某種飲品的調(diào)查也類似,但這里不象擲骰子那樣事先可以大致猜測(cè)顧客喜歡與否的概率。在問了 1000人之后,可能有 364人說喜歡,而 480人說不喜歡,其余的人可能不回答,或說不知道,或從來沒有喝過這種飲料。這些數(shù)目就是數(shù)據(jù)。當(dāng)然,它僅僅反映了 1000個(gè)被問到的人的觀點(diǎn);但這對(duì)于估計(jì)整個(gè)消費(fèi)群體的觀點(diǎn)還是有用的。 統(tǒng)計(jì)和計(jì)算機(jī) 現(xiàn)代生活越來越離不開計(jì)算機(jī)了 。 最早使用計(jì)算機(jī)的統(tǒng)計(jì)當(dāng)然更離不開計(jì)算機(jī)了 。 事實(shí)上 , 最初的計(jì)算機(jī) 僅僅是為科學(xué)計(jì)算而建造的 。 大型計(jì)算機(jī)的最早一批用戶就包含統(tǒng)計(jì) 。 而現(xiàn)在統(tǒng)計(jì)仍然是進(jìn)行數(shù)字計(jì)算最多的用戶 。 計(jì)算機(jī)現(xiàn)在早已脫離了僅有計(jì)算功能的單一模式 , 而成為 百姓生活的一部分 。 計(jì)算機(jī)的使用 , 也從過去必須學(xué)會(huì)計(jì)算機(jī)語言到只需要 “ 傻瓜式 ” 地點(diǎn)擊鼠標(biāo) 。 結(jié)果也從單純的數(shù)字輸出到包括漂亮的表格和圖形的各種形式 。 統(tǒng)計(jì)軟件 統(tǒng)計(jì)軟件的發(fā)展,也使得統(tǒng)計(jì)從統(tǒng)計(jì)學(xué)家的圈內(nèi)游戲變成了大眾的游戲。只要你輸入你的數(shù)據(jù),點(diǎn)幾下鼠標(biāo),做一些選項(xiàng),馬上就得到令人驚嘆的漂亮結(jié)果了。 你可能會(huì)問,是否傻瓜式的統(tǒng)計(jì)軟件使用可以代替統(tǒng)計(jì)課程了? 當(dāng)然不是。數(shù)據(jù)的整理和識(shí)別,方法的選用,計(jì)算機(jī)輸出結(jié)果的理解都不象使用傻瓜相機(jī)那樣簡(jiǎn)單可靠。 統(tǒng)計(jì)軟件 有些諸如法律和醫(yī)學(xué)方面的軟件都有不少警告,不時(shí)提醒你去咨詢專家。 但統(tǒng)計(jì)軟件則不那么負(fù)責(zé)。只要數(shù)據(jù)格式無誤、方法不矛盾而且不用零作為除數(shù)就一定給你結(jié)果,而且 沒有任何警告 。 另外,統(tǒng)計(jì)軟件 輸出的結(jié)果太多 ;即使是同樣的方法,不同軟件輸出的內(nèi)容還不一樣;有時(shí)同樣的內(nèi)容名稱也不一樣。這就使得使用者大傷腦筋。即使是統(tǒng)計(jì)學(xué)家也不一定能解釋所有的輸出。因此,就應(yīng)該特別留神,明白自己是在干什么。 不要在得到一堆毫無意義的垃圾之后還沾沾自喜 。 統(tǒng)計(jì)軟件 統(tǒng)計(jì)軟件的種類很多。有些功能齊全,有些價(jià)格便宜;有些容易操作,有些需要更多的實(shí)踐才能掌握。還有些是專門的軟件,只處理某一類統(tǒng)計(jì)問題。面對(duì)太多的選擇往往給決策帶來困難。這里介紹最常見的幾種。 統(tǒng)計(jì)軟件 SPSS: 這是一個(gè)很受歡迎的統(tǒng)計(jì)軟件;它容易操作 ,輸出漂亮 , 功能齊全 , 價(jià)格合理 。 對(duì)于非統(tǒng)計(jì)工作者是很好的選擇 。 Excel: 它嚴(yán)格說來并不是統(tǒng)計(jì)軟件 , 但作為數(shù)據(jù)表格軟件 , 必然有一定統(tǒng)計(jì)計(jì)算功能 。 而且凡是有Microsoft Office的計(jì)算機(jī) , 基本上都裝有 Excel。 但要注意 , 有時(shí)在裝 Office時(shí)沒有裝數(shù)據(jù)分析的功能 , 那就必須裝了才行 。 當(dāng)然 , 畫圖功能是都具備的 。 對(duì)于簡(jiǎn)單分析 , Excel還算方便 , 但隨著問題的深入 , Excel就不那么 “ 傻瓜 ” , 需要使用函數(shù) , 甚至根本沒有相應(yīng)的方法了 。 多數(shù)專門一些的統(tǒng)計(jì)推斷問題還需要其他專門的統(tǒng)計(jì)軟件來處理 。 SAS: 這是功能非常齊全的軟件;盡管價(jià)格不菲 , 許多公司還是因?yàn)槠涔δ鼙姸嗪湍承┟绹畽C(jī)構(gòu)認(rèn)可而使用 。 盡管現(xiàn)在已經(jīng)盡量 “ 傻瓜化 ” , 仍然需要一定的訓(xùn)練才可以進(jìn)入 。 對(duì)于基本統(tǒng)計(jì)課程則不那么方便 。 統(tǒng)計(jì)軟件 S-plus:這是統(tǒng)計(jì)學(xué)家喜愛的軟件 。 不僅由于其功能齊全 , 而且由于其強(qiáng)大的編程功能 , 使得研究人員可以編制自己的程序來實(shí)現(xiàn)自己的理論和方法 。 它也在進(jìn)行 “ 傻瓜化 ” 以爭(zhēng)取顧客 。 但仍然以編程方便為顧客所青睞 。 R軟件: 這是一個(gè) 免費(fèi)的 , 由志愿者管理的軟件 。其編程語言與 S-plus所基于的 S語言一樣 , 很方便 。 還有不斷加入的各個(gè)方向統(tǒng)計(jì)學(xué)家編寫的統(tǒng)計(jì)軟件包 。 同時(shí)從網(wǎng)上可以不斷更新和增加有關(guān)的軟件包和程序 。 這是 發(fā)展最快 的軟件 , 受到世界上統(tǒng)計(jì)師生的歡迎 。 是用戶量增加最快的統(tǒng)計(jì)軟件 。 對(duì)于一般非統(tǒng)計(jì)工作者來說 , 主要問題是它沒有 “ 傻瓜化 ” 。 統(tǒng)計(jì)軟件 Minitab: 這個(gè)軟件是很方便的功能強(qiáng)大而又齊全的軟件 , 也已經(jīng) “ 傻瓜化 ” , 在我國用的不如 SPSS與 SAS那么普遍 。 Statistica: 也是功能強(qiáng)大而齊全的 “ 傻瓜化 ” 的軟件 ,在我國用的也不如 SAS與 SPSS那么普遍 。 Eviews: 這是一個(gè)主要處理回歸和時(shí)間序列的軟件 。 GAUSS: 這是一個(gè)很好用的統(tǒng)計(jì)軟件 , 許多搞經(jīng)濟(jì)的喜歡它 。 主要也是編程功能強(qiáng)大 。 目前在我國使用的人不多 。 FORTRAN: 這是應(yīng)用于各個(gè)領(lǐng)域的歷史很長的非常優(yōu)秀的編程軟件 , 功能強(qiáng)大 , 也有一定的統(tǒng)計(jì)軟件包 。 計(jì)算速度比這里介紹的都快得多 。 但需要編程和編譯 。 操作不那么容易 。 MATLAB: 這也是應(yīng)用于各個(gè)領(lǐng)域的以編程為主的軟件 , 在工程上應(yīng)用廣泛 。 編程類似于 S和 R。 但是統(tǒng)計(jì)方法不多 。 統(tǒng)計(jì)軟件 當(dāng)然 , 還有其他的軟件 , 沒有必要一一羅列 。 其實(shí) , 聰明的讀者只要學(xué)會(huì)使用一種 “ 傻瓜式 ” 軟件 , 使用其他的僅僅是舉一反三之勞;最多看看幫助和說明即可 。如果只有英文幫助 , 那還可以順便提高你的英文閱讀能力 。 想想看 舉出你所知道的統(tǒng)計(jì)應(yīng)用例子 。 舉出日常生活中隨機(jī)性和規(guī)律性的例子 。 你使用過統(tǒng)計(jì)軟件或者利用過其他軟件中的統(tǒng)計(jì)功能嗎 ? 你有什么經(jīng)驗(yàn)和體會(huì) ? 數(shù)據(jù)的收集 二手?jǐn)?shù)據(jù) 每天翻開報(bào)紙或打開電視,就可以看到各種數(shù)據(jù)。比如高速公路通車?yán)锍獭⑽飪r(jià)指數(shù)、股票行情、外匯牌價(jià)、犯罪率、房價(jià)、流行病的有關(guān)數(shù)據(jù)(確診病例、疑似病例、死亡人數(shù)和出院人數(shù)等等);當(dāng)然還有國家統(tǒng)計(jì)局定期發(fā)布的各種國家經(jīng)濟(jì)數(shù)據(jù)、海關(guān)發(fā)布的進(jìn)出口貿(mào)易數(shù)據(jù)等等。從中可以選取對(duì)自己有用的信息。 這些間接得到的數(shù)據(jù)都是 二手?jǐn)?shù)據(jù) 。 第一手?jǐn)?shù)據(jù) 獲得第一手?jǐn)?shù)據(jù)并不象得到二手?jǐn)?shù)據(jù)那么輕松 。 某些在華的外資企業(yè)每年至少要花三四千萬元來收集和分析數(shù)據(jù) 。 他們調(diào)查其產(chǎn)品目前在市場(chǎng)中的狀況和地位并確定其競(jìng)爭(zhēng)對(duì)手的態(tài)勢(shì); 他們調(diào)查不同地區(qū) , 不同階層的民眾對(duì)其產(chǎn)品的認(rèn)知程度和購買意愿以改進(jìn)產(chǎn)品或推出新品種爭(zhēng)取新顧客; 他們還收集各地方的經(jīng)濟(jì)交通等信息以決定如何保住現(xiàn)有市場(chǎng)和開發(fā)新市場(chǎng) 。 市場(chǎng)信息數(shù)據(jù)對(duì)企業(yè)是至關(guān)重要的 。 他們很舍得在這方面花錢 。 因?yàn)檫@是企業(yè)生存所必需的 , 絕不是可有可無的 。 觀測(cè)數(shù)據(jù) 和 試驗(yàn)數(shù)據(jù) 上面所說的數(shù)據(jù)是在 自然的未被控制的條件下觀測(cè)到的,稱為觀測(cè)數(shù)據(jù)(observational data)。 而對(duì)于有些問題, 比如在不同的醫(yī)療手段下某疾病的治療結(jié)果有什么不同、不同的肥料和土壤條件下某農(nóng)作物的產(chǎn)量有沒有區(qū)別、用什么成分可以提高某物質(zhì)變成超導(dǎo)體的溫度等等。 這種在人工干預(yù)和操作情況下收集的數(shù)據(jù)就稱為試驗(yàn)數(shù)據(jù) (experimental data)。 總體和樣本 要想了解北京市民對(duì)建設(shè)北京交通設(shè)施是以包括軌道運(yùn)輸在內(nèi)的公共交通工具為主還是以小汽車為主的觀點(diǎn),需要進(jìn)行調(diào)查; 調(diào)查對(duì)象是 所有北京市民 ,調(diào)查 目的是希望知道市民中對(duì)這個(gè)問題的不同看法各自占有的 比例 。 顯然, 不可能去問所有的北京市民,而只能夠問一部分 ;并且根據(jù)這一部分的觀點(diǎn)來理解整個(gè)北京市民的總體觀點(diǎn)。 總體和樣本 這種情況下,稱所有(每個(gè))北京市民對(duì)這個(gè)問題的觀點(diǎn)為一個(gè) 總體(population),而調(diào)查時(shí)問到的那部分市民的觀點(diǎn)為 該總體的 一個(gè)樣本(sample)。 當(dāng)然,也有可能調(diào)查所有的人(比如人口普查),那叫做 普查 (census)。 總體是包含所有要研究的個(gè)體 (element)的集合。而樣本是總體中選中的一部分。 隨機(jī)樣本 在抽取樣本時(shí),如果總體中的每一個(gè)體都有同等機(jī)會(huì)被選到樣本中,這種抽樣稱為簡(jiǎn)單 隨機(jī)抽樣( simple random sampling), 而這樣得到的樣本則稱為 隨機(jī)樣本 ( random sample)。 隨機(jī)樣本 就北京交通問題的調(diào)查為例,在隨機(jī)抽樣的情況下,如果樣本量(sample size,也就是樣本中個(gè)體的數(shù)目)在總體中的比例為 1/5000,那么,無論在東城區(qū)或者在延慶縣,無論在白領(lǐng)階層還是藍(lán)領(lǐng)階層被問到的人的比例都應(yīng)該大體是1/5000。 也就是說, 這種比例在總體的任何部分是大體不變的。 方便樣本 在實(shí)踐中,得到隨機(jī)樣本不容易。很多搞調(diào)查的人就采取 簡(jiǎn)單 的辦法。 還以北京的交通問題的調(diào)查為例。假定按照隨機(jī)選出的電話號(hào)碼進(jìn)行調(diào)查。這樣肯定節(jié)省時(shí)間和資源,但這樣得到的就不是一個(gè)隨機(jī)樣本了。 如果按照隨機(jī)選擇的數(shù)字(無論號(hào)碼本上有沒有)打電話,那很多電話是空號(hào)或單位電話;顯然這種樣本也不是隨機(jī)樣本,它稱為方便樣本( convenience sample)。 在調(diào)查中,即使選擇對(duì)象的確是隨機(jī)的,最理想的情況所得到的樣本也只代表那些愿意回答問題人的觀點(diǎn)所組成的總體; 沒有回答問題的人的觀點(diǎn)永遠(yuǎn)不會(huì)被這種調(diào)查的樣本所代表。 方便樣本 這種不回答的問題是抽樣調(diào)查特有的問題。 在其他問題中,也有使用方便樣本的情況。比如在肺癌研究中,人們往往看到吸煙和肺癌的關(guān)系的數(shù)據(jù);這些數(shù)據(jù)并不是整個(gè)人群中采集的隨機(jī)樣本;它們可能只是醫(yī)院中的病人記錄中得到的。 在雜志和報(bào)紙上也有問卷,但得到的只是擁有這份報(bào)刊,而且愿意回答的人的觀點(diǎn)。 誤差 假定在某一職業(yè)人群中女性占的比例為 60%。如果在這個(gè)人群中抽取一些隨機(jī)樣本,這些隨機(jī)樣本中女性的比例并不一定是剛好 60,可能稍微多些或稍微少些。這是很正常的,因?yàn)闃颖镜奶卣鞑灰欢ê涂傮w完全一樣。這種差異不是錯(cuò)誤,而是必然會(huì)出現(xiàn)的 抽樣誤差( sampling error)。 剛才提到在抽樣調(diào)查中,一些人因?yàn)榉N種原因沒有對(duì)調(diào)查作出反映(或回答),這種誤差稱為 未響應(yīng)誤差( nonresponse error)。 而另有一些人因?yàn)楦鞣N原因回答時(shí)并沒有真實(shí)反映他們的觀點(diǎn),這稱為 響應(yīng)誤差 ( response error)。 和抽樣誤差不一樣,未響應(yīng)誤差和響應(yīng)誤差都會(huì)影響對(duì)真實(shí)世界的了解;應(yīng)該在設(shè)計(jì)調(diào)查方案時(shí)盡量避免。 抽樣調(diào)查的一些常用方法 在抽樣調(diào)查時(shí),最理想的樣本是前面提到的隨機(jī)樣本。 但是 由于實(shí)踐起來不方便 ,在大規(guī)模調(diào)查時(shí)一般不用這種全部隨機(jī)抽樣的方式,而只是在局部采用隨機(jī)抽樣的方法。 下面介紹幾種抽樣方法。這里沒有深?yuàn)W的理論;讀者完全可以根據(jù)常識(shí)判斷在什么情況下簡(jiǎn)單的隨機(jī)樣本不方便以及下面的每個(gè)方法有什么好處和缺陷。對(duì)于它們具體的設(shè)計(jì)、實(shí)施與數(shù)據(jù)分析,有許多專門的書籍,就不在這里贅述了。 一些抽樣方法 1 分層抽樣 ( stratified sampling) 。 這是先把要研究的總體按照某些性質(zhì)分類( stratum) , 再在各類中分別抽取樣本 。在每類中調(diào)查的人數(shù)通常是按照這該類人的比例 , 但出于各種考慮 , 也可能不按照比例 , 也可能需要加權(quán) ( 加權(quán)就是在求若干項(xiàng)的和時(shí) , 對(duì)各項(xiàng)乘以不同的系數(shù) , 這些系數(shù)的和通常為 1) 。 比如可以按照教育程度把要訪問的人群分成幾類;再在每一類中調(diào)查和該類成比例數(shù)目的人 。 這樣就確保了每一類都有成比例的代表 。 一些抽樣方法 2.整群抽樣 ( cluster sampling) 。 這是先把總體劃分成若干群 ( cluster) , 再( 通常是隨機(jī)地 ) 從這些群中抽取幾群;然后再在這些抽取的群中對(duì)個(gè)體進(jìn)行抽樣 。 比如 , 在某縣進(jìn)行調(diào)查 ,首先在所有村中選取若干村子 , 然后只對(duì)這些村子的人進(jìn)行調(diào)查 。 顯然 ,如果各村情況差異不大 , 這種抽樣還是方便的 。 否則就會(huì)增大誤差了 。 一些抽樣方法 3.多級(jí)抽樣 ( multistage sampling) 。 在群體很大時(shí) , 往往在抽取若干群之后 , 再在其中抽取若干子群 , 甚至再在子群中抽取子群 , 等等 。 最后只對(duì)最后選定的最下面一級(jí)進(jìn)行調(diào)查 。 比如在全國調(diào)查時(shí) , 先抽取省 , 再抽取市地 , 再抽取縣區(qū) , 再抽取鄉(xiāng) 、 村直到戶 。 在多級(jí)抽樣中的每一級(jí)都可能采取各種抽樣方法 。 因此 , 整個(gè)抽樣計(jì)劃可能比較復(fù)雜 , 也稱為多級(jí)混和型抽樣 。 一些抽樣方法 4.系統(tǒng)抽樣 ( systematic sampling) 。這是先把總體中的每個(gè)單元編號(hào) , 然后隨機(jī)選取其中之一作為抽樣的開始點(diǎn)進(jìn)行抽樣 。 如果編號(hào)是隨機(jī)選取的 ,則這和簡(jiǎn)單隨機(jī)抽樣是等價(jià)的 。 在選取開始點(diǎn)之后 , 通常從開始點(diǎn)開始按照編號(hào)進(jìn)行所謂等距抽樣;也就是說 ,如果開始點(diǎn)為 5號(hào) , “ 距離 ” 為 10, 則下面的調(diào)查對(duì)象為 15號(hào) 、 25號(hào)等等 。 抽樣方法的選擇不能一概而論 實(shí)際上每個(gè)抽樣通常都可能是各種抽樣方法的組合。既要考慮精確度,還要根據(jù)客觀情況考慮方便性、可行性和經(jīng)濟(jì)性。不能一概而論。 計(jì)算機(jī)中常用的數(shù)據(jù)形式 數(shù)據(jù)是由一些變量和它們的觀測(cè)值所組成。下面就是調(diào)查人們對(duì)某個(gè)問題觀點(diǎn)的一個(gè)數(shù)據(jù)的方陣形式。其中有 6個(gè)變量:觀點(diǎn)(觀測(cè)值為支持、反對(duì)和不知道三種)、教育程度(有高中低三種取值,用 H、 M、 L表示)、月收入(取值為實(shí)際數(shù)字)、性別(取值有男女兩個(gè),用 M和 F表示)以及地區(qū)號(hào)(用數(shù)字 1, 2, 3, 4表示)等。該表一共有 1364個(gè)觀測(cè)值(問卷回答)。可以看出這些變量有定性(屬性)變量,也有定量(數(shù)值)變量。按照這個(gè)數(shù)據(jù)的格式,每一列為一個(gè)變量的不同觀測(cè)值;而每一行則稱為一個(gè)觀測(cè)值,它是個(gè)由數(shù)量值和屬性值組成的向量,每一個(gè)值相應(yīng)于一個(gè)變量。 思考 1 舉出一些觀測(cè)數(shù)據(jù)和試驗(yàn)數(shù)據(jù)的例子 。 2 舉出簡(jiǎn)單隨機(jī)樣本的例子 。 3 根據(jù)你的經(jīng)驗(yàn) , 舉出總體和樣本的一些具體例子 。 4 舉出調(diào)查抽樣時(shí)可能發(fā)生的各種影響調(diào)查結(jié)果的問題 , 并且提出你認(rèn)為可以減少或避免這些問題的建議 。 5 根據(jù)你的直覺 , 本章提到的幾種抽樣方法的優(yōu)缺點(diǎn)是什么 ? 原因何在 ? 6 舉出一些書報(bào)上發(fā)表的數(shù)據(jù)例子 , 并指出那些是變量 , 哪些是觀測(cè)值 。 數(shù)據(jù)的描述 如同給人畫像一樣 直方圖 比如某個(gè)地區(qū)(地區(qū) 1)學(xué)校高三男生的身高;有 163個(gè)度量如何用圖形來表示這個(gè)數(shù)據(jù),使人們能夠看出這個(gè)數(shù)據(jù)的大體分布或 “ 形狀 ” 呢?一個(gè)辦法就是畫一個(gè)直方圖 (histogram)。 地區(qū) 1 高三男生高度2 0 0 . 01 9 5 . 01 9 0 . 01 8 5 . 01 8 0 . 01 7 5 . 01 7 0 . 01 6 5 . 01 6 0 . 01 5 5 . 01 5 0 . 0403020100S t d . D e v = 1 0 . 9 1 M e a n = 1 7 0 . 9N = 1 6 3 . 0 0盒型圖 比 直 方 圖 簡(jiǎn) 單 一 些 的 是 盒 形 圖(boxplot, 又稱箱圖 、 箱線圖 、 盒子圖 )。 后面圖的左邊一個(gè)是根據(jù)地區(qū) 1高三男生的身高數(shù)據(jù)所繪的盒形圖;其右邊的圖代表另一個(gè)地區(qū) ( 地區(qū) 2)的高三學(xué)生的身高 175163N =地區(qū)地區(qū) 2地區(qū) 1高三男生身高210200190180170160150140323259250248596158莖葉圖 地區(qū) 1高三男生身高數(shù)據(jù)的莖葉圖 HEIGHT Stem-and-Leaf Plot Frequency Stem & Leaf 9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 0111111122333 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19 . 56 3.00 Extremes (=198) Stem width: 10.00 Each leaf: 1 case(s) 散點(diǎn)圖 往往人們得到的數(shù)據(jù)有兩個(gè)變量的,比如美國男士和女士初婚年限的數(shù)據(jù)。該數(shù)據(jù)描述了自 1900年到1998年男女第一次結(jié)婚延續(xù)的時(shí)間的中位數(shù)。當(dāng)然,不可能將所有人的婚姻年限都給出來。所以,每年就取了一個(gè)中間的值 (中位數(shù) )作為代表。自 1900到1960年是每十年一個(gè)值,以后到 1990是每五年取一個(gè)數(shù), 1995年以后是每年一個(gè)數(shù)。這里的一個(gè)變量為記錄年份,另一個(gè)是結(jié)婚時(shí)間長短。由于分男士和女士,因此有兩二維數(shù)據(jù)。這時(shí)可以以一個(gè)變量為橫坐標(biāo)(如年份),另一個(gè)為縱坐標(biāo)(這里是結(jié)婚年限)來點(diǎn)圖。這種圖稱為散點(diǎn)圖( scatter plot)。還可以看出在二十世紀(jì)六十年代婚姻年限降低,而后來又升高。而男子的年限平均比女性長。這個(gè)圖是用 SPSS畫的。 2 0 0 01 9 8 01 9 6 01 9 4 01 9 2 01 9 0 0282726252423222120女男定性變量的點(diǎn)圖 定性變量(或?qū)傩宰兞?,分類變量)不能點(diǎn)出直方圖、散點(diǎn)圖或莖葉圖,但可以描繪出它們各類的比例。下面用 SPSS繪的圖表示了說世界各種主要語言的人數(shù)的比例 阿拉伯語4 . 2 7 %德語2 . 1 3 %俄語4 . 5 9 %法語2 . 1 5 %馬來印 2 . 9 4 %孟加拉語 3 . 5 9 %葡萄牙語 3 . 2 4 %其他3 3 . 1 4 %日語2 . 1 0 %西班牙語 7 . 0 9 %印地語 8 . 2 7 %英語 8 . 5 7 %中國北方1 7 . 9 3 %餅圖 語種中國北方英語印地語西班牙語日語其他葡萄牙語孟加拉語馬來印法語俄語德語阿拉伯語Mean3 0 0 02 0 0 01 0 0 00母語日常使用條形圖 匯總統(tǒng)計(jì)量 或 概括統(tǒng)計(jì)量(summary statistic) 匯總統(tǒng)計(jì)量(位置) 均值 (mean) 中位數(shù) (median) (第一,第三 )四分位數(shù) (點(diǎn) )(first quantile, third quantile ) k百分位數(shù) (k-percentile) 眾數(shù) (mode) 匯總統(tǒng)計(jì)量(尺度) (scale statistic) 極差( range) 四分位間距 (四分位極差 ) (interquantile range) 標(biāo)準(zhǔn)差 (standard deviation) 方差 (variance) -3 -2 -1 0 1 2 3020406080x-3 -2 -1 0 1 2 3020406080y兩個(gè)尺度不同的數(shù)據(jù)的直方圖,左邊的標(biāo)準(zhǔn)差大約只有右邊的一半 數(shù)據(jù)的標(biāo)準(zhǔn)得分 (standard score) 兩個(gè)水平類似的班級(jí)(一班和二班)上同一門課,但是由于兩個(gè)任課老師的評(píng)分標(biāo)準(zhǔn)不同,使得兩個(gè)班成績的均值和標(biāo)準(zhǔn)差都不一樣 (數(shù)據(jù): grade.sav)。一班分?jǐn)?shù)的均值和標(biāo)準(zhǔn)差分別為 78.53和 9.43,而二班的均值和標(biāo)準(zhǔn)差分別為 70.19和 7.00。那么得到 90分的一班的張穎是不是比得到 82分的二班的劉疏成績更好呢?怎么比較才能合理呢?雖然這種均值和標(biāo)準(zhǔn)差不同的數(shù)據(jù)不能夠直接比較,但是可以把它們進(jìn)行標(biāo)準(zhǔn)化,然后再比較標(biāo)準(zhǔn)化后的數(shù)據(jù)。一個(gè)標(biāo)準(zhǔn)化的方法是把原始觀測(cè)值(亦稱得分, score)和均值之差除以標(biāo)準(zhǔn)差;得到的度量稱為標(biāo)準(zhǔn)得分 (standard score)。 10097N =班級(jí)二班一班得分1101009080706050402110097N =班級(jí)二班一班標(biāo)準(zhǔn)得分3210-1-2-3-421思考 1 根據(jù)你的經(jīng)驗(yàn) , 給出定性和定量變量的例子 。 2 對(duì)于問題 1中你的例子 , 試圖畫出各種描述性圖形并計(jì)算匯總統(tǒng)計(jì)量 。 3 舉例說明眾數(shù) 、 中位數(shù)和均值的優(yōu)缺點(diǎn) 。 4 舉例說明尺度統(tǒng)計(jì)量說明了數(shù)據(jù)的什么特性 。 5 標(biāo)準(zhǔn)得分實(shí)際上是對(duì)原始數(shù)據(jù)的一種標(biāo)準(zhǔn)化 。試舉出標(biāo)準(zhǔn)得分的用處 。 統(tǒng)計(jì)推斷 從數(shù)據(jù)得到對(duì)現(xiàn)實(shí)世界的結(jié)論的過程 估計(jì) 總體它代表我們所關(guān)心的那部分現(xiàn)實(shí)世界。而在利用樣本中的信息來對(duì)總體進(jìn)行推斷之前人們一般對(duì)代表總體的變量假定了分布族。比如假定人們的身高屬于正態(tài)分布族;對(duì)抽樣調(diào)查假定了二項(xiàng)分布族等等。這些模型基本上是根據(jù)經(jīng)驗(yàn)來假定的,所以僅僅是對(duì)現(xiàn)實(shí)世界的一個(gè)近似。在假定了總體分布族之后,進(jìn)一步對(duì)總體的認(rèn)識(shí)就是要在這個(gè)分布族中選擇一個(gè)適合于我們問題的分布;由于分布族成員是由參數(shù)確定的,如果參數(shù)能夠估計(jì),對(duì)總體的具體分布就知道得差不多了。 估計(jì) 一種是點(diǎn)估計(jì) (point estimation),也就是用估計(jì)量的實(shí)現(xiàn)值來近似相應(yīng)的總體參數(shù)。 另一種是區(qū)間估計(jì) (interval estimation);它是包括估計(jì)量在內(nèi)(有時(shí)是以估計(jì)量為中心)的一個(gè)區(qū)間;該區(qū)間被認(rèn)為很可能包含總體參數(shù)。 點(diǎn)估計(jì)給出一個(gè)數(shù)字,用起來很方便;而區(qū)間估計(jì)給出一個(gè)區(qū)間,說起來留有余地;不象點(diǎn)估計(jì)那么絕對(duì)。 無偏估計(jì) (大樣本性質(zhì) ) 區(qū)間估計(jì)的置信度 (大樣本性質(zhì) ) 估計(jì) 注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成 。 有些新聞媒體報(bào)道一些調(diào)查結(jié)果只給出百分比和誤差 ( 即置信區(qū)間 ) , 并不說明置信度 , 也不給出被調(diào)查的人數(shù) , 這是不負(fù)責(zé)的表現(xiàn) 。 因?yàn)榻档椭眯哦瓤梢允怪眯艆^(qū)間變窄 ( 顯得 “ 精確 ” ) , 有誤導(dǎo)讀者之嫌 。 如果給出被調(diào)查的人數(shù) , 則內(nèi)行可以由推算出置信度 ( 由后面給出的公式 ) , 反之亦然 。 一個(gè)描述性例子 一個(gè)有 10000個(gè)人回答的調(diào)查顯示 , 同意某種觀點(diǎn)的人的比例為 70%( 有 7000人同意 ) , 可以算出總體中同意該觀點(diǎn)的比例的 95%置信區(qū)間為 ( 0.691, 0.709) ;另一個(gè)調(diào)查聲稱有 70%的比例反對(duì)該種觀點(diǎn) ,還說總體中反對(duì)該觀點(diǎn)的置信區(qū)間也是( 0.691, 0.709) 。 到底相信誰呢 ? 實(shí)際上 ,第二個(gè)調(diào)查隱瞞了置信度 ( 等價(jià)于隱瞞了樣本量 ) 。 如果第二個(gè)調(diào)查僅僅調(diào)查了 50個(gè)人 , 有 35個(gè)人反對(duì)該觀點(diǎn) 。 根據(jù)后面的公式可以算出 , 第二個(gè)調(diào)查的置信區(qū)間的置信度僅有 11%。 假設(shè)檢驗(yàn) 在假設(shè)檢驗(yàn)中,一般要設(shè)立一個(gè)原假設(shè);而設(shè)立該假設(shè)的動(dòng)機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來找出假設(shè)和現(xiàn)實(shí)的矛盾,從而否定這個(gè)假設(shè)。在多數(shù)統(tǒng)計(jì)教科書中(除了理論探討之外)的假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo)。 如果否定不了,那就說明證據(jù)不足,無法否定原假設(shè)。但這不能說明原假設(shè)正確。很多教科書在這個(gè)問題上不適當(dāng)?shù)赜谩敖邮茉僭O(shè)”的說法,犯了明顯的低級(jí)邏輯錯(cuò)誤。 假設(shè)檢驗(yàn)的過程和邏輯 首先要提出一個(gè)原假設(shè),比如某正態(tài)總體的均值等于 5( m=5)。這種原假設(shè)也稱為零假設(shè)( null hypothesis),記為 H0。 與此同時(shí)必須提出對(duì)立假設(shè),比如總體均值大于 5( m5)。對(duì)立假設(shè)又稱為備選假設(shè)或備擇假設(shè)( alternative hypothesis)記為記為 H1或 Ha。 假設(shè)檢驗(yàn)的過程和邏輯 根據(jù)零假設(shè) (不是備選假設(shè)?。?,我們可以得到該檢驗(yàn)統(tǒng)計(jì)量的分布; 然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值( realization)屬不屬于小概率事件。也就是說把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量,看其值是否落入零假設(shè)下的小概率范疇; 如果的確是小概率事件,那么我們就有可能拒絕零假設(shè),否則我們說沒有足夠證據(jù)拒絕零假設(shè)。 假設(shè)檢驗(yàn)的過程和邏輯 注意: 零假設(shè)和備選假設(shè)在假設(shè)檢驗(yàn)中并不對(duì)稱 。因檢驗(yàn)統(tǒng)計(jì)量的分布是從零假設(shè)導(dǎo)出的,因此,如果發(fā)生矛盾,當(dāng)然就對(duì)零假設(shè)不利了。 不發(fā)生矛盾也不說明備選假設(shè)有問題(因?yàn)楹蛡溥x假設(shè)無關(guān))。 假設(shè)檢驗(yàn)的過程和邏輯 檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下等于這個(gè)樣本的數(shù)據(jù)實(shí)現(xiàn)值或更加極端值的概率稱為 p-值 ( p-value) 。 顯然得到很小 p-值意味著小概率事件發(fā)生了 。 如果小概率事件發(fā)生 , 是相信零假設(shè) ,還是相信數(shù)據(jù)呢 ? 當(dāng)然是相信數(shù)據(jù) 。 于是就拒絕零假設(shè) 。 但小概率并不能說明不會(huì)發(fā)生 , 僅僅發(fā)生的概率很小罷了 。 拒絕正確零假設(shè)的錯(cuò)誤常被稱為第一類錯(cuò)誤 ( type I error) 。 假設(shè)檢驗(yàn)的過程和邏輯 有第一類錯(cuò)誤 , 就有第二類錯(cuò)誤;那是備選零假設(shè)正確時(shí)反而說零假設(shè)正確的錯(cuò)誤 ,稱為第二類錯(cuò)誤 ( type II error) 。 零假設(shè)和備選假設(shè)哪一個(gè)正確 , 這是確定性的 , 沒有概率可言 。 而可能犯錯(cuò)誤的是人 。 涉及假設(shè)檢驗(yàn)的犯錯(cuò)誤的概率就是犯第一類錯(cuò)誤的概率和犯第二類錯(cuò)誤的概率 。 負(fù)責(zé)的態(tài)度是無論做出什么決策 , 都應(yīng)該給出犯錯(cuò)誤的概率 。 假設(shè)檢驗(yàn)的過程和邏輯 到底 p-值是多小才能夠拒絕零假設(shè)呢 ? 也就是說 ,需要有什么是小概率的標(biāo)準(zhǔn) 。 這要看具體應(yīng)用的需要 。 但在一般的統(tǒng)計(jì)書和軟件中 , 使用最多的標(biāo)準(zhǔn)是在零假設(shè)下 ( 或零假設(shè)正確時(shí) ) 抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應(yīng)小于 0.05( 也可能是0.01, 0.005, 0.001等等 ) 。 這種事先規(guī)定的概率稱為顯著性水平 (significance level), 用字母 a來表示 。 當(dāng) p-值小于或等于 a時(shí) , 就拒絕零假設(shè) 。所以 , a是所允許的犯第一類錯(cuò)誤概率的最大值 。當(dāng) p-值小于或等于 a時(shí) , 我們說這個(gè)檢驗(yàn)是顯著的 (significant)。 假設(shè)檢驗(yàn)的過程和邏輯 歸納起來 , 假設(shè)檢驗(yàn)的邏輯步驟為: 第一 , 寫出零假設(shè)和備選假設(shè); 第二 , 確定檢驗(yàn)統(tǒng)計(jì)量; 第三 , 確定顯著性水平 a; 第四 , 根據(jù)數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)現(xiàn)值; 第五 , 根據(jù)這個(gè)實(shí)現(xiàn)值計(jì)算 p值; 第六 , 進(jìn)行判斷:如果 p值小于或等于 a,就拒絕零假設(shè) , 這時(shí)犯錯(cuò)誤的概率最多為 a;如果 p值大于 a, 就不拒絕零假設(shè) , 因?yàn)樽C據(jù)不足 。 假設(shè)檢驗(yàn)的過程和邏輯 實(shí)際上 , 計(jì)算機(jī)軟件僅僅給出 p-值 , 而不給出 a。 這有很多方便之處 。 比如 a=0.05,而假定我們得到的 p-值等于 0.001。 這時(shí)我們?nèi)绻绻捎?p-值作為新的顯著性水平 ,即 a=0.001, 于是可以說 , 我們拒絕零假設(shè) ,顯著性水平為 0.001。 拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率實(shí)際只是千分之一而不是百分之五 。在這個(gè)意義上 , p-值又稱為觀測(cè)的顯著性水平 ( observed significant level) 。 在統(tǒng)計(jì)軟件輸出 p-值的位置 , 有的用 “ p-value”,有的用 significant的縮寫 “ Sig”就是這個(gè)道理 。 假設(shè)檢驗(yàn)的過程和邏輯 展示結(jié)果的精確性 ( 根據(jù)數(shù)據(jù)減少 a的值 ) 總是沒有害處的 。 這好比一個(gè)身高 180厘米的男生 , 可能愿意被認(rèn)為高于或等于 180厘米 , 而不愿意說他高于或等于 155厘米 , 雖然這第二種說法數(shù)學(xué)上沒有絲毫錯(cuò)誤 。 假設(shè)檢驗(yàn)的過程和邏輯 關(guān)于 “ 臨界值 ” 的注:作為概率的顯著性水平 a實(shí)際上相應(yīng)于一個(gè)檢驗(yàn)統(tǒng)計(jì)量取值范圍的一個(gè) 臨界 值 ( critical value) , 它定義為 , 統(tǒng)計(jì)量取 該值或更極端的值 的概率等于 a。 也就是說 , “ 統(tǒng)計(jì)量的實(shí)現(xiàn)值比臨界值更極端 ” 等價(jià)于 “ p-值小于 a”。 使用臨界值的概念進(jìn)行的檢驗(yàn)不計(jì)算 p-值 。 只比較統(tǒng)計(jì)量的取值和臨界值的大小 。 使用臨界值而不是 p-值來判斷拒絕與否 是前計(jì)算機(jī)時(shí)代的產(chǎn)物 。 當(dāng)時(shí)計(jì)算 p-值不易 , 只有采用臨界值的概念 。但從給定的 a求臨界值同樣也不容易 , 好在習(xí)慣上僅僅在教科書中列出相應(yīng)于特定分布的幾個(gè)有限的 a臨界值( 比如 a=0.05, a=0.025, a=0.01, a=0.005, a=0.001等等 ) , 或者根據(jù)分布表反過來查臨界值 ( 很不方便也很粗糙 ) 。 現(xiàn)在計(jì)算機(jī)軟件都不給出 a和臨界值 , 但都給出 p-值和統(tǒng)計(jì)量實(shí)現(xiàn)值 , 讓用戶自己決定顯著性水平是多少 。 假設(shè)檢驗(yàn)的例子 汽車廠商聲稱其發(fā)動(dòng)機(jī)排放標(biāo)準(zhǔn)的一個(gè)指標(biāo)平均低于 20個(gè)單位 。 在抽查了 10臺(tái)發(fā)動(dòng)機(jī)之后 , 得到下面的排放數(shù)據(jù): 17.0、 21.7、 17.9、 22.9、 20.7、22.4、 17.3、 21.8、 24.2、 25.4。 該樣本均值為21.13。 究竟能否由此認(rèn)為該指標(biāo)均值超過 20?這次我們的假設(shè)檢驗(yàn)問題就是 01: 2 0 : 2 0HHmm 假設(shè)檢驗(yàn)的例子 檢驗(yàn)統(tǒng)計(jì)量為 我們可以發(fā)現(xiàn) p-值為 0.1243, 因此 , 我們沒有證據(jù)否定零假設(shè) 。 01 . 2 3 4/xtsnm-5 -4 -3 -2 -1 0 1 2 3 4 500 . 0 50 . 10 . 1 50 . 20 . 2 50 . 30 . 3 50 . 4t v a l u eDensityoft(9)T a i l P r o b a b i l i t y f o r t ( 9 )t = 1 . 2 3 4p - v a l u e = 0 . 1 2 4 3統(tǒng)計(jì)推斷 從數(shù)據(jù)得到對(duì)現(xiàn)實(shí)世界的結(jié)論的過程 估計(jì) 總體它代表我們所關(guān)心的那部分現(xiàn)實(shí)世界。而在利用樣本中的信息來對(duì)總體進(jìn)行推斷之前人們一般對(duì)代表總體的變量假定了分布族。比如假定人們的身高屬于正態(tài)分布族;對(duì)抽樣調(diào)查假定了二項(xiàng)分布族等等。這些模型基本上是根據(jù)經(jīng)驗(yàn)來假定的,所以僅僅是對(duì)現(xiàn)實(shí)世界的一個(gè)近似。在假定了總體分布族之后,進(jìn)一步對(duì)總體的認(rèn)識(shí)就是要在這個(gè)分布族中選擇一個(gè)適合于我們問題的分布;由于分布族成員是由參數(shù)確定的,如果參數(shù)能夠估計(jì),對(duì)總體的具體分布就知道得差不多了。 估計(jì) 一種是點(diǎn)估計(jì) (point estimation),也就是用估計(jì)量的實(shí)現(xiàn)值來近似相應(yīng)的總體參數(shù)。 另一種是區(qū)間估計(jì) (interval estimation);它是包括估計(jì)量在內(nèi)(有時(shí)是以估計(jì)量為中心)的一個(gè)區(qū)間;該區(qū)間被認(rèn)為很可能包含總體參數(shù)。 點(diǎn)估計(jì)給出一個(gè)數(shù)字,用起來很方便;而區(qū)間估計(jì)給出一個(gè)區(qū)間,說起來留有余地;不象點(diǎn)估計(jì)那么絕對(duì)。 無偏估計(jì) (大樣本性質(zhì) ) 區(qū)間估計(jì)的置信度 (大樣本性質(zhì) ) 估計(jì) 注意置信區(qū)間的論述是由區(qū)間和置信度兩部分組成 。 有些新聞媒體報(bào)道一些調(diào)查結(jié)果只給出百分比和誤差 ( 即置信區(qū)間 ) , 并不說明置信度 , 也不給出被調(diào)查的人數(shù) , 這是不負(fù)責(zé)的表現(xiàn) 。 因?yàn)榻档椭眯哦瓤梢允怪眯艆^(qū)間變窄 ( 顯得 “ 精確 ” ) , 有誤導(dǎo)讀者之嫌 。 如果給出被調(diào)查的人數(shù) , 則內(nèi)行可以由推算出置信度 ( 由后面給出的公式 ) , 反之亦然 。 一個(gè)描述性例子 一個(gè)有 10000個(gè)人回答的調(diào)查顯示 , 同意某種觀點(diǎn)的人的比例為 70%( 有 7000人同意 ) , 可以算出總體中同意該觀點(diǎn)的比例的 95%置信區(qū)間為 ( 0.691, 0.709) ;另一個(gè)調(diào)查聲稱有 70%的比例反對(duì)該種觀點(diǎn) ,還說總體中反對(duì)該觀點(diǎn)的置信區(qū)間也是( 0.691, 0.709) 。 到底相信誰呢 ? 實(shí)際上 ,第二個(gè)調(diào)查隱瞞了置信度 ( 等價(jià)于隱瞞了樣本量 ) 。 如果第二個(gè)調(diào)查僅僅調(diào)查了 50個(gè)人 , 有 35個(gè)人反對(duì)該觀點(diǎn) 。 根據(jù)后面的公式可以算出 , 第二個(gè)調(diào)查的置信區(qū)間的置信度僅有 11%。 假設(shè)檢驗(yàn) 在假設(shè)檢驗(yàn)中,一般要設(shè)立一個(gè)原假設(shè);而設(shè)立該假設(shè)的動(dòng)機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來找出假設(shè)和現(xiàn)實(shí)的矛盾,從而否定這個(gè)假設(shè)。在多數(shù)統(tǒng)計(jì)教科書中(除了理論探討之外)的假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo)。 如果否定不了,那就說明證據(jù)不足,無法否定原假設(shè)。但這不能說明原假設(shè)正確。很多教科書在這個(gè)問題上不適當(dāng)?shù)赜谩敖邮茉僭O(shè)”的說法,犯了明顯的低級(jí)邏輯錯(cuò)誤。 假設(shè)檢驗(yàn)的過程和邏輯 首先要提出一個(gè)原假設(shè),比如某正態(tài)總體的均值等于 5( m=5)。這種原假設(shè)也稱為零假設(shè)( null hypothesis),記為 H0。 與此同時(shí)必須提出對(duì)立假設(shè),比如總體均值大于 5( m5)。對(duì)立假設(shè)又稱為備選假設(shè)或備擇假設(shè)( alternative hypothesis)記為記為 H1或 Ha。 假設(shè)檢驗(yàn)的過程和邏輯 根據(jù)零假設(shè) (不是備選假設(shè)?。?,我們可以得到該檢驗(yàn)統(tǒng)計(jì)量的分布; 然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值( realization)屬不屬于小概率事件。也就是說把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量,看其值是否落入零假設(shè)下的小概率范疇; 如果的確是小概率事件,那么我們就有可能拒絕零假設(shè),否則我們說沒有足夠證據(jù)拒絕零假設(shè)。 假設(shè)檢驗(yàn)的過程和邏輯 注意: 零假設(shè)和備選假設(shè)在假設(shè)檢驗(yàn)中并不對(duì)稱 。因檢驗(yàn)統(tǒng)計(jì)量的分布是從零假設(shè)導(dǎo)出的,因此,如果發(fā)生矛盾,當(dāng)然就對(duì)零假設(shè)不利了。 不發(fā)生矛盾也不說明備選假設(shè)有問題(因?yàn)楹蛡溥x假設(shè)無關(guān))。 假設(shè)檢驗(yàn)的過程和邏輯 檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下等于這個(gè)樣本的數(shù)據(jù)實(shí)現(xiàn)值或更加極端值的概率稱為 p-值 ( p-value) 。 顯然得到很小 p-值意味著小概率事件發(fā)生了 。 如果小概率事件發(fā)生 , 是相信零假設(shè) ,還是相信數(shù)據(jù)呢 ? 當(dāng)然是相信數(shù)據(jù) 。 于是就拒絕零假設(shè) 。 但小概率并不能說明不會(huì)發(fā)生 , 僅僅發(fā)生的概率很小罷了 。 拒絕正確零假設(shè)的錯(cuò)誤常被稱為第一類錯(cuò)誤 ( type I error) 。 假設(shè)檢驗(yàn)的過程和邏輯 有第一類錯(cuò)誤 , 就有第二類錯(cuò)誤;那是備選零假設(shè)正確時(shí)反而說零假設(shè)正確的錯(cuò)誤 ,稱為第二類錯(cuò)誤 ( type II error) 。 零假設(shè)和備選假設(shè)哪一個(gè)正確 , 這是確定性的 , 沒有概率可言 。 而可能犯錯(cuò)誤的是人 。 涉及假設(shè)檢驗(yàn)的犯錯(cuò)誤的概率就是犯第一類錯(cuò)誤的概率和犯第二類錯(cuò)誤的概率 。 負(fù)責(zé)的態(tài)度是無論做出什么決策 , 都應(yīng)該給出犯錯(cuò)誤的概率 。 假設(shè)檢驗(yàn)的過程和邏輯 到底 p-值是多小才能夠拒絕零假設(shè)呢 ? 也就是說 , 需要有什么是小概率的標(biāo)準(zhǔn) 。 這要看具體應(yīng)用的需要 。 但在一般的統(tǒng)計(jì)書和軟件中 , 使用最多的標(biāo)準(zhǔn)是在零假設(shè)下( 或零假設(shè)正確時(shí) ) 抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應(yīng)小于 0.05( 也可能是 0.01,0.005, 0.001等等 ) 。 這種事先規(guī)定的概率稱為顯著性水平 (significant level), 用字母a來表示 。 當(dāng) p-值小于或等于 a時(shí) , 就拒絕零假設(shè) 。 所以 , a是所允許的犯第一類錯(cuò)誤概率的最大值 。 當(dāng) p-值小于或等于 a時(shí) , 我們說這個(gè)檢驗(yàn)是顯著的 (significant)。 假設(shè)檢驗(yàn)的過程和邏輯 歸納起來 , 假設(shè)檢驗(yàn)的邏輯步驟為: 第一 , 寫出零假設(shè)和備選假設(shè); 第二 , 確定檢驗(yàn)統(tǒng)計(jì)量; 第三 , 確定顯著性水平 a; 第四 , 根據(jù)數(shù)據(jù)計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)現(xiàn)值; 第五 , 根據(jù)這個(gè)實(shí)現(xiàn)值計(jì)算 p值; 第六 , 進(jìn)行判斷:如果 p值小于或等于 a,就拒絕零假設(shè) , 這時(shí)犯錯(cuò)誤的概率最多為 a;如果 p值大于 a, 就不拒絕零假設(shè) , 因?yàn)樽C據(jù)不足 。 假設(shè)檢驗(yàn)的過程和邏輯 實(shí)際上 , 計(jì)算機(jī)軟件僅僅給出 p-值 , 而不給出 a。 這有很多方便之處 。 比如 a=0.05,而假定我們得到的 p-值等于 0.001。 這時(shí)我們?nèi)绻绻捎?p-值作為新的顯著性水平 ,即 a=0.001, 于是可以說 , 我們拒絕零假設(shè) ,顯著性水平為 0.001。 拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率實(shí)際只是千分之一而不是百分之五 。在這個(gè)意義上 , p-值又稱為觀測(cè)的顯著性水平 ( observed significant level) 。 在統(tǒng)計(jì)軟件輸出 p-值的位置 , 有的用 “ p-value”,有的用 significant的縮寫 “ Sig”就是這個(gè)道理 。 假設(shè)檢驗(yàn)的過程和邏輯 展示結(jié)果的精確性 ( 根據(jù)數(shù)據(jù)減少 a的值 ) 總是沒有害處的 。 這好比一個(gè)身高 180厘米的男生 , 可能愿意被認(rèn)為高于或等于 180厘米 , 而不愿意說他高于或等于 155厘米 , 雖然這第二種說法數(shù)學(xué)上沒有絲毫錯(cuò)誤 。 假設(shè)檢驗(yàn)的過程和邏輯 關(guān)于 “ 臨界值 ” 的注:作為概率的顯著性水平 a實(shí)際上相應(yīng)于一個(gè)檢驗(yàn)統(tǒng)計(jì)量取值范圍的一個(gè) 臨界 值 ( critical value) , 它定義為 , 統(tǒng)計(jì)量取 該值或更極端的值 的概率等于 a。 也就是說 , “ 統(tǒng)計(jì)量的實(shí)現(xiàn)值比臨界值更極端 ” 等價(jià)于 “ p-值小于 a”。 使用臨界值的概念進(jìn)行的檢驗(yàn)不計(jì)算 p-值 。 只比較
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 東營春季高考數(shù)學(xué)試卷
- 德城區(qū)1年級(jí)數(shù)學(xué)試卷
- 培訓(xùn)課件要有什么內(nèi)容
- 拱墅區(qū)四年級(jí)下數(shù)學(xué)試卷
- 二中廣雅初中數(shù)學(xué)試卷
- 骨科專業(yè)培訓(xùn)課件
- 2025年04月河南南陽市社旗縣醫(yī)療健康服務(wù)集團(tuán)招聘250人筆試歷年專業(yè)考點(diǎn)(難、易錯(cuò)點(diǎn))附帶答案詳解
- 適合提升培訓(xùn)的課件
- 2025至2030磁控健身車產(chǎn)業(yè)市場(chǎng)深度調(diào)研及發(fā)展趨勢(shì)與發(fā)展趨勢(shì)分析與未來投資戰(zhàn)略咨詢研究報(bào)告
- 2025至2030船舶電子行業(yè)市場(chǎng)發(fā)展分析與發(fā)展前景及有效策略與實(shí)施路徑評(píng)估報(bào)告
- 江蘇省南京市2024-2025學(xué)年高二(下)期末物理試卷
- 電力維修搶險(xiǎn)方案(3篇)
- 民警心理健康課件
- 幼小銜接漢語拼音課件(合集)
- GB/T 31997-2015風(fēng)力發(fā)電場(chǎng)項(xiàng)目建設(shè)工程驗(yàn)收規(guī)程
- 幼兒專注力的個(gè)案培養(yǎng)
- 建筑工程五方建設(shè)主體備案意見表
- 詳細(xì)的GSM信令流程圖FlowChat
- 人教版初中數(shù)學(xué)七年級(jí)第1章有理數(shù)教案
- 新加坡國際仲裁中心仲裁規(guī)則(第六版)2016(共9頁)
- 年產(chǎn)xxx噸機(jī)氟硅材料項(xiàng)目申報(bào)書【模板參考】
評(píng)論
0/150
提交評(píng)論