醫(yī)療行業(yè)統(tǒng)計(jì)基礎(chǔ)知識(shí)培訓(xùn)_第1頁
醫(yī)療行業(yè)統(tǒng)計(jì)基礎(chǔ)知識(shí)培訓(xùn)_第2頁
醫(yī)療行業(yè)統(tǒng)計(jì)基礎(chǔ)知識(shí)培訓(xùn)_第3頁
醫(yī)療行業(yè)統(tǒng)計(jì)基礎(chǔ)知識(shí)培訓(xùn)_第4頁
醫(yī)療行業(yè)統(tǒng)計(jì)基礎(chǔ)知識(shí)培訓(xùn)_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

本課內(nèi)容包含統(tǒng)計(jì)回顧方差分析主成分分析和因子分析聚類分析判別分析典型相關(guān)分析對(duì)應(yīng)分析列聯(lián)表Logistic回歸Poisson對(duì)數(shù)線性模型時(shí)間序列分析。。。。統(tǒng)計(jì)基本概念回顧隨機(jī)性和規(guī)律性現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性從中學(xué)起,我們就知道自然科學(xué)的許多定律,例如物理中的牛頓三定律,物質(zhì)不滅定律以及化學(xué)中的各種定律等等。但是在許多領(lǐng)域,很難用如此確定的公式或論述來描述一些現(xiàn)象。比如,人的壽命是很難預(yù)先確定的。一個(gè)吸煙、喝酒、不鍛煉、而且一口長(zhǎng)葷的人可能比一個(gè)很少得病、生活習(xí)慣良好的人活得長(zhǎng)。因此,可以說,活得長(zhǎng)短是有一定隨機(jī)性的(randomness)。這種隨機(jī)性可能和人的經(jīng)歷、基因、習(xí)慣等無數(shù)說不清的因素都有關(guān)系。現(xiàn)實(shí)中的隨機(jī)性和規(guī)律性但是從總體來說,我國(guó)公民的平均年齡卻是非常穩(wěn)定的。而且女性的平均年齡也穩(wěn)定地比男性高幾年。這就是規(guī)律性。一個(gè)人可能活過這個(gè)平均年齡,也可能活不到這個(gè)年齡,這是隨機(jī)的。但是總體來說,平均年齡的穩(wěn)定性,卻說明了隨機(jī)之中有規(guī)律性。這種規(guī)律就是統(tǒng)計(jì)規(guī)律。概率和機(jī)會(huì)你可能經(jīng)常聽到概率(probability)這個(gè)名詞。例如在天氣預(yù)報(bào)中會(huì)提到降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,從某種意義說來,概率描述了某件事情發(fā)生的機(jī)會(huì)。顯然,這種概率不可能超過百分之百,也不可能少于百分之零。換言之,概率是在0和1之間的一個(gè)數(shù),說明某事件發(fā)生的機(jī)會(huì)有多大。有些概率是無法精確推斷的比如你對(duì)別人說你下一個(gè)周末去公園的概率是百分之八十。但你無法精確說出為什么是百分之八十而不是百分之八十四或百分之七十八。其實(shí)你想說的是你很可能去,但又沒有完全肯定。實(shí)際上,到了周末,你或者去,或者不去;不可能有分身術(shù)把百分之八十的你放到公園,而其余的放在別處。有些概率是可以估計(jì)的比如擲骰子。只要沒有人在骰子上做手腳,你得到6點(diǎn)的概率應(yīng)該是六分之一。得到其他點(diǎn)的概率也是一樣。得到6的概率或者機(jī)會(huì)是可以知道的,但擲骰子的結(jié)果還只可能是六個(gè)數(shù)目之一。這個(gè)已知的規(guī)律就反映了規(guī)律性,而得到哪個(gè)結(jié)果則反映了隨機(jī)性。如果你擲1000次骰子,那么,大約有六分之一的可能會(huì)得到6;這也是隨機(jī)性呈現(xiàn)有規(guī)律的一個(gè)體現(xiàn)。變量做任何事情都要有對(duì)象。比如一個(gè)班上注冊(cè)的學(xué)生有200人,這是一個(gè)固定的數(shù)目,稱為常數(shù)(constant)或者常量。但是,如果猜測(cè)今天這個(gè)班有多少人會(huì)來上課,那就沒準(zhǔn)了。這有隨機(jī)性??赡苡姓?qǐng)病假或事假的,也可能有逃課的。這樣,就要來上課的人數(shù)是個(gè)變量(variable)。另外對(duì)于某項(xiàng)政策同意與否的回答,也有“同意”、“不同意”或者“不知道”三種可能值;這也是變量,只不過不是數(shù)量而已。變量當(dāng)變量按照隨機(jī)規(guī)律所取的值是數(shù)量時(shí)該變量稱為定量變量或數(shù)量變量(quantitativevariable);因?yàn)槭请S機(jī)的,也稱為隨機(jī)變量(randomvariable)。象性別,觀點(diǎn)之類的取非數(shù)量值的變量就稱為定性變量或?qū)傩宰兞炕蚍诸愖兞浚╭ualitativevariable,categoricalvariable)。這些定性變量也可以由隨機(jī)變量來描述,比如男性和女性的數(shù)目,同意某政策人數(shù)的比例等等。只有當(dāng)變量用數(shù)量來描述時(shí),才有可能建立數(shù)學(xué)模型,才可能使用計(jì)算機(jī)來分析。數(shù)據(jù)據(jù)有了了變變量量的的概概念念,,什什么么是是數(shù)數(shù)據(jù)據(jù)呢呢??拿拿擲擲骰骰子子來來說說,,擲擲骰骰子子會(huì)會(huì)得得到到什什么么值值,,是是個(gè)個(gè)隨隨機(jī)機(jī)變變量量;;而而每每次次取取得得1至至6點(diǎn)點(diǎn)中中任任意意點(diǎn)點(diǎn)數(shù)數(shù)的的概概率率它它在在理理論論上上都都是是六六分分之之一一((如如果果骰骰子子公公平平))。。這這依依賴賴于于在在擲擲骰骰子子背背后后的的理理論論或或假假定定;;而而在在實(shí)實(shí)際際擲擲骰骰子子過過程程中中,,如如果果擲擲100次次,,會(huì)會(huì)得得到到100個(gè)個(gè)由由1至至6點(diǎn)點(diǎn)組組成成的的數(shù)數(shù)字字串串;;再再擲擲100次次,,又又得得到到一一個(gè)個(gè)數(shù)數(shù)字字串串,,和和前前一一次次的的結(jié)結(jié)果果多多半半不不一一樣樣。。這這些些試試驗(yàn)驗(yàn)結(jié)結(jié)果果就就是是數(shù)數(shù)據(jù)據(jù)。。所所以以說說,數(shù)據(jù)據(jù)是是關(guān)關(guān)于于變變量量的的觀觀測(cè)測(cè)值值.通過過數(shù)數(shù)據(jù)據(jù)可可以以驗(yàn)驗(yàn)證證有有關(guān)關(guān)的的理理論論或或假假定定(比比如如每每一一次次得得到到每每個(gè)個(gè)點(diǎn)點(diǎn)的的概概率率是是不不是是1/6等等等等))。。對(duì)對(duì)于于顧顧客客是是否否喜喜歡歡某某種種飲飲品品的的調(diào)調(diào)查查也也類類似似,,但但這這里里不不象象擲擲骰骰子子那那樣樣事事先先可可以以大大致致猜猜測(cè)測(cè)顧顧客客喜喜歡歡與與否否的的概概率率。。在在問問了了1000人人之之后后,,可可能能有有364人人說說喜喜歡歡,,而而480人人說說不不喜喜歡歡,,其其余余的的人人可可能能不不回回答答,,或或說說不不知知道道,,或或從從來來沒沒有有喝喝過過這這種種飲飲料料。。這這些些數(shù)數(shù)目目就就是是數(shù)數(shù)據(jù)據(jù)。。當(dāng)當(dāng)然然,,它它僅僅僅僅反反映映了了1000個(gè)個(gè)被被問問到到的的人人的的觀觀點(diǎn)點(diǎn);;但但這這對(duì)對(duì)于于估估計(jì)計(jì)整整個(gè)個(gè)消消費(fèi)費(fèi)群群體體的的觀觀點(diǎn)點(diǎn)還還是是有有用用的的。。統(tǒng)計(jì)計(jì)和和計(jì)計(jì)算算機(jī)機(jī)現(xiàn)代代生生活活越越來來越越離離不不開開計(jì)計(jì)算算機(jī)機(jī)了了。。最最早早使使用用計(jì)計(jì)算算機(jī)機(jī)的的統(tǒng)統(tǒng)計(jì)計(jì)當(dāng)當(dāng)然然更更離離不不開開計(jì)計(jì)算算機(jī)機(jī)了了。。事實(shí)實(shí)上上,,最初初的的計(jì)計(jì)算算機(jī)機(jī)僅僅僅是是為為科科學(xué)學(xué)計(jì)計(jì)算算而而建建造造的的。。大大型型計(jì)計(jì)算算機(jī)機(jī)的的最最早早一一批批用用戶戶就就包包含含統(tǒng)統(tǒng)計(jì)計(jì)。。而而現(xiàn)現(xiàn)在在統(tǒng)統(tǒng)計(jì)計(jì)仍仍然然是是進(jìn)進(jìn)行行數(shù)數(shù)字字計(jì)計(jì)算算最最多多的的用用戶戶。。計(jì)算算機(jī)機(jī)現(xiàn)現(xiàn)在在早早已已脫脫離離了了僅僅有有計(jì)計(jì)算算功功能能的的單單一一模模式式,,而而成成為為百姓姓生生活活的的一一部部分分。計(jì)算算機(jī)機(jī)的的使使用用,,也也從從過過去去必必須須學(xué)學(xué)會(huì)會(huì)計(jì)計(jì)算算機(jī)機(jī)語語言言到到只只需需要要““傻傻瓜瓜式式””地地點(diǎn)點(diǎn)擊擊鼠鼠標(biāo)標(biāo)。。結(jié)結(jié)果果也也從從單單純純的的數(shù)數(shù)字字輸輸出出到到包包括括漂漂亮亮的的表表格格和和圖圖形形的的各各種種形形式式。。統(tǒng)計(jì)計(jì)軟軟件件統(tǒng)計(jì)計(jì)軟軟件件的的發(fā)發(fā)展展,,也也使使得得統(tǒng)統(tǒng)計(jì)計(jì)從從統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)家家的的圈圈內(nèi)內(nèi)游游戲戲變變成成了了大大眾眾的的游游戲戲。。只只要要你你輸輸入入你你的的數(shù)數(shù)據(jù)據(jù),,點(diǎn)點(diǎn)幾幾下下鼠鼠標(biāo)標(biāo),,做做一一些些選選項(xiàng)項(xiàng),,馬馬上上就就得得到到令令人人驚驚嘆嘆的的漂漂亮亮結(jié)結(jié)果果了了。。你可可能能會(huì)會(huì)問問,,是是否否傻傻瓜瓜式式的的統(tǒng)統(tǒng)計(jì)計(jì)軟軟件件使使用用可可以以代代替替統(tǒng)統(tǒng)計(jì)計(jì)課課程程了了??當(dāng)然然不不是是。。數(shù)數(shù)據(jù)據(jù)的的整整理理和和識(shí)識(shí)別別,,方方法法的的選選用用,,計(jì)計(jì)算算機(jī)機(jī)輸輸出出結(jié)結(jié)果果的的理理解解都都不不象象使使用用傻傻瓜瓜相相機(jī)機(jī)那那樣樣簡(jiǎn)簡(jiǎn)單單可可靠靠。。統(tǒng)計(jì)計(jì)軟軟件件有些些諸諸如如法法律律和和醫(yī)醫(yī)學(xué)學(xué)方方面面的的軟軟件件都都有有不不少少警警告告,,不不時(shí)時(shí)提提醒醒你你去去咨咨詢?cè)儗<壹摇?。但統(tǒng)統(tǒng)計(jì)計(jì)軟軟件件則則不不那那么么負(fù)負(fù)責(zé)責(zé)。。只只要要數(shù)數(shù)據(jù)據(jù)格格式式無無誤誤、、方方法法不不矛矛盾盾而而且且不不用用零零作作為為除除數(shù)數(shù)就就一一定定給給你你結(jié)結(jié)果果,,而而且且沒有有任任何何警警告告。另外外,,統(tǒng)統(tǒng)計(jì)計(jì)軟軟件件輸出出的的結(jié)結(jié)果果太太多多;即即使使是是同同樣樣的的方方法法,,不不同同軟軟件件輸輸出出的的內(nèi)內(nèi)容容還還不不一一樣樣;;有有時(shí)時(shí)同同樣樣的的內(nèi)內(nèi)容容名名稱稱也也不不一一樣樣。。這這就就使使得得使使用用者者大大傷傷腦腦筋筋。。即即使使是是統(tǒng)統(tǒng)計(jì)計(jì)學(xué)學(xué)家家也也不不一一定定能能解解釋釋所所有有的的輸輸出出。。因因此此,,就就應(yīng)應(yīng)該該特特別別留留神神,,明明白白自自己己是是在在干干什什么么。。不要要在在得得到到一一堆堆毫毫無無意意義義的的垃垃圾圾之之后后還還沾沾沾沾自自喜喜。統(tǒng)計(jì)計(jì)軟軟件件統(tǒng)計(jì)軟軟件的的種類類很多多。有有些功功能齊齊全,,有些些價(jià)格格便宜宜;有有些容容易操操作,,有些些需要要更多多的實(shí)實(shí)踐才才能掌掌握。。還有有些是是專門門的軟軟件,,只處處理某某一類類統(tǒng)計(jì)計(jì)問題題。面面對(duì)太太多的的選擇擇往往往給決決策帶帶來困困難。。這里里介紹紹最常常見的的幾種種。統(tǒng)計(jì)軟軟件SPSS::這是一一個(gè)很很受歡歡迎的的統(tǒng)計(jì)計(jì)軟件件;它它容易易操作作,輸輸出漂漂亮,,功能能齊全全,價(jià)價(jià)格合合理。。對(duì)于于非統(tǒng)統(tǒng)計(jì)工工作者者是很很好的的選擇擇。Excel:它嚴(yán)格格說來來并不不是統(tǒng)統(tǒng)計(jì)軟軟件,,但作作為數(shù)數(shù)據(jù)表表格軟軟件,,必然然有一一定統(tǒng)統(tǒng)計(jì)計(jì)計(jì)算功功能。。而且且凡是是有MicrosoftOffice的的計(jì)算算機(jī),,基本本上都都裝有有Excel。。但要要注意意,有有時(shí)在在裝Office時(shí)時(shí)沒有有裝數(shù)數(shù)據(jù)分分析的的功能能,那那就必必須裝裝了才才行。。當(dāng)然然,畫畫圖功功能是是都具具備的的。對(duì)對(duì)于簡(jiǎn)簡(jiǎn)單分分析,,Excel還還算方方便,,但隨隨著問問題的的深入入,Excel就不不那么么“傻傻瓜””,需需要使使用函函數(shù),,甚至至根本本沒有有相應(yīng)應(yīng)的方方法了了。多多數(shù)專專門一一些的的統(tǒng)計(jì)計(jì)推斷斷問題題還需需要其其他專專門的的統(tǒng)計(jì)計(jì)軟件件來處處理。。SAS:這是功功能非非常齊齊全的的軟件件;盡盡管價(jià)價(jià)格不不菲,,許多多公司司還是是因?yàn)闉槠涔δ鼙姳姸嗪秃湍承┬┟绹?guó)國(guó)政府府機(jī)構(gòu)構(gòu)認(rèn)可可而使使用。。盡管管現(xiàn)在在已經(jīng)經(jīng)盡量量“傻傻瓜化化”,,仍然然需要要一定定的訓(xùn)訓(xùn)練才才可以以進(jìn)入入。對(duì)對(duì)于基基本統(tǒng)統(tǒng)計(jì)課課程則則不那那么方方便。。統(tǒng)計(jì)軟軟件S-plus:這是是統(tǒng)計(jì)計(jì)學(xué)家家喜愛愛的軟軟件。。不僅僅由于于其功功能齊齊全,,而且且由于于其強(qiáng)強(qiáng)大的的編程程功能能,使使得研研究人人員可可以編編制自自己的的程序序來實(shí)實(shí)現(xiàn)自自己的的理論論和方方法。。它也也在進(jìn)進(jìn)行““傻瓜瓜化””以爭(zhēng)爭(zhēng)取顧顧客。。但仍仍然以以編程程方便便為顧顧客所所青睞睞。R軟件件:這是一一個(gè)免費(fèi)的的,由志志愿者者管理理的軟軟件。。其編編程語語言與與S-plus所基基于的的S語語言一一樣,,很方方便。。還有有不斷斷加入入的各各個(gè)方方向統(tǒng)統(tǒng)計(jì)學(xué)學(xué)家編編寫的的統(tǒng)計(jì)計(jì)軟件件包。。同時(shí)時(shí)從網(wǎng)網(wǎng)上可可以不不斷更更新和和增加加有關(guān)關(guān)的軟軟件包包和程程序。。這是是發(fā)展最最快的軟件件,受受到世世界上上統(tǒng)計(jì)計(jì)師生生的歡歡迎。。是用戶戶量增增加最最快的的統(tǒng)計(jì)計(jì)軟件件。對(duì)于于一般般非統(tǒng)統(tǒng)計(jì)工工作者者來說說,主主要問問題是是它沒沒有““傻瓜瓜化””。統(tǒng)計(jì)軟軟件Minitab:這個(gè)軟軟件是是很方方便的的功能能強(qiáng)大大而又又齊全全的軟軟件,,也已已經(jīng)““傻瓜瓜化””,在在我國(guó)國(guó)用的的不如如SPSS與SAS那么么普遍遍。Statistica::也是功功能強(qiáng)強(qiáng)大而而齊全全的““傻瓜瓜化””的軟軟件,,在我我國(guó)用用的也也不如如SAS與與SPSS那么么普遍遍。Eviews::這是一一個(gè)主主要處處理回回歸和和時(shí)間間序列列的軟軟件。。GAUSS:這是一個(gè)很很好用的統(tǒng)統(tǒng)計(jì)軟件,,許多搞經(jīng)經(jīng)濟(jì)的喜歡歡它。主要要也是編程程功能強(qiáng)大大。目前在在我國(guó)使用用的人不多多。FORTRAN:這是應(yīng)用于于各個(gè)領(lǐng)域域的歷史很很長(zhǎng)的非常常優(yōu)秀的編編程軟件,,功能強(qiáng)大大,也有一一定的統(tǒng)計(jì)計(jì)軟件包。。計(jì)算速度度比這里介介紹的都快快得多。但但需要編程程和編譯。。操作不那那么容易。。MATLAB:這也是應(yīng)用用于各個(gè)領(lǐng)領(lǐng)域的以編編程為主的的軟件,在在工程上應(yīng)應(yīng)用廣泛。。編程類似似于S和R。但是統(tǒng)統(tǒng)計(jì)方法不不多。統(tǒng)計(jì)計(jì)軟軟件件當(dāng)然然,,還還有有其其他他的的軟軟件件,,沒沒有有必必要要一一一一羅羅列列。。其其實(shí)實(shí),,聰聰明明的的讀讀者者只只要要學(xué)學(xué)會(huì)會(huì)使使用用一一種種““傻傻瓜瓜式式””軟軟件件,,使使用用其其他他的的僅僅僅僅是是舉舉一一反反三三之之勞勞;;最最多多看看看看幫幫助助和和說說明明即即可可。。如如果果只只有有英英文文幫幫助助,,那那還還可可以以順順便便提提高高你你的的英英文文閱閱讀讀能能力力。。想想想看看舉出出你你所所知知道道的的統(tǒng)統(tǒng)計(jì)計(jì)應(yīng)應(yīng)用用例例子子。。舉出出日日常常生生活活中中隨隨機(jī)機(jī)性性和和規(guī)規(guī)律律性性的的例例子子。。你使使用用過過統(tǒng)統(tǒng)計(jì)計(jì)軟軟件件或或者者利利用用過過其其他他軟軟件件中中的的統(tǒng)統(tǒng)計(jì)計(jì)功功能能嗎嗎??你你有有什什么么經(jīng)經(jīng)驗(yàn)驗(yàn)和和體體會(huì)會(huì)??數(shù)據(jù)據(jù)的的收收集集二手手?jǐn)?shù)數(shù)據(jù)據(jù)每天天翻翻開開報(bào)報(bào)紙紙或或打打開開電電視視,,就就可可以以看看到到各各種種數(shù)數(shù)據(jù)據(jù)。。比比如如高高速速公公路路通通車車?yán)锢锍坛獭?、物物價(jià)價(jià)指指數(shù)數(shù)、、股股票票行行情情、、外外匯匯牌牌價(jià)價(jià)、、犯犯罪罪率率、、房房?jī)r(jià)價(jià)、、流流行行病病的的有有關(guān)關(guān)數(shù)數(shù)據(jù)據(jù)((確確診診病病例例、、疑疑似似病病例例、、死死亡亡人人數(shù)數(shù)和和出出院院人人數(shù)數(shù)等等等等));;當(dāng)當(dāng)然然還還有有國(guó)國(guó)家家統(tǒng)統(tǒng)計(jì)計(jì)局局定定期期發(fā)發(fā)布布的的各各種種國(guó)國(guó)家家經(jīng)經(jīng)濟(jì)濟(jì)數(shù)數(shù)據(jù)據(jù)、、海海關(guān)關(guān)發(fā)發(fā)布布的的進(jìn)進(jìn)出出口口貿(mào)貿(mào)易易數(shù)數(shù)據(jù)據(jù)等等等等。。從從中中可可以以選選取取對(duì)對(duì)自自己己有有用用的的信信息息。。這些些間間接接得得到到的的數(shù)數(shù)據(jù)據(jù)都都是是二手手?jǐn)?shù)數(shù)據(jù)據(jù)。第一一手手?jǐn)?shù)數(shù)據(jù)據(jù)獲得得第第一一手手?jǐn)?shù)數(shù)據(jù)據(jù)并并不不象象得得到到二二手手?jǐn)?shù)數(shù)據(jù)據(jù)那那么么輕輕松松。。某些些在在華華的的外外資資企企業(yè)業(yè)每每年年至至少少要要花花三三四四千千萬萬元元來來收收集集和和分分析析數(shù)數(shù)據(jù)據(jù)。。他們們調(diào)調(diào)查查其其產(chǎn)產(chǎn)品品目目前前在在市市場(chǎng)場(chǎng)中中的的狀狀況況和和地地位位并并確確定定其其競(jìng)競(jìng)爭(zhēng)爭(zhēng)對(duì)對(duì)手手的的態(tài)態(tài)勢(shì)勢(shì);;他們調(diào)查不同同地區(qū),不同同階層的民眾眾對(duì)其產(chǎn)品的的認(rèn)知程度和和購買意愿以以改進(jìn)產(chǎn)品或或推出新品種種爭(zhēng)取新顧客客;他們還收集各各地方的經(jīng)濟(jì)濟(jì)交通等信息息以決定如何何保住現(xiàn)有市市場(chǎng)和開發(fā)新新市場(chǎng)。市場(chǎng)場(chǎng)信息數(shù)據(jù)對(duì)對(duì)企業(yè)是至關(guān)關(guān)重要的。他們很舍得在在這方面花錢錢。因?yàn)檫@是是企業(yè)生存所所必需的,絕絕不是可有可可無的。觀測(cè)數(shù)據(jù)和試驗(yàn)數(shù)據(jù)上面所說的數(shù)數(shù)據(jù)是在自然的未被控控制的條件下下觀測(cè)到的,,稱為觀測(cè)數(shù)數(shù)據(jù)(observationaldata)。而對(duì)于有些問問題,比如在不同的的醫(yī)療手段下下某疾病的治治療結(jié)果有什什么不同、不不同的肥料和和土壤條件下下某農(nóng)作物的的產(chǎn)量有沒有有區(qū)別、用什什么成分可以以提高某物質(zhì)質(zhì)變成超導(dǎo)體體的溫度等等等。這種在人工干干預(yù)和操作情情況下收集的的數(shù)據(jù)就稱為為試驗(yàn)數(shù)據(jù)(experimentaldata)??傮w和樣本要想了解北京京市民對(duì)建設(shè)設(shè)北京交通設(shè)設(shè)施是以包括括軌道運(yùn)輸在在內(nèi)的公共交交通工具為主主還是以小汽汽車為主的觀觀點(diǎn),需要進(jìn)進(jìn)行調(diào)查;調(diào)查對(duì)象是所有北京市民民,調(diào)查目的是希望知道市市民中對(duì)這個(gè)個(gè)問題的不同同看法各自占占有的比例。顯然,不可能去問所所有的北京市市民,而只能能夠問一部分分;并且根據(jù)這這一部分的觀觀點(diǎn)來理解整整個(gè)北京市民民的總體觀點(diǎn)點(diǎn)??傮w和樣本這種情況下,,稱所有(每每個(gè))北京市市民對(duì)這個(gè)問問題的觀點(diǎn)為為一個(gè)總體(population),而調(diào)查查時(shí)問到的那那部分市民的的觀點(diǎn)為該總體的一個(gè)樣本(sample)。當(dāng)然,也有可可能調(diào)查所有有的人(比如如人口普查)),那叫做普查(census)??傮w是包含所所有要研究的的個(gè)體(element)的集合。。而樣本是總總體中選中的的一部分。隨機(jī)樣本在抽取樣本時(shí)時(shí),如果總體體中的每一個(gè)個(gè)體都有同等等機(jī)會(huì)被選到到樣本中,這這種抽樣稱為為簡(jiǎn)單隨機(jī)抽樣(simplerandomsampling),而這樣得到的的樣本則稱為為隨機(jī)樣本(randomsample)。。隨機(jī)樣本就北京交通問問題的調(diào)查為為例,在隨機(jī)機(jī)抽樣的情況況下,如果樣樣本量(samplesize,,也就是樣本本中個(gè)體的數(shù)數(shù)目)在總體體中的比例為為1/5000,那么,無論在在東城區(qū)或者者在延慶縣,,無論在白領(lǐng)領(lǐng)階層還是藍(lán)藍(lán)領(lǐng)階層被問問到的人的比比例都應(yīng)該大大體是1/5000。也就是說,這種比例在總總體的任何部部分是大體不不變的。方便樣本在實(shí)踐中,得得到隨機(jī)樣本本不容易。很很多搞調(diào)查的的人就采取簡(jiǎn)單的辦法。還以北京的交交通問題的調(diào)調(diào)查為例。假假定按照隨機(jī)機(jī)選出的電話話號(hào)碼進(jìn)行調(diào)調(diào)查。這樣肯肯定節(jié)省時(shí)間間和資源,但但這樣得到的的就不是一個(gè)個(gè)隨機(jī)樣本了了。如果按照隨機(jī)機(jī)選擇的數(shù)字字(無論號(hào)碼碼本上有沒有有)打電話,,那很多電話話是空號(hào)或單單位電話;顯顯然這種樣本本也不是隨機(jī)機(jī)樣本,它稱稱為方便樣本本(conveniencesample))。在調(diào)查中,即即使選擇對(duì)象象的確是隨機(jī)機(jī)的,最理想想的情況所得得到的樣本也也只代表那些些愿意回答問問題人的觀點(diǎn)點(diǎn)所組成的總總體;沒有回答問題題的人的觀點(diǎn)點(diǎn)永遠(yuǎn)不會(huì)被被這種調(diào)查的的樣本所代表表。方便樣本這種不回答的的問題是抽樣樣調(diào)查特有的的問題。在其他問題中中,也有使用用方便樣本的的情況。比如如在肺癌研究究中,人們往往往看到吸煙煙和肺癌的關(guān)關(guān)系的數(shù)據(jù);;這些數(shù)據(jù)并并不是整個(gè)人人群中采集的的隨機(jī)樣本;;它們可能只只是醫(yī)院中的的病人記錄中中得到的。在雜志和報(bào)紙紙上也有問卷卷,但得到的的只是擁有這這份報(bào)刊,而而且愿意回答答的人的觀點(diǎn)點(diǎn)。誤差假定在某一職職業(yè)人群中女女性占的比例例為60%。。如果在這個(gè)個(gè)人群中抽取取一些隨機(jī)樣樣本,這些隨隨機(jī)樣本中女女性的比例并并不一定是剛剛好60%,,可能稍微多多些或稍微少少些。這是很很正常的,因因?yàn)闃颖镜奶靥卣鞑灰欢ê秃涂傮w完全一一樣。這種差差異不是錯(cuò)誤誤,而是必然然會(huì)出現(xiàn)的抽樣誤差(samplingerror))。剛才提到在抽抽樣調(diào)查中,,一些人因?yàn)闉榉N種原因沒沒有對(duì)調(diào)查作作出反映(或或回答),這這種誤差稱為為未響應(yīng)誤差(nonresponseerror)。而另有一些人人因?yàn)楦鞣N原原因回答時(shí)并并沒有真實(shí)反反映他們的觀觀點(diǎn),這稱為為響應(yīng)誤差(responseerror))。和抽樣誤差不不一樣,未響響應(yīng)誤差和響響應(yīng)誤差都會(huì)會(huì)影響對(duì)真實(shí)實(shí)世界的了解解;應(yīng)該在設(shè)設(shè)計(jì)調(diào)查方案案時(shí)盡量避免免。抽樣調(diào)查的一一些常用方法法在抽樣調(diào)查時(shí)時(shí),最理想的的樣本是前面面提到的隨機(jī)機(jī)樣本。但是由于實(shí)踐起來來不方便,在大規(guī)模調(diào)調(diào)查時(shí)一般不不用這種全部部隨機(jī)抽樣的的方式,而只只是在局部采采用隨機(jī)抽樣樣的方法。下面介紹幾種種抽樣方法。。這里沒有深深?yuàn)W的理論;;讀者完全可可以根據(jù)常識(shí)識(shí)判斷在什么么情況下簡(jiǎn)單單的隨機(jī)樣本本不方便以及及下面的每個(gè)個(gè)方法有什么么好處和缺陷陷。對(duì)于它們們具體的設(shè)計(jì)計(jì)、實(shí)施與數(shù)數(shù)據(jù)分析,有有許多專門的的書籍,就不不在這里贅述述了。一些抽樣方法法1.分層抽樣(stratifiedsampling))。這是先把把要研究的總總體按照某些些性質(zhì)分類((stratum),再再在各類中分分別抽取樣本本。在每類中中調(diào)查的人數(shù)數(shù)通常是按照照這該類人的的比例,但出出于各種考慮慮,也可能不不按照比例,,也可能需要要加權(quán)(加權(quán)權(quán)就是在求若若干項(xiàng)的和時(shí)時(shí),對(duì)各項(xiàng)乘乘以不同的系系數(shù),這些系系數(shù)的和通常常為1)。比如可以按照照教育程度把把要訪問的人人群分成幾類類;再在每一一類中調(diào)查和和該類成比例例數(shù)目的人。。這樣就確保了了每一類都有有成比例的代代表。一些抽樣方法法2.整群抽樣(clustersampling)。這是是先把總體劃劃分成若干群群(cluster),,再(通常是是隨機(jī)地)從從這些群中抽抽取幾群;然然后再在這些些抽取的群中中對(duì)個(gè)體進(jìn)行行抽樣。比如,在某縣縣進(jìn)行調(diào)查,,首先在所有有村中選取若若干村子,然然后只對(duì)這些些村子的人進(jìn)進(jìn)行調(diào)查。顯然,如果各各村情況差異異不大,這種種抽樣還是方方便的。否則則就會(huì)增大誤誤差了。一些抽樣方法法3.多級(jí)抽樣(multistagesampling))。在群體很很大時(shí),往往往在抽取若干干群之后,再再在其中抽取取若干子群,,甚至再在子子群中抽取子子群,等等。。最后只對(duì)最最后選定的最最下面一級(jí)進(jìn)進(jìn)行調(diào)查。比如在全國(guó)調(diào)調(diào)查時(shí),先抽抽取省,再抽抽取市地,再再抽取縣區(qū),,再抽取鄉(xiāng)、、村直到戶。。在多級(jí)抽樣中中的每一級(jí)都都可能采取各各種抽樣方法法。因此,整整個(gè)抽樣計(jì)劃劃可能比較復(fù)復(fù)雜,也稱為為多級(jí)混和型型抽樣。一些抽樣方法法4.系統(tǒng)抽樣(systematicsampling))。這是先把把總體中的每每個(gè)單元編號(hào)號(hào),然后隨機(jī)機(jī)選取其中之之一作為抽樣樣的開始點(diǎn)進(jìn)進(jìn)行抽樣。如如果編號(hào)是隨隨機(jī)選取的,,則這和簡(jiǎn)單單隨機(jī)抽樣是是等價(jià)的。在在選取開始點(diǎn)點(diǎn)之后,通常常從開始點(diǎn)開開始按照編號(hào)號(hào)進(jìn)行所謂等等距抽樣;也也就是說,如如果開始點(diǎn)為為5號(hào),“距距離”為10,則下面的的調(diào)查對(duì)象為為15號(hào)、25號(hào)等等。。抽樣方方法的的選擇擇不能能一概概而論論實(shí)際上上每個(gè)個(gè)抽樣樣通常常都可可能是是各種種抽樣樣方法法的組組合。。既要要考慮慮精確確度,,還要要根據(jù)據(jù)客觀觀情況況考慮慮方便便性、、可行行性和和經(jīng)濟(jì)濟(jì)性。。不能能一概概而論論。計(jì)算機(jī)機(jī)中常常用的的數(shù)據(jù)據(jù)形式式數(shù)據(jù)是是由一一些變變量和和它們們的觀觀測(cè)值值所組組成。。下面面就是是調(diào)查查人們們對(duì)某某個(gè)問問題觀觀點(diǎn)的的一個(gè)個(gè)數(shù)據(jù)據(jù)的方方陣形形式。。其中中有6個(gè)變變量::觀點(diǎn)點(diǎn)(觀觀測(cè)值值為支支持、、反對(duì)對(duì)和不不知道道三種種)、、教育育程度度(有有高中中低三三種取取值,,用H、M、L表示示)、、月收收入((取值值為實(shí)實(shí)際數(shù)數(shù)字))、性性別((取值值有男男女兩兩個(gè),,用M和F表示示)以以及地地區(qū)號(hào)號(hào)(用用數(shù)字字1,,2,,3,,4表表示))等。。該表表一共共有1364個(gè)個(gè)觀測(cè)測(cè)值((問卷卷回答答)。??梢砸钥闯龀鲞@些些變量量有定定性((屬性性)變變量,,也有有定量量(數(shù)數(shù)值))變量量。按按照這這個(gè)數(shù)數(shù)據(jù)的的格式式,每每一列列為一一個(gè)變變量的的不同同觀測(cè)測(cè)值;;而每每一行行則稱稱為一一個(gè)觀觀測(cè)值值,它它是個(gè)個(gè)由數(shù)數(shù)量值值和屬屬性值值組成成的向向量,,每一一個(gè)值值相應(yīng)應(yīng)于一一個(gè)變變量。。思考1.舉舉出一一些觀觀測(cè)數(shù)數(shù)據(jù)和和試驗(yàn)驗(yàn)數(shù)據(jù)據(jù)的例例子。。2.舉舉出簡(jiǎn)簡(jiǎn)單隨隨機(jī)樣樣本的的例子子。3.根根據(jù)你你的經(jīng)經(jīng)驗(yàn),,舉出出總體體和樣樣本的的一些些具體體例子子。4.舉舉出調(diào)調(diào)查抽抽樣時(shí)時(shí)可能能發(fā)生生的各各種影影響調(diào)調(diào)查結(jié)結(jié)果的的問題題,并并且提提出你你認(rèn)為為可以以減少少或避避免這這些問問題的的建議議。5.根根據(jù)你你的直直覺,,本章章提到到的幾幾種抽抽樣方方法的的優(yōu)缺缺點(diǎn)是是什么么?原原因何何在??6.舉舉出一一些書書報(bào)上上發(fā)表表的數(shù)數(shù)據(jù)例例子,,并指指出那那些是是變量量,哪哪些是是觀測(cè)測(cè)值。。數(shù)據(jù)的的描述述如同給給人畫畫像一一樣直方圖圖比如某某個(gè)地地區(qū)((地區(qū)區(qū)1))學(xué)校校高三三男生生的身身高;;有163個(gè)度度量如如何用用圖形形來表表示這這個(gè)數(shù)數(shù)據(jù),,使人人們能能夠看看出這這個(gè)數(shù)數(shù)據(jù)的的大體體分布布或““形狀狀”呢呢?一一個(gè)辦辦法就就是畫畫一個(gè)個(gè)直方方圖(histogram)。盒型圖圖比直方方圖簡(jiǎn)簡(jiǎn)單一一些的的是盒盒形圖圖(boxplot,又又稱箱箱圖、、箱線線圖、、盒子子圖)。后后面圖圖的左左邊一一個(gè)是是根據(jù)據(jù)地區(qū)區(qū)1高高三男男生的的身高高數(shù)據(jù)據(jù)所繪繪的盒盒形圖圖;其其右邊邊的圖圖代表表另一一個(gè)地地區(qū)((地區(qū)區(qū)2))的高高三學(xué)學(xué)生的的身高高莖葉圖地區(qū)1高三三男生身高高數(shù)據(jù)的莖莖葉圖HEIGHTStem-and-LeafPlotFrequencyStem&Leaf9.0015.00122334417.0015.5566666777889999920.0016.0111222222333333344435.0016.5555566666666777778888888888899999925.0017.000000001111222223333334424.0017.55566667777777777788889913.0018.011111112233311.0018.556677888994.0019.23332.0019.563.00Extremes(>=198)Stemwidth:10.00Eachleaf:1case(s)散點(diǎn)圖往往人們得得到的數(shù)據(jù)據(jù)有兩個(gè)變變量的,比比如美國(guó)男男士和女士士初婚年限限的數(shù)據(jù)。。該數(shù)據(jù)描描述了自1900年到1998年男女第一一次結(jié)婚延延續(xù)的時(shí)間間的中位數(shù)數(shù)。當(dāng)然,,不可能將將所有人的的婚姻年限限都給出來來。所以,,每年就取取了一個(gè)中中間的值(中位數(shù))作為代表。。自1900到1960年是每十年年一個(gè)值,,以后到1990是每五年取取一個(gè)數(shù),,1995年以后是每每年一個(gè)數(shù)數(shù)。這里的的一個(gè)變量量為記錄年年份,另一一個(gè)是結(jié)婚婚時(shí)間長(zhǎng)短短。由于分分男士和女女士,因此此有兩二維維數(shù)據(jù)。這這時(shí)可以以以一個(gè)變量量為橫坐標(biāo)標(biāo)(如年份份),另一一個(gè)為縱坐坐標(biāo)(這里里是結(jié)婚年年限)來點(diǎn)點(diǎn)圖。這種種圖稱為散散點(diǎn)圖(scatterplot)。還可以以看出在二二十世紀(jì)六六十年代婚婚姻年限降降低,而后后來又升高高。而男子子的年限平平均比女性性長(zhǎng)。這個(gè)個(gè)圖是用SPSS畫的。定性變量的的點(diǎn)圖定性變量((或?qū)傩宰冏兞?,分類類變量)不不能點(diǎn)出直直方圖、散散點(diǎn)圖或莖莖葉圖,但但可以描繪繪出它們各各類的比例例。下面用用SPSS繪的圖表示示了說世界界各種主要要語言的人人數(shù)的比例例餅圖條形圖匯總統(tǒng)計(jì)量量或概括統(tǒng)計(jì)量量(summarystatistic)匯總統(tǒng)計(jì)量量(位置))均值(mean)中位數(shù)(median)(第一,第第三)四分分位數(shù)(點(diǎn)點(diǎn))(firstquantile,thirdquantile)k-百分位位數(shù)(k-percentile)眾數(shù)(mode)匯總統(tǒng)計(jì)量量(尺度))(scalestatistic)極差(range)四分位間距距(四分位位極差)(interquantilerange)標(biāo)準(zhǔn)差(standarddeviation)方差(variance)兩個(gè)尺度不不同的數(shù)據(jù)據(jù)的直方圖圖,左邊的的標(biāo)準(zhǔn)差大大約只有右右邊的一半半數(shù)據(jù)的標(biāo)準(zhǔn)準(zhǔn)得分(standardscore)兩個(gè)水平類類似的班級(jí)級(jí)(一班和和二班)上上同一門課課,但是由由于兩個(gè)任任課老師的的評(píng)分標(biāo)準(zhǔn)準(zhǔn)不同,使使得兩個(gè)班班成績(jī)的均均值和標(biāo)準(zhǔn)準(zhǔn)差都不一一樣(數(shù)據(jù)據(jù):grade.sav)。。一班分?jǐn)?shù)數(shù)的均值和和標(biāo)準(zhǔn)差分分別為78.53和和9.43,而二班班的均值和和標(biāo)準(zhǔn)差分分別為70.19和和7.00。那么得得到90分分的一班的的張穎是不不是比得到到82分的的二班的劉劉疏成績(jī)更更好呢?怎怎么比較才才能合理呢呢?雖然這這種均值和和標(biāo)準(zhǔn)差不不同的數(shù)據(jù)據(jù)不能夠直直接比較,,但是可以以把它們進(jìn)進(jìn)行標(biāo)準(zhǔn)化化,然后再再比較標(biāo)準(zhǔn)準(zhǔn)化后的數(shù)數(shù)據(jù)。一個(gè)個(gè)標(biāo)準(zhǔn)化的的方法是把把原始觀測(cè)測(cè)值(亦稱稱得分,score)和均值值之差除以以標(biāo)準(zhǔn)差;;得到的度度量稱為標(biāo)標(biāo)準(zhǔn)得分(standardscore)。。思考1.根根據(jù)你的經(jīng)經(jīng)驗(yàn),給出出定性和定定量變量的的例子。2.對(duì)對(duì)于問題1中你的例例子,試圖圖畫出各種種描述性圖圖形并計(jì)算算匯總統(tǒng)計(jì)計(jì)量。3.舉舉例說明眾眾數(shù)、中位位數(shù)和均值值的優(yōu)缺點(diǎn)點(diǎn)。4.舉舉例說明尺尺度統(tǒng)計(jì)量量說明了數(shù)數(shù)據(jù)的什么么特性。5.

標(biāo)準(zhǔn)準(zhǔn)得分實(shí)際際上是對(duì)原原始數(shù)據(jù)的的一種標(biāo)準(zhǔn)準(zhǔn)化。試舉舉出標(biāo)準(zhǔn)得得分的用處處。統(tǒng)計(jì)計(jì)推推斷斷從數(shù)數(shù)據(jù)據(jù)得得到到對(duì)對(duì)現(xiàn)現(xiàn)實(shí)實(shí)世世界界的的結(jié)結(jié)論論的的過過程程估計(jì)計(jì)總體體它它代代表表我我們們所所關(guān)關(guān)心心的的那那部部分分現(xiàn)現(xiàn)實(shí)實(shí)世世界界。。而而在在利利用用樣樣本本中中的的信信息息來來對(duì)對(duì)總總體體進(jìn)進(jìn)行行推推斷斷之之前前人人們們一一般般對(duì)對(duì)代代表表總總體體的的變變量量假假定定了了分分布布族族。。比比如如假假定定人人們們的的身身高高屬屬于于正正態(tài)態(tài)分分布布族族;;對(duì)對(duì)抽抽樣樣調(diào)調(diào)查查假假定定了了二二項(xiàng)項(xiàng)分分布布族族等等等等。。這這些些模模型型基基本本上上是是根根據(jù)據(jù)經(jīng)經(jīng)驗(yàn)驗(yàn)來來假假定定的的,,所所以以僅僅僅僅是是對(duì)對(duì)現(xiàn)現(xiàn)實(shí)實(shí)世世界界的的一一個(gè)個(gè)近近似似。。在在假假定定了了總總體體分分布布族族之之后后,,進(jìn)進(jìn)一一步步對(duì)對(duì)總總體體的的認(rèn)認(rèn)識(shí)識(shí)就就是是要要在在這這個(gè)個(gè)分分布布族族中中選選擇擇一一個(gè)個(gè)適適合合于于我我們們問問題題的的分分布布;;由由于于分分布布族族成成員員是是由由參參數(shù)數(shù)確確定定的的,,如如果果參參數(shù)數(shù)能能夠夠估估計(jì)計(jì),,對(duì)對(duì)總總體體的的具具體體分分布布就就知知道道得得差差不不多多了了。。估計(jì)計(jì)一種種是是點(diǎn)點(diǎn)估估計(jì)計(jì)(pointestimation),,也也就就是是用用估估計(jì)計(jì)量量的的實(shí)實(shí)現(xiàn)現(xiàn)值值來來近近似似相相應(yīng)應(yīng)的的總總體體參參數(shù)數(shù)。。另一一種種是是區(qū)區(qū)間間估估計(jì)計(jì)(intervalestimation);;它它是是包包括括估估計(jì)計(jì)量量在在內(nèi)內(nèi)((有有時(shí)時(shí)是是以以估估計(jì)計(jì)量量為為中中心心))的的一一個(gè)個(gè)區(qū)區(qū)間間;;該該區(qū)區(qū)間間被被認(rèn)認(rèn)為為很很可可能能包包含含總總體體參參數(shù)數(shù)。。點(diǎn)估估計(jì)計(jì)給給出出一一個(gè)個(gè)數(shù)數(shù)字字,,用用起起來來很很方方便便;;而而區(qū)區(qū)間間估估計(jì)計(jì)給給出出一一個(gè)個(gè)區(qū)區(qū)間間,,說說起起來來留留有有余余地地;;不不象象點(diǎn)點(diǎn)估估計(jì)計(jì)那那么么絕絕對(duì)對(duì)。。無偏偏估估計(jì)計(jì)(大大樣樣本本性性質(zhì)質(zhì))區(qū)間間估估計(jì)計(jì)的的置置信信度度(大大樣樣本本性性質(zhì)質(zhì))估計(jì)計(jì)注意意置置信信區(qū)區(qū)間間的的論論述述是是由由區(qū)區(qū)間間和和置置信信度度兩兩部部分分組組成成。。有有些些新新聞聞媒媒體體報(bào)報(bào)道道一一些些調(diào)調(diào)查查結(jié)結(jié)果果只只給給出出百百分分比比和和誤誤差差((即即置置信信區(qū)區(qū)間間)),,并并不不說說明明置置信信度度,,也也不不給給出出被被調(diào)調(diào)查查的的人人數(shù)數(shù),,這這是是不不負(fù)負(fù)責(zé)責(zé)的的表表現(xiàn)現(xiàn)。。因因?yàn)闉榻到档偷椭弥眯判哦榷瓤煽梢砸允故怪弥眯判艆^(qū)區(qū)間間變變窄窄((顯顯得得““精精確確””)),,有有誤誤導(dǎo)導(dǎo)讀讀者者之之嫌嫌。。如如果果給給出出被被調(diào)調(diào)查查的的人人數(shù)數(shù),,則則內(nèi)內(nèi)行行可可以以由由推推算算出出置置信信度度((由由后后面面給給出出的的公公式式)),,反反之之亦亦然然。。一個(gè)描述述性例子子一個(gè)有10000個(gè)人人回答的的調(diào)查顯顯示,同同意某種種觀點(diǎn)的的人的比比例為70%((有7000人人同意)),可以以算出總總體中同同意該觀觀點(diǎn)的比比例的95%置置信區(qū)間間為(0.691,0.709);;另一個(gè)個(gè)調(diào)查聲聲稱有70%的的比例反反對(duì)該種種觀點(diǎn),,還說總總體中反反對(duì)該觀觀點(diǎn)的置置信區(qū)間間也是((0.691,,0.709))。到底底相信誰誰呢?實(shí)實(shí)際上,,第二個(gè)個(gè)調(diào)查隱隱瞞了置置信度((等價(jià)于于隱瞞了了樣本量量)。如如果第二二個(gè)調(diào)查查僅僅調(diào)調(diào)查了50個(gè)人人,有35個(gè)人人反對(duì)該該觀點(diǎn)。。根據(jù)后后面的公公式可以以算出,,第二個(gè)個(gè)調(diào)查的的置信區(qū)區(qū)間的置置信度僅僅有11%。假設(shè)檢驗(yàn)驗(yàn)在假設(shè)檢檢驗(yàn)中,,一般要要設(shè)立一一個(gè)原假假設(shè);而而設(shè)立該該假設(shè)的的動(dòng)機(jī)主主要是企企圖利用用人們掌掌握的反反映現(xiàn)實(shí)實(shí)世界的的數(shù)據(jù)來來找出假假設(shè)和現(xiàn)現(xiàn)實(shí)的矛矛盾,從從而否定定這個(gè)假假設(shè)。在在多數(shù)統(tǒng)統(tǒng)計(jì)教科科書中((除了理理論探討討之外))的假設(shè)設(shè)檢驗(yàn)都都是以否否定原假假設(shè)為目目標(biāo)。如果否定定不了,,那就說說明證據(jù)據(jù)不足,,無法否否定原假假設(shè)。但但這不能能說明原原假設(shè)正正確。很很多教科科書在這這個(gè)問題題上不適適當(dāng)?shù)赜糜谩敖邮苁茉僭O(shè)設(shè)”的說說法,犯犯了明顯顯的低級(jí)級(jí)邏輯錯(cuò)錯(cuò)誤。假設(shè)檢驗(yàn)驗(yàn)的過程程和邏輯輯首先要提提出一個(gè)個(gè)原假設(shè)設(shè),比如如某正態(tài)態(tài)總體的的均值等等于5((m=5)。。這種原原假設(shè)也也稱為零零假設(shè)((nullhypothesis),記記為H0。與此同時(shí)時(shí)必須提提出對(duì)立立假設(shè),,比如總總體均值值大于5(m>5)。。對(duì)立假假設(shè)又稱稱為備選選假設(shè)或或備擇假假設(shè)(alternativehypothesis)記為為記為H1或Ha。假設(shè)檢驗(yàn)驗(yàn)的過程程和邏輯輯根據(jù)零假假設(shè)(不是備備選假設(shè)設(shè)?。?,,我們可可以得到到該檢驗(yàn)驗(yàn)統(tǒng)計(jì)量量的分布布;然后再看看這個(gè)統(tǒng)統(tǒng)計(jì)量的的數(shù)據(jù)實(shí)實(shí)現(xiàn)值((realization))屬不屬屬于小概概率事件件。也就就是說把把數(shù)據(jù)代代入檢驗(yàn)驗(yàn)統(tǒng)計(jì)量量,看其其值是否否落入零零假設(shè)下下的小概概率范疇疇;如果的確確是小概概率事件件,那么么我們就就有可能能拒絕零零假設(shè),,否則我我們說沒沒有足夠夠證據(jù)拒拒絕零假假設(shè)。假設(shè)設(shè)檢檢驗(yàn)驗(yàn)的的過過程程和和邏邏輯輯注意意::零假假設(shè)設(shè)和和備備選選假假設(shè)設(shè)在在假假設(shè)設(shè)檢檢驗(yàn)驗(yàn)中中并并不不對(duì)對(duì)稱稱。因因檢檢驗(yàn)驗(yàn)統(tǒng)統(tǒng)計(jì)計(jì)量量的的分分布布是是從從零零假假設(shè)設(shè)導(dǎo)導(dǎo)出出的的,,因因此此,,如如果果發(fā)發(fā)生生矛矛盾盾,,當(dāng)當(dāng)然然就就對(duì)對(duì)零零假假設(shè)設(shè)不不利利了了。。不發(fā)發(fā)生生矛矛盾盾也也不不說說明明備備選選假假設(shè)設(shè)有有問問題題((因因?yàn)闉楹秃蛡鋫溥x選假假設(shè)設(shè)無無關(guān)關(guān)))。。假設(shè)設(shè)檢檢驗(yàn)驗(yàn)的的過過程程和和邏邏輯輯檢驗(yàn)驗(yàn)統(tǒng)統(tǒng)計(jì)計(jì)量量在在零零假假設(shè)設(shè)下下等等于于這這個(gè)個(gè)樣樣本本的的數(shù)數(shù)據(jù)據(jù)實(shí)實(shí)現(xiàn)現(xiàn)值值或或更更加加極極端端值值的的概概率率稱稱為為p-值值((p-value))。。顯然然得得到到很很小小p-值值意意味味著著小小概概率率事事件件發(fā)發(fā)生生了了。。如如果果小小概概率率事事件件發(fā)發(fā)生生,,是是相相信信零零假假設(shè)設(shè),,還還是是相相信信數(shù)數(shù)據(jù)據(jù)呢呢??當(dāng)然然是是相相信信數(shù)數(shù)據(jù)據(jù)。。于于是是就就拒拒絕絕零零假假設(shè)設(shè)。。但但小小概概率率并并不不能能說說明明不不會(huì)會(huì)發(fā)發(fā)生生,,僅僅僅僅發(fā)發(fā)生生的的概概率率很很小小罷罷了了。。拒絕絕正正確確零零假假設(shè)設(shè)的的錯(cuò)錯(cuò)誤誤常常被被稱稱為為第第一一類類錯(cuò)錯(cuò)誤誤((typeIerror))。。假設(shè)設(shè)檢檢驗(yàn)驗(yàn)的的過過程程和和邏邏輯輯有第第一一類類錯(cuò)錯(cuò)誤誤,,就就有有第第二二類類錯(cuò)錯(cuò)誤誤;;那那是是備備選選零零假假設(shè)設(shè)正正確確時(shí)時(shí)反反而而說說零零假假設(shè)設(shè)正正確確的的錯(cuò)錯(cuò)誤誤,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論