版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
詳 第一章概 第二 SPSS軟件基 第三章統(tǒng)計(jì)數(shù)據(jù)的收集、整理與描 第四 第五 LogisticExcel附錄二常用統(tǒng)計(jì) -詳 第一章概 第一節(jié)市場經(jīng)濟(jì)呼喚統(tǒng)計(jì) 第二節(jié)統(tǒng)計(jì)學(xué)的研究對象及其學(xué)科分 第三節(jié)實(shí)用統(tǒng)計(jì)分析方法概 第二 SPSS軟件基 第一節(jié)統(tǒng)計(jì)分析軟件簡 第二節(jié)SPSS簡 第三節(jié)SPSS基本操 第三章統(tǒng)計(jì)數(shù)據(jù)的收集、整理與描 第一節(jié)統(tǒng)計(jì)數(shù)據(jù)的來 第二節(jié)統(tǒng)計(jì)數(shù)據(jù)的收 第三節(jié)統(tǒng)計(jì)數(shù)據(jù)的整 第四節(jié)統(tǒng)計(jì)數(shù)據(jù)的描 第五節(jié)統(tǒng)計(jì)數(shù)據(jù)的探索性分 第四 第一節(jié)總體、樣本與隨 第二節(jié)總體與隨量的描 第三節(jié)樣本的描 第四節(jié)抽樣分布——總體與樣本的連接 第五 第一節(jié)抽 第二節(jié)估 第三節(jié)檢 第六 方差分 第一節(jié)單因素方差分 第二節(jié)多因素方差分 第三節(jié)案例:信息的定量分 第七 相關(guān)分 第一節(jié)簡單相關(guān)分 第二節(jié)偏相關(guān)分 第三節(jié)其它相關(guān)系數(shù)分 第八 回歸分 第一節(jié)一元線性回歸分 第二節(jié)一元線性回歸模型估計(jì)量的性質(zhì)與分 第三節(jié)一元線性回歸模型的檢 第四節(jié)多元線性回歸基本概 第五節(jié)多元線性回歸模型的估計(jì)和檢 第六節(jié)非線性回歸與曲線回 第七節(jié)多重共線 第八節(jié)異方 第九節(jié)自相 第十節(jié)回歸模型的應(yīng) 第十一節(jié)案例1:我國經(jīng)濟(jì)增長持續(xù)性的...........................第十二節(jié)案例2:中德人口化水平之比 第九 第一節(jié)虛擬變量回歸模型的基本概 第二節(jié)包含一個質(zhì)因素的虛擬變量模 第三節(jié)包含多個質(zhì)的因素的虛擬變量模 第四節(jié)案例:虛擬變量在新股上市模型中的應(yīng) 第十 Logistic回歸分 第一節(jié)Logistic回歸基本概 第二節(jié)Logistic回歸模型的估計(jì)與檢 第三節(jié)案例:審計(jì)意見預(yù)測模型的構(gòu) 第十一 第一節(jié)非參數(shù)檢驗(yàn)基本概 第二節(jié)非參數(shù)檢驗(yàn)方 第十二 聚類分 第一節(jié)聚類分析概 第二節(jié)數(shù)據(jù)變換處 案例:新興的多因素模型案例:院規(guī)模的因子分析Excel中文Excel概述ExcelExcelExcel附錄二常用統(tǒng)計(jì) -第一章概論第一節(jié)市場經(jīng)濟(jì)呼喚統(tǒng)第二節(jié)統(tǒng)計(jì)學(xué)的研究對象及其1992年11月,國家技術(shù)正式批準(zhǔn)統(tǒng)計(jì)學(xué)為一級學(xué)科,局頒布的學(xué)科分類標(biāo)準(zhǔn)已將統(tǒng)計(jì)學(xué)列為一級學(xué)科,1998年教育部進(jìn)行的專業(yè)調(diào)整也將統(tǒng)計(jì)學(xué)歸入理學(xué)類一(D)數(shù)據(jù)、某年度的貨幣購察數(shù)據(jù)的搜往往十分,統(tǒng)學(xué)不僅要研究觀數(shù)據(jù)的整理分技術(shù),而且要花很力氣研究觀數(shù)據(jù)的搜集技。正因?yàn)閷?shí)驗(yàn)數(shù)和觀察數(shù)據(jù)不特搜集整理簡單。從上面的分析中不難看出,自然技術(shù)統(tǒng)計(jì)學(xué)和社會經(jīng)濟(jì)統(tǒng)計(jì)學(xué)本沒有不可逾越的鴻溝,兩只是由于研對象所具的不同點(diǎn),才產(chǎn)生了不的學(xué)特學(xué)分為理論統(tǒng)計(jì)學(xué)、應(yīng)用統(tǒng)計(jì)學(xué)、與其他統(tǒng)計(jì)學(xué)等(如圖11所示。應(yīng)用統(tǒng)計(jì)學(xué)只涉及某一特定現(xiàn)象領(lǐng)域的統(tǒng)計(jì)研究,又可以分為核算統(tǒng)計(jì)學(xué)和實(shí)驗(yàn)統(tǒng)計(jì)驗(yàn)究現(xiàn)及的特規(guī)理方,統(tǒng)計(jì)①廣泛。本書主要是為非統(tǒng)計(jì)專業(yè)的學(xué)生和統(tǒng)計(jì)工作者提供一本關(guān)于實(shí)用統(tǒng)計(jì)分析方法的讀第三節(jié)實(shí)用統(tǒng)計(jì)分析一、變量(Variable)的分散型變量(discretevariable)和連續(xù)型變量(continuousvariable)。如果一個變量的觀測值之間有12(A)所示。更準(zhǔn)確地說,當(dāng)個可能取值之間還有其他可能取值時,該變量是連續(xù)的。例如,(設(shè)取值為0,女身高、體重、血壓、GDP等為連續(xù)型變量。12空 沒有空(A)離散變量的取 根據(jù)一個變量在分析時的作用,可以把變量分為因變量(dependentvariable)或自變量(independentvariable)。如果一個變量由其他變量來描述,該變量稱為因變量或反應(yīng)變量(responsevariable);如果一個變量與其他變量一起用于描述因變量,該變量稱為自變量或預(yù)定類變量又稱為名義nominal變量。這是一種測量精確度最低、最粗略的基于“質(zhì)”2、定序定序變量又稱為有序ordinal變量、順序變量,它的取值的大小能夠表示觀測對象的(>”(<”3、定距定距變量又稱為間隔interval變量,它的取值之間可以比較大小,可以用加減法計(jì)算兩個相同間隔的數(shù)值的差異相等,例如,的60歲與50歲之差等于40歲與30歲之差。4、定比“血壓。按間隙分類和按測量尺度分類的如圖1-3所示。13變量分類的””假定,(4)數(shù)據(jù)的收集方法(即抽樣過程。選擇統(tǒng)計(jì)分析方法時一般考慮前兩個因素就足可把統(tǒng)計(jì)分析方法一一進(jìn)行歸類(如表1-1所示,這是正確選擇統(tǒng)計(jì)分析方法的一種有效表1- 回歸分析或線性模描述續(xù)型因變量與一個或多個定協(xié)方差分析(或線性影響下續(xù)因變量與一個或多個定類列聯(lián)分析,LogitLogistic回歸分析、量定性、定量量//第二章SPSS第一節(jié)統(tǒng)計(jì)分析軟機(jī)上使用的統(tǒng)計(jì)軟件有許多種,在實(shí)際工作中應(yīng)用比較普遍的主要有SPSS、SAS、TSP、EViews、BMDP、TPL、CENTS、DET、SP、SARP、Excel、Lotus1-2-3、、S-Plus、Minitab等,為幫助讀者了解選擇和使用這些軟件,我們在此作一簡單介紹,具體的應(yīng)用技 ysisSystem)軟件是為處理數(shù)據(jù)而研制的大型統(tǒng)計(jì)分析系統(tǒng),是融數(shù)據(jù)管理和統(tǒng)計(jì)分析于一體,由多個子軟件構(gòu)成的一個大型軟件。該軟件1972年由SASSAS成為業(yè)界著名應(yīng)用軟件的重要因素。SAS支持多種軟硬件平臺,廣泛地運(yùn)行在各種型號的大、中、小型機(jī)和微型計(jì)算機(jī)上。SAS系統(tǒng)中提供的主要分析功能包括統(tǒng)計(jì)分析、塊。BASESAS模塊是SAS系統(tǒng)的,承擔(dān)著主要的數(shù)據(jù)管理任務(wù),并管理用戶使用環(huán)SAS模塊和產(chǎn)品。也就是說,SAS系統(tǒng)的運(yùn)行,首先BASESAS模塊,它除了本身所具有數(shù)據(jù)管理、程序設(shè)計(jì)及描述統(tǒng)計(jì)計(jì)算功能以外,還是SAS系統(tǒng)的調(diào)度室。它除可單獨(dú)存在外,也可與其他產(chǎn)品或模塊共同構(gòu)成一個完整的系統(tǒng)。各模塊的安裝及更新都可通過其安裝程序非常方便地進(jìn)行。SAS系統(tǒng)具有BASESAS的基礎(chǔ)上,還可以增加如下不同的(質(zhì)量控制模塊、SASETS(經(jīng)濟(jì)計(jì)量學(xué)和時間序列分析模塊、SAS/OR(運(yùn)籌學(xué)模塊、SAS/IML(交互式矩陣程序設(shè)計(jì)語言模塊、SASFSP(快速數(shù)據(jù)處理的交互式菜單系統(tǒng)模塊、SAS/A()在統(tǒng)計(jì)功能方面(SAS/ST,SAS可以完成以下任SAS提供兩種非交互式運(yùn)行方式(批處理方式、程序方式)和兩種交互式(命令行方SAS的使用者。SAS多窗術(shù)提供多種系統(tǒng)定義窗口,使運(yùn)行情況一目了然。此外,用戶還可自己定義SAS的通訊功能允許用戶與主機(jī)進(jìn)行數(shù)據(jù)及程序交換,可實(shí)現(xiàn)SASSQLServer、Access、Excel等互相交換數(shù)據(jù)。SAS系統(tǒng)簡單易學(xué)、使用方便、即使是沒有編程經(jīng)驗(yàn)甚至不太熟悉計(jì)算機(jī)的用戶,也SAS系統(tǒng)作基本的數(shù)據(jù)分析和統(tǒng)計(jì)工作。對統(tǒng)計(jì)人員來說,SAS系統(tǒng)是一個得心應(yīng)手的工具,所有的工作都可以在本系統(tǒng)內(nèi)完成,而不象有的統(tǒng)計(jì)軟COLE和MailAPIs等業(yè)界標(biāo)準(zhǔn)的支持,大大加強(qiáng)了SAS系統(tǒng)和其它軟件廠商的應(yīng)用系統(tǒng)之間相互操作的能力,為各應(yīng)用系統(tǒng)之間的信息共享和交流奠定了堅(jiān)實(shí)的基礎(chǔ)。有關(guān)SAS系統(tǒng)的動態(tài)新參見SAS主頁 MicroTSP(TimeSeriesProcessor)是原國家教委所推薦的功能強(qiáng)大的經(jīng)濟(jì)計(jì)量分析軟件,(4)(5)(6)ARMA模能。該軟件可采用式操作,也可用命令編程運(yùn)行。MicroTSPforDOS的最高版本為V6.53,其Windows版改名為EViews。EViews充分利用Windows操作系統(tǒng)的強(qiáng)大功能,引入了全新的面向?qū)ο蟾拍睿ㄟ^操作對象實(shí)現(xiàn)各種分析功能。EViews提供了在運(yùn)行Windows的微機(jī)上進(jìn)行復(fù)雜的數(shù)據(jù)分析、回歸EViews的版本有V1.0、V2.0、V3.0、V3.1和V4.0等。有關(guān)EViews軟件的動態(tài)見 查詢動態(tài)或30天全功能試用版。(五)NCSS2000forNCSSforWindows是一個十分優(yōu)秀的統(tǒng)計(jì)軟件,其界面友好,功能齊全。其主要功能 (六 For多功能數(shù)理統(tǒng)計(jì)和數(shù)學(xué)模型處理軟件”。它是用Delphi開發(fā)的,采用TideStone公司的定,行和列由系統(tǒng)辨認(rèn)。DPS在統(tǒng)計(jì)分析及模型模擬方面功能齊全,易于掌握,尤其是對 DataDesk, 第二節(jié)SPSS簡SPSSStatisticalPackagefortheSocialScience(社會科學(xué)統(tǒng)計(jì)軟件包)的縮寫。20世紀(jì)60年代末,斯坦福大學(xué)的三位研制開發(fā)了最早的統(tǒng)計(jì)分析軟件SPSS,SPSS/PC+SPSS微機(jī)系列產(chǎn)品的開發(fā)方向,極大地?cái)U(kuò)充了它的應(yīng)用范圍,紛紛就SPSS的自動統(tǒng)計(jì)繪圖、數(shù)據(jù)的深入分析、使用方便、功能齊全等方面給予了高度的評價與稱贊。SPSS名為社會科學(xué)統(tǒng)計(jì)軟件包,這是為了強(qiáng)調(diào)其在社會科學(xué)應(yīng)用的一SPSS現(xiàn)已推廣到多種系統(tǒng)的計(jì)算機(jī)上,它和SAS、BMDP并稱為國際上最有SAS、BMDP、GLIM、GENSTAT、EPILOG、MiniTab的總體印象分的統(tǒng)計(jì)中,其諸項(xiàng)功能均獲得最高分①。在界有條不成文的規(guī)定,即在交過程,比如回歸分析中又分線性回歸分析、曲線估計(jì)、Logistic回歸、Probit回歸、估的方法及參數(shù)。SPSS也有專門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形。SPSSforWindows界面友好,功能強(qiáng)大,使用者越來越多。SPSSfor主要新增功能如表1-2所示。表1-2SPSSforWindows不同版本新增特性②②參見SPSS幫助文件和SPSS公司的 /)1、首次加入了引擎可以采用與VisualBasic完全兼容的SaxBasic語言編寫程序定制輸出或自動運(yùn)行某3、新增了StatisticsCoach(統(tǒng)計(jì))幫助新用戶選擇合適VarianceComponentsysis等。1、對界面作了一些改動,如用[ 3SQL數(shù)據(jù)庫、Excel等的數(shù)據(jù)交互,可以直接SPSS2000及更高版本的Windows操作系統(tǒng)上運(yùn)行。 3、安裝程序顯示[SoftwareLicenseAgreement]框時,選擇[Yes]接受顯示的協(xié)議條款。4SPSS安裝到哪個文件夾()SPSS(如“C:\ProgramFiles\SPSS。如果要改變安裝,按[Browse][Next]2-安裝)](2-2所示。這里假設(shè)要進(jìn)行定制安裝,所以選擇[Custom]。按[Next]進(jìn)入下2-2-2-,2-2-11、安裝完文件后,SPSS顯示如圖2-7所示的框。SPSS提供了SPSS命令語法說明文些文件是以PDF格式保存果要閱讀這些文必須安裝Adobe公司的AcrobatReader軟件。這里,選擇[DonotreinstallAdobeAcrobatReader],單擊[Next]。2-2-13、安裝程序顯示如圖2-9所示的框,表明SPSS安裝成功。圖2-9的框中有兩個選項(xiàng)[Launchtutorialnow?(單擊[Finish]后馬上啟動SPSS)]和[DisytheReadMefilenow?(馬上顯示SPSS自述文件嗎?)]。單擊[Finish]按鈕結(jié)果SPSS安裝過程。2-把已編寫好的程序(語句程序)存為一個文件,提交給開始菜單上[SpssforWindows]=>[ProductionFacility]程序運(yùn)行。程序的一種運(yùn)行方式。這種方式要求掌握SPSS的語句或語言。到[SPSS10.0forWindows]并單擊。2-10File:“文件”菜單用于新建SPSS各種類型文件,打開一個已存在的文件,從文本文 Edit:運(yùn)用“視圖”菜單顯示或隱藏狀態(tài)行、、網(wǎng)絡(luò)線、值和改變字體。Data:運(yùn)用“數(shù)據(jù)”菜單對SPSS數(shù)據(jù)文件進(jìn)行全局變化,例如定義變量,合并文件,atitic定義SPSS菜單等。 “幫助”菜單包含SPSS幫助、SPSS、SPSS公司主頁、統(tǒng)計(jì)等菜 選擇數(shù)據(jù)編輯器的[File]菜單中的[Exit]或單擊標(biāo)題欄上的關(guān)閉按鈕退 SPSS第三節(jié)SPSS基本操后分析SPSS輸出的結(jié)果,并保存結(jié)果。圖2-11所示它的底部有兩個:[DataView(數(shù)據(jù)視圖)]和[VariableView(變量]用于查看、錄入和修改數(shù)據(jù),[VariableView]定義和修改變量的定義。如果使用過電子表格如Excel等,那么數(shù)據(jù)編輯窗口的許多功能應(yīng)該已經(jīng)熟悉。但是,還有一些明顯區(qū)別:(1)列是變量,即每一列代表一個變量(Variable)或一個被觀測量的特征。例如問卷上的SPSS中稱為(Case)。例如,問卷上的每一個人就是一個觀測。(3)單元包含值,即每鍵入數(shù)據(jù),SPSS將數(shù)據(jù)長方形延長到包括那個單元和文件邊界之間的任何行和列。件(其默認(rèn)擴(kuò)展名為.sav。(小數(shù)位數(shù)(或值arabeew]簽或雙擊列的題頭(ar),顯示如所示的變量定義視圖,在出現(xiàn)的變量視圖中定義變量。每一行存放一個變量的定義信息,包括[Nae][ype][idh][Decial][Label][aue、[Missing、[ouns、[Ag、[Meaure等②。2-12定義變量號。變量名總長度過8個字符(即4個漢字。點(diǎn)作小數(shù)點(diǎn)的數(shù)值型、ScientificNotation(科學(xué)記數(shù)法、Date(日期型、Dollar(帶①SPSS10.0SPSS9.0以下版有所不同②為方便起見,在本書中用方括號“[]”表示菜單項(xiàng)名稱或者框中的等,并把菜單選擇簡記[]=>[],如[File]=>[Exit]表示:先單擊主菜單的[File]項(xiàng),然后在其下拉菜單中單擊[Exit]③如果在中文版Windows下運(yùn)行英文版SPSS,那么框中的部分文字可能無法完整顯示出來??稍谖淖謽?biāo)按鈕,顯示如圖2-13所示的框,選擇合適的變量類型并單擊[OK]。圖2- 4、[Decimal]:變量小數(shù)6、[Value]:變量值常有用的。單擊[Value]相應(yīng)單元,在如圖2-14所示的框中進(jìn)行設(shè)置。圖2- 7、[Missing]:缺失值的定義方式SPSS有兩類缺失值:系統(tǒng)缺失值和用戶缺失值。在數(shù)據(jù)長方形中任何空的數(shù)字單元都值為[None]。單擊[Value]相應(yīng)單元中的按鈕,可改變?nèi)笔е刀x方式,如圖2-15所示。圖2- 示的快捷菜單,選擇[Copy]2-16(B)所示的快捷菜單,選擇[Paste];再把自動產(chǎn)生的新變量名稱(Var0001、Var0002、Var0003、??)改為(B)圖2- 2-17由于,已經(jīng)輸入的數(shù)據(jù)往往會有錯誤,這就需要進(jìn)行編輯。用Windows的基果數(shù)據(jù)文件較大且知道要修改的數(shù)據(jù)單元的行號,可通過選擇[Data]=>[GotoCase]打開如所圖2-18示的框,在框中[CaseNumber]的右框輸入行號來查找特定觀測(行。如果要查找某變量中的特定值或值,選擇該變量,再選擇[Edit]=>[Find]或者按Ctrl+F打開如圖2-19所示的框,在[Searchfor]右框中輸入要查找的數(shù)值或。圖2-18指向觀測
圖2- 選擇[Transform]=>[Compute]2-20所示的[ComputeVariable計(jì)算變量框。在框中的[TargetVariable(目標(biāo)變量)]下框中輸入符合變量命名規(guī)則的變量名,目標(biāo)變量可以是現(xiàn)存變量或新變量。框中[NumericExpression(數(shù)值表達(dá)式)]下的文本用它們。計(jì)算器板上的算術(shù)運(yùn)算符有+(加、-(減、*(乘、/(除、**(指數(shù)()(運(yùn)于、~=(不等于)等;邏輯運(yùn)算符有&(and,與運(yùn)算,A、BA&B才為真、|(or,或運(yùn)算,A、BA|B即為真、~(not,非與算,顛倒表達(dá)式的真假結(jié)果,A為真則~A為假,A為假則~A為真。70多個函數(shù),包括算術(shù)函數(shù)、統(tǒng)計(jì)函數(shù)、分布函數(shù)、邏輯函數(shù)、日期和時間匯總與提取函數(shù)、缺失值函數(shù)、字符串函數(shù)、隨量函數(shù)等等,例如自然對數(shù)LN()、絕對值對數(shù)ABS()、求和函數(shù)SUM()等。計(jì)算器板下面有一個[IF]按鈕,單擊該按鈕打開條件表達(dá)式框。在條件表達(dá)式圖2- Cases],打開[SortCases]框,如圖2-21所示。圖2-21觀測排序SPSS中將行作為觀測,列作為變量。對那些觀測和變量的行列關(guān)系與此相反的數(shù)據(jù)文件,可以選擇[Data]=>[Transpose]將行列互換,框如圖2-22所示。圖2- 并,也可將觀測相同變量不同的文件相合并。選擇[Data]=>[MergeFiles]=>[Addcases]從第二個文件即外部SPSS數(shù)據(jù)文件向當(dāng)前工作數(shù)據(jù)文件追加觀測。選擇[Data]=>[MergeFiles]=>[AddVariables]合并含有相同觀測但不同變量的兩個SPSS外部文件??梢赃x擇[Data]=>[SelectCases]根據(jù)包含變量和復(fù)雜的表達(dá)式的準(zhǔn)則把統(tǒng)計(jì)分析限于某SPSS過程期間保留,除非明確地保存它們。要保存對前面建立的數(shù)據(jù)文件進(jìn)行的任何改變,選擇[File]=>[Save]或按Ctrl+S快捷鍵即可。如果要把數(shù)據(jù)文件保存為一個新文件或?qū)?shù)據(jù)以不同格式保存,可選擇[File]=>[SaveAs],打開如圖2-23所示的框。主要的保存類型有:SPSS(*.sav),SPSS10.0默認(rèn)格式;SPSS7.0(*.sav),SPSS7.0格式;SPSS/PC+(*.sys),SPSS/PC+格式;Excel(*.xls), Excel格式;圖2- 二、統(tǒng)計(jì)分析 表2-3所示。本書介紹的統(tǒng)計(jì)分析方法的SPSS使用參見相關(guān)章節(jié)。表2- Reports(報(bào)告OLAPCubes(OnLine CaseSummaries(觀測概要)ReportSummariesinRows(行形式輸出報(bào)告Statistics(Crosstabs(頻數(shù)列表,列聯(lián)分析Means(分組求均值One-SampleTTest(單樣本T檢驗(yàn))Paired-SamplesTTest(配對/相關(guān)樣本T檢驗(yàn)GeneralLinearModel(GLM,一Univariate(GLM)Correlate(Distances(距離分析BinaryLogistic(二值Logistic回歸分析)Probit(Probit回歸分析)Logit(Logit分析)ModelSelection(模型選擇對數(shù)線性分析Classify(分類HierarchicalCluster(系統(tǒng)/層次聚類分析)Discriminant(判別分析)DataReduction(據(jù)降維Factor(因子分析,主成分分析Scale(等級分析Reliabilityysis(可靠性分析①SPSSV8.0或更低版本中,該菜單項(xiàng)的名稱為[Statistics(統(tǒng)計(jì))]2IndependentSamples(兩個獨(dú)立樣本非參數(shù)檢驗(yàn))KIndependentSamples(多個獨(dú)立樣本非參數(shù)檢驗(yàn))2RelatedSamples(兩個相關(guān)樣本非參數(shù)檢驗(yàn))TimeSeries(時間ExponentialSmoothing(指數(shù)平滑) ARIMA(X11ARIMA) Survival(生存分CoxRegression(Cox回歸分析)Multiple MissingValueysis(缺失值分析 特點(diǎn)。SPSS的圖形分析功能很強(qiáng),許多高精度的統(tǒng)計(jì)圖形可從[yze]菜單的各種統(tǒng)計(jì)分表2- 線圖餅圖高低圖(High-[Graphs]=>[High-誤差條圖(Error[Graphs]=>[Error[Graphs]=>[P-[Graphs]=>[Q-[Graphs]=>[Time(Cross-[Graphs]=>[Time=>[Cross-表2- 點(diǎn)圖 線圖 ctive]=>[Drop-餅圖 誤差條圖(Error[Graphs]= ctive]=>[Error 不管是統(tǒng)計(jì)分析還是圖形分析,其結(jié)果都輸出到新的窗口——Viewer窗口或Draft視表(PivotTable)的表格形式顯示,數(shù)據(jù)表功能強(qiáng)大,便于用戶自行定義所需格式。如序一致的方法使用Viewer窗口,這里不詳細(xì)介紹。圖2- 圖2- 圖2- 第一節(jié)統(tǒng)計(jì)數(shù)可以查閱報(bào)紙書、查閱統(tǒng)計(jì)年鑒、也可以通過Internet查閱聯(lián)機(jī)數(shù)據(jù)庫。如果這些數(shù)據(jù)仍第二節(jié)統(tǒng)計(jì)數(shù)從問卷的基本結(jié)構(gòu)來看,應(yīng)包括封面信、指導(dǎo)語、內(nèi)容及編碼四個基本內(nèi)容?!酡凇酢酢酢酡拍? │1- 元 │5-│除編碼外,問卷一般要求在封面印上員、日期、審核員、被 第三節(jié)統(tǒng)計(jì)數(shù) 按分頻率30名工人日加工零件數(shù)進(jìn)行分組,先要決定分成多少組,每一組的范圍(即1288410580~89件、90~99件、100~109件、110~119件、120~129件。在一般情況下,組數(shù)515組。因?yàn)榉纸M的目的是找出數(shù)據(jù)分布的數(shù)量規(guī)律性。如果10件相等的組距進(jìn)行分組,則各組的組限就隨之確定了。接下來,就將3-10頻數(shù)(頻率)80~89390~997100~109135120~1292的分組是以10件為組距的相同組距的分組,也稱為等距分組,必要時也可采取不等距分3-1整理成 3-10的頻數(shù)(頻率)分布表后,就可以大致看出該車間工人日加工零件數(shù)多100~10910人,高于中等水平的組標(biāo)志的代表值,然后用折線將各組頻數(shù)連接起來,開成了折線圖。由表3-10的頻數(shù)(頻率)3-273-27中,直方圖與折線圖的面積是相等的。3-27(人963
130態(tài)分布曲線、J型分布曲線和U型分布曲線等。 (A)正態(tài)分布曲 JJ(C)J形分布曲線 (D)U形分布曲線圖3-28JJ(3-8(A)所示形為左右對稱的倒掛的大鐘,這是客觀事物數(shù)量特都是服從正態(tài)分布。偏態(tài)分布曲線(3-28(B)所示)根據(jù)長尾拖向哪一方又可分為正偏(或右偏)分布J型分布曲線(如圖3-28(C)所示)又分為正J形分布曲線和反J型分布曲線。例如,經(jīng)濟(jì)學(xué)中的供給曲線是正J形曲線,需求曲線是反J形曲線。U形分布曲線(如圖3-28(D)所示)又稱為生命曲線。人和動物的率近似服從U形中年時期率最低同時也相對穩(wěn)定,進(jìn)入老年期后又逐漸增高,形成了一個U形曲需要在表3-10基本分組的基礎(chǔ)上繪出累積頻數(shù)或累計(jì)頻率。由表的上方向表的下方的頻數(shù)3-11累積頻數(shù)(頻率)80~89333090~9971027100~1091323205287120~1292302累數(shù)頻分線用究、地資的是平種累計(jì)分布曲線圖最早由洛倫茨博七(Dr.M.O.Lonz),故又稱洛倫茨曲線圖?,F(xiàn)以某國某年家庭收入資料為例(見 3-12)說明洛倫茨曲線的繪制3-12(萬人元最低中較最5650000————計(jì)百分比標(biāo)出繪示點(diǎn),連接各繪示點(diǎn)即為分配曲線見圖3-29。
0 圖3- (一)定義工人編號和加工零件數(shù)的變量名分別為NO和X,然后輸入變量NOX的原(二)選擇[yze]=>[DescriptiveStatistics]=>[Frequencies...],彈出[Frequencies]主對話框(如圖3-30所示?,F(xiàn)欲X進(jìn)行頻數(shù)分析,在框左側(cè)的變量列表中選X,單擊按鈕使之進(jìn)入[Variable(s)]列表框,并選擇[DisyFrequencyTables]顯示頻數(shù)分布表。[Ascendingvalues]為根據(jù)數(shù)值大小按升序從小到大作頻數(shù)分布;[Descendingvalues]為根據(jù)數(shù)值大小按降序從大到小作頻數(shù)分布;[Ascendingcounts]為根據(jù)頻數(shù)多少按升序從少到多作頻數(shù)分布;(四)可單擊[Statistics...]按鈕,彈出[Frequencies:Statistics]子框,并單(五)可單擊[Charts...]鈕,彈出[Frequencies:Charts]子框,用戶可選三種圖形:直條圖(Barchart、餅圖(PieCharts)和直方圖(Histogram。這里選擇[Histogram]項(xiàng),并選擇WithNormalCurve要求繪制正態(tài)曲線。單擊Continue按鈕返回Frequencies]主框,再單擊[OK]鈕即可得到(累計(jì))頻數(shù)(頻率)分布表(如表3-13所示)和直方圖應(yīng)該注意的是,SPSS 在未特別指定的情形下,直方圖或頻數(shù)分布表是按照原始數(shù)值逐一作頻數(shù)布的這與常需要等距組、組保持在一數(shù)目要求符。因,調(diào)用[Frencies]統(tǒng)計(jì)過程命令之前,可先對原始數(shù)據(jù)進(jìn)行預(yù)處理:已知最小值為84,最大值為128全距為10故可要求分成580組距為10[Transorm]>[Rece]=>[IntoDifferentarible...],在彈出的[ReoeIntoDifferentriable]框中選定X,單擊按鈕使之進(jìn)入[NumericariableOutputariable]列表框,在[utputariable]欄的[Name]文本框中輸入x1,單擊[Chne]按鈕表示新生成的變量名為x1。單擊[OlddNewales]按鈕彈出[ReceIntoDifferentariable:Oldadewalues]子框,在[Oldale]選項(xiàng)中單擊[Rane]項(xiàng),輸入第一個分組的數(shù)值范圍:80~89,在[Newvale欄內(nèi)輸入新值:80,單擊[dd]按鈕,依此將各組的范圍及對應(yīng)的新值逐一輸入,最后單擊[Continue]按鈕返回,再單擊[O]按鈕即完成。系統(tǒng)在原數(shù)據(jù)庫中生成一新變量為x1,這時再調(diào)用[Fencies]5的頻數(shù)分布表。圖3-30頻數(shù)分析表3-13頻數(shù)(率)Valid111211111213421121111加工零件8642085.
95.
105.
115. 125.
Std.Dev=10.Mean=103.N=30.90. 100. 110. 120. 130.3-31第四節(jié)統(tǒng)計(jì)數(shù)一 分布的中 XX·
XX n X10684·101
(件 XFXF·X
mXiX 1 2 mm (3-FF· m 上式中Xi是頻數(shù)分布中變量分組的組中值,F(xiàn)i是各組的頻數(shù)。這里的m表示分組的計(jì)算例3-1日加工零件平均數(shù)。表3-14三個中心度量的比較計(jì)算時要用到全部數(shù)有時候?qū)€別值的變動Rmax(Ximin(Xi例如,例3-1的數(shù)據(jù)中,極差為128-84=44(件。顯然,數(shù)據(jù)的離散程度大,極差就越大。,50%部分的長度,所以比極差能較好地描述分布的特性。例如,若內(nèi)距比較小,則說明數(shù)2(Xi22N或
(3-2(xi2S2 (3-n(3-3)式是總體方差的計(jì)算,2表示總體方差,u表示總體均值。(3-4)式是樣本方差的計(jì)算,S2表示樣本方差,x是樣本均值,n是樣本容量,n-1稱為自由度。所謂自由度(Degreeofdom)就是可以自由取值的變量個數(shù),計(jì)算樣本方差時,n m(Xi)2mi2
m
m(xiS2i1fi
N(N(Xi)2 N(X2i)i 或者 (3-n(x2in(x2i n(xx)2ii fi有J形分布(如圖3-28(C)所示)和U形分布(如圖3-28(D)所示)兩種。偏度的計(jì)算為3(xx)3/3
(3-(x(xx)2/n偏或負(fù)偏。α越接近于0,表示分布偏斜程度越小。狹,稱為尖頂(或高狹峰若中間約有半數(shù)的頻數(shù)相當(dāng)均勻,曲線的必定較正態(tài)峰低而闊,稱為平頂(或低闊峰如圖3-32所示。
圖3- 峰((xx)/[(xx)2/n]2- 峰;當(dāng)β<0時,表示分布曲線的是平頂。(一)定義加工零件數(shù)的變量名 X,并輸入原始數(shù)據(jù)話框(如圖3-33所示。在主框左邊列表中選定變量X,單擊按鈕使之進(jìn)入[Variables(s)]列(三)單擊[Options...]按鈕,打開[Descriptives:Options]子框。選擇均值(Mean)、總和Sum)、標(biāo)準(zhǔn)差Std.Deviation)、方差Variance)、極差Range)、最小值Minimum)、最大值Maximum)、偏度(Skewness)和峰度Kurtosis),選好后單擊[Continue按鈕返回[Descriptives]主框,再單擊[OK]按鈕即可得到各種統(tǒng)計(jì)量的計(jì)算結(jié)(如圖3-34所示。圖3- 圖3-34NStd.ValidNN(一)定義工人編號和加工零件數(shù)的變量名分別為NO和X,然后輸入變量NO和X的原(二)選擇[yze]=>[DescriptiveStatistics]=>[Frequencies...],彈出[Frequencies]主對話框(如圖3-30所示。現(xiàn)欲X進(jìn)行頻數(shù)分析,在框左側(cè)的變量列表中選X,單擊按鈕使之進(jìn)入[Variable(s)]列表框,并選擇[DisyFrequencyTables]顯示頻數(shù)分布表。(三)單擊[Statistics...]按鈕,彈出[Frequencies:Statistics]子框,并單擊相應(yīng)項(xiàng)目。本例中選擇均值Mean)、中位數(shù)Median)、眾數(shù)Mode)、總和Sum)、標(biāo)準(zhǔn)差Std.Deviation)、方差(Variance)、極差Range)、最小值Minimum)、最大值Maximum)、偏度(Skewness)和峰度Kurtosis),選好后單擊[Continue]按鈕返回[Frequencies主對話框,再單擊[OK]按鈕即可得到各種統(tǒng)計(jì)量的計(jì)算結(jié)果(如表3-15所示。表3-15第五節(jié)統(tǒng)計(jì)數(shù)據(jù)的探一、莖葉圖(Stem-and-LeafDis始信息,又為準(zhǔn)確計(jì)算均值等提供了方便和可能。下面以例3-1的數(shù)據(jù)來畫莖葉圖。84759166688的右邊寫上第一個樹葉430個工人加工的零件數(shù)全都分成樹莖和樹葉兩3-35
四分位數(shù)中位數(shù)
(一)定義加工零件數(shù)的變量名 X,并輸入原始數(shù)據(jù)(二)選擇[yze]=>[DescriptiveStatistics]=>[Explore...],打開[Explore]主框(如3-36所示。在主框左邊列表中選定變量X,單擊按鈕使之進(jìn)入[DependentList]列表子(三單擊[Plot...]按鈕打開[Explore:Plot]框(如圖3-37所示在[Boxplot]欄內(nèi)選[Factor子圖3- 圖3- 加加工零件數(shù)Stem-and-Leaf&8.48.9.9......1.8圖3- 第四章總體與樣本的描述第一節(jié)總體、樣本與隨GDP構(gòu)成,在第二種情況下總體是由國家所有各地區(qū)實(shí)際上,在大多數(shù)情況下,我們是不知道總體的全部的,通常只能從總體中抽出若干。我們把從總體中抽出若干而組成的集體稱為樣本(Sample),樣本中所含的復(fù)抽樣所得的樣本,稱為簡單隨機(jī)樣本(SimpleRandomSample)。能出現(xiàn)的點(diǎn)數(shù)為1,2,3,4,5,6。顯然,這些隨機(jī)都是采用數(shù)量標(biāo)識表示的。有的01;或把每次拋擲一枚格一一對應(yīng),或把0、1與正面、一一對應(yīng),就可以把隨機(jī)完全數(shù)量化了。為了研究隨機(jī)的數(shù)量規(guī)律性,把表征隨機(jī)的變量稱為隨量(RandomVariable),記為X、Y等。一穩(wěn)定值,此值即為頻率的極限值,或稱之為隨量值Xi的概率。換句話說,一個隨機(jī)變量值Xi的概率就是當(dāng)變量的觀察值總數(shù)趨于無窮時,其頻率的極限值,即P(XX) n0到1之間的任何值,即0P(Xi)概率為零表示Xi值不可能出現(xiàn)。如果隨量X取一個特定值Xi的概率為1,則意味著其該變量實(shí)際上是一個常數(shù),即為Xi。隨量X取任何特定值Xi的概率在0到1之間,則表示變量X的這個特定值的出現(xiàn)具有不確定性,隨量的取值與概率有關(guān)。因此,也可征的數(shù)量指標(biāo)。例如,全天生產(chǎn)的10000個燈泡中在1000小時到1200小時之間、1000小時以下以及1200小時以上的燈泡所占的百分比等。就總體的某一數(shù)量特征X而言,如燈泡的使用,每個的取值不一定完全相同,但它是按照一定規(guī)律分布的,如10000個因此,所謂總體就是一個隨量,所謂樣本就是n個(樣本容量為n)相互獨(dú)立且與總體有相同分布的隨量x1,x2,??,xn。每一次具體抽樣所得的數(shù)據(jù),就是n元隨量的4-39第二節(jié)總體與隨量的描應(yīng)的出現(xiàn)概率也已確定。就是說:隨量X的可能取值及其概率都是已知的,我們就可將變量X的取值以及相應(yīng)概率按順序排列起來,以顯示X的概率分布情況。應(yīng)的概率為p1,p2,…,pN,則概率函數(shù)為P(X=Xi)=pipi Npii
P(X=0)=112 P(X=1)=11112 2 112 X??pp??p例如上例連續(xù)兩次投擲硬幣正面向上的次數(shù)X的分布表為:X012p1214441 p)?(XNp)構(gòu)成平面上各點(diǎn)。聯(lián)結(jié)各點(diǎn)就能形象地表明概率Pi1 X2??圖4-
4140
X 4-我們還可以用另法來描述離散型隨量的概率分布,即以X取值小于實(shí)數(shù)P(X<x)=P(XXi) x xx1<x2,P(x1≤X<x2)=P(X<x2)P(X<x1)。這說明,如果以任何給定的實(shí)數(shù)x,概率P(X<x)確定的話,則概率P(x1≤X<x2)也就確定了。所以掌握了分布函數(shù)F(x)
當(dāng)x當(dāng)0x當(dāng)1x當(dāng)2x
1341342414如圖4-42所示,從圖形中可以直觀地看到P(X<x)的數(shù)值隨著x的增加而遞增。在點(diǎn)x=k(k=0,1,2)處分布函數(shù)的增加值等于這一點(diǎn)的概率P(X=k),當(dāng)x<0時,P(X<x)=0,當(dāng)x>2設(shè)有n次試驗(yàn),各次試驗(yàn)是相互獨(dú)立的,每次試驗(yàn)?zāi)吵霈F(xiàn)的概率都是p,某不出現(xiàn)的概率都是1-p,記為q,則對于某出現(xiàn)k(k=0,1,2,?,n)次的概率分布為:nP(XXi)P(Xk)Ckpkq n例如,按照規(guī)定,某種型號電子管的使用超過5000小時的為一級品。已知某一大P(Xk)Ck(0.2)k(0.8) k中的常數(shù)時,這時某恰好發(fā)生k次的概率分布即為泊松分布。用表示為:P(Xk)ke260個,問呼叫占線有4次的概率是多少?P(X
ke
1.34e130.0324,表明 詢問臺在某段時間內(nèi)呼叫占線有4次aP(aXb)bfa
X fx)dx1由于連續(xù)型隨量X的取值充滿著一個區(qū)間,不能一一列出,所以無法用分布表描F(x)=P(X<x)f(x)把它表示成積x x由于x是一個具有連續(xù)分布的隨量,它的分布函數(shù)F(x)存在導(dǎo)數(shù),而且F(x)f(x)。f(x)limF(xx)F(x)limP(xXx 分布曲線。分布曲線y=f(x)和x軸所包圍的全體面積等于1。xP(x1≤x<x2)=f
4-xx分布函數(shù)F(x)=f(x)dx具有F()limF(x)0F()limF(x)1,介于F(x)=0 11x4-44率分布就是正態(tài)分布(NormalDistribution)DeMoivre1773年發(fā)現(xiàn),其設(shè)離散型隨量X的概率分布表為:X??Pp??pE(X)=X=X1p+X2p+?+Xip+?+XN 2、方差(Variance)與標(biāo)準(zhǔn)差(S.D.:StandardDeviation)EX。定義隨量X的方差Var(X)為:iiii
Var(X)=Var(X)=(Xi
EX)2 Var(X)E(X2)[E(X方差的平方根稱為標(biāo)準(zhǔn)差或均方差,記為
Var(Xn(XVar(Xn(XEX)2iii若X、Y為兩個獨(dú)立的隨量,設(shè)n個獨(dú)立隨量X1、X2?Xn其方差分別為2、2?2,則 的方差Var(X1+X2+?+Xn)有Var(XX…X)22… 設(shè)n個獨(dú)立變量X1、X2?Xn,其方差分別為2、22。設(shè)各變量的平 XX1X2…n則X的方差VarX
22… Var(X) nn n22…式中21 特別地,當(dāng)每個隨量的方差相等,即22…22時,有 Var(X)nVar(XnX Var(XnXn1/n,這一事實(shí)說明變量平均數(shù)的分布量X與Y的協(xié)方差Cov(X,Y)為:
Cov(X,Y)E[(XEX)(YEYCov(X,Y)E(XY)E(X)E(Y
Var(X)Var(Var(X)Var(Yρ是描述X與Y之間線性相關(guān)程度的一個數(shù)字特征,相當(dāng)于是協(xié)方差的“標(biāo)準(zhǔn)化”,消除了量綱的影響。可證明|ρ|≤1,適于比較。如果ρ=1,稱X與Y完全線性相關(guān);如果ρ個隨量卻未必獨(dú)立。E(X)=Xxf
量X的方差Var(X)為:XX
Var(X)
(xEX)2f
(xEX)2f(xEX)2f量X與Y的協(xié)方差Cov(X,Y)為:
Cov(X,Y)E[(XEX)(YEYCov(X,Y)E(XY)E(X)E(Y
Var(X)Var(Var(X)Var(Yρ是描述X與Y之間線性相關(guān)程度的一個數(shù)字特征其性質(zhì)同離散型隨量間的相關(guān)第三節(jié)樣本的隨量x1,x2,??,xn。每一次具體抽樣所得的數(shù)據(jù),就是n元隨量的一個觀察值指一個n元隨量;二是指一次具體抽樣的可能結(jié)果。當(dāng)樣本指一個n元隨量時,樣本的分布就是n元隨量的分布,該n個隨量設(shè)(x1,x2,??,xn)X的一個樣本觀測值,我們可以把這些觀測數(shù)據(jù)按第三章的X的概率分布情況,每個長方形面積正好近似地代表了X的取值落入相應(yīng)一組的概率。結(jié)合連續(xù)型隨量密度函數(shù)的直觀變量。累積頻率曲線所代表的函數(shù)Fn(x),無論對于連續(xù)型或離散型隨量都可以用, 令0,當(dāng)xx11,當(dāng)x*xx Fn(x)
,當(dāng)x*xx 1,當(dāng)xx 頻率
kxxFn(x的圖形就是累積頻率直方圖。它是跳躍上升的一條階梯型曲線。若觀測值不重復(fù),則每一躍度為1/n;若有重復(fù)情形,則按1/n的倍數(shù)跳躍上長。對于任何實(shí)數(shù)x,F(xiàn)n(x)等于樣本n個觀測值中不x的個數(shù)除以n。由頻率與概率的Fn(x)可以作為對于樣本(x1,x2,??,xn),x1nxni1
i(4-為樣本的平均數(shù)。若樣本(x1,x2,??,xn)指n元隨量,則樣本平均數(shù)為n元隨量對于樣本(x1,x2,??,xn),S21(xx) n1i 1n1n(x2n1iiS
nn–1,而不是除以nn–1n–1為對于樣本(x1,x2,??,xn), 1
(xx)(y
n1i 對于樣本(x1,x2,??,xn),n(xix)(yiin(x2in(x2in(y2ii第四節(jié)抽樣分布——總體與樣本的連接 f(x)
(xe2>0是它的標(biāo)準(zhǔn)差。這兩個參數(shù)就唯一決定了正態(tài)分布密度函數(shù)的形狀。所以正態(tài)分布可以簡記為N(,2),其圖形如圖4-45所示。
445正態(tài)分布密度函數(shù)曲線對稱性。即以x 當(dāng)x 時f(x) 變動均值而4-46所示=-
圖4- 變而不f(x)x的區(qū)間里,曲線凸向上,此外曲線凹向下。如圖4-45所示。如。當(dāng)布比較集中。反之,當(dāng)變大時,則曲線呈現(xiàn)扁平,表示變量分布比較分散。圖4- 變而不xf(x0,即曲線向兩邊下垂,伸向無窮遠(yuǎn)處。根據(jù)正態(tài)分布的密度函數(shù),可以推導(dǎo)出正態(tài)分布的分布函數(shù)F(x)為:xF(x)f(x)dx
xe(x)/2dx
f(x) e(x)/2 1 e(x)/2dx 將正態(tài)分布的密度函數(shù)和分布函數(shù)的圖形對比見圖4-48和圖4494481x449x落在區(qū)間(–a,+a)P(axa)P(x2x xae(x)/22x隨量X作下列變換使新的隨量Z等于:ZX
(4-則E(Z)EXEX Var(Z)2E[XE(X)]2E(X 11E(X)221 F(Z)
1eZ/ (4-F(Z)
1ZeZ/2
(4- 為單位的相對離差,即Z的計(jì)量單位。將標(biāo)準(zhǔn)正態(tài)密度函數(shù)和分布函數(shù)圖形比較如圖4-50和圖4-51所示。Z011 圖4- 在統(tǒng)計(jì)推斷中,常常需要求解釋變量離中心z間的概率,即變量落在(-z,z)區(qū)間的概率,P(zZz)P(
z)2zeZ/2
(4-z值查所需的概率,或從給定的概率反查相應(yīng)的z值。出當(dāng)z=a時,對應(yīng)的概率值。例如:當(dāng)z=0.5,PZ0.5)z=1.0,P(Z1.0)z=2.0,PZ2.0)=0.9545Z 4-給 P(
z)P(Zz)PZz=0.9973,z=3.0如果所研究的隨量服從于一般正態(tài)分布N(,2),要估計(jì)變量X與平均數(shù)的離差絕對值不大于某數(shù)a的概率,或變量x落于( 要求,第一步將X變換為新變量Z,使ZX;第二步將區(qū)間 a(aa即(–z,z)根據(jù)正態(tài)分布標(biāo)準(zhǔn)化的要求,令XXX550,按題意要求X落在 a=25z的區(qū)間相應(yīng)為(0.5,0.5)t=0.5P(525x575)P(x550100000171—179179)P(x1754)根據(jù)正態(tài)分布標(biāo)準(zhǔn)化的要求Z x44
X,概率表則有:)(i=1,2,?,n2x2x2…x2n (4- 4-53所示。f(24-53XYnt (4-XYnt圖4- t分布密度函(四)F設(shè)X~2(n),Y~2(n),且X與Y相互獨(dú)立,則隨 XFY
(4-數(shù)式略)的圖形如圖4-55所示。圖4- F分布密度函例如,某班組A、B、C、D、E五人的日工資分別為 、、、、元,則總體Xx343842465042 X2Var(XX
(3442)2(3842)2(4642)2(5042)32.232.24-16樣本日工資平均數(shù)(單位:元表4- 123454321 1)Var(x)P(x
40
x 圖4- E(x)xf=1 =16[xE(x)]2Var(x)=
1[(34–42)2+(36–42)2×2+(38–+(40–42)2×4+(44–42)2×4+(46–+(48–42)2×2+(50–x
=16 重置抽樣的樣本均值xE(x)XE[xE[xE(x所以,稱之為抽樣平均誤差,或抽樣標(biāo)準(zhǔn)誤差(SE:StandardError)SE表示。重置抽樣nxSE nxX在本例中,直接以總體標(biāo)準(zhǔn)差nXn2xSE n2x差為4元。nn
1n個縣的糧食畝產(chǎn)高低懸殊,畝產(chǎn)標(biāo)準(zhǔn)差80100畝求平均畝產(chǎn),那么樣本平均畝產(chǎn)量的差異就顯著縮小,標(biāo)準(zhǔn)誤差只是總體畝產(chǎn)標(biāo)準(zhǔn)差的1,即1nSE 誤差增加一倍,則樣本單位數(shù)只需原來的1/4等等。 xx,·xX~N(, 1 E(x),Var(x)n
xnx,nx
x~N(, (4-ini inZx~N(0,1)。(4-n1X的正態(tài)也服從于正態(tài)分布,其平均數(shù)E(x)仍為,其標(biāo)準(zhǔn)差xSE,即樣本平均數(shù)x服從于正態(tài)分布N(,SE2)。而標(biāo)準(zhǔn)隨 量zx則服從于標(biāo)準(zhǔn)正態(tài)分布N(0,1)。nn2X,則從這個總體所n的樣本,樣本平均數(shù)xn的增大而趨近于平均數(shù) 和標(biāo)準(zhǔn)差,只要樣本的單位增多,則樣本平均數(shù)x就越趨近于正態(tài)分布。這和正態(tài)分布再生定近到什么程度,起決定作用的因素是樣本容量n。樣本容量n越大,樣本平均數(shù)的分布也越接近正態(tài)。一般認(rèn)為樣本單位數(shù)不少于30的是大樣本,抽樣分布就接近于正態(tài)分布。 xx,…xX~N(, S2 1
(xx)
n1 n1S2~2(n
xx,…xX~N(,2x為樣本均值,
ntx~t(n1)(4-nSxx,…xyy,…yX~N(,2和正態(tài)總體Y~N(,2 222~F(n,n (4-F S S222x標(biāo)準(zhǔn)化,即(x/n~N(0,1分布,而不知道其方差2的具體值。在這種情況下,我們顯然無法再利用(x)/(/n)~N(0,1)這一關(guān)系式。自然地,我們想到了一種解決辦法,即計(jì)算這個樣本 xS/ xS/的結(jié)果(x)/(S/n)是否仍服從標(biāo)準(zhǔn)正態(tài)分布呢?由(4-39)式可知 ~t(n第五章由樣本推斷總體第一節(jié)抽其次,要考慮樣本容量和結(jié)構(gòu)問題。樣本的容量究竟要多大才算是適應(yīng)的?例如在5005100畝,也可以是先抽10個村,然后每村抽50畝等等,樣本容量的結(jié)構(gòu)不同,所產(chǎn)生的效果也不簡單隨機(jī)抽樣(SimpleRandomSampling)Nn個單n。nSEnnxtSEnx
t22x 2nn2nn NnnNxtnnN
Nt2xN2t2x從上式可以看出,必要的樣本單位數(shù)受允許的誤差范圍要求愈小則樣本單位n就需要愈多,但兩者并不保持反比例的變化。以重置抽樣來說在其他條件不變情況下,縮小一半,則樣本單位數(shù)必須增至四倍,而擴(kuò)大一倍,則樣本單位數(shù)只需原來的1/4。所以在抽樣組織中對抽樣誤差可以允許范圍要十分慎重地考慮。分層抽樣(StratifiedSampling)又稱類型抽樣,它先按一定標(biāo)志對總體各單位進(jìn)行分類,按加工車床型號分組等等,都收到明顯的效果。設(shè)決體由N個單位組成,把總體分為k組,+nk。由于k組是根據(jù)一定標(biāo)志劃分的,各組單位數(shù)一般是不同的,怎樣從Ni中取ni呢?通常n1n2·N N nnNi nx nini Ni ni xiN
ini2(XiX)i
(xixi)i i n22 i 2n2nSE2i2i(1 n xi和各組標(biāo)準(zhǔn)差ixx。(畝(畝(公斤X(公斤Xnixi560280350120497nn2 ii
8022801502
2n2i(12n2i(1 n 11230(1400 SE 第二節(jié)估統(tǒng)計(jì)推斷(Statisticalinference)就是根據(jù)樣本的實(shí)際數(shù)據(jù),對總體的數(shù)量特征作出具有一,,準(zhǔn)愈由計(jì)量隨量要做間加物財(cái)擔(dān)樣甚組樣意所做估計(jì)的時候應(yīng)該根據(jù)所研究對象的變異程度和分析任務(wù)的要求確定一個合理的允許誤差6006594—606594—606公斤稱為估計(jì)區(qū)間,允許1–1%=99%。么價值。例如我們愿意冒10%的風(fēng)險(xiǎn),這表示如果進(jìn)行多次重復(fù)估計(jì),則平均每100x作為總體均值的估計(jì)量并根據(jù)實(shí)際抽樣資料計(jì)算樣本平均值作為總體均值參數(shù)的估E(x)也充分靠近總體參數(shù)。一般地說,如果樣本容n增大時,估計(jì)量?更緊密地趨近于參數(shù)limP(x)n ?的方差2(?小于?的方差2(?,我們可以說 1/n,就是說,平均說來樣本均值的偏差更小,相對而言樣Var(x) P(12)1 )1)1 5-區(qū)間估計(jì)的特點(diǎn)是它不是被估計(jì)參數(shù)的確定數(shù)值,而是被估計(jì)參數(shù)的可能范5-x(概率P(40≤x≤44)=(4/25)+(5/25)+(4/25)=13/25P(38≤xP(34≤xP(xX2)P(xX4)P(xX8)這說明在重置抽樣中,樣本日平均工資與總體日平均工資絕對離差不超過2元的概率為13/25,即有52%的概率保證總體日平均工資落在40—44元之間。同理,抽樣誤差不超過4元的概率為9/25=36%,抽樣誤差不超過8元的概率為100%等等。由此可見,抽樣誤差范圍和估x落在XXXxXXx在這里卻已求知,也不需要再去估計(jì),需要估計(jì)的是在XXxXxPXxX)PxXx)XxX xXx PXxX)=PxXx)PXxXPxXx)固定的,而樣本估計(jì)區(qū)間(xx)則是可變的,但如果反復(fù)抽樣的結(jié)果將有1(估計(jì)區(qū)間不包含總體參數(shù)X(見圖5-58。因此在一次抽樣估計(jì)中我們認(rèn)為X(xx區(qū)間的判斷只有1(90%)x
xxx1– x1+x2– x2+x3– x3+5求得z值,表示以為單位的相對誤差。zxX zF(z)z值從正態(tài)分布表查到總體參數(shù)(總體均x=600公斤,=3=6公斤zxX6 或者包含總體參數(shù)的真值,或者不包含總體參數(shù)真值,包含真值的樣本區(qū)間占F(z),即每1000954555個樣本區(qū)間不包括總體均值,如果接受估計(jì)區(qū)間的判斷也將要冒4.55%的機(jī)會犯錯誤的風(fēng)險(xiǎn)。(一)總體方差2已知時,總體均值的估計(jì) X~N(2),隨機(jī)抽取一個容量為n的樣本(xx,… nx1n
ni1x~N(,2nxx Z ~N即
PZZZ 2 x PZ Z 1n n 2 PxZ xZn xZ ,xZn 服從均值為測得其平均長度為21.4。求在顯著性水平為0.05時,這種零件平均長度的置信區(qū)間。解:由題意,X~N(u,0.152),x21.4,n9。查表得 nxZ ,xZnn 0.15
921.41.969
99(二)總體方差2未知時,總體均值的估計(jì)總體方差2S2S2代替2建立置信區(qū)間,這時新的xtx~t(nPt
tt 2即 x Pt t 1nS nS 2 SPxt xtn1 Sxt ,xtn 例如,在[5-5]中,假設(shè)總體方差未知,通過樣本求得樣本方差為0.172,那么零件平均長 Sxt ,xtn 21.4
0.17,21.42.306 (21.269,第三節(jié)檢前價格水平可能正?;虿徽5募僭O(shè)。為200公斤,承載壓力按正態(tài)分布。我們就可按4000公斤壓力作為總體參數(shù)建立比較標(biāo)準(zhǔn)。現(xiàn)零假設(shè)的分布是已知的,因而樣本統(tǒng)計(jì)量和總體參數(shù)的離差在一定范圍內(nèi)的概率也可以知小且低標(biāo)我零果出計(jì)數(shù)異值定準(zhǔn)率間間差值這準(zhǔn)受。給概準(zhǔn)=005于%的差都是小率屬于區(qū)間,如圖中分布兩端的陰影部分,而1=095,則是對立的概率,其概率在95%以內(nèi)的接間圖5-59部所示。 接受區(qū)間5認(rèn)為總體有顯著差異,其區(qū)間以小概率標(biāo)準(zhǔn)=0.05為界限,所以稱為顯著性水平,所對應(yīng)的概率度稱顯著性水平的臨界值。例如=0.05時,在正態(tài)分布的情況下,則臨界值z005=1.96。我們以概率小于0.05的作為小概率,也就等于說大于臨界值z005=1.96 0.1、0.05、0.01、0.001等顯著性水平。例如測驗(yàn)采用顯著性水平=0.1,其他社會經(jīng)濟(jì)現(xiàn)象的檢驗(yàn)取=0.05,產(chǎn)品質(zhì)量檢驗(yàn)取=0.01,工程技術(shù)檢驗(yàn)取=0.001,甚至取=0.0001等等。取顯著性水平愈大,則冒無顯著性差異(二)決定檢驗(yàn)的顯著性水平SPSS的輸出結(jié)果中給出了相應(yīng)檢驗(yàn)統(tǒng)計(jì)量的實(shí)際取值,但由于顯著性水平根據(jù)不同要求而有所不同,SPSS并不給出臨界值。如果不查概率表,就無法直接采用上面的步驟進(jìn)行value進(jìn)行檢驗(yàn)。p值是在零假設(shè)成立的情況下,檢驗(yàn)統(tǒng)計(jì)量的取值等于或超過檢驗(yàn)統(tǒng)計(jì)量的實(shí)際p值即為否定零假設(shè)的最低顯著性水平。p值經(jīng)常被稱為實(shí)際顯著性水平,實(shí)際 5-pP檢驗(yàn)統(tǒng)計(jì)量值|檢驗(yàn)統(tǒng)計(jì)量實(shí)際值當(dāng)檢驗(yàn)統(tǒng)計(jì)量的實(shí)際值超過臨界值時(如圖5-60(A)所示,檢驗(yàn)統(tǒng)計(jì)量的p值將小于小于臨界值時(5-60(B)所示,檢驗(yàn)統(tǒng)計(jì)p值將大于給定的顯著性水平α,零假p<α?xí)r,意味著如果給定一個真實(shí)的零假設(shè),那么檢驗(yàn)統(tǒng)計(jì)量的取值等于或超過實(shí)去查有關(guān)統(tǒng)計(jì)表并比較臨界值了。在SPSS中進(jìn)行總體參數(shù)檢驗(yàn)的步驟如下:(一)提出零假設(shè)(H0)和備擇假設(shè)(H1(二)給定檢驗(yàn)的顯著性水平H0:XX ;H1:XX同時,由于雙側(cè)檢驗(yàn)差距的正負(fù),所以給定的顯著性水平,須按正態(tài)對稱分布的原理/2,相應(yīng)得到下臨界值為Z2,上臨界值為Z2。如圖5-61。//–Z/ Z/561Z實(shí)際值并與事先給定的臨界值Z/2作比較。在雙側(cè)檢驗(yàn)中,如果Z>Z/2或Z<Z/2,就零H0,而接受備擇假設(shè)H1;如果Z2≤ZZ2,就不能否定零假設(shè),而接受零假設(shè)用檢驗(yàn)統(tǒng)計(jì)量的p值與顯著性水平α比較法進(jìn)行由樣本信息計(jì)算的統(tǒng)計(jì)量p值并與事先給定的顯著性水平α作比較。如果p<α,就零假設(shè)H0,而接受備擇假設(shè)H1;如H0:XX H1:XX– 圖5-62左單側(cè)檢 圖5-63右單側(cè)檢Z,即Z>Z,則接受零假設(shè)。與事先給定的顯著性水平α作比較。如果p<α,就零假設(shè)H0,而接受備擇假設(shè)H1;如H0:XX H1:XXZ563Z值等于或與事先給定的顯著性水平α作比較。如果p<α,就零假設(shè)H0,而接受備擇假設(shè)H1;如檢驗(yàn)統(tǒng)計(jì)量的p值與顯著性水平α進(jìn)行比較的方法是統(tǒng)一的。如果用SPSS等統(tǒng)計(jì)軟件進(jìn)行并據(jù)此形成Z檢驗(yàn)和t檢驗(yàn)兩種方法。(一)ZxNX2)Zx
nn(xx(xx)nS 來代替S(x)S來代替。這時統(tǒng)計(jì)量txXnSn為止我們都是用正態(tài)分布的統(tǒng)計(jì)量Z作區(qū)間估計(jì)和統(tǒng)計(jì)檢驗(yàn)的原因。(二)t(xx)n在統(tǒng)計(jì)假設(shè)檢驗(yàn)中,當(dāng)總體的標(biāo)準(zhǔn)差(xx)nxs/替時,則統(tǒng)計(jì)量t 再不是服從標(biāo)準(zhǔn)正態(tài)分布,而服從于另一種概率分布,稱為t分xs/但標(biāo)準(zhǔn)正態(tài)分布的方差1t分布的方差2(t則受自由度n1這個參數(shù)的影響。2(t130以上,t分布和標(biāo)準(zhǔn)正態(tài)分布極為相S估計(jì)的誤差可以忽略不計(jì),但當(dāng)自由度很小時t分布S變異就很明顯,因的比較。t分布也是左右對稱的,但t分布的頂部比標(biāo)準(zhǔn)正態(tài)分布低,而兩端又比較高些。t的變異性減小,當(dāng)自由度無限增大,則t分布的方差趨近于1。t分布與Z分布便在一=3t分564t由此可見,t分布受自由度n1tt分1—3030t分布表。但在假設(shè)檢驗(yàn)中,我們常編制一張綜合性的t分布表。對來自正態(tài)總體的樣本均值進(jìn)行假設(shè)檢驗(yàn),又稱為均值比較,通常采用Zt步驟1H0:0(0為常數(shù)H: H0:0(0為常數(shù)H: H0:0(0為常數(shù)H: 2xZ nH0成立32值表確定臨界值Z。值4若|Z|Z(或p2H0ZZ(或p,拒絕H0;否則不否定H0。ZZ(或p,H0;否則不否定H0。若總體的方差2Sx中的nn步驟1H0:0(步驟1H0:0(0為常數(shù)H: H0:0(0為常數(shù)H: H0:0(0為常數(shù)H: 2xt nH0成立,t~t(n-3臨界值t(n1)(2自由度n-1查表確定臨界值t(n1)(或計(jì)t對應(yīng)的p值)4|t|t(n1)(或p2tt(n1)(或ptt(n1)(或pH0H0H0N(,2)和N(,2的兩組相互獨(dú)立樣本①x和xS2和S2 步驟1H步驟1H: H1:12(為常數(shù)H: H1:12(為常數(shù)H: H1:12(為常數(shù)2Zx1x2 1 H0成立32值表確定臨界值Z。值4若|Z|Z(或p2H0ZZ(或p,拒絕H0;否則不否定H0。ZZ(或p,H0;否則不否定H0。實(shí)際應(yīng)用中,經(jīng)常檢驗(yàn)兩總體均值是否相等,即兩總體均值的差異是否為零(0。若兩個總體的方差2和2未知,當(dāng)22時,記 (n1)S(n1)S2(n1)S2 1 2n1n2 n2當(dāng)22 ①非獨(dú)立樣本的t檢驗(yàn)參見有關(guān)文獻(xiàn)S21S2S21S22 表5-22兩正態(tài)總體方差未知時的均值比較t檢驗(yàn)表步驟1H: H1:12(為常數(shù)H: H1:12(為常數(shù)H: H1:12(為常數(shù)2tx1x2H0成立t~t(n1n23值t(n1n22)(2值t(n1n22(或tp值)4|t|t(n1n2 (或pH0tt(n1n22)(或pH0tt(n1n22)(或pH0如果檢驗(yàn)兩總體均值是否相等,這時0[yze]=>[CompareMeans]=>[Paired-SamplesT[例5-6]分別測得14例老年性慢性支氣管炎及11例健康人的尿中17酮類固醇排出(α=0.05病定義變量:把實(shí)際觀察值定義為X,再定義一個變量G來區(qū)分與健康人。輸入原始數(shù)據(jù),在變量G中,輸入1,健康人輸入2。選擇[yze]=>[CompareMeans]=>[Independent-SamplesTTest],打開[Independent-samplesTTest]主框。從主框左側(cè)的變量列表中選X,單擊按鈕使之進(jìn)入[Test彈出[DefineGroups]定義框,在[Group1]1,在[Group2]2,單擊[Continue]按鈕,返回[Independent-samplesTTest]主框(如圖5-7
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版礦區(qū)作業(yè)承包合同版
- 2024芒果園果樹病蟲害防治產(chǎn)品供應(yīng)與技術(shù)服務(wù)合同3篇
- 2024煤炭供需長期合作協(xié)議
- 2025年度智能物流設(shè)備代理商合作協(xié)議(全新發(fā)布)4篇
- 2024-2030年中國城市地下綜合管廊建設(shè)市場現(xiàn)狀研究分析與發(fā)展趨勢預(yù)測報(bào)告
- 單晶氮化鋁項(xiàng)目商業(yè)計(jì)劃書
- 2025年度個人二手房買賣合同房屋租賃權(quán)轉(zhuǎn)讓與限制4篇
- 2025年度個人留置車輛借款合同(二手車市場交易版)3篇
- 2025年環(huán)保項(xiàng)目合作協(xié)議范本(含碳排放權(quán)交易)3篇
- 2025年度個人教育培訓(xùn)機(jī)構(gòu)連帶擔(dān)保協(xié)議4篇
- 電商運(yùn)營管理制度
- 二零二五年度一手房購房協(xié)議書(共有產(chǎn)權(quán)房購房協(xié)議)3篇
- 2025年上半年上半年重慶三峽融資擔(dān)保集團(tuán)股份限公司招聘6人易考易錯模擬試題(共500題)試卷后附參考答案
- 城市公共交通運(yùn)營協(xié)議
- 內(nèi)燃副司機(jī)晉升司機(jī)理論知識考試題及答案
- 2024北京東城初二(上)期末語文試卷及答案
- 2024設(shè)計(jì)院與職工勞動合同書樣本
- 2024年貴州公務(wù)員考試申論試題(B卷)
- 電工高級工練習(xí)題庫(附參考答案)
- 村里干零工協(xié)議書
- 2024年高考八省聯(lián)考地理適應(yīng)性試卷附答案解析
評論
0/150
提交評論