《統(tǒng)計學》完整教學課件_第1頁
《統(tǒng)計學》完整教學課件_第2頁
《統(tǒng)計學》完整教學課件_第3頁
《統(tǒng)計學》完整教學課件_第4頁
《統(tǒng)計學》完整教學課件_第5頁
已閱讀5頁,還剩223頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

統(tǒng)計學第一章統(tǒng)計和統(tǒng)計數(shù)據(jù)的收集第二章統(tǒng)計數(shù)據(jù)的整理和展示第三章數(shù)據(jù)的描述性分析第四章概率基礎第五章區(qū)間估計和假設檢驗第六章相關與回歸分析第七章非參數(shù)統(tǒng)計第八章時間數(shù)列分析第九章指數(shù)結束《統(tǒng)計學》完整第一章統(tǒng)計和統(tǒng)計數(shù)據(jù)的收集一、什么是統(tǒng)計二、數(shù)據(jù)三、搜集數(shù)據(jù)的組織方式四、有關數(shù)據(jù)調查的幾個問題主要內容目錄《統(tǒng)計學》完整一、什么是統(tǒng)計

?(一)統(tǒng)計包含三種涵義,兩重關系1.統(tǒng)計工作:對統(tǒng)計數(shù)據(jù)進行搜集、整理和分析的過程。2.統(tǒng)計數(shù)據(jù):統(tǒng)計工作所產(chǎn)生的成果,用以描述我們所研究現(xiàn)象的屬性和特征。如統(tǒng)計圖表,統(tǒng)計分析報告等。3.統(tǒng)計學:一門研究總體數(shù)量特征的方法論科學。

統(tǒng)計工作統(tǒng)計資料統(tǒng)計學工作與工作成果關系實踐與理論關系《統(tǒng)計學》完整(二)四個重要的術語

所研究的具有某些相同性質的全部單位或事件的整體??傮w無限總體:含無限多個單位。范圍有限總體:含有限個單位。樣本:亦可稱為抽樣總體,是從總體中抽取部分單位所組成的整體,用以分析總體。

參數(shù):亦可稱為總體指標,是綜合測量的整個總體的某個數(shù)量特征。統(tǒng)計量:亦可稱為樣本指標,是根據(jù)樣本數(shù)據(jù)計算的綜合測量值,可用以反映或估計、推斷總體的某個數(shù)量特征。《統(tǒng)計學》完整(三)統(tǒng)計學的內容1.描述統(tǒng)計關于搜集、展示一批數(shù)據(jù),并反映這批數(shù)據(jù)特征的各種方法,其目的是為了正確地反映總體的數(shù)量特點。

2.推斷統(tǒng)計根據(jù)樣本統(tǒng)計量估計和推斷總體參數(shù)的技術和方法。

描述統(tǒng)計是推斷統(tǒng)計的前提,推斷統(tǒng)計是描述統(tǒng)計的發(fā)展?!督y(tǒng)計學》完整二、數(shù)據(jù)(一)為何需要數(shù)據(jù)?統(tǒng)計學要研究各種隨機變量,通過對這些隨機變量的觀察所獲取的數(shù)據(jù)包含了我們所需的信息,這些信息能有助于我們在許多場合中做出更為正確的決策。例如:

市場研究者需要對產(chǎn)品的特性進行評估,以區(qū)分不同的產(chǎn)品。

藥品制造廠商需要判別一種新藥是否比現(xiàn)在正使用著的藥更有效。

《統(tǒng)計學》完整審計人員想通過查看某家公司的財務報表,以確認這家公司是否是依據(jù)了通行的會計準則做報表。

財務金融分析人員想判斷在未來的五年中,哪些行業(yè)中的哪些公司最具有成長性。

經(jīng)濟學家想估計我國國內生產(chǎn)總值今年的增長速度。生產(chǎn)部門的經(jīng)理按慣例要檢查生產(chǎn)過程,以檢驗其生產(chǎn)的產(chǎn)品質量是否符合公司的標準。

《統(tǒng)計學》完整(二)數(shù)據(jù)分類的原則互斥原則:每一個數(shù)據(jù)只能劃歸到某一類型中,而不能既是這一類,又是那一類。窮盡原則:所有被觀察的數(shù)據(jù)都可被歸屬到適當?shù)念愋椭?,沒有一個數(shù)據(jù)無從歸屬。(三)數(shù)據(jù)的類型1.定性數(shù)據(jù)和定量數(shù)據(jù)定性數(shù)據(jù):用文字描述的。如在本章的“統(tǒng)計引例”中消費者對永美所提供服務的總體評價等都屬于文字描述的定性數(shù)據(jù)?!督y(tǒng)計學》完整定量數(shù)據(jù):用數(shù)字描述的。如企業(yè)的凈資產(chǎn)額、凈利潤額等。2.離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù)變量

若我們所研究現(xiàn)象的屬性和特征的具體表現(xiàn)在不同時間、不同空間或不同單位之間可取不同的數(shù)值,則可稱這種數(shù)據(jù)為變量。

類型離散型變量:數(shù)據(jù)只能取整數(shù)。如一家公司的職工人數(shù)。連續(xù)型變量的數(shù)據(jù)可以取介于兩個數(shù)值之間的任意數(shù)值。如銷售額、經(jīng)濟增長率等。

《統(tǒng)計學》完整3.數(shù)據(jù)的四個等級定類數(shù)據(jù)例如,對人口按性別劃分為男性和女性兩類。也稱定名數(shù)據(jù),這種數(shù)據(jù)只對事物的某種屬性和類別進行具體的定性描述。能夠進行的唯一運算是計數(shù),即計算每一個類型的頻數(shù)或頻率(即比重)。定類數(shù)據(jù)例如,對企業(yè)按經(jīng)營管理的水平和取得的效益劃分為一級企業(yè)、二級企業(yè)等。定序數(shù)據(jù),也稱序列數(shù)據(jù),是對事物所具有的屬性順序進行描述?!督y(tǒng)計學》完整定距數(shù)據(jù)如10℃、20℃等。它不僅有明確的高低之分,而且可以計算差距,如20℃比10℃高10℃,比5℃高15℃等。也稱間距數(shù)據(jù),是比定序數(shù)據(jù)的描述功能更好一些的定量數(shù)據(jù)。定距測定的量可以進行加或減的運算,但卻不能進行乘或除的運算。定比數(shù)據(jù)如產(chǎn)量、產(chǎn)值、固定資產(chǎn)投資額、居民貨幣收入和支出、銀行存款余額等。也稱比率數(shù)據(jù),是比定距數(shù)據(jù)更高一級的定量數(shù)據(jù)。它不僅可以進行加減運算,而且還可以作乘除運算?!督y(tǒng)計學》完整測定層次特征運算功能舉例1.定類測定2.定序測定3.定距測定4.定比測定分類分類;排序分類;排序;有基本測量單位分類;排序;有基本測量單位;有絕對零點計數(shù)計數(shù);排序計數(shù);排序;加減計數(shù);排序;加減乘除產(chǎn)業(yè)分類企業(yè)等級溫度商品銷售額統(tǒng)計數(shù)據(jù)四個層次的概括

《統(tǒng)計學》完整4.截面數(shù)據(jù)和時間序列數(shù)據(jù)截面數(shù)據(jù):所搜集的不同單位在同一時間的數(shù)據(jù)。例如,所有上市公司公布的2004年年度的凈利潤。時間序列數(shù)據(jù):所搜集的同一總體或單位在不同時間的數(shù)據(jù)。某公司公布的1993年到2004年的年度凈利潤就是時間序列數(shù)據(jù)。

5.原始數(shù)據(jù)和次級數(shù)據(jù)原始數(shù)據(jù):指直接從各個調查單位搜集的、尚未經(jīng)過整理的統(tǒng)計數(shù)據(jù)資料,也稱一手數(shù)據(jù)?!督y(tǒng)計學》完整次級數(shù)據(jù):指那些已經(jīng)加工整理過的,往往是公開發(fā)表的數(shù)據(jù),也稱二手數(shù)據(jù)。如從報紙雜志、統(tǒng)計年鑒、會計報表上取得的數(shù)據(jù)。(四)數(shù)據(jù)的來源1.從政府機構、各種行業(yè)組織、公司和企業(yè)所公布的數(shù)據(jù)中獲取。就是把政府機構、各種組織和公司所公布的數(shù)據(jù)作為來源,這種數(shù)據(jù)往往是次級數(shù)據(jù)。

2.設計一次試驗以獲取必要的數(shù)據(jù)。例如,在檢驗洗衣機洗凈程度的研究中,研究人員通過實際洗滌臟衣服,來研究哪種牌子的洗衣機效果最佳。

《統(tǒng)計學》完整3.從觀察研究中獲取。研究人員通常是在自然狀態(tài)下,進行直接的觀察。例如,觀察路口的交通流量、觀察顧客在商場的購買行為和觀察流水線上的產(chǎn)品質量等。4.進行一次調查。它對所調查人們的行為不進行任何控制,僅提出諸如出生年月、愛好、消費習慣、對某一事件的看法和其他特征方面的問題,然后對他們回答的結果進行整理、編碼、列表和分析。調查方案的主要內容確定調查目的確定調查對象和調查單位擬訂調查提綱確定調查時間編制調查的組織計劃《統(tǒng)計學》完整三、數(shù)據(jù)搜集的組織方式(一)普查、抽樣、統(tǒng)計報表制度和重點調查

1.普查特點:工作量大,時間性強,需要大量人力和財力。任務:搜集重要的國情國力和資源狀況的全面資料,為政府制定規(guī)劃、方針政策提供依據(jù)。方式:建立專門機構,配備專門人員調查。利用基層單位原始記錄和核算資料進行調查。原則:規(guī)定統(tǒng)一的標準時點。規(guī)定統(tǒng)一的普查期限。規(guī)定統(tǒng)一的調查的項目和指標?!督y(tǒng)計學》完整2.抽樣調查特點:1.按隨機原則從總體中抽取樣本;2.以樣本指標(統(tǒng)計量)為依據(jù)推斷總體參數(shù)或檢驗總體的某種假設;3.抽樣誤差可以事先計算并加以控制?!督y(tǒng)計學》完整3.統(tǒng)計報表制度

是按一定的表式和要求,自上而下統(tǒng)一布置,自下而上提供統(tǒng)計資料的一種統(tǒng)計調查方法。這種搜集統(tǒng)計數(shù)據(jù)方法是伴隨著計劃經(jīng)濟而產(chǎn)生的,并曾在我國占主導地位?,F(xiàn)在,在社會主義市場經(jīng)濟條件下,仍是我國搜集統(tǒng)計數(shù)據(jù)的組織方式之一?!督y(tǒng)計學》完整4.重點調查特點:在總體中選擇個別或部分重點單位進行調查。任務:及時了解總體基本情況,為主管部門指導工作服務。方式:重點單位指在總體中有舉足輕重地位的單位,其標志值在總體標志總量中占有絕大比重。經(jīng)常性調查;同報表制度結合,用統(tǒng)計報表調查。例如,要了解全國鋼鐵生產(chǎn)的基本情況,只要調查鞍鋼、寶鋼、首鋼、武鋼、包鋼等十幾家特大型的鋼鐵企業(yè)就可以掌握全國鋼鐵企業(yè)生產(chǎn)的基本情況?!督y(tǒng)計學》完整(二)抽樣的優(yōu)點

1.適用的范圍廣。對于有限總體,從理論上講,既可以進行普查也可以進行抽樣;對于無限總體,就只能進行抽樣。若理論上可以而實際上很難采用全面普查的情況,也只能采用抽樣。如產(chǎn)品質量的破壞性檢驗、居民住戶調查等。2.與全面普查相比,抽樣最大的優(yōu)點是節(jié)省人、財、物力和時間。

3.隨機抽樣可以比普查更為精確。

《統(tǒng)計學》完整(三)抽樣的類型非隨機抽樣

隨機抽樣判斷抽樣

定額抽樣方便抽樣簡單隨機抽樣抽樣類型系統(tǒng)抽樣分層抽樣整群抽樣《統(tǒng)計學》完整非隨機抽樣

又稱為非概率抽樣

,是不按照隨機原則來抽取樣本中的單位或個體。

特點具有方便、快速和低成本精確性差,結論缺乏普遍性

判斷抽樣

又稱為典型調查,是從事有關工作的專家按照一定的標準有意識地在總體中選擇若干有代表性的單位組成樣本進行調查,代表單位的選取標準應根據(jù)統(tǒng)計研究的目的而定。

《統(tǒng)計學》完整定額抽樣是根據(jù)已定的單位數(shù)抽取樣本,往往是對總體了解甚少的時采用。如想獲取某地區(qū)化妝品的銷售情況,對該地區(qū)的5家商廈進行調查。方便抽樣是為了取樣方便,隨意地抽取樣本單位。街頭偶遇式調查就是一種最為常見的方便抽樣。《統(tǒng)計學》完整隨機抽樣是根據(jù)隨機原則來抽取樣本單位

.簡單隨機抽樣方法:在抽樣框中的每個單位都具有相同的被抽中的機會,每個容量相同的樣本被抽中的機會也是相同的。

亦稱為純隨機抽樣抽取樣本的方法:有放回抽樣和無放回抽樣。

適合:總體內部差異不是很大,規(guī)模也不大的情況?!督y(tǒng)計學》完整系統(tǒng)抽樣方法:抽樣框中的N個單位被分成k個系統(tǒng),k等于抽樣框的容量N除以所需的樣本容量n,在抽樣框中前面的k個個體或單位中隨機抽出第一個樣本單位,然后,可在其后的每隔k個單位抽取樣本中其余的部分。亦可稱為等距抽樣編號有兩種方法:············一種是利用原有的順序或編號。如學生的注冊名單,或者是從生產(chǎn)流水線上下來的、有編號的產(chǎn)品等。對所研究的總體已有所了解,則可用已知的相關變量對抽樣框中的單位進行編號。《統(tǒng)計學》完整分層抽樣亦可稱為類型抽樣方法:將總體全部單位分類,形成若干個類型組,后從各類型中分別抽取樣本單位,合成樣本??傮wN樣本n等額等比例最優(yōu)······《統(tǒng)計學》完整整群抽樣方法:首先把總體中的N個單位劃分成為若干個群,并要求每個群對整個總體都具有代表性,然后對群進行簡單隨機抽樣,并對抽中群內的所有單位進行調查研究。

總體群數(shù)R=16樣本群數(shù)r=4樣本容量ABCDEFGHIJKLMNOPLHPD《統(tǒng)計學》完整適合:比簡單隨機抽樣的方法能節(jié)約更多的成本,特別當總體的分布地域非常遼闊時?!督y(tǒng)計學》完整四、有關數(shù)據(jù)調查的幾個問題

調查的目的

判斷調查誤差的大小

調查誤差登記性誤差:代表性誤差系統(tǒng)性的代表性誤差

登記、匯總、過錄時產(chǎn)生的誤差,以及無回答誤差和測量誤差等

偶然性的代表性誤差即為抽樣誤差

《統(tǒng)計學》完整調查中的道德性問題1.調查者別有用意地、有意識地選擇導向性的問題,使回答者出現(xiàn)有傾向性的回答。

2.詢問者有意識地通過語氣、語調引導被詢問者出現(xiàn)有傾向性的回答。3.回答者不重視或不愿意回答調查的內容,就很可能提供錯誤的信息。《統(tǒng)計學》完整第二章統(tǒng)計數(shù)據(jù)的整理和展示統(tǒng)計數(shù)據(jù)的整理目錄統(tǒng)計數(shù)據(jù)的展示排序統(tǒng)計分組頻數(shù)分布編制統(tǒng)計表統(tǒng)計圖《統(tǒng)計學》完整一、統(tǒng)計數(shù)據(jù)的整理排序統(tǒng)計搜集到的大量資料是分散的,不系統(tǒng)的,只能說明各個單位的特征和屬性,必須按照科學的原則加以整理,使之條理化和系統(tǒng)化,成為便于儲存和傳遞的、反映總體特征的數(shù)據(jù)。就是把定量數(shù)據(jù)按從大到小或從小到大的順序排列,把定性數(shù)據(jù)按習慣的文字順序排列,便于我們研究其條理。

《統(tǒng)計學》完整統(tǒng)計分組對于定性數(shù)據(jù)就是依據(jù)屬性的不同將數(shù)據(jù)劃分成若干組,對于定量數(shù)據(jù)就是依據(jù)屬性數(shù)值的不同將數(shù)據(jù)劃分成若干組。

組內同質性,組間差異性?!督y(tǒng)計學》完整頻數(shù)分布編制分組的關鍵變量的選擇,選擇與研究的問題有關的變量。組限的確定。應遵循窮盡和互斥原則。定性數(shù)列編制:組限的確定一般比較簡單。如人口按性別分組、企業(yè)按所有制分組等

定量變量編制:分為單項數(shù)列和組距數(shù)列兩種形式。

單項數(shù)列:即變量的一個取值為一組,適用于離散型變量,并且變量的取值較少。

組距數(shù)列:即每一組有一個上限值和一個下限值所形成的區(qū)間,適用于連續(xù)性變量,或離散型變量且變量的取值較多的情況。

《統(tǒng)計學》完整注意以下三個方面的問題

1.確定組數(shù)

2.確定組距:組距為上限與下限之差。等距數(shù)列-數(shù)據(jù)分布均勻。異距數(shù)列-數(shù)據(jù)分布不均勻。

3.確定組限應能把現(xiàn)象的不同類型劃分出來。要考慮到數(shù)據(jù)是連續(xù)性變量還是離散型變量。

無法確定實際數(shù)據(jù)的取值范圍,或者數(shù)據(jù)中存在極端數(shù)值,可采用開口組的形式。4.確定組中值:(上限+下限)/2,開口組《統(tǒng)計學》完整二、統(tǒng)計數(shù)據(jù)的展示當統(tǒng)計數(shù)據(jù)比較多時,就應該制作表格或者圖形進行來展示,使數(shù)據(jù)的重要特性能從表格或者圖形中直觀地反映出來,這樣可提高分析數(shù)據(jù)和解釋數(shù)據(jù)的效率。

統(tǒng)計表是把統(tǒng)計數(shù)據(jù)用表格的形式展示出來。

類型:按作用分調查表按數(shù)據(jù)所屬的時間分截面數(shù)據(jù)表時間序列表

匯總整理表計算分析表《統(tǒng)計學》完整按分組變量的多少分單變量分組表多變量分組表

有平行形式交叉形式

統(tǒng)計圖統(tǒng)計圖形通??杀冉y(tǒng)計表格更生動地描述數(shù)據(jù)。

類型:餅圖是以整個圓的360度代表全部數(shù)據(jù)的總和,按照各類組所占的百分比(頻率),把一個“餅”切割為各個扇形。適用于定性數(shù)據(jù)。

50家門店按區(qū)域分組的餅圖《統(tǒng)計學》完整條形圖中,每一分類組表示成一個條,條的長度代表了這個組中所含數(shù)據(jù)的頻數(shù)或頻率。適用于定性數(shù)據(jù)。50家門店數(shù)按區(qū)域分組的條形圖家門店按區(qū)域并按人數(shù)分組的分段比例條形圖《統(tǒng)計學》完整直方圖與條形圖相似,是在每個分組區(qū)間上繪制一個長條形而產(chǎn)生的圖形,它可以用來描述已表示成頻數(shù)或頻率的數(shù)據(jù)。適用于定量數(shù)據(jù)。根據(jù)表2-5的等距數(shù)列對于異距數(shù)列,以組距為寬,以頻數(shù)密度為高來繪制直方圖。

《統(tǒng)計學》完整折線圖可以在直方圖基礎上,將每個長方形的頂端中點用折線連接而成,或用組中值與頻數(shù)(或頻率)求坐標點連接而成。根據(jù)圖2-6的直方圖繪制的折線圖《統(tǒng)計學》完整曲線圖當變量的取值非常多,變量數(shù)列的組數(shù)無限增多時,折線便趨于一條平滑的曲線,這是一種概括描述變量數(shù)列分布特征的理論曲線。枝葉圖是探索性數(shù)據(jù)分析中的一種方法,也是對一批數(shù)據(jù)進行組織整理的很有價值的一個工具,可用以了解一批數(shù)據(jù)中由所有觀測值構成的數(shù)據(jù)的取值范圍是如何分布的。《統(tǒng)計學》完整第三章數(shù)據(jù)的描述性分析本章將討論的是數(shù)據(jù)的總量和相對關系的測度,數(shù)據(jù)的集中趨勢、離散趨勢及其形態(tài)的測度。一、絕對數(shù)和相對數(shù)二、集中趨勢的測定三、離散趨勢的測定四、數(shù)據(jù)的形態(tài)測定主要內容《統(tǒng)計學》完整一、絕對數(shù)和相對數(shù)(一)絕對數(shù)絕對數(shù)(亦稱總量指標)是統(tǒng)計資料經(jīng)過匯總整理后得到的反映總體規(guī)模和水平的總和指標。

(3)是計算相對指標和平均指標的基礎。作用概念例如,企業(yè)的銷售收入、一個地區(qū)或國家的社會總產(chǎn)值、國內生產(chǎn)總值等。

(1)反映一個國家的國情和國力,一個地區(qū)或一個企業(yè)的人力、物力、財力

(2)是進行經(jīng)濟核算和經(jīng)濟活動分析的基礎

《統(tǒng)計學》完整分類按反映總體的內容分按反映的時間狀態(tài)分按計量單位分變量總值

單位總數(shù)時期數(shù)時點數(shù)實物量價值量《統(tǒng)計學》完整

相對數(shù)是用兩個有聯(lián)系的指標進行對比的比值,可以反映現(xiàn)象的數(shù)量特征和數(shù)量關系,并可將現(xiàn)象的絕對差異抽象化,使原來不能直接相比的絕對數(shù)可以進行比較。

種類計劃完成相對數(shù)結構相對數(shù)比較相對數(shù)強度相對數(shù)動態(tài)相對數(shù)(二)相對數(shù)概念《統(tǒng)計學》完整五種相對數(shù)指標的比較不同時期比較動態(tài)相對數(shù)注:又稱發(fā)展速度

強度相對數(shù)注:復名數(shù)有正逆指標不同現(xiàn)象比較不同總體比較比較相對數(shù)同一總體中部分與總體比較實際與計劃比較結構相對數(shù)計劃完成相對數(shù)注:有正逆指標同一時期比較同類現(xiàn)象比較《統(tǒng)計學》完整(1)正確選擇對比的基數(shù);(2)必須注意統(tǒng)計的可比性;(3)相對指標要與總量指標相結合。應用原則《統(tǒng)計學》完整二、集中趨勢的測定—平均數(shù)概念表明同類現(xiàn)象在一定時間、地點、條件下所達到的一般水平,是總體內某個變量大小各異的觀察值的代表性數(shù)值。也是對變量分布集中趨勢的測定。數(shù)據(jù)集中區(qū)變量x《統(tǒng)計學》完整常用的幾種平均數(shù)概念 計算公式 特點 優(yōu)點:①容易理,便于計算②靈敏度高③穩(wěn)定性好④和缺點:①易受極值影響②在偏斜分布和U形分布中,不具有代表性1.算術平均數(shù)()一個變量的所有觀察值相加,再除以觀察值的個數(shù)

簡單:加權:《統(tǒng)計學》完整權數(shù)解釋權數(shù)(Weighted),是分布數(shù)列中的頻數(shù)或頻率。對求平均數(shù)具有權衡輕重的作用,是影響平均數(shù)變動的兩個因素之一(另一因素是變量值)。(1)(2)(3)X456合計頻數(shù)頻率(%)10201025.050.025.040100.0X456合計頻數(shù)頻率(%)20402025.050.025.080100.0X456合計頻數(shù)頻率(%)20101050.025.025.080100.0=5=5=4.75頻率分布變了,均值也變。因此,嚴格地說,權數(shù)應指頻率。《統(tǒng)計學》完整算術平均數(shù)的變形數(shù)學上稱其為調和平均數(shù),只是用這種形式時,變量的取值不能為0。求某種商品三種零售價格的平均價格調和平均價格(元)3.32.52.0合計銷售額(元)10101030《統(tǒng)計學》完整常用的幾種平均數(shù)概念 計算公式 特點 優(yōu)點:靈敏度高②受極值影響小于和③適宜于各比率之積為總比率的變量求平均缺點:①有“0”或負值時不能計算②偶數(shù)項數(shù)列只能用正根2.幾何平均數(shù)()幾個變量值連乘積的n次根簡單:加權:《統(tǒng)計學》完整概念 計算公式 特點 3.中位數(shù)(Me)是一種位置平均數(shù),數(shù)據(jù)按大小順序排列,處于數(shù)據(jù)序列中間位置的數(shù)值就是中位數(shù)

上限公式:下限公式:優(yōu)點:①容易理解,②不受極值影響③適宜于開口組資料和些不能用數(shù)字測定的事物缺點:①靈敏度和計算功能差②間斷數(shù)Me常用的幾種平均數(shù)《統(tǒng)計學》完整常用的幾種平均數(shù)概念 計算公式 特點 4.眾數(shù)(Mo)是一種位置平均數(shù),是一批數(shù)據(jù)中出現(xiàn)次數(shù)最多的那個數(shù)值.通常只用于定性數(shù)據(jù)或離散型的定量數(shù)據(jù)。 上限公式:下限公式:優(yōu)點:①容易理解,②不受極值影響缺點:①靈敏度和計算功能差②穩(wěn)定性差③具有不唯一性《統(tǒng)計學》完整25303540455051015f(人數(shù))月收入:元36.11d1d255《統(tǒng)計學》完整位置平均數(shù)與算術平均數(shù)的關系1.眾數(shù)適用于所有的定性數(shù)據(jù)和定量數(shù)據(jù)

中位數(shù)適用于定性數(shù)據(jù)中的定序數(shù)據(jù)和定量數(shù)據(jù)算術平均數(shù)只適用于定量數(shù)據(jù)2.定量數(shù)據(jù):若是鐘形分布,三種集中趨勢指標一般都可適用。而對J形分布,反J形分布和U形分布,中位數(shù)和算術平均數(shù)沒有任何意義。3.在確定集中趨勢指標的過程中,算術平均數(shù)比中位數(shù)和眾數(shù)使用了更多的數(shù)據(jù)信息。4.對于鐘形分布且數(shù)據(jù)量很大時,三種集中趨勢指標有如下三種數(shù)量關系:

《統(tǒng)計學》完整XfXfXf(對稱分布)正偏態(tài)分布(右)負偏態(tài)分布(左)1212《統(tǒng)計學》完整應用平均指標的原則1.必須是同質的量方可平均;2.總平均數(shù)與組平均數(shù)結合分析;3.集中趨勢與離散趨勢結合分析《統(tǒng)計學》完整三、離散趨勢的測定概念標志變異指標是反映變量分布離散趨勢、與平均指標相匹配的指標。(1)反映變量分布的離散趨勢;(3)是對事物發(fā)展均衡性的量度。(2)是對平均數(shù)的代表性程度的量度;作用《統(tǒng)計學》完整常用的幾種標志變異指標概念 計算方法 特點 是非眾數(shù)組所占比重

1.異眾比率

如百得便利超市公司50家門店按區(qū)域劃分的眾數(shù)是A區(qū)域,該組的次數(shù)是20家,所以異眾比率為60%,這說明50家門店按區(qū)域劃分的離散程度比較大,眾數(shù)的代表性較差。

異眾比率是反映定名數(shù)據(jù)離散趨勢的唯一指標,這個指標越小,說明數(shù)據(jù)的離散程度越小,集中程度越大

《統(tǒng)計學》完整常用的幾種標志變異指標概念 計算 特點 數(shù)列中最大值與最小值之差2.極差(R)R=最大值-最小值R=最大組的上限-最小組的下限

優(yōu)點:容易理解,計算方便缺點:不能反映全部數(shù)據(jù)分布狀況3.四分位差

(M3-M1)/2在反映數(shù)據(jù)的離散程度方面比全距較為準確,但仍顯粗略

是一批數(shù)據(jù)中的第三四分位數(shù)與第一四分位數(shù)之差的二分之一

《統(tǒng)計學》完整常用的幾種標志變異指標概念 計算 特點 4.平均差(AD)各標志值與均值離差絕對值的算術平均 簡單:加權:優(yōu)點:反映全部數(shù)據(jù)分布狀況缺點:取絕對值數(shù)字上不盡合理所有觀察值與平均數(shù)離差平方平均數(shù)的平方根,亦稱均方差。標準差的平方即為方差。

5.方差(σ2s2)和標準差(σs) 優(yōu)點:反映全部數(shù)據(jù)分布狀況,數(shù)字上合理。缺點:受計量單位和平均水平影響,不便于比較簡單:加權:《統(tǒng)計學》完整概念計算 特點 6.標準差系數(shù)(Vσ) 標準差與均值之商,是無量綱的 兩列數(shù)據(jù)的分布進行離散程度的比較,當它們的平均數(shù)不等、計量單位不同時則應消除平均數(shù)不同和計量單位不可比的影響。此時就需要用離散系數(shù)這種相對數(shù)來是測定離散趨勢

方差(σ2)和標準差(σ)是應用最廣的標志變異指標常用的幾種標志變異指標《統(tǒng)計學》完整四、數(shù)據(jù)的形態(tài)測定偏度:是測定數(shù)據(jù)分布的偏斜程度的指標.。定義M=∑(X-A)k/n為變量X關于A的k階矩。

當A=0,即以原點為中心,上式稱為“K階原點矩”。K=1,2,3時,有:一階原點矩M1=∑(X-0)1/n=∑X/n二階原點矩M2=∑(X-0)2/n=∑X2/n三階原點矩M3=∑(X-0)3/n=∑X3/n

當A=,即以為中心,上式稱為“K階中心矩”。K=1,2,3時,有:一階中心矩二階中心矩三階中心矩《統(tǒng)計學》完整所以,m3可以測定偏度。為消除量綱,轉變?yōu)橄禂?shù),再除以σ3。<0負偏態(tài)=0對稱分布>0正偏態(tài)峰度:是用來反映數(shù)據(jù)分布曲線頂端的尖峭或扁平程度的指標。

<0平頂曲線=3正態(tài)曲線>3尖頂曲線注:在EXCL等軟件中輸出的峰度是在此基礎上再減3?!督y(tǒng)計學》完整五數(shù)概括:即最小值xmin、最大值xmax、第一四分位數(shù)M1、中位數(shù)Me和第三四分位數(shù)M3

五個數(shù)之間的關系,確定數(shù)據(jù)分布形態(tài)的方法:

數(shù)據(jù)是完全對稱:數(shù)據(jù)是不對稱:最小值xmin到中位數(shù)的距離等于中位數(shù)到最大值xmax的距離。從xmin到M1的距離等于M3到xmax的距離。從xmax到中位數(shù)的距離大于中位數(shù)到xmin的距離。

從M3到xmax的距離大于從從xmin到M1的距離。

右偏分布《統(tǒng)計學》完整從xmin到中位數(shù)的距離大于中位數(shù)到xmax的距離。

從xmin到M1的距離大于M3到xmax的距離。

左偏分布箱線圖:是基于五數(shù)概括的圖示方式,使得集中趨勢、離散趨勢和偏態(tài)更為直觀?!督y(tǒng)計學》完整第五章參數(shù)估計和假設檢驗推斷統(tǒng)計:利用樣本統(tǒng)計量對總體某些性質或數(shù)量特征進行推斷。隨機原則總體樣本總體參數(shù)統(tǒng)計量推斷估計參數(shù)估計檢驗假設檢驗抽樣分布《統(tǒng)計學》完整抽樣分布簡單隨機抽樣和簡單隨機樣本的性質無限總體有限總體不放回放回樣本樣本放回不放回樣本樣本獨立性和同一性同一性當n/N≤5%時,有限總體不放回抽樣等同于放回抽樣無限總體《統(tǒng)計學》完整統(tǒng)計量與抽樣分布統(tǒng)計量:即樣本指標。樣本均值樣本成數(shù)樣本方差如:抽樣分布:某一統(tǒng)計量所有可能的樣本的取值形成的分布。性質數(shù)字特征0≤P(Xi)

1∑P(Xi)=1均值E(X)方差E[x-E(x)]2方差的平方根即抽樣分布的標準差就是推斷的抽樣誤差?!督y(tǒng)計學》完整樣本均值的抽樣分布(簡稱均值的分布)抽樣總體樣本均值X,(N)均值μ=∑Xi/Nx,(n)樣本均值是樣本的函數(shù),故樣本均值是一個統(tǒng)計量,統(tǒng)計量是一個隨機變量,樣本均值的概率分布稱為樣本均值的抽樣分布。《統(tǒng)計學》完整均值分布的數(shù)學期望和方差抽樣方法 均值 方差 標準差 (1)從無限總體抽樣和有限總體放回抽樣(2)從有限總體不放回抽樣抽樣誤差抽樣誤差《統(tǒng)計學》完整從正態(tài)總體中抽樣得到的均值的分布也服從正態(tài)分布。從非正態(tài)總體中抽樣得到的均值的分布呢?中心極限定理:無論總體為何種分布,只要樣本n足夠大(n≥30),均值()標準化為(z)變量,必定服從標準正態(tài)分布,均值()則服從正態(tài)分布,即:關于均值的抽樣分布有如下的一些結論:1.對于多數(shù)總體分布來說,不論其形態(tài)如何,如果樣本觀察值超過30個,那么均值的抽樣分布將近似于正態(tài)分布。2.如果總體分布是明顯對稱的,那么只要樣本觀察值超過15個,均值的抽樣分布也近似于正態(tài)分布。

3.如果總體是正態(tài)分布的,則不管樣本大小如何,均值的抽樣分布一定是正態(tài)分布的。

《統(tǒng)計學》完整兩個樣本均值之差的抽樣分布抽樣總體樣本X1,(N1)x1,(n1)抽樣總體樣本X2,(N2)x2,(n2)估計(1)如:(2〕如果兩個總體都是非正態(tài)總體,只要n1、n2足夠大,根據(jù)中心極限定理,可知:《統(tǒng)計學》完整樣本成數(shù)(即比例)的抽樣分布(簡稱成數(shù)的分布)抽樣總體樣本成數(shù)X,(N)成數(shù)P=Ni/Nx,(n)所有可能的樣本的成數(shù)()所形成的分布,稱為樣本成數(shù)的抽樣分布?!督y(tǒng)計學》完整成數(shù)分布的數(shù)學期望和方差抽樣方法 均值 方差 標準差 (1)從無限總體抽樣和有限總體放回抽樣(2)從有限總體不放回抽樣根據(jù)中心極限定理,只要樣本足夠大,的分布就近似正態(tài)分布。(np和nq大于5時)抽樣誤差抽樣誤差《統(tǒng)計學》完整兩個樣本成數(shù)之差的抽樣分布抽樣總體樣本X1,(N1)x1,(n1)抽樣總體樣本X2,(N2)x2,(n2)估計當n1、n2都足夠大時,樣本成數(shù)都近似服從正態(tài)分布,兩個樣本成數(shù)之差()也近似服從正態(tài)分布。P1-P2=?《統(tǒng)計學》完整一個樣本方差的抽樣分布抽樣總體樣本若:從一個正態(tài)總體中抽樣所得到的樣本方差的分布n,S2則當則《統(tǒng)計學》完整兩個樣本方差之比的抽樣分布抽樣總體樣本從兩個正態(tài)總體中分別獨立抽樣所得到的兩個樣本方差之比的抽樣分布。n1,S12則抽樣總體樣本n2,S22《統(tǒng)計學》完整參數(shù)估計點估計以樣本指標直接估計總體參數(shù)。評價準則的數(shù)學期望等于總體參數(shù),即該估計量稱為無偏估計。無偏性有效性當為的無偏估計時,方差越小,無偏估計越有效。一致性對于無限總體,如果對任意則稱的一致估計。是充分性一個估計量如能完全地包含未知參數(shù)信息,即為充分量估計量《統(tǒng)計學》完整點估計常用的求點估計量的方法

1.數(shù)字特征法:

當樣本容量增大時

,用樣本的數(shù)字特征去估計總體的數(shù)字特征。

例如,我們可以用樣本平均數(shù)(或成數(shù))和樣本方差來估計總體的均值(或比率)和方差。2.順序統(tǒng)計量法:

如果把取得的樣本觀測值按大小排列起來,那么與排列位置有關的統(tǒng)計量就稱為順序統(tǒng)計量。常用的順序統(tǒng)計量有樣本中位數(shù)和極差。

《統(tǒng)計學》完整當總體服從正態(tài)分布時,用樣本中位數(shù)來估計總體的數(shù)學期望

:3.極大似然估計法:極大似然估計是根據(jù)樣本的似然函數(shù)對總體參數(shù)進行估計的一種方法。其實質就是根據(jù)樣本觀測值發(fā)生的可能性達到最大這一原則來選取未知參數(shù)的估計量θ,其理論依據(jù)就是概率最大的事件最可能出現(xiàn)。

《統(tǒng)計學》完整區(qū)間估計估計未知參數(shù)所在的可能的區(qū)間。評價準則隨機區(qū)間置信度精確度隨機區(qū)間包含(即可靠程度)越大越好。的概率的平均長度(誤差范圍)越小越好一般形式或總體參數(shù)估計值誤差范圍△:一定倍數(shù)的抽樣誤差例如:抽樣誤差一定時,越大,概率(可靠性)大;隨之增大,精確度就差。《統(tǒng)計學》完整參數(shù)的區(qū)間估計簡單隨機抽樣待估計參數(shù)已知條件置信區(qū)間正態(tài)總體,σ2已知正態(tài)總體,σ2未知非正態(tài)總體,n≥30有限總體,n≥30(不放回抽樣)總體均值(μ)σ未知時,用Sσ未知時,用S兩個正態(tài)總體已知兩個正態(tài)總體未知但相等兩個非正態(tài)總體,n1,n2≥30兩個總體均值之差μ1-μ2《統(tǒng)計學》完整簡單隨機抽樣待估計參數(shù)已知條件置信區(qū)間無限總體,np和nq都大于5總體成數(shù)(p)無限總體,n1p1>5,n1q1>5n2p2>5,n2q2>5兩個總體成數(shù)之差(P1-

P2)有限總體,np和nq都大于5有限總體,n1p1>5,n1q1>5n2p2>5,n2q2>5《統(tǒng)計學》完整簡單隨機抽樣待估計參數(shù)已知條件置信區(qū)間正態(tài)總體總體方差

兩個正態(tài)總體兩個總體方差之比《統(tǒng)計學》完整樣本數(shù)的確定待估計參數(shù)已知條件樣本數(shù)的確定正態(tài)總體,σ2已知總體均值(μ)例:誤差范圍簡單隨機抽樣有限總體,不放回抽樣,σ2已知總體成數(shù)(P)服從正態(tài)分布有限總體,不放回抽樣《統(tǒng)計學》完整假設檢驗基本思想檢驗規(guī)則檢驗步驟常見的假設檢驗方差分析《統(tǒng)計學》完整基本思想小概率原理:如果對總體的某種假設是真實的,那么不利于或不能支持這一假設的事件A(小概率事件)在一次試驗中幾乎不可能發(fā)生的;要是在一次試驗中A竟然發(fā)生了,就有理由懷疑該假設的真實性,拒絕這一假設。總體(某種假設)抽樣樣本(觀察結果)檢驗(接受)(拒絕)小概率事件未發(fā)生小概率事件發(fā)生《統(tǒng)計學》完整假設的形式:H0——原假設,H1——備擇假設雙側檢驗:H0:μ=μ0,H1:μ≠μ0單側檢驗:H0:μ=μ0,H1:μ<μ0H0:μ=μ0,H1:μ>μ0假設檢驗就是根據(jù)樣本觀察結果對原假設(H0)進行檢驗,接受H0,就否定H1;拒絕H0,就接受H1?!督y(tǒng)計學》完整檢驗規(guī)則確定檢驗規(guī)則檢驗過程是比較樣本觀察結果與總體假設的差異。差異顯著,超過了臨界點,拒絕H0;反之,差異不顯著,接受H0差異臨界點拒絕H0接受H0cc判斷兩類錯誤接受或拒絕H0,都可能犯錯誤I類錯誤——棄真錯誤,發(fā)生的概率為αII類錯誤——取偽錯誤,發(fā)生的概率為β檢驗決策H0為真 H0非真 拒絕H0犯I類錯誤(α)正確 接受H0正確犯II類錯誤(β) 怎樣確定c?《統(tǒng)計學》完整α大β就小,α小β就大基本原則:力求在控制α前提下減少βα——顯著性水平,取值:0.1,0.05,0.01,等。如果犯I類錯誤損失更大,為減少損失,α值取??;如果犯II類錯誤損失更,α值取大。確定α,就確定了臨界點c。①設有總體:X~N(μ,σ2),σ2已知。②隨機抽樣:樣本均值③標準化:④確定α值,⑤查概率表,知臨界值⑥計算Z值,作出判斷0接受區(qū)拒絕區(qū)拒絕區(qū)《統(tǒng)計學》完整當檢驗判斷為接受原假設H0時,就有可能犯取偽的錯誤即II類錯誤。確定犯第Ⅱ類錯誤的概率β比較困難,具體計算可根據(jù)書上的例子。統(tǒng)計上把稱為統(tǒng)計檢驗的勢,它是原假設實際上是錯誤的應該被拒絕的概率。

II類錯誤的概率β的計算《統(tǒng)計學》完整檢驗步驟根據(jù)具體問題的要求,建立總體假設H0,H112選擇統(tǒng)計量確定H0為真時的抽樣分布3給定顯著性水平α,當原假設H0為真時,求出臨界值。計算檢驗統(tǒng)計量的數(shù)值與臨界值比較4《統(tǒng)計學》完整幾種常見的假設檢驗總體均值的檢驗條件檢驗條件量拒絕域H0、H1(1)H0:μ=μ0H1:μ≠μ0

z(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μz0z0正態(tài)總體σ2已知《統(tǒng)計學》完整總體均值的檢驗條件檢驗條件量拒絕域H0、H1(1)H0:μ=μ0H1:μ≠μ0

t(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μt0t00正態(tài)總體σ2未知(n<30)《統(tǒng)計學》完整總體均值的檢驗條件檢驗條件量拒絕域H0、H1(1)H0:μ=μ0H1:μ≠μ0

z(2)H0:μ=μ0H1:μ>μ0(3)H0:μ=μ0H1:μ<μz0z00非正態(tài)總體n≥30σ2已知或未知《統(tǒng)計學》完整兩個總體均值之差的檢驗條件檢驗條件量拒絕域H0、H1(1)H0:μ1=μ2H1:μ1≠μ2

z(2)H0:μ1=μ2

H1:μ1>μ2

(3)H0:μ1=μ2

H1:μ1<μ2

z0z00兩個正態(tài)總體已知《統(tǒng)計學》完整兩個總體均值之差的檢驗條件檢驗條件量拒絕域H0、H1(1)H0:μ1=μ2

H1:μ1≠μ2

t(2)H0:μ1=μ2

H1:μ1>μ2

(3)H0:μ1=μ2

H1:μ1<μ2

t0t00兩個正態(tài)總體未知,但相等《統(tǒng)計學》完整兩個總體均值之差的檢驗條件檢驗條件量拒絕域H0、H1(1)H0:μ1=μ2

H1:μ1≠μ2

(2)H0:μ1=μ2

H1:μ1>μ2

(3)H0:μ1=μ2

H1:μ1<μ2

0z00兩個非正態(tài)體n1≥30n2≥30已知或未知zz《統(tǒng)計學》完整總體成數(shù)的檢驗條件檢驗條件量拒絕域H0、H1(1)H0:P=P0H1:P≠P0

z(2)H0:P=P0H1:P>P0(3)H0:P=P0H1:P<P0z0z00np≥5nq≥5《統(tǒng)計學》完整兩個總體成數(shù)之差的檢驗條件檢驗條件量拒絕域H0、H1(1)H0:P1=P2H1:P1≠P2

z(2)H0:P1≤P2H1:P1>

P2(3)H0:P1≥P2H1:P1<P2z0z00n1p1≥5n1q1≥5n2p2≥5n2q2≥5 《統(tǒng)計學》完整一個總體方差的檢驗條件檢驗條件量拒絕域H0、H1總體服從正態(tài)分布 《統(tǒng)計學》完整兩個總體方差之比的檢驗條件檢驗條件量拒絕域H0、H1總體服從正態(tài)分布 FFF《統(tǒng)計學》完整方差分析一、問題的提出同一原材料加工產(chǎn)品質量產(chǎn)地各組產(chǎn)品的質量是否有顯著差異?隨機原則《統(tǒng)計學》完整一個班級的學生,某門課程的成績專業(yè)分組各組學生的成績是否有顯著差異???差異隨機誤差系統(tǒng)誤差隨機原則加以比較若存在顯著性差異,則說明該因素的影響是顯著的《統(tǒng)計學》完整二、假定條件各組水平都服從正態(tài)分布,均值和方差未知,但方差相同(i=1,2,3,···,k)《統(tǒng)計學》完整三、單因素方差分析H0:各水平的均值相等H1:各水平均值不全相等總離差平方和=組間離差平方和+組內離差平方和離差平方和:SST=SSB+SSE自由度:n-1=k-1+n-k方差:MST=MSB+MSE檢驗量=系統(tǒng)誤差/隨機誤差即:F=MSB/MSE檢驗規(guī)則《統(tǒng)計學》完整《統(tǒng)計學》完整因為:F=3.15<4.26或P(0.092)>(0.05)所以接受原假設,認為不同的家庭背景對學員成績沒有顯著影響。《統(tǒng)計學》完整

四、不考慮交互作用的兩因素方差分析H0(A):因素A的k個水平的均值相等H1:不全相等總離差平方和=組間離差平方和+組內離差平方和離差平方和:SST=SS(A)+SS(B)+SSE自由度:kh-1=k-1+h-1+(k-1)(h-1)方差:MST=MS(A)+MS(B)+MSE檢驗量=系統(tǒng)誤差/隨機誤差即:F(A)=MS(A)/MSEF(B)=MS(B)/MSEH0(B):因素B的h個水平的均值相等H1:不全相等檢驗規(guī)則《統(tǒng)計學》完整

《統(tǒng)計學》完整

因為:F(A)=0.393<5.14F(B)=0.028<4.76或P(A)(0.69)>(0.05)P(B)(0.99)>(0.05)所以接受原假設,認為不同的機器設備和不同的工藝方法對生產(chǎn)量都沒有顯著影響?!督y(tǒng)計學》完整

五、考慮交互作用的兩因素方差分析H0(A):因素A的k個水平的均值相等H1:不全相等總離差平方和=組間離差平方和+組內離差平方和離差平方和:SST=SS(A)+SS(B)+SS(AB)+SSE自由度:khm-1=k-1+h-1+(k-1)(h-1)+kh(m-1)方差:MST=MS(A)+MS(B)+MS(AB)+MSE檢驗量=系統(tǒng)誤差/隨機誤差即:F(A)=MS(A)/MSEF(B)=MS(B)/MSEF(AB)=MS(AB)/MSEH0(B):因素B的h個水平的均值相等H1:不全相等H0(AB):AB之間不存在交互影響的作用H1:有交互影響《統(tǒng)計學》完整

檢驗規(guī)則例:《統(tǒng)計學》完整

《統(tǒng)計學》完整

《統(tǒng)計學》完整

因為:F(A)=7.89>3.40F(B)=0.53<3.01F(AB)=7.11>2.51或P(A)(0.002)<(0.05)P(A)(0.665)>(0.05)P(AB)(0.0002)<(0.05)所以認為不同的機器設備對日產(chǎn)量有顯著影響。不同的工藝方法對日產(chǎn)量沒有顯著影響。不同機器設備與工藝搭配的交互作用對日產(chǎn)量有顯著的影響?!督y(tǒng)計學》完整

相關分析

回歸分析第六章相關與回歸相關和回歸分析方法,是分析兩個或更多變量之間的相互關系,測定它們之間聯(lián)系的緊密程度,以揭示其變化的具體形式和規(guī)律性,以便用一個或幾個變量,去預測另一個我們感興趣的變量。主要內容《統(tǒng)計學》完整相關分析概念種類線性相關變量之間關系函數(shù)關系相關關系因果關系互為因果關系共變關系確定性依存關系隨機性依存關系《統(tǒng)計學》完整種類一元相關多元相關負相關正相關線性相關曲線相關xy正相關xy負相關xy曲線相關xy不相關《統(tǒng)計學》完整線性相關相關系數(shù)測定兩變量是否線性相關?定義式:未分組:已分組:值:|r|=0不存在線性關系;|r|=1完全線性相關0<|r|<1不同程度線性相關(0~0.3微弱;0.3~0.5低度;0.5~0.8顯著;0.8~1高度)符號:r>0正相關;r<0負相關計算公式相關系數(shù)的檢驗(t檢驗)檢驗統(tǒng)計量《統(tǒng)計學》完整回歸分析特點一元線性回歸多元線性回歸非線性回歸邏輯回歸種類《統(tǒng)計學》完整特點1·理論和方法具有一致性;2·無相關就無回歸,相關程度越高,回歸越好;3·相關系數(shù)和回歸系數(shù)方向一致,可以互相推算。1·相關分析中,x與y對等,回歸分析中,x與y要確定自變量和因變量;2·相關分析中x,y均為隨機變量,回歸分析中,只有y為隨機變量;3·相關分析測定相關程度和方向,回歸分析用回歸模型進行預測和控制。《統(tǒng)計學》完整種類一元回歸多元回歸線性回歸非線性回歸自變量的多少

變量之間的具體變動形式《統(tǒng)計學》完整一元線性回歸1·一元線性回歸模型的一般形式總體一元線性回歸模型的一般形式Y的數(shù)學期望E(Yi)隨機誤差也稱一元線性回歸方程,是對應于自變量X某一取值時因變量Y的均值。未知參數(shù)Yi=α+βXi+εi

《統(tǒng)計學》完整回歸系數(shù)b表明自變量x每變化一個單位因變量y的平均增(減)量。b與r的關系:r>0r<0r=0b>0 b<0 b=0樣本的一元線性回歸模型和回歸方程一元線性回歸模型:一元線性回歸方程:截距斜率(回歸系數(shù))《統(tǒng)計學》完整xy2·一元線性回歸模型的確定根據(jù)實際數(shù)據(jù),用最小平方法,即使,分別對a、b求編導并令其為零,求得兩個標準方程:解聯(lián)立方程,得到《統(tǒng)計學》完整3·一元線性回歸模型擬合優(yōu)度的評價判定系數(shù)(r2)是對回歸模型擬合優(yōu)度的評價。xy總偏差=回歸偏差+剩余偏差r2表示全部偏差中有百分之幾的偏差可由x與y的回歸關系來解釋。r的符號同b《統(tǒng)計學》完整估計標準誤(Sxy)Sxy越小,擬合越好;Sxy越大,擬合越差。Sxy也是用自變量對因變量進行區(qū)間估計的抽樣誤差。68.27%94,45%99.73%是一個測量Y的實際值與Y的預測值之間離散程度的統(tǒng)計量。《統(tǒng)計學》完整4·回歸分析中的假設條件和殘差分析回歸分析中的假設條件

隨機誤差項ε的理論假定值相互獨立服從正態(tài)分布的數(shù)學期望E()=0的方差都相同,且殘差分析隨機誤差項ei=Yi-又稱為殘差,對殘差進行分析,既能用來評價回歸模型與實際數(shù)據(jù)的擬合優(yōu)度,也能評價回歸的假設能否成立?!督y(tǒng)計學》完整評價回歸模型的擬合優(yōu)度可通過繪制殘差圖直觀地進行評價。殘差圖是以殘差為縱坐標、以相應自變量的X值為橫坐標的散點圖。散點的分布不存在明顯的變化規(guī)律,說明建立的模型對數(shù)據(jù)是合適的?!督y(tǒng)計學》完整散點的分布有明顯的變化規(guī)律,說明建立的模型對數(shù)據(jù)是不合適的?!督y(tǒng)計學》完整假設條件的評估(1)等方差性:通過殘差與Xi的殘差圖來評價

殘差0X0此圖中,散點如扇形般地展開,即顯示出X增大時殘差的變異也在增大,證明了在X的每個水平上,Y缺少等方差性

《統(tǒng)計學》完整(2)正態(tài)性??赏ㄟ^殘差分析中計算殘差的頻數(shù)分布,并把其結果用直方圖加以反映和評估。

引例店址選擇的數(shù)據(jù),可把殘差列成如表的頻數(shù)分布,并把其結果可用直方圖展示出來

.殘差頻數(shù)-300到-2001-200到-1002-100到040到1004100到2004合計15《統(tǒng)計學》完整(3)獨立性??筛鶕?jù)數(shù)據(jù)獲得的先后順序排列的殘差散點圖來評估。在一段時間內收集的數(shù)據(jù),有時觀測值中會存在著自相關的影響。此時,前后之間的殘差就會有某種聯(lián)系。若存在這種聯(lián)系,就違背了獨立性假設,這將很明顯地在殘差對收集數(shù)據(jù)的時間散點圖上反映出來。自相關的影響可用杜賓—沃特森統(tǒng)計量進行測度

《統(tǒng)計學》完整5·一元線性回歸模型的顯著性檢驗回歸系數(shù)b的檢驗:設總體回歸系數(shù)為βH0:β=0;H1:β≠0n≥30時檢驗統(tǒng)計量(β=0)σb是樣本回歸系數(shù)抽樣分布的標準差。通常是未知的,用其估計量代替。給定顯著性水平α,查Z表可知其臨界值。n<30時(β=0)給定顯著性水平α,查t表可知其臨界值?!督y(tǒng)計學》完整00Zt《統(tǒng)計學》完整回歸模型整體的F檢驗H0:R2=0;H1:R2>0檢驗統(tǒng)計量F《統(tǒng)計學》完整6·應用回歸方程進行估計

n≥30時給定x0,y0的置信度(1-α)的置信區(qū)間為:n<30時xyX00給定的x0越接,y值估計的精確度越高。平均值估計n<30時特定值估計《統(tǒng)計學》完整多元線性回歸1·多元線性回歸模型的確定二元線性回歸模型:總體多元線性回歸模型的一般形式Y的數(shù)學期望隨機誤差表明自變量共同變動引起的Y的平均變動。也稱總體的二元線性回歸方程?!督y(tǒng)計學》完整常數(shù)項,和Y構成的平面與Y軸的截距偏回歸系數(shù),表示在固定時每變化一個單位引起的Y的平均變動;偏回歸系數(shù),表示在固定時每變化一個單位引起的Y的平均變動;隨機誤差,其理論假定與一元線性回歸模型中的一樣。偏回歸系數(shù)的符號與它們所聯(lián)系的自變量Xi同因變量Y的相關系數(shù)ri的符號是一致的。

《統(tǒng)計學》完整樣本多元線性回歸模型的一般形式二元線性回歸模型為:其數(shù)學期望也稱樣本(或估計的)二元線性回歸方程。2.二元線性回歸方程的確定根據(jù)實際資料,用最小平方法,即使,分別對b0、b1、b2求編導并令其為零,求得三個標準方程:《統(tǒng)計學》完整解此聯(lián)立方程便可得到β0、β1和β2。

3·多元線性回歸模型的判定系數(shù)和估計標準誤判定系數(shù)修正的判定余數(shù):《統(tǒng)計學》完整估計標準誤)r2和Sy(x1、x2)都是對回歸模型擬合優(yōu)度的評價指標。Sy(x1、x2)也是用自變量對因變量進行區(qū)間估計的抽樣誤差。4·多元線性回歸方程的顯著性檢驗

對偏回歸系數(shù)的t檢驗H0:β1=0,H1:β1≠0; H0:β2=0, H1:β2≠0。檢驗統(tǒng)計量:《統(tǒng)計學》完整按顯著性水平α和自由度(n-3)查t表可得到臨界值t0《統(tǒng)計學》完整模型整體的F檢驗檢驗統(tǒng)計量:(k—自變量個數(shù))或按給定的α和自由度(2)和(n-3)查F表可得到臨界值Fα《統(tǒng)計學》完整5·多元回歸中的相關分析復相關:指一個因變量同多個自變量的相關關系。復相關系數(shù)恒取正值。偏相關(凈相關)指各個自變量在其他自變量固定不變時,單個變量同因變量的相關關系。x1與y的偏相關系數(shù):x2與y的偏相關系數(shù):《統(tǒng)計學》完整6·應用多元回歸方程進行區(qū)間估計Y的平均值的區(qū)間估計Y的特點值的區(qū)間估計式中,是即區(qū)間估計的抽樣誤差。的抽樣分布的標準差,式中,是的抽樣分布的標準差,即區(qū)間估計的抽樣誤差?!督y(tǒng)計學》完整7·建立多元回歸模型應注意的幾個問題和步驟

建立多元回歸模型應注意的幾個問題

1.變量的選擇

當實際問題確實有兩個或兩個以上因素影響其變動時,就應盡力獲得這些因素的資料,構造多元回歸模型。

通常有兩種

向前逐步回歸

向后逐步回歸

2.多重共線性:如果各自變量之間存在完全相關或高度相關的情況,這在統(tǒng)計上稱作多重共線性。

《統(tǒng)計學》完整方差膨脹因子(VIF)=

若一系列自變量之間是不相關的,則VIFj等于1。若這些解釋變量之間存在著高度的相關,則VIFj可大到超過10。一般的標準是VIFj的最大值超過5,則可認為此自變量與其他自變量之間存在著較高的相關,需要對回歸模型進行修正。3。多元線性回歸模型的殘差分析

需要對每個自變量與因變量的簡單線性回歸方程的殘差圖分別都進行分析

《統(tǒng)計學》完整建立回歸模型的方法

1.考慮一批可能入選模型的自變量。

3.判別每個自變量的VIF是否大于5。

4.有可能發(fā)生發(fā)下三種結果:

2.擬合一個含有全部考慮過的自變量的回歸模型,以便判別每個自變量的變異膨脹因子(VIF)。

a.沒有一個自變量的VIF>5,若產(chǎn)生這種情況,進入第5步。b.有一個自變量的VIF>5,若產(chǎn)生這種情況,剔除這個自變量,進入第5步。c.不止一個自變量的VIF>5,若產(chǎn)生這種情況,剔除VIF值最大的那個自變量,然后回到第2步?!督y(tǒng)計學》完整5.對余下的自變量,找出所有自變量形成的子集,進行最佳子集的回歸分析,以獲得給定自變量的最佳模型。具體可計算Cp統(tǒng)計量來選擇最佳子集,有關Cp統(tǒng)計量的計算公式和使用方法可閱讀相關的書籍。6.列出所有Cp≤(k+1)的模型。7.在第5步列出的所有模型中,選擇一個最佳模型。8.對模型做一個包括殘差分析在內的完整分析。9.根據(jù)殘差分析的結果,增加二次項或進行變量變換(見下一節(jié)),然后分析數(shù)據(jù)。10.用選定的模型進行預測。

《統(tǒng)計學》完整虛擬變量運用虛擬變量,就能把定性自變量作為回歸模型的一部分。

邏輯回歸若給出的定性自變量有兩個分類,虛擬變量Xd的定義如下:

Xd=0,若觀測對象屬于第一個分類

Xd=1,若觀測對象屬于第二個分類《統(tǒng)計學》完整邏輯回歸設P(Y=1|X)=p表示自變量為X時,因變量Y=1出現(xiàn)的概率,對p作Logit變換,定義Logitp為

Logitpi=

總體一元邏輯回歸模型:Logitpi=α+βXi+εi

或樣本的一元邏輯回歸方程

a+bXi其中或:《統(tǒng)計學》完整例:在一次住房展銷會上,與房地產(chǎn)商簽定初步購房意向書的共有n=325名顧客,在隨后的3個月時間內,只有一部分顧客確實購買了房屋。購買了房屋的顧客記為1,沒有購買房屋的顧客記為0。以顧客年家庭收入為自變量X,對表所示的數(shù)據(jù),建立邏輯回歸方程。解:令X為自變量,為因變量,由公式6-49可得回歸方程為:

-0.8863+0.1558Xi判定系數(shù):r2=0.9243顯著性檢驗

p值約等于零,所以高度顯著

《統(tǒng)計學》完整預測:年家庭收入為8萬元的實際購房比例邏輯回歸方程:《統(tǒng)計學》完整非線性回歸模型當自變量與因變量存在某種曲線相關關系時,可擬合曲線回歸模型。例如:雙曲線模型:指數(shù)曲線模型:二次曲線回歸模型:對多元非線性模型:

《統(tǒng)計學》完整非線性模型的判別方法:理論和經(jīng)驗判斷;觀察散點圖非線性模型的確定方法:通常用變量代換法將曲線轉換為直線。按線性模型求解參數(shù),而后再變換為曲線模型。《統(tǒng)計學》完整第七章非參數(shù)統(tǒng)計非參數(shù)統(tǒng)計(亦稱非參數(shù)檢驗),是根據(jù)樣本資料對總體的某種性質或關系進行假設檢驗的統(tǒng)計推斷方法。主要特點不要求總體分布已知或對總體分布作任何限制性假定;不以估計總體參數(shù)為目的;能適用于定性變量中的定類數(shù)據(jù)或定序數(shù)據(jù)

,也能適用于定距數(shù)據(jù)和定比數(shù)據(jù)這種定量變量

方法直觀,易于理解,運算比較簡單。缺點是檢驗的功效不如參數(shù)檢驗方法。《統(tǒng)計學》完整主要內容χ2檢驗成對比較檢驗曼—惠特尼U檢驗游程檢驗等級相關檢驗《統(tǒng)計學》完整χ2檢驗一、什么是χ2檢驗χ2檢驗是利用隨機樣本對總體分布與某種特定分布擬合程度的檢驗,也就是檢驗觀察值與理論值之間的緊密程度。

設有k(K>2)個觀察值,f0為它們的實際頻數(shù),fe為理論頻數(shù)。構造一個統(tǒng)計量其中,k-1為自由度。

皮爾生定理表明,當樣本容量充分大時,樣本分成K類,則χ2統(tǒng)計量服從χ2分布。自由度為k-1《統(tǒng)計學》完整1、擬合優(yōu)度檢驗二、應用利用樣本信息對總體分布作出推斷,檢驗總體是否服從某種理論分布(如二項分布、均勻分布或正態(tài)分布等)。

檢驗步驟抽樣并對樣本資料編成頻數(shù)分布,形成k個互斥的類型組。(f0)對總體分布建立假設H0:總體服從某種理論分布H1:總體不服從該理論分布以“原假設H0為真”導出一組期望頻數(shù)(fe)計算檢驗統(tǒng)計量比較χ2值與臨界值作出檢驗判斷《統(tǒng)計學》完整自由度(df)=k-1-m。其中k為組數(shù)。(各組理論頻數(shù)不得小于5,如不足5,可合并相鄰的組,如需合并,則k為合并后的組數(shù))m為計算理論頻數(shù)時所估計參數(shù)的個數(shù)。(未指定總體的參數(shù),需要觀察值計算相應的統(tǒng)計量,作為未參數(shù)的估計值)?!督y(tǒng)計學》完整2、獨立性檢驗二、應用用于判斷兩個變量是否存在交互影響。如果兩個變量不存在交互影響,就稱為獨立,所以這類檢驗也稱為獨立性檢驗。

檢驗步驟對總體的兩個變量建立假設H0:兩變量獨立H1:兩變量關聯(lián)將樣本資料編成r×c列聯(lián)表,并列出實際頻數(shù)Oij計算理論頻數(shù)計算檢驗統(tǒng)計量比較χ2值與臨界值作出檢驗判斷《統(tǒng)計學》完整《統(tǒng)計學》完整要點說明列聯(lián)表形式(r×c)O11O21O31...Or1

O12O22O32...Or2

O13O23O33...Or3

………...… O1cO2cO3c...Orc

O1O2O3...Or

123...r行(r)列(c)1 2 3 … c xy合計 n.1 n.2 n.3 … n.c n 合計X的邊緣頻數(shù)y的邊緣頻數(shù)《統(tǒng)計學》完整理論頻數(shù)Eij的計算先求理論頻率(作為概率的近似)。概率論中關于概率獨立的基本規(guī)則:如果兩事件獨立,則它們的聯(lián)合概率等于它們各自概率的乘積,P(A·B)=P(A)·P(B)。因此,某一行某一列的聯(lián)合概率:自由度(df)的確定df=(r-1)(c-1)《統(tǒng)計學》完整r·c=2×2的列聯(lián)表資料,χ2值簡算公式xy1212abcda+cb+da+bc+d合計合計n《統(tǒng)計學》完整成對比較檢驗是對兩個相關樣本的比較分析。有符號檢驗和威爾科克森帶符號的等級檢驗兩種方法。

符號檢驗

也稱正負號檢驗,其基本思想是分析正負號出現(xiàn)的頻率而忽略具體量的差異,以確定他們是否有顯著差異的一種檢驗方法。

《統(tǒng)計學》完整檢驗步驟

1.確定配對樣本,分別計算差異正與負的數(shù)目,無差異則記為0,將它從樣本中剔除,并相應地減少樣本容量n,把正負號數(shù)目之和視為樣本總個數(shù)(n)

。2.建立假設:H0:p=0.5;H1:p≠0.53.觀察樣本容量,如果n≤25,則作為二項分布處理如果n>25,則作為正態(tài)近似處理。

4.設定顯著性水平α,并查表確定臨界值,進行比較和作出判斷。

《統(tǒng)計學》完整例1:隨機抽取12個單位,放映一部描述吸煙有害健康的影片,并調查得到觀看電影前后各單位職工認為吸煙有害的人數(shù)的百分比。檢驗該電影宣傳是否有效果(α=0.05)。解:H0:P=0.5H1:P>0.5P(0)=0.0002,P(1)=0.0030,P(2)=0.0161,P(3)=0.0537P(0)+P(1)+P(2)=0.0193<0.05P(3)+0.0193=0.0537+0.0193=0.073>0.05《統(tǒng)計學》完整0123456可見,拒絕域應為0,1,2。789101112拒絕域現(xiàn)檢驗統(tǒng)計量(-)=3(即3個負號),0.073>0.05所以,原假設H0:P=0.5在5%顯著性水平上不能被拒絕。也即不能認為職工在觀看影片前后的認識有顯著提高?!督y(tǒng)計學》完整例2:隨機抽取60名消費者對甲、乙兩種品牌的飲料評分,甲、乙得分之差為“+”號者35個,“-”號15個,“0”號10個。以顯著性水平α=0.05檢驗兩種飲料是否同等受歡迎。解:H0:P=0.5,H1:P≠0.5∵n>25,∴按正態(tài)分布近似處理該成數(shù)抽樣分布的均值和標準差分別為2.82>1.96,所以,拒絕原假設。認為兩種飲料并不受到同等歡迎。且乙種優(yōu)于甲種?!督y(tǒng)計學》完整威爾科克森帶符號的等級檢驗這種檢驗方法不僅考慮了兩組數(shù)據(jù)差異的正、負號,而且還利用了其差異大小的信息。因此,是一種更為有效的檢驗方法。1、應用條件和檢驗內容與符號檢驗相同。2、方法思想:若關聯(lián)樣本的兩組數(shù)據(jù)沒有顯著差異,則不僅其差異的正、負符號應大致相等,而且將其差的數(shù)值按大小順序排列編自然序號(即秩)后,它們的正號(+)的秩和(記為T+)與負號(-)的秩和(記為T-)也應該大致相等。其中之較小者也應趨近于總秩和的平均數(shù)()。若正秩和(T+)與負秩和(T-)相差太大,其中較小者偏離總秩和的平均()較遠,以致超過給定顯著性水平α所確定的臨界點,就可以認為這兩組數(shù)據(jù)存在顯著差異,即總體的分布不相同?!督y(tǒng)計學》完整檢驗步驟將樣本數(shù)據(jù)配對并計算各對正負差值將差數(shù)取絕對值按從小到大順序排列并編上等級,即確定順序號1、2、3等。對于相等的值,則取其位序的平均數(shù)為等級

建立假設:H0:T+=T-;H1:T+≠T-(雙側)

H1:T+>T-或T+<T-(單側)計算檢驗統(tǒng)計量:當n>25時當n≤25時,取T+、T-中之小者《統(tǒng)計學》完整設定α,并查表確定臨界值Tα(或Zα/2)比較檢驗值與臨界值

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論