![2.數(shù)理統(tǒng)計(jì)基本概念_第1頁(yè)](http://file4.renrendoc.com/view/2e5d39bd75efedca2b07a6c662112c19/2e5d39bd75efedca2b07a6c662112c191.gif)
![2.數(shù)理統(tǒng)計(jì)基本概念_第2頁(yè)](http://file4.renrendoc.com/view/2e5d39bd75efedca2b07a6c662112c19/2e5d39bd75efedca2b07a6c662112c192.gif)
![2.數(shù)理統(tǒng)計(jì)基本概念_第3頁(yè)](http://file4.renrendoc.com/view/2e5d39bd75efedca2b07a6c662112c19/2e5d39bd75efedca2b07a6c662112c193.gif)
![2.數(shù)理統(tǒng)計(jì)基本概念_第4頁(yè)](http://file4.renrendoc.com/view/2e5d39bd75efedca2b07a6c662112c19/2e5d39bd75efedca2b07a6c662112c194.gif)
![2.數(shù)理統(tǒng)計(jì)基本概念_第5頁(yè)](http://file4.renrendoc.com/view/2e5d39bd75efedca2b07a6c662112c19/2e5d39bd75efedca2b07a6c662112c195.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第部分:數(shù)理統(tǒng)計(jì)(Statistics) 數(shù)理統(tǒng)計(jì)基本概念、數(shù)據(jù)的整理和描述 統(tǒng)計(jì)量及其分布 估計(jì)理論 假設(shè)檢驗(yàn) 回歸分析1為什么要學(xué)習(xí)統(tǒng)計(jì)?在當(dāng)今這個(gè)信息時(shí)代,我們將隨時(shí)隨地成為信息的接收者,我們也隨時(shí)需要處理身邊和工作中的信息和數(shù)據(jù).如此眾多繁亂的信息,我們?cè)撊绾巍苯鑱?lái)一雙慧眼”,看個(gè)清楚明白呢?桑普拉斯說(shuō):統(tǒng)計(jì)分析讓一切假象原形畢露。但是,統(tǒng)計(jì)中也有不少陷阱,蹩腳的數(shù)據(jù)分析師總是披著統(tǒng)計(jì)的外衣有意或無(wú)意地制造假象,許多年前的一本著作How to lie with statistics就對(duì)此有過(guò)幽默而深刻的描述,最近出版了中譯本名為統(tǒng)計(jì)陷阱,達(dá)萊爾.哈夫著,廖穎林譯,有興趣的朋友不妨一睹為
2、快。對(duì)于任何一個(gè)成功的應(yīng)用項(xiàng)目來(lái)說(shuō),一個(gè)真正的統(tǒng)計(jì)學(xué)家和數(shù)據(jù)分析專家是必不可少的,他會(huì)指引你繞過(guò)礁石和旋渦,到達(dá)成功的彼岸。2幾個(gè)統(tǒng)計(jì)故事1.1936年美國(guó)雜志預(yù)測(cè)在總統(tǒng)大選中哪位候選人會(huì)勝出?2.中國(guó)知識(shí)分子的壽命比正常人壽命少10年?3.學(xué)歷越高,收入越多,上網(wǎng)時(shí)間越長(zhǎng)?31936年美國(guó)正從經(jīng)濟(jì)大恐慌中復(fù)蘇,全國(guó)仍有9百萬(wàn)人失業(yè)當(dāng)年的美國(guó)總統(tǒng)大選,由民主黨員羅斯福與共和黨員蘭登進(jìn)行角逐文學(xué)文摘(Literary Digest)雜志對(duì)結(jié)果進(jìn)行了調(diào)查預(yù)測(cè)他們根據(jù)當(dāng)時(shí)的電話號(hào)碼簿及該雜志訂戶俱樂(lè)部會(huì)員名單,郵寄1千萬(wàn)份問(wèn)卷調(diào)查表,回收約240萬(wàn)份工作人員獲得了大量的樣本,對(duì)此進(jìn)行了精確的計(jì)算,根
3、據(jù)數(shù)據(jù)的整理分析結(jié)果,他們斷言:在總統(tǒng)選舉中,蘭登將以370161的優(yōu)勢(shì),即以57%比43%,領(lǐng)先14個(gè)百分點(diǎn)擊敗羅斯福與之相反,一個(gè)名叫喬治蓋洛普的人,對(duì)文學(xué)文摘調(diào)查結(jié)果的可信度提出質(zhì)疑他也組織了抽樣調(diào)查,進(jìn)行民意測(cè)驗(yàn)他的預(yù)測(cè)與文學(xué)文摘截然相反,認(rèn)為羅斯福必勝無(wú)疑結(jié)果,羅斯福贏得了2770萬(wàn)張民眾選票,蘭登得到1600萬(wàn)張選票;羅斯福贏得了除緬因州、佛蒙特州以外48個(gè)州的民眾選票,獲得選舉團(tuán)523張選票的98強(qiáng),而蘭登的選票低于2(8張)最終,羅斯福以62%比38%壓倒性地大勝蘭登這一結(jié)果使文學(xué)文摘銷聲匿跡,而蓋洛普則名聲大噪41.數(shù)理統(tǒng)計(jì)基本概念總體(population):具有相同性質(zhì)的
4、個(gè)體組成的集合。無(wú)限總體(infinite population):總體中包含的個(gè)體數(shù)目有無(wú)窮多個(gè),這種總體稱為無(wú)限總體。5有限總體(finite population):總體中包含的個(gè)體數(shù)目有限,這種總體稱為有限總體。觀察值(observation):每一個(gè)體的某一個(gè)性狀、特性的測(cè)定數(shù)值叫做觀察值。參數(shù)(parameter):由總體的全部觀察值而算得的總體特征數(shù),如總體平均數(shù),稱為參數(shù)。6樣本(sample):從總體中抽出的一部分個(gè)體的集合。估計(jì)值(estimate):由樣本函數(shù)確定的總體相應(yīng)參數(shù)的函數(shù)值。隨機(jī)樣本(random sample):從總體中隨機(jī)抽取的樣本,滿足隨機(jī)性和等可能性。
5、樣本容量(sample size):樣本中包含的個(gè)體數(shù),用n表示。72.數(shù)據(jù)整理與描述2.1 數(shù)據(jù)資料的性質(zhì)與分類2.2 數(shù)據(jù)頻數(shù)或頻率分布表2.3 數(shù)據(jù)頻數(shù)或頻率分布圖82.1 數(shù)據(jù)資料的性質(zhì)與分類一、數(shù)量性狀資料數(shù)量性狀(quantitative trait)的度量有計(jì)數(shù)與量測(cè)兩種方式。1、不連續(xù)或間斷性變量(discontinuous or discrete variable):指用計(jì)數(shù)方法獲得的數(shù)據(jù)。2、連續(xù)性變量(continuous variable):指稱量、度量或測(cè)量方法得到的數(shù)據(jù)。9二、質(zhì)量性狀資料質(zhì)量性狀(qualitative trait):指能觀察而不能量測(cè)的性狀。1、
6、統(tǒng)計(jì)次數(shù)法2、給予每類性狀以相對(duì)數(shù)量的方法。102.2 數(shù)據(jù)頻數(shù)或頻率分布表一、間斷性變量資料的整理1、100個(gè)麥穗每穗小穗數(shù)的次數(shù)(頻數(shù))分布表1516171819206153225175112、200個(gè)稻穗每穗粒數(shù)的次數(shù)(頻數(shù))分布表次數(shù)(f)每穗粒數(shù)(y)合計(jì)313526303640414546505155566061656670717576808185311021324138251683220012二、連續(xù)性變量資料的整理對(duì)于此類情況,一般的處理步驟是:1、數(shù)據(jù)排序(sort)2、求極差(range) R=Max(1n)Min (1n)3、確定組數(shù)和組距(class interval)
7、組距R/組數(shù) 因而必須先確定組數(shù)。組數(shù)的確定,可參照以下的因素: (1)觀察值個(gè)數(shù)的多少;(2)極差的大??;(3)便于計(jì)算;(4)能反應(yīng)出資料的真實(shí)面貌。134、選定組限(class limit)和組中點(diǎn)值(組值,class value)首先選定第一組的中點(diǎn)值,這一點(diǎn)選定后,則該組組限確定,其余各組的中點(diǎn)值和組限也隨之確定。第一組的中點(diǎn)值以最接近最小觀察值為好,這樣可以避免第一組內(nèi)次數(shù)過(guò)多,能正確地反映資料的規(guī)律性。 每組有兩個(gè)組限,數(shù)值小的為下限(lower limit),數(shù)值大的為上限(upper limit)。5、觀察值按分組數(shù)列的各組組限歸組。14以140行水稻試驗(yàn)的產(chǎn)量為例,(數(shù)據(jù)略
8、。)其中極差:R25475179g 觀察值的個(gè)數(shù)為140,可分816組,假定分為12組,則組距179/1214.9,為方便起見(jiàn),組距定為15g。 數(shù)據(jù)分組頻數(shù)統(tǒng)計(jì)表如下:15140行水稻產(chǎn)量的頻數(shù)分布頻數(shù)(f)中點(diǎn)值(y)組限759010512013515016018019521022524025567.582.582.597.597.5112.5112.5127.5127.5142.5142.5157.5157.5172.5172.5187.5187.5202.5202.5217.5217.5232.5232.5247.5247.5262.52771317202521139321合計(jì)(n)1
9、4016三、屬性變量資料的整理把資料按各種質(zhì)量性狀進(jìn)行分類,分類數(shù)等于組數(shù),然后根據(jù)各個(gè)體在質(zhì)量屬性上的具體表現(xiàn),分別歸入相應(yīng)的組中,即可得到屬性分布的規(guī)律性認(rèn)識(shí)。下表是某水稻雜種二代植株米粒的分離情況:頻數(shù)(f)屬性分組(y)紅米非糯紅米糯稻白米非糯白米糯稻96373115合計(jì)(n)179172.3 數(shù)據(jù)頻數(shù)或頻率分布圖一、方柱形圖(直方圖)方柱形圖(histogram)適用于表示連續(xù)性變量的次數(shù)分布。橫軸為分組數(shù)列,縱軸為分布頻數(shù)。橫坐標(biāo)與縱坐標(biāo)的長(zhǎng)度要有合適的比例(一般為5:4或6:5為好),繪成的圖形才能明顯表明頻數(shù)分布情況。18140行水稻產(chǎn)量頻數(shù)分布方柱形圖fy(產(chǎn)量,g/行)19
10、二、多邊形圖多邊形圖(polygon),以每組中點(diǎn)值為橫坐標(biāo),以頻數(shù)為縱坐標(biāo)。20三、條形圖條形圖(bar diagram)適用于間斷性變量和屬性變量資料。一般橫坐標(biāo)表示間斷的中點(diǎn)值或分類性狀,縱坐標(biāo)表示頻數(shù)。21四、餅圖餅圖(pie diagram)適用于間斷性和屬性資料,用以表示這些變量中各種屬性或各種間斷性數(shù)據(jù)觀察值在總觀察值個(gè)數(shù)中的百分比。22利用Excel作圖 利用Excel可以方便的作出各種數(shù)據(jù)資料的分布圖形。233. 常用樣本特征3.1 平均數(shù)3.2 變異數(shù)243.1 平均數(shù)3.1.1 平均數(shù)的意義和種類3.1.2 算術(shù)平均數(shù)的計(jì)算方法3.1.3 算術(shù)平均數(shù)的重要特性3.1.4
11、總體平均數(shù)253.1.1 平均數(shù)的意義和種類一、平均數(shù)的意義平均數(shù)(average)是數(shù)據(jù)的代表性,表示資料中觀察值的中心位置,并且可以資料的代表而于另一組資料相比較,借以明確兩者之間相差的情況。二、平均數(shù)的種類1、算術(shù)平均數(shù)(arithmetic mean):一個(gè)數(shù)量資料中各個(gè)觀察值的總和除以觀察值的個(gè)數(shù)所得的商,記作262、中位數(shù)(median):將資料內(nèi)所有觀察值從大到小排列,居中間位置的觀察值稱為中位數(shù),記作Md例如: 1、2、3、4、5的中位數(shù)是3 1、2、3、4、5、6的中位數(shù)是: (3+4)/2=3.5273、眾數(shù)(mode):資料中最常見(jiàn)的一數(shù),或次數(shù)最多一組的中點(diǎn)值,稱為眾數(shù)
12、,記為Mo。例如:在資料23、24、23、22、23、25、20、23、中 Mo234、幾何平均數(shù)(geometric mean):n個(gè)觀察值,其乘積開(kāi)n次方,即為幾何平均數(shù),用G代表。283.1.2 算術(shù)平均數(shù)的計(jì)算方法1、直接以觀察值進(jìn)行計(jì)算2、若樣本較大,且已分組,可采用加權(quán)法計(jì)算算術(shù)平均數(shù),即以組中值代表該組出現(xiàn)的觀察值以計(jì)算平均數(shù)。293.1.3 算術(shù)平均數(shù)的重要特性1、樣本各觀察值與其平均數(shù)的差數(shù)(簡(jiǎn)稱離均差,deviation from mean)的總和為0。即:2、樣本各觀察值與其平均數(shù)的差數(shù)平方總和,較各個(gè)觀察值與任意其它數(shù)值的差數(shù)平方的總和為小,亦即離均差平方的總和最小。3
13、0算術(shù)平均數(shù)的局限性:算術(shù)平均數(shù)易于理解,計(jì)算簡(jiǎn)單,使用廣泛。但其局限性也是顯而易見(jiàn)的,所有數(shù)據(jù)必須確切知道,易受兩個(gè)極端值得影響。基于此,在某些場(chǎng)合,人們常常通過(guò)計(jì)算切尾均值來(lái)代替算術(shù)平均數(shù)。313.1.4 總體平均數(shù)總體平均數(shù)用來(lái)表示,其計(jì)算公式為:從公式中可以看出,除非是有限總體,否則總體平均數(shù)是無(wú)法通過(guò)計(jì)算得到的。323.2. 變異數(shù)3.2.1 極差3.2.2 方差3.2.3 標(biāo)準(zhǔn)差3.2.4 變異系數(shù)33 數(shù)據(jù)的代表值只是反映了數(shù)值資料的一個(gè)方面集中程度的特征,資料的另一方面和的特征是變異程度。請(qǐng)看下面的例子:A組資料:3、4、5、6、7 平均數(shù)為:5B組資料:1、3、5、7、9 平
14、均數(shù)仍為:5這里的平均數(shù)5對(duì)于A組資料的代表性好?還是對(duì)于B組資料的代表性好?34答案是十分清楚的??梢?jiàn),只表明了數(shù)據(jù)的集中程度是遠(yuǎn)遠(yuǎn)不夠的,還需要進(jìn)一步說(shuō)明數(shù)據(jù)的變異程度。只有通過(guò)變異程度的描述,才知道代表值的代表性。表示數(shù)據(jù)變異特征的數(shù)值叫變異數(shù)。常用的變異數(shù)有:極差、方差、標(biāo)準(zhǔn)差、變異系數(shù)等。353.2.1 極差極差(range),又稱全距,記為R,是資料中最大值與最小值之差。例如:A組資料的極差RA734B組資料的極差RB918極差的計(jì)算簡(jiǎn)單,但是它只是兩個(gè)極端數(shù)據(jù)決定的,沒(méi)有地方充分利用資料的全部信息,而且易于受到資料中不正常的極端值的影響。所以用它來(lái)代表整個(gè)樣本的變異度是有缺陷的。
15、363.2.2 方差由于算術(shù)平均數(shù)的可信度比較高,我們?cè)O(shè)想用觀察值與算術(shù)平均數(shù)之間的差異來(lái)度量一組觀察值的變異性,但是這又遇到 的困難。為了解決這一矛盾,將離差平方后再相加就不再為0。從這個(gè)式子知道 愈大,則資料的變異程度也就愈大。 稱為離差的平方和(簡(jiǎn)稱平方和),記為SS(Sum Of Square)。37樣本的平方和為總體的平方和為由于各個(gè)樣本所包含的觀察值數(shù)目不同,為便于比較,用觀察值數(shù)目除平方和,得到平均平方和,簡(jiǎn)稱均方(mean square)或方差(variance)。樣本均方用s2表示,定義為:它是總體方差(2)無(wú)偏估計(jì)值。383.2.3 標(biāo)準(zhǔn)差一、標(biāo)準(zhǔn)差的定義標(biāo)準(zhǔn)差是方差的正平方根值,用以表示資料的變異度,其單位與觀察值的度量單位相同。樣本標(biāo)準(zhǔn)差的計(jì)算公式為:總體標(biāo)準(zhǔn)差用表示:39二、自由度的意義自由度(degree of freedom)最早是一個(gè)物理學(xué)上的名詞,它表示一個(gè)質(zhì)點(diǎn)在空間運(yùn)動(dòng)的自由程度。統(tǒng)計(jì)學(xué)借此來(lái)反映一批變量的約束條件。 例如一個(gè)有5個(gè)觀察值的樣本,因?yàn)槭艿浇y(tǒng)計(jì)數(shù)的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 蘇教版一年級(jí)數(shù)學(xué)下冊(cè)期末復(fù)習(xí)口算練習(xí)題一
- 八年級(jí)數(shù)學(xué)下冊(cè)22.3特殊的平行四邊形5矩形和菱形聽(tīng)評(píng)課記錄滬教版五四制
- 五年級(jí)德育工作計(jì)劃
- 蘇教版二年級(jí)數(shù)學(xué)上冊(cè)期末復(fù)習(xí)口算練習(xí)題
- 企業(yè)人力資源管理咨詢項(xiàng)目合同范本
- 車棚搭建協(xié)議書范本
- 簽訂銷售合同范本
- 新建房屋租賃合同范本
- 2025年度餐飲商鋪品牌推廣租賃合同
- 二零二五年度離婚協(xié)議書凈身出戶模板:婚姻終結(jié)財(cái)產(chǎn)分割規(guī)范
- 事業(yè)單位公開(kāi)招聘工作人員考試題(公共基礎(chǔ)知識(shí)試題和答案)
- 低空飛行旅游觀光項(xiàng)目可行性實(shí)施報(bào)告
- 2024年版:煤礦用壓力罐設(shè)計(jì)與安裝合同
- 甲狀腺的科普宣教
- 《算法定價(jià)壟斷屬性問(wèn)題研究的國(guó)內(nèi)外文獻(xiàn)綜述》4200字
- 2024年04月浙江義烏農(nóng)商銀行春季招考筆試歷年參考題庫(kù)附帶答案詳解
- 涉密計(jì)算機(jī)保密培訓(xùn)
- 2024年浙江省五校聯(lián)盟高考地理聯(lián)考試卷(3月份)
- 在線心理健康咨詢行業(yè)現(xiàn)狀分析及未來(lái)三至五年行業(yè)發(fā)展報(bào)告
- 電動(dòng)三輪車購(gòu)銷合同
- 淋巴瘤的免疫靶向治療
評(píng)論
0/150
提交評(píng)論