數(shù)理統(tǒng)計在化學(xué)中應(yīng)用.ppt_第1頁
數(shù)理統(tǒng)計在化學(xué)中應(yīng)用.ppt_第2頁
數(shù)理統(tǒng)計在化學(xué)中應(yīng)用.ppt_第3頁
數(shù)理統(tǒng)計在化學(xué)中應(yīng)用.ppt_第4頁
數(shù)理統(tǒng)計在化學(xué)中應(yīng)用.ppt_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,數(shù)理統(tǒng)計方法在化學(xué)中的應(yīng)用,李振華 復(fù)旦大學(xué)化學(xué)系表面化學(xué)實驗室,講義,/teacher/lizh/lizh.htm,緒論,統(tǒng)計方法是一種用于收集、表示、分析和解釋通過觀察和實驗而得到的基本數(shù)據(jù)的方法,是人類認識自然和社會的重要手段。 上海股票市場收益率分布模型統(tǒng)計研究 在運用正態(tài)分布假設(shè)的GARCH模型來描述金融收益序列的條件分布時,正態(tài)分布假設(shè)常常被拒絕,人們用一些具有尖峰、厚尾特性的分布,如t分布、GED分 布來替代正態(tài)分布假設(shè),從而得到一系列GARCH模型的擴展形式,如GARCH-t模型、GARCH-GED模型等。本文依據(jù)嚴密的統(tǒng)計分析方法選擇了 GARCH-t(1,1)模型描述上證綜指對數(shù)收益率序列的分布。最后,根據(jù)各項模型檢驗結(jié)果說明,用GARCH-t(1,1)模型描述上證綜指收益率序 列是有充分理由的。 統(tǒng)計定價模型與股票投資決策2007年 第15期 ,作者: 高祥寶, 閆惠敏,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,3,韓寒代筆之爭,/448946/3.html 首先從邏輯角度講,方舟子應(yīng)該證明 P( A | F) 大于一個很大的值如95% 。這里 A是方的假設(shè), 比如 “三重門是韓父寫的”F是 所有可觀測的客觀事實的集合。這里方可以用兩種方法去證明 P(A|F) 95%. 第一種是找到一些列的獨立證據(jù) F1,F2, F3 每一個證據(jù) P(A|Fi) 都很大,比如他能找到證人證明什么時間,什么地點由什么證人看到了聽說了韓父代寫,或者手稿上的字跡能證明是韓父的。這些都是硬的證據(jù),方?jīng)]有。這沒有關(guān)系,方可以采用另外一種方法證明,那就是對于某一個事實Fk, 如果 P( Fk|a ) 很小,這里a是A的補集。(也就是a =”三重門是韓寒自己寫的“)那么通過貝耶斯公式反推P( A | F),如果P( Fk|a ) 足夠小,那么P( A | F)是可以大于95%的。 這種也是方一直在采用的方法,但使用這種方法的問題在于,根據(jù)公式,P ( A | F) = P(AF)/P(F) = ( P(F1|A)*P(F2|A)*P(Fn|A)*P(A) ) / (P(F1|A)*P(F2|A)*P(Fn|A)*P(A) + (P(F1|a)*P(F2|a)*P(Fn|a)*P(a) )也就是說,如果F由很多n個獨立的事實組成,那么,你如果只找到了個很小的P( Fk|a )是不能推斷P( A | F)很大的。也就是說,如果這里有100萬個事實,你找到了100個 令人質(zhì)疑的事實 根本沒用,除非你的那些令人質(zhì)疑的事實的概率極其小 。 這也就是我們金融領(lǐng)域常說的data mining. 也就是,在同一個sample里不停的用各種方法去找股票的規(guī)律,最后你總能找到“一些”的規(guī)律,比如,“每個月的第一天股價總是上升的”之類的。你用統(tǒng)計方法做假設(shè)檢驗, t-value都好高,但是沒用,因為你是先看到了Sample再做的檢驗。同理,方舟子把韓寒的資料不停的翻,不停的找,總能找出點什么異常的,但是這根本無法證明什么。除非方舟子可以做 out of sample test. 比如,方舟子用他的假設(shè)來推斷一些事實存在于他還沒看過的/不知道的韓寒的書,資料,或者事件,那才能算得上證據(jù)。不然的話,今天證明這個,明天證明那個,不過就是一個data mining 的游戲而已。,韓寒代筆之爭,/note/200344586/ 【例四】假設(shè)有一個要證明韓寒作品有代筆的實驗。 零假設(shè):韓寒作品沒有代筆 備擇假設(shè):韓寒作品有代筆 選擇顯著性水平=?(且預(yù)設(shè)檢驗力1-=?) 選擇樣本、收集數(shù)據(jù),計算p值。 若p,則無法拒絕零假設(shè)。,紅樓夢前80回與后40回作者之爭,早在 1980 年,在美國威斯康星大學(xué)召開的“首屆國際紅樓夢研討會”上,該校華裔學(xué)者陳炳藻教授首次報告了他在這方面的研究工作(見 4 , 5 ),此后還出版了專著(見 6 )。陳教授將紅樓夢 120 回分為三組,每組 40 回,并將兒女英雄傳作為對照組進行比較研究。他從每組中任取 8 萬字,挑出名詞、動詞、形容詞、副詞、虛詞這 5 種詞,然后運用統(tǒng)計學(xué)方法算出各組之間用詞的相關(guān)程度,結(jié)果發(fā)現(xiàn): 紅樓夢前 80 回與后 40 回所用詞匯的相關(guān)程度遠遠超過紅樓夢與兒女英雄傳所用詞匯的相關(guān)程度,并由此推斷:前 80 回與后 40 回均為曹雪芹一人所作。,紅樓夢前80回與后40回作者之爭,但是,我國華東師范大學(xué)陳大康教授得出了迥異的結(jié)論 (1987 , 7) 。他也把紅樓夢 120 回分成三組,每組 40 回,并統(tǒng)計了其中所含詞、字、句等 88 個項目。他發(fā)現(xiàn),這些詞在前兩組出現(xiàn)的規(guī)律相同,而與后 40 回卻不一致;關(guān)于用字特點和句式規(guī)律,前兩組也是驚人的吻合,而后 40 回則迥異。由此推斷:后 40 回非曹雪芹所作(但含有少量殘稿) 本文以數(shù)據(jù)分析為基礎(chǔ),以統(tǒng)計學(xué)中“兩個獨立二項總體的等價性檢驗”為基本方法,很清楚明確地證明:紅樓夢前 80 回與后 40 回在飲食與花卉的描寫上確實存在非常顯著的差異;在樹木的描寫上也存在明顯差異。不過,這種差異還不能說明紅樓夢前 80 回與后 40 回出自不同的作者。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,統(tǒng)計學(xué)是“對令人困惑費解的問題做出數(shù)字設(shè)想的藝術(shù)?!?-美國 David Freedman 統(tǒng)計學(xué)是一門處理數(shù)據(jù)中變異性的科學(xué)和藝術(shù)。 - John M.LastA Dictionary of Epidemiology 科學(xué)與藝術(shù)的不同在于不同的人處理相同的問題可能得到不同的結(jié)果,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,實驗化學(xué)的基礎(chǔ)是測量,實驗化學(xué)學(xué)科作為一門實驗科學(xué),一直被認為是有著很大欠缺的,那就是欠缺嚴格性、邏輯性以及精確性的理論。 測量具有隨機可變性、不確定性、模糊性。統(tǒng)計學(xué)可解決前兩種問題.,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,測量的重要性,在美國芝加哥大學(xué)社會科學(xué)研究館的正面,刻有這樣一段銘文:“假若你不能測量,你的知識就是貧乏和不能令人滿意的。” 實際上,這句話還應(yīng)該這樣來補充:“假如你只懂得測量,那么你對世界的認識將是可憐的。”,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,不能片面強調(diào)測量的精確性,長期以來,我們已習(xí)慣于把科學(xué)知識看成是許多確實無誤的陳述的集合,化學(xué)中同樣也是這樣,充斥著決定論。 片面地追求所謂精確性,其結(jié)果只能是將認識過程中的某一部分加以近似化、簡單化,最終常會走向形而上學(xué),乃至神秘主義。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,二.統(tǒng)計學(xué)的歷史及作用,統(tǒng)計學(xué)的歷史一般認為開始于十七世紀中葉,最初的統(tǒng)計學(xué)出現(xiàn)在德國和英國,被稱為古典統(tǒng)計學(xué)。統(tǒng)計學(xué)的發(fā)展史上曾形成過記述學(xué)派、政治算術(shù)學(xué)派、數(shù)理學(xué)派這三個主要學(xué)派。十九世紀中葉,數(shù)理學(xué)派的代表人物比利時科學(xué)家凱特勒(L.A.J. Quetelet)將概率論正式引進到統(tǒng)計學(xué)中之后,也就開始了數(shù)理統(tǒng)計學(xué)的發(fā)展時期。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,數(shù)理統(tǒng)計在科學(xué)研究中得到了極其廣泛的應(yīng)用,主要地是由于以下幾個原因: 窺一斑而知全豹:科學(xué)實驗的研究對象具體地只能是極小一部分樣品,研究的最后結(jié)果也只能是從這一小部分樣品的研究結(jié)果出發(fā)來作出統(tǒng)計推斷,也就是運用數(shù)理統(tǒng)計方法推斷出研究對象的全體來。 歸納規(guī)律:科學(xué)實驗中不可避免地會存在著大量隨機誤差的問題,要從這些隨機現(xiàn)象中去得出準確可靠的研究結(jié)果,這只能依賴于數(shù)理統(tǒng)計的方法和原理。 優(yōu)化和試驗設(shè)計:科學(xué)實驗經(jīng)常要進行各種條件試驗,諸如合成路線、配方設(shè)計、工藝條件、壽命試驗等等,這就需要運用統(tǒng)計的原理和方法來進行優(yōu)化和實驗設(shè)計。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,數(shù)理統(tǒng)計在科學(xué)研究中得到了極其廣泛的應(yīng)用,函數(shù)關(guān)系:科學(xué)實驗中總要研究各個變量之間的關(guān)系,并進而進行科學(xué)的預(yù)測和推斷,而這些是離不開數(shù)理統(tǒng)計方法的應(yīng)用的。 數(shù)據(jù)處理:隨著現(xiàn)代科學(xué)研究的發(fā)展,各種測量儀器的計算機化給我們帶來了“數(shù)據(jù)爆炸”,如何來處理這些大量的數(shù)據(jù),并要能從這些數(shù)據(jù)中獲取更多的甚至意想不到的信息,只有數(shù)學(xué)和統(tǒng)計學(xué)技術(shù)才能給我們以可靠的保證。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,三.統(tǒng)計方法在化學(xué)中應(yīng)用的意義,應(yīng)該說化學(xué)這一學(xué)科基本上還是一門實驗學(xué)科,因此化學(xué)工作者掌握數(shù)理統(tǒng)計的原理及其應(yīng)用的必要性和實際意義也就顯得尤為重要。只有正確地運用數(shù)理統(tǒng)計方法,才能夠幫助我們在化學(xué)實驗中,從表面雜亂無章的現(xiàn)象里去尋找出有意義的統(tǒng)計結(jié)論來;才能使我們能更有成效地進行各門化學(xué)領(lǐng)域中的科學(xué)研究,確??茖W(xué)研究取得可靠、準確的結(jié)果并進而得以發(fā)現(xiàn)客觀規(guī)律;才能使我們從大量的實驗數(shù)據(jù)、實驗資料中去揭示和獲取更多的化學(xué)信息。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,第一章 隨機變量和分布函數(shù),第一節(jié) 幾個基本的統(tǒng)計學(xué)概念 1-1 總體和樣本 1-2 隨機現(xiàn)象 1-3 隨機變量 離散型隨機變量 連續(xù)型隨機變量,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,第一章 第一節(jié),$1.1 總體和樣本 總體:滿足指定條件的眾多數(shù)據(jù)的集合 有限總體 無限總體 樣本:從總體中抽取一部分實測的個體或單位的集合 容量:樣本中含有個體的數(shù)目 樣品:組成樣本的每一單位或個體,樣本,總體,樣品,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,第一章 第一節(jié),$1.1.1 必然事件與隨機事件 必然事件:滿足一定條件后一定發(fā)生或一定不發(fā)生的事件 隨機事件:滿足一定條件后不一定發(fā)生的事件,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$1.1.2 頻率和概率(幾率),頻率:,概率:,0 P 1 必然事件: P = 1 不可能事件:P = 0,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,Table 硬幣投擲實驗,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,第一章 第一節(jié),$1.1.3 隨機變量 實驗中所可能出現(xiàn)的結(jié)果的量(X)。 離散型隨機變量 隨機變量的取值僅僅是有限個,或是可列的無窮多個。 連續(xù)型隨機變量 隨機變量的取值是充滿某一區(qū)間的,并且落在任一區(qū)間的概率也是確定的。 隨機變量所取的數(shù)值:x,$1.2 分布函數(shù),第二節(jié) 分布函數(shù) $1.2.1 分布函數(shù)的定義、類型和性質(zhì) $1.2.2 概率密度函數(shù),數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$1.2 分布函數(shù),$1.2.1 分布函數(shù)的定義、類型和性質(zhì) 累積分布函數(shù)(Cumulative Distribution Function, CDF): 設(shè)x是一任意實數(shù)或事件,X取得小等于x的數(shù)值,的概率為P(Xx), F(x) (= P(Xx) )就稱為隨機變量X的累積分布函數(shù),記為: F(x) = P(Xx),數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$1.2 分布函數(shù),$1.2.1 分布函數(shù)的定義、類型和性質(zhì) 對于任意實數(shù)x1, x2, 且x1 x2有, Px1xx2=Pxx2-Pxx1 = F(x2)-F(x1) 因此,若已知x的累積分布函數(shù),就可以知道x落在任一區(qū)間(x1, x2)上的概率,在這個意義上說,累積分布函數(shù)完整地描述了隨機變量的統(tǒng)計規(guī)律性。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$1.2.1,累積分布函數(shù)具有如下性質(zhì):,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,F(x)為增函數(shù),當x2 x1時,F(xiàn)(x2) F(x1) F(x)為右連續(xù),$1.2 分布函數(shù),$1.2.2 概率密度分布函數(shù)(Probability Density Function, PDF) 對于一維連續(xù)實隨機變量x,任何一個滿足下列條件的函數(shù)f(x)都可以被定義為其概率密度函數(shù):,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,顯然,$1.2.3 概率質(zhì)量函數(shù),概率質(zhì)量函數(shù)(Probability Mass Function, PMF): 是離散隨機變量在各特定取值上的概率 概率質(zhì)量函數(shù)和概率密度函數(shù)不同之處在于:概率密度函數(shù)是對連續(xù)隨機變量定義的,本身不是概率,只有對連續(xù)隨機變量的取值進行積分后才是概率。 離散隨機變量概率質(zhì)量函數(shù)的不連續(xù)性決定了其累積分布函數(shù)也不連續(xù)。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$1.2.4 平均值,期望值,偏差,方差,均值,期望值 平均值,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,X的期望值(expectation value),有時用來表示,如果x是連續(xù)型隨機變量:,$1.2.3 量度數(shù)據(jù)離散程度(dispersion)的統(tǒng)計量,極差 一組數(shù)據(jù)中最大值和最小值之差,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,平均絕對偏差,方差(Variance) 樣本方差,$1.2.3 量度數(shù)據(jù)離散程度的統(tǒng)計量,方差(Variance) 總體方差,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,標準差(Standard Deviation),相對標準差(Relative Standard Deviation),樣本方差 S2 是對總體方差2的無偏估計,$1.2.3 量度數(shù)據(jù)離散程度的統(tǒng)計量,連續(xù)性隨機變量的標準差,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$1.3 化學(xué)中常用的分布函數(shù),$1.3.1 二項式分布 $1.3.2 泊松分布 $1.3.3 麥克斯威爾分布,$1.3.1 二項式分布,每次試驗只有兩種可能結(jié)果而不受以前試驗結(jié)果影響的分布。其中一種事件的概率p,另一種的概率q(1-q)。 如果在n次獨立試驗下,求A出現(xiàn)次數(shù)x的概率分布,這一分布的概率質(zhì)量函數(shù)即為: P(x) = Cnx px qn-x (x = 0,1,2 n,0p1 ) 這個概率函數(shù)給出的分布就叫做二項式分布,即二項式(p+q)n的展開式。二項分布常用于軍事射擊和工業(yè)檢查中,在化學(xué)中可用于計算質(zhì)譜中同位素峰的強度比以及根據(jù)塔板理論推導(dǎo)氣液色譜的流出曲線。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,二項式分布,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,例1-2色譜的塔板理論,(一)塔板理論的四個基本假設(shè) 1在柱內(nèi)一小段高度內(nèi)組分分配瞬間達平衡(H理論塔板高度) 2載氣非連續(xù)而是間歇式(脈動式)進入色譜柱,每次進氣一個塔板體積 3樣品和載氣均加在第0號塔板上,且忽略樣品沿柱方向的縱向擴散 4分配系數(shù)在各塔板上是常數(shù) 根據(jù)塔板理論,待分離組分流出色譜柱時的濃度沿時間呈現(xiàn)二項式分布,當色譜柱的塔板數(shù)很高的時候,二項式分布趨于正態(tài)分布。,楊世鉞, 色譜法溶質(zhì)以二項式展開分布的簡明推導(dǎo), 化學(xué)通報, 1989, 02, 47-49.,例1-3,有一化學(xué)藥品的混合過程在正常情況下會有10%的可能混合不合格,今在一批藥品中抽驗8個樣品,發(fā)現(xiàn)有2個不合要求,檢驗員欲拒收整批藥品,試問這一決定是否正確?,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,解: P(x=2) = Cnx px qn-x = C82 0.12 0.910-2 = 0.149 計算表明,在總體合不格率為10%的情況下抽檢出兩個不合格的概率為14.9%,因此不應(yīng)拒收這批藥品。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$1.3.2 泊松分布,當某事件出現(xiàn)的概率很低(P1)時,二項分布就成為泊松分布。由法國數(shù)學(xué)家Poisson于1838年發(fā)表。 泊松分布適合于描述單位時間內(nèi)隨機事件發(fā)生的次數(shù)。如某一服務(wù)設(shè)施在一定時間內(nèi)到達的人數(shù),電話交換機接到呼叫的次數(shù),汽車站臺的候客人數(shù),機器出現(xiàn)的故障數(shù),自然災(zāi)害發(fā)生的次數(shù)等等。,泊松分布,泊松分布的概率質(zhì)量函數(shù)為: (x = 0,1,2,為參數(shù)) : 單位時間(或單位面積)內(nèi)隨機事件的平均發(fā)生數(shù) 性質(zhì): x的期望值等于方差即: = = 2:,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,PMF,CDF,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,例1-4 400ml微生物溶液中含微生物的濃度是0.5只/毫升,抽出1毫升,其中所含微生物的只數(shù)x服從什么分布?含3只及3只以上微生物的可能性有多少? 解:溶液中總共有微生物n = 0.5400 = 200只,每一只微生物落入抽檢的1毫升溶液中的概率p = 1/400,不落入的概率q = 399/400。如看有幾只微生物落入抽檢的1毫升溶液中就相當于一個n = 200時的獨立試驗?zāi)P停詘服從二項分布。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,由于 = np = 0.5比較小,可以用泊松分布來近似計算。 P(n3) = 1 - P(n3) = 1 - P(n=0) - P(n=1) - P(n=2) = 1 e-0.5 0.5e-0.5 0.52e-0.5 /2 = 1 - 0.6065 - 0.3033 - 0.0758 = 0.0144 因為概率很小,在0.5只/毫升條件下,抽檢1毫升是不大可能發(fā)現(xiàn)3只或3只以上的。如真抽到,就說明并不是這個濃度,而是大大超過了.,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$1.3.3 麥克斯威爾分布,直角坐標下速度的概率密度分布,球坐標下速度的概率密度分布,速率的概率密度分布,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,第二章 正態(tài)分布 $2.1 頻率和概率,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,圖2-1 測量數(shù)據(jù)的頻率密度直方圖。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,圖2-1 頻率密度分布逐漸接近正態(tài)分布示意,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$2.2 正態(tài)分布( 高斯分布)與正態(tài)曲線,假設(shè)在一定條件下,對某一個量x進行無限多次重復(fù)的等精度測量,得到一系列數(shù)據(jù)x1,x2, xn,則各測量值的頻數(shù)密度分布將會從鋸齒形圖(見直方形圖)轉(zhuǎn)變成為一條平滑的曲線,該曲線的分布就稱為正態(tài)分布。因為隨機誤差是服從正態(tài)分布的,所以正態(tài)分布又常稱為(隨機)誤差分布。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,正態(tài)分布的歷史,正態(tài)分布最早是棣莫佛在1734年發(fā)表的一篇關(guān)于二項分布文章中提出的。拉普拉斯在1812年發(fā)表的分析概率論中對棣莫佛的結(jié)論作了擴展。現(xiàn)在這一結(jié)論通常被稱為棣莫佛拉普拉斯定理。 拉普拉斯在誤差分析試驗中使用了正態(tài)分布。勒讓德于1805年引入最小二乘法這一重要方法;而高斯則宣稱他早在1794年就使用了該方法,并通過假設(shè)誤差服從正態(tài)分布給出了嚴格的證明。 正態(tài)分布這個名字還被Charles S. Peirce, Francis Galton, Wilhelm Lexis在1875分別獨立的使用。這個術(shù)語是不幸的,因為它反應(yīng)和鼓勵了一種謬誤,即很多概率分布都是正態(tài)的。 這個分布被稱為“正態(tài)”或者“高斯”正好是Stigler名字由來法則的一個例子,這個法則說“沒有科學(xué)發(fā)現(xiàn)是以它最初的發(fā)現(xiàn)者命名的”。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,中心極限定理 數(shù)學(xué)家們對正態(tài)分布曲線做了將近有300年的研究,證明了當每次測量都受到很多微小隨機因素的影響時,測量的總誤差就具有正態(tài)分布,當然對于這種斷定不應(yīng)在沒有證據(jù)的情況下就予以接受。 統(tǒng)計學(xué)告訴我們,只要測量的次數(shù)n足夠多,樣本平均值的分布總可服從正態(tài)分布,而不論它原來是什么分布。這就是中心極限定理。 中心極限定理的重要意義在于,根據(jù)這一定理的結(jié)論,其他概率分布可以用正態(tài)分布作為近似。,二項式,泊松,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,智商分布曲線,IQ test: http:/www.iqtest.dk/main.swf,IQ,Richard Herrnstein and Charles Murray The Bell Curve (1994) 智商70%左右來源于遺傳,和環(huán)境關(guān)系不大 Leon J. Kamin (1927-) Now: Indiana University Chairman (1968): Department of Psychology at Princeton University The Science and Politics of IQ (1974),IQ and Race,In his 2006 book Race Differences in Intelligence Lynn adopted the ten-category classification scheme of human genetic variation introduced in The History and Geography of Human Genes by Luigi Cavalli-Sforza and colleagues. Lynn argues that mean IQ varies by genetic clusters, or “race“. According to his calculations, the East Asian cluster (Chinese, Japanese and Koreans) has the highest mean IQ at 105, followed by Europeans (100), Inuit-Eskimos (91), South East Asians (87), Native American Indians (87), Pacific Islanders (85), South Asians & North Africans (84), sub-Saharan Africans (67), Australian Aborigines (62), and Kalahari Bushmen & Congo Pygmies (54).360,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,正態(tài)分布:通常用N(,2)來表示總體平均值(期望值)為 ,方差為2的正態(tài)分布。 正態(tài)分布概率密度函數(shù)(PDF) f(x)又叫正態(tài)分布曲線,由下式來表示:,.,,,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,累積概率分布函數(shù)(CDF),數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$2.2.3 正態(tài)分布的性質(zhì),從圖2-3 可以看到,正態(tài)曲線的形狀是由決定的,而決定曲線的位置。,累積分布函數(shù)(CDF),數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,68,95,99,2,3,2,3,f(x),x,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$2.3 標準正態(tài)分布和概率的計算,討論正態(tài)分布曲線 令u = (x-)/,則,記當=0; 2=1時的正態(tài)分布,稱為標準正態(tài)分布,記為N(0,1),數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,$2.3 標準正態(tài)分布和概率的計算,因此:,u = (x-)/,du = dx/,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,正態(tài)分布表:,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,第三節(jié) 概率的計算 例2-2 設(shè)隨機變量X服從N(, 2),試計算下列范圍中的概率 (1) (-, +); (2) (-2, +2); (3) (-3, +3);,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,例2-3根據(jù)資料,30-40歲男子血清膽固醇值(mmol/l)極近正態(tài)分布N(4.72,0.77), 試求:該年齡健康男子血清膽固醇值(1)大于6.20的概率;(2)大于4.00且小于5.50的概率。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,第四節(jié) 和正態(tài)分布有關(guān)的一些樣本分布,自由度,統(tǒng)計學(xué)上的自由度(degree of freedom, df),是指當以樣本的統(tǒng)計量來估計總體的參數(shù)時, 樣本中獨立或能自由變化的資料的個數(shù),稱為該統(tǒng)計量的自由度。這里我們用k或v來表示。 例如,在估計總體的平均數(shù)時,樣本中的k個數(shù)全部加起來, 其中任何一個數(shù)都和其他資料相獨立,從其中抽出任何一個數(shù)都不影響其他資料(這也是隨機抽樣所要求的)。 因此一組資料中每一個資料都是獨立的,所以自由度就是估計總體參數(shù)時獨立資料的數(shù)目,而平均數(shù)是根據(jù)k個獨立資料來估計的,因此自由度為k。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,學(xué)生t-分布(Students t-distribution),實際工作中,難以做到測量無限多的樣本。在小樣本的情況下,未知,如果用測定樣本所得到的標準偏差S來代替,此時測量值及其偏差就不再符合正態(tài)分布了。 1908年,英國統(tǒng)計學(xué)家W.S. Gosset證明了:在未知而以樣本的標準差S去代替時,此時遵守的將是t-分布。 若x1,x2, xn是由服從正態(tài)分布的總體中隨機抽取的樣本值,,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,那么統(tǒng)計量,如果知道總體平均值,即期望值,和標準差,則可定義:,t-分布的幾率密度分布函數(shù),v是自由度 注意:對于一個容量是n的樣本,其v=n-1。,數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,t-分布的概率密度函數(shù)(PDF),數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,t-分布的累積分布函數(shù)(CDF),數(shù)理統(tǒng)計在化學(xué)中的應(yīng)用,t-分布的應(yīng)用t檢驗(Students t-test),學(xué)生t分布應(yīng)用在當對呈正態(tài)分布的母群體(總體)的均值進行估計。它是對兩個樣本均值差異進行顯著性測試的學(xué)生t檢驗的基礎(chǔ)。t檢驗改進了Z檢驗(Z-test),不論樣本數(shù)量大或小皆可應(yīng)用。在樣本數(shù)量大(超過120等)時,可以應(yīng)用Z檢驗,但Z檢驗用在小的樣本會

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論