數(shù)據(jù)挖掘中的統(tǒng)計學_第1頁
數(shù)據(jù)挖掘中的統(tǒng)計學_第2頁
數(shù)據(jù)挖掘中的統(tǒng)計學_第3頁
數(shù)據(jù)挖掘中的統(tǒng)計學_第4頁
數(shù)據(jù)挖掘中的統(tǒng)計學_第5頁
已閱讀5頁,還剩31頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、參考資料:Wiki:統(tǒng)計學研究者July的CSDN蝸牛向前沖2013年6月2日星期日概率論 條件概率 全概率 貝葉斯公式 離散型隨機變量 連續(xù)型隨機變量 概率論總結數(shù)理統(tǒng)計 數(shù)學期望 方差 協(xié)方差 相關系數(shù) 主成分分析 中心極限定理 2分布、t分布、F分布正態(tài)分布簡史 正態(tài)分布簡史 誤差計算中英文對照 概率分布 集中趨勢 離散程度 分布形態(tài)2013-06-02 Sunday2條件概率全概率貝葉斯公式離散型隨機變量連續(xù)型隨機變量概率論總結2013-06-02 Sunday3定義:在同一個樣本空間中的事件A、B,如果從中隨機選出的一個元素屬于B,那么這個隨機選出的元素也屬于A的概率就定義為B條件下

2、A發(fā)生的條件概率,即為P(A|B)=|AB|/|B|分子、分母同除以|,得到條件概率的公式:P(A|B)=P(AB)/P(B)亦稱為后驗概率。P(A|B)與P(B|A)的關系為:P(A|B)P(B)= P(B|A)P(A)2013-06-02 Sunday42013-06-02 Sunday52013-06-02 Sunday6正概率是由原因推結果(現(xiàn)在推未來),稱為概率論某藥廠用從甲、乙、丙三地收購而來的藥材加工生產出一種中成藥,三地的供貨量分別占40%,35%和25%,且用這三地的藥材能生產出優(yōu)等品的概率分別為0.65,0.70和0.85,求從該廠產品中任意取出一件成品是優(yōu)等品的概率。(0

3、.7175)逆概率是由結果推原因(現(xiàn)在推過去),稱為數(shù)理統(tǒng)計如果一件產品是優(yōu)質品,它的材料來自甲地的概率有多大呢?(0.3624)2013-06-02 Sunday72013-06-02 Sunday82013-06-02 Sunday92013-06-02 Sunday10圖片來源:大嘴巴漫談數(shù)據(jù)挖掘2013-06-02 Sunday11圖片來源:概率論與數(shù)理統(tǒng)計盛驟版2013-06-02 Sunday12圖片來源:概率論與數(shù)理統(tǒng)計盛驟版2013-06-02 Sunday13數(shù)學期望方差協(xié)方差相關系數(shù)主成分分析中心極限定理2分布、t分布、F分布2013-06-02 Sunday14隨機變量X

4、的期望值vs樣本均值積分的本質亦是求和 E XXiiix pExf x dx例:擲色子一次,期望值為3.52013-06-02 Sunday15方差:變量距其期望值的距離;亦稱為二階矩222()()D XVar XEXE XE XE X2013-06-02 Sunday16協(xié)方差矩陣兩個向量的協(xié)方差cov(X,Y)和cov(Y,X)互為轉置矩陣2013-06-02 Sunday17而實際上,上述數(shù)據(jù)的函數(shù)關系為y=0.10+0.01x;E(x)=3.8,E(y)=0.138,x-E(x)、y-E(y)得x= (2.8, 1.8, 0.8, 1.2, 4.2)、 y=(0.028, 0.018,

5、 0.008, 0.012, 0.042),得皮爾遜相關系數(shù)2013-06-02 Sunday182013-06-02 Sunday19又稱主分量分析,PCA指將多個變量通過線性變換以選出較少個數(shù)重要變量的方法,在減少數(shù)據(jù)集維數(shù)的同時,保持數(shù)據(jù)集的對方差貢獻最大的特征。 PCA的目的是使變換后的數(shù)據(jù)有最大的方差,這些性質不同于普通模型為求穩(wěn)定性往往會減小方差;主要方法:對協(xié)方差矩陣進行特征分解,得出數(shù)據(jù)的主成分(特征向量)和權值(特征值)步驟:1.數(shù)據(jù)標準化;2.求特征協(xié)方差矩陣;3.通過正交變換使非對角線的元素為0,求得特征值和特征向量;4.對特征值降序排列,取最大k個組成特征向量矩陣;5.

6、投影矩陣=原始樣本數(shù)據(jù)特征向量矩陣;(理論依據(jù)為SVD)2013-06-02 Sunday20獨立變量和2013-06-02 Sunday21獨立同分布變量和2013-06-02 Sunday22此定理表明:二項分布的極限是正態(tài)分布;二項分布是離散分布,正態(tài)分布是連續(xù)分布n重伯努利試驗在出現(xiàn)第r個A前A不出現(xiàn)的試驗次數(shù)的概率分布為負二項分布,又稱帕斯卡分布。獨立同分布2013-06-02 Sunday23若序列滿足李雅普若夫條件:獨立變量2013-06-02 Sunday24在正態(tài)分布、中心極限定理確立之下,20世紀后2分布、t分布、F分布也出現(xiàn)了2013-06-02 Sunday25正態(tài)分布

7、簡史誤差計算2013-06-02 Sunday2617世紀,惠更斯(1629-1695)研究賭博時創(chuàng)立數(shù)學期望;18世紀,伯努利(1667-1748)伯努利大數(shù)定律:事件發(fā)生的頻率依概率收斂于事件的概率;1909年由伯萊爾證明;18世紀,棣莫弗(1667-1754)二項概率逼近:用二項分布逼近正態(tài)分布,并提出了中心極限定理;18世紀,拉普拉斯(1749-1827)建立了中心極限定理的一般形式;19世紀,勒讓德(1752-1833)發(fā)明最小二乘法;19世紀,高斯(1777-1855)正態(tài)誤差理論(以下有詳解);19世紀,拉普拉斯在高斯研究的基礎上,用中心極限定理論證了正態(tài)分布(高斯分布);19世

8、紀,海根提出元誤差學說,逐步正式確立誤差服從正態(tài)分布。2013-06-02 Sunday27即可解得系數(shù)a、b。2013-06-02 Sunday282013-06-02 Sunday29概率分布集中趨勢離散程度分布形態(tài)2013-06-02 Sunday30Probability Theory:概率論Mathematical Statistics:數(shù)理統(tǒng)計Sample Space:樣本空間Random Occurrence:隨機事件Fundamental event:基本事件Certain event :必然事件Impossible event :不可能事件Random Variable:隨機

9、變量Discrete Random Variable:離散型Continuous Random Variable:連續(xù)型Bayess Formula:貝葉斯公式Probability Distribution:概率分布Distribution Function:分布函數(shù)Distribution Law:分布律Probability Density:概率密度Conditional Distribution:條件分布Uniformly Distribution:均勻分布Binomial Distribution:二項分布Bernoulli Distribution:伯努利分布Geometric Distribution:幾何分布Poisson Distribution:泊松分布Exponentital Distribution:指數(shù)分布Mathematical Expectation:數(shù)學期望Variance:方差Covariance:協(xié)方差Correlation Coefficient:相關系數(shù)Normal Distribution:正態(tài)分布Central Limit Therem:中心極限定理Chebyshevs Inequality:切比雪夫不等式Principal Component Analysis:主成分分析2013-06-02 Sunda

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論