數(shù)據(jù)挖掘中的統(tǒng)計(jì)學(xué)_第1頁(yè)
數(shù)據(jù)挖掘中的統(tǒng)計(jì)學(xué)_第2頁(yè)
數(shù)據(jù)挖掘中的統(tǒng)計(jì)學(xué)_第3頁(yè)
數(shù)據(jù)挖掘中的統(tǒng)計(jì)學(xué)_第4頁(yè)
數(shù)據(jù)挖掘中的統(tǒng)計(jì)學(xué)_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘中的統(tǒng)計(jì)學(xué),參考資料: Wiki:統(tǒng)計(jì)學(xué) 研究者July的CSDN,蝸牛向前沖 2013年6月2日星期日,綱要,2013-06-02 Sunday,2,概率論,2013-06-02 Sunday,3,條件概率,定義: 在同一個(gè)樣本空間中的事件A、B,如果從中隨機(jī)選出的一個(gè)元素屬于B,那么這個(gè)隨機(jī)選出的元素也屬于A的概率就定義為B條件下A發(fā)生的條件概率,即為 P(A|B)=|AB|/|B| 分子、分母同除以|,得到條件概率的公式: P(A|B)=P(AB)/P(B) 亦稱為后驗(yàn)概率。 P(A|B)與P(B|A)的關(guān)系為: P(A|B)P(B)= P(B|A)P(A),2013-06-02

2、 Sunday,4,全概率公式,2013-06-02 Sunday,5,貝葉斯公式,2013-06-02 Sunday,6,貝葉斯公式,正概率是由原因推結(jié)果(現(xiàn)在推未來(lái)),稱為概率論 某藥廠用從甲、乙、丙三地收購(gòu)而來(lái)的藥材加工生產(chǎn)出一種中成藥,三地的供貨量分別占40%,35%和25%,且用這三地的藥材能生產(chǎn)出優(yōu)等品的概率分別為0.65,0.70和0.85,求從該廠產(chǎn)品中任意取出一件成品是優(yōu)等品的概率。(0.7175),逆概率是由結(jié)果推原因(現(xiàn)在推過(guò)去),稱為數(shù)理統(tǒng)計(jì) 如果一件產(chǎn)品是優(yōu)質(zhì)品,它的材料來(lái)自甲地的概率有多大呢?(0.3624),2013-06-02 Sunday,7,離散型隨機(jī)變量,

3、2013-06-02 Sunday,8,連續(xù)型隨機(jī)變量,2013-06-02 Sunday,9,連續(xù)型隨機(jī)變量,2013-06-02 Sunday,10,連續(xù)型隨機(jī)變量,圖片來(lái)源:大嘴巴漫談數(shù)據(jù)挖掘,2013-06-02 Sunday,11,概率論總結(jié),圖片來(lái)源:概率論與數(shù)理統(tǒng)計(jì)盛驟版,2013-06-02 Sunday,12,概率論總結(jié),圖片來(lái)源:概率論與數(shù)理統(tǒng)計(jì)盛驟版,2013-06-02 Sunday,13,數(shù)理統(tǒng)計(jì),2013-06-02 Sunday,14,數(shù)學(xué)期望Mathematical Expectation,隨機(jī)變量X的期望值vs樣本均值 積分的本質(zhì)亦是求和,例:擲色子一次,期望

4、值為3.5,2013-06-02 Sunday,15,方差Variance,方差:變量距其期望值的距離;亦稱為二階矩,2013-06-02 Sunday,16,協(xié)方差Covariance,協(xié)方差:Cov(X,Y) Cov(X,Y)=E = - 其中, =, = 用于衡量?jī)蓚€(gè)變量間的總體誤差;,協(xié)方差矩陣 兩個(gè)向量的協(xié)方差cov(X,Y)和cov(Y,X)互為轉(zhuǎn)置矩陣,2013-06-02 Sunday,17,相關(guān)系數(shù)Correlation Coefficient,相關(guān)系數(shù): XY 相關(guān)系數(shù)用于衡量變量的相關(guān)程度,取值范圍為 1,1 計(jì)算:將每個(gè)變量轉(zhuǎn)化為標(biāo)準(zhǔn)單位,成績(jī)的平均數(shù)即為相關(guān)系數(shù); 幾

5、何特征:向量的夾角的余弦函數(shù); 如x= (1, 2, 3, 5, 8) 、y= (0.11, 0.12, 0.13, 0.15, 0.18),得,相關(guān)距離: =1- XY,2013-06-02 Sunday,18,相關(guān)系數(shù)Correlation Coefficient,2013-06-02 Sunday,19,主成分分析Principal Component Analysis,又稱主分量分析,PCA 指將多個(gè)變量通過(guò)線性變換以選出較少個(gè)數(shù)重要變量的方法,在減少數(shù)據(jù)集維數(shù)的同時(shí),保持?jǐn)?shù)據(jù)集的對(duì)方差貢獻(xiàn)最大的特征。 PCA的目的是使變換后的數(shù)據(jù)有最大的方差,這些性質(zhì)不同于普通模型為求穩(wěn)定性往往會(huì)減

6、小方差; 主要方法:對(duì)協(xié)方差矩陣進(jìn)行特征分解,得出數(shù)據(jù)的主成分(特征向量)和權(quán)值(特征值) 步驟: 數(shù)據(jù)標(biāo)準(zhǔn)化; 求特征協(xié)方差矩陣; 通過(guò)正交變換使非對(duì)角線的元素為0,求得特征值和特征向量; 對(duì)特征值降序排列,取最大k個(gè)組成特征向量矩陣; 投影矩陣=原始樣本數(shù)據(jù)特征向量矩陣;(理論依據(jù)為SVD),2013-06-02 Sunday,20,中心極限定理,中心極限定理: 設(shè) 1 , 2 獨(dú)立變量序列,其數(shù)學(xué)期望與方差存在,則前n個(gè)變量和的標(biāo)準(zhǔn)化變量 = =1 =1 ( ) =1 ( ) ,對(duì)xR,有,獨(dú)立變量和,則稱該獨(dú)立變量序列服從中心極限定理 此定理表明,當(dāng)n充分大時(shí), 近似服從N(0,1)分

7、布: =1 ( =1 ( ), =1 ( ),2013-06-02 Sunday,21,中心極限定理,林德伯格-列維中心極限定理: 設(shè) 1 , 2 獨(dú)立同分布,E( )=,D( )= 2 ,i=1,2 則前n個(gè)變量和的標(biāo)準(zhǔn)化變量 = =1 ( =1 ) ( =1 ) = =1 = / ,對(duì)xR,有,此定理表明,當(dāng)n充分大時(shí), 近似服從N(0,1)分布: =1 (, 2 ),獨(dú)立同分布變量和,進(jìn)一步,即便 1 , 2 并不獨(dú)立,也不具有相同的概率分布形式,很多時(shí)候求和的最終歸宿仍為正態(tài)分布。,2013-06-02 Sunday,22,中心極限定理,棣莫弗-拉普拉斯中心極限定理:林列定理的特例 設(shè)

8、 為n重伯努利試驗(yàn)中事件A發(fā)生的次數(shù),P(A)=p(0p1), 標(biāo)準(zhǔn)化變量 = (1) ,對(duì)xR,,獨(dú)立同分布,此定理表明,當(dāng)n充分大時(shí), 近似服從N(0,1)分布: (,(1),2013-06-02 Sunday,23,中心極限定理,林德伯格-費(fèi)勒中心極限定理 設(shè)隨機(jī)變量序列 獨(dú)立但不一定同分布,它們具有有限的數(shù)學(xué)期望和方差E( )=,D( )= 2 0,i=1,2n,則前n個(gè)變量和 = =1 ,記 2 =D( ), 2 = =1 2 =( ) ,對(duì)0,若序列滿足林德伯格條件:,則稱該序列趨向于正態(tài)分布,即 / N(0,1),獨(dú)立變量,2013-06-02 Sunday,24,2分布、t分布

9、、F分布,在正態(tài)分布、中心極限定理確立之下,20世紀(jì)后2分布、t分布、F分布也出現(xiàn)了,2013-06-02 Sunday,25,正態(tài)分布簡(jiǎn)史,2013-06-02 Sunday,26,正態(tài)分布簡(jiǎn)史,17世紀(jì),惠更斯(1629-1695)研究賭博時(shí)創(chuàng)立數(shù)學(xué)期望; 18世紀(jì),伯努利(1667-1748)伯努利大數(shù)定律:事件發(fā)生的頻率依概率收斂于事件的概率;1909年由伯萊爾證明; 18世紀(jì),棣莫弗(1667-1754)二項(xiàng)概率逼近:用二項(xiàng)分布逼近正態(tài)分布,并提出了中心極限定理; 18世紀(jì),拉普拉斯(1749-1827)建立了中心極限定理的一般形式; 19世紀(jì),勒讓德(1752-1833)發(fā)明最小二

10、乘法; 19世紀(jì),高斯(1777-1855)正態(tài)誤差理論(以下有詳解); 19世紀(jì),拉普拉斯在高斯研究的基礎(chǔ)上,用中心極限定理論證了正態(tài)分布(高斯分布); 19世紀(jì),海根提出元誤差學(xué)說(shuō),逐步正式確立誤差服從正態(tài)分布。,2013-06-02 Sunday,27,誤差計(jì)算,最小二乘法:目的是使誤差最小 觀測(cè)中有誤差,所有方程的累積誤差度量方法為:累積誤差= (觀測(cè)值理論值) 2 ,使得該累積誤差最小的方法稱為最小二乘法。 對(duì)于y=ax+b,,以及一系列觀測(cè)值( , ),確定a、b;記,2013-06-02 Sunday,28,誤差計(jì)算,誤差曲線:目的是尋找誤差分布規(guī)律 18世紀(jì),辛普森(1710-

11、1761),設(shè)誤差為 = ,用算術(shù)平均值來(lái)估計(jì)得誤差分布函數(shù)為 = =1 ; 18世紀(jì),拉普拉斯(1749-1827),拉普拉斯分布。設(shè)誤差分布函數(shù)滿足 = ,解得誤差分布函數(shù)為f = 2 | ;,2013-06-02 Sunday,29,中英文對(duì)照,2013-06-02 Sunday,30,中英文對(duì)照-概率分布,Probability Theory:概率論 Mathematical Statistics:數(shù)理統(tǒng)計(jì) Sample Space:樣本空間 Random Occurrence:隨機(jī)事件 Fundamental event:基本事件 Certain event :必然事件 Imposs

12、ible event :不可能事件 Random Variable:隨機(jī)變量 Discrete Random Variable:離散型 Continuous Random Variable:連續(xù)型 Bayess Formula:貝葉斯公式 Probability Distribution:概率分布 Distribution Function:分布函數(shù) Distribution Law:分布律 Probability Density:概率密度 Conditional Distribution:條件分布,Uniformly Distribution:均勻分布 Binomial Distributi

13、on:二項(xiàng)分布 Bernoulli Distribution:伯努利分布 Geometric Distribution:幾何分布 Poisson Distribution:泊松分布 Exponentital Distribution:指數(shù)分布 Mathematical Expectation:數(shù)學(xué)期望 Variance:方差 Covariance:協(xié)方差 Correlation Coefficient:相關(guān)系數(shù) Normal Distribution:正態(tài)分布 Central Limit Therem:中心極限定理 Chebyshevs Inequality:切比雪夫不等式 Principal

14、 Component Analysis:主成分分析,2013-06-02 Sunday,31,中英文對(duì)照-集中趨勢(shì),Mean:均值 Quadratic Mean:平方平均數(shù)(RMS), 常用來(lái)計(jì)算一組數(shù)據(jù)和某個(gè)數(shù)據(jù)的“平均差” Arithmetic Mean:算術(shù)平均數(shù)( ), 較中位數(shù)、眾數(shù)更少受隨機(jī)因素影響, 缺點(diǎn)是它更容易受到極端值影響 Geometric Mean:幾何平均數(shù)(G), 適用于對(duì)比率數(shù)據(jù)的平均,并主要用于計(jì)算數(shù)據(jù)平均增長(zhǎng)(變化)率 Harmonic Mean:調(diào)和平均數(shù)(H), 適用于計(jì)算平均速率,如電阻并聯(lián) 調(diào)和平均數(shù)幾何平均數(shù)算術(shù)平均數(shù)平方平均數(shù) Median:中位數(shù)

15、,排序后取中間值 Mode:眾數(shù),出現(xiàn)次數(shù)的變量值,用于分類數(shù)據(jù);,2013-06-02 Sunday,32,中英文對(duì)照-離散程度,Range:全距,最大值與最小值的差值() Standard Deviation:標(biāo)準(zhǔn)差(),樣本的標(biāo)準(zhǔn)差(s):樣本方差是對(duì)總體方差的無(wú)偏估計(jì), 因約束條件 =1 ( ) =0,得( )的自由度為n-1,Variance:方差,亦稱二階矩( 2 ) 標(biāo)準(zhǔn)差的單位和樣本數(shù)據(jù)一致,方差則不同; 二者均常用,如(, 2 )、3,+3,方便起見,二者同時(shí)存在,總體的標(biāo)準(zhǔn)差() :,定義:如右圖所示,可理解為一個(gè)從n維空間的 一個(gè)點(diǎn)( 1 , 2 )到一條直線的距離函數(shù),

16、2013-06-02 Sunday,33,中英文對(duì)照-離散程度,Coefficient of Variable:變異系數(shù)( ),標(biāo)準(zhǔn)離差率 相比標(biāo)準(zhǔn)差,變異系數(shù)無(wú)需參考數(shù)據(jù)的平均值,且是一個(gè)無(wú)量綱量,故在比較兩組量綱不同或平均值不同的數(shù)據(jù),應(yīng)該用變異系數(shù); 平均值接近0時(shí),微小擾動(dòng)會(huì)造成其較大波動(dòng); 常用于更新理論、排隊(duì)理論、可靠性理論,InterQuartile Range:四分差,四分位距,(IQR) 描述第一四分位數(shù)( 1 )和第三四分位數(shù)( 3 )的差值 與方差、標(biāo)準(zhǔn)差一樣表示變量的離散程度,但其為Robust統(tǒng)計(jì) 如序列1,2,11,其中 1 =3, 3 =9, 2 =6為中位數(shù);IQR=9-3=6 其算術(shù)平均值為6,標(biāo)準(zhǔn)差為 110 ,幾何平均數(shù)約為4.91,全距為10,Quartile:四分位數(shù), 1 、 2 、 3 如序列1,2,3,4,其中 1 、 2 、 3 分別為1.5、2.5、3.5,2013-06-02 Sunday,34,中英文對(duì)照-分布形態(tài),Skewness:偏度( ) 衡量統(tǒng)計(jì)數(shù)據(jù)分布偏斜方向和程度的量,描述分布的非對(duì)稱程度; 0,正偏態(tài),右偏態(tài),右側(cè)尾部更長(zhǎng),算術(shù)平均數(shù)中位數(shù)眾數(shù);

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論