數(shù)據(jù)挖掘的統(tǒng)計限制_第1頁
數(shù)據(jù)挖掘的統(tǒng)計限制_第2頁
數(shù)據(jù)挖掘的統(tǒng)計限制_第3頁
數(shù)據(jù)挖掘的統(tǒng)計限制_第4頁
數(shù)據(jù)挖掘的統(tǒng)計限制_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

第二節(jié)數(shù)據(jù)挖掘的統(tǒng)計限制一、整體情報預警二、邦弗朗尼原理三、邦弗朗尼原理的例子1、事件:

2002年,美國布什政府提出了針對所有可獲得的數(shù)據(jù)進行挖掘的計劃,目的用于追蹤恐怖活動。這些數(shù)據(jù)包括信用卡收據(jù)、酒店記錄、旅行數(shù)據(jù)以及許多其他類型的情報。一、整體情報預警Totalinformationawareness(TIA)2、缺陷:

尋找了許多關聯(lián)模糊的數(shù)據(jù),顯然會得出虛假的結果因此侵犯無辜者的隱私。

①通過瀏覽大量的數(shù)據(jù),并想從中發(fā)現(xiàn)疑似的恐怖行為,是否會找出很多無辜行為。

②是否會找出雖然非法但不是恐怖行為的行為。

③這些最終結果的發(fā)現(xiàn)是否會導致警察登門造訪甚至更糟糕的情形。二、邦弗朗尼原理1、非正式闡述:可幫助我們避免將隨機出現(xiàn)看成真正出現(xiàn)。

假定人們有一定量的數(shù)據(jù)并期望從中找到某個特定類型的事件。即使數(shù)據(jù)完全隨機,也可以期望該類型事件發(fā)生。任何隨機數(shù)據(jù)往往都會有一些不同尋常的特征,這些特征看上去雖然很重要,但實際上并不重要,除此之外,別無他由,這個意義上而言,這些事件的出現(xiàn)純屬“臆造”。

在數(shù)據(jù)隨機性假設的基礎上,可以計算所尋找事件出現(xiàn)次數(shù)的期望值。如果該結果顯著高于你所希望找到的真正實例的數(shù)目,那么可以預期,尋找到的幾乎任何事物都是臆造的,也就是說,他們是在統(tǒng)計上出現(xiàn)的假象,而不是你所尋找事件的憑證。二、邦弗朗尼原理2、原理:

在考察數(shù)據(jù)時,如果將某些對象視為數(shù)據(jù)的有趣特征,而這些對象中的許多都可能會在隨機數(shù)據(jù)中出現(xiàn),那么這些顯著的特征就不可依賴。對于那些實際中并不充分罕見的特征來說,上述觀察結果限制了從這些數(shù)據(jù)特征中進行挖掘的能力。3、作用:對數(shù)據(jù)挖掘的過度使用進行警告。三、邦弗朗尼原理的例子1、數(shù)據(jù)挖掘的目標:

確信在某個地方有一群惡人,目的是找出這群惡人。我們有理由相信這些惡人會定期在某個賓館聚會商討作惡計劃。2、數(shù)據(jù)的有趣特征:惡人在兩個不同日子入住同一賓館。3、假設:(1)惡人數(shù)目可能有10億(2)每個人每100天當中會有一天去賓館(3)一個賓館最多容納100個人。因此10

萬個賓館足夠容納10億人中的1%也

就是1000萬人在某個給定的日子入住賓館。(4)我們將對1000天的賓館入住記錄進行

核查。4、是否能推斷某兩人可能是惡人:(1)假設沒有惡人,則每人去賓館的概率為0.01,且是隨機地從10萬個賓館中選擇一個。(2)給定某天,任意兩人決定去賓館的概率:0.0001(3)給定某天,兩人同時入住同一賓館的概率:0.0001/105=10-9

(4)任意給定不同兩天,兩人入住同一賓館的概率:10-9的平方,即10-18上述推理中,只需要兩人兩次中每次住的賓館相同即可,不需要兩次都是同一賓館。5、事件出現(xiàn)多少次表明作惡事件發(fā)生:事件:兩個人在兩天中的每一天入住相同賓館。(1)10億人中的人員組對個數(shù):(2)1000天內(nèi)任意兩天的組合個數(shù):(3)疑似作惡事件的期望數(shù)目:6、結果:大概25萬對人員疑似惡人,即使他們根本不是。假定實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論