版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第二節(jié)數(shù)據(jù)挖掘的統(tǒng)計限制一、整體情報預警二、邦弗朗尼原理三、邦弗朗尼原理的例子1、事件:
2002年,美國布什政府提出了針對所有可獲得的數(shù)據(jù)進行挖掘的計劃,目的用于追蹤恐怖活動。這些數(shù)據(jù)包括信用卡收據(jù)、酒店記錄、旅行數(shù)據(jù)以及許多其他類型的情報。一、整體情報預警Totalinformationawareness(TIA)2、缺陷:
尋找了許多關聯(lián)模糊的數(shù)據(jù),顯然會得出虛假的結果因此侵犯無辜者的隱私。
①通過瀏覽大量的數(shù)據(jù),并想從中發(fā)現(xiàn)疑似的恐怖行為,是否會找出很多無辜行為。
②是否會找出雖然非法但不是恐怖行為的行為。
③這些最終結果的發(fā)現(xiàn)是否會導致警察登門造訪甚至更糟糕的情形。二、邦弗朗尼原理1、非正式闡述:可幫助我們避免將隨機出現(xiàn)看成真正出現(xiàn)。
假定人們有一定量的數(shù)據(jù)并期望從中找到某個特定類型的事件。即使數(shù)據(jù)完全隨機,也可以期望該類型事件發(fā)生。任何隨機數(shù)據(jù)往往都會有一些不同尋常的特征,這些特征看上去雖然很重要,但實際上并不重要,除此之外,別無他由,這個意義上而言,這些事件的出現(xiàn)純屬“臆造”。
在數(shù)據(jù)隨機性假設的基礎上,可以計算所尋找事件出現(xiàn)次數(shù)的期望值。如果該結果顯著高于你所希望找到的真正實例的數(shù)目,那么可以預期,尋找到的幾乎任何事物都是臆造的,也就是說,他們是在統(tǒng)計上出現(xiàn)的假象,而不是你所尋找事件的憑證。二、邦弗朗尼原理2、原理:
在考察數(shù)據(jù)時,如果將某些對象視為數(shù)據(jù)的有趣特征,而這些對象中的許多都可能會在隨機數(shù)據(jù)中出現(xiàn),那么這些顯著的特征就不可依賴。對于那些實際中并不充分罕見的特征來說,上述觀察結果限制了從這些數(shù)據(jù)特征中進行挖掘的能力。3、作用:對數(shù)據(jù)挖掘的過度使用進行警告。三、邦弗朗尼原理的例子1、數(shù)據(jù)挖掘的目標:
確信在某個地方有一群惡人,目的是找出這群惡人。我們有理由相信這些惡人會定期在某個賓館聚會商討作惡計劃。2、數(shù)據(jù)的有趣特征:惡人在兩個不同日子入住同一賓館。3、假設:(1)惡人數(shù)目可能有10億(2)每個人每100天當中會有一天去賓館(3)一個賓館最多容納100個人。因此10
萬個賓館足夠容納10億人中的1%也
就是1000萬人在某個給定的日子入住賓館。(4)我們將對1000天的賓館入住記錄進行
核查。4、是否能推斷某兩人可能是惡人:(1)假設沒有惡人,則每人去賓館的概率為0.01,且是隨機地從10萬個賓館中選擇一個。(2)給定某天,任意兩人決定去賓館的概率:0.0001(3)給定某天,兩人同時入住同一賓館的概率:0.0001/105=10-9
(4)任意給定不同兩天,兩人入住同一賓館的概率:10-9的平方,即10-18上述推理中,只需要兩人兩次中每次住的賓館相同即可,不需要兩次都是同一賓館。5、事件出現(xiàn)多少次表明作惡事件發(fā)生:事件:兩個人在兩天中的每一天入住相同賓館。(1)10億人中的人員組對個數(shù):(2)1000天內(nèi)任意兩天的組合個數(shù):(3)疑似作惡事件的期望數(shù)目:6、結果:大概25萬對人員疑似惡人,即使他們根本不是。假定實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 航空部件維修合同模板
- 甜品店勞動合同
- 梯阻系統(tǒng)安裝合同
- 《食管癌的治療》課件
- 《大學英語UNI》課件
- 2025年丹東a2貨運從業(yè)資格證模擬考試
- 軍訓個人心得體會匯編15篇
- 2025年石家莊貨運從業(yè)資格證模擬考試題及答案解析
- 智能家居項目延期還款協(xié)議
- 風電設備運輸司機聘用合同模板
- 國開人力資源管理1-13章自測試題及答案
- 部編版六年級語文上第八單元復習課件
- 企業(yè)年終頒獎晚會公司年會PPT
- 最新VTE指南解讀(靜脈血栓栓塞癥的臨床護理指南解讀)
- 湘教版勞動教育初中第八課生炒檸檬鴨教案
- (格式已排好)國家開放大學電大《計算機應用基礎(專)》終結性考試大作業(yè)答案任務一
- 課程與教學論(王本陸)PPT通用課件
- 麗聲北極星分級繪本第一級上 I Can See課件
- BUCK電路的Saber仿真設計說明
- word公章模板
- 古代文論知識點總結
評論
0/150
提交評論