![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第1頁](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf91.gif)
![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第2頁](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf92.gif)
![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第3頁](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf93.gif)
![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第4頁](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf94.gif)
![改進(jìn)型Apriori算法在犯罪關(guān)聯(lián)分析中的應(yīng)用[精品資料]_第5頁](http://file.renrendoc.com/FileRoot1/2014-9/23/b579e041-c07c-49fc-a0dc-e03a6edacaf9/b579e041-c07c-49fc-a0dc-e03a6edacaf95.gif)
全文預(yù)覽已結(jié)束
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
改進(jìn)型 Apriori 算法在犯罪關(guān)聯(lián)分析中的應(yīng)用 -精品資料 本文檔格式為 WORD,感謝你的閱讀。 最新最全的 學(xué)術(shù)論文 期刊文獻(xiàn) 年終總結(jié) 年終報告 工作總結(jié) 個人總結(jié) 述職報告 實習(xí)報告 單位總結(jié) 摘要:介紹了關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),特別是Apriori 核心算法,并對 Apriori 算法進(jìn)行了 Hash優(yōu)化。以某市的犯罪信息數(shù)據(jù)庫為實例,將改進(jìn)后的關(guān)聯(lián)分析技術(shù)應(yīng)用其中,以便發(fā)現(xiàn)犯罪行為特點(diǎn)及犯罪嫌疑人特性等潛在的聯(lián)系,為公安部門的戰(zhàn)略部署、決策指揮、偵查破 案、治安管理等提供依據(jù)。 關(guān)鍵詞關(guān)鍵詞:犯罪特征;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;Apriori TP312A16727800( 2013) 011006802 0 引言 信息技術(shù)的飛速發(fā)展,給公安機(jī)關(guān)的信息化應(yīng)用提供了強(qiáng)有力的保障,較大程度上提高了整個公安隊伍的戰(zhàn)斗力,在防范打擊違法犯罪、維護(hù)國家安全穩(wěn)定等方面起到了重要作用。 “ 金盾工程 ” 的推進(jìn),促使各類業(yè)務(wù)應(yīng)用平臺逐步建成和完善,但情報導(dǎo)向的信息應(yīng)用仍處于初探階段。信息的關(guān)鍵價值不在于存儲,而在于對所擁有的大量警務(wù)信息進(jìn)行二次挖掘 ,獲取更有價值的情報信息 1 。近年來,公安部門積累了海量的基礎(chǔ)數(shù)據(jù)和犯罪數(shù)據(jù)信息,但對于這些數(shù)據(jù)的高效利用和深度應(yīng)用未有明顯成績。因此,如何利用先進(jìn)的信息技術(shù)在這些海量數(shù)據(jù)中進(jìn)行深度挖掘,得出一些新知識,使之有益于公安部門的戰(zhàn)略部署、決策指揮、偵查破案、治安管理等,具有一定的時代意義。 1 關(guān)聯(lián)規(guī)則挖掘 關(guān)聯(lián)規(guī)則挖掘,有時也叫關(guān)聯(lián)分析,是數(shù)據(jù)挖掘的一個重要研究領(lǐng)域。它是指從事務(wù)數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫和其它信息存儲中的大量數(shù)據(jù)的項集之間發(fā)現(xiàn)有趣的、頻繁出現(xiàn)的模式、關(guān)聯(lián)和相關(guān)性,即所謂的關(guān)聯(lián) 規(guī)則。其形式為: “X=Y” ,即在設(shè)定的高置信度的規(guī)則下, X 事件發(fā)生了, Y 事件必然發(fā)生。 關(guān)聯(lián)規(guī)則挖掘核心算法為著名的 Apriori算法。當(dāng)然,此后出現(xiàn)了一些相關(guān)算法,諸如 DIC算法 2 、 DLG算法 3 和 DHP算法 4 等,都是基于 Apriori 算法做了改進(jìn)或優(yōu)化而成的。 1.1Apriori 算法 Apriori 算法,是一種挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法,是 Agrawal.R 、 Imieliski.T 等人在 1994第 20屆大型數(shù)據(jù)庫國際會議上提出的 5 ,于當(dāng)時最具影響力。此算法實質(zhì)是一個逐層迭代搜索的方法,利用 K 項集探索 K+1項集。第一次,找出頻繁 1 項集的集合,記為 L1;第二次,利用 L1探索 L2,找出頻繁 2 項集,記為 L2;如此進(jìn)行探索,直至頻繁項集 K 為空,停止。 算法描述如下: Input: Database D, of transactions; minimum support threshold; Output: L, frequent itemsets in D Method: ( 1) L1=find_frequent_1-itemsets( D); ( 2) For( k=2; Lk-1 ; k+) ( 3) Ck=apriori_gen( Lk-1, min_sup); ( 4) for each transaction tD ( 5) Ct=subset( Ck, t); ( 6) for each candidate c Ct ; ( 7) c.count+; ( 8) ( 9) Lk= cCk |c.countmi n_sup; ( 10) ( 11) return L=kLk ; Procedure apriori_gen( Lk-1: frequent( k-1) -itemsets; min_sup: support) ( 1) for each itemset l1 Lk -1 ( 2) for each itemset l2 Lk -1 ( 3) if( l1 1 = l2 1 ) ( l1 2 = l2 2 ) ( l1 k-2 = l2 k-2 ) ( l1 k-1 = l2 k-1 ) then ( 4) c=l1 l2 ; ( 5) if has_infrequent_subset( c, L k-1) then ( 6) delete c; ( 7) else add c to Ck; ( 8) ( 9) return Ck; Procedure has_infrequent_subset( c: candidate k-itemset; Lk-1: frequent( k-1) -itemsets) ( 1) for each( k-1) -subset s of c ( 2) if s ! L k -1 then ( 3) return true; ( 4) return false; 1.2關(guān)聯(lián)規(guī)則的產(chǎn)生 事實上,當(dāng)從數(shù)據(jù)庫 D 中的事務(wù)找出頻繁項集時,它們產(chǎn)生的關(guān)聯(lián)規(guī)則是顯而易見的,然而,這些規(guī)則的置信度是不一樣的。因此,和支持度一樣,置信度得設(shè)置一個閾值。在設(shè)定的置信度閾值和支持度閾值條件下,同時滿 足這兩個條件的規(guī)則叫強(qiáng)規(guī)則,這些規(guī)則通常頗為有趣,是關(guān)聯(lián)規(guī)則挖據(jù)的目的。 對于置信度,可以用下式表示,其中條件概率用項集支持度計數(shù)表示。 Conference( A=B) =P( B|A) =support-count( A+B)/support-count( A) 其中, support-count( A+B)是包含項集 A+B 的事務(wù)數(shù), support-count( A)包含項集的 A 的事務(wù)數(shù) 6 。 1.3Apriori 算法優(yōu)化 從算法描述可看出,當(dāng)數(shù)據(jù)庫 D 的事務(wù)達(dá)到一定 規(guī)模時,算法的空間復(fù)雜度和時間復(fù)雜度相當(dāng)高。因此,優(yōu)化是必要的,旨在提高原算法的效率。常用方法有:散列技術(shù)計數(shù)、事務(wù)壓縮、劃分、選樣。還有一些通過變形實現(xiàn)有效性,如動態(tài)項集計數(shù)、多層和多維等關(guān)聯(lián)規(guī)則挖掘。 2 實例分析 2.1挖據(jù)過程 將 Apriori 算法應(yīng)用于犯罪行為分析,主要目的在于找出案件的各個特征及犯罪嫌疑人各個特征之前可能存在的相互關(guān)系,以便找出有用的關(guān)聯(lián)規(guī)則。其挖掘過程如下: ( 1)數(shù)據(jù)選擇。從犯罪行為數(shù)據(jù)庫中檢索并選擇與分析任務(wù)相關(guān)的數(shù)據(jù)并消除噪聲信息。 ( 2)數(shù)據(jù)梳理。運(yùn)用減低維數(shù)、連續(xù)數(shù)據(jù)的離散分類等將數(shù)據(jù)梳理成標(biāo)準(zhǔn)統(tǒng)一的適合于挖據(jù)的形式。 ( 3)關(guān)聯(lián)規(guī)則挖掘。此步驟較為關(guān)鍵,使用 Apriori算法對已梳理過的事務(wù)進(jìn)行關(guān)聯(lián)分析。 ( 4)實效評估。通過調(diào)整支持度閾值及置信度閾值,按照既定的業(yè)務(wù)興趣度量,結(jié)合實戰(zhàn)檢驗,使得過程挖掘所獲得的知識結(jié)果更容易接受,且更有價值。 ( 5)知識表示與存儲。使用可視化和知識表示技術(shù),形成知識庫,為決策提供依據(jù)。 其中, Apriori算法是關(guān)鍵。過程將發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫中隱藏的形 式為 “A=B” 的規(guī)則,即在一定的支持度和一定置信度下,假如 A 發(fā)生則 B 一定發(fā)生。圖 1 犯罪行為關(guān)聯(lián)規(guī)則挖掘過程 2.2模型建立 優(yōu)秀的技術(shù)應(yīng)用于具體行業(yè),要想達(dá)到實戰(zhàn)的成果,模型的建立尤為重要。而對于關(guān)聯(lián)數(shù)據(jù)挖掘而言,這個模型的關(guān)鍵點(diǎn)在于合適事務(wù)數(shù)據(jù)庫的建立。公安業(yè)務(wù)數(shù)據(jù)庫巨大無比,如何梳理,直接影響到挖掘的成果。 在實際工作中,犯罪兩個重要的組成是犯罪行為和行為者。因此,從事和人出發(fā),考慮其特點(diǎn),以已破的刑事犯罪案件信息數(shù)據(jù)為主導(dǎo)進(jìn)行梳理, 案件信息:編號、類別、時間、地點(diǎn)、特點(diǎn)、危害程度 、簡情; 涉案人員:姓名、外號、性別、民族、出生日期、居民身份證號碼、籍貫、戶籍地、居住地、文化程度、收入狀況、家庭背景、違法犯罪經(jīng)歷。 本文中,挑選其中主要的八項事務(wù)建立模型:作案形式、選擇時機(jī)、選擇處所、選擇對象、案件類別、嫌疑人籍貫、嫌疑人年齡、嫌疑人文化。 2.3數(shù)據(jù)抽樣 樣本來源于某地市 2012年搶劫案連續(xù)抽取的 12個樣本,并按照模型格式進(jìn)行梳理,其結(jié)果如表 1 所示。 閱讀相關(guān)文檔 :實施過程管理在網(wǎng)絡(luò)集成項目中的運(yùn)用 微課開發(fā)與應(yīng)用研究 基于 C#的多機(jī)遠(yuǎn)程桌面 監(jiān)控系統(tǒng)設(shè)計與實現(xiàn) 基于 Multigen Creator的三維虛擬校園應(yīng)用研究 基于 CDIO 理念的模擬電路課程教學(xué)改革與實踐 基于粒子群優(yōu)化算法和 Wiki 的數(shù)字化教材開發(fā)研究 Flash 在深度和廣度優(yōu)先遍歷算法教學(xué)中的應(yīng)用 高效運(yùn)動目標(biāo)檢測算法研究 基于 VC+的虛擬示波器軟件設(shè)計 振鏡式激光打標(biāo)系統(tǒng)及工藝參數(shù)分析 一種基于多因素的潛在好友推薦算法 基于 .NE
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年福建武夷山三茶集團(tuán)有限公司下屬子公司(第一批次)招聘考試筆試試題(含答案)
- 【銅川】2025年陜西銅川市事業(yè)單位招聘高層次人才13人(第三批)筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 小學(xué)憫農(nóng)教學(xué)課件
- 文庫發(fā)布:的說課課件
- 收納職業(yè)課件教學(xué)
- 《鳥鳴澗》教學(xué)課件
- 教學(xué)課件改稿怎么寫好
- 語文片段教學(xué)課件
- DB33T 1126-2016 城市軌道交通巖土工程勘察規(guī)范
- 【成都】2025年成都市科學(xué)技術(shù)協(xié)會所屬1家事業(yè)單位招聘工作人員2人筆試歷年典型考題及考點(diǎn)剖析附帶答案詳解
- 2025年 赤峰市巴林左旗社區(qū)工作者招聘考試筆試試卷附答案
- 中國新疆反恐課件
- 《民營經(jīng)濟(jì)促進(jìn)法》金融支持條款的解讀與實施路徑研究
- 2025年陜西省中考英語試題(附答案和音頻)
- 家庭急救包物品清單
- 回顧與展望講課件
- 附件:小學(xué)2025年暑假跨學(xué)科實踐作業(yè)實施方案
- 2024年 北京市公務(wù)員考試(行測)考試真題試題(附答案)
- 既有建筑地基基礎(chǔ)加固技術(shù)規(guī)范 JGJ 123-2012知識培訓(xùn)
- 實驗室菌種管理制度
- 如何當(dāng)好一名班主任 課件-2024-2025學(xué)年高一下學(xué)期班主任工作經(jīng)驗分享
評論
0/150
提交評論