基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)詐騙犯罪研究_第1頁(yè)
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)詐騙犯罪研究_第2頁(yè)
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)詐騙犯罪研究_第3頁(yè)
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)詐騙犯罪研究_第4頁(yè)
基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)詐騙犯罪研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)詐騙犯罪研究

1當(dāng)前分析1.1詐騙行為的主動(dòng)化互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展有助于人們的生活方式。同時(shí),網(wǎng)絡(luò)犯罪的趨勢(shì)也為犯罪分子提供了新的犯罪場(chǎng)所。在網(wǎng)絡(luò)犯罪中,以網(wǎng)絡(luò)詐騙犯罪較為常見。網(wǎng)絡(luò)詐騙犯罪是通過互聯(lián)網(wǎng)進(jìn)行詐騙犯罪行為的總稱。從刑法學(xué)的角度出發(fā),網(wǎng)絡(luò)詐騙犯罪是指以非法占有他人財(cái)產(chǎn)所有權(quán)為目的,以計(jì)算機(jī)及網(wǎng)絡(luò)為工具,用虛構(gòu)事實(shí)或者隱瞞真相的方法騙取公私財(cái)物(數(shù)額較大)的行為北京市公安局網(wǎng)絡(luò)安全保衛(wèi)總隊(duì)與360互聯(lián)網(wǎng)安全中心聯(lián)合發(fā)起成立的“獵網(wǎng)平臺(tái)”發(fā)布的《2015年網(wǎng)絡(luò)詐騙趨勢(shì)研究報(bào)告》表明,近年來,網(wǎng)絡(luò)詐騙犯罪數(shù)量及涉案金額都在不斷的增長(zhǎng)。2015年獵網(wǎng)平臺(tái)收到的網(wǎng)絡(luò)詐騙案件舉報(bào)24886例,涉及總金額1.27億余元,人均損失5104元。與2014年相比,在舉報(bào)數(shù)量只增長(zhǎng)了7.96%的情況下,人均損失金額卻增長(zhǎng)了146.67%1.2網(wǎng)絡(luò)欺詐犯罪特點(diǎn)綜合分析1協(xié)助公安機(jī)關(guān)偵查案件犯罪嫌疑人在實(shí)施傳統(tǒng)詐騙犯罪時(shí),需要與受害者建立直接溝通的動(dòng)態(tài)過程,受害者能夠向公安機(jī)關(guān)提供與嫌疑人有關(guān)的直接線索(如體態(tài)、口音等),在某種程度上協(xié)助公安機(jī)關(guān)偵查案件。而在實(shí)施網(wǎng)絡(luò)詐騙犯罪時(shí),詐騙分子充分利用網(wǎng)絡(luò)的虛擬性和跨地域性,以虛假信息形成虛假身份,使用境外網(wǎng)絡(luò)代理等技術(shù)手段進(jìn)行掩護(hù),通過即時(shí)通信工具、虛假網(wǎng)站、網(wǎng)絡(luò)電話軟件等非直接接觸方式行騙,詐騙得手之后可以立即變換虛假身份,轉(zhuǎn)移地點(diǎn),繼續(xù)實(shí)施犯罪。這種“打一槍換一炮”的作案方式具有極高的隱蔽性,也為案件的偵破、犯罪嫌疑人的跨地域追捕帶來了難度。2形成黑色產(chǎn)業(yè)鏈由于互聯(lián)網(wǎng)的普及性,以及網(wǎng)絡(luò)詐騙犯罪的投入產(chǎn)出比高,近年來詐騙分子開始形成分工明確、等級(jí)森嚴(yán)的職業(yè)犯罪團(tuán)伙,進(jìn)行有組織有計(jì)劃、少量多次、積少成多的網(wǎng)絡(luò)詐騙犯罪,并逐漸形成了網(wǎng)絡(luò)詐騙犯罪的黑色產(chǎn)業(yè)鏈。上游依靠提供技術(shù)支持的黑客,下游為支持或參與網(wǎng)絡(luò)詐騙犯罪分工的周邊組織3多樣性多樣性原則隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)詐騙的形式越發(fā)的多樣化。常見的網(wǎng)絡(luò)詐騙犯罪形式有網(wǎng)絡(luò)購(gòu)物詐騙、網(wǎng)絡(luò)信用卡詐騙、中獎(jiǎng)詐騙、冒充熟人詐騙、網(wǎng)絡(luò)賭博詐騙、網(wǎng)絡(luò)捐款詐騙、兌換積分詐騙等2網(wǎng)絡(luò)詐騙案件特點(diǎn)的多層次性探討在現(xiàn)有的公安機(jī)關(guān)辦理詐騙案件平臺(tái)及流程中,專門針對(duì)網(wǎng)絡(luò)詐騙犯罪案件的偵辦平臺(tái)還有待建設(shè),系統(tǒng)性的案件數(shù)據(jù)分析也尚未形成,缺少對(duì)詐騙案件人群規(guī)律的挖掘研究,無法從大量且無序的案件數(shù)據(jù)中挖掘出某個(gè)時(shí)期內(nèi)網(wǎng)絡(luò)詐騙案件的特點(diǎn)與趨勢(shì),無論為公安機(jī)關(guān)偵查案件和防范治理提供方向性指引和針對(duì)重點(diǎn)涉案人群的防范治理措施。為解決以上問題,本文通過將案件信息轉(zhuǎn)換為離散數(shù)據(jù)項(xiàng)的方式進(jìn)行先期處理,再基于SPSSClementine的K-means聚類分析算法和CHAID決策樹算法,通過創(chuàng)建并訓(xùn)練算法模型,將數(shù)據(jù)導(dǎo)入算法模型進(jìn)行算法,得出結(jié)果的步驟對(duì)案件數(shù)據(jù)進(jìn)行分析,找到涉案人群的特點(diǎn)以及案件屬性對(duì)于詐騙案件金額的影響權(quán)重。2.1聚類區(qū)分算法K-means算法是一種基于劃分的聚類算法,最早在1967年由J.B.MacQueen提出。該算法認(rèn)為在幾何距離上兩個(gè)對(duì)象越靠近,相似度就越高。在一定閾值界定下,被認(rèn)為相互靠近的對(duì)象的集合就是K-means算法認(rèn)定的簇,因此把得到緊密而單獨(dú)的簇作為該算法的最終目標(biāo)輸入:目標(biāo)聚類數(shù)k的值、包含n個(gè)數(shù)據(jù)對(duì)象的數(shù)據(jù)對(duì)象集D;輸出:k個(gè)聚類1)從數(shù)據(jù)對(duì)象集D中隨機(jī)地選擇k個(gè)數(shù)據(jù)對(duì)象作為初始的質(zhì)心,作為各聚類簇的代表;2)分別計(jì)算D中的每一個(gè)數(shù)據(jù)對(duì)象到各質(zhì)心的距離,得到一組距離值,從中找出最小距離值對(duì)應(yīng)的質(zhì)心,將此數(shù)據(jù)對(duì)象分配至該簇中;3)待所有數(shù)據(jù)對(duì)象分配完畢之后,根據(jù)每個(gè)初始簇所包含的對(duì)象集合,重新計(jì)算得到一個(gè)新質(zhì)心。若質(zhì)心發(fā)生改變,則重復(fù)步驟2)和步驟3),直至聚類不再發(fā)生變化,且滿足目標(biāo)函數(shù)條件,跳至步驟4);4)輸出聚類結(jié)果K-means算法采用了幾何上的歐幾里得距離作為計(jì)算數(shù)據(jù)對(duì)象之間相似性的量度,其具體公式是:其中i=(x其中,x為子對(duì)象集D通過以上介紹,我們可以看出K-means算法的優(yōu)點(diǎn)在于算法框架清晰、簡(jiǎn)單、可理解。當(dāng)聚類簇是密集的,且聚類簇之間差別明顯的時(shí)候,算法確定的k個(gè)聚類簇能使SSE最小,從而實(shí)現(xiàn)最好的聚類效果。在處理大型數(shù)據(jù)對(duì)象集的時(shí)候,算法相對(duì)來說在具有可伸縮性的同時(shí)兼顧了。算法的計(jì)算復(fù)雜度為O(nkt),其中n為數(shù)據(jù)對(duì)象的個(gè)數(shù),t為算法迭代運(yùn)行的次數(shù),且存在t<<n、k<<n,故一般情況下我們把計(jì)算復(fù)雜度記為O(n)。相比于其他聚類效果好的算法來說其計(jì)算復(fù)雜度較低,所需時(shí)間少,實(shí)現(xiàn)了高效率的運(yùn)行。相比之下,K-means算法也存在不少的缺陷,主要為算法運(yùn)行前需要用戶自行初始化聚類數(shù)目k;算法在多數(shù)情況下只能發(fā)現(xiàn)球狀簇,對(duì)其他形狀的聚類簇不敏感;算法對(duì)于孤立點(diǎn)數(shù)據(jù)和噪聲數(shù)據(jù)是非常敏感的,少量的該類數(shù)據(jù)能夠?qū)Υ仄骄诞a(chǎn)生非常大的影響,從而導(dǎo)致聚類結(jié)果的失準(zhǔn)。2.2ch關(guān)于多分形決策樹的設(shè)計(jì)CHAID(CHi-squaredAutomaticInteractiondetection,卡方自動(dòng)交叉檢驗(yàn))算法是一種適用于連續(xù)型、離散型、定類、定序等多種數(shù)據(jù)變量,以目標(biāo)最優(yōu)為依據(jù),具有目標(biāo)選擇和變量篩選功能的決策樹算法,由Kass于1980年提出。CHAID算法會(huì)根據(jù)不同類型的解釋變量和目標(biāo)變量選擇不同的屬性測(cè)試標(biāo)準(zhǔn),在生成決策樹過程中,將測(cè)試標(biāo)準(zhǔn)的顯著性水平作為停止建樹的參照。由于CHAID算法是從統(tǒng)計(jì)顯著性水平的角度來確定數(shù)據(jù)對(duì)象集的分枝變量和分隔值,因此可以認(rèn)為算法是采用先剪枝的方法,優(yōu)化生成樹的過程。CHAID算法以原始數(shù)據(jù)處理為起點(diǎn),首先選定目標(biāo)變量,當(dāng)目標(biāo)變量為定類變量時(shí),算法會(huì)構(gòu)成一個(gè)以解釋變量類別為列、以目標(biāo)變量類別為行的二維交叉分類表,交叉分類,再產(chǎn)生一系列二維表,計(jì)算二維表的皮爾遜卡方值(Pearsonchi-squared)統(tǒng)計(jì)量或者似然估計(jì)統(tǒng)計(jì)量(Likelihoodratio)作為標(biāo)準(zhǔn)比較其大小,標(biāo)準(zhǔn)數(shù)值最大的二維表即為最佳初始分類表。在此基礎(chǔ)上,繼續(xù)使用分類解釋變量對(duì)目標(biāo)變量進(jìn)行分類,重復(fù)上述過程,直到P值滿足預(yù)定的收斂條件時(shí)停止建樹;當(dāng)目標(biāo)變量為連續(xù)型變量時(shí),算法選擇基于F檢驗(yàn)的P值作為標(biāo)準(zhǔn);當(dāng)目標(biāo)變量為定序或者離散型變量時(shí),以似然估計(jì)統(tǒng)計(jì)量作為標(biāo)準(zhǔn)似然估計(jì)統(tǒng)計(jì)量為:其中,實(shí)際分布頻率fCHAID算法的優(yōu)點(diǎn)在于能生成多分枝的決策樹,而且對(duì)目標(biāo)變量沒有限制,適用性強(qiáng)。不過,在剩余的數(shù)據(jù)對(duì)象類別之間在統(tǒng)計(jì)上均存在顯著性差異的條件下,CHAID算法會(huì)停止合并這些類別,因此會(huì)發(fā)生找不到分類預(yù)測(cè)變量的最佳分割點(diǎn)的情況3智能分析的實(shí)現(xiàn)3.1基于數(shù)字的身份信息比對(duì)從現(xiàn)有的公安執(zhí)法辦案平臺(tái)和電信詐騙案件偵查協(xié)作平臺(tái)獲取案件信息后,對(duì)數(shù)據(jù)進(jìn)行先期分類,分為受害者屬性和犯罪嫌疑人屬性,分別分為受害者年齡、性別、文化程度、職業(yè)、月收入、受詐騙類型、首次聯(lián)系方式、交易方式、發(fā)現(xiàn)形式,以及犯罪嫌疑人年齡、性別、文化程度、接觸網(wǎng)絡(luò)時(shí)間、有無前科情況,并以數(shù)字代替屬性內(nèi)容的方式將案件信息數(shù)據(jù)化、離散化。3.2基于不同特征的受害者的網(wǎng)絡(luò)詐騙類型在本文中把K-means算法分別運(yùn)用到受害者和犯罪嫌疑人上,求出這兩類人群的大致聚類及其特點(diǎn)。通過多次改動(dòng)目標(biāo)聚類數(shù)k的試驗(yàn)后,得出如表1和表2所示的結(jié)果。由表1可以看出,受害者主要有五種類型:1)年齡在40歲左右,職業(yè)為經(jīng)商或者個(gè)體經(jīng)營(yíng),初中文化程度,詐騙類型為釣魚網(wǎng)站;2)年齡在20歲左右,從事服務(wù)業(yè),高中文化程度,詐騙類型為虛假兼職;3)年齡在48歲左右,職業(yè)為工人,小學(xué)及以下文化程度,詐騙類型為積分中獎(jiǎng)詐騙;4)年齡在28歲左右,職業(yè)為公司職員,大學(xué)文化程度,詐騙類型為網(wǎng)絡(luò)購(gòu)物;5)年齡在33歲左右,從事服務(wù)業(yè),初中文化程度,詐騙類型為網(wǎng)絡(luò)購(gòu)物。從上述受害者類型可總結(jié)得出,受害者普遍為高中及以下文化程度,多從事與資金流動(dòng)關(guān)系較為密切的個(gè)體經(jīng)營(yíng)及服務(wù)業(yè),網(wǎng)絡(luò)購(gòu)物仍為受害者容易上當(dāng)受騙的詐騙類型。由表2可以看出,實(shí)施網(wǎng)絡(luò)詐騙的嫌疑人年齡平均分布在19歲到33歲之間,普遍較為年輕;文化程度不超過初中,且從小就接觸網(wǎng)絡(luò),平均網(wǎng)齡在10年以上。3.3影響大學(xué)生詐騙案件金額的因素以詐騙案件金額為目標(biāo)變量,利用CHAID算法對(duì)受害者及犯罪嫌疑人的屬性生成決策樹,并比較其預(yù)測(cè)精度。由于在目標(biāo)變量為連續(xù)型的情況下,算法的輸出效果不佳,在此處取詐騙金額數(shù)據(jù)項(xiàng)的中位數(shù)為中值,將詐騙金額分為兩類,分別以0和1代表小于和大于中值在通過CHAID算法建立的決策樹中,越靠上的子層對(duì)于目標(biāo)變量的影響程度越高,故由圖1可見,受害者的月收入對(duì)于詐騙案件金額的影響程度最高,其次是嫌疑人的文化程度和前科情況。根據(jù)這三個(gè)影響因子,可以做出如下預(yù)測(cè):一方面,受害者的文化程度越低,月收入越高,詐騙案件的金額也會(huì)越高;另一方面,嫌疑人多由于接觸網(wǎng)絡(luò)時(shí)間較早,導(dǎo)致沉迷網(wǎng)絡(luò)而無心于學(xué)業(yè),故文化程度普遍沒有達(dá)到高中以上,容易誤入歧途,實(shí)施犯罪。操作少、易上手、投入產(chǎn)出比高的網(wǎng)絡(luò)詐騙犯罪對(duì)于有前科的嫌疑人來說更具有吸引力,故嫌疑人存在重操舊業(yè)的可能,再次開始實(shí)施網(wǎng)絡(luò)詐騙由圖2可見,通過CHAID算法建立的決策樹的精度達(dá)到了90%以上,基本認(rèn)為以上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論