




已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
.身份識(shí)別技術(shù)的發(fā)展趨勢(shì)目前隨著電子商務(wù)和電子政務(wù)的發(fā)展,以及GSM,CPRS,CDMA,WLAN等無(wú)線移動(dòng)通信技術(shù)與相應(yīng)業(yè)務(wù)的發(fā)展,身份認(rèn)證的理論和技術(shù)已經(jīng)在不斷成熟完善的基礎(chǔ)上,出現(xiàn)了幾個(gè)研究熱點(diǎn)。2.1圖像口令技術(shù)傳統(tǒng)的口令認(rèn)證技術(shù)主要是基于文本口令,大部分安全系統(tǒng)為了保證口令的安全性都會(huì)要求用戶選擇較長(zhǎng)的復(fù)雜口令,這種文本口令提高了安全性但是由于難以記憶,輸入不便,使得很多用戶仍然使用弱口令。圖像口令技術(shù)是用一組圖像組成的集合代替文本字符集合,用戶通過(guò)從圖像集合中選擇P個(gè)圖像合成自己的口令。認(rèn)證系統(tǒng)系統(tǒng)在認(rèn)證時(shí)給出T個(gè)圖像,用戶從中選出自己生成口令時(shí)的P個(gè)圖像。由于圖像包括的信息遠(yuǎn)大于文本,很難實(shí)現(xiàn)自動(dòng)字典攻擊。而且這種口令很難記錄也不易與人共享,增加了安全性。該系統(tǒng)的安全性在于從T個(gè)圖像中選取P個(gè)圖像口令的組合數(shù)大小,為了提高安全性應(yīng)使組合數(shù)T!/(T-P)!P!盡量增加。2.2生物特征識(shí)別技術(shù)以上傳統(tǒng)的身份驗(yàn)證方式,都是基于。whatyouknow。或者。whatyouhave。的驗(yàn)證手段,它只能說(shuō)明用戶具有登錄權(quán)限,并不能說(shuō)明用戶為非冒充者,直到生物識(shí)別技術(shù)的出現(xiàn)和越來(lái)越多的普及。比爾蓋茨曾斷言,生物識(shí)別技術(shù)將成為未來(lái)幾年IT產(chǎn)業(yè)的重要革新。越來(lái)越多個(gè)人、企業(yè)乃至政府都承認(rèn),現(xiàn)有身份加密碼或基于智能卡的身份識(shí)別系統(tǒng)遠(yuǎn)遠(yuǎn)不夠,生物特征識(shí)別技術(shù)在未來(lái)的身份識(shí)別方面將占據(jù)不可或缺地位。生物識(shí)別技術(shù)是通過(guò)提取人體的生物特征數(shù)據(jù)或行為的特征屬性來(lái)進(jìn)行身份認(rèn)證的一種技術(shù)。生物特征是指人體獨(dú)一無(wú)二的可通過(guò)測(cè)量得到,又能被用來(lái)利用的身體或者行為特征,它分為身體特征和行為特征兩類(lèi)。身體特征有:DNA結(jié)構(gòu)、指紋、虹膜、視網(wǎng)膜、臉型、頭發(fā)硬度等;行為特征有:音調(diào)、簽名、行走步態(tài)等。生物識(shí)別技術(shù)的出現(xiàn),為解決真正意義上的身份驗(yàn)證提供了可能,江林升教授提出的在網(wǎng)絡(luò)化考試中運(yùn)用實(shí)時(shí)人臉識(shí)別技術(shù)對(duì)身份的驗(yàn)證,效果顯著,但實(shí)現(xiàn)此類(lèi)技術(shù)所需的硬件、網(wǎng)絡(luò)帶寬等要求較高,因而實(shí)現(xiàn)難度較大,普及也相對(duì)困難。2.3基于數(shù)據(jù)挖掘的身份識(shí)別由于數(shù)據(jù)挖掘技術(shù)的出現(xiàn),一種基于數(shù)據(jù)挖掘技術(shù)的身份識(shí)別技術(shù)應(yīng)運(yùn)而生了。它不必像生物識(shí)別技術(shù)那樣需要個(gè)體的生物特征,而只需個(gè)體的行為特征,又克服了傳統(tǒng)身份識(shí)別的單一性缺點(diǎn)。它通過(guò)挖掘人們的歷史行為,得到人們的行為模式,再根據(jù)相應(yīng)的預(yù)測(cè)算法,來(lái)鑒別身份的真實(shí)性。目前較為火熱的Web挖掘,不但可以為網(wǎng)站挖掘出具有價(jià)值的信息,也能為網(wǎng)站的安全提供安全參考。基于數(shù)據(jù)挖掘技術(shù)的對(duì)異常數(shù)據(jù)的捕獲、用戶可信行為的分析等應(yīng)用也不斷成熟,已為驗(yàn)證用戶身份真實(shí)性提供了可能3一種基于數(shù)據(jù)挖掘的個(gè)人身份信息自動(dòng)識(shí)別模型本文提出的基于數(shù)據(jù)挖掘技術(shù)的個(gè)人身份信息自動(dòng)識(shí)別模型,如圖1所示。該模型主要由基于正則表達(dá)式的信息匹配、文本預(yù)處理、權(quán)重計(jì)算和特征詞降維以及機(jī)器學(xué)習(xí)四部分組成。其中基于正則表達(dá)式的信息匹配主要是便于快速地從電子郵件中匹配出包含有個(gè)人身份信息的電子郵件的模塊;文本預(yù)處理則是將非結(jié)構(gòu)化的基于人類(lèi)自然語(yǔ)言的文本轉(zhuǎn)換為機(jī)器可識(shí)別的文本;權(quán)重計(jì)算和特征降維是對(duì)分出來(lái)的詞進(jìn)行一定的處理,以便進(jìn)行機(jī)器學(xué)習(xí);機(jī)器學(xué)習(xí)則是對(duì)特征向量進(jìn)行訓(xùn)練,最終形成個(gè)人身份信息識(shí)別模型。3.1正則表達(dá)式目前已經(jīng)有很多用來(lái)匹配個(gè)人身份識(shí)別信息的算法,文獻(xiàn)2提出了一種基于正則表達(dá)式的郵件類(lèi)協(xié)議識(shí)別與跟蹤的協(xié)議識(shí)別方法,通過(guò)提取協(xié)議應(yīng)用的特征以及關(guān)鍵詞,撰寫(xiě)相對(duì)應(yīng)的正則表達(dá)式。正則表達(dá)式是一種用來(lái)查找一個(gè)串中是否含有某個(gè)子串,替換或者取出匹配的子串,是一種用于模式匹配和替換的工具,在Linux中應(yīng)用廣泛。Vi編輯器,Awk,Sendshell等程序都是基于正則表達(dá)式。而且正則表達(dá)式已經(jīng)超出語(yǔ)言和系統(tǒng)的局限,在計(jì)算機(jī)程序中應(yīng)用廣泛,用戶通過(guò)編寫(xiě)基于正則表達(dá)式的匹配模式,然后把這些匹配模式和一些數(shù)據(jù),例如web數(shù)據(jù)輸入進(jìn)行比較,根據(jù)比較的結(jié)果執(zhí)行相應(yīng)的操作。正則表達(dá)式可用于字符串模式匹配和替換,最簡(jiǎn)單的模式就是一個(gè)所要查找的字符串。模式在處理文檔工作中是非常普遍的,語(yǔ)句SELECT*FROMTABLE1WHERENAME=”TOMSMITH”中的字符串”TOMSMITH”就是一個(gè)簡(jiǎn)單的模式。實(shí)際應(yīng)用中用戶所要查詢(xún)的是更為一般,更為通用的模式。合理地使用正則表達(dá)式進(jìn)行數(shù)據(jù)庫(kù)查詢(xún)不僅可以降低查詢(xún)語(yǔ)句的復(fù)雜程度,而且還能簡(jiǎn)化對(duì)出錯(cuò)語(yǔ)句的修改工作。本文之所以采用正則表達(dá)式來(lái)進(jìn)行個(gè)人身份信息的篩選,一方面因?yàn)樗?jiǎn)單易用;另一方面則是正則表達(dá)式所表現(xiàn)出來(lái)的匹配能力。3.2特征詞的抽取和降維通過(guò)正則表達(dá)式匹配出來(lái)的電子郵件的主題和內(nèi)容存儲(chǔ)為文本形式的文檔,由于所轉(zhuǎn)化出來(lái)的文本文檔都是非結(jié)構(gòu)化的,不利于計(jì)算機(jī)自動(dòng)分析處理,因此需要對(duì)文本進(jìn)行一定的預(yù)處理。利用基于向量空間模型的方法來(lái)抽取特征詞。其基本原理是把文檔簡(jiǎn)化為以特征項(xiàng)的權(quán)重為分量的向量表示:(W1,W2,Wn),其中Wi為第i個(gè)特征項(xiàng)的權(quán)重。權(quán)重采用歸一化的相對(duì)詞頻,其計(jì)算方法運(yùn)用TF-IDF公式:其中,W(t,d)為詞t在文本d中的權(quán)重,而tf(t,d)為詞t在文本d中的詞頻,n為訓(xùn)練文本的總數(shù),nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子。經(jīng)過(guò)以上處理和計(jì)算后可以將文檔庫(kù)表示為m*n的詞-文檔矩陣(Term-DocumentMatrix):公式(2)中,m為文檔庫(kù)中包含的所有不同詞的個(gè)數(shù);ij為由公式(1)計(jì)算得到的W(t,d)表示第i個(gè)詞在第j個(gè)文檔中出現(xiàn)的權(quán)重。不同的詞對(duì)應(yīng)矩陣A不同的一行,每個(gè)文檔則對(duì)應(yīng)矩陣A的一列。通過(guò)上述步驟生成的向量空間是一個(gè)高維向量空間,可以達(dá)到幾萬(wàn)維甚至幾十萬(wàn)維。在這樣一個(gè)高維特征空間上進(jìn)行訓(xùn)練和分類(lèi)存在一定的問(wèn)題和困難,因此需要進(jìn)行降維處理,把特征維數(shù)壓縮到與訓(xùn)練樣本個(gè)數(shù)相適應(yīng)的地步。降維后可以刪除噪音,避免過(guò)學(xué)習(xí)現(xiàn)象,提高分類(lèi)效率和分類(lèi)精度。本文中選用互信息特征選擇方法,算法基本思想是,特征詞t與類(lèi)別C的互信息越大,說(shuō)明特征t中包含的與類(lèi)別有關(guān)的鑒別信息就越多。算法基本過(guò)程如下:對(duì)于每個(gè)詞,根據(jù)公式計(jì)算詞和類(lèi)別的互信息量:其中:其中,P(tCk)為t詞在Ck中出現(xiàn)的比重,D為該類(lèi)的訓(xùn)練文本數(shù),N(t,dI)表示dI中t的詞頻,V表示總的詞數(shù),Ntj,diDi=1=表示這個(gè)文本類(lèi)中所有詞的詞頻之和。P(t)表示詞在所有訓(xùn)練文本中的比重。計(jì)算公式相同,但D的含義為全體訓(xùn)練的文本數(shù)。根據(jù)公式(3)計(jì)算結(jié)果將取值最大的前m個(gè)特征保留下來(lái),實(shí)現(xiàn)降維。m值的確定一般采用先給定一個(gè)初始值,然后根據(jù)實(shí)驗(yàn)測(cè)試和統(tǒng)計(jì)結(jié)果逐漸調(diào)整最終確定最佳值。文本預(yù)處理后,每一個(gè)文本可以被表示為d=(w1,w2,wm),這樣就將n個(gè)文本轉(zhuǎn)化為m維的單位向量。3.3機(jī)器學(xué)習(xí)分類(lèi)是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)領(lǐng)域的一個(gè)主要任務(wù)。分類(lèi)要解決的問(wèn)題是將一個(gè)事件或?qū)ο髿w類(lèi),其特點(diǎn)是先對(duì)不同類(lèi)別加以定義,并由預(yù)先已分好類(lèi)的樣構(gòu)成訓(xùn)練集,為每個(gè)類(lèi)別作出準(zhǔn)確的描述或建立分析模型或挖掘出分類(lèi)規(guī)則,然后對(duì)其他數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分類(lèi)。用于分類(lèi)分析的技術(shù)很多,典型的方法有統(tǒng)計(jì)方法的貝葉斯分類(lèi)#機(jī)器學(xué)習(xí)的判定樹(shù)歸納分類(lèi)#神經(jīng)網(wǎng)絡(luò)的后向傳播分類(lèi)等。還有其他一些分類(lèi)方法,包括K-最臨近分類(lèi)、遺傳算法、粗糙集和模糊集方法以及支持向量機(jī)。本文所架構(gòu)的個(gè)人身份信息識(shí)別模型是建立在分類(lèi)技術(shù)基礎(chǔ)之上的。具體來(lái)說(shuō),將個(gè)人身份識(shí)別看成是文本的分類(lèi)問(wèn)題,利用采用支持向量機(jī)和Lingpipe。分類(lèi)算法來(lái)實(shí)現(xiàn)。支持向量機(jī)是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)技術(shù),在解決小樣本、非線性問(wèn)題中表現(xiàn)出獨(dú)特優(yōu)勢(shì),其遵循結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,具有很強(qiáng)的學(xué)習(xí)能力和泛化性能,能夠較好地解決小樣本、高維數(shù)、非線性、局部極小等問(wèn)題,可以有效地進(jìn)行分類(lèi)、回歸、密度估計(jì)等。由于有這些優(yōu)點(diǎn),支持向量機(jī)已成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。Lingpipe是由Alias公司開(kāi)發(fā)的一款功能非常強(qiáng)大的自然語(yǔ)言處理軟件包。其包括的模塊主要有主題分類(lèi)(TopClassification)、命名實(shí)體識(shí)別(NamedEntityRecognition)、詞性標(biāo)注(Part-ofSpeechTagging)、句題檢測(cè)(SentenceDetection)、查詢(xún)拼寫(xiě)錯(cuò)誤(QuerySpellChecking)、興趣短語(yǔ)檢測(cè)(InterestingPhraseDetection)、聚類(lèi)(Clustering)等。Lingpipe上展示的不僅僅只是一個(gè)工具包,而且可以找到很多自然語(yǔ)言處理方面的信息,包括從基本的字符語(yǔ)言模型到語(yǔ)義層次的傾向性發(fā)掘等,從以往的研究到最新動(dòng)向,都可以得到不少借鑒參考。此外,大多數(shù)的實(shí)驗(yàn)證明Lin
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 智能家居廠房抵押貸款合同
- 財(cái)務(wù)總監(jiān)職位競(jìng)聘與績(jī)效獎(jiǎng)金合同
- 餐飲企業(yè)服務(wù)員定期評(píng)估雇傭合同
- 手術(shù)的護(hù)理診斷
- 武術(shù)介紹課件
- 武曉紅稅務(wù)老師課件
- 2025年農(nóng)產(chǎn)品購(gòu)銷(xiāo)協(xié)議
- 危險(xiǎn)品倉(cāng)庫(kù)管理培訓(xùn)
- 培訓(xùn)學(xué)校管理制度
- 古代詩(shī)歌閱讀高頻考點(diǎn)沖刺練(含答案)-2025屆高考語(yǔ)文三輪復(fù)習(xí)
- 小學(xué)六年級(jí)信息技術(shù)復(fù)習(xí)題
- 食品安全培訓(xùn)(食品安全知識(shí))-課件
- 初二物理新人教版《功》公開(kāi)課一等獎(jiǎng)省優(yōu)質(zhì)課大賽獲獎(jiǎng)?wù)n件
- 北京大學(xué)國(guó)際政治經(jīng)濟(jì)學(xué)教學(xué)大綱
- 跨文化溝通的本質(zhì)-PPT課件
- 合肥市建設(shè)工程消防設(shè)計(jì)審查、消防驗(yàn)收、備案與抽查文書(shū)樣式
- 《電氣工程基礎(chǔ)》熊信銀-張步涵-華中科技大學(xué)習(xí)題答案全解
- 北美連續(xù)油管技術(shù)的新進(jìn)展及發(fā)展趨勢(shì)李宗田
- 行政單位會(huì)計(jì)實(shí)習(xí)報(bào)告(共36頁(yè))
- 110千伏變電站工程檢測(cè)試驗(yàn)項(xiàng)目計(jì)劃
- 《鐵路貨物運(yùn)價(jià)規(guī)則》
評(píng)論
0/150
提交評(píng)論