版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
目錄網(wǎng)絡(luò)信息內(nèi)容安全概述12網(wǎng)絡(luò)空間信息內(nèi)容獲取3網(wǎng)絡(luò)信息內(nèi)容預(yù)處理1Jasmine.More1.網(wǎng)絡(luò)信息內(nèi)容安全概述2社會信息化和網(wǎng)絡(luò)化導(dǎo)致數(shù)據(jù)的爆炸式增長云計算、物聯(lián)網(wǎng)等新技術(shù)催生大數(shù)據(jù)數(shù)據(jù)倉庫、數(shù)據(jù)分析、數(shù)據(jù)挖掘等技術(shù)大數(shù)據(jù)的核心是數(shù)據(jù)、技術(shù)和思維信息內(nèi)容安全背景3體量速度多變性多樣性表現(xiàn)形式多樣化,內(nèi)容豐富數(shù)量巨大,增長迅速,時效性強傳播速度快、范圍廣,具有交互性網(wǎng)絡(luò)信息內(nèi)容的特征存儲數(shù)字化,傳輸網(wǎng)絡(luò)化信息內(nèi)容安全背景結(jié)構(gòu)復(fù)雜,分布廣泛信息源復(fù)雜、無序,缺乏穩(wěn)定性4大數(shù)據(jù)特性網(wǎng)絡(luò)信息內(nèi)容概念■信息識別、檢索與篩選■信息理解、發(fā)現(xiàn)與追蹤■信息欺騙與謀略■信息阻斷■內(nèi)容版權(quán)保護■信息偽裝5內(nèi)容:在認(rèn)知層面的內(nèi)容安全?網(wǎng)絡(luò)內(nèi)容安全目前大致可分為兩類基于內(nèi)容的訪問控制,如基于數(shù)據(jù)包的流量監(jiān)測基于信息傳播的互聯(lián)網(wǎng)安全管理問題,反映的是網(wǎng)絡(luò)用戶公開發(fā)布的信息所帶來的對社會公共安全問題網(wǎng)絡(luò)信息內(nèi)容概念網(wǎng)絡(luò)信息內(nèi)容安全處在安全體系中最上層,更傾向于信息自身的安全(應(yīng)用層安全)6網(wǎng)絡(luò)信息內(nèi)容安全內(nèi)涵7對信息內(nèi)容的保護防竊取、防篡改等,這涉及信息內(nèi)容保密、知識產(chǎn)權(quán)保護、信息隱藏、隱私保護、病毒查殺、網(wǎng)絡(luò)攻擊檢測等符合政治、法律、道德層次的要求政治上健康,符合法律法規(guī),符合中華民族的優(yōu)良道德規(guī)范網(wǎng)絡(luò)信息內(nèi)容安全內(nèi)涵。包括病毒查殺、惡意代碼、網(wǎng)頁過濾、垃圾郵件過濾、多媒體安全、數(shù)字水印、數(shù)字取證等。國內(nèi)(窄)不包括病毒及防范,強調(diào)信息安全在法律、法規(guī)、道德上的要求。利用計算機從海量信息并且迅速變化的網(wǎng)絡(luò)中對特定安全主題相關(guān)信息自動獲取、識別和分析。是管理不良信息傳播的重要手段。國外(寬)8網(wǎng)絡(luò)信息內(nèi)容安全內(nèi)涵領(lǐng)域內(nèi)涵政治方面防范敵對勢力意識形態(tài)滲透、策劃“顏色革命”、煽動“街頭政治”和恐怖活動、組織規(guī)模事件,維護社會政治穩(wěn)定宗教方面防止外國宗教勢力的網(wǎng)絡(luò)滲透、假借宗教名義網(wǎng)絡(luò)行騙、邪教組織的網(wǎng)絡(luò)活動文化方面防止敵對勢力的“西化”圖謀、對中國的“妖魔化”(如中國崩潰論、中國威脅論)、抹黑歷史、詆毀社會主義核心價值觀健康方面凈化網(wǎng)絡(luò),過濾色情、淫穢、暴力、謠言、賭博、毒品等內(nèi)容,防止網(wǎng)絡(luò)詐騙、網(wǎng)絡(luò)欺凌、網(wǎng)絡(luò)盯梢9網(wǎng)絡(luò)信息內(nèi)容安全內(nèi)涵領(lǐng)域內(nèi)涵生產(chǎn)方面防止濫用企事業(yè)單位的網(wǎng)絡(luò)資源,如工作時間購物、刷視頻等違規(guī)檢測,廣告、病毒、垃圾郵件過濾,提高生產(chǎn)效率安全方面防止泄密、篡改、偽造,防止病毒、木馬傳播,攔截網(wǎng)絡(luò)攻擊流量版權(quán)方面防止網(wǎng)絡(luò)侵權(quán),如盜版、歪曲篡改他人作品、非法轉(zhuǎn)播隱私方面防止個人隱私泄露,防止個人數(shù)據(jù)被盜取、倒賣、濫用等1011。在線的網(wǎng)頁、郵件、實時通信內(nèi)容,離線的電子數(shù)據(jù)(文檔、音頻視頻文件)。信息過濾過濾不良信息、違法信息(低俗、色情、反動信息)。輿情分析發(fā)現(xiàn)、跟蹤熱點話題,預(yù)測話題傳播方向,自動生成熱點信息報告供只能部門科學(xué)決策事件挖掘在海量信息中挖掘敏感事件信息,預(yù)測未來影響、傳播。如挖掘可能的恐怖事件技術(shù)領(lǐng)域自然語言理解、圖像內(nèi)容理解、視頻與音頻處理、數(shù)據(jù)挖掘、智能過濾、智能推薦、大數(shù)據(jù)技術(shù)。內(nèi)容安全要素處理對象11信息內(nèi)容安全研究方向12。信息內(nèi)容識別研究大規(guī)模信息感知與識別,包括:快速過濾與內(nèi)容安全監(jiān)控、自然語言處理、視覺理解、模式識別、分類等。社交網(wǎng)絡(luò)挖掘通過對社交網(wǎng)絡(luò)中的鏈接結(jié)構(gòu)和文本內(nèi)容進行挖掘分析,尋找社交網(wǎng)絡(luò)事件演變規(guī)律。用戶行為分析從用戶歷史行為數(shù)據(jù)中挖掘有用信息的技術(shù),其實質(zhì)是通過挖掘用戶在網(wǎng)絡(luò)產(chǎn)生的各種數(shù)據(jù),為每個用戶建模信息檢索解決信息過載問題網(wǎng)絡(luò)輿情計算研究信息抽取、網(wǎng)絡(luò)文本分類、傾向性分析、話題發(fā)現(xiàn)與跟蹤、問答分析等安全檢測防護研究面向網(wǎng)絡(luò)空間高級安全威脅的檢測、防護、追蹤、感知、預(yù)警等技術(shù)Jasmine.More2.網(wǎng)絡(luò)空間信息內(nèi)容獲取13網(wǎng)絡(luò)媒體形態(tài)發(fā)布信息類型網(wǎng)絡(luò)媒體信息是指互聯(lián)網(wǎng)公開發(fā)布的信息網(wǎng)絡(luò)媒體信息劃分方法媒體發(fā)布方式網(wǎng)頁具體形態(tài)14主要包含新聞網(wǎng)站,論壇(BBS)、博客(Blog)等形態(tài)(廣播式);新興的交互式媒體涵蓋搜索引擎、多媒體(視/音頻)點播、網(wǎng)上交友、網(wǎng)上招聘與電子商務(wù)(網(wǎng)絡(luò)購物)等形態(tài)(交互式)BBS能否找到灌水帖子,博客上是否有水軍,58同城是否有虛假房源網(wǎng)上交友是否有詐騙,招聘網(wǎng)站是否為傳銷信息,淘寶是否有違禁品、盜版等。傳統(tǒng)網(wǎng)站媒體論壇(BBS),博客(Blog)新型網(wǎng)絡(luò)媒體多媒體(視/音頻)點播網(wǎng)上交友根據(jù)網(wǎng)絡(luò)媒體形態(tài)分類15可細(xì)分為文本信息、圖像信息、音頻信息與視頻信息4種類型,其中,網(wǎng)絡(luò)文本信息始終是網(wǎng)絡(luò)媒體信息中占比最大的信息類型。是否為虛假信息、是否為色情圖片、是否為暴恐音頻與視頻信息?主流信息文本信息、圖像信息日趨增多音頻信息與視頻信息按發(fā)布信息類型分類16按照網(wǎng)絡(luò)媒體所選擇信息發(fā)布方式的不同,網(wǎng)絡(luò)媒體信息還可以分成可直接匿名瀏覽的公開發(fā)布信息,以及需要實現(xiàn)身份認(rèn)證才可以進一步點擊閱讀的網(wǎng)絡(luò)媒體發(fā)布信息直接匿名瀏覽的公開發(fā)布信息需要實現(xiàn)身份認(rèn)證訪問的網(wǎng)絡(luò)媒體信息按媒體發(fā)布方式分類17按網(wǎng)頁內(nèi)容的具體構(gòu)成形態(tài),還可以對網(wǎng)絡(luò)媒體信息中的靜態(tài)網(wǎng)頁與動態(tài)網(wǎng)頁數(shù)據(jù)指數(shù)增長靜態(tài)網(wǎng)頁。結(jié)構(gòu)日趨復(fù)雜動態(tài)網(wǎng)頁按網(wǎng)頁具體形態(tài)分類18網(wǎng)絡(luò)通信信息一般指互聯(lián)網(wǎng)用戶使用除網(wǎng)絡(luò)瀏覽器以外的專用客戶端軟件,實現(xiàn)與特定點的通信或進行點對點通信時所交互的信息。常見的網(wǎng)絡(luò)通信信息包括使用電子郵件客戶端收發(fā)信件時通過網(wǎng)絡(luò)傳輸?shù)男畔?,以及使用即時聊天工具進行點對點交流時所傳輸?shù)木W(wǎng)絡(luò)信息。IM通訊軟件電子郵件客戶端收發(fā)郵件網(wǎng)絡(luò)通信信息分類19(1)主動獲取技術(shù):通過向網(wǎng)絡(luò)發(fā)出請求來獲取信息,特點是接入方式簡單,能夠獲取更廣泛的信息內(nèi)容,但會對網(wǎng)絡(luò)造成額外的負(fù)擔(dān)。(網(wǎng)絡(luò)媒體信息獲?。┬畔@取技術(shù)分類(2)被動獲取技術(shù):在網(wǎng)絡(luò)出入口上通過旁路偵聽方式獲取網(wǎng)絡(luò)信息,特點是接入需要網(wǎng)絡(luò)管理者的協(xié)作,獲取的內(nèi)容僅限于進出本地網(wǎng)絡(luò)的數(shù)據(jù)流,但不會對網(wǎng)絡(luò)造成額外流量。(網(wǎng)絡(luò)通信信息獲?。?0理想的網(wǎng)絡(luò)媒體信息獲取流程初始URL集合信息獲取網(wǎng)絡(luò)媒體信息獲取一般流程信息解析信息判重網(wǎng)絡(luò)媒體信息獲取的一般流程211.初始URL集合最初由搜索引擎研究人員提出維護相當(dāng)數(shù)量初始URL集合網(wǎng)絡(luò)媒體信息獲取一般流程網(wǎng)頁內(nèi)嵌地址的遞歸操作形象地稱為信息“種子”集合跟隨網(wǎng)頁內(nèi)嵌鏈接逐級遞歸遍歷互聯(lián)網(wǎng)絡(luò)222.信息獲取待獲取內(nèi)容協(xié)議解析向信息發(fā)布網(wǎng)站請求所需內(nèi)容網(wǎng)絡(luò)媒體信息獲取一般流程接收來自網(wǎng)站的響應(yīng)信息傳遞給后續(xù)的信息解析模塊HTTP文本信息獲取范例233.信息內(nèi)容解析提取發(fā)布信息的主體內(nèi)容維護與網(wǎng)絡(luò)內(nèi)容的關(guān)鍵字段網(wǎng)絡(luò)媒體信息獲取一般流程內(nèi)容轉(zhuǎn)交至信息判重模塊關(guān)鍵字段存入信息庫信息內(nèi)容解析244.信息判重判定是否已獲取內(nèi)嵌URL信息內(nèi)容若是,注明信息失效時間及最近修改時間的URL網(wǎng)絡(luò)媒體信息獲取一般流程否則重啟完整的信息采集操作信息判重向?qū)?yīng)的網(wǎng)絡(luò)內(nèi)容發(fā)布媒體發(fā)起信息查新獲取操作25URL判重、內(nèi)容摘要判重全網(wǎng)信息獲取定點信息獲取基于主題的信息獲取與元搜索網(wǎng)絡(luò)媒體信息獲取的分類全網(wǎng)信息獲取工作范圍涉及整個國際互聯(lián)網(wǎng)內(nèi)所有網(wǎng)絡(luò)媒體發(fā)布信息,應(yīng)用于搜索引擎(SearchEngine),例如Google、Baidu或Yahoo等,和大型內(nèi)容服務(wù)提供商(ContentServiceprovider)的信息獲取。定點信息獲取的工作范圍限制在服務(wù)于信息獲取的初始URL集合中每個URL所屬的網(wǎng)絡(luò)目錄內(nèi)深入獲取每個初始URL所屬的網(wǎng)絡(luò)目錄及其下子目錄中包含的網(wǎng)絡(luò)發(fā)布內(nèi)容,不再向初始URL所屬網(wǎng)絡(luò)目錄的上級目錄乃至整個互聯(lián)網(wǎng)擴散信息獲取行為元搜索屬于特殊的基于主題的信息獲取將主題描述詞傳遞給搜索引擎進行信息檢索,并把搜索引擎針對主題描述詞的信息檢索結(jié)果作為基于主題信息獲取的返回內(nèi)容原因是,每個搜索引擎在為輸入詞目構(gòu)造信息檢索URL時是有規(guī)律可循的。26Jasmine.More3.網(wǎng)絡(luò)信息內(nèi)容預(yù)處理27分詞,去停用詞特征子集選擇與特征重構(gòu)如何去除和減弱文本信息噪聲和變形的影響是文本信息處理軟件所遇到的一個重要的問題網(wǎng)絡(luò)信息內(nèi)容預(yù)處理概述語義特征提取向量生成和文本內(nèi)容分析28中文是以字為基本書寫單位,單個字往往不足以表達(dá)一個意思,通常認(rèn)為詞是表達(dá)語義的最小元素。因此須對中文字符串進行合理的切分。分詞算法可分為三大類:基于字符串匹配的分詞方法、基于統(tǒng)計的分詞方法和基于理解的分詞方法。在中文分詞過程中,有兩大難題。(1)歧義識別:歧義是指同樣的一句話,可能有兩種或者更多的切分方法。(2)新詞識別:新詞,專業(yè)術(shù)語稱為未登錄詞。也就是那些在字典中都沒有收錄過,但又確實能稱為詞的那些詞。中文分詞29基于字符串匹配的分詞方法:又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。中文分詞30基于統(tǒng)計的分詞方法:詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。可以對語料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計,計算它們的互現(xiàn)信息?;诶斫獾姆衷~方法:通過讓計算機模擬人對句子的理解,達(dá)到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現(xiàn)象。字符串匹配優(yōu)點是:分詞過程是跟詞典作比較,不需要大量的語料庫、規(guī)則庫,其算法簡單、復(fù)雜性小、對算法作一定的預(yù)處理后分詞速度較快;缺點是:不能消除歧義、識別未登錄詞,對詞典的依賴性比較大,若詞典足夠大,其效果會更加明顯。中文分詞技術(shù)特點基于統(tǒng)計方法優(yōu)點是:由于是基于統(tǒng)計規(guī)律的,對未登錄詞的識別表現(xiàn)出了一定的優(yōu)越性,不需要預(yù)設(shè)詞典;缺點是:需要一個足夠大的語料庫來統(tǒng)計訓(xùn)練,其正確性很大程度上依賴訓(xùn)練語料庫的質(zhì)量好壞,算法較為復(fù)雜,計算量大,周期長,但是都較為常見,處理速度一般?;诶斫夥椒▋?yōu)點是:由于能理解字符串含義,對未登錄詞具有很強的識別能力,能很好的解決歧義問題,不需要詞典及大量語料庫訓(xùn)練;缺點是:需要一個準(zhǔn)確、完備的規(guī)則庫,依賴性較強,效果好壞往往取決于規(guī)則庫的完整性。算法比較復(fù)雜、實現(xiàn)技術(shù)難度較大,處理速度比較慢。31計算機對其處理不但是沒有價值的工作,還會增加運算復(fù)雜度,通常文本的停用詞處理中可采用基于詞頻的方法將其除去??梢园礃I(yè)務(wù)需要,專門整理對業(yè)務(wù)無幫助或無意義的詞。甚至停用“句”——如針對電商的“此用戶沒有發(fā)表評論?!蓖S迷~32停用詞(StopWords)主要是功能詞,功能詞沒有什么實際含義,比如'the'、'is'、'at'、'which'、'on'等。中文停用詞-中,?、?!啊薄丁?,:;?人民末啊阿哎哎呀哎喲根據(jù)語義級別由低到高來分,文本語義特征可分為:亞詞級別、詞級別、多詞級別、語義級別和語用級別。其中,應(yīng)用最為廣泛的是詞級別。語義特征提取語義特征需具備如下特征:特征項要能確實標(biāo)識文本內(nèi)容具有將目標(biāo)文本與其他文本相區(qū)分的能力特征項的個數(shù)不能太多特征項分離要比較容易實現(xiàn)33語義特征提取有一篇很長的文章,我要用計算機提取它的關(guān)鍵詞(AutomaticKeyphraseextraction),完全不加以人工干預(yù),請問怎樣才能正確做到?34語義特征提取假定現(xiàn)在有一篇長文《中國的蜜蜂養(yǎng)殖》,我們準(zhǔn)備用計算機提取它的關(guān)鍵詞;首先思路,如果某個詞很重要,它應(yīng)該在這篇文章中多次出現(xiàn)。于是,我們進行“詞頻”統(tǒng)計;我們可能發(fā)現(xiàn)"中國"、"蜜蜂"、"養(yǎng)殖"這三個詞的出現(xiàn)次數(shù)一樣多。這是不是意味著,作為關(guān)鍵詞,它們的重要性是一樣的?如果某個詞比較少見,但是它在這篇文章中多次出現(xiàn),那么它很可能就反映了這篇文章的特性,正是我們所需要的關(guān)鍵詞35語義特征提取——例子如下的向量來表示某第二篇,以便于計算機理解和處理。
w2=(文本,5,統(tǒng)計學(xué)習(xí),4,模型,0,……)這個向量表示在w2所代表的文本中,“文本”這個詞出現(xiàn)了5次(這個信息就叫做詞頻),“統(tǒng)計學(xué)習(xí)”這個詞出現(xiàn)了4次,而“模型”這個詞出現(xiàn)了0次,依此類推,后面的詞沒有列出。系列的第三篇文章可以表示為
w3=(文本,9,統(tǒng)計學(xué)習(xí),4,模型,10,……)其含義同上。如果還有更多的文檔需要表示,我們都可以使用這種方式。例如我們的問題就可以抽離出一個詞典向量
D=(文本,統(tǒng)計學(xué)習(xí),模型,……)所有的文檔向量均可在參考這個詞典向量的基礎(chǔ)上簡化成諸如
w2=(5,4,0,……)
w3=(9,4,10,……)的形式,其含義沒有改變。
5,4,10這些數(shù)字分別叫做各個詞在某個文檔中的權(quán)重,實際上單單使用詞頻作為權(quán)重并不多見,也不十分有用,更常見的做法是使用TF-IDF值作為權(quán)重。36詞級別(WordLevel)以詞作為基本語義特征。以單詞作為基本語義特征在文本分類、信息檢索系統(tǒng)中工作良好,是最常見的基本語義特征。詞級別語義特征詞特征可進行計算的因素有很多,最常用的有詞頻、詞性:詞頻(高頻、中頻、低頻)詞性(實詞、虛詞)標(biāo)題、句法結(jié)構(gòu)詞語長度、詞語直徑詞袋模型首次出現(xiàn)位置(較早出現(xiàn)、晚出現(xiàn))37詞語分布偏差(分布均勻?)語義與語用級別語義特征38語義級別目前只應(yīng)用在受限領(lǐng)域。語義:句子的字面含義。Whatissaid.無視語境。語用級別語用:句子的言外之意。Whatisimplicated。隨語境變化。特征子集選擇機器學(xué)習(xí)領(lǐng)域存在多種特征選擇方法,Guyon等人對特征子集選擇進行了詳盡討論,分析比較了目前常用的3種特征選擇方式:過濾(filter)、組合(wrappers)與嵌入(embedded)39停用詞過濾過濾對分類沒有貢獻的特征項停用詞表可以手工建立,也可以通過統(tǒng)計自動生成頻繁出現(xiàn),對分類卻沒有貢獻40文檔頻率閾值法-長尾理論和二八定律41二八定律是19世紀(jì)末20世紀(jì)初意大利經(jīng)濟學(xué)家帕累托發(fā)現(xiàn)的。他認(rèn)為,在任何一組東西中,最重要的只占其中一小部分,約20%,其余80%盡管是多數(shù),卻是次要的,因此又稱二八定律。社會上20%的人占有80%的社會財富;20%的投入就有80%的產(chǎn)出;20%喝啤酒的人喝掉80%的啤酒;80%的利潤來自于20%的產(chǎn)品;80%的利潤來自于20%的顧客。長尾(TheLongTail)這一概念用來描述諸如亞馬遜和Netflix之類網(wǎng)站的商業(yè)和經(jīng)濟模式。例如,某著名網(wǎng)站是世界上最大的網(wǎng)絡(luò)廣告商,它沒有一個大客戶,收入完全來自被其他廣告商忽略的中小企業(yè)。網(wǎng)絡(luò)時代是關(guān)注“長尾”、發(fā)揮“長尾”效益的時代。文檔頻率閾值法用于去除訓(xùn)練樣本集中出現(xiàn)頻率較低的特征項詞頻對標(biāo)識文本類別的重要性文檔頻率閾值法與齊夫定律齊夫定律單詞出現(xiàn)的頻率TF(t)與其序號Rank(t)存在近似反比關(guān)系一個中文語料的齊夫定律現(xiàn)象驗證X軸為序號,y軸詞頻42Rank(t)*TF(t)CTF-IDFTF-IDF(特征項頻率——逆文本頻率指數(shù)TF-IDF方法則結(jié)合考慮兩個部分,第一部分認(rèn)為,出現(xiàn)次數(shù)較多的特征項對分類貢獻較大;第二部分認(rèn)為,如果一個特征項在訓(xùn)練樣本集中的大多數(shù)樣本中都出現(xiàn),則該特征項對分類貢獻不大,應(yīng)當(dāng)去除43TF-IDFTF-IDF(特征項頻率——逆文本頻率指數(shù)一篇文章一共100個詞匯,其中“機器學(xué)習(xí)”一共出現(xiàn)10次,那么它的TF就是10/100=0.1,一個文件集中有100篇文章,共有10篇文章包含“機器學(xué)習(xí)”這個詞,那么它的文檔頻率就是10/100=0.1,逆文本頻率IDF就是這個值的倒數(shù),即1044語義特征提取例子"蜜蜂"的TF-IDF值最高,"養(yǎng)殖"其次,"中國"最低。(如果還計算"的"字的TF-IDF,那將是一個極其接近0的值。)所以,如果只選擇一個詞,"蜜蜂"就是這篇文章的關(guān)鍵詞。假定《中國的蜜蜂養(yǎng)殖》長度為1000個詞,“中國”、“蜜蜂”、“養(yǎng)殖”各出現(xiàn)20次,則這三個詞的“詞頻”(TF)都為0.02。假設(shè)中文網(wǎng)頁有250億。IDF(中國)=log(250/62.3)=0.60345特征重構(gòu)以特征項集合為輸入,利用對特征項的組合或轉(zhuǎn)換生成新的特征集合作為輸出一般有如下要求:輸出的特征數(shù)量要遠(yuǎn)遠(yuǎn)少于輸入的數(shù)量盡可能地保留原有類別區(qū)分能力特征重構(gòu)基于語義的方法,如詞干與知識庫方法基于統(tǒng)計等數(shù)學(xué)方法,如潛在語義索引特征重構(gòu)常用方法:46由于英文存在詞形變化情況,詞干方法(stemming)在英文文本處理中應(yīng)用較
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 寵物服務(wù)保安工作總結(jié)
- 【正版授權(quán)】 ISO 59040:2025 EN Circular economy - Product circularity data sheet
- 2025-2030全球商業(yè)藥品采購行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國草酸镥水合物行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球農(nóng)機三角帶行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球工業(yè)級硅酸鉀行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國航空航天設(shè)備零部件用清洗機行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球直流電流分流器行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球帳篷地面釘行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球500+Ah電芯行業(yè)調(diào)研及趨勢分析報告
- 【字貼】人教PEP版-小學(xué)英語四年級上冊單詞表國標(biāo)體描紅字帖(含音標(biāo))
- 班組建設(shè)考核制度
- 如何寫好賞析文章
- 超聲科圖像質(zhì)量評價細(xì)則及超聲科制度匯編
- 損傷控制性手術(shù)
- 中國古代文學(xué)史 馬工程課件(中)24第六編 遼西夏金元文學(xué) 緒論
- 2022版義務(wù)教育(勞動)課程標(biāo)準(zhǔn)(含2022年修訂部分)
- 過松源晨炊漆公店(其五)課件
- 最新交管12123學(xué)法減分題庫含答案(通用版)
- 安全事故案例圖片(76張)課件
- 奢侈品管理概論完整版教學(xué)課件全書電子講義(最新)
評論
0/150
提交評論