已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
科研進(jìn)展和開題準(zhǔn)備,面向HTML網(wǎng)頁資源的網(wǎng)頁主題信息提取研究 武洋,總體框架,一 科研成果和科研方向 成果 科研方向 二 開題準(zhǔn)備情況 一個系統(tǒng) 三個可能創(chuàng)新點(diǎn),科研成果,學(xué)術(shù)會議pdf資源的抓取 參與法學(xué)和經(jīng)濟(jì)學(xué)領(lǐng)域web資源檢索系統(tǒng)的實(shí)現(xiàn) 協(xié)助蘇哲師兄完成網(wǎng)絡(luò)資源抓取系統(tǒng)的部分模塊,接手后續(xù)工作。,科研方向,網(wǎng)頁資源主題抓取方面的相關(guān)工作,系統(tǒng)的架構(gòu),中文PDF資源抓取系統(tǒng),英文PDF資源抓取系統(tǒng),HTML網(wǎng)頁資源抓取系統(tǒng),特色經(jīng)濟(jì)學(xué)法學(xué)類資源抓取系統(tǒng),會議學(xué)術(shù)類資源抓取系統(tǒng),網(wǎng)頁資源抓取的過程,1. 主題描述:研究主題描述的方式,選擇一種適合的方式描述主題,既可以與原有系統(tǒng)相融合,便于用戶使用,又可以對不同主題有較好的區(qū)分度并便于擴(kuò)展,同時又便于主題爬蟲工作。 2. 主題爬蟲:研究主題爬蟲的實(shí)現(xiàn)方式,主題爬蟲目標(biāo)是希望在盡量小的搜索空間中找到盡量多的與主題相關(guān)的資源,既需要有較高的查準(zhǔn)率,又要有較高的查全率,并保證主題不發(fā)生偏移。 3. 網(wǎng)頁分析:分析抓取到的網(wǎng)頁資源的結(jié)構(gòu),在此基礎(chǔ)上通過某種高效的算法確定網(wǎng)頁中的主要信息塊。 4. 信息抽?。横槍Π畔⒘看?、格式相對規(guī)范的網(wǎng)頁資源,提出一種有效的主題信息抽取算法。 5. 資源展示:針對經(jīng)濟(jì)學(xué)法學(xué)門戶知識檢索平臺,選擇一種對用戶友好的推薦資源展示界面。,存在的問題和難點(diǎn),如何確定一種高效簡潔的網(wǎng)頁分塊算法 如何迅速有效地確定網(wǎng)頁的主要信息塊 網(wǎng)頁資源的去重 網(wǎng)頁中的主題無關(guān)信息的去除 主題信息提取結(jié)果與主題的相關(guān)性評價,另外一種抓取策略,Structure-driven的抓取方式,實(shí)驗(yàn)室是是基于content-driven。 針對特定門戶,精確率和召回率都很高。 Site mapping ,生成target pages map navigation pattern generation正則表達(dá)式。,Structure-driven的抓取方式,Entry point,Sample page,Target page,TPM,TPM的轉(zhuǎn)化和NP的選擇。,算法,網(wǎng)頁資源的去重,Web上的html網(wǎng)頁資源雖然千差萬別,但仍然有大量的重復(fù)資源。這種重復(fù)可以分為以下三類: 完全相同的重復(fù)。主要原因?yàn)槟骋粋€具有高權(quán)威的網(wǎng)頁被其他眾多的網(wǎng)頁直接援引,使用直接提供URL鏈接的方式進(jìn)行引用。這樣一個同樣的頁面的鏈接會出現(xiàn)在其他N個頁面上,在我們的主題爬蟲去爬取時,便會得到這些重復(fù)的資源。這些網(wǎng)頁資源的URL、標(biāo)題和內(nèi)容會完全相同。 文章URL不同,但標(biāo)題和內(nèi)容相同的重復(fù)。主要原因?yàn)槠渌撁鎸?quán)威頁面的標(biāo)題和內(nèi)容拷貝至本地站點(diǎn)靜態(tài)存儲并給予不同鏈接地址。 文章URL不同,標(biāo)題也不同,但內(nèi)容完全相同或大致相同的重復(fù)。與前兩種重復(fù)方式相同的是,其他頁面對權(quán)威網(wǎng)頁進(jìn)行轉(zhuǎn)載;但卻只是轉(zhuǎn)載了權(quán)威頁面的主要內(nèi)容或主要段落,這樣得到的新的網(wǎng)頁雖然URL、標(biāo)題甚至網(wǎng)頁的結(jié)構(gòu)都與源網(wǎng)頁不同,但內(nèi)容卻完全相同或大致相同。,網(wǎng)頁去重的策略,同源網(wǎng)頁去重 基于網(wǎng)頁內(nèi)容的去重,同源網(wǎng)頁去重,構(gòu)造一個適當(dāng)?shù)墓:瘮?shù)H 可得到從網(wǎng)頁URL 字符序列到哈希值的映射,相同的URL 字符串會得到相同的哈希值,從而說明該URL 已被下載過.,基于網(wǎng)頁內(nèi)容的去重,內(nèi)容重復(fù)或近似的網(wǎng)頁在新聞類網(wǎng)站中所占的比例是很高的. 比如:有些重要網(wǎng)頁可能被多家網(wǎng)站同時轉(zhuǎn)載(如教育部關(guān)于加強(qiáng)學(xué)校體育活動安全防范工作的緊急通知) ,雖然它們的URL 不同(甚至標(biāo)題也略有不同,如教育部要求加強(qiáng)學(xué)校體育活動安全防范工作的緊急通知) ,仍應(yīng)認(rèn)為是同一個內(nèi)容,不需重復(fù)下載.,基于網(wǎng)頁內(nèi)容的去重,由于自然語言的復(fù)雜性,一直是搜索引擎領(lǐng)域一個亟待解決的難題。其關(guān)鍵問題是文本特征的抽取和大規(guī)模內(nèi)容的快速計(jì)算。,基于網(wǎng)頁內(nèi)容的去重,基于詞頻統(tǒng)計(jì)的方法 一種基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重,基于詞頻統(tǒng)計(jì)的方法,通過統(tǒng)計(jì)文本中出現(xiàn)的關(guān)鍵詞的個數(shù),將高頻詞作為文本特征來計(jì)算相似度。由于一篇文章的詞頻很難被修改,這種方法的召回率很高。但是對于一些新聞題材或模板類的文章,由于關(guān)鍵詞非常相似,常常會引起誤判,準(zhǔn)確率較低。,一種基于網(wǎng)頁文本結(jié)構(gòu)的網(wǎng)頁去重,對網(wǎng)頁文本結(jié)構(gòu)有標(biāo)識性作用的HTML結(jié)標(biāo)簽和項(xiàng)目編號或符號賦予一定的權(quán)值,然后依據(jù)自然段權(quán)值的大小來生成目錄結(jié)構(gòu)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度木材綜合利用技術(shù)研發(fā)合同樣本7篇
- 2025年加盟商店面維護(hù)協(xié)議
- 2025版巡游出租車特許經(jīng)營合同修訂版五3篇
- 2025版家居建材銷售合同終止與綠色環(huán)保認(rèn)證協(xié)議
- 2025年度船舶港口日常保潔與維護(hù)服務(wù)合同3篇
- 五氧化二釩項(xiàng)目評價分析報告
- 二零二五年度能源合同解除協(xié)議
- 二零二五年度出租車租賃合同司機(jī)休息區(qū)域與設(shè)施協(xié)議
- 二零二五年度海域使用權(quán)租賃及海洋資源綜合利用技術(shù)服務(wù)合同
- 二零二五年度股東變更后的董事會組成與授權(quán)協(xié)議
- 中國聯(lián)合網(wǎng)絡(luò)通信有限公司招聘筆試題庫2024
- 【社會工作介入精神障礙社區(qū)康復(fù)問題探究的文獻(xiàn)綜述5800字】
- 節(jié)前停工停產(chǎn)與節(jié)后復(fù)工復(fù)產(chǎn)安全注意事項(xiàng)課件
- 設(shè)備管理績效考核細(xì)則
- 中國人民銀行清算總中心直屬企業(yè)2023年招聘筆試上岸歷年典型考題與考點(diǎn)剖析附帶答案詳解
- (正式版)SJT 11449-2024 集中空調(diào)電子計(jì)費(fèi)信息系統(tǒng)工程技術(shù)規(guī)范
- 人教版四年級上冊加減乘除四則混合運(yùn)算300題及答案
- 合成生物學(xué)技術(shù)在生物制藥中的應(yīng)用
- 消化系統(tǒng)疾病的負(fù)性情緒與心理護(hù)理
- 高考語文文學(xué)類閱讀分類訓(xùn)練:戲劇類(含答案)
- 協(xié)會監(jiān)事會工作報告大全(12篇)
評論
0/150
提交評論