互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集

上傳人：7*** IP屬地：湖北上傳時間：2022-01-20 格式：DOC 頁數(shù)：5 大小：43.50KB 積分：15 舉報 版權(quán)申訴

互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集_第2頁

互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集_第3頁

互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集_第4頁

互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集_第5頁

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集中國科學(xué)院計算機網(wǎng)絡(luò)信息中心杜義華焦文彬摘要: 文章分析和介紹對互聯(lián)網(wǎng)中XML+XSL網(wǎng)頁資源鏈接解析和內(nèi)容采集的方法，包括傳統(tǒng)HTML中鏈接解析、XML轉(zhuǎn)換為HTML后鏈接解析、手工定制下XML鏈接解析和傳統(tǒng)HTML信息采集、XML信息抽取、XML轉(zhuǎn)換為HTML的信息采集等。關(guān)鍵詞：互聯(lián)網(wǎng)信息采集鏈接解析 XML資源中圖法分類號：TP393 文獻標(biāo)識碼：A 文章編號：Link Analysis and Info-mining of Internet Resources Based on XML/XSL Yihua Du, WenBing Jiao

2、Computer Network Information Center, Chinese Academy of Sciences (CNIC,CAS)Abstract： The paper analyzes and introduces the method of link analysis and content collection of Internet Resources based on XML/XSL web pages, including the analysis of traditional HMTL links, HTML links derived from XML, h

3、and customerized XML links, traditional HTML info-mining, XML info-extraction directives, HTML info-mining derived from XML, etc.Keywords：Internet Info-mining；Link Analysis；XML resources互聯(lián)網(wǎng)中有海量數(shù)據(jù)信息，目前網(wǎng)站頁面多為HTML格式，由于HTML標(biāo)記日益臃腫，文件結(jié)構(gòu)缺乏條理，描述能力有限、有效數(shù)據(jù)提取復(fù)雜等已不再能滿足網(wǎng)絡(luò)上新的應(yīng)用需求，作為W3C推薦的下一代網(wǎng)頁發(fā)布語言，XML+XSL方式是大勢所趨，

4、現(xiàn)已有一些網(wǎng)站如37c醫(yī)學(xué)網(wǎng)、賽迪網(wǎng)等應(yīng)用。但目前的各大搜索引檠Spider系統(tǒng)和互聯(lián)網(wǎng)信息智能采集系統(tǒng)均為其于HTML格式的鏈接解析和內(nèi)容提取，對XML檢索無法支持或有很大局限性1。一、網(wǎng)頁鏈接解析鏈接解析用于跟蹤網(wǎng)站的新信息和進一步發(fā)現(xiàn)資源，即互聯(lián)網(wǎng)上未知信息搜索2。1、傳統(tǒng)HTML中鏈接解析傳統(tǒng)HTML中標(biāo)記定義明確，表示超鏈接用的標(biāo)記有限。解析過程一般為取網(wǎng)頁源文件中 href= 到 </a> 間、<area 到 > 塊內(nèi)的href= 到 shape= 間，frame 到 > 塊的 src= 與 > 間所有內(nèi)容，然后剔除其中<與>間內(nèi)容

5、、單引號、雙引號等干擾信息，對每塊鏈接部分根據(jù)是否含>號可分出鏈接網(wǎng)址部分和鏈接標(biāo)題部分，將鏈接網(wǎng)址部分與網(wǎng)頁網(wǎng)址(URL)比較分析等進一步獲取完整的URL，鏈接文字部分若沒有或不合法可進一步取它們源文件中<title>與<title>間內(nèi)容。2、XML轉(zhuǎn)換為HTML后鏈接解析XML使用DTD顯示數(shù)據(jù)，使用XSL描述文檔顯示，XML格式網(wǎng)頁中各節(jié)點自行靈活定義，無法按傳統(tǒng)HTML方式解析。正如流覽器在識別XML+XSL格式網(wǎng)頁時先在客戶端解析一樣,我們也可以先利用XSL將XML轉(zhuǎn)變成HTML語言再按傳統(tǒng)HTML方式解析。方法為在獲取XML源文件內(nèi)容時，通過獲取其中

6、XSL文件地址，然后利用XML解析器(XMLDOM)將他們轉(zhuǎn)結(jié)合轉(zhuǎn)換為HTML3。3、手工定制下XML鏈接解析通過轉(zhuǎn)換為HTML語言后解析鏈接比較通用，適合全范圍解析。由于相關(guān)超鏈接信息均存在XML文件的某類節(jié)點中，每次使用XSL轉(zhuǎn)換會有性能上不必要開支，因此有時，特別是對某類網(wǎng)站信息定向跟蹤時，為更高性能或僅為獲取所需的部分鏈接，有必要采用手工定制的鏈接解析。手工配置方法是先人為查看源XML或XSL(流覽器中查看源文件)，找到超鏈接(包括文字、圖片、附件)用節(jié)點名，添加在配置文件的xmlhref項中，系統(tǒng)解析時依此進行。同一個XSL文檔對應(yīng)的XML是同構(gòu)的，故采用按每一個XSL文檔指定所對應(yīng)

7、的hreftext(鏈接用文字)和hreflink(鏈接的網(wǎng)址)信息。如對<xmlhref><xslsite><xslfile> <xslfile><hreftext> ritems/ item /itemtitle < hreftext ><hreflink> ritems/ item / itemhref <hreflink></ xslsite ><xslsite></ xslsite ></xmlhref>其中xslfile用于指定配置有效范圍

8、，為便于系統(tǒng)實現(xiàn)，采用絕對網(wǎng)址格式，hreftext 和hreflink對應(yīng)的節(jié)點采為標(biāo)準(zhǔn)xpath格式，考慮到每個XML文件根節(jié)點唯一，可以忽略根節(jié)點而交付程序自動判斷實現(xiàn)。4、完整鏈接解析流程將以上幾種方式結(jié)合起來，系統(tǒng)完整解析過程是：判斷源網(wǎng)頁格式，若為HTML則直接解析，若為XML格式，則從中找到XSL路徑，檢查config.xml中是否有相應(yīng)xslfile的配置，如果有，直接通過配置的hreftext和hreflink解析，否則，采用通用的XML轉(zhuǎn)換為HTML后解析鏈接。流程圖如下：二、網(wǎng)頁信息采集網(wǎng)頁信息采集指深入到站點和頁面內(nèi)部進行內(nèi)容分析和分類整理，從網(wǎng)頁中提取有效數(shù)據(jù)并按用戶

9、要求存儲，如直接映射到指定數(shù)據(jù)庫。1、傳統(tǒng)HTML信息采集傳統(tǒng)HTML中數(shù)據(jù)與格式語言混排，但很多網(wǎng)頁采用動態(tài)發(fā)布技術(shù)實現(xiàn)或采用模板制作，有一定內(nèi)在邏輯或規(guī)律。運用html分析技術(shù)，可以剝離出用戶所需信息如標(biāo)題、正文、作者等4。采集過程是：用戶通過分析指定網(wǎng)站或頻道欄目下的網(wǎng)頁元素，剖析網(wǎng)頁源HTML代碼與所需要數(shù)據(jù)項的對應(yīng)關(guān)系，利用抽取過程編輯器定義和描述好HTML分析處理過程后，由內(nèi)容替換抽取腳本的解釋引擎依次執(zhí)行和規(guī)整入庫。其中腳本過程語言替換抽取過程實質(zhì)為一些字符串處理操作組合，如簡單替換命令、高級替換命令、抽取命令、賦值命令、規(guī)整命令4。2、XML信息抽取與HTML不同，XML+XS

10、L方式中數(shù)據(jù)層跟展現(xiàn)層分開，數(shù)據(jù)結(jié)構(gòu)清晰，信息的采集和整合相對容易。用戶可在分析某類XML源文件后，直接將相應(yīng)節(jié)點與所需數(shù)據(jù)項對應(yīng)即可。系統(tǒng)實現(xiàn)時，仍保留原對信息項進一步加工處理命令，需擴展一個命令XML=(取xml中某節(jié)點數(shù)據(jù))。如中新聞類批處理腳本(部分)為：操作內(nèi)容新聞標(biāo)題 XML= infotitle新聞來源 XML= laiyuan新聞來源 = 取新聞來源中的到之間的全部內(nèi)容新聞時間 XML= date新聞類別 XML= contenttype新聞作者 XML= author新聞主題詞 XML= keyword新聞內(nèi)容 XML= content新聞內(nèi)容 = 將新聞內(nèi)容中

11、的 /> 替換為 >新聞內(nèi)容 = 將新聞內(nèi)容中的 p 替換為新聞內(nèi)容 = 將新聞內(nèi)容中的 <!- 到 -> 之間替換為新聞內(nèi)容 = 將新聞內(nèi)容中的 替換為 p新聞內(nèi)容 = 將新聞內(nèi)容中的 <div> 替換為 p新聞內(nèi)容 = 將新聞內(nèi)容中的 替換為 新聞內(nèi)容 = 將新聞內(nèi)容中的 替換為 新聞內(nèi)容 = 將新聞內(nèi)容中的 替

12、換為 p新聞內(nèi)容 = 將新聞內(nèi)容中的 替換為 _b_新聞內(nèi)容 = 將新聞內(nèi)容中的 替換為 _/b_新聞內(nèi)容 = 將新聞內(nèi)容中的 <img 替換為 _img新聞內(nèi)容 = 將新聞內(nèi)容中的 < 到 > 之間替換為新聞內(nèi)容 = 將新聞內(nèi)容中的 _img

13、替換為 <img新聞內(nèi)容 = 將新聞內(nèi)容中的 _b_ 替換為 新聞內(nèi)容 = 將新聞內(nèi)容中的 _/b_ 替換為 新聞內(nèi)容 = 將新聞內(nèi)容中的 _sub 替換為 <sub新聞內(nèi)容 = 將新聞內(nèi)容中的 _/sub 替換為 </sub新聞內(nèi)容 = 將新聞內(nèi)容中的 _sup 替換為 <sup新聞內(nèi)容 = 將新聞內(nèi)容中的 _/sup 替換為 </sup規(guī)整新聞內(nèi)容以上腳本功能包括有對新聞標(biāo)題、來源等的獲取，對新聞內(nèi)容中換行、加粗、上下標(biāo)格式的保留，圖片的同步下載等，腳本由可視化編輯器定義后自動生成，在采集系統(tǒng)中自

14、動加載和解釋執(zhí)行。其p為回車換行符，除XML= 為新增的XML信息抽取命令外，其它同傳統(tǒng)的HTML信息采集。3、XML轉(zhuǎn)換為HTML信息采集通過將XML信息抽取命令與傳統(tǒng)HTML信息采集過程相結(jié)合，基本能滿足網(wǎng)頁信息采集需求。但由于XSL格式化功能強大而信息采集系統(tǒng)的邏輯處理部分相對簡單，偶爾有少數(shù)信息隱含在XSL文件，如XSL文件中可能有當(dāng)前位置信息、有一些經(jīng)XSL篩選、排序或計算后的信息等。為準(zhǔn)確和完整的獲取所需信息，系統(tǒng)有時也可以將XML與其XSL結(jié)合轉(zhuǎn)換為HTML后進行抽取。結(jié)束語以XML為基礎(chǔ)的新一代WWW環(huán)境直接面對Web數(shù)據(jù)，僅基于傳統(tǒng)HTML格式的鏈接解析和內(nèi)容提取已無法滿足應(yīng)

15、用需求。我們對前期開發(fā)和成熟應(yīng)用的互聯(lián)網(wǎng)信息采集系統(tǒng)改進，在解析模塊部分引入對源文件格式判斷、按配置處理和預(yù)轉(zhuǎn)換為HTML功能，在抽取規(guī)整模塊新增XML=命令和新調(diào)整解釋引擎，保留原圖形化配置、預(yù)覽測試方便等特性，使得系統(tǒng)對HTML格式、XML格式均能靈活高效的自動處理，并向下兼容。新升級后的系統(tǒng)已在中國科學(xué)院網(wǎng)站、百拇醫(yī)藥網(wǎng)等應(yīng)用。參考資料1、 Neel Sundaresan,Jeonghee Yi Mining,the Web for Relations, /w9cdrom/363/363.html2、Eric Ward , How Search Engines Use Link Analysis , 3、XSL教程 4、杜義華、及俊川,通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設(shè)計與開發(fā),計算機應(yīng)用研究,2005.1(完)附：作者簡介杜義華(1975-),男,湖北人,碩士研究生、高級工程師，主要研究方向為web數(shù)據(jù)庫開發(fā)、

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集

文檔簡介

溫馨提示

最新文檔

評論

互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔