互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集_第1頁
互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集_第2頁
互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集_第3頁
互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集_第4頁
互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、互聯(lián)網(wǎng)中XML網(wǎng)頁的鏈接解析與信息采集中國科學(xué)院計算機網(wǎng)絡(luò)信息中心 杜義華 焦文彬摘要: 文章分析和介紹對互聯(lián)網(wǎng)中XML+XSL網(wǎng)頁資源鏈接解析和內(nèi)容采集的方法,包括傳統(tǒng)HTML中鏈接解析、XML轉(zhuǎn)換為HTML后鏈接解析、手工定制下XML鏈接解析和傳統(tǒng)HTML信息采集、XML信息抽取、XML轉(zhuǎn)換為HTML的信息采集等。關(guān)鍵詞:互聯(lián)網(wǎng)信息采集 鏈接解析 XML資源中圖法分類號:TP393 文獻標(biāo)識碼:A 文章編號:Link Analysis and Info-mining of Internet Resources Based on XML/XSL Yihua Du, WenBing Jiao

2、Computer Network Information Center, Chinese Academy of Sciences (CNIC,CAS)Abstract: The paper analyzes and introduces the method of link analysis and content collection of Internet Resources based on XML/XSL web pages, including the analysis of traditional HMTL links, HTML links derived from XML, h

3、and customerized XML links, traditional HTML info-mining, XML info-extraction directives, HTML info-mining derived from XML, etc.Keywords:Internet Info-mining;Link Analysis;XML resources互聯(lián)網(wǎng)中有海量數(shù)據(jù)信息,目前網(wǎng)站頁面多為HTML格式,由于HTML標(biāo)記日益臃腫,文件結(jié)構(gòu)缺乏條理,描述能力有限、有效數(shù)據(jù)提取復(fù)雜等已不再能滿足網(wǎng)絡(luò)上新的應(yīng)用需求,作為W3C推薦的下一代網(wǎng)頁發(fā)布語言,XML+XSL方式是大勢所趨,

4、現(xiàn)已有一些網(wǎng)站如37c醫(yī)學(xué)網(wǎng)、賽迪網(wǎng)等應(yīng)用。但目前的各大搜索引檠Spider系統(tǒng)和互聯(lián)網(wǎng)信息智能采集系統(tǒng)均為其于HTML格式的鏈接解析和內(nèi)容提取,對XML檢索無法支持或有很大局限性1。一、 網(wǎng)頁鏈接解析鏈接解析用于跟蹤網(wǎng)站的新信息和進一步發(fā)現(xiàn)資源,即互聯(lián)網(wǎng)上未知信息搜索2。1、傳統(tǒng)HTML中鏈接解析傳統(tǒng)HTML中標(biāo)記定義明確,表示超鏈接用的標(biāo)記有限。解析過程一般為取網(wǎng)頁源文件中 href= 到 </a> 間、<area 到 > 塊內(nèi)的href= 到 shape= 間,frame 到 > 塊的 src= 與 > 間所有內(nèi)容,然后剔除其中<與>間內(nèi)容

5、、單引號、雙引號等干擾信息,對每塊鏈接部分根據(jù)是否含>號可分出鏈接網(wǎng)址部分和鏈接標(biāo)題部分,將鏈接網(wǎng)址部分與網(wǎng)頁網(wǎng)址(URL)比較分析等進一步獲取完整的URL,鏈接文字部分若沒有或不合法可進一步取它們源文件中<title>與<title>間內(nèi)容。2、XML轉(zhuǎn)換為HTML后鏈接解析XML使用DTD顯示數(shù)據(jù),使用XSL描述文檔顯示,XML格式網(wǎng)頁中各節(jié)點自行靈活定義,無法按傳統(tǒng)HTML方式解析。正如流覽器在識別XML+XSL格式網(wǎng)頁時先在客戶端解析一樣,我們也可以先利用XSL將XML轉(zhuǎn)變成HTML語言再按傳統(tǒng)HTML方式解析。方法為在獲取XML源文件內(nèi)容時,通過獲取其中

6、XSL文件地址,然后利用XML解析器(XMLDOM)將他們轉(zhuǎn)結(jié)合轉(zhuǎn)換為HTML3。3、手工定制下XML鏈接解析通過轉(zhuǎn)換為HTML語言后解析鏈接比較通用,適合全范圍解析。由于相關(guān)超鏈接信息均存在XML文件的某類節(jié)點中,每次使用XSL轉(zhuǎn)換會有性能上不必要開支,因此有時,特別是對某類網(wǎng)站信息定向跟蹤時,為更高性能或僅為獲取所需的部分鏈接,有必要采用手工定制的鏈接解析。手工配置方法是先人為查看源XML或XSL(流覽器中查看源文件),找到超鏈接(包括文字、圖片、附件)用節(jié)點名,添加在配置文件的xmlhref項中,系統(tǒng)解析時依此進行。同一個XSL文檔對應(yīng)的XML是同構(gòu)的,故采用按每一個XSL文檔指定所對應(yīng)

7、的hreftext(鏈接用文字)和hreflink(鏈接的網(wǎng)址)信息。如對<xmlhref><xslsite><xslfile> <xslfile><hreftext> ritems/ item /itemtitle < hreftext ><hreflink> ritems/ item / itemhref <hreflink></ xslsite ><xslsite></ xslsite ></xmlhref>其中xslfile用于指定配置有效范圍

8、,為便于系統(tǒng)實現(xiàn),采用絕對網(wǎng)址格式,hreftext 和hreflink對應(yīng)的節(jié)點采為標(biāo)準(zhǔn)xpath格式,考慮到每個XML文件根節(jié)點唯一,可以忽略根節(jié)點而交付程序自動判斷實現(xiàn)。4、完整鏈接解析流程將以上幾種方式結(jié)合起來,系統(tǒng)完整解析過程是:判斷源網(wǎng)頁格式,若為HTML則直接解析,若為XML格式,則從中找到XSL路徑,檢查config.xml中是否有相應(yīng)xslfile的配置,如果有,直接通過配置的hreftext和hreflink解析,否則,采用通用的XML轉(zhuǎn)換為HTML后解析鏈接。流程圖如下:二、網(wǎng)頁信息采集網(wǎng)頁信息采集指深入到站點和頁面內(nèi)部進行內(nèi)容分析和分類整理,從網(wǎng)頁中提取有效數(shù)據(jù)并按用戶

9、要求存儲,如直接映射到指定數(shù)據(jù)庫。1、傳統(tǒng)HTML信息采集傳統(tǒng)HTML中數(shù)據(jù)與格式語言混排,但很多網(wǎng)頁采用動態(tài)發(fā)布技術(shù)實現(xiàn)或采用模板制作,有一定內(nèi)在邏輯或規(guī)律。運用html分析技術(shù),可以剝離出用戶所需信息如標(biāo)題、正文、作者等4。采集過程是:用戶通過分析指定網(wǎng)站或頻道欄目下的網(wǎng)頁元素,剖析網(wǎng)頁源HTML代碼與所需要數(shù)據(jù)項的對應(yīng)關(guān)系,利用抽取過程編輯器定義和描述好HTML分析處理過程后,由內(nèi)容替換抽取腳本的解釋引擎依次執(zhí)行和規(guī)整入庫。其中腳本過程語言替換抽取過程實質(zhì)為一些字符串處理操作組合,如簡單替換命令、高級替換命令、抽取命令、賦值命令、規(guī)整命令4。2、XML信息抽取與HTML不同,XML+XS

10、L方式中數(shù)據(jù)層跟展現(xiàn)層分開,數(shù)據(jù)結(jié)構(gòu)清晰,信息的采集和整合相對容易。用戶可在分析某類XML源文件后,直接將相應(yīng)節(jié)點與所需數(shù)據(jù)項對應(yīng)即可。系統(tǒng)實現(xiàn)時,仍保留原對信息項進一步加工處理命令,需擴展一個命令XML=(取xml中某節(jié)點數(shù)據(jù))。如中新聞類批處理腳本(部分)為:操作內(nèi)容新聞標(biāo)題 XML= infotitle新聞來源 XML= laiyuan新聞來源 = 取 新聞來源 中的 到 之間的 全部內(nèi)容新聞時間 XML= date新聞類別 XML= contenttype新聞作者 XML= author新聞主題詞 XML= keyword新聞內(nèi)容 XML= content新聞內(nèi)容 = 將 新聞內(nèi)容 中

11、的 /> 替換為 >新聞內(nèi)容 = 將 新聞內(nèi)容 中的 p 替換為 新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <!- 到 -> 之間替換為 新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <p 替換為 p<p 新聞內(nèi)容 = 將 新聞內(nèi)容 中的 </td> 替換為 p新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <div> 替換為 p新聞內(nèi)容 = 將 新聞內(nèi)容 中的 </strong> 替換為 </b>新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <strong> 替換為 <b>新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <br> 替

12、換為 p新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <sub 替換為 _sub新聞內(nèi)容 = 將 新聞內(nèi)容 中的 </sub 替換為 _/sub新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <sup 替換為 _sup新聞內(nèi)容 = 將 新聞內(nèi)容 中的 </sup 替換為 _/sup新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <b> 替換為 _b_新聞內(nèi)容 = 將 新聞內(nèi)容 中的 </b> 替換為 _/b_新聞內(nèi)容 = 將 新聞內(nèi)容 中的 <img 替換為 _img新聞內(nèi)容 = 將 新聞內(nèi)容 中的 < 到 > 之間替換為 新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _img

13、替換為 <img新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _b_ 替換為 <b>新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _/b_ 替換為 </b>新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _sub 替換為 <sub新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _/sub 替換為 </sub新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _sup 替換為 <sup新聞內(nèi)容 = 將 新聞內(nèi)容 中的 _/sup 替換為 </sup規(guī)整 新聞內(nèi)容以上腳本功能包括有對新聞標(biāo)題、來源等的獲取,對新聞內(nèi)容中換行、加粗、上下標(biāo)格式的保留,圖片的同步下載等,腳本由可視化編輯器定義后自動生成,在采集系統(tǒng)中自

14、動加載和解釋執(zhí)行。其p為回車換行符,除XML= 為新增的XML信息抽取命令外,其它同傳統(tǒng)的HTML信息采集。3、XML轉(zhuǎn)換為HTML信息采集通過將XML信息抽取命令與傳統(tǒng)HTML信息采集過程相結(jié)合,基本能滿足網(wǎng)頁信息采集需求。但由于XSL格式化功能強大而信息采集系統(tǒng)的邏輯處理部分相對簡單,偶爾有少數(shù)信息隱含在XSL文件,如XSL文件中可能有當(dāng)前位置信息、有一些經(jīng)XSL篩選、排序或計算后的信息等。為準(zhǔn)確和完整的獲取所需信息,系統(tǒng)有時也可以將XML與其XSL結(jié)合轉(zhuǎn)換為HTML后進行抽取。結(jié)束語以XML為基礎(chǔ)的新一代WWW環(huán)境直接面對Web數(shù)據(jù),僅基于傳統(tǒng)HTML格式的鏈接解析和內(nèi)容提取已無法滿足應(yīng)

15、用需求。我們對前期開發(fā)和成熟應(yīng)用的互聯(lián)網(wǎng)信息采集系統(tǒng)改進,在解析模塊部分引入對源文件格式判斷、按配置處理和預(yù)轉(zhuǎn)換為HTML功能,在抽取規(guī)整模塊新增XML=命令和新調(diào)整解釋引擎,保留原圖形化配置、預(yù)覽測試方便等特性,使得系統(tǒng)對HTML格式、XML格式均能靈活高效的自動處理,并向下兼容。新升級后的系統(tǒng)已在中國科學(xué)院網(wǎng)站、百拇醫(yī)藥網(wǎng)等應(yīng)用。參考資料1、 Neel Sundaresan,Jeonghee Yi Mining,the Web for Relations, /w9cdrom/363/363.html2、Eric Ward , How Search Engines Use Link Analysis , 3、XSL教程 4、杜義華、及俊川,通用互聯(lián)網(wǎng)信息采集系統(tǒng)的設(shè)計與開發(fā),計算機應(yīng)用研究,2005.1(完)附:作者簡介杜義華(1975-),男,湖北人,碩士研究生、高級工程師,主要研究方向為web數(shù)據(jù)庫開發(fā)、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論