




已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
益眾網(wǎng)站信息抓取工具用戶手冊 第 1 頁 共 72 頁 益眾網(wǎng)站信息抓取工具 用戶手冊 益眾網(wǎng)站信息抓取工具用戶手冊 第 2 頁 共 72 頁 目 錄 1. 概述 .4 1.1. 關(guān)于網(wǎng)站抓取工具 . 4 1.2. 特點 . 5 2. 軟件安裝 .5 2.1. 安裝環(huán)境 . 5 2.1.1. 硬件環(huán)境 .5 2.1.2. 軟件環(huán)境 .5 2.2. 安裝步驟 . 6 2.2.1. 安裝 JDK 1.5.x.6 2.2.2. 安裝數(shù)據(jù)庫 .6 2.2.3. 導(dǎo)入系統(tǒng)數(shù)據(jù) .6 2.2.4. 安裝本系統(tǒng) .7 2.2.5. Tomcat 啟動和停止 .9 3. 術(shù)語 . 10 4. 使用說明 .11 4.1. 輔助功能 . 12 4.1.1. 登錄 . 12 4.1.2. 修改管理員信息 . 12 4.1.3. 系統(tǒng)參數(shù)配置 . 12 4.1.4. 入庫數(shù)據(jù)表配置 . 15 4.1.5. 抓取統(tǒng)計 . 16 4.1.6. 查看網(wǎng)頁源碼 . 16 4.1.7. 軟件注冊 . 16 4.2. 頁面配置 . 16 4.2.1. 增加頁面基本信息 . 17 4.2.2. 修改頁面基本信息 . 19 4.2.3. 刪除頁面基本信息 . 19 4.2.4. URL 配置 . 19 4.2.5. 增加正文頁 URL 及定位配置信息 . 20 4.2.6. 修改正文頁 URL 及定位配置信息 . 22 4.2.7. 增加列表頁 URL 配置信息 . 22 4.2.8. 修改列表頁 URL 配置信息 . 24 4.2.9. URL 參數(shù)配置 . 24 4.2.10. 增加 URL 參數(shù) . 25 4.2.11. 修改 URL 參數(shù) . 26 4.2.12. 刪除 URL 參數(shù) . 26 4.2.13. 設(shè)置 URL 參數(shù)值 . 26 4.2.14. 增加 URL 參數(shù)值 . 27 4.2.15. 修改 URL 參數(shù)值 . 28 4.2.16. 刪除 URL 參數(shù)值 . 28 益眾網(wǎng)站信息抓取工具用戶手冊 第 3 頁 共 72 頁 4.2.17. 定位信息設(shè)置 . 28 4.2.18. 增加列表頁定位配置信息 . 29 4.2.19. 修改列表頁定位配置信息 . 31 4.2.20. 下級頁面配置 . 31 4.2.21. 增加 子頁面 . 32 4.2.22. 修改子頁面 . 32 4.2.23. 刪除子頁面 . 33 4.2.24. 設(shè)置抓取時間 . 33 4.2.25. 抓取 . 34 4.3. 頁面解析 . 35 4.3.1. 增加頁面解析配置信息 . 35 4.3.2. 修改頁面解析配置信息 . 42 4.3.3. 刪除頁面解析配置信息 . 42 4.3.4. 值替換配置信息 . 43 4.3.5. 增加值替換配置信息 . 43 4.3.6. 修改值替換配置信息 . 43 4.3.7. 刪除值替換配置信息 . 44 4.4. 頁面入庫 . 44 4.4.1. 增加頁面入庫數(shù)據(jù)表信息 . 45 4.4.2. 修改頁面入庫數(shù)據(jù)表信息 . 45 4.4.3. 刪除頁面入庫數(shù)據(jù)表信息 . 45 4.4.4. 字段對照值配置信息 . 46 4.4.5. 增加字段對照值 . 46 4.4.6. 修改字段對照值 . 48 4.4.7. 刪除字段對照值 . 48 5. 配置樣例 . 52 5.1. 登錄 . 52 5.2. 入庫數(shù)據(jù)表配置 . 52 5.3. 頁面配置 . 53 5.3.1. 頁面基本信息配置: . 53 5.3.2. URL 配置: . 54 5.3.3. 定位信息配置: . 55 5.4. 頁面解析 . 56 5.5. 下級 頁面配置 . 58 5.6. 下級頁面解析: . 60 5.7. 入庫配置: . 63 5.7.1. 選定入庫數(shù)據(jù)表 . 63 5.7.2. 字段對照值配置 . 65 5.8. 抓?。?. 67 6. 參考內(nèi)容 . 68 6.1. 規(guī)則表達(dá)式 . 68 6.2. JDBC URL . 70 7. 服務(wù)支持 . 72 益眾網(wǎng)站信息抓取工具用戶手冊 第 4 頁 共 72 頁 1. 概述 1.1. 關(guān)于網(wǎng)站抓取工具 本工具可以抓取互聯(lián)網(wǎng)上的任何網(wǎng)頁,包括需要登錄后才能訪 問的頁面。對抓取到頁面內(nèi)容進(jìn)行解析,得到結(jié)構(gòu)化的信息,比如:新聞標(biāo)題、作者、來源、正文等。支持列表頁的自動翻頁抓取,支持正文頁多頁合并,支持圖片、文件的抓取,可以抓取靜態(tài)網(wǎng)頁,也可以抓取帶參數(shù)的動態(tài)網(wǎng)頁,功能極其強大。 用戶指定要抓取的網(wǎng)站、抓取的網(wǎng)頁類型(固定頁面、分頁顯示的頁面等等),并配置如何解析數(shù)據(jù)項(如新聞標(biāo)題、作者、來源、正文等),系統(tǒng)可以根據(jù)配置信息自動實時抓取數(shù)據(jù),啟動抓取的時間也可以通過配置設(shè)定,真正做到“ 按需抓取,一次配置,永久抓取 ”。抓來的數(shù)據(jù)可以保存到數(shù)據(jù)庫中。支持當(dāng)前主流數(shù)據(jù)庫,包括: Oracle、 SQL Server、 MySQL 等。 本工具完全可以替代傳統(tǒng)的編輯手工處理信息的模式,能夠?qū)崟r、準(zhǔn)確、一天24*60 不間斷為企業(yè)提供最新資訊,真正能為企業(yè)降低成本,提高競爭力。 系統(tǒng)功能結(jié)構(gòu)圖如下圖所示: 益眾網(wǎng)站信息抓取工具用戶手冊 第 5 頁 共 72 頁 1.2. 特點 適用范圍廣,可以抓取任何網(wǎng)頁(包括登錄后才能訪問的網(wǎng)頁) 處理速度快,如果網(wǎng)絡(luò)暢通, 1 小時可以抓取、解析 10000 個網(wǎng)頁 采用獨特的重復(fù)數(shù)據(jù)過濾技術(shù),支持增量式數(shù)據(jù)抓取,可以抓取實時數(shù)據(jù),如:股票交易信息、天氣預(yù)報等 抓取信息的準(zhǔn)確性高,系統(tǒng)提供了強大的數(shù)據(jù)校驗功能,保證了數(shù)據(jù) 的正確性 支持?jǐn)帱c續(xù)抓,在當(dāng)機或出現(xiàn)異常情況后可以恢復(fù)抓取,繼續(xù)后續(xù)的抓取工作,提高了系統(tǒng)的抓取效率 對于列表頁,支持翻頁,可以抓取到所有列表頁中的數(shù)據(jù)。對于正文頁,可以對分頁顯示的內(nèi)容自動進(jìn)行合并; 支持頁面深度抓取,頁面間可以一級一級地抓下去。比如,通過列表頁抓取到正文頁 URL,然后再抓取正文頁。各級頁面可以分別入庫; WEB 操作界面,一處安裝,隨處使用 分步解析,分步入庫 一次配置,永久抓取,一勞永逸 2. 軟件安裝 2.1. 安裝環(huán)境 2.1.1. 硬件環(huán)境 機型要求: PC、 PC Serve、服務(wù)器 最小內(nèi)存: 256MB 最小硬 盤空間: 1GB 2.1.2. 軟件環(huán)境 操作系統(tǒng): Windows 2K/XP, Linux、 Solaris 等 Unix 系統(tǒng) 數(shù)據(jù)庫: MySQL、 SQL Server、 Oracle 之一 益眾網(wǎng)站信息抓取工具用戶手冊 第 6 頁 共 72 頁 JAVA JDK: 1.5 及以上版本 Web Server: Tomcat5.0 及以上版本 2.2. 安裝步驟 2.2.1. 安裝 JDK 1.5.x 如果機器上沒有 JDK 1.5.x 的環(huán)境,需要安裝 JDK 1.5.x,推薦安裝的版本為 1.5.0。 JDK 為 SUN 公司推出的 JAVA 開發(fā)包,您可以去網(wǎng)站 下載,也可以在我們的網(wǎng)站下載 JDK 1.5.0,下載鏈接: Windows: /p/download/software/jdk-1_5_0-windows-i586.exe Linux: /p/download/software/jdk-1_5_0-linux-i586-rpm.bin 安裝完畢后,設(shè)置環(huán)境變量 JAVA_HOME,需要設(shè)置為 JDK的安裝目錄。例如: Windows下為 C:jdk1.5.0, Unix 下為 /usr/java/jdk1.5.0。 2.2.2. 安裝數(shù)據(jù)庫 如果機器上沒有安裝數(shù)據(jù)庫,請安裝 MySQL 數(shù)據(jù)庫。您可以去 mysql 官方網(wǎng)站/downloads/下載,也可以在我們的網(wǎng)站下載 mysql 4.0.x: Windows: /p/download/software/mysql-4.0.12-win.zip Linux: /p/download/software/MySQL-server-4.0.25-0.i386.rpm 2.2.3. 導(dǎo)入系統(tǒng)數(shù)據(jù) 數(shù)據(jù)庫腳本文件存放在目錄 dbscript 下。 如果使用的數(shù)據(jù)庫為 MySQL,需要使用如下兩個命令行導(dǎo)入數(shù)據(jù): mysql u【用戶名】 -p【密碼】 db_mysql.sql mysql u【用戶名】 -p【密碼】 db_wis help.sql 例如: mysql uroot db_mysql.sql mysql uroot db_wis help.sql 益眾網(wǎng)站信息抓取工具用戶手冊 第 7 頁 共 72 頁 即可完成數(shù)據(jù)庫的創(chuàng)建及數(shù)據(jù)導(dǎo)入工作。 2.2.4. 安裝本系統(tǒng) 把安裝包解壓到指定目錄。 Windows 系統(tǒng)中,需要把本系統(tǒng)安裝在 C:webspider 目錄下,請確認(rèn)文件 webspider.war 存放在 C:webspider 目錄下; Unix 系統(tǒng)中,需要把本系統(tǒng)安裝在 /usr/local/webspider 目錄下, 請請確認(rèn)文件 webspider.war 存放在 /usr/local/webspider 目錄下。 1)如果已經(jīng)安裝了 tomcat5.0 及以上版本,可以把本抓站系統(tǒng)集成到已有 tomcat 中。 為了保證程序能正常運行,需要修改 tomcat 的啟動腳本。 Windows 下修改文件catalina.bat,在文件的前面設(shè)置變量 JAVA_OPTS,如下所示: set JAVA_OPTS=-agentlib:C:webspiderclassloader Unix 系統(tǒng)下,修改文件 catalina.sh,在文件的前面設(shè)置變量 JAVA_OPTS,如下所示: JAVA_OPTS=-agentpath:/usr/local/webspider/libclassloader.so 需要在 tomcat 的配置文件 server.xml 中增加一個 Context(子項目),需要增加的配置代碼如下(樣例): driverClassName org.gjt.mm.mysql.Driver url jdbc:mysql:/:3306/db_wis?autoReconnect=true&;useUnicode=true&;characterEncoding=gbk 益眾網(wǎng)站信息抓取工具用戶手冊 第 8 頁 共 72 頁 username root password maxIdle 5 maxActive 100 maxWait 5000 2)如果機器上沒有安裝 tomcat,直接使用安裝目錄下的 tomcat。 Windows 系統(tǒng)下需要修改 C:webspidertomcat-5.0.28confserver.xml 中的 Context 配置, Unix 系統(tǒng)下需要修改/usr/local/webspider/tomcat-5.0.28/conf/server.xml 中的 Context 配置。 如果本系統(tǒng)沒有安裝在缺省目錄下,需要修改 中的屬性 docBase,把其中的路徑設(shè)置為系統(tǒng)安裝到的路徑。并且要修改 tomcat 的啟動腳本,在 Windows 下修改文件catalina.bat,在 unix 下修改 catalina.sh,把變量 JAVA_OPTS 中的 -agentlib 設(shè)置為正確值。參見本節(jié)的 1)。 益眾網(wǎng)站信息抓取工具用戶手冊 第 9 頁 共 72 頁 和 之間為數(shù)據(jù)庫連接池配置。需要修改數(shù)據(jù)庫連接池配置中的 driverClassName、 url、 username 和 password 等參數(shù)值,以保證能正常連接數(shù)據(jù)庫。 啟動 tomcat 后,在瀏覽器中鍵入網(wǎng)址: http:/【目標(biāo)服務(wù)器】 /webspider/,例如:http:/locahost:8080/webspider/,進(jìn)入本抓站系統(tǒng)的登錄界面。 2.2.5. Tomcat 啟動和停止 1) Windows 系統(tǒng) : 啟動命令: startup.bat 停止命令: shutdown.bat 為了實現(xiàn) tomcat 在開機時自動啟動,需要把 tomcat 加到系統(tǒng)服務(wù)中。進(jìn)入 tomcat 的bin 目錄, 修改 tomcat 的 service.bat, 在語句 echo The service %SERVICE_NAME% has been installed. 前加上 : %EXECUTABLE% /US/%SERVICE_NAME% +JvmOptions -agentlib:C:webspiderclassloader 然后執(zhí)行如下兩行命令: service remove service install 重新安裝 tomcat 服務(wù) 2) Unix 系統(tǒng) : 啟動命令: startup.sh 停止命令: shutdown.sh 為 了實現(xiàn) tomcat 在開機時自動啟動,需要把 tomcat 加到操作系統(tǒng)的啟動腳本中,例如: Linux 的啟動腳本文件為 /etc/rc.local。在啟動腳本中增加一個命令行:【 tomcat 所在目錄】 /bin/startup.sh & 例如: /usr/local/webspider/tomcat-5.0.28/bin/startup.sh & 益眾網(wǎng)站信息抓取工具用戶手冊 第 10 頁 共 72 頁 3. 術(shù)語 本工具使用的術(shù)語如下: 正文頁:只有一條記錄的頁面,如新聞頁、職位信息頁面等 列表頁:有多條記錄的頁面,如新聞列表頁,職位列表頁等 頁面配置:對于要抓取的頁面進(jìn)行分析配 置,找到要獲得的數(shù)據(jù)項的定位 頁面解析:對于頁面上的數(shù)據(jù)項進(jìn)行解析,得到該數(shù)據(jù)項 頁面入庫:針對解析出的數(shù)據(jù)項,存放到數(shù)據(jù)庫里 下級頁面:頁面 URL 來自上級頁面的網(wǎng)頁,也叫做子頁面。一個頁面得到很多鏈接,針對每一個鏈接進(jìn)行配置得到的頁面 定位信息:能夠定位到頁面中所需的數(shù)據(jù)的起始和終止位置(定位字符串) 規(guī)則表達(dá)式: 處理字符串匹配的一種簡便方法,參見“ 規(guī)則表達(dá)式 ” URL 配置:用來配置如何獲得要抓取頁面的網(wǎng)頁地址 URL 參數(shù)配置:有的頁面 URL 中含有參 數(shù),需要進(jìn)行配置 網(wǎng)頁調(diào)用方式:頁面請求的方式,包括 POST 和 GET,通常為 GET 方式。判斷一個頁面的調(diào)用方式可以在頁面代碼中的“ ”處查到 其它頁 URL 獲得方式:獲得其他頁網(wǎng)頁地址的方式,有兩種方式: 固定模式:遵循某種固定模式,網(wǎng)頁地址中可以帶參數(shù) 動態(tài)解析:沒有固定的模式,需要分析頁面,通過解析獲得其他頁地址 參數(shù)取值類型: URL 參數(shù)中參數(shù)取值方式,有兩種方式: 有序值:遵循某種順序,包括起始值、循環(huán)步長和終止值。例如:順序遞增的信息 ID 值 離散值:分散的值序列 ,例如:城市區(qū)號、信息分類編碼等 列表頁記錄:列表頁中要獲取的每一項被稱為一條記錄,通常一行數(shù)據(jù)為一條記錄 規(guī)則表達(dá)式轉(zhuǎn)義:規(guī)則表達(dá)式中對于一些特殊字符(如 .、 ?、 *等)需要進(jìn)行轉(zhuǎn)義,因規(guī)則表達(dá)式配置容易出錯,本系統(tǒng)提供自動轉(zhuǎn)義功能 規(guī)則表達(dá)式檢測:對于寫好的規(guī)則表達(dá)式,進(jìn)行檢測,因規(guī)則表達(dá)式配置容易出錯,本系統(tǒng)提供檢測功能 益眾網(wǎng)站信息抓取工具用戶手冊 第 11 頁 共 72 頁 4. 使用說明 首先介紹一下本軟件的使用流程,以下的具體功能說明均按照使用流程一步一步展開。 登錄 :進(jìn)入系統(tǒng) 入庫數(shù)據(jù)表配置 :設(shè)置本系統(tǒng)將要使用的數(shù)據(jù)庫和數(shù)據(jù)表信息 頁面配置 頁面基本信息配置 :要抓取一個網(wǎng)站,首先要配置該網(wǎng)站的基本信息,作為入口 URL 配置 :配置要抓取頁面的 URL 定位信息配置 :配置要抓取頁面內(nèi)容的具體定位信息 下級頁面配置 :對于任何頁面,都可以根 據(jù)該頁面解析出來的 URL,增加子頁面,可以深度挖掘想要的信息。 頁面解析 頁面解析配置 :配置要抓取頁面內(nèi)容的具體解析信息 值替換 :對需要替換的頁面數(shù)據(jù)項信息進(jìn)行替換設(shè)置 頁面入庫 設(shè)定入庫數(shù)據(jù)表 :設(shè)定該頁面要入庫的數(shù)據(jù)表 入庫字段對照值 :設(shè)定該頁面數(shù)據(jù)項和數(shù)據(jù)表字段的對照關(guān)系 系統(tǒng)使用流程圖如下: 益眾網(wǎng)站信息抓取工具用戶手冊 第 12 頁 共 72 頁 4.1. 輔助功能 輔助功能主要包括登錄、修改管理員信息、系統(tǒng)參數(shù)配置、入庫數(shù)據(jù)表配置、抓取統(tǒng)計、查看網(wǎng)頁源碼、軟件注冊等。 4.1.1. 登錄 進(jìn)入系統(tǒng),必須先登錄,在瀏覽器里輸入: http:/【服務(wù)器 IP:端口】 /webspider/,例如:http:/localhost:8080/webspider/,顯 示登錄頁面,輸入管理員用戶名、密碼后,按“登錄”按鈕進(jìn)行登錄,登錄成功后,進(jìn)入系統(tǒng)。 系統(tǒng)初始密碼為: 11。進(jìn)入系統(tǒng)后,請及時在菜單“修改管理員信息”中修改登錄密碼。 4.1.2. 修改管理員信息 修改管理員信息包括修改管理員的密碼、中文名。 4.1.3. 系統(tǒng)參數(shù)配置 用于修改系統(tǒng)中預(yù)設(shè)的系統(tǒng)參數(shù),包括 同時抓取的網(wǎng)頁數(shù) 、 信息抓取日志文件存放路 益眾網(wǎng)站信息抓取工具用戶手冊 第 13 頁 共 72 頁 徑 、 網(wǎng)絡(luò)連接超時 等 。參數(shù)說明如下: 參數(shù)名稱 參數(shù)說明 缺省值 spider_count 同時抓取的網(wǎng)頁數(shù)(任務(wù)數(shù))。取決于主機性能及網(wǎng)絡(luò)速度,取值應(yīng)在1 到 10 之間 4 spider_log_file_path 信息抓取日志文件存放路徑。 Windows 下通常為:C:webspiderlogs Linux 下通常為:/usr/local/webspider/logs C:webspiderlogs network_timeout 網(wǎng)絡(luò)連接超時,單位:秒。 0 表示永不超時。強烈建議不要設(shè)置為0,否則可能會導(dǎo)致網(wǎng)頁抓取堵塞。 60 page_charset 頁面字符集,取值 GBK或 UTF-8。對于只抓取簡體中文的網(wǎng)頁,建議設(shè)置為 GBK;如果抓取的網(wǎng)頁中既有中文網(wǎng)頁,還有德文網(wǎng)頁等其他語種的 網(wǎng)頁,應(yīng)設(shè)置為 UTF-8。 GBK http_default_charset 抓取到的頁面的缺省字符集。如果頁面配置信息中的頁面字符集設(shè)置為自動識別且不能自動獲得頁面字符集時,該GBK 益眾網(wǎng)站信息抓取工具用戶手冊 第 14 頁 共 72 頁 頁面采用本參數(shù)值。 http_request_header 向服務(wù)器發(fā)送請求時發(fā)送的頭部信息,格式為:參數(shù)名 =參數(shù)值。 一個控制參數(shù)一行。 accept=*/* accept-language=zh-cn content-type=app
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兒科病房心理護(hù)理指南
- 護(hù)理答辯匯報全攻略
- 企業(yè)數(shù)據(jù)資產(chǎn)化及數(shù)據(jù)資產(chǎn)入表白皮書
- 學(xué)前教育自我定位
- 健康鼻子的故事
- 【福州】2025年福建省閩江師范高等專科學(xué)校公開招聘緊缺急需高層次人才24名筆試歷年典型考題及考點剖析附帶答案詳解
- 【大連】2025年遼寧大連醫(yī)科大學(xué)附屬第二醫(yī)院招聘高層次人才163人筆試歷年典型考題及考點剖析附帶答案詳解
- 書包小學(xué)生課件圖片
- 攀枝花光伏逆變器項目可行性研究報告
- 敬仰英烈主題班會課件
- 黔南人才引進(jìn)試題及答案
- 酒店禁煙控制管理制度
- 加班飯管理制度
- 2025年中國自動鍋蓋行業(yè)市場發(fā)展前景及發(fā)展趨勢與投資戰(zhàn)略研究報告
- 江蘇省海安縣財政局會計服務(wù)中心事業(yè)單位招聘招考27人題庫及完整答案【網(wǎng)校專用】
- 新人教版數(shù)學(xué)五年級下冊第二單元《因數(shù)和倍數(shù)》教材解讀
- 2024年中國心力衰竭診斷與治療指南更新要點解讀
- 系統(tǒng)壓力測試評估執(zhí)行規(guī)范
- 北師大版五年級下冊數(shù)學(xué)計算題每日一練帶答案(共30天)
- 河南省建筑安全員《A證》考試題庫
- 病理科生物安全培訓(xùn)
評論
0/150
提交評論