版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、.火車頭 采集教程火車頭采集器使用說明下載地址:下載地址: 我們下載免費(fèi)版。注意:想用火車,就必須得安裝.NET FrameWork 2.0框架或更高版本.net framework 2.0下載地址: 那么,火車我們也下載到本地了,。net框架,我們也安裝了。那么,我們把新下載的火車采集軟件,解壓下??吹揭恍┟苊苈槁閬y七八糟的東西及文件。那么。上圖中,用紅線圈住的LocoySpider.exe 是主程序,我們雙擊打開。ps:這里說下,上圖中,有好多任務(wù)是我自己用的。新程序,并沒有那么多。我們會(huì)看到火車的界面,看起來非常復(fù)雜,是吧? 呵呵,其實(shí)并沒有那么復(fù)雜,對于新手,有好多東西是用不到的。下邊
2、會(huì)一一的講解。我們先補(bǔ)習(xí)一下,火車頭采集軟件的工作原理。因?yàn)槲覀優(yōu)g覽到的網(wǎng)頁,最后都是通過html輸出的,那么意味著,我們可以查看到html的源碼,那么火車頭為什么會(huì)采集到內(nèi)容呢?我們看下網(wǎng)站的基本結(jié)構(gòu)。 -這些藍(lán)色的東西,對于新手,我們不需要知道!網(wǎng)頁的標(biāo)題 -紅色的是網(wǎng)頁的標(biāo)題。如下圖(1)內(nèi)容 在這個(gè)和之間的,是網(wǎng)站的內(nèi)容部分。如下圖(2) -這里是網(wǎng)站的結(jié)尾。如果想查看一個(gè)網(wǎng)頁的html源文件,之需要點(diǎn)擊瀏覽器上的 查看,源文件即可。(1)(2)那么,我們知道了一個(gè)網(wǎng)頁最基本的架構(gòu),那么就好理解火車采集的基本原理了火車采集軟件是怎么采集的呢?我們配置好火車頭采集規(guī)則,什么叫采集規(guī)則?就
3、是我們查看網(wǎng)頁的源文件,看看整個(gè)網(wǎng)頁的源碼,內(nèi)容部分的開始標(biāo)簽,和結(jié)束標(biāo)簽,這樣火車才能知道,我們要采集這個(gè)頁面的哪個(gè)部分,比如下邊我們演示的。網(wǎng)頁的標(biāo)題內(nèi)容我們想要采集“內(nèi)容”那么就要告訴火車采集器,內(nèi)容開始標(biāo)簽是,結(jié)束標(biāo)簽就是明白了么?呃。估計(jì)是我的表達(dá)能力不夠好。so。我們看下邊的實(shí)例,在好好鞏固下就OK。OK。那么我們開始一步一步教大家設(shè)置采集規(guī)則。首先第一個(gè)。我們的目標(biāo)站。discuz!x1.5架構(gòu)的網(wǎng)站。我們要把這個(gè)版塊的內(nèi)容以及回復(fù)都采集到我們的網(wǎng)站上去。首先我們打開火車,新建一個(gè)站點(diǎn)。點(diǎn)擊火車左上角上的新建按鈕,選擇新建站點(diǎn)。如下圖我們只需要填寫站點(diǎn)名就可以,其余的保持默認(rèn),然
4、后點(diǎn)擊保存按鈕!然后。在這個(gè)站點(diǎn)下,新建一個(gè)任務(wù)。選中我們新建的站點(diǎn),點(diǎn)擊鼠標(biāo)右鍵,選擇第一個(gè),從該站點(diǎn)新建任務(wù)。如下圖其中1,是任務(wù)的名字,必須填寫。2,是整個(gè)采集任務(wù)的步驟向?qū)В?,是文章列表的設(shè)置區(qū)域(下邊講解),4,和3差不多。5,是登錄的地方,有些網(wǎng)址必須登錄,我們才可以看到內(nèi)容,就是這個(gè)東西!OK。就這些,那么,我們一步一步的來!首先我們給我們的任務(wù)加一個(gè)標(biāo)題。下一步,我們就開始設(shè)置列表的采集規(guī)則(因?yàn)楝F(xiàn)在火車不知道 這個(gè)頁面的文章列表是那些,所以我們要告訴火車?。┻@里有兩種方式,新手嘛,我也不知道適合哪種。我們就用默認(rèn)的吧,第一種我們點(diǎn)擊向?qū)砑尤缓蟪霈F(xiàn)下圖。其中有4個(gè)選項(xiàng)卡,如
5、果我們只采集目標(biāo)站點(diǎn)的一個(gè)文章列表然后點(diǎn)擊添加,點(diǎn)擊完成就OK。那么,如果我們要采集多個(gè)列表。那么我們回到 看下邊的圖其中1,是目標(biāo)網(wǎng)站的地址其中2,是火車的通配符(就是某個(gè)東西識(shí)別的東西)其中3,是間隔數(shù)已經(jīng)補(bǔ)零(下邊一一講解)其中4,數(shù)字變化。下邊講解其中5,字母變化。那么??聪聢D圖中在地址欄填寫的是 這個(gè)。那么,這是什么意思呢? 我們打開 這個(gè)地址,然后點(diǎn)擊下一頁發(fā)現(xiàn)地址變成了 那么我們在點(diǎn)擊下一頁,就是第三頁,發(fā)現(xiàn)地址變成了 那么在點(diǎn)擊第四頁。想必大家也知道變成什么了吧? 那么第一頁:第二頁:第三頁:翻頁中,我們發(fā)現(xiàn),只有1在變化。那么我們在火車那里就填寫 這個(gè),其中1用火車的通配符(
6、*)替換掉。意思就是,只有1在變化。在看下邊其中數(shù)字變化,從1到5.意思就是 從地址欄 1到5,就是下邊這樣的。明白了么?其實(shí)很簡單。那么字母變化,就是 。因?yàn)槲覀兡繕?biāo)地址是數(shù)字變化。我們繼續(xù)看下邊間隔倍數(shù),和補(bǔ)零。間隔倍數(shù)1是什么意思?40又是什么意思呢?間隔倍數(shù)1就是。間隔倍數(shù)40就是。明白了么?那么我們在看補(bǔ)零,補(bǔ)零就是。就是這樣。其實(shí)很好理解。OK。我們繼續(xù)。我們填寫完成后,點(diǎn)擊添加 - 完成。如下圖到這里,我們的地址就添加完成了。那么下邊,我們來設(shè)置區(qū)域列表。我們先設(shè)置第一個(gè)?!拔恼聝?nèi)容頁面地址必須包含。不得包含?!蔽覀冸S便點(diǎn)開 這個(gè)網(wǎng)址中的兩篇文章,看下URL。就是文章地址。發(fā)現(xiàn)以
7、上兩個(gè)地址。那么他們其中只有 紅色部分在變動(dòng)。那么,文章內(nèi)容必須包含。我們寫 這樣就可以,那么我們點(diǎn)擊“開始測試網(wǎng)址采集”這個(gè)時(shí)候,我們點(diǎn)開網(wǎng)站前邊的+號發(fā)現(xiàn),其實(shí)網(wǎng)址已經(jīng)采集成功了。其中的并不需要填寫。這是為什么呢?因?yàn)槲覀儾杉捻撁?中的文章地址,就是 紅色部分都會(huì)變動(dòng)?;蛘哂锌赡茏儎?dòng)。所以我們加上通配符,所以我們不用填寫這個(gè),也可以采集成功。那么,為了讓大家更直白的了解火車,我們還是寫一下。那么我們打開 這個(gè)地址,在頁面中,點(diǎn)擊右鍵,選擇“查看源文件”(因?yàn)椴缓媒貓D。)發(fā)現(xiàn)上邊的東西出現(xiàn),都是一些猥瑣的html代碼。我們怎么定義文章地址的區(qū)域呢?看下圖我們復(fù)制頁面中的“篩選”然后在頁面源
8、碼中查找下,那么自然,下邊的,就是文章地址的區(qū)域咯。那么我們在這里,填寫什么呢?我們要填寫一個(gè)“唯一”的東西。就是這個(gè)頁面獨(dú)有的一個(gè),并且在文章地址上方的一個(gè)代碼。如上圖。我們選擇這段 代碼!然后我們復(fù)制 這段代碼,在我們打開的源文件中,向下查找看,看看有沒有相同的。好消息。沒有相同了。那么我們在填寫 那么這里怎么填寫呢?其實(shí)一樣。我們給下看看源碼。我們向上查找下。OK.那么。就填寫.就OK。照著這樣填寫就OK了。其實(shí)這一步是多此一舉。只是教大家怎樣填寫罷了。我們隨便選中一條地址,雙擊鼠標(biāo)左鍵。直接跳到第二部,采集內(nèi)容規(guī)則。在這里,我們點(diǎn)擊一下測試按鈕。發(fā)現(xiàn),標(biāo)題和內(nèi)容都采集到了,但是。在標(biāo)題
9、上,我們把目標(biāo)站點(diǎn)的網(wǎng)站主標(biāo)題也采集過來了。而內(nèi)容。是把整個(gè)頁面亂七八糟的東西都采集過來了。那么。我們開始設(shè)置更精確的采集規(guī)則。擦。首先,我們設(shè)置標(biāo)題?,F(xiàn)在默認(rèn)的采集標(biāo)題是 又出來個(gè)史上最強(qiáng)大的搜索引擎! - 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 我們需要的標(biāo)題是紅色部分。那么。 我們雙擊上圖被圈住的地方。那么我們需要設(shè)置的地方就是那么。我們現(xiàn)在采集到的標(biāo)題是 又出來個(gè)史上最強(qiáng)大的搜索引擎! - 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 這個(gè),那么,我們只需要把藍(lán)色的部分去掉。怎么去掉呢
10、?下圖我們添加然后點(diǎn)擊確定點(diǎn)擊測試發(fā)現(xiàn)又出來個(gè)史上最強(qiáng)大的搜索引擎! - 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 藍(lán)色部分已經(jīng)被去掉。那么我們這里來解釋下。上圖中的開始字符串和結(jié)束字符串是什么呢?我們打開 這個(gè)頁面,然后查看下源文件。如下圖??梢园l(fā)現(xiàn),在和中就是我們要采集文章的標(biāo)題,只是多了- 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 這個(gè),那么我們排除就可以了。那為什么在中,要寫成- (*) - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz!這樣的呢?為什
11、么把 無聊扯蛋換成了(*)呢?因?yàn)槲覀兛梢钥吹贸? 無聊扯蛋 - 張家口市姚家房鎮(zhèn)及周邊地方娛樂門戶站 - Powered by Discuz! 無聊扯蛋 只是這個(gè)網(wǎng)站的一個(gè)版塊,如果采集別的版塊,那么 無聊扯蛋,就會(huì)變動(dòng)。到時(shí)候我們還得設(shè)置排除標(biāo)簽。索性,我們把它改成通配符(*),那么在采集別的版塊,就不用設(shè)置了。那么其中的藍(lán)色部分,是網(wǎng)站的主標(biāo)題,在一般情況下是不會(huì)變動(dòng)的。所以不用搞成通配符。 那么。標(biāo)題。我們就設(shè)置完成了。下邊來設(shè)置內(nèi)容部分。內(nèi)容部分的采集規(guī)則設(shè)置,其實(shí)和列表一樣!我們服飾內(nèi)容,在源文件進(jìn)行查找。其中選中的部分,就是我們的內(nèi)容部分。那么。我們在源碼中 查找下 這個(gè)標(biāo)簽,看
12、看是不是唯一的。 發(fā)現(xiàn)并不是唯一的。而是每個(gè)樓層也就是回帖的內(nèi)容都是用 和 括起來的。那么。我們就輸入上圖所示。在圖中的 html標(biāo)簽排除。我們?nèi)x。因?yàn)槲覀冎蟮陌l(fā)布,是不支持發(fā)布附件的,也不支持html。所以全部排除。然后確定。我們測試下其中內(nèi)容和內(nèi)容之間,用|分割開了。這是啥意思類?呵呵。這個(gè)是循環(huán)匹配。就是。一個(gè)樓層與樓層之間的分隔符。就是回復(fù)與回復(fù)之間的分隔符。哎呀。我也說不清楚啦??傊?。這樣就可以。默認(rèn),保持不變就OK。那么?,F(xiàn)在,標(biāo)題也設(shè)置OK。內(nèi)容也OK。接下來就是分頁問題。我們在源文件中查找“下一頁”那么圖中被選中的地方,就是下一頁的全部源碼。那么,我們選中下一個(gè)的開始標(biāo)簽
13、和結(jié)束標(biāo)簽,對應(yīng)輸入到就可以了。我們在分頁內(nèi)容合并鏈接代碼這里輸入|這個(gè)。至于什么意思。就是分頁嘛。我也說不清楚??偸禽斎刖褪橇恕D敲?。到這里,網(wǎng)址采集部分,和內(nèi)容采集部分已經(jīng)設(shè)置完畢了。下邊,我們要講,發(fā)布?,F(xiàn)在開始講解 火車頭的發(fā)布。因?yàn)槲覀冃枰l(fā)布到 我們的 discuz!x1.5的程序上。那么,首先我們需要兩個(gè)東西1.火車頭的dz1.5的發(fā)布模塊 (塵緣免費(fèi)版)2.免登錄接口 (塵緣免費(fèi)版)那么。下載地址。如果下載地址失效。請加我QQ 索取 782711659下載后,解壓。首先呢。我們需要配置接口。我們進(jìn)入接口文件夾。并且進(jìn)入對應(yīng)編碼的文件夾發(fā)現(xiàn)有兩個(gè)php文件。 其中的 Locoy.
14、php是程序主文件,可以改名,Locoy.config.php是配置文件,不能改名。那么我們先把Locoy.php的名字改掉。我們改成 woca.php然后我們打開locoy.config.php 這個(gè)文件其中1,是發(fā)帖的用戶,2,是回帖的用戶。這里我們可以填寫自己的。記得用|分開。這里說下,我們填寫的用戶名,可以是網(wǎng)站沒有注冊的,也可以是注冊過的。如果沒有注冊的,它會(huì)自動(dòng)注冊。剩下其他的配置參數(shù),可以根據(jù)自己的需要更改,都有注釋,這里就不一一解釋了。更改完成后,我們把這兩個(gè)文件上傳到我們空間的根目錄。OK。接口文件我們已經(jīng)處理完畢。那么。我們開始處理發(fā)布模塊。進(jìn)入火車。我們導(dǎo)入圈中的模塊。因?yàn)槲乙呀?jīng)導(dǎo)入過了。所以這里不用。在圖中圈住的地方。我們要修改成我們自己改的名字。如圖。記得在刷新列表那里也要修改。OK。模塊基本完成了。還有一點(diǎn)。如果我們的版塊開啟了主題分類,那么我們還需要修改下模塊。比如我們要給維修知識(shí)里邊發(fā)。那么。發(fā)現(xiàn)主題分類的typei=1 那么我們在發(fā)布模塊中填寫。明白了唄? 呵呵。就這樣我們的發(fā)布模塊就配置完成了。 我們保存。給它加一個(gè)名字。然后我們關(guān)閉當(dāng)前的模塊。我們選中我們剛才修改過并且重命名的模塊
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國高化白水泥數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國鋅鉤數(shù)據(jù)監(jiān)測研究報(bào)告
- 二零二五年度餐飲企業(yè)廚師健康管理服務(wù)合同范本3篇
- 2025至2030年中國寧坤丸數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年度存量二手房買賣合同(附房屋質(zhì)量保證)2篇
- 2025至2030年中國中空板零件盒數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年中國木墻板市場調(diào)查研究報(bào)告
- 2025年度國際企業(yè)外籍員工招聘與管理合同4篇
- 二零二五年度車輛改裝工程合同范本4篇
- 二零二五年度購房合同解除條件協(xié)議
- 廣西南寧市2024-2025學(xué)年八年級上學(xué)期期末義務(wù)教育質(zhì)量檢測綜合道德與法治試卷(含答案)
- 《習(xí)近平法治思想概論(第二版)》 課件 3.第三章 習(xí)近平法治思想的實(shí)踐意義
- 項(xiàng)痹病辨證施護(hù)
- 職業(yè)安全健康工作總結(jié)(2篇)
- 懷化市數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展概況及未來投資可行性研究報(bào)告
- 07FD02 防空地下室電氣設(shè)備安裝
- 教師高中化學(xué)大單元教學(xué)培訓(xùn)心得體會(huì)
- 高中語文日積月累23
- 彈簧分離問題經(jīng)典題目
- 部編版高中歷史中外歷史綱要(下)世界史導(dǎo)言課課件
- 語言規(guī)劃課件
評論
0/150
提交評論