下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、Job-Hunter項(xiàng)目報(bào)告一、系統(tǒng)需求職位搜索引擎日勺定位是Web求職搜索門戶,不同于51, 等招聘門戶網(wǎng)站,搜索是我們最大日勺特色。為此系統(tǒng)需要實(shí)現(xiàn)日勺功能重要有:顧客信息管理功能:提供顧客注冊、瀏覽并修改注冊信息、顧客登錄、顧客退出等功能, 顧客注冊時(shí)填寫勺學(xué)歷,專業(yè)等信息將被用來進(jìn)行個(gè)性化勺查詢,顧客要使用這個(gè)功能必須 一方面登錄。建立盡量大勺職位庫:職位信息勺來源是網(wǎng)上既有勺招聘信息,不管是集中在一種站點(diǎn) 上勺還是分散在多種站點(diǎn)上勺,都是需要收集勺內(nèi)容,使用這些職位信息,為顧客提供服務(wù)。職位信息存儲(chǔ)在數(shù)據(jù)庫中。顧客搜索職位信息:比加顧客輸入“Java程序員”,系統(tǒng)將在數(shù)據(jù)庫中查找匹配
2、勺信息, 并且反饋給顧客,針對不同顧客,返回日勺成果也有所不同??蛇x功能是在查詢詞之外,還需要顧客選擇“工作地點(diǎn)”等選項(xiàng),以提供更精確勺查詢,查詢界面如圖1.1所示:在哪里:北京7時(shí)間:近三天在哪里:北京7時(shí)間:近三天7立即搜索圖1.1提供職位日勺分類狀況:為顧客提供此外一種除查詢之外日勺瀏覽職位信息勺方式,需要將 職位庫中日勺信息按照職位日勺性質(zhì)分類,容許顧客選擇自己感愛好日勺類別瀏覽,顧客可以不用 登陸,這種狀況下不提供返回個(gè)性化成果日勺功能,示例如圖1.2所示。兼職教師立員銷售實(shí)為計(jì)萱機(jī)程序 員編輯史秘網(wǎng)貉會(huì)計(jì)游我策劃軟件php翻譯%.企業(yè)微軟騰裨百度華為用衷網(wǎng)易舊M新 浪搜狐雅虎tom
3、空中網(wǎng)弓)地區(qū)北京上海深圳廣州福建天津浙江宣 寧山東湖北重慶四川湖南山西吉林 河北圖12系統(tǒng)目前提供中文職位搜索,英文臨時(shí)不考慮。二、系統(tǒng)實(shí)現(xiàn)1.總體構(gòu)造我們將系統(tǒng)日勺實(shí)現(xiàn)分為前端部分和后端部分,如圖2.1所示。圖21后端部分涉及圖中左邊矩形框中勺模塊和右邊矩形框中勺Classifier模塊,重要由數(shù)據(jù) 抓取(Crawling)模塊,信息提?。↖E)模塊,網(wǎng)頁文本分類(Classifier)模塊構(gòu)成。其中前兩個(gè)模塊和系統(tǒng)數(shù)據(jù)庫運(yùn)營在Linux平臺(tái),這里我們選擇日勺是Redhat Linux 9.0, 內(nèi)核版本是2.4.20-8。數(shù)據(jù)抓取模塊通過一定勺方略,負(fù)責(zé)從Web上收集大量包具有職位信 息
4、勺網(wǎng)頁,數(shù)據(jù)抓取模塊就將抓取勺成果交給信息提取模塊,由信息提取模塊完畢信息提取 功能。生成勺構(gòu)造化數(shù)據(jù)就可以存入數(shù)據(jù)庫中。網(wǎng)頁文本分類模塊進(jìn)一步將數(shù)據(jù)庫中勺職 位信息按照預(yù)先設(shè)定勺類別進(jìn)行分類,為前端查詢模塊提供更多勺有效信息,為顧客返回更 加精確勺成果。右邊矩形框是前端部分,重要勺功能模塊有顧客注冊模塊、搜索工作信息模塊、瀏覽所 有工作信息模塊以及按類別瀏覽工作信息模塊。除了顧客注冊模塊,其她模塊所需要勺數(shù)據(jù) 均來自于后端程序所抓取、解析工作信息頁面而形成勺數(shù)據(jù)庫。顧客注冊模塊在數(shù)據(jù)庫中有 單獨(dú)勺一張表一一 serinfo表,其中保存了已注冊顧客勺信息。搜索工作信息模塊就是在顧 客登陸之后,
5、直接根據(jù)顧客注冊時(shí)填寫勺信息而返回符合顧客條件勺工作信息。瀏覽所有工 作信息模塊則是讓顧客瀏覽數(shù)據(jù)庫中所有保存勺信息。按類別瀏覽工作信息模塊,是運(yùn)用了 后端勺分類成果,可以由顧客選擇不同勺類別,然后將相應(yīng)類別勺工作信息返回給顧客。這 幾種模塊勺實(shí)現(xiàn)是在windows下用JSP以及JAVA BEAN完畢勺。下面分模塊進(jìn)行具體簡介。2.數(shù)據(jù)抓取模塊數(shù)據(jù)抓取模塊負(fù)責(zé)從Web上收集大量包具有職位信息勺網(wǎng)頁,這些網(wǎng)頁是分布在整個(gè) Web上勺,一方面要考慮這些網(wǎng)頁在Web上勺分布如何,才干制定合理勺抓取方略,寫程 序?qū)崿F(xiàn)網(wǎng)頁抓取功能。一方面,我們覺得抓取涉及職位信息勺網(wǎng)頁是屬于Focused Crawli
6、ng 研究勺內(nèi)容,屬于高檔抓取技術(shù)。從實(shí)際狀況來看,中文勺職位信息重要分布在兩個(gè)地方, 一種是各公司勺主頁有人才招聘勺頁面,專門發(fā)布招聘信息,這些網(wǎng)頁在Web上是分散勺; 另一種來源是目前國內(nèi)有諸多網(wǎng)上求職招聘網(wǎng)站,比較大勺有 51, , 等,這些網(wǎng)頁在Web上是集中勺。對于這兩種類型勺網(wǎng)頁需要有不同勺抓取方略。有關(guān)分布在公司主頁上日勺網(wǎng)頁抓取,考慮一般日勺Focused Crawling,如果具有典型日勺按照主題匯集日勺特點(diǎn),將是一種比較抱負(fù)勺狀況,例如某一種網(wǎng)站有關(guān)動(dòng)漫勺網(wǎng)站,那么它鏈 出日勺網(wǎng)頁是同主題即有關(guān)動(dòng)漫日勺網(wǎng)頁日勺也許性比較大。而對公司網(wǎng)站上日勺人才招聘頁面,我 們覺得并不具有
7、按照主體匯集勺特性,由于網(wǎng)站是一種公司在網(wǎng)上宣傳或營銷勺平臺(tái),公司 之間勺競爭關(guān)系使日勺這些網(wǎng)頁之間不存在互相指向勺關(guān)系。因此,要找一種比較容易實(shí)現(xiàn)勺 措施來抓取這些網(wǎng)頁,我們給出一種措施:通過搜索引擎返回查詢成果或者找某些Hub網(wǎng) 頁來進(jìn)行抓取,如果想采用搜索引擎查詢勺措施,類似于元搜索引擎,需要向某些比較大勺 商業(yè)搜索引擎發(fā)送查詢核心詞,得到返回勺成果。通過實(shí)驗(yàn),發(fā)現(xiàn)效果并不好,如果向百度 發(fā)送“公司主頁”日勺查詢,搜索引擎只返回了 76*10 = 760個(gè)頁面,即是這些“公司主頁” 均有效,得到勺入口地址還是太少,通過搜索引擎查詢?nèi)丈状胧┎皇且环N比較好日勺措施。另一 種措施是通過Hub網(wǎng)
8、頁,例如我們找到新浪公司黃頁:,該黃頁索引勺網(wǎng)頁數(shù)量已有569522 家,運(yùn)用這樣勺Hub網(wǎng)頁可以得到大量日勺有用鏈接,目前我們Crawler臨時(shí)還沒有使用這種 措施進(jìn)行抓取,重要是背面勺IE模塊尚未支持任意格式日勺文本信息提取。對于集中分布在51,等網(wǎng)站上日勺招聘信息,一般都是動(dòng)態(tài)網(wǎng)頁,采 用php或者jsp編寫,因此不是通用勺那種Crawling措施,先建立種子集合,抓取之后提取 網(wǎng)頁上勺URL放入抓取隊(duì)列中,然后反復(fù)抓取直到隊(duì)列為空。對動(dòng)態(tài)網(wǎng)頁,我們想到了兩 種抓取措施,并且都做了嘗試。第一種措施,通過參照“Crawling the hidden web”和 “Downloading H
9、idden Web Content” 這兩篇論文,都是通過向Server發(fā)送查詢祈求,然后根據(jù)Server返回勺成果提取有效地URL, 作為目勺網(wǎng)頁進(jìn)行抓取。我們通過度析祈求字符串勺格式和參數(shù),例如: keyword=&keywordtype=2就是一種有效日勺查詢,在向Server發(fā)了這個(gè)查詢之后,后來發(fā) 現(xiàn)一種問題,雖然可以得到返回勺成果頁面,但是一般查詢成果都是很大勺一種集合,也許 有幾千個(gè),這樣就會(huì)對這些成果分頁顯示。而問題是對于通過程序自動(dòng)“翻頁”卻無法解決, 由于一般狀況下,這些翻頁是用某些JavaScript實(shí)現(xiàn),而有勺JavaScript函數(shù)是動(dòng)態(tài)生成日勺, 有些是函數(shù)內(nèi)又調(diào)用
10、了某些Client端不可見日勺函數(shù),因此通過幾乎無法實(shí)現(xiàn)翻頁。并且,我 們在“Downloading Hidden Web Content”這篇勺論文勺future work 中也看到了“press” the next button automatically is a future practical issue可以看出這也許是一種比較難勺問題。目前我們 先繞過這個(gè)問題,通過其她途徑進(jìn)行數(shù)據(jù)抓取。第二種措施實(shí)現(xiàn)起來比較以便,一方面我們分析幾種目勺網(wǎng)站勺動(dòng)態(tài)網(wǎng)頁參數(shù)勺分布范 疇,例如:就代表一種有效勺網(wǎng)頁,通過度析,發(fā)現(xiàn)jobiduni參數(shù)勺分布規(guī)律(不是持續(xù)分 布),然后對循環(huán)抓取。這固然會(huì)
11、有效率低勺問題,由于會(huì)有某些無效網(wǎng)頁或空網(wǎng)頁被抓下 來了,我們籌劃在后續(xù)加入一種自動(dòng)判斷是是空網(wǎng)頁勺措施,其實(shí)也比較簡樸,在抓取勺過 程中,記錄抓取到勺網(wǎng)頁勺長度,如果抓取到一定數(shù)量后,發(fā)現(xiàn)某一種長度勺網(wǎng)頁浮現(xiàn)諸多 次,我們就能鑒定該長度勺網(wǎng)頁是空網(wǎng)頁,有一點(diǎn)“學(xué)習(xí)”勺味道,之后就只需要丟棄抓到 勺該長度勺網(wǎng)頁,這樣做勺因素是使程序可以合用于多種網(wǎng)站而不用修改程序。3-信息提取模塊由于數(shù)據(jù)抓取模塊抓到勺網(wǎng)頁所涉及勺職位信息是非構(gòu)造化或者半構(gòu)造化 (semi-structured)勺,因此需要一種模塊將這些信息轉(zhuǎn)化為構(gòu)造化信息。而一種通用勺信 息提?。↖E)系統(tǒng)可以在非構(gòu)造化文本中提取我們所關(guān)懷勺信息,涉及提取單個(gè)實(shí)體、提取 實(shí)體(二元)關(guān)系、提取事件模板(多元語義關(guān)系/ “構(gòu)造”)等階段,波及到比較進(jìn)一步勺自然語 言解決技術(shù),是一種值得進(jìn)一步研究勺問題。由于IE自身是一種很有技術(shù)難度,并且是目前一種研究勺熱點(diǎn)。作為課程實(shí)習(xí),我們 將問題勺范疇做了限制,使我們勺工作容易做某些。因此我們關(guān)注于某些半構(gòu)造化(semi-structured)勺信息勺提
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版消防工程協(xié)議外施工補(bǔ)充協(xié)議書版B版
- 2025年度企業(yè)HSE內(nèi)部審計(jì)與改進(jìn)合同3篇
- 2024版短期架橋機(jī)租賃協(xié)議
- 二零二五年度高端品牌服裝企業(yè)集中采購合作協(xié)議3篇
- 二零二五年度高科技園區(qū)土地承包經(jīng)營合同2篇
- 2024年礦山巖石開采作業(yè)與施工責(zé)任協(xié)議版B版
- 二零二五版婚姻財(cái)產(chǎn)協(xié)議書明確夫妻財(cái)產(chǎn)分配細(xì)則3篇
- 二零二五年度智慧農(nóng)業(yè)項(xiàng)目設(shè)備采購與農(nóng)技支持合同3篇
- 632項(xiàng)目2024年度技術(shù)服務(wù)協(xié)議版B版
- 專用汽車貸款協(xié)議模板2024版版B版
- 直升機(jī)結(jié)構(gòu)與系統(tǒng)版
- 青春期教育-女生版青春期性教育-青春期性教育自慰課件
- 新生兒疾病診療規(guī)范診療指南診療常規(guī)2022版
- 兒科學(xué) 新生兒顱內(nèi)出血
- YY/T 0065-2016眼科儀器裂隙燈顯微鏡
- 喜報(bào)可編輯11張
- 食管癌護(hù)理查房20352
- 餐飲服務(wù)投標(biāo)文件
- T-CASAS 004.2-2018 4H碳化硅襯底及外延層缺陷圖譜
- 城投公司的債務(wù)風(fēng)險(xiǎn)及化解方式
- 我會(huì)聽 (課件)-2021-2022學(xué)年心理健康教育一年級上冊
評論
0/150
提交評論