基于網(wǎng)絡(luò)爬蟲的招聘信息可視化分析系統(tǒng)_第1頁
基于網(wǎng)絡(luò)爬蟲的招聘信息可視化分析系統(tǒng)_第2頁
基于網(wǎng)絡(luò)爬蟲的招聘信息可視化分析系統(tǒng)_第3頁
基于網(wǎng)絡(luò)爬蟲的招聘信息可視化分析系統(tǒng)_第4頁
基于網(wǎng)絡(luò)爬蟲的招聘信息可視化分析系統(tǒng)_第5頁
已閱讀5頁,還剩1頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

-.z.基于網(wǎng)絡(luò)爬蟲的招聘信息可視化分析系統(tǒng)摘要:隨著信息化時代的降臨,當今世界信息化水平也越來越高。越來越多的招聘信息在網(wǎng)絡(luò)上發(fā)布,這就使得應(yīng)聘者在眼花繚亂的招聘信息中不知如何選擇最適合自己的工作。因此需要對這些海量的招聘信息進行更深入的更高層次的分析。系統(tǒng)通過網(wǎng)絡(luò)爬蟲技術(shù)對網(wǎng)絡(luò)上海量的招聘信息進行爬取,并對其進行相關(guān)的數(shù)據(jù)清洗工作,對清洗后的數(shù)據(jù)進行可視化分析。實現(xiàn)了對爬取到的招聘信息進行分類查看、模糊查詢以及多條件聯(lián)合查詢,按關(guān)鍵字對招聘信息進行爬取等功能。隨著大數(shù)據(jù)分析技術(shù)日漸成熟,可以在合理的時間內(nèi)對海量的數(shù)據(jù)進行管理、整理以及分析,從而發(fā)掘出數(shù)據(jù)之間隱藏的關(guān)聯(lián)規(guī)則以及預(yù)測未來的發(fā)展趨勢。關(guān)鍵詞:招聘信息;數(shù)據(jù)可視化分析;網(wǎng)絡(luò)爬蟲隨著大數(shù)據(jù)的相關(guān)知識在這個時代越來越普及,我們這個時代即將迎來大數(shù)據(jù)的黃金時期,大數(shù)據(jù)已經(jīng)有著越來越重要的戰(zhàn)略意義[1]。對于招聘信息而言,每天都會有海量的招聘信息發(fā)布在網(wǎng)絡(luò)上,在不同的網(wǎng)站上有著各種不同的招聘信息,然而數(shù)據(jù)庫只能滿足對這些數(shù)據(jù)的增加、修改、刪除、查詢等簡單的功能,這些簡單的功能無法深層次的發(fā)掘這些數(shù)據(jù)源的潛在價值,發(fā)揮數(shù)據(jù)源應(yīng)有的效益[2]。應(yīng)聘者往往希望找到最適合自己的工作,諸如介于工作地點,工作報酬,工作經(jīng)驗,以及學(xué)歷的要求,導(dǎo)致應(yīng)聘者很難從海量的招聘信息中獲取到最適合自己的工作信息[3]。大數(shù)據(jù)分析技術(shù)可實現(xiàn)高度自動化的對數(shù)據(jù)進行分析,發(fā)掘數(shù)據(jù)中隱含的、未知的、潛在的趨勢和模型,有助于發(fā)現(xiàn)業(yè)務(wù)的趨勢,控制風(fēng)險[4]。因此。對于招聘信息大數(shù)據(jù)的可視化分析是有其可行性的,通過對招聘信息的可視化分析有利于應(yīng)聘者發(fā)現(xiàn)最適合自己的工作。因此本項目開發(fā)了一款招聘信息可視化分析系統(tǒng)。因此對于招聘信息大數(shù)據(jù)的可視化分析是有其可行性的,通過對招聘信息的可視化分析有利于應(yīng)聘者發(fā)現(xiàn)最適合自己的工作。因此本項目開發(fā)了一款招聘信息可視化分析系統(tǒng)。在實際的運行中規(guī)避風(fēng)險,幫助數(shù)據(jù)分析這作出合理的決策,從而實現(xiàn)效益的最大[5]。1系統(tǒng)簡介基于網(wǎng)絡(luò)爬蟲的招聘信息可視化分析系統(tǒng)基于B/S架構(gòu),整個系統(tǒng)可以分為數(shù)據(jù)爬取模塊、數(shù)據(jù)可視化分析模塊、用戶功能模塊三大模塊。功能結(jié)構(gòu)圖如圖1所示。圖1系統(tǒng)功能結(jié)構(gòu)圖本文以對前程無憂以及智聯(lián)招聘的招聘信息可視化分析業(yè)務(wù)為例,介紹數(shù)據(jù)分析模塊的需求分析、設(shè)計與實現(xiàn)。2系統(tǒng)需求分析招聘信息的可視化分析包括數(shù)據(jù)的整理,清洗以及繪制可視化圖形。主要業(yè)務(wù)流程是后臺管理員通過指定關(guān)鍵字從智聯(lián)招聘或者前程無憂上獲取相關(guān)的招聘信息,將獲取到的數(shù)據(jù)保存在本地數(shù)據(jù)庫中,然后通過對可利用的數(shù)據(jù)進行清洗工作,篩選出可以進行統(tǒng)計分析的招聘信息,最后通過管理員將可視化的分析結(jié)果上傳到網(wǎng)站上。(1)能夠?qū)崿F(xiàn)將MySql數(shù)據(jù)庫中的相關(guān)工作的數(shù)據(jù)轉(zhuǎn)存為JSON格式,并保存在本地服務(wù)器上,以供后續(xù)進行數(shù)據(jù)可視化分析。(2)能夠?qū)SON格式的數(shù)據(jù)導(dǎo)入使用Python編寫的使用pandas庫的數(shù)據(jù)格式——DataFrames中,從而對數(shù)據(jù)進行數(shù)據(jù)清理,從而將冗余的重復(fù)的無用的信息排查出去,并且對數(shù)據(jù)進行分類整理,聚類分析。(3)招聘信息經(jīng)過數(shù)據(jù)清洗之后,篩選出來的可用的信息再進行可視化分析:工作月薪—工作地點分布關(guān)系圖、工作月薪—工作經(jīng)驗分布關(guān)系圖、工作月薪—最低學(xué)歷—工作經(jīng)驗分布關(guān)系圖、工作數(shù)量—工作地點分布關(guān)系圖、最低學(xué)歷—工作數(shù)量分布關(guān)系圖、工作數(shù)量—工作經(jīng)驗分布關(guān)系圖。招聘信息可視化分析用例圖如圖2所示。圖2招聘信息可視化分析用例圖查看可視化分析用例描述如表1所示。表1招聘信息可視化分析用例描述標題說明用例名稱查看可視化分析分布圖用例標識號Report001簡要說明用戶可以通過可視化分析頁面查看可視化分布圖,分布圖主要包括前程無憂和智聯(lián)招聘兩個數(shù)據(jù)來源的可視化分析,用戶可以點擊圖片放大查看,可以點擊下一張按鈕上下移動右側(cè)縮略圖。前置條件用戶打開可視化分析頁面?;臼录?.用戶點擊右側(cè)分布圖的縮略圖。

2.用戶點擊頁面中間的主瀏覽圖片放大查看,點擊翻頁按鈕實現(xiàn)圖片的分頁下滑。

3.用例終止。其他事件流若用戶沒有點擊任何按鈕,默認顯示數(shù)據(jù)庫中第一張圖片。異常事件流1.提示數(shù)據(jù)庫中沒有已分析結(jié)果,用戶確認。

2.返回到可視化分析頁面。后置條件跳轉(zhuǎn)招聘信息可視化分析主界面,查看成功。3系統(tǒng)的設(shè)計可視化分析模塊實現(xiàn)的主要功能是對從智聯(lián)招聘和前程無憂上爬取到的數(shù)據(jù)進行可視化分析,即對爬取到的數(shù)據(jù)進行關(guān)聯(lián)分析,對每一個字段進行統(tǒng)計,并將統(tǒng)計的結(jié)果通用Python中Matplotlib庫相關(guān)方法將數(shù)據(jù)可視化[6]。招聘信息可視化分析活動圖如下圖3所示:圖3招聘信息可視化分析活動圖通過對系統(tǒng)各個模塊的需求分析,設(shè)計得到系統(tǒng)類圖如圖4所示。圖4系統(tǒng)類圖4系統(tǒng)的實現(xiàn)對招聘信息可視化分析業(yè)務(wù)具體實現(xiàn)是通過將MySql數(shù)據(jù)庫中的相關(guān)工作的數(shù)據(jù)轉(zhuǎn)存為JSON格式,并保存在本地服務(wù)器上。之后將JSON格式的數(shù)據(jù)導(dǎo)入使用Python編寫的使用pandas庫的數(shù)據(jù)格式——DataFrames中,從而對數(shù)據(jù)進行數(shù)據(jù)清理,從而將冗余的重復(fù)的無用的信息排查出去,并且對數(shù)據(jù)進行分類整理,聚類分析。招聘信息經(jīng)過數(shù)據(jù)清洗之后,篩選出來的可用的信息再進行可視化分析:的到工作月薪—工作地點分布關(guān)系圖、工作月薪—工作經(jīng)驗分布關(guān)系圖、工作月薪—最低學(xué)歷—工作經(jīng)驗分布關(guān)系圖、工作數(shù)量—工作地點分布關(guān)系圖、最低學(xué)歷—工作數(shù)量分布關(guān)系圖、工作數(shù)量—工作經(jīng)驗分布關(guān)系圖。招聘信息可視化分析順序圖如圖5所示。圖5招聘信息可視化分析順序圖實現(xiàn)對招聘信息的可視化分析的數(shù)據(jù)清理部分代碼如下所示。foriinrange(len(df['ZWnum'])):#處理職位數(shù)量try:item=df['ZWnum'].iloc[i].strip()result=re.findall(pattern,item)ifresult:df['num'].iloc[i]=result[0]e*ceptE*ceptionase:continuedf_city=df['ZWadd'].copy()pattern2=pile('(.*")(\-)')#處理工作地點foriinrange(len(df['ZWadd'])):item=df['ZWadd'].iloc[i].strip()result=re.search(pattern2,item)ifresult:df_city.iloc[i]=result.group(1).strip()else:df_city.iloc[i]=item.strip()df['add']=df_city(u'json數(shù)據(jù)清洗完畢')運行結(jié)果圖如圖6所示。圖6最低學(xué)歷-工作經(jīng)驗-平均月薪分布圖5結(jié)束語本文通過對招聘信息的可視化分析業(yè)務(wù)為例,詳細介紹了基于網(wǎng)絡(luò)爬蟲的招聘信息可視化分析軟件的需求分析、設(shè)計與實現(xiàn)。對于招聘信息而言,每天都會有海量的招聘信息發(fā)布在網(wǎng)絡(luò)上,在不同的網(wǎng)站上有著各種不同的招聘信息。通過對招聘信息的可視化分析有利于應(yīng)聘者發(fā)現(xiàn)最適合自己的工作。參考文獻[1]吳俊鋒.基于Django的高性能計算Web系統(tǒng)的設(shè)計與實現(xiàn)[D].:電子科技大學(xué),2016.[2]劉文哲.詞語關(guān)聯(lián)搜索查詢系統(tǒng)的設(shè)計與實現(xiàn)[D].:華中科技大學(xué),2015.[3]熊晟.知識庫質(zhì)量控制平臺的設(shè)計與實現(xiàn)[D].:北京交通大學(xué),2016.[4]周嫣然.基于大數(shù)據(jù)時代的數(shù)據(jù)可視化應(yīng)用分析[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014,(11):47-48.[5]楊超明.基于.NET框架的高職就業(yè)管理系統(tǒng)的設(shè)計與實現(xiàn)[D].:湖南大學(xué),2016.[6]王囝囝,楊樹,畢燾.大數(shù)據(jù)時代數(shù)據(jù)信息可視化的研究[J].通訊世界,2015,(14):185-186.[7]HuangZ,ZhangL,*uR,etal./

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論