基于大數(shù)據(jù)文本聚類關(guān)聯(lián)的網(wǎng)絡(luò)招聘信息挖掘_第1頁(yè)
基于大數(shù)據(jù)文本聚類關(guān)聯(lián)的網(wǎng)絡(luò)招聘信息挖掘_第2頁(yè)
基于大數(shù)據(jù)文本聚類關(guān)聯(lián)的網(wǎng)絡(luò)招聘信息挖掘_第3頁(yè)
基于大數(shù)據(jù)文本聚類關(guān)聯(lián)的網(wǎng)絡(luò)招聘信息挖掘_第4頁(yè)
基于大數(shù)據(jù)文本聚類關(guān)聯(lián)的網(wǎng)絡(luò)招聘信息挖掘_第5頁(yè)
已閱讀5頁(yè),還剩18頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、.教學(xué)單位 湖北工程學(xué)院 學(xué)生學(xué)號(hào) 7 本科畢業(yè)論文(設(shè)計(jì)) 題目 基于大數(shù)據(jù)文本聚類關(guān)聯(lián)的網(wǎng)絡(luò)招聘信息挖掘?qū)W生姓名 鄭小樂 專業(yè)名稱 統(tǒng)計(jì)學(xué)指導(dǎo)教師 張學(xué)新 2016年4月5日目 錄1、引言11、引言12、網(wǎng)絡(luò)招聘信息挖掘綜述12.1文本挖掘定義及特點(diǎn)12.1.1文本挖掘的定義12.1.2文本挖掘的特點(diǎn)12.2文本挖掘及其網(wǎng)絡(luò)招聘信息挖掘的現(xiàn)狀23、網(wǎng)絡(luò)招聘信息挖掘步驟33.1讀取網(wǎng)頁(yè)招聘信息文本文件33.2招聘信息文本分詞43.2.1分詞43.2.2設(shè)置頻繁出現(xiàn)的領(lǐng)域干擾詞53.3詞頻統(tǒng)計(jì)與詞云63.4招聘信息文本聚類分析73.4.1特征詞權(quán)重73.4.2TF-IDF法計(jì)算關(guān)鍵詞權(quán)重83.

2、4.3相似度計(jì)算83.4.4創(chuàng)建文本詞條矩陣93.4.5K-均值聚類94、招聘信息文本W(wǎng)eb圖分析125、建議13參考文獻(xiàn)15附錄16致謝18基于大數(shù)據(jù)文本聚類關(guān)聯(lián)的網(wǎng)絡(luò)招聘信息挖掘摘 要:隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)招聘信息平臺(tái)已成為招聘者發(fā)布信息和應(yīng)聘者獲取職位的主要途徑。大量的網(wǎng)絡(luò)招聘信息蘊(yùn)含著用人單位豐富的需求知識(shí),諸如對(duì)人才的能力、素質(zhì)等方面的要求。本文自行爬取2015年11月-2016年4月拉鉤網(wǎng)24萬(wàn)5千多條企業(yè)招聘信息,使用R語(yǔ)言編程,通過中文分詞,設(shè)置頻繁出現(xiàn)的領(lǐng)域干擾詞,詞頻統(tǒng)計(jì),文本向量化,應(yīng)用k-均值聚類及網(wǎng)狀Web圖方法分析社會(huì)各行業(yè)對(duì)人才的能力及素質(zhì)要求,描繪

3、企業(yè)基本信息、薪資水平、工作經(jīng)驗(yàn)要求間的關(guān)聯(lián)強(qiáng)度,給高校及時(shí)了解社會(huì)對(duì)人才的需求變化,有針對(duì)性的調(diào)整人才培養(yǎng)方案以及應(yīng)屆畢業(yè)生求職提出有益建議。關(guān)鍵詞:大數(shù)據(jù);網(wǎng)絡(luò)招聘信息;聚類分析;Web圖;R語(yǔ)言編程Online recruitment information mining by vast amounts of text clustering and associatingAbstract:Companying with computer network technology rapid development, network recruitment information platfo

4、rm has become a main way for recruiter to release information and for job seeker to get job. A large number of network recruitment information contains the knowledge of demand of units for employees, such as the requirement of talents ability and quality, etc. In this paper, more than 24, 5 thousand

5、s enterprises net recruitment information, from November 2015 to April 2016 in Lagou net are crawled out. through setting frequent field disturbance terms, Chinese word segmentation, word frequency statistics, text vectorization, k-means clustering using R language programming and Web diagram method

6、 are applied to excavate ability and quality requirements from social various industries for talents, to describe the correlation strengths among enterprise basic information, wages, job experience requirements for employees .Finally, some beneficial suggestions are put forward for colleges and univ

7、ersities to timely understand of the social demand for talents and targeted adjust the talent training scheme ,and some reference are provided for the fresh graduates to apply for a job.Key words: Big data; Network recruitment information; Clustering analysis; Web graph;R language programming.1、引言隨著

8、互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)上信息呈爆發(fā)式增長(zhǎng),這種增長(zhǎng)超過了創(chuàng)造機(jī)器的速度,甚至超過了人們的想象。數(shù)據(jù)庫(kù)中以文本形式存儲(chǔ)的信息越來越多,包含各種數(shù)據(jù)源的文本,如研究報(bào)告、研究論文、數(shù)字圖書館、電子郵件和頁(yè)面等。這些信息的存儲(chǔ)方式分為兩大類:一是可以用數(shù)字、符號(hào)等表示的結(jié)構(gòu)化數(shù)據(jù),另一類則是非結(jié)構(gòu)化數(shù)據(jù)。其中非結(jié)構(gòu)化數(shù)據(jù)的挖掘更難。當(dāng)今,眾多用戶開始顯示出對(duì)文本挖掘的興趣,希望挖掘出有用的信息、規(guī)則。例如,企業(yè)把人才招聘信息越來越多的發(fā)布到互聯(lián)網(wǎng)上,這些招聘信息含有用人單位對(duì)人才的需求及能力要求,在一定程度上代表了人才需求的未來走向。高校希望利用現(xiàn)代技術(shù)手段從互聯(lián)網(wǎng)上獲取有用信息,分析用人單位對(duì)人

9、才的需求特點(diǎn),及時(shí)了解社會(huì)對(duì)人才的需求變化情況,有針對(duì)性的調(diào)整人才培養(yǎng)方案和設(shè)置相關(guān)課程,培養(yǎng)出更多的優(yōu)秀人才以滿足社會(huì)的需求。應(yīng)聘者也需要從網(wǎng)絡(luò)招聘信息平臺(tái)獲取信息,做好求職前的準(zhǔn)備工作。本文利用八爪魚采集器自行爬取拉勾網(wǎng)24萬(wàn)多海量企業(yè)招聘信息,應(yīng)用R語(yǔ)言編程挖掘出一些有用的知識(shí)。 2、網(wǎng)絡(luò)招聘信息挖掘綜述2.1文本挖掘定義及特點(diǎn)2.1.1文本挖掘的定義網(wǎng)絡(luò)招聘信息挖掘是一種文本挖掘。文本挖掘是指從大量文本數(shù)據(jù)中獲取先前未知的模式,這種發(fā)現(xiàn)必須是可理解的、潛在有用的。分析文本數(shù)據(jù),抽取文本信息,目標(biāo)是發(fā)現(xiàn)文本知識(shí) 。文本挖掘的主要難點(diǎn)在于它必須處理那些本來就模糊而且非結(jié)構(gòu)化的文本數(shù)據(jù),是一

10、個(gè)多學(xué)科混雜的領(lǐng)域,涵蓋了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)以及專業(yè)軟件使用等技術(shù)。2.1.2文本挖掘的特點(diǎn)1. 面對(duì)的是大量文本集合。2. 文本挖掘發(fā)現(xiàn)的知識(shí)是以前未發(fā)現(xiàn)的。3. 文本挖掘的知識(shí)具有潛在價(jià)值,是用戶感興趣的直接可用的。4. 文本挖掘算法具有較高的復(fù)雜度。5. 文本挖掘涉及多個(gè)學(xué)科交叉,包括模式識(shí)別、統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理、可視化技術(shù)、數(shù)據(jù)庫(kù)技術(shù)等。2.2文本挖掘及其網(wǎng)絡(luò)招聘信息挖掘的現(xiàn)狀 文本挖掘最近幾年在國(guó)外發(fā)展迅速,廣泛應(yīng)用于電子會(huì)議、郵件分類、垃圾信息過濾等多個(gè)方面1- 3。國(guó)內(nèi)文本挖掘研究則較晚。早期主要是對(duì)Web文本挖掘技術(shù)研究的介紹 4。稍后主要聚焦于對(duì)各種改進(jìn)的k-均值

11、聚類算法的精度進(jìn)行實(shí)驗(yàn)研究。王智勇5應(yīng)用基于詞條互信息的統(tǒng)計(jì)降維和Kohonen網(wǎng)絡(luò)相結(jié)合的文本聚類算法,測(cè)試搜狐網(wǎng)下載的已知類別的486篇文本的聚類精度。李伯陽(yáng)6在網(wǎng)格聚類算法基礎(chǔ)上進(jìn)行文本聚類,將其應(yīng)用于14524個(gè)垃圾郵件的甄別。蔡坤7基于topN特征詞的文本聚類算法,采用復(fù)旦大學(xué)國(guó)際數(shù)據(jù)庫(kù)中心自然語(yǔ)言處理小組公開提供的測(cè)試語(yǔ)料,從中隨機(jī)抽取了五大類共200篇文本實(shí)證聚類效果?,F(xiàn)在的研究則關(guān)注中文分詞及應(yīng)用。曾路平8采用中科院開發(fā)的ICTCLAS2009共享版進(jìn)行中文分詞,利用單詞間的語(yǔ)義相關(guān)性,對(duì)公安情報(bào)系統(tǒng)中的輿情信息聚類分析。鐘曉旭9-10先后對(duì)2010年的3家招聘網(wǎng)站的78481

12、條招聘信息及新安人才網(wǎng)上計(jì)算機(jī)類專業(yè)招聘信息進(jìn)行聚類,統(tǒng)計(jì)各個(gè)職位的需求量,計(jì)算職位間的相關(guān)系數(shù)。王靜11選擇2011年的4家招聘網(wǎng)站,包括六種職業(yè)的2262個(gè)招聘網(wǎng)頁(yè),采用偽二維隱馬爾可夫模型來分割,抽取其中的職位名、機(jī)構(gòu)名等信息。馬力12對(duì)302個(gè)瀏覽頁(yè)面聚類分析,獲得用戶興趣序列的頻繁模式。王盛明,盧秉亮13從校圖書館讀者借閱量表中抽取200名學(xué)生的記錄,應(yīng)用加權(quán)聚類算法劃分讀者群體。劉玉華等人14對(duì)某城市若干高校歷年畢業(yè)生的就業(yè)數(shù)據(jù)進(jìn)行聚類分析、關(guān)聯(lián)分析,開發(fā)畢業(yè)生和企業(yè)間的雙向推薦系統(tǒng)??偟膩碚f,國(guó)內(nèi)以上文本挖掘的研究深度有限,所用數(shù)據(jù)不是真正意義上的網(wǎng)絡(luò)招聘數(shù)據(jù),各種改進(jìn)的聚類算法

13、的精度可信度不高。鮮見對(duì)網(wǎng)頁(yè)里大量非結(jié)構(gòu)化的招聘數(shù)據(jù)的挖掘研究。統(tǒng)計(jì)分析方法簡(jiǎn)單,特別的,很少使用軟件編程。本文自行爬取2015年11月-2016年4月拉勾網(wǎng)()24萬(wàn)多海量企業(yè)招聘信息,應(yīng)用k-均值聚類分析社會(huì)各行業(yè)對(duì)人才的能力及素質(zhì)要求,網(wǎng)狀Web圖方法描繪企業(yè)規(guī)模、金融狀態(tài)、所在行業(yè)領(lǐng)域、工作性質(zhì)、職位類型、薪資水平、應(yīng)聘者工作經(jīng)驗(yàn)間的關(guān)聯(lián)強(qiáng)度,為高校了解社會(huì)對(duì)人才的需求變化情況及時(shí)提供信息,設(shè)置實(shí)踐性選修課程提供科學(xué)依據(jù)。2.3網(wǎng)絡(luò)招聘信息挖掘的流程文本解析文本向量化文本預(yù)處理聚類與關(guān)聯(lián)挖掘中文分詞停用詞處理詞頻統(tǒng)計(jì)與詞云TF-IDF計(jì)算權(quán)重文檔-詞條矩陣K-均值聚類網(wǎng)絡(luò)招聘信息文本集

14、合聚類結(jié)果分析Apriori關(guān)聯(lián)挖掘Web圖分析圖1 網(wǎng)絡(luò)招聘信息挖掘流程圖3、網(wǎng)絡(luò)招聘信息挖掘步驟3.1讀取網(wǎng)頁(yè)招聘信息文本文件本文首先通過八爪魚采集器抓取拉鉤網(wǎng)的招聘信息,然后匯總到一張csv表格,數(shù)據(jù)格式如圖2所示:圖2 網(wǎng)絡(luò)招聘信息原始數(shù)據(jù)樣例3.2招聘信息文本分詞3.2.1分詞為了統(tǒng)計(jì)分析,必須對(duì)獲取的大量非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行中文分詞,提取有意義的中文單詞。所謂中文分詞指的是將一個(gè)漢字序列切分成單獨(dú)的有意義的詞條,以便為其建立索引。經(jīng)過中文分詞后,句子按照一定的規(guī)范重新組合成詞序列。分詞的準(zhǔn)確性直接影響著文本挖掘結(jié)果的有效性,詞分的越準(zhǔn)確,對(duì)文本的挖掘與分析越能有效提取文本中蘊(yùn)含的有用信

15、息。本文采用ICTCLAS分詞軟件包對(duì)csv文本中的文本數(shù)據(jù)進(jìn)行中文分詞。ICTCLAS的分詞速度快,精度高,具有詞性標(biāo)注、未登錄詞識(shí)別等功能,是當(dāng)前世界上最好的漢語(yǔ)詞法分析器。為了提高切詞的準(zhǔn)確率,在分詞之前需要導(dǎo)入一些與文本數(shù)據(jù)相關(guān)的自定義詞典。本文中文分詞示例圖3:圖3 網(wǎng)絡(luò)招聘信息文本分詞3.2.2設(shè)置頻繁出現(xiàn)的領(lǐng)域干擾詞在分詞結(jié)果中存在很多連詞、介詞、助詞、感嘆詞及標(biāo)點(diǎn)符號(hào),或者一些通用名稱詞,如“公司”、“描述”等,稱做停用詞,它們對(duì)區(qū)分文本沒有作用,需要將其刪除。首先創(chuàng)建一個(gè)停詞表,添加招聘內(nèi)容中出現(xiàn)的停用詞。然后,在程序里自定義刪除停止詞的函數(shù),刪除文本中無(wú)實(shí)際意義的詞,得到結(jié)

16、果如圖4:圖4 刪除停用詞后的分詞 相比之前的分詞結(jié)果,這次精簡(jiǎn)了很多,剔除了諸如“對(duì)”、“的”、“和”等無(wú)意義的詞。3.3詞頻統(tǒng)計(jì)與詞云對(duì)分詞的結(jié)果做一個(gè)詞頻統(tǒng)計(jì),計(jì)算出每個(gè)詞出現(xiàn)的次數(shù)并排序,然后取排名前50的50個(gè)詞語(yǔ),用wordcloud()的方法來繪制詞云。詞云是現(xiàn)在很常見的一種分析圖,把這些詞語(yǔ)放在一張圖中,按頻次出現(xiàn)的多少來顯示詞語(yǔ)的大小。判斷分詞結(jié)果的好壞,最快捷的方法是繪制詞云,從而可以清晰的查看哪些詞不該出現(xiàn)或哪些詞分割的不準(zhǔn)確。圖5 詞頻統(tǒng)計(jì)圖6 詞云從詞云可以看出,除了少數(shù)無(wú)意義的詞未被完全剔除外,分詞結(jié)果總體上還是比較令人滿意的。此外,招聘信息的內(nèi)容有很明顯的特征,“

17、工作”、“能力”、“開發(fā)”、“經(jīng)驗(yàn)”出現(xiàn)的次數(shù)遠(yuǎn)大于其他詞語(yǔ);其次出現(xiàn)頻率比較高的詞語(yǔ)是“設(shè)計(jì)”、“負(fù)責(zé)”、“團(tuán)隊(duì)”、“熟悉”、“產(chǎn)品”等詞語(yǔ),可以看出現(xiàn)在的人才市場(chǎng)比較看重求職者的工作能力、工作經(jīng)驗(yàn)、責(zé)任心、團(tuán)結(jié)協(xié)作能力等。3.4招聘信息文本聚類分析文本聚類把所有文本文本按照某種相似性準(zhǔn)則聚合為若干類別,同類文本盡可能相似,每一類別挖掘出一個(gè)主題。文本聚類是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,不需要訓(xùn)練樣本,自動(dòng)化處理能力較高,是文本信息提取的主要手段 8。文本聚類算法要求變量是數(shù)值型的,為此,先將文本數(shù)據(jù)轉(zhuǎn)換為文本詞條矩陣。3.4.1特征詞權(quán)重設(shè)是一個(gè)包含個(gè)文本的集合,是第個(gè)文本的特征向量,為文本中

18、第個(gè)特征項(xiàng)詞條的權(quán)值,則;。3.4.2TF-IDF法計(jì)算關(guān)鍵詞權(quán)重TF-IDF方法不僅用特征詞在訓(xùn)練文本內(nèi)的頻數(shù)度量該詞的重要性,而且也考慮包含該詞的文本數(shù)量,如果包含該詞的文本數(shù)量太多,那么該詞識(shí)別不同文本的能力就差,需要把二者結(jié)合起來。對(duì)于給定文本,TF-IDF算法給出該文本中詞條的權(quán)重公式 (1)其中表示第個(gè)特征詞在文本中出現(xiàn)的頻率;表示該詞條在整個(gè)文本集中的分布情況,即包含該詞條的文本數(shù)越少,則越大,說明該詞語(yǔ)有較強(qiáng)的類別區(qū)分能力。 (2)其中的取值通過實(shí)驗(yàn)來確定(通常取0.01),為出現(xiàn)特征項(xiàng)的文本數(shù),表示總文本數(shù)目。3.4.3相似度計(jì)算通過上述方法將文本映射成向量,再選擇某種距離度

19、量文本間的相似度。本文用向量夾角的余弦值來度量。設(shè)第個(gè)和第個(gè)職位描述的特征向量分別為,定義為特征項(xiàng)詞條在文本集合中出現(xiàn)的頻率;給定文本向量與,選擇它們的相似度指標(biāo)為向量夾角的余弦值: (3)所有招聘信息文本向量化以后,獲得結(jié)構(gòu)化數(shù)據(jù),再使用R語(yǔ)言編程。3.4.4創(chuàng)建文本詞條矩陣將已分完詞的列表導(dǎo)入為語(yǔ)料庫(kù),并進(jìn)一步加工處理語(yǔ)料庫(kù),從而創(chuàng)建文本詞條矩陣,圖7展示了部分文本的向量化結(jié)果。圖7 文本詞條矩陣該文本詞條矩陣實(shí)際上為稀疏矩陣,其中矩陣中非0元素有80985個(gè),而0元素有個(gè),稀疏率達(dá)到99%;最后,這9523個(gè)詞中,最頻繁的一個(gè)詞出現(xiàn)在了24條招聘信息中。由于稀疏矩陣的稀疏率過高,我們?cè)偬?/p>

20、除一些出現(xiàn)頻次極低的詞語(yǔ),結(jié)果見圖8。 圖8 精細(xì)化的文本詞條矩陣精細(xì)化的文本詞條矩陣中的列數(shù)大幅減少,當(dāng)前矩陣只包含了28列,即28個(gè)詞語(yǔ)。3.4.5K-均值聚類K-均值聚類的基本思想是通過迭代的方法,逐次更新各聚類中心的值,直至獲得滿意的結(jié)果。K-均值聚類算法的步驟:1.初始化聚類中心。設(shè)定指定聚類類數(shù)N,給出迭代中止條件。在文本集合中隨機(jī)選取N個(gè)文本作為初始聚類中心。2.迭代。將文本與各個(gè)聚類中心進(jìn)行比較,把它劃入距離最近的聚類中心所在的類,形成新類。3.重新計(jì)算聚類中心。把新類的所有文本向量平均后作為新的聚類中心。4.重復(fù)2-3步,直到類別的變動(dòng)很小或不再變動(dòng)為止,形成K個(gè)類14。將以

21、上算法通過R語(yǔ)言編程實(shí)現(xiàn),結(jié)果見表1。表1 網(wǎng)絡(luò)招聘信息聚類結(jié)果 由表1可知,網(wǎng)絡(luò)招聘信息可分為7類。詳細(xì)分類見附件,聚類結(jié)果的可視化如圖9.圖9 聚類結(jié)果可視化圖9中,不同顏色的點(diǎn)代表不同的類別,*表示聚類中心。分別提取聚類的7個(gè)類別的特征詞,得到表2結(jié)果:表2 特征詞排行第一類能力工作經(jīng)驗(yàn)強(qiáng)以上團(tuán)隊(duì)客戶良好相關(guān)優(yōu)先第二類客戶團(tuán)隊(duì)招聘工作負(fù)責(zé)管理經(jīng)驗(yàn)開發(fā)完成分析第三類公司銷售合作工作客戶能力團(tuán)隊(duì)以上負(fù)責(zé)經(jīng)驗(yàn)第四類產(chǎn)品設(shè)計(jì)能力負(fù)責(zé)經(jīng)驗(yàn)工作用戶以上需求分析第五類工作負(fù)責(zé)能力經(jīng)驗(yàn)以上相關(guān)管理強(qiáng)開發(fā)優(yōu)先第六類熟悉開發(fā)經(jīng)驗(yàn)工作設(shè)計(jì)以上能力技術(shù)系統(tǒng)優(yōu)先第七類開發(fā)經(jīng)驗(yàn)?zāi)芰κ煜ぎa(chǎn)品以上工作設(shè)計(jì)要求優(yōu)先聚類結(jié)

22、果依據(jù)詞頻重要性分成7類,第一類強(qiáng)調(diào)工作能力,第二類強(qiáng)調(diào)團(tuán)隊(duì)協(xié)作精神,第三類屬于市場(chǎng)營(yíng)銷,強(qiáng)調(diào)溝通能力,第四類是產(chǎn)品設(shè)計(jì),強(qiáng)調(diào)要從滿足用戶需求的角度來設(shè)計(jì)產(chǎn)品,第五類強(qiáng)調(diào)工作要認(rèn)真負(fù)責(zé),對(duì)工作經(jīng)驗(yàn)和能力也有一定要求,第六類強(qiáng)調(diào)軟件設(shè)計(jì)與開發(fā)能力,第七類強(qiáng)調(diào)產(chǎn)品設(shè)計(jì)與開發(fā)能力。4、招聘信息文本W(wǎng)eb圖分析Web圖分析是一種用圖的形式來描述關(guān)聯(lián)規(guī)則結(jié)果的方法。關(guān)聯(lián)規(guī)則的任務(wù)是從海量的數(shù)據(jù)中得到各指標(biāo)間有價(jià)值的相互關(guān)系,其結(jié)果很容易被理解且能夠使人有效地捕捉數(shù)據(jù)間聯(lián)系。關(guān)聯(lián)規(guī)則的一般形式。是規(guī)則的前項(xiàng),可以是一個(gè)項(xiàng)目或項(xiàng)目集合,是規(guī)則的后項(xiàng),一般是一個(gè)項(xiàng)目。關(guān)聯(lián)規(guī)則的核心算法是Apriori算法,其

23、基本思想是設(shè)定最小支持度(一個(gè)規(guī)則支持度定義為前項(xiàng)與后項(xiàng)同時(shí)出現(xiàn)的概率),先找頻繁集,然后在頻繁集中產(chǎn)生較強(qiáng)的關(guān)聯(lián)規(guī)則。本文選擇Apriori算法挖掘關(guān)聯(lián)規(guī)則,算法具體過程為:1. 從容量為1的頻繁集開始掃描,將小于最小支持度的集合忽略不計(jì);2. 接著通過歸納從容量為k-1的頻繁集中生成容量為k的頻繁集,同時(shí)修建其中的容量為k-1的非頻繁集。3. 確定了修剪后的頻繁集列表后,計(jì)算頻繁集的所有子集和(容量為k-1),其中包含輸入信息,包含輸出信息。4. 計(jì)算規(guī)則的置信度,即在項(xiàng)目出現(xiàn)的條件下,項(xiàng)目出現(xiàn)的條件概率。若不低于最小支持度,則列入相關(guān)規(guī)則。Web圖中線條的粗細(xì)直觀的表示了兩者的關(guān)聯(lián)強(qiáng)度,

24、線條越粗,說明前項(xiàng)與后項(xiàng)的相關(guān)性越大。通過對(duì)網(wǎng)絡(luò)招聘信息中的各個(gè)變量編碼(具體見圖10),然后做出Web圖,見圖10。由圖10可以看出IndustryField_11(信息安全)與IndustryField_8(生活服務(wù))、PositionType_13(高端設(shè)計(jì)職位)、PositionType_16(高端職能職位)、PositionType_29(投資)、PositionType_8(法務(wù))之間有較強(qiáng)的關(guān)聯(lián);IndustryField_8(生活服務(wù))與PositionType_29(投資)之間有較強(qiáng)的關(guān)聯(lián);IndustryField_6(旅游)與PositionType_29(投資)之間有較

25、強(qiáng)的關(guān)聯(lián)等。表明信息安全領(lǐng)域的企業(yè)與生活服務(wù)類企業(yè)關(guān)聯(lián)性較強(qiáng),且這類企業(yè)比較傾向于招聘高端設(shè)計(jì)職位、高端職能職位、投資、法務(wù)類人才;生活服務(wù)和旅游領(lǐng)域的企業(yè)比較傾向于招聘投資類人才。圖10 招聘信息關(guān)聯(lián)Web圖進(jìn)一步,選擇支持度10%、置信度80%可得如下結(jié)果: PositionFirstType_2(技術(shù))與PositionType_24(前端開發(fā))、PositionType_20(后端開發(fā))、IndustryField_12(移動(dòng)互聯(lián)網(wǎng))之間有較強(qiáng)的關(guān)聯(lián);PositionFirstType_5(市場(chǎng)與銷售)與PositionType_31(銷售)之間有較強(qiáng)的關(guān)聯(lián);IndustryField

26、_12(移動(dòng)互聯(lián)網(wǎng))與FinanceStage_2(成長(zhǎng)型)、WorkYear_5(3-5年)、Education_3(本科)之間有較強(qiáng)聯(lián)系;FinanceStage_1(初創(chuàng)型)與CompanySize_2(15-50人)、IndustryField_12(移動(dòng)互聯(lián)網(wǎng))之間有較強(qiáng)的關(guān)聯(lián);Education_3(本科)與FinanceStage_4(上市公司)、CompanySize_6(2000人以上)、Salary_5(20000以上)、PositionFirstType_2(技術(shù))有較強(qiáng)的關(guān)聯(lián)等。表明移動(dòng)互聯(lián)網(wǎng)領(lǐng)域?qū)夹g(shù)類人才需求量較大,其中前端開發(fā)和后端開發(fā)領(lǐng)域的人才尤其受歡迎;此外,

27、成長(zhǎng)型公司大多存在于移動(dòng)互聯(lián)網(wǎng)領(lǐng)域,且對(duì)人才的工作經(jīng)驗(yàn)和學(xué)歷要求較高;初創(chuàng)型公司一般規(guī)模較小,且主要集中在移動(dòng)互聯(lián)網(wǎng)領(lǐng)域;而上市公司的公司規(guī)模一般較大,員工人數(shù)在2000人以上,上市公司對(duì)技術(shù)類人才需求量較大,對(duì)人才的學(xué)歷要求主要集中在本科學(xué)歷,對(duì)員工支付的薪水較高,普遍在20000元以上。5、建議從挖掘結(jié)果看,高校可有針對(duì)性的調(diào)整人才培養(yǎng)方案,開設(shè)R、Java、Python語(yǔ)言選修課程,提升學(xué)生應(yīng)用相關(guān)軟件的能力,積累解決實(shí)際問題的經(jīng)驗(yàn),學(xué)會(huì)團(tuán)隊(duì)協(xié)作。企業(yè)對(duì)市場(chǎng)營(yíng)銷、軟件和產(chǎn)品的開發(fā)與設(shè)計(jì)類人才需求量較大,應(yīng)屆畢業(yè)生要重視參加軟件和產(chǎn)品的開發(fā)、設(shè)計(jì)等職業(yè)培訓(xùn)工作,適度利用業(yè)余時(shí)間做兼職,積累

28、工作經(jīng)驗(yàn),在實(shí)踐中學(xué)習(xí)與客戶溝通的技巧。此外,我們不難看出移動(dòng)互聯(lián)網(wǎng)行業(yè)發(fā)展前景廣闊,求職者若對(duì)移動(dòng)互聯(lián)網(wǎng)感興趣,可優(yōu)先考慮向技術(shù)類方向發(fā)展,并且要注意工作經(jīng)驗(yàn)的積累。若求職者想去規(guī)模較大的上市公司,那么有較高學(xué)歷的技術(shù)型人才有較大優(yōu)勢(shì)。參考文獻(xiàn)1U.Fayyad,GPiatetsky Shapior,PSmythAn OverviewIn Advance in KnowledgeDiscovery and Data MiningMMIT Press,19962Rabiner LRA tutorial on hidden Markov models and selected applicati

29、ons inspeech recognitionJProc IEEE,2007,77(2) :257-2863Amaud Sahuguet,F(xiàn)abien AzavantBuilding intelligent Web applications using lightweight wrappersJ .Data Knowledge Engineering,2010,36(3):283-3164王繼成,潘金貴,張福炎.Web文本挖掘技術(shù)研究J.計(jì)算機(jī)研究與發(fā)展,2000,37(5) :513-52.5王智勇.基于統(tǒng)計(jì)降維和Kohonen網(wǎng)絡(luò)的文本聚類和分類研究D.天津:天津大學(xué),2005.6李伯陽(yáng)

30、.文本聚類方法研究及其應(yīng)用D.廈門:廈門大學(xué),2008.7蔡坤.基于特征詞的文本聚類算法研究D.開封:河南大學(xué),2009.8曾路平.基于相似度的文本聚類算法研究及應(yīng)用D.鎮(zhèn)江:江蘇大學(xué),2009.9鐘曉旭.基于Web招聘信息的文本挖掘系統(tǒng)研究D.合肥:合肥工業(yè)大學(xué),2010.10鐘曉旭,胡學(xué)鋼.基于數(shù)據(jù)挖掘的Web招聘信息相關(guān)性分析J.安徽建筑工業(yè)學(xué)院學(xué)報(bào)(自然學(xué)科版),2010,18(4):23-45.11王靜.Web對(duì)象的信息抽取的關(guān)鍵技術(shù)研究D.西安:西安電子科技大學(xué),2011.12馬力.基于聚類分析的網(wǎng)絡(luò)用戶興趣挖掘方法研究D.西安:西安電子科技大學(xué),2012.13王盛明,盧秉亮.加權(quán)

31、聚類算法在圖書館中的應(yīng)用研究J.微機(jī)處理,2015,(6):47-49.14劉玉華,陳建國(guó),張春燕.基于數(shù)據(jù)挖掘的國(guó)內(nèi)大學(xué)生就業(yè)信息雙向推薦系統(tǒng)J.沈陽(yáng)大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,27(3):226-232.附錄文本數(shù)據(jù)聚類程序:#讀取數(shù)據(jù)mydata-read.table(),quote=,header=TRUE,sep=t,stringsAsFactors=FALSE)strstr(mydata)#添加自定義字典installDict(dictpath=D:R財(cái)經(jīng)金融詞匯大全【官方推薦】.scel,+ dictname=caijing,dicttype=scel)installDic

32、t(dictpath=D:R旅游詞匯大全【官方推薦】.scel,+ dictname=lvyou,dicttype=scel)installDict(dictpath=D:R電子商務(wù)專用詞庫(kù)【官方推薦】.scel,+ dictname=dianzishangwu,dicttype=scel)installDict(dictpath=D:RIT計(jì)算機(jī).scel,+ dictname=jisuanji,dicttype=scel) installDict(dictpath=D:RSEO 搜索引擎優(yōu)化 專業(yè)詞匯.scel,+ dictname=sousuoyinqing,dicttype=scel)

33、installDict(dictpath=D:R醫(yī)學(xué)詞匯大全【官方推薦】.scel,+ dictname=yixue,dicttype=scel)#查看已安裝的詞典listDict()#預(yù)處理mydata.res-mydatamydata!=#分詞segword-segmentCN(strwords=mydata.res)#查看第一條招聘信息分詞結(jié)果segword1 #創(chuàng)建停止詞mystopwords-read.table(),stringsAsFactors=FALSE)head(mystopwords)class(mystopwords)#需要將數(shù)據(jù)框格式的數(shù)據(jù)轉(zhuǎn)化為向量格式mystopw

34、ords-as.vector(mystopwords,1)head(mystopwords)#自定義刪除停止詞的函數(shù)removewords-function(target_words,stop_words)target_words=target_wordstarget_words%in%stop_words=FALSEreturn(target_words)segword2-sapply(X=segword,FUN=removewords,mystopwords)#查看已刪除后的分詞結(jié)果segword21#詞頻統(tǒng)計(jì)word_freq-getWordFreq(string=unlist(segword2)#查看詞頻統(tǒng)計(jì)結(jié)果word_freqopar-par(no.readonly=TRUE)Par(bg=black)#繪制出現(xiàn)頻率最高的前50個(gè)詞wordcloud(words=word_freq$Word,freq=word_freq$Freq,+ max.words=50,random.color=TRUE,colors=rainbow(n=7)+ )par(opar) #將已分完詞的列表

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論