Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 教案 項目6 基于大數(shù)據(jù)的求職信息分析與挖掘_第1頁
Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 教案 項目6 基于大數(shù)據(jù)的求職信息分析與挖掘_第2頁
Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 教案 項目6 基于大數(shù)據(jù)的求職信息分析與挖掘_第3頁
Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 教案 項目6 基于大數(shù)據(jù)的求職信息分析與挖掘_第4頁
Python數(shù)據(jù)分析與可視化項目實戰(zhàn) 教案 項目6 基于大數(shù)據(jù)的求職信息分析與挖掘_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

***********學(xué)院教案課程名稱:Python數(shù)據(jù)分析與可視化項目實戰(zhàn)授課班級:****************************************授課時間:***********學(xué)年第1學(xué)期第1周至第2周共16周總學(xué)時64-96周學(xué)時4-6任課教師:***************教案1:基于大數(shù)據(jù)的求職信息分析與挖掘一、教學(xué)設(shè)計課程名稱數(shù)據(jù)分析授課班級大數(shù)據(jù)2201、2202軟件2201、2202、2203、2204授課時數(shù)6學(xué)時授課人數(shù)人授課地點1304、1306授課方式教學(xué)做一體學(xué)習(xí)項目基于大數(shù)據(jù)的求職信息分析與挖掘所選教材《Python數(shù)據(jù)分析與可視化實戰(zhàn)》教學(xué)內(nèi)容Python環(huán)境配置及turtle繪圖教學(xué)目標(biāo)素質(zhì)目標(biāo)具備技術(shù)應(yīng)用與解決問題的素養(yǎng),能夠運用技術(shù)解決實際挑戰(zhàn);具備數(shù)據(jù)可視化與溝通的素養(yǎng),能夠有效傳達數(shù)據(jù)分析的結(jié)果;3、具備團隊協(xié)作與項目管理的素養(yǎng),能夠與團隊合作完成項目任務(wù)知識目標(biāo)理解大數(shù)據(jù)的概念與特征;熟悉大數(shù)據(jù)處理的基本流程;理解數(shù)據(jù)挖掘的定義、任務(wù)、主要算法和流程;4、掌握在求職信息分析中使用的算法和模型,學(xué)習(xí)數(shù)據(jù)預(yù)處理和模型訓(xùn)練的方法能力目標(biāo)1.掌握安裝Anaconda3與Pandas庫的方法2.能夠?qū)?shù)據(jù)進行查看與提取3、能夠?qū)嵤┣舐毿畔⒎治雠c挖掘任務(wù)的各個階段,包括數(shù)據(jù)加工、模型訓(xùn)練和數(shù)據(jù)分析。教學(xué)重難點重點難點教學(xué)方法教法任務(wù)驅(qū)動教法、情景化教法、差異化教法、討論式教法學(xué)法自主式學(xué)習(xí)、協(xié)作式學(xué)習(xí)、體驗式學(xué)習(xí)、探究式學(xué)習(xí)PAGEPAGE9教學(xué)設(shè)計思路及知識導(dǎo)圖教學(xué)實施教學(xué)環(huán)節(jié)時間分配教學(xué)內(nèi)容及時間分配教學(xué)平臺資源課前課前導(dǎo)學(xué)1.完成課前學(xué)習(xí)問卷調(diào)查;2.觀看視頻;3.課前自學(xué)測試及問卷;課中項目介紹(5mins)大數(shù)據(jù)是指規(guī)模龐大、多樣化、高速生成的數(shù)據(jù)集,這些數(shù)據(jù)通常超出了傳統(tǒng)數(shù)據(jù)處理工具的能力范圍。大數(shù)據(jù)技術(shù)在各個領(lǐng)域都具有廣泛的影響:在商業(yè)智能和分析方面,大數(shù)據(jù)幫助企業(yè)分析客戶行為、市場趨勢和銷售數(shù)據(jù),支持決策制定和市場營銷策略;在醫(yī)療方面,大數(shù)據(jù)分析可以用于疾病預(yù)測、藥物研發(fā)、患者管理和醫(yī)療成本控制;在交通和城市規(guī)劃方面,大數(shù)據(jù)支持智能交通系統(tǒng)、城市規(guī)劃和交通流量優(yōu)化;在社交媒體和娛樂方面,大數(shù)據(jù)分析用于個性化推薦、廣告定位和社交趨勢分析等。大數(shù)據(jù)技術(shù)已經(jīng)成為各行各業(yè)的重要工具,對于就業(yè)市場也不例外。畢業(yè)生在步入職場之前,由于信息不對稱、缺乏經(jīng)驗,往往對就業(yè)前景和實際情況存在一定的疑慮和不確定性。這種不確定性可能會導(dǎo)致畢業(yè)生對自己的職業(yè)選擇和薪資期望與實際就業(yè)情況存在一定差距。而通過大數(shù)據(jù)分析和挖掘,可以幫助求職者更客觀地看待就業(yè)問題,減少就業(yè)預(yù)期與實際差距,從而更好地融入職場并實現(xiàn)職業(yè)目標(biāo)。今天,我們就來學(xué)習(xí)如何使用大數(shù)據(jù)來進行信息的采集挖掘和分析任務(wù)準(zhǔn)備(80mins)1.1大數(shù)據(jù)的特征大數(shù)據(jù)是一個仁者見仁、智者見智的寬泛概念。關(guān)于“什么是大數(shù)據(jù)”這個問題,大家比較認(rèn)可關(guān)于大數(shù)據(jù)的“4V”說法。所謂“4V”,指的是大數(shù)據(jù)的四個特點,包含四個層面:Volume(數(shù)據(jù)量大),Variety(數(shù)據(jù)類型繁多),Velocity(處理速度快),Value(價值密度低)。大數(shù)據(jù)的價值本質(zhì)上體現(xiàn)為:提供了一種人類認(rèn)識復(fù)雜系統(tǒng)的新思維和新手段。就理論上而言,在足夠小的時間和空間尺度上,對現(xiàn)實世界數(shù)字化,可以構(gòu)造一個現(xiàn)實世界的數(shù)字虛擬映像,這個映像承載了現(xiàn)實世界的運行規(guī)律,在擁有充足的計算能力和高效的數(shù)據(jù)分析方法的前提下,對這個數(shù)字虛擬映像的深度分析,將有可能理解和發(fā)現(xiàn)現(xiàn)實復(fù)雜系統(tǒng)的運行行為、狀態(tài)和規(guī)律。應(yīng)該說大數(shù)據(jù)為人類提供了全新的思維方式、探知客觀規(guī)律、改造自然和社會的新手段,這也是大數(shù)據(jù)引發(fā)經(jīng)濟社會變革最根本性的原因。1.2大數(shù)據(jù)處理的基本流程大數(shù)據(jù)處理的基本流程主要包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲、數(shù)據(jù)處理與分析、數(shù)據(jù)展示/數(shù)據(jù)可視化、數(shù)據(jù)應(yīng)用等環(huán)節(jié),其中數(shù)據(jù)質(zhì)量貫穿于整個大數(shù)據(jù)流程,每一個數(shù)據(jù)處理環(huán)節(jié)都會對大數(shù)據(jù)質(zhì)量產(chǎn)生影響和作用。通常,一個好的大數(shù)據(jù)產(chǎn)品要有大量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)處理、精確的數(shù)據(jù)分析與預(yù)測、優(yōu)秀的可視化圖表以及簡練易懂的結(jié)果解釋。1.2.1數(shù)據(jù)采集大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端(Web網(wǎng)站訪問終端、App移動應(yīng)用終端或者物聯(lián)網(wǎng)終端等)的數(shù)據(jù),并且用戶可以通過這些數(shù)據(jù)庫來進行簡單的查詢和處理工作。比如,電商會使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲每一筆事務(wù)數(shù)據(jù),除此之外,Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。在大數(shù)據(jù)的采集過程中,其主要特點和挑戰(zhàn)是并發(fā)數(shù)高,因為同時有可能會有成千上萬的用戶來進行訪問和操作,比如火車票售票網(wǎng)站和淘寶,它們并發(fā)的訪問量在峰值時達到上百萬,所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。并且如何在這些數(shù)據(jù)庫之間進行負(fù)載均衡和分片,的確需要深入的思考和設(shè)計。1.2.2數(shù)據(jù)預(yù)處理大數(shù)據(jù)采集過程中通常有一個或多個數(shù)據(jù)源,這些數(shù)據(jù)源包括同構(gòu)或異構(gòu)的數(shù)據(jù)庫、文件系統(tǒng)、服務(wù)接口等,易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失、數(shù)據(jù)沖突等影響,因此需首先對收集到的大數(shù)據(jù)集合進行預(yù)處理,以保證大數(shù)據(jù)分析與預(yù)測結(jié)果的準(zhǔn)確性與價值性。大數(shù)據(jù)的預(yù)處理環(huán)節(jié)主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等內(nèi)容,可以大大提高大數(shù)據(jù)的總體質(zhì)量,是大數(shù)據(jù)過程質(zhì)量的體現(xiàn)。(1)數(shù)據(jù)清理包括對數(shù)據(jù)的不一致檢測、噪聲數(shù)據(jù)的識別、數(shù)據(jù)過濾與修正等方面,有利于提高大數(shù)據(jù)的一致性、準(zhǔn)確性、真實性和可用性等方面的質(zhì)量。(2)數(shù)據(jù)集成則是將多個數(shù)據(jù)源的數(shù)據(jù)進行集成,從而形成集中、統(tǒng)一的數(shù)據(jù)庫、數(shù)據(jù)立方體等,這一過程有利于提高大數(shù)據(jù)的完整性、一致性、安全性和可用性等方面的質(zhì)量。(3)數(shù)據(jù)歸約是在不損害分析結(jié)果準(zhǔn)確性的前提下降低數(shù)據(jù)集規(guī)模,使之簡化,包括維歸約、數(shù)據(jù)歸約、數(shù)據(jù)抽樣等技術(shù),這一過程有利于提高大數(shù)據(jù)的價值密度,即提高大數(shù)據(jù)存儲的價值性。(4)數(shù)據(jù)轉(zhuǎn)換處理包括基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換、基于模型與學(xué)習(xí)的轉(zhuǎn)換等技術(shù),可通過轉(zhuǎn)換實現(xiàn)數(shù)據(jù)統(tǒng)一,這一過程有利于提高大數(shù)據(jù)的一致性和可用性??傊?,數(shù)據(jù)預(yù)處理環(huán)節(jié)有利于提高大數(shù)據(jù)的數(shù)據(jù)質(zhì)量,實現(xiàn)大數(shù)據(jù)的一致性、準(zhǔn)確性、真實性、可用性、完整性、安全性和價值性,而大數(shù)據(jù)預(yù)處理中的相關(guān)技術(shù)是影響大數(shù)據(jù)過程質(zhì)量的關(guān)鍵因素。1.2.3數(shù)據(jù)處理與分析1.數(shù)據(jù)處理大數(shù)據(jù)的分布式處理技術(shù)與存儲形式、業(yè)務(wù)數(shù)據(jù)類型等相關(guān),針對大數(shù)據(jù)處理的主要計算模型有MapReduce、分布式內(nèi)存計算系統(tǒng)、分布式流計算系統(tǒng)等。MapReduce是一個批處理的分布式計算框架,可對海量數(shù)據(jù)進行并行分析與處理,它適合對各種結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的處理。分布式內(nèi)存計算系統(tǒng)可有效減少數(shù)據(jù)讀寫和移動的開銷,提高大數(shù)據(jù)處理性能。分布式流計算系統(tǒng)則是對數(shù)據(jù)流進行實時處理,以保障大數(shù)據(jù)的時效性和價值性??傊瑹o論哪種大數(shù)據(jù)分布式處理與計算系統(tǒng),都有利于提高大數(shù)據(jù)的價值性、可用性、時效性和準(zhǔn)確性。大數(shù)據(jù)的類型和存儲形式?jīng)Q定了其所采用的數(shù)據(jù)處理系統(tǒng),而數(shù)據(jù)處理系統(tǒng)的性能與優(yōu)劣直接影響大數(shù)據(jù)質(zhì)量的價值性、可用性、時效性和準(zhǔn)確性。因此在進行大數(shù)據(jù)處理時,要根據(jù)大數(shù)據(jù)類型選擇合適的存儲形式和數(shù)據(jù)處理系統(tǒng),以實現(xiàn)大數(shù)據(jù)質(zhì)量的最優(yōu)化。2.大數(shù)據(jù)分析大數(shù)據(jù)處理的核心就是對大數(shù)據(jù)進行分析,只有通過分析才能獲取很多智能的、深入的、有價值的信息,越來越多的應(yīng)用涉及大數(shù)據(jù)。由于大數(shù)據(jù)的特點,大數(shù)據(jù)的分析方法在大數(shù)據(jù)領(lǐng)域就顯得尤為重要。(1)機器學(xué)習(xí):機器學(xué)習(xí)(MachineLearning)是研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu),使之不斷改善自身的性能。(2)數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應(yīng)用數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識的過程。(3)模式識別:模式識別指對表征事物或現(xiàn)象的各種形式的信息進行處理和分析,以對事物或現(xiàn)象進行描述、辨認(rèn)、分類和解釋的過程,是信息科學(xué)和人工智能的重要組成部分。(4)統(tǒng)計分析:對于大數(shù)據(jù)的統(tǒng)計分析主要利用分布式數(shù)據(jù)庫或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求。(5)并行處理:大數(shù)據(jù)分析的三大挑戰(zhàn)是數(shù)據(jù)量的膨脹、數(shù)據(jù)深度分析需求的增長和數(shù)據(jù)類型不斷的多樣化。大數(shù)據(jù)分析采用MapReduce等并行處理方式,將海量數(shù)據(jù)進行分解并分布存儲,由數(shù)據(jù)挖掘系統(tǒng)并行處理,然后將多個局部處理結(jié)構(gòu)合成最終的輸出模式,實現(xiàn)海量數(shù)據(jù)挖掘。1.2.4數(shù)據(jù)可視化與應(yīng)用1.數(shù)據(jù)可視化數(shù)據(jù)可視化是指將大數(shù)據(jù)分析與預(yù)測結(jié)果以計算機圖形或圖像的直觀方式顯示給用戶的過程,并可與用戶進行交互式處理。數(shù)據(jù)可視化技術(shù)有利于發(fā)現(xiàn)大量業(yè)務(wù)數(shù)據(jù)中隱含的規(guī)律性信息,以支持管理決策。數(shù)據(jù)可視化環(huán)節(jié)可大大提高大數(shù)據(jù)分析結(jié)果的直觀性,便于用戶理解與使用,故數(shù)據(jù)可視化是影響大數(shù)據(jù)可用性和易于理解性質(zhì)量的關(guān)鍵因素。2.數(shù)據(jù)應(yīng)用大數(shù)據(jù)應(yīng)用是指將經(jīng)過分析處理后挖掘得到的大數(shù)據(jù)結(jié)果應(yīng)用于管理決策、戰(zhàn)略規(guī)劃等的過程,它是對大數(shù)據(jù)分析結(jié)果的檢驗與驗證,大數(shù)據(jù)應(yīng)用過程直接體現(xiàn)了大數(shù)據(jù)分析處理結(jié)果的價值性和可用性。大數(shù)據(jù)應(yīng)用對大數(shù)據(jù)的分析處理具有引導(dǎo)作用。在大數(shù)據(jù)收集、處理等一系列操作之前,通過對應(yīng)用情境的充分調(diào)研,對管理決策需求信息的深入分析,可明確大數(shù)據(jù)處理與分析的目標(biāo),從而為大數(shù)據(jù)收集、存儲、處理、分析等過程提供明確的方向,并保障大數(shù)據(jù)分析結(jié)果的可用性、價值性,滿足用戶的需求。近年來,數(shù)據(jù)挖掘引起了信息產(chǎn)業(yè)界的極大關(guān)注,其主要原因是存在大量數(shù)據(jù),可以廣泛使用,并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識。獲取的信息和知識可以廣泛用于各種應(yīng)用領(lǐng)域,包括商務(wù)管理、生產(chǎn)控制、市場分析、工程設(shè)計和科學(xué)探索等。本情境將對數(shù)據(jù)挖掘的概念、分類、預(yù)測、聚類分析、挖掘的工具分析進行介紹和對外貿(mào)出口數(shù)據(jù)挖掘?qū)嵗M行分析。2.1數(shù)據(jù)挖掘的定義數(shù)據(jù)挖掘(DataMining)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中人們事先不知道的,但又是潛在有用的信息和知識的過程。隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,動額以TB計,如何從海量的數(shù)據(jù)中提取有用的知識成為當(dāng)務(wù)之急,數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運而生發(fā)展起來的數(shù)據(jù)處理技術(shù),是知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase)的關(guān)鍵步驟。數(shù)據(jù)挖掘是目前人工智能和數(shù)據(jù)庫領(lǐng)域研究的熱點問題,主要基于人工智能、機器學(xué)習(xí)、模式識別、統(tǒng)計學(xué)、數(shù)據(jù)庫、可視化技術(shù)等,高度自動化地分析企業(yè)的數(shù)據(jù),做出歸納性的整理,從中挖掘出潛在的模式,從而幫助決策者調(diào)整市場策略,減少風(fēng)險。數(shù)據(jù)挖掘是通過分析每個數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來;規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。2.2數(shù)據(jù)挖掘的任務(wù)數(shù)據(jù)挖掘的任務(wù)主要是關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時序模式和偏差分析等。1.關(guān)聯(lián)分析關(guān)聯(lián)規(guī)則挖掘是由RakeshApwal等人首先提出的。兩個或兩個以上變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫中存在的一類重要的、可被發(fā)現(xiàn)的知識。關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng)。一般用支持度和可信度兩個閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,還不斷引入興趣度、相關(guān)性等參數(shù),使得所挖掘的規(guī)則更符合需求。2.聚類分析聚類分析是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。3.分類分類就是找出一個類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測。4.預(yù)測預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)據(jù)的種類及特征進行預(yù)測。預(yù)測關(guān)心的是精度和不確定性,通常用預(yù)測方差來度量。5.時序模式時序模式是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式。與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。6.偏差分析在偏差中包括很多有用的知識,數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照物之間的差別。2.3數(shù)據(jù)挖掘的主要算法目前,數(shù)據(jù)挖掘的算法主要包括神經(jīng)網(wǎng)絡(luò)法、決策樹法、遺傳算法、粗糙集法、模糊集法、關(guān)聯(lián)規(guī)則法等。1.神經(jīng)網(wǎng)絡(luò)法神經(jīng)網(wǎng)絡(luò)法是模擬生物神經(jīng)系統(tǒng)的結(jié)構(gòu)和功能,是一種通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型,它將每一個連接看作一個處理單元,試圖模擬人腦神經(jīng)元的功能,可完成分類、聚類、特征挖掘等多種任務(wù),神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法主要表現(xiàn)在權(quán)值的修改上。神經(jīng)網(wǎng)絡(luò)法主要應(yīng)用于數(shù)據(jù)挖掘的聚類技術(shù)中。其優(yōu)點是具有抗干擾、非線性學(xué)習(xí)、聯(lián)想記憶功能,對復(fù)雜情況能得到精確的預(yù)測結(jié)果;缺點是不適合處理高維變量,不能觀察中間的學(xué)習(xí)過程,具有“黑箱”性,輸出結(jié)果也難以解釋,學(xué)習(xí)時間較長。2.決策樹法決策樹是根據(jù)對目標(biāo)變量產(chǎn)生效用的不同而建構(gòu)分類的規(guī)則,通過一系列的規(guī)則對數(shù)據(jù)進行分類的過程,其表現(xiàn)形式是類似于樹形結(jié)構(gòu)的流程圖。最典型的算法是J.R.Quinlan于1986年提出的ID3算法,之后在ID3算法的基礎(chǔ)上又提出了C4.5算法。采用決策樹法的優(yōu)點是決策制定的過程是可見的,不需要長時間構(gòu)造過程,描述簡單、易于理解、分類速度快;缺點是很難基于多個變量組合發(fā)現(xiàn)規(guī)則。決策樹法擅長處理非數(shù)值型數(shù)據(jù),而且特別適合大規(guī)模的數(shù)據(jù)處理。決策樹提供了一種展示類似在什么條件下會得到什么值這類規(guī)則的方法。比如,在貸款申請中,要對申請的風(fēng)險大小作出判斷。3.遺傳算法遺傳算法模擬了自然選擇和遺傳中發(fā)生的繁殖、交配和基因突變現(xiàn)象,是一種采用遺傳結(jié)合、遺傳交叉變異及自然選擇等操作來生成實現(xiàn)規(guī)則的,基于進化理論的機器學(xué)習(xí)方法。它的基本觀點是“適者生存”原理,具有隱含并行性、易于和其他模型結(jié)合等性質(zhì)。主要的優(yōu)點是可以處理許多數(shù)據(jù)類型,同時可以并行處理各種數(shù)據(jù);缺點是需要的參數(shù)太多,編碼困難,一般計算量比較大。遺傳算法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),能夠解決其他技術(shù)難以解決的問題。4.粗糙集法粗糙集法也稱粗糙集理論,是由波蘭數(shù)學(xué)家Z.Pawlak在20世紀(jì)80年代初提出的,是一種新的處理含糊、不精確、不完備問題的數(shù)學(xué)工具,可以處理數(shù)據(jù)約簡、數(shù)據(jù)相關(guān)性發(fā)現(xiàn)、數(shù)據(jù)意義的評估等問題。其優(yōu)點是算法簡單,在其處理過程中可以不需要關(guān)于數(shù)據(jù)的先驗知識,可以自動找出問題的內(nèi)在規(guī)律;缺點是難以直接處理連續(xù)的屬性,需先進行屬性的離散化。因此,連續(xù)屬性的離散化問題是制約粗糙集理論實用化的難點。粗糙集理論主要應(yīng)用于近似推理、數(shù)字邏輯分析和化簡、建立預(yù)測模型等問題。5.模糊集法模糊集法是利用模糊集合理論對問題進行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。模糊集合理論是用隸屬度來描述模糊事物的屬性。系統(tǒng)的復(fù)雜性越高,模糊性就越強。6.關(guān)聯(lián)規(guī)則法關(guān)聯(lián)規(guī)則反映了事物之間的相互依賴性或關(guān)聯(lián)性。其最著名的算法是R.Agrawal等人提出的Apriori算法。其算法的思想是:首先找出頻繁性至少和預(yù)定意義的最小支持度一樣的所有頻集,然后由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。最小支持度和最小可信度是為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則給定的兩個閾值。在這個意義上,數(shù)據(jù)挖掘的目的就是從源數(shù)據(jù)庫中挖掘出滿足最小支持度和最小可信度的關(guān)聯(lián)規(guī)則。2.4數(shù)據(jù)挖掘的流程在實施數(shù)據(jù)挖掘之前,先制定采取什么樣的步驟,每一步都做什么,達到什么樣的目標(biāo)是必要的,有了好的計劃才能保證數(shù)據(jù)挖掘有條不紊地實施并取得成功。很多軟件供應(yīng)商和數(shù)據(jù)挖掘顧問公司提供了一些數(shù)據(jù)挖掘過程模型,來指導(dǎo)他們的用戶進行數(shù)據(jù)挖掘工作。建立數(shù)據(jù)挖掘過程模型的步驟主要包括定義問題、建立數(shù)據(jù)挖掘庫、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評價模型和實施。3、Python數(shù)據(jù)挖掘Python語言具有易學(xué)易用、強大的第三方庫支持等特點,被廣泛應(yīng)用于數(shù)據(jù)挖掘與機器學(xué)習(xí)領(lǐng)域。數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取有效信息的過程,包括數(shù)據(jù)預(yù)處理、特征選擇、模型選擇和評估等環(huán)節(jié)。Python中的數(shù)據(jù)挖掘庫主要有以下幾個:(1)NumPy:用于科學(xué)計算和數(shù)學(xué)操作,提供多維數(shù)組對象和一些便捷的函數(shù)操作。(2)Pandas:用于數(shù)據(jù)分析和處理,提供豐富的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)操作方法。(3)Matplotlib:用于數(shù)據(jù)可視化,提供各種繪圖函數(shù)和樣式設(shè)置。(4)Scikit-learn:用于機器學(xué)習(xí),提供各種監(jiān)督/非監(jiān)督/半監(jiān)督的學(xué)習(xí)算法,包括分類、回歸、聚類等。機器學(xué)習(xí)是基于數(shù)據(jù)構(gòu)建模型并進行預(yù)測或分類的過程。Python中的機器學(xué)習(xí)庫相較于數(shù)據(jù)挖掘庫更加強調(diào)算法的實現(xiàn)和模型的優(yōu)化,主要有以下幾個:(1)TensorFlow:由Google開發(fā)的機器學(xué)習(xí)框架,提供各種深度學(xué)習(xí)算法的實現(xiàn)和優(yōu)化,包括神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。(2)Keras:基于TensorFlow或Theano開發(fā)的高層次神經(jīng)網(wǎng)絡(luò)庫,封裝了各種神經(jīng)網(wǎng)絡(luò)的實現(xiàn)和訓(xùn)練操作。(3)PyTorch:由Facebook開發(fā)的機器學(xué)習(xí)框架,提供各種深度學(xué)習(xí)算法的實現(xiàn)和優(yōu)化,具有動態(tài)計算圖和易變性等特點。(4)Scikit-learn:雖然是數(shù)據(jù)挖掘庫,但也提供了許多常見的機器學(xué)習(xí)算法,如決策樹、支持向量機、樸素貝葉斯等。綜上所述,Python的數(shù)據(jù)挖掘和機器學(xué)習(xí)生態(tài)系統(tǒng)非常完善,提供了豐富的工具和庫支持,為數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)工程師提供了便利。Python可以用于不同類型的數(shù)據(jù)挖掘任務(wù),例如:數(shù)據(jù)預(yù)處理:Python可以用于數(shù)據(jù)處理、轉(zhuǎn)換和清洗,例如數(shù)據(jù)過濾、去重、缺失值填充等。探索性數(shù)據(jù)分析:Python可以用于生成可視化圖形和摘要統(tǒng)計信息,以幫助分析數(shù)據(jù)集的特征并發(fā)現(xiàn)潛在的關(guān)系和趨勢。監(jiān)督式學(xué)習(xí):Python可以用于建立和優(yōu)化監(jiān)督式模型來進行分類、回歸和預(yù)測任務(wù)。無監(jiān)督式學(xué)習(xí):Python可以用于進行聚類和降維操作,以便于發(fā)現(xiàn)和理解數(shù)據(jù)集中隱藏的信息和模式。任務(wù)分析及實現(xiàn)(75mins)4、求職信息分析任務(wù)4.1研究內(nèi)容及方法本項目以分析電子商務(wù)類人才為例,通過對招聘網(wǎng)站電子商務(wù)人才職位信息進行數(shù)據(jù)入庫、數(shù)據(jù)清理、數(shù)據(jù)預(yù)處理、相關(guān)數(shù)據(jù)分析、結(jié)巴分詞、數(shù)據(jù)可視化、崗位薪資預(yù)測及LDA主題文本相似度模型建立等操作,完成整體項目的開發(fā)工作。具體包含:(1)通過調(diào)用python中的pandas庫對數(shù)據(jù)進行入庫處理,調(diào)用其中的各種函數(shù)對數(shù)據(jù)進行去重、去空等操作,對數(shù)據(jù)進行預(yù)處理操作,方便后期建立模型。(2)通過調(diào)用pyecharts對各個特征和薪資的關(guān)系進行數(shù)據(jù)可視化分析、對招聘職位信息進行探索分析、使用jieba對崗位描述進行中文分詞并查找其中的差別。(3)對和薪資有關(guān)的數(shù)據(jù)進行特征降維、數(shù)據(jù)標(biāo)準(zhǔn)化等操作,將70%的數(shù)據(jù)集劃分為訓(xùn)練集,剩下的30%劃分為測試集,調(diào)用隨機森林、xgboost、lightGBM等算法對其進行訓(xùn)練,然后觀察其RMSE分?jǐn)?shù)、R2評分,確定最優(yōu)模型并抽取其中一些數(shù)據(jù)作為測試集對崗位薪資進行預(yù)測。(4)在TF-IDF的基礎(chǔ)上建立職位LDA模型對求職者的能力進行相似度的計算,并輸出LDA主題模型的可視化分析結(jié)果。4.2算法及模型4.2.1lightGBM回歸算法LightGBM(LightGradientBoostingMachine)是一個梯度boosting框架,是基于決策樹算法的分布式梯度提升框架。LightGBM相較于xgboost,它擁有更快的訓(xùn)練效率,更高的準(zhǔn)確率,支持并行化學(xué)習(xí),占用更少的內(nèi)存,還能夠處理大規(guī)模數(shù)據(jù)。Xgboost采用了預(yù)排序方法(pre-sorted),這種方法既要保留數(shù)據(jù)的特征值,又要保留特征的排序結(jié)果,占用空間很大,而且每次經(jīng)過分割點都要進行分解運算,耗費的資源實在是太多了。而lightGBM使用了直方圖算法如圖6-1所示,將特征值轉(zhuǎn)化為了bin值,且不需要存儲特征到樣本的索引,極大地節(jié)省了運行內(nèi)存,在訓(xùn)練過程中采用了互斥特征捆綁算法和單邊梯度算法,對數(shù)據(jù)特征進行剪枝,減少了大規(guī)模的計算。它使用了帶有深度限制的按葉子生長(leaf-wise)算法,拋棄了傳統(tǒng)的按層生長(level-wise)算法,以這種算法構(gòu)建的決策樹減少了很多不必要的計算量。4.2.2LDA主題模型LDA模型是一種可以將文檔數(shù)據(jù)集中的每篇文章的主題以概率分布形式給出的主題模型,再通過這個主題分布進行主題聚類或者文本分類,這樣就相當(dāng)于抽出了每篇文章的主旨。這也是一種典型的“詞包”模式,即一篇文章是由一系列單詞組成的,它們之間沒有一定的順序,因此,在抽取文本的隱性主題時,往往會忽視其語法結(jié)構(gòu)和詞匯的先后次序。LDA有三層生成式貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),包含了單詞,文檔和文檔整體三者之間的概率分布關(guān)系,其結(jié)構(gòu)依次是文檔層、主題層和特征詞層,其網(wǎng)絡(luò)結(jié)構(gòu)如圖6-2所示。LDA主題模型建立的核心公式如下:P(w|d)=P(w|t)*P(t|d)直觀地去看以上公式,就是將Topic作為中間層,可以通過當(dāng)前的θd和φt給出了文檔d中出現(xiàn)單詞w的概率。其中P(t|d)利用θd計算得到,P(w|t)利用φt計算得到。由于文本的主題分布是文本向量空間的簡單映射,所以我們只需對LDA模型文本進行向量化,然后就可以比對他們的相似度,計算并輸出相似的文本結(jié)果和相似度。本文選取的數(shù)據(jù)集結(jié)構(gòu)主要分成兩個部分:結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù),其中結(jié)構(gòu)化數(shù)據(jù)主要包括公司性質(zhì)、公司行業(yè)、工作類別、薪資、公司規(guī)模、工作地址、招聘人數(shù)、工作經(jīng)驗、學(xué)歷要求等。文本數(shù)據(jù)主要包括公司能力需求與公司名稱。由于一些企業(yè)在發(fā)布招聘信息的時候不嚴(yán)謹(jǐn),為了快速達到招聘發(fā)布而大規(guī)模重復(fù)發(fā)布或者少填漏填信息,導(dǎo)致數(shù)據(jù)集中有許多重復(fù)值已經(jīng)缺失值,所以我們要對數(shù)據(jù)集進行去除重復(fù)值和缺失值的操作。其中duplicated函數(shù)的作用是去遍歷數(shù)據(jù)并尋找出其中重復(fù)數(shù)據(jù)的行,isnull函數(shù)就是查找出字典中的所有缺失值,再用sum函數(shù)將其統(tǒng)計出來,最后將重復(fù)或含有缺失值的行進行刪除。4.3數(shù)據(jù)加工與訓(xùn)練模型數(shù)據(jù)加工是指融合多源海量的數(shù)據(jù),并將其轉(zhuǎn)化為可被操作的智能數(shù)據(jù)的過程。具體地說,是處理來自單個和多個數(shù)據(jù)源的數(shù)據(jù)或數(shù)據(jù)組合,以及數(shù)據(jù)間關(guān)系,實現(xiàn)精確定位和特性預(yù)估,并完成對危險態(tài)勢和重要性的及時評估的過程。數(shù)據(jù)加工集成了多個數(shù)據(jù)源以產(chǎn)生比任何單個數(shù)據(jù)源提供的信息更一致、更準(zhǔn)確和更有用的信息,其特點是根據(jù)任務(wù)需求增加搜集的數(shù)據(jù)源,并且通過不斷地預(yù)估和評價算法,修正數(shù)據(jù)加工過程,以達到更好的結(jié)果。設(shè)訓(xùn)練數(shù)據(jù)集為D,表示其樣本容量,設(shè)有j個類,,為屬于類的樣本個數(shù),。設(shè)特征A有n個不同的取值,根據(jù)特征A的取值將D劃分為n個子集,為的樣本個數(shù),。記子集中屬于的樣本的集合為,即,為的樣本個數(shù),于是信息增益的算法如下:輸入:所需要的訓(xùn)練數(shù)據(jù)集D和表示特征屬性A:輸出:特征A對訓(xùn)練數(shù)據(jù)集D的信息增益。計算數(shù)據(jù)集D的經(jīng)驗熵計算特征A對數(shù)據(jù)集D的經(jīng)驗條件熵計算信息增益提高樹的深度可以得到更確切的模型,而這與預(yù)期的內(nèi)生動力模型圖大致相同,同時模型的復(fù)雜度隨著決策樹的深度會越來越復(fù)雜。但是樹的深度對模型訓(xùn)練的精確度也有一定的影響,樹的深度越大,其擬合程度越嚴(yán)重,即會產(chǎn)生較多的影響。在使用k-means算法聚類時,k值的選擇十分重要,肘部法則和輪廓系數(shù)可以方便我們選擇出最佳的k值。并基于以下方法實現(xiàn):(1)對所獲特征進行篩選。對特征值進行分類,聯(lián)系目標(biāo)值的相關(guān)程度將其分為有效特征值與無效特征值。過多的特征值參與訓(xùn)練容易出現(xiàn)多維災(zāi)難的問題,且會降低代碼的運行速率及模型過擬合的缺陷,故此步是關(guān)鍵。采用Filter過濾法對現(xiàn)有特征值進行逐步篩選,過濾無關(guān)特征值及冗余特征值,并留存有效相關(guān)特征值以對模型進行更好的準(zhǔn)確度提升訓(xùn)練。(2)對提取特征后的數(shù)據(jù)進行算法建模。對于所選數(shù)據(jù)集有目標(biāo)類別的二分類特征,故選用貝葉斯模型進行構(gòu)建與預(yù)測。先對所用數(shù)據(jù)集做標(biāo)簽值與特征值的分類處理,并按相關(guān)比例進行訓(xùn)練集和測試集的劃分,之后構(gòu)建貝葉斯模型將訓(xùn)練集進行模型訓(xùn)練,對模型進行準(zhǔn)確度的測試并進行驗證,得出最終預(yù)測數(shù)據(jù)。4.4數(shù)據(jù)分析與預(yù)測通過數(shù)據(jù)統(tǒng)計和挖掘反映出了發(fā)布大數(shù)據(jù)崗位招聘的數(shù)量在不同大城市當(dāng)中的具體占比,通過圖6-3可以看出,招聘崗位主要集中在北京、上海、廣州、浙江四個城市,說明電子商務(wù)崗位在這些城市有很好的發(fā)展前景,工作薪酬較高,但是通過觀察圖6-4可以發(fā)現(xiàn)不僅以上四個地區(qū)的平均薪資較高還有福建、江蘇等地區(qū)也有較為可觀的薪資水準(zhǔn),所以求職者也可以考慮去這些地區(qū)謀求發(fā)展。通過對薪資數(shù)據(jù)進行區(qū)間劃分,得到下列分類并對各分類的數(shù)量進行統(tǒng)計,以便觀察電子商務(wù)崗位的平均薪資如何,如6-5所示。我們可以看出薪酬在5000以下的崗位較多,說明社會需要許多廉價勞動力去完成一些相關(guān)事務(wù),但高薪酬的高水平技術(shù)的工作崗位仍有許多空缺,需要大規(guī)模人才去補充。高水平、對自己有要求的求職者往往希望得到一份薪資較高的比較符合自己能力的工作崗位,所以本文統(tǒng)計了工作薪酬最高的前20個崗位,來幫助想要獲得高薪工作的求職者指明道路,如圖6-6所示。薪酬較高的工作大多數(shù)都是企業(yè)主管、企業(yè)核心技術(shù)工程師、軟件開發(fā)工程師、總經(jīng)理這樣的職位,這些職位需要應(yīng)聘人員有大規(guī)模的工作經(jīng)驗和相應(yīng)的技術(shù)水平。不止工作崗位地區(qū)、崗位類別對薪資有影響,不同性質(zhì)的企業(yè)之間的薪資水平也存在差異,本文通過對不同性質(zhì)的企業(yè)數(shù)量和平均薪資進行了統(tǒng)計,得到了6-7和6-8。通過兩張圖我們可以發(fā)現(xiàn),社會企業(yè)的主體為民營企業(yè),但是民營企業(yè)的平均薪資卻相對較低,合資企業(yè)的平均薪酬處于較高水準(zhǔn),不過其他性質(zhì)的企業(yè)間平均薪資倒也相差不多,所以求職者可以嘗試著去自己喜歡的性質(zhì)的企業(yè)去謀求崗位。通過統(tǒng)計公司行業(yè)類別可以看出社會上哪些行業(yè)的職位有空缺,有了這些數(shù)據(jù)可以使得高校有針對性地培養(yǎng)相關(guān)人才,還可以影響求職者的選擇,通過6-9可以看出需求量最大的是互聯(lián)網(wǎng)/電子商務(wù)類的相關(guān)崗位,遠多于其他崗位,有關(guān)于互聯(lián)網(wǎng)/電子商務(wù)方面的人員需求依舊有很大的空缺,而且通過6-10可以看出互聯(lián)網(wǎng)/電子商務(wù)相關(guān)崗位的平均薪資在10000左右,也是非??捎^的,所以各個高??梢灾τ谂囵B(yǎng)相關(guān)專業(yè)人才以應(yīng)對社會上的人才需求,緩解當(dāng)代大學(xué)畢業(yè)生就業(yè)困難的問題,求職者也可以通過學(xué)習(xí)相關(guān)知識進行轉(zhuǎn)型。在現(xiàn)實生活中,崗位

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論