基于決策樹的高職院校報(bào)到率預(yù)測分析_第1頁
基于決策樹的高職院校報(bào)到率預(yù)測分析_第2頁
基于決策樹的高職院校報(bào)到率預(yù)測分析_第3頁
基于決策樹的高職院校報(bào)到率預(yù)測分析_第4頁
基于決策樹的高職院校報(bào)到率預(yù)測分析_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于決策樹的高職院校報(bào)到率預(yù)測分析

近年來,各類高職院校的辦學(xué)規(guī)模逐年擴(kuò)大,但高職生的招生率逐年下降。尤其是第二年的專業(yè)高等職業(yè)指導(dǎo)小組。一些大學(xué)的報(bào)告率約為50%。報(bào)到率下降成為招生主管部門和高職院校面臨的一個(gè)新課題。為了科學(xué)、客觀地分析影響高職生報(bào)到率因素和預(yù)測報(bào)到人數(shù),更好地指導(dǎo)招生工作,本文通過使用近年來新興的數(shù)據(jù)挖掘技術(shù),采用分類分析中的決策樹方法,對某高職院校招生數(shù)據(jù)庫中的數(shù)據(jù)實(shí)施了數(shù)據(jù)挖掘。從中發(fā)現(xiàn)了潛在的模式,總結(jié)知識,并結(jié)合該學(xué)院的實(shí)際,為學(xué)院的招生和發(fā)展提出了建設(shè)性意見,為管理者決策提供了理論依據(jù)。一、決策樹分類與算法分析(一)分類器數(shù)據(jù)庫分類是一個(gè)從現(xiàn)有的帶有類別的數(shù)據(jù)集中尋找同一類別數(shù)據(jù)的共同特性,并以此將它們進(jìn)行區(qū)分的過程。分類的目的是提出一個(gè)分類函數(shù)或分類模型(也稱作分類器),該模型能把數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。分類也可用于預(yù)測,預(yù)測的目的是從歷史數(shù)據(jù)記錄中自動推導(dǎo)出給定數(shù)據(jù)的推廣描述,從而能對未來數(shù)據(jù)進(jìn)行預(yù)測。分類器的典型構(gòu)造方法有決策樹、貝葉斯分類,神經(jīng)網(wǎng)絡(luò)、近鄰學(xué)習(xí)或基于事例的學(xué)習(xí)等。決策樹具有直觀、清晰、易被用戶理解的特點(diǎn),同時(shí),決策樹具有容易生成規(guī)則、算法可伸縮性強(qiáng)等優(yōu)點(diǎn)。決策樹既具有分類功能,又具有預(yù)測的功能,它的可解釋性很強(qiáng),很適合特征描述。所以本文采用了決策樹方法進(jìn)行分類和預(yù)測。(二)決策樹的一般算法1.最高信息增益的計(jì)算ID3算法是在決策樹的每個(gè)節(jié)點(diǎn)上使用信息增益度量選擇測試屬性。這種度量稱作屬性選擇度量或分裂的優(yōu)良性度量。選擇具有最高信息增益(最大熵壓縮)的屬性作為當(dāng)前節(jié)點(diǎn)的測試屬性。該屬性使得對結(jié)果劃分中的樣本分類所需的信息量最小,并反映劃分的最小隨機(jī)性或“不純性”。這種信息理論方法使得對一個(gè)對象分類所需的期望測試數(shù)目達(dá)到最小,并確保找到一棵簡單的樹。設(shè)S是s個(gè)數(shù)據(jù)樣本的集合。假定類標(biāo)號屬性具有m個(gè)不同值,定義m個(gè)不同類Ci(i=1,…,m)。設(shè)si是類Ci中的樣本數(shù)。對一個(gè)給定的樣本分類所需的期望信息由下式給出:Ι(s1,s2,?,sm)=-m∑i=1pilog2(pi)I(s1,s2,?,sm)=?∑i=1mpilog2(pi)(式1)其中pi是任意樣本屬于Ci的概率,并用si/s估計(jì)。注意,對數(shù)函數(shù)以2為底,因?yàn)樾畔⒂枚M(jìn)位編碼。設(shè)屬性A具有v個(gè)不同值{a1,a2,…,av}??梢杂脤傩訟將S劃分為v個(gè)子集{S1,S2,…,Sv};其中,Sj包含S中這樣一些樣本,它們在A具有值aj。如果A選作測試屬性(即最好的分裂屬性),則這些子集對應(yīng)于由包含集合S的節(jié)點(diǎn)生長出來的分枝。設(shè)sij是子集Sj中類Ci的樣本數(shù)。根據(jù)由A劃分成子集的熵(entropy)或期望信息由下式給出:E(A)=v∑i=1S1j+?+SmjsΙ(s1j,?,SmjE(A)=∑i=1vS1j+?+SmjsI(s1j,?,Smj(式2)項(xiàng)S1j+?+SmjsS1j+?+Smjs充當(dāng)?shù)趈個(gè)子集的權(quán),并且等于子集(即A值為aj)中的樣本個(gè)數(shù)除以S中的樣本總數(shù)。熵值越小,子集劃分的純度越高。注意,對于給定的子集Sj,Ι(s1,s2,?,smj)=-m∑i=1pijlog2(pi)I(s1,s2,?,smj)=?∑i=1mpijlog2(pi)(式3)其中,Ρij=Sij|Sj|Pij=Sij|Sj|是Sj中的樣本屬于類Ci的概率。在A上分枝將獲得的編碼信息是Cain(A)=I(S1,S2,…,Sm)-E(A)(式4)換言之,Gain(A)是由于知道屬性A的值而導(dǎo)致的熵的期望壓縮。算法計(jì)算每個(gè)屬性的信息增益。具有最高信息增益的屬性選作給定集合S的測試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),并以該屬性標(biāo)記,對屬性的每個(gè)值創(chuàng)建分枝,并據(jù)此劃分樣本。2.基于litia的b.0C4.5算法是從ID3算法演變而來,除了擁有ID3算法的功能外,C4.5算法引入了信息增益比例的概念,使用信息增益比例作為屬性分裂度量。一個(gè)屬性的增益比例用下面的公式給出:GainRatio(A)=Gain(A)SplitΙ(A)(式5)其中SplitΙ(A)=-v∑j=1Ρjlog2(Ρj)(式6)這里設(shè)屬性A具有v個(gè)不同值{a1,a2,…,av}??梢杂脤傩訟將S劃分為v個(gè)子集{S1,S2,…,Sv},其中Sj包含S中這樣一些樣本:它們A上具有值aj。假如我們以屬性A的值為基準(zhǔn)對樣本進(jìn)行分割,SplitI(A)就是前面提到的熵的概念。C5.0是C4.5的一個(gè)商業(yè)版本,它現(xiàn)在已被廣泛應(yīng)用于許多數(shù)據(jù)挖掘軟件包中,例如Clementine和RuleQuest。C5.0主要針對大數(shù)據(jù)集的分類。C5.0中的決策樹歸納與C4.5中的很相似,但規(guī)則生成不同。與C4.5不同,C5.0使用的精確算法并沒有被公開。C5.0包括了生成規(guī)則方面的改進(jìn)。測試結(jié)果表明,C5.0在內(nèi)存占用方面的性能提高了大約90%,在運(yùn)行方面要比C4.5快5.7~240倍,并且生成的規(guī)則更加準(zhǔn)確。二、決策樹對高級職業(yè)學(xué)生報(bào)告率的分析與規(guī)劃(一)建立分類模型及過程模型一般來說,影響高職學(xué)生報(bào)到率的因素應(yīng)該是多方面的。研究哪些學(xué)生即將報(bào)到時(shí),將其定位為一個(gè)分類問題,即將學(xué)生分為報(bào)到和不報(bào)到兩類。選擇適量的歷史上報(bào)到學(xué)生和未報(bào)到學(xué)生的屬性數(shù)據(jù)組成訓(xùn)練數(shù)據(jù)集,利用決策樹分類建立學(xué)生報(bào)到的分類模型。數(shù)據(jù)挖掘同時(shí)會給出分類結(jié)果的概率值,這個(gè)值可以看作是學(xué)生的報(bào)到概率。用建立的分類模型可以對將來新生進(jìn)行報(bào)到率預(yù)測,并給出報(bào)到概率。以上的問題可以設(shè)計(jì)合適的數(shù)據(jù)挖掘流程加以解決。結(jié)合數(shù)據(jù)挖掘中UsamaM.Fayyad提出的多階段處理通用模型和CRISP-DM標(biāo)準(zhǔn)的過程模型。報(bào)到率問題的數(shù)據(jù)挖掘過程擬將兩種數(shù)據(jù)挖掘模型結(jié)合起來,設(shè)計(jì)數(shù)據(jù)挖掘過程為:確定業(yè)務(wù)對象、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、模式評價(jià)和知識應(yīng)用。(二)報(bào)告績效體系的實(shí)現(xiàn)過程1.建立模型及預(yù)測人數(shù)本文采用決策樹方法,針對高職學(xué)生的報(bào)到情況(報(bào)到或不報(bào)到)進(jìn)行分類分析,建立基于報(bào)到率的決策樹分類模型,根據(jù)決策樹模型生成規(guī)則集,并使用決策樹模型預(yù)測新生報(bào)到率,從而預(yù)測報(bào)到人數(shù)。2.學(xué)生導(dǎo)向的數(shù)據(jù)庫形式本文論及的數(shù)據(jù)挖掘,其數(shù)據(jù)來源于某高職第二批錄取學(xué)院的招生數(shù)據(jù),原始數(shù)據(jù)以MicrosoftVisualFoxPro6.0(以下簡稱為VFP6.0)支持的數(shù)據(jù)庫形式存在。該高職學(xué)院的學(xué)生錄取檔案數(shù)據(jù)庫中,共有八十多個(gè)屬性。特意聘請領(lǐng)域?qū)<?學(xué)院招生辦公室主任)參與屬性選擇,選取與數(shù)據(jù)挖掘任務(wù)具有一定相關(guān)性的屬性,見表1:原始數(shù)據(jù)需要經(jīng)過轉(zhuǎn)換和離散化處理才能生成適合數(shù)據(jù)挖掘的數(shù)據(jù)挖掘庫。3.基于流圖的分析預(yù)測模型該步驟使用數(shù)據(jù)挖掘領(lǐng)域知名公司SPSS開發(fā)的商業(yè)版數(shù)據(jù)挖掘系統(tǒng)Clementine8.1中的C5.0算法,生成分析預(yù)測模型。該數(shù)據(jù)流圖是由不同的節(jié)點(diǎn)組成的,其中2004tdb節(jié)點(diǎn)用于設(shè)置VFP6.0數(shù)據(jù)源,選取2004tdb表作為數(shù)據(jù)挖據(jù)庫,Filter節(jié)點(diǎn)用于過濾與數(shù)據(jù)挖掘任務(wù)無關(guān)屬性,Type節(jié)點(diǎn)用于設(shè)置數(shù)據(jù)挖掘中的輸入變量和輸出變量,報(bào)到率節(jié)點(diǎn)是數(shù)據(jù)挖據(jù)結(jié)果節(jié)點(diǎn)。關(guān)鍵節(jié)點(diǎn)是C5.0模型節(jié)點(diǎn),C5.0節(jié)點(diǎn)生成的模型見圖1。4.投檔成績高于高職高專若干學(xué)科考生的報(bào)到率對高職生報(bào)到率分析與預(yù)測使用的分類模型,結(jié)果被解釋為分類模式,該模式可使用以下規(guī)則加以描述:(1)報(bào)考該學(xué)院的考生總體報(bào)到率為63.93%。(2)如果投檔成績低于高職高專一批錄取分?jǐn)?shù)線的考生報(bào)考了該學(xué)院,那么報(bào)到率為66.19%。(3)如果投檔成績高于高職高專一批錄取分?jǐn)?shù)線的考生報(bào)考了該學(xué)院,那么報(bào)到率為40.00%。(4)如果投檔成績低于高職高專一批錄取分?jǐn)?shù)線的文科考生報(bào)考了該學(xué)院,那么報(bào)到率為70.49%。(5)如果投檔成績低于高職高專一批錄取分?jǐn)?shù)線的理科考生報(bào)考了該學(xué)院,那么報(bào)到率為54.39%。(6)如果對口考生報(bào)考了該學(xué)院,那么學(xué)生報(bào)到率為84.50%。(7)如果投檔成績低于高職高專一批錄取分?jǐn)?shù)線的理科考生第一志愿報(bào)考了該學(xué)院,那么報(bào)到率為59.92%。(8)如果投檔成績低于高職高專一批錄取分?jǐn)?shù)線的理科考生第二志愿報(bào)考了該學(xué)院,那么報(bào)到率為54.41%。(9)如果投檔成績低于高職高專一批錄取分?jǐn)?shù)線的理科考生第三志愿報(bào)考了該學(xué)院,那么報(bào)到率為36.25%。5.考生對學(xué)院的影響領(lǐng)域?qū)<腋鶕?jù)數(shù)據(jù)挖掘發(fā)現(xiàn)的模式,結(jié)合本學(xué)院的實(shí)際情況,同時(shí)聽取了部分未報(bào)到學(xué)生的意見反饋,對該招生工作中的報(bào)到率進(jìn)行了深層分析:(1)該學(xué)院的整體報(bào)到率在同類學(xué)院中一直偏低,原因包括學(xué)院在內(nèi)部管理(學(xué)生管理和教學(xué)管理)方面和學(xué)習(xí)風(fēng)氣方面還存在不少問題,部分學(xué)生對此不滿;學(xué)院專業(yè)設(shè)置一般,無特色專業(yè);學(xué)院的招生宣傳力度不夠,特別是在媒體宣傳方面。(2)對口升學(xué)的報(bào)到率較高,其原因是對口生選擇面窄,且不能復(fù)讀。(3)投檔成績高于高職高專一批錄取分?jǐn)?shù)線的考生報(bào)到率低,其原因是這部分考生多選擇復(fù)讀,準(zhǔn)備來年直接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論