基于譜聚類與支持向量機的高校經(jīng)濟困難學(xué)生認定方法研究_第1頁
基于譜聚類與支持向量機的高校經(jīng)濟困難學(xué)生認定方法研究_第2頁
基于譜聚類與支持向量機的高校經(jīng)濟困難學(xué)生認定方法研究_第3頁
基于譜聚類與支持向量機的高校經(jīng)濟困難學(xué)生認定方法研究_第4頁
基于譜聚類與支持向量機的高校經(jīng)濟困難學(xué)生認定方法研究_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、    基于譜聚類與支持向量機的高校經(jīng)濟困難學(xué)生認定方法研究    莫媛媛+顧明言+張輝宜摘 要:為解決當前高校在家庭經(jīng)濟困難學(xué)生認定方面缺少直觀數(shù)據(jù)佐證的問題,本文基于在校學(xué)生的一卡通消費數(shù)據(jù),結(jié)合譜聚類算法與支持向量機的優(yōu)點,探索了一種數(shù)據(jù)量化的家庭經(jīng)濟困難學(xué)生認定方法。首先,對原始數(shù)據(jù)的每筆消費記錄進行標記并采用譜聚類算法對預(yù)處理后的學(xué)生消費數(shù)據(jù)進行聚類分析;然后依據(jù)聚類結(jié)果生成數(shù)據(jù)篩選規(guī)則,剔除離群樣本,提取有效的日常消費數(shù)據(jù);最后,選取不同的特征構(gòu)建特征向量并輸入到支持向量機(support vector machine,svm)中訓(xùn)練家庭經(jīng)濟

2、困難學(xué)生認定模型。實驗結(jié)果表明,本文研究的方法能準確地區(qū)分出在校生的經(jīng)濟困難程度,在校生的消費信息能較客觀地反映出學(xué)生的家庭經(jīng)濟情況,該方法將為高校經(jīng)濟困難學(xué)生認定工作提供一種有效的輔助手段。關(guān)鍵詞:譜聚類算法;特征提?。籹vm;經(jīng)濟困難學(xué)生認定模型:g647 文獻標志碼:a :1673-8454(2017)15-0048-04一、引言近年來,我國對高校經(jīng)濟困難學(xué)生的資助力度逐漸增強,各個高校主要通過經(jīng)濟困難生資助體系給予經(jīng)濟困難學(xué)生群體幫助。1但資助體系中經(jīng)濟困難學(xué)生的認定過程受諸多因素的影響,比如:認定標準難以統(tǒng)一;定性因素、主觀因素多,客觀依據(jù)少,不可避免會出現(xiàn)認定范圍和等級的偏差;缺少

3、科學(xué)審查和復(fù)核辦法;對虛報家庭經(jīng)濟狀況的行為缺乏有效監(jiān)督等等。同時經(jīng)濟困難學(xué)生的認定涉及教育機會公平、維護高校和社會穩(wěn)定的重要問題。2-3那么如何才能更加公平、公正、客觀地評定呢?眾所周知,學(xué)生在學(xué)校使用的校園卡可以直觀地體現(xiàn)學(xué)生的生活水平,已有部分高校開始對學(xué)生校園一卡通的消費行為數(shù)據(jù)進行研究,并使用數(shù)據(jù)挖掘技術(shù)中的聚類算法和規(guī)則分析算法對校園一卡通數(shù)據(jù)進一步分析。4-5 王德才等人利用svm和apriori關(guān)聯(lián)規(guī)則算法分析學(xué)生校園一卡通消費行為數(shù)據(jù);6羅擁軍等人采用基于fp-growth算法尋找學(xué)生的貧困度與一卡通數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的依據(jù);7黃劍等人利用決策樹數(shù)據(jù)挖掘算法分析學(xué)生校園中的消費

4、行為習(xí)慣內(nèi)在關(guān)聯(lián)關(guān)系和變化趨勢,以便于調(diào)整學(xué)校餐飲服務(wù);8徐劍等人利用k-means算法對一卡通的消費數(shù)據(jù)進行了聚類分析,并用關(guān)聯(lián)規(guī)則算法分析了學(xué)生的消費數(shù)據(jù)與學(xué)生成績之間的關(guān)聯(lián)關(guān)系;9姜楠等人也利用數(shù)據(jù)挖掘的k-means算法對學(xué)生消費行為進行消費習(xí)慣聚類分析,并對聚類結(jié)果進行了評估,最后也采用關(guān)聯(lián)規(guī)則算法進行學(xué)習(xí)行為關(guān)聯(lián)度分析。10k-means算法在緊湊的超球形分布的數(shù)據(jù)集合上有很好的性能,然而當數(shù)據(jù)結(jié)構(gòu)是非凸的,或數(shù)據(jù)點彼此交疊嚴重時,k-均值算法往往會失效,而且算法的迭代最優(yōu)方法不能保證收斂到全局最優(yōu)解。11而另一種聚類算法譜聚類算法克服了k-means算法的缺點,具有識別非凸分布聚

5、類的能力,適合于求解實際問題,不會陷入局部最優(yōu)解,且能避免數(shù)據(jù)的過高維數(shù)所造成的奇異性問題。12-13譜聚類算法是一種基于兩點間相似關(guān)系的方法,已被成功應(yīng)用于語音識別、視頻分割、圖像分割、vlsi設(shè)計、網(wǎng)頁劃分等領(lǐng)域。14-16目前大部分高校對學(xué)生一卡通的數(shù)據(jù)分析多用于研究在校行為分析,對于經(jīng)濟困難學(xué)生的認定分析,缺少一些直觀、可信度較高的數(shù)據(jù)作為支撐,多為定性分析,無量化指標。本文研究了一種基于譜聚類與支持向量機的經(jīng)濟困難學(xué)生認定方法,首先對學(xué)生行為數(shù)據(jù)進行規(guī)范化處理,采用譜聚類算法對數(shù)據(jù)進行聚類;通過對聚類結(jié)果進行分析,從中選取合適的特征及樣本數(shù)據(jù);然后采用不同的核函數(shù)構(gòu)建基于支持向量機的

6、經(jīng)濟困難學(xué)生認定模型。二、理論基礎(chǔ)1.譜聚類算法三、實驗數(shù)據(jù)處理及分析實驗使用的數(shù)據(jù)存在兩個方面的問題:一方面在數(shù)據(jù)采集、傳輸?shù)倪^程中常會造成數(shù)據(jù)缺失或者數(shù)據(jù)冗余,而數(shù)據(jù)的質(zhì)量直接影響到認定模型訓(xùn)練結(jié)果的好壞,所以需要對原始數(shù)據(jù)進行規(guī)范化處理;另一方面,不同學(xué)生的消費情況存在一定的差異不同年級、專業(yè)由于課程安排不同(實習(xí)、外出交流學(xué)習(xí)等),往往很多學(xué)生一學(xué)期內(nèi)刷卡消費的天數(shù)會出現(xiàn)很大的差別;同一個人在不同時期,消費金額也會有較大的懸殊,因此,需要采用有效的方法對學(xué)生消費數(shù)據(jù)進行處理,以得到學(xué)生的真實消費數(shù)據(jù)。針對這兩個問題,分別采用以下解決方法:去除冗余數(shù)據(jù),綜合學(xué)工、卡機等其他信息來源,對信

7、息缺失的數(shù)據(jù)進行補全;然后,根據(jù)刷卡機所屬的部門,梳理出在校生主要的消費去向有餐廳、超市、水果店、書店、精品店、打印、水費、電費、網(wǎng)費、醫(yī)療費,關(guān)聯(lián)消費數(shù)據(jù)及卡機信息,對每筆消費進行標記;最后,對學(xué)生消費數(shù)據(jù)按日匯總,生成日常消費樣本數(shù)據(jù)。使用譜聚類算法對學(xué)生的日消費數(shù)據(jù)進行聚類,利用聚類結(jié)果,對原始數(shù)據(jù)進行過濾,剔除離群樣本,篩選出有效的日常消費數(shù)據(jù)。文中從三年的一卡通數(shù)據(jù)中隨機選出20萬條消費數(shù)據(jù),經(jīng)規(guī)范化處理后選取10000條日消費數(shù)據(jù)用于譜聚類分析。1.實驗數(shù)據(jù)預(yù)處理購買禮品、就醫(yī)花費等消費存在偶發(fā)性且不具備普遍性,電費為公攤消費無法體現(xiàn)個體用電情況,購書、打印、水費、網(wǎng)費常為一次刷卡

8、,使用較長的時間后才會出現(xiàn)二次消費,不適合作為細粒度的分析。綜上,本文對日常消費數(shù)據(jù)中與生活息息相關(guān)的餐飲、超市、水果消費數(shù)據(jù)進行聚類,以歸納出過高過低等異常消費數(shù)據(jù)的規(guī)則。文中采用以下幾步對樣本數(shù)據(jù)進行聚類:首先,建立消費數(shù)據(jù)樣本集合x=x1,x2,xn,其中,xi=j1,j2,j3為第i個日消費數(shù)據(jù)樣本,j1、j2、j3分別為日餐飲、超市、水果消費額。對所有的樣本數(shù)據(jù),使用公式(1)計算樣本數(shù)據(jù)的相似矩陣w;然后,根據(jù)公式(2)計算對角矩陣d,并利用公式(3)計算拉普拉斯矩陣,再利用公式(4)進行歸一化處理;而后,計算矩陣l的特征值及特征向量,選取前4個特征向量構(gòu)建特征矩陣v;最后,使用k

9、-means算法對特征矩陣進行聚類。根據(jù)學(xué)生消費情況,將聚類數(shù)目設(shè)置為4,分別表示異常消費、較低消費、中等消費、較高消費。使用matlab工具函數(shù)對日消費數(shù)據(jù)進行聚類,結(jié)果如圖1所示。 從圖1可知,消費額處于中間部分的數(shù)據(jù)占有較大的比例,文中將此部分數(shù)據(jù)設(shè)定為合理的消費并選取較低消費數(shù)據(jù)、較高消費數(shù)據(jù)作為有效消費區(qū)間 。從原始數(shù)據(jù)中篩選出滿足上述條件的消費數(shù)據(jù)作為在校生的正常消費數(shù)據(jù),然后求取每個學(xué)生的日均消費數(shù)據(jù)。從三年經(jīng)濟困難學(xué)生名單中選擇有家庭經(jīng)濟狀況調(diào)查的輕微困難學(xué)生600人、中等困難學(xué)生 300人、特別困難學(xué)生120人及隨機挑選出非經(jīng)濟困難學(xué)生2040人的日常消費數(shù)據(jù),按上述規(guī)則過濾

10、并對不同類別(餐廳、超市、水果店、書店、精品店、打印、水費、電費、網(wǎng)費等)的消費做均值處理,獲取共3060條日均消費數(shù)據(jù);選用前兩年2040條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)輸入到svm訓(xùn)練分類模型,剩余部分作為測試數(shù)據(jù)。2.分類模型的訓(xùn)練與結(jié)果分析特征的選取與核函數(shù)的選擇在訓(xùn)練基于支持向量機的分類模型中具有至關(guān)重要的作用,將決定分類模型在實際應(yīng)用中的好壞,為了比較全面地了解不同的特征、核函數(shù)對分類模型效果的影響,實驗中做了如下設(shè)置:分別選取三組不同類型的消費數(shù)據(jù)作為特征數(shù)據(jù),第一組數(shù)據(jù)包含餐廳、超市、水果店消費,另外兩組數(shù)據(jù)設(shè)置如表1所示;分別采用線性內(nèi)積函數(shù)、多項式內(nèi)積函數(shù)、徑向基內(nèi)積函數(shù),并且選用相同的

11、函數(shù)參數(shù)來訓(xùn)練模型。實驗使用matlab中的svm工具箱進行分類模型的訓(xùn)練和測試。與餐飲消費相比,其他類別的消費額很小,其數(shù)值差異較大,文中采用對數(shù)函數(shù)對三組樣本數(shù)據(jù)進行歸一化處理,對數(shù)底為2。將分別選用歸一化處理后的三組數(shù)據(jù)通過svm分類器進行訓(xùn)練,其中每個分類器選用三個不同的核函數(shù),訓(xùn)練完成后共生成三組9個不同的分類器。將與訓(xùn)練數(shù)據(jù)對應(yīng)的測試集分別輸入三組svm分類器中進行測試,不同分類模型的認定準確率如表2、3、4所示。從上述表1、2、3、4中可以得到以下三個方面的分析結(jié)果:通過在校生的日常消費數(shù)據(jù)能較準確地區(qū)分出經(jīng)濟困難生與非經(jīng)濟困難生;利用日消費數(shù)據(jù)鑒別經(jīng)濟困難生困難程度的準確率整體

12、較低,但認定特別困難學(xué)生的準確率相對較高;使用三種不同的核函數(shù)對經(jīng)濟困難生認定的準確率存在一定的差異,但總體差別較?。皇褂貌蛷d、超市、水果店、水費、網(wǎng)費特征數(shù)據(jù)進行分類的準確率最高,使用所有類別特征數(shù)據(jù)進行鑒別的正確率最低。使用包含水費、網(wǎng)費消費特征的數(shù)據(jù)訓(xùn)練出的分類模型的識別準確率較不包含這些特征的分類器的高。由于禮品、就醫(yī)花費等消費存在偶發(fā)性;電費屬于公攤消費無法體現(xiàn)個體消費情況,學(xué)校圖書館藏較大能基本滿足在校生的借閱需求,在校生購書消費率較低,這些不確定因素使禮品、就醫(yī)、電費等特征干擾了評定模型的準確性,以至于使用所有類別數(shù)據(jù)進行訓(xùn)練的分類模型的鑒別正確率較低。在校生大都來自于普通家庭,

13、大多未申請經(jīng)濟困難的在校生的消費行為與輕微困難學(xué)生的消費情況差之甚微,以至于兩者容易分到彼此的類別中,這是造成輕微困難學(xué)生認定準確率較低的原因之一;且造成學(xué)生家庭特別困難諸如突發(fā)性的自然災(zāi)害、家庭出現(xiàn)重大變故等客觀因素?zé)o法從歷史消費行為中體現(xiàn),這是導(dǎo)致難以根據(jù)日常消費數(shù)據(jù)精確區(qū)分在校生家庭困難程度的因素之一。四、結(jié)論本文使用譜聚類算法對在校生的日常消費數(shù)據(jù)進行聚類以篩選出真實的消費數(shù)據(jù),并構(gòu)建基于svm的經(jīng)濟困難生認定模型。實驗結(jié)果表明,本文采用的方法能較好地區(qū)分出在校生是否為經(jīng)濟困難學(xué)生,在校生的消費信息能較客觀地體現(xiàn)出學(xué)生的家庭經(jīng)濟情況,該數(shù)據(jù)量化的認定方法將為高校經(jīng)濟困難學(xué)生評定工作提供

14、一種有效的輔助手段。參考文獻:1陳健,梁思影.高校貧困生認定、資助體系評析j.高校輔導(dǎo)員學(xué)刊,2010(1): 24-27.2秦微微.基于數(shù)據(jù)挖掘技術(shù)的高校貧困生評判指標的選取d.東北師范大學(xué),2015.3張沂紅.基于校園卡系統(tǒng)的學(xué)生困難認定輔助評判系統(tǒng)的研究與實現(xiàn)d.山東大學(xué), 2010.4王春雁,白雪.高校校園卡系統(tǒng)應(yīng)用現(xiàn)狀及趨勢淺析j.中國教育信息化(高教職教), 2011(11): 83-87.5王雪飛.數(shù)據(jù)挖掘在高校貧困生校園卡流水數(shù)據(jù)中的應(yīng)用研究d.東北師范大學(xué), 2014.6王德才.數(shù)據(jù)挖掘在校園卡消費行為分析中的研究與應(yīng)用d.哈爾濱工程大學(xué), 2010.7羅擁軍,羅云芳,陸元路

15、.基于 fp-growth算法的高校貧困生輔助辨識系統(tǒng)研究與應(yīng)用j.廣西職業(yè)技術(shù)學(xué)院學(xué)報,2016(1):1-4.8黃劍.基于決策樹數(shù)據(jù)挖掘算法的大學(xué)生消費數(shù)據(jù)分析j.電腦與信息技術(shù),2015(5):44-45.9徐劍.基于一卡通數(shù)據(jù)的消費行為與成績的關(guān)聯(lián)性研究分析d.南昌大學(xué),2010.10姜楠,許維勝.基于校園一卡通數(shù)據(jù)的學(xué)生消費及學(xué)習(xí)行為分析j.微型電腦應(yīng)用, 2015(2):35-38.11王婷.基于半監(jiān)督集成的遙感圖像的分割和分類d.西安電子科技大學(xué),2009.12楊曉靜.基于流形學(xué)習(xí)的數(shù)據(jù)聚類與可視化d.西安電子科技大學(xué),2012.13arbib m a. the handbook

16、 of brain theory and neural networksm.mit press, 2003.14jordan f r b m i. blind one-microphone speech separation: a spectral learning approachc.advances in neural information processing systems 17: proceedings of the 2004 conference.mit press,2005,17: 65.15odobez j m, gatica-perez d, guillemot m. video shot clustering using spectral methodsc.3rd workshop on content-based multimedia indexing (cbmi).2003(epfl-conf-82933).16malik j, belongie s, leung t, et al. contour and tex

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論