基于聚類和順序聚類的高校數(shù)據(jù)挖掘分析_第1頁
基于聚類和順序聚類的高校數(shù)據(jù)挖掘分析_第2頁
基于聚類和順序聚類的高校數(shù)據(jù)挖掘分析_第3頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、 基于聚類和順序聚類的高校數(shù)據(jù)挖掘分析 高建平 董東Summary:針對高校一卡通系統(tǒng)中大量消費數(shù)據(jù)和圖書館系統(tǒng)的訪問數(shù)據(jù),設計并實現(xiàn)了學生日常行為聚類模型,根據(jù)行為習慣將學生劃分為五大類,利用Microsoft順序聚類算法實現(xiàn)了學生行為序列的挖掘,發(fā)現(xiàn)了“體弱”人群存在不規(guī)律飲食習慣等有意義的行為序列模式,最后針對體弱人群在兩個模式上的共性和差異進行總結(jié)。Key:一卡通;智慧校園;校園數(shù)據(jù);數(shù)據(jù)挖掘;行為分析TP311 :A:1009-3044(2020)25-0052-03Abstract: In order to find interesting patterns from a larg

2、e amount of consumption data accumulated in campus card systems and history data from library access control systems, a daily behavior clustering model for college students was designed and implemented. It is found that students can be divided into five categories based on behavioral habits. Moreove

3、r, by the Microsoft sequential clustering algorithm for mining of student behavior sequences, several meaningful patterns of behavioral sequences, such as weak people have irregular eating habits, is discovered, and finally the commonalities and differences between the two groups of weak people are

4、compared.Key words: campus card; smart campus; campus data; data mining; behavioural analysis1 引言一卡通系統(tǒng)在高校應用范圍越來越廣,使得一卡通產(chǎn)生大量真實反映學生在校情況的數(shù)據(jù),毫無疑問這些數(shù)據(jù)蘊含著有價值的信息。面向校園數(shù)據(jù)的挖掘分析也逐漸成為及時把握學生情況,正確引導學生學習生活,提高高校管理水平的重要研究方向。2018年6月7日,國家標準智慧校園總體框架的發(fā)布1,將“智慧校園”(Smart Campus)定義為“物理空間和信息空間有機銜接,使任何人、任何時間、任何地點都能便捷地獲得資源和服務。

5、”高校也逐步從數(shù)字化校園邁向智慧校園,通過校園內(nèi)一切可以利用的數(shù)據(jù)來為高校和師生提供服務,真正實現(xiàn)以人為本,可見校園數(shù)據(jù)是實現(xiàn)智慧校園建設的基本條件2。校園信息系統(tǒng)3是一個封閉的環(huán)境,數(shù)據(jù)只準寫入,不允許修改,歷來以準確性和真實性為準繩,而且還存在著相互校驗的可能,校園數(shù)據(jù)來源于多個業(yè)務系統(tǒng)并經(jīng)過長時期的數(shù)據(jù)沉淀,數(shù)據(jù)總量存在顯著的海量特性,同時存在顯著的人、財、物、時間等多維特征,各有不同的數(shù)據(jù)尺度又呈復雜的關聯(lián)性,所以校園數(shù)據(jù)具備充分的數(shù)據(jù)挖掘分析的潛力和應用建設的基礎,以校園數(shù)據(jù)為抓手,在校園數(shù)據(jù)分析的建設和應用方面,能夠產(chǎn)生顯著的應用效果。因此本文主要通過大量校園數(shù)據(jù)及對智慧校園的建設

6、需求,設計并實現(xiàn)了學生日常行為聚類模型和行為序列模型,發(fā)現(xiàn)了有價值的行為模式,并從不同模型中發(fā)現(xiàn)體弱人群的共性和差異,為高校提出可靠的管理建議。2 數(shù)據(jù)預處理數(shù)據(jù)清洗的干凈程度決定數(shù)據(jù)質(zhì)量,高質(zhì)量的數(shù)據(jù)會提高后期數(shù)據(jù)挖掘和分析的效率。2.1 數(shù)據(jù)采集數(shù)據(jù)來源是數(shù)據(jù)挖掘分析的基礎。通過在一卡通管理平臺和制卡中心的專業(yè)實習體驗及對智慧校園的建設需求,確定數(shù)據(jù)來源和主題。本文主要是由S高校提供的數(shù)據(jù),具體來源于一卡通管理平臺和圖書館系統(tǒng)。主題是2017級學生的行為數(shù)據(jù),采集的源數(shù)據(jù)主要包括:學生信息表、消費記錄表、學生部門表、圖書館訪問表。2.2 數(shù)據(jù)清洗針對數(shù)據(jù)中存在的缺失值(空值)、不滿足業(yè)務需

7、求和約束、數(shù)據(jù)不一致、重復行和鍵值、表和字段名稱晦澀難懂等問題,通過指定值替換空值或不一致的值、修改不滿足業(yè)務約束的值、刪除不滿足業(yè)務需求、去除重復行、清晰易懂的表和字段的名稱替換晦澀難懂的名稱、驗證數(shù)據(jù)行數(shù)不變等技術(shù),完成數(shù)據(jù)清洗轉(zhuǎn)換與驗證4。經(jīng)過清洗后,消費記錄表由11708467行減少到7112272行數(shù)據(jù),圖書館訪問數(shù)據(jù)由11738025行減少到854664行數(shù)據(jù),學生部門表239行,學生信息表7427行。3 數(shù)據(jù)挖掘模型設計和方法數(shù)據(jù)挖掘分析模型包括數(shù)據(jù)挖掘結(jié)構(gòu)和數(shù)據(jù)挖掘算法。其中數(shù)據(jù)挖掘結(jié)構(gòu)中定義了作為輸入的事例表,數(shù)據(jù)挖掘算法是從訓練集中尋找知識,算法要求定義輸入列和預測列5。3

8、.1 挖掘工具本文主要采用SQL Server 2008數(shù)據(jù)庫,挖掘工具是由商業(yè)智能解決方案(Business Intelligence Development Studio)提供的組件SQL Server Analysis Service(SSAS)。SSAS提供了包括Microsoft聚類分析、關聯(lián)分析、時序等在內(nèi)的9種數(shù)據(jù)挖掘技術(shù),其中重點利用的數(shù)據(jù)挖掘技術(shù)為Microsoft聚類和Microsoft順序聚類。SSAS不僅僅提供了一組行業(yè)標準的數(shù)據(jù)挖掘算法,而且通過數(shù)據(jù)挖掘設計器能夠創(chuàng)建、管理和可視化瀏覽數(shù)據(jù)挖掘模型,在挖掘模型查看器中通過多種分類關系圖查看聚類和順序聚類的結(jié)果。3.2

9、挖掘算法數(shù)據(jù)挖掘算法的選擇是挖掘型分析的核心。根據(jù)數(shù)據(jù)的特點和結(jié)構(gòu),選擇合適的算法對數(shù)據(jù)進行挖掘分析。3.2.1 K-Means算法與Microsoft聚類分析通過分析學生日常行為數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)量大且數(shù)據(jù)類型普遍是數(shù)值型,因此綜合考慮選擇動態(tài)聚類算法中最普及的K-Means算法。通過大量未分類的學生日常行為數(shù)據(jù),利用K-Means算法自動串行聚成不同的組,從而將學生劃分為不同的類別,配合使用Microsoft聚類算法的分類圖觀察聚類結(jié)果,將分類進行特征標注和挖掘分析。3.2.2 Microsoft順序聚類分析Microsoft順序聚類算法將馬爾科夫鏈和聚類結(jié)合,主要目的是發(fā)現(xiàn)異常的序列。針對學

10、生每天的行為進行排序形成學生行為序列,進而發(fā)現(xiàn)異常的行為序列模式,主要挖掘過程包括建立數(shù)據(jù)源、數(shù)據(jù)視圖和數(shù)據(jù)挖掘模型,最后通過觀察挖掘模型和鉆取等操作發(fā)現(xiàn)行為序列的疑點。3.3 模型設計3.3.1 學生日常行為聚類模型從不同的日常行為出發(fā),利用PIVOT函數(shù)實現(xiàn)不同行為次數(shù)和金額屬性的行轉(zhuǎn)列,最終完成包括就餐、淋浴、購物、就醫(yī)、圖書館訪問等日常行為的次數(shù)或金額6,共計9種挖掘?qū)傩?,形成學生日常行為事實表,然后結(jié)合學生基本信息屬性進行聚類,發(fā)現(xiàn)學生的日常行為習慣,從而將學生劃分為有特點的幾類,并對聚類結(jié)果進行分析7。具體設計方案如下:(1)創(chuàng)建學生日常行為聚類的數(shù)據(jù)源和數(shù)據(jù)視圖;(2)定義挖掘結(jié)

11、構(gòu):數(shù)據(jù)挖掘技術(shù):K-Means算法和Microsoft聚類分析;數(shù)據(jù)源視圖:學生日常行為聚類,通過學生序號建立兩個表之間的關聯(lián);事例表:學生日常行為表,學生序號作為事例鍵;輸入列:就餐次數(shù)和金額、購物次數(shù)和金額、淋浴次數(shù)和金額、醫(yī)療消費次數(shù)和金額、圖書館訪問次數(shù)、性別、所在學院、學生類別。3.3.2 學生行為序列模型從不同行為次序出發(fā),將學生從早到晚的刷卡行為進行排序,即每個學生每天均對應一個行為序列,最后利用Microsoft順序聚類算法發(fā)現(xiàn)有意義的學生行為序列模式8。首先根據(jù)每個學生每天在不同時段對應的行為利用SQL語句進行排序,形成學生行為序列,其次將學生序號與刷卡日期組合形成新的字段

12、作為一次行為的編號。最終形成學生行為序列嵌套表和刷卡學生行為信息事實表,且兩表之間是一對多關系。具體設計方案如下:(1)創(chuàng)建學生行為序列分析的數(shù)據(jù)源和數(shù)據(jù)視圖;(2)定義挖掘結(jié)構(gòu):數(shù)據(jù)挖掘技術(shù):Microsoft順序聚類分析;數(shù)據(jù)源視圖:學生行為序列分析,通過刷卡碼與刷卡ID建立兩個表之間的關聯(lián);事例表:刷卡學生信息表,刷卡ID作為事例鍵;嵌套表:學生行為序列表,行為序列作為嵌套鍵;輸入列及預測列:行為序列、刷卡碼。4 數(shù)據(jù)挖掘分析4.1 日常行為聚類結(jié)果分析如圖1所示,通過篩選敏感度變量和狀態(tài)來觀察各個分類的特征,并將劃分好的類別進行特征標注,方便觀察和分析。如圖2所示,通過進一步觀察分類特

13、征圖發(fā)現(xiàn)體弱人群中女生最多,且因S高校中研究生人數(shù)與本科生懸殊較大,此類人群中研究生群體特征顯著。根據(jù)以上對學生日常行為聚類結(jié)果的綜合分析,將學生劃分為以下五類:(1)高消費人群:消費較高,無論是就餐還是購物消費均為最高,很少去圖書館,喜歡洗澡并且洗澡花費的金額較多,這類人群中本科生最多且多為女生;(2)喜“宅”人群:消費很低,無論是就餐、購物、淋浴、醫(yī)療消費均很低,可見這類人群消費較少,幾乎不出門,這類人群中博士生和研究生居多,且多為男性,可見此類人群中很可能有較多“宅男”類型的博士生和研究生;(3)學霸人群:愛去圖書館,就餐次數(shù)和消費比較高,喜歡洗澡,且多為女生??梢姶祟惾巳褐信畬W霸居多,

14、并且飲食和起居生活都十分規(guī)律;(4)體弱人群:醫(yī)療次數(shù)和金額均為最高,不愛洗澡且就餐毫無規(guī)律,此類人群中研究生特征最為突出;(5)一般人群:各個變量的平均值占比較高的人群,說明無論是就餐、淋浴、購物、圖書館訪問、醫(yī)療等消費金額和次數(shù)均為平均水平,此類人群的消費很正常,生活和學習也十分規(guī)律。針對“體弱”人群的聚類結(jié)果可以推斷出:(1)不規(guī)律就餐和洗浴的學生經(jīng)常去醫(yī)務室;(2)研究生群體普遍身體素質(zhì)偏弱。4.2 行為序列聚類結(jié)果分析如圖3所示,通過篩選明暗度變量和狀態(tài),將五種行為序列人群分別進行特征標注(最可能去或最不可能去)。如圖4所示,通過進一步觀察學生行為序列聚類結(jié)果和刷卡行為.sample

15、s屬性狀態(tài)的圖例進行綜合分析,發(fā)現(xiàn)以下挖掘結(jié)果:(1)存在最可能去餐廳就餐但不愛去圖書館和醫(yī)務室的人群;(2)此類人群的行為序列中餐廳就餐最多且十分規(guī)律。針對此類人群的聚類分析結(jié)果可推斷出:(1)規(guī)律飲食的人群普遍不會去醫(yī)務室;(2)規(guī)律飲食與身體健康有著密不可分的聯(lián)系。5 結(jié)論本文利用學生消費數(shù)據(jù)和圖書館訪問數(shù)據(jù)設計并實現(xiàn)了聚類挖掘模型,通過聚類發(fā)現(xiàn)學生的日常行為習慣從而將學生劃分為五類:一般、高消費、“宅”、學霸、體弱,發(fā)現(xiàn)了不就餐不洗浴的同學往往經(jīng)常去醫(yī)務室、研究生群體偏體弱等模式;通過Microsoft順序聚類分析實現(xiàn)學生行為序列的挖掘,發(fā)現(xiàn)了規(guī)律飲食的人群普遍不會去醫(yī)務室等學生行為序

16、列模式。最后通過對比兩個模型的挖掘結(jié)果,發(fā)現(xiàn)其分別從規(guī)律和不規(guī)律飲食兩個相反行為習慣推出結(jié)論,但均證實“體弱”人群存在不規(guī)律飲食習慣。可見養(yǎng)成良好的飲食習慣有益于增強體質(zhì),同時高校應加強對不規(guī)律飲食人群的關注和管理,正確引導學生加強鍛煉的同時也更應注重自身的飲食習慣。Reference:1 國家市場監(jiān)督管理總局中國國家標準化管理委員會.智慧校園總體框架:GB/T 36342-2018S.北京:中國標準出版社,2018.6.2 潘勝玲.智慧校園數(shù)據(jù)中心建設研究J.電子世界,2020(2):41-42.3 李增福.高職院校校園管理信息系統(tǒng)結(jié)構(gòu)體系構(gòu)建J.科技資訊,2019,17(17):111,115.4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論