利用Kmeans聚類分析技術分析學生成績_第1頁
利用Kmeans聚類分析技術分析學生成績_第2頁
利用Kmeans聚類分析技術分析學生成績_第3頁
利用Kmeans聚類分析技術分析學生成績_第4頁
利用Kmeans聚類分析技術分析學生成績_第5頁
免費預覽已結束,剩余1頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、利用K-means聚類分析技術分析學生成績摘要:數(shù)據(jù)挖掘是在海量的數(shù)據(jù)中尋找模式或規(guī)則的過程。數(shù)據(jù)聚類則是數(shù)據(jù)挖掘中的一項重要技術,就是將數(shù)據(jù)對象劃分到不同的類或者簇中,使得屬于同簇的數(shù)據(jù)對象相似性盡量大,而不同簇的數(shù)據(jù)對象相異性盡量大。目前數(shù)據(jù)挖掘技術在商業(yè)、金融業(yè)等方面都得到了廣泛的應用,而在教育領 域的應用較少,隨著高校招生規(guī)模的擴大,在校學生成績分布越來越復雜,除了 傳統(tǒng)成績分析得到的一些結論外,還有一些不易發(fā)現(xiàn)的信息隱含其中,因而把數(shù) 據(jù)挖掘技術引入到學生成績分析中,有利于針對性地提高教學質量。本論文就是 運用數(shù)據(jù)挖掘中的聚類分析學生成績的,利用學生在選擇專業(yè)前的各主要學科的 成績構

2、成,對數(shù)據(jù)進行選擇,預處理,挖掘分析等。運用聚類算法分析學生對哪 個專業(yè)的強弱選擇,從而為具有不同成績特征的同學在專業(yè)選擇及分專業(yè)后如何 開展學習提供一定的參考意見。關鍵字:數(shù)據(jù)挖掘聚類分析學生成績分析Abstract : Data mining is a process that in the vast amounts of datalooking for patterns or rules. Data clustering is an important data miningtechnology for people to understand and explore the inher

3、ent relationshipbetween things. Clustering is to partition data objects into differentcategories, or clusters, making the similarity with the clusters of dataas large as possible. While the dissimilarity of different clusters of dataas large as possible.Nowadays data mining technology is widely used

4、 in business and finance. But it is less used in education field. With the increase of enrollmentin universities, there are more and more students in campus, and that makes it more and more complex in the distribution of students" records. Besides some conclusions from traditional record analys

5、is, a lot of potential information cannot be founded. Importing the data mining technology to students" record analyzing makes it more convenient and improve the teaching quality. In this paper, clustering technique in data mining is used to students' performance analysis, the use of data s

6、tructure of main subject before the students specialized in choice of mode, pretreatmentand data mining. Using clustering technology to analyse which professional students are good at, so as to choose how to learn professional and givesome reference opinions after students of different grades choose

7、 their majors .1.2 發(fā)展現(xiàn)狀Keywords : Data Mining ,Achievement1. 概述1.1 背景隨著我國經(jīng)濟的發(fā)展,網(wǎng)絡已被應用到各個行業(yè),人們對網(wǎng)絡帶來的高效率越來越重視,然而大量數(shù)據(jù)信息給人們帶來方便的同時,也隨之帶來了許多新問題,大量數(shù)據(jù)資源的背后隱藏著許多重要的信息,人們希望能對其進行更深入的分析,以便更好地利用這些數(shù)據(jù),從中找出潛在的規(guī)律。那么,如何從大量的數(shù)據(jù)中提取并發(fā)現(xiàn)有用信息以提供決策的依據(jù),已成為一個新的研究課題。高校是教學和科研的重要基地,也是培養(yǎng)人才的重要場所,教學管理工作當中的學生成績分析是高校管理工作的一個重要組成部分,也是衡

8、量高校管理水平Clustering Technology , Students'的依據(jù)。從目前來看。各高校隨著招生規(guī)模的擴大,信息量大幅度增加,學校運行著各類管理系統(tǒng),存在著各類數(shù)據(jù)庫,如有成績管理,學籍管理等。這些系統(tǒng)積累了大量的數(shù)據(jù),在很大程度上提高了工作的效率,但在這樣的教學管理系統(tǒng)中,學校的管理人員、教師和學生都只能通過查看,或者簡單的排序以及統(tǒng)計功能來獲得數(shù)據(jù)表面的信息,由于缺乏信息意識和相應的技術,隱藏在這些大量數(shù)據(jù)中的信息一直沒有得到充分應用。如何對這些數(shù)據(jù)進行重新分析利用,在原基礎上擴充高校教學管理系統(tǒng)的功能,從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,提高學校管理的決策性,是很多高校正

9、在考慮的問題。目前將數(shù)據(jù)挖掘技術與學校學生成績分析管理系統(tǒng)相結合,通過分析和處理系統(tǒng)中大量的學生成績數(shù)據(jù), 從中挖掘潛在的規(guī)律及模式,促使學校更好地開展教學工作,提高教學質量,幫助教學管理者制定教學計劃,使學生成績管理系統(tǒng)的功能能夠更加完善。目前,在高校學生成績管理中,影響學生學習成績的因素很多,因此要進行綜合分析。傳統(tǒng)分析無非是得到均值、方差等一些簡單的分析結果,往往還是基于教學本身。其實,還有一些教學中不易察覺的因素和教學以外的因素影響學生學習成績,這些都需要進一步分析,從而得出結論,為教學管理人員及學生做出相應的 決策。1.3 研究意義利用數(shù)據(jù)挖掘聚類技術挖掘發(fā)習、數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)倉庫、

10、數(shù)據(jù) 可視化和信息檢索等技術的一個交 叉性學科。數(shù)據(jù)挖掘是數(shù)據(jù)倉庫之 上的一種應用。但是數(shù)據(jù)挖掘不限 于分析數(shù)據(jù)倉庫中的數(shù)據(jù),它執(zhí)行 關聯(lián)、分類、預測、聚類、時間序列分析等任務,而且數(shù)據(jù)挖掘應用范圍也相對較廣?,F(xiàn)課程與課程之間,或者每門課程中的知識點之間,以及學生的成績與課程的設置之間都存在著千絲萬縷的聯(lián)系。使得現(xiàn)階段已有的數(shù)據(jù)發(fā)揮其真正的價值,為了解決這一問題,可以利用數(shù)據(jù)挖掘技術對這些數(shù)據(jù)進行合理的利用和深層的分析,從而更好的指導教師在教學中的工作。2. 數(shù)據(jù)挖掘理論概述2.1 數(shù)據(jù)挖掘概述數(shù)據(jù)挖掘是集統(tǒng)計學、人工智能、模式識別、并行計算、機器學2.2 數(shù)據(jù)挖掘的過程數(shù)據(jù)挖掘是一個復雜的多

11、階段過程,如圖2.2 所示,主要可以分為如下幾個主要階段:(1) 確定挖掘對象;(2) 數(shù)據(jù)準備;數(shù)據(jù)選擇;數(shù)據(jù)預處理;數(shù)據(jù)的轉換。(3) 數(shù)據(jù)挖掘;(4) 結果分析;(5) 知識表達和解釋。圖 2.2 數(shù)據(jù)挖掘過程圖示2.3 聚類分析及K-means算法聚類分析是數(shù)據(jù)挖掘中的一個重要研究領域。聚類分析就是將一組數(shù)據(jù)分組,使其具有最大的組內(nèi)相似性和最小的組間相似性。聚類分析的算法可以分為以下幾類:劃分方法、層次方法、基于密度方法等,其中劃分方法的典型算法當推K均值算法,即K-means算法。K 均值聚類,即數(shù)據(jù)挖掘中的C均值聚類,屬于聚類分析方法中一種基本的且應用最廣泛的劃分算法。K-均值算法

12、以k為參數(shù),把N個對象分為k 個簇,以使簇內(nèi)具有較高的相似度。相似度的計算根據(jù)一個簇中對象的平均值來進行。算 法首先隨機地選擇K個對象,每個 對象初始地代表了一個簇的平均值 或中心。對剩余的每個對象根據(jù)其 與各個簇中心的距離,將它賦給最 近的簇。然后重新計算每個簇的平 均值。這個過程不斷重復,直到準 則函數(shù)收斂。K-Means算法的準則函數(shù)定義 為:k2E xxi 1 x Ci其中E是數(shù)據(jù)庫所有對象 的平方誤差的總和,x是空間中的 點,表示給定的數(shù)據(jù)對象,Xi是簇C的平均值。2.4聚類分析工具軟件(WEKAWEKA是懷卡托智能分析環(huán)境(Waikato Environment for Knowl

13、edge Analysis ),是一款免費 的,非商業(yè)化(與之對應的是 SPSS 公司商業(yè)數(shù)據(jù)挖掘產(chǎn)品 -Clementine )的,基于 JAVA環(huán) 境下開源的機器學習(Machine Learning ) 以及數(shù)據(jù)挖掘(DataMining )軟件。該軟件的縮 寫 WEKAt是 NewZealand 獨有的一 種鳥名,而WEKA勺主要開發(fā)者同時 恰好來 自 New Zealand 的the University of Waikato 。WEK蚱為一個公開的數(shù)據(jù)挖掘 工作平臺,集合了大量能承擔數(shù)據(jù) 挖掘任務的機器學習算法,包括對 數(shù)據(jù)進行預處理,分類,回歸,聚 類,關聯(lián)規(guī)則以及在新的交互式界

14、 面上的可視化。而開發(fā)者則可使用 Java語言,利用WEKA勺架構上開 發(fā)出更多的數(shù)據(jù)挖掘算法。讀者如果想自己實現(xiàn)數(shù)據(jù)挖掘算法的話, 可以看一看 WEKA的接口文檔。在 WEK中集成自己的算法甚至借鑒它 的方法自己實現(xiàn)可視化工具并不是 件很困難的事情。聚類,分類和關 聯(lián)分窗口提供對數(shù)據(jù)應用對應各類 數(shù)據(jù)挖掘算法的界面,尤其對于成 績管理系統(tǒng)中大都是數(shù)值的數(shù)據(jù)。因此,選用WEKA:具來對高校學生 成績分析能夠得到很有效的結果。3.數(shù)據(jù)挖掘實驗過程3.1 數(shù)據(jù)準備及預處理本文在數(shù)據(jù)挖掘過程當中所使用的工具是 WEKA而 WEKA所支持 的數(shù)據(jù)格式有兩種:ARFF文件和CSV文件。故將原始數(shù)據(jù) EX

15、CEL文 件轉換為ARF破CSVt件。轉換方 法為:在EXCE苗打開“MARK.xls”, 選擇菜單一 另存為,在彈出的對話 框中,文件名輸入“ Mark”,保存類 型選擇“ CSV(逗號分隔)”,保存, 便可得到“ Mark.csv ”文件。其結 果如圖3.1所示:4皿加的OMpttiirlltwk務ft-*向心期.口TLO川;呼QH 二,5IM2ib377.00“ 04,: 1. U?4.DSt u的口nr事ri nTTO電。*乳qBLO的b但。81 imoTSO.將09:l- !i.Qn pitiziao7Y n尊口口T3 0UmL妞口附P小:rr 二n o.KA 0強Q幡QTioLWZ

16、liji 門*里口骨EHO焦1 口%蛇口腳LSSB鴛目1LTKL GW 0-=-L:糖E小hi. jL1* n物。Rn oH)二 rmea.flSOQlft60ZIZDlIlZL旭口M 西口療st n房0的Q口n.u肝0*Sl二硼口圖3.1數(shù)據(jù)文件截圖打開WEK軟件的Exporler菜 單,點擊Openfile 按鈕,打開剛得 至U的“Mark.csv ”文件,點擊“Save” 按鈕,在彈出的對話框中,文件名 輸入“ Mark”,文件類型選擇“ Arff date files (*.arff) ”,這樣就得 到的數(shù)據(jù)文件為“ Mark.arff3.2 算法應用打開 WEK軟件中的Exporle

17、r , 點擊剛才得到的“Mark.arff ” , 出現(xiàn)下面的窗口,如圖3.2.1 所示:圖 3.2.1 數(shù)據(jù)分析截圖切 換 到 “ Cluster ” , 點 “Choose”按 鈕 選 擇“SimpleKmeans",這是 WEKAf3實 現(xiàn) K 均值的算法。點擊旁邊的文本框,將“ numClusters ”設置為3,把實例分成三個簇,即K=3。其他結果按默認值,如圖3.2.2 所示。圖 3.2.2 設置界面截圖3.3 結果及分析右擊左下方“Result list ”列 出 的 結 果 , 點 “ Visualize cluster assignments ”。顯示彈 出的窗口給出了各實例的散點 圖。散點圖如圖3.3 所示:圖 3.3 結果散點圖3.4 結論在 Cluster0 簇里的實例,占總實例的32%,其中男生相對較多,這類學生在分專業(yè)時選擇了硬件方向。故在以后計算機專業(yè)的學生在分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論