




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、應(yīng)用統(tǒng)計學(xué)課程設(shè)計報告名稱基于SPSS的信息類大學(xué)生成績的數(shù)據(jù)挖掘?qū)W 院:河南中醫(yī)信息技術(shù)學(xué)院專 業(yè):信息管理與信息系統(tǒng)班 級:信管一班日 期:(提交日期): 2014/6/12摘要數(shù)據(jù)挖掘技術(shù)是信息技術(shù)研究的熱點問題之一.目前數(shù)據(jù)挖掘技術(shù)在商業(yè)、金等方面都得到了廣泛的應(yīng)用,而在教育領(lǐng)域的應(yīng)用較少,隨著高校招生規(guī)模的擴(kuò)大,在校學(xué)生成績分布越來越復(fù)雜,除了傳統(tǒng)成績分析得到的一些結(jié)論外,還有一些不易發(fā)現(xiàn)的信息隱含其中,因而把數(shù)據(jù)挖掘技術(shù)引入到學(xué)生成績分析中,有利于針對性地提高教學(xué)質(zhì)量.聚類分析是數(shù)據(jù)挖掘中的一個重要研究領(lǐng)域。它將數(shù)據(jù)對象分成為若干個簇,使得在同一個簇中的對象比較相似,而不同簇中的對
2、象差別很大.本論文就是運(yùn)用數(shù)據(jù)挖掘中的聚類分析學(xué)生成績的,利用學(xué)生在分專業(yè)前的各主要學(xué)科的成績構(gòu)成,對數(shù)據(jù)進(jìn)行選擇,預(yù)處理,挖掘分析等。運(yùn)用聚類算法分析學(xué)生對哪個專業(yè)的強(qiáng)弱選擇,從而為具有不同成績特征的同學(xué)在專業(yè)選擇及分專業(yè)后如何開展學(xué)習(xí)提供一定的參考意見.關(guān)鍵詞 聚類分析,學(xué)生成績,就業(yè),K-means,1、 研究背景:隨著我國經(jīng)濟(jì)的發(fā)展,網(wǎng)絡(luò)已被應(yīng)用到各個行業(yè),人們對網(wǎng)絡(luò)帶來的高效率越來越重視,然而大量數(shù)據(jù)信息給人們帶來方便的同時,也隨之帶來了許多新問題,大量數(shù)據(jù)資源的背后隱藏著許多重要的信息,人們希望能對其進(jìn)行更深入的分析,以便更好地利用這些數(shù)據(jù),從中找出潛在的規(guī)律。那么,如何從大量的數(shù)
3、據(jù)中提取并發(fā)現(xiàn)有用信息以提供決策的依據(jù),已成為一個新的研究課題。 高校是教學(xué)和科研的重要基地,也是培養(yǎng)人才的重要場所,教學(xué)管理工作當(dāng)中的學(xué)生成績分析是高校管理工作的一個重要組成部分,也是衡量高校管理水平的依據(jù)。從目前來看.各高校隨著招生規(guī)模的擴(kuò)大,信息量大幅度增加,學(xué)校運(yùn)行著各類管理系統(tǒng),存在著各類數(shù)據(jù)庫,如有成績管理,學(xué)籍管理等。這些系統(tǒng)積累了大量的數(shù)據(jù),在很大程度上提高了工作的效率,但在這樣的教學(xué)管理系統(tǒng)中,學(xué)校的管理人員、教師和學(xué)生都只能通過查看,或者簡單的排序以及統(tǒng)計功能來獲得數(shù)據(jù)表面的信息,由于缺乏信息意識和相應(yīng)的技術(shù),隱藏在這些大量數(shù)據(jù)中的信息一直沒有得到充分應(yīng)用。如何對這些數(shù)據(jù)進(jìn)
4、行重新分析利用,在原基礎(chǔ)上擴(kuò)充高校教學(xué)管理系統(tǒng)的功能,從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,提高學(xué)校管理的決策性,是很多高校正在考慮的問題。因此,對學(xué)生成績數(shù)據(jù)進(jìn)行深入挖掘分析,找出影響學(xué)生學(xué)習(xí)的各種潛在的因素,將會促進(jìn)學(xué)校開展更加具有針對性的個性化教育,同時營造一種新的教學(xué)管理模式,進(jìn)一步促進(jìn)教學(xué)管理水平的提高2、 主要原理和思想:聚類分析就是將一組數(shù)據(jù)分組,使其具有最大的組內(nèi)相似性和最小的組間相似性。簡單的說就是達(dá)到不同聚類中的數(shù)據(jù)盡可能不同,而同一聚類中的數(shù)據(jù)盡可能相似,它與分類不同,分類是對于目標(biāo)數(shù)據(jù)庫中存在哪些類這一信息是知道的,所要做的就是將每一條記錄分別屬于哪一類標(biāo)記出來;而聚類是在預(yù)先不知
5、道目標(biāo)數(shù)據(jù)庫到底有多少類的情況下,希望將所有的記錄組成不同的簇或者說“聚類”,并且使得在這種分類情況下,以某種度量為標(biāo)準(zhǔn)的相似性,在同一聚類之間最小化,而在不同聚類之間最大化。事實上,聚類算法中很多算法的相似性都基于距離而且由于現(xiàn)實數(shù)據(jù)庫中數(shù)據(jù)類型的多樣性,關(guān)于如何度量兩個含有非數(shù)值型字段的記錄之間的距離的討論有很多,并提出了相應(yīng)的算法。聚類分析的算法可以分為以下幾類:劃分方法、層次方法等。2.1聚類分析原理方法:在數(shù)據(jù)挖掘技術(shù)中,聚類分析主要有以下幾種方法。 (1)劃分法(Partitioning Methods) 劃分法給定一個有N個元組或者記錄的數(shù)據(jù)集,構(gòu)造K個分組,每一個分組就代表一個
6、聚簇,K N。而且這K個分組滿足下列條件:每個組至少包括一個對象,每個對象必須屬于且只屬于一個組.對于給定的K,算法首先給出一個初始的分組方法,以后通過反復(fù)迭代的方法改變分組,使得每一次改進(jìn)之后的分組方案都較前一次好,而所謂好的標(biāo)準(zhǔn)就是:同一組中的記錄越近越好,而不同分組中的記錄越遠(yuǎn)越好。使用這個基本思想的算法有:K均值算法、K中心點算法、CLARANS算法。K均值算法一般只能在簇的平均值被定義的情況下才能被使用,這對于涉及有分類屬性的數(shù)據(jù)的應(yīng)用可能會顯得不適用,該方法不易發(fā)現(xiàn)非凸面形狀的簇和大小差別很大的簇;K中心點算法在中心點的計算過程中需要反復(fù)迭代計算,其計算量很大,這對于對象及劃分?jǐn)?shù)的
7、值較大時,其計算代價相當(dāng)高。(2)層次法(Hierarchical Methods) 層次法就是把數(shù)據(jù)庫分成多個層次,然后對不同層次的數(shù)據(jù)采用劃分聚類。輸出的是一棵層次化的分類樹,層次的方法可以分為凝聚的和分裂的.凝聚的方法也稱為自底向上的方法,一開始將每個對象作為單獨的一個組,然后相繼地合并相近的對象或組,直到所有的組合并為一個(層次的最上層),或者達(dá)到一個終止條件.分裂的方法,也稱為自頂向下的方法,一開始將所有的對象置于一個類中。在迭代的每一步中,一個類被分裂為更小的類.直到最終每個對象在單獨的一個類中,或者達(dá)到一個終止條件.3。數(shù)據(jù)情況介紹: 3。1數(shù)據(jù)信息:我院某年級學(xué)生大學(xué)四年全部實
8、際課程數(shù)據(jù),分計科、信管1、信管2三個班級 3。2數(shù)據(jù)凈化數(shù)字凈化據(jù)源中不正確,不完善等不可能達(dá)到數(shù)據(jù)挖掘質(zhì)量要求的數(shù)據(jù),從而提高數(shù)據(jù)的質(zhì)量得到更正的數(shù)據(jù)挖掘結(jié)果。研究所針對的學(xué)生成績數(shù)據(jù)中,遇到的主要是空值問題。對此,本研究采用了兩種處理 方法若該學(xué)生有三門及以上成績?yōu)榭?,則將其作為異常點從數(shù)據(jù)除去;若該生有兩門及以下課程成績?yōu)榭铡t取所在班級對應(yīng)課程的平均成績來代替空值。4。分析過程:第一步,啟動并進(jìn)入系統(tǒng),數(shù)據(jù)導(dǎo)入系統(tǒng)。第二步,進(jìn)入系統(tǒng)分析功能,在“分析”菜單“分類(F)”中選擇K-均值聚類(K)命令。第三步,在彈出的K-均值聚類分析對話框中,從對話框左側(cè)的變量列表中選擇“醫(yī)院管理學(xué),軟
9、件工程,”等變量,使之添加到右邊的變量(V)框中,聚類數(shù)寫為4,方法選為迭代與分類如下圖.第四步,單擊迭代按鈕選擇系統(tǒng)默認(rèn)值(右圖)。第五步,單擊保存按鈕選擇聚類成員(C)與聚類中心的距離(D)第六步,單擊按鈕,自動完成分析二:聚類分析結(jié)果由上圖可知信管一班54名學(xué)生分成四類類別129憂53。7類別24中7.4類別320良37類別41差1。9三:同理計科,信管二班分析結(jié)果計科:導(dǎo)入數(shù)據(jù)計科數(shù)據(jù)分析: 1。聚類成員表2。最終聚類中心表3.每個中心的案例數(shù)表由上圖可知計科72名學(xué)生分成四類類別124良33。3%類別236憂50類別31差1。4類別411中15。3信管二班導(dǎo)入數(shù)據(jù):信管二班數(shù)據(jù)分析:
10、1.聚類成員表2.最終聚類中心表3。每個中心的案例數(shù)表由上圖可知信管二班53名學(xué)生分成四類類別113中24。5類別22差3。8類別324良45。3類別414優(yōu)26。4三對三個班級進(jìn)行比較分析:信管一班優(yōu)秀率最高53.7說明該班成績較為突出,信管二班良好率45。3三班最高,說明信管二班比較穩(wěn)定,整體成績比較均勻,說明班級學(xué)風(fēng)較好。計科優(yōu)秀率,良好率基本都處于第二位,說明該班潛力較大,應(yīng)該加重對該班的重視,分類有針對性的進(jìn)行指導(dǎo)。四:對信管一班分類結(jié)果詳細(xì)分析:學(xué)生聚類后的各門課程平均成績比較分析表A第一類,B第二類,C第三類,D第四類,F(xiàn)平均值由學(xué)生譜系聚類圖及聚類后的各門課程平均成績比較分析表
11、可知如果將54名學(xué)生(1-54為學(xué)生編號)分為兩類測2,4,5,38,44屬于一組,該類總體成績較高,但是有掛科的現(xiàn)象,如果將54名學(xué)生分三類與分為四類區(qū)別不明顯,我們以分四類進(jìn)行分析,則第一類1,7,8,9,11,13,16,17,20,23,24,25,26,27,31,32,33,34,35,36,37,39,42,43,45,46,47,49,5129人課程總平均分80。7分,各門平均成績都是最高分,綜合排名都在前30屬學(xué)習(xí)成績優(yōu)秀者,第二類為3,6,10,12,14,15,18,19,21,22,28,29,30,40,41,48,50,52,53,5420人課程平均分76。5分與全
12、班總平均分78。7相差有點大,但沒有掛科的,綜合排名30至50名間,屬學(xué)習(xí)成績良好者;第三類2,5,38,444人課程總平均成績79。7分比全班總平均略高但是有掛科的行為,綜合排名在前50屬學(xué)習(xí)中等者,第四類4一人課程平均分80。5總體成績較高感覺有偏科現(xiàn)象造成排名仍在最后.分析結(jié)果:眾所周知, 高校往往依據(jù)學(xué)生綜合考試成績來評定學(xué)生優(yōu)良中差, 如果學(xué)生要想在評比中排名靠前, 如第一類學(xué)生, 就必須將有限的精力分配到所開設(shè)的各門課程中, 不論是否愿意或是否有興趣, 至少是在所開的必修課程中他們必須花費(fèi)同樣的精力去提高考試成績, 這就會造成這類學(xué)生無法有意識或沒有更多的精力來培養(yǎng)適應(yīng)社會的能力.
13、根據(jù)筆者對第一類學(xué)生的跟蹤調(diào)查, 畢業(yè)時第一類遲遲就不了業(yè)的學(xué)生占了相當(dāng)比重。為避免“高分低能", 提高學(xué)生在激烈的市場競爭中的生存與發(fā)展能力, 學(xué)校應(yīng)針對這類學(xué)生學(xué)習(xí)自覺且文化基礎(chǔ)好, 多加強(qiáng)對他們的社會實踐能力和各種技能的訓(xùn)練, 多為這類學(xué)生提供一些在課堂內(nèi)外鍛煉的機(jī)會, 發(fā)現(xiàn)他們在其他方面的優(yōu)勢, 并加以適當(dāng)?shù)匾龑?dǎo), 盡量把這類學(xué)生培養(yǎng)成通才.第三類,第四類學(xué)生在一方面比較擅長,有自己的目標(biāo)自己的專長。學(xué)校針對這類學(xué)生加強(qiáng)對其興趣愛好的引導(dǎo), 使其向?qū)2欧较虬l(fā)展, 對其不感興趣的課程應(yīng)盡量寬松對待, 使其有足夠的精力從事其努力的方向。第二類學(xué)生文化基礎(chǔ)一般, 自我管理比上述兩類
14、學(xué)生差, 學(xué)習(xí)目的不明確, 不論在課程學(xué)習(xí)還是在其他方面表現(xiàn)不積極、不突出, 付出的努力還不夠。學(xué)校針對這三類學(xué)生, 通過加強(qiáng)輔導(dǎo)員和任課教師與學(xué)生的相互交流找出其原因, 挖掘其潛力所在, 提高學(xué)生的自信心和積極性,因材施教, 努力把學(xué)生培養(yǎng)成才。一 :用對學(xué)生學(xué)習(xí)狀況進(jìn)行差異分析用對學(xué)生學(xué)習(xí)狀況進(jìn)行差異分析的步驟是:第一步,啟動并進(jìn)入系統(tǒng),數(shù)據(jù)導(dǎo)入系統(tǒng).第二步,進(jìn)入系統(tǒng)分析功能,在“”菜單“”中選擇命令。第三步,在彈出的對話框中,從對話框左側(cè)的變量列表中選擇“醫(yī)院管理學(xué),軟件工程,”等變量,使之添加到右邊的()框中.第四步,確定變量的型聚類,選擇復(fù)選框:。第五步,單擊按鈕,選擇聚類方法:類間
15、平均法,即兩類距離為兩類元素兩兩之間平均平方距離.在欄目中選皮爾遜相關(guān)系數(shù)():第六步,單擊按鈕,選中項,并選擇縱向()輸出聚類全過程()的冰柱圖。第七步,顯示凝聚狀態(tài)表:單擊按鈕,選中和項,選中中的項,并在其后文本框中輸入,顯示將變量分成類時各個變量的歸屬情況。第八步,單擊按鈕,自動完成分析過程。分析結(jié)果與建議:(一) 輸出層次聚類分析各變量的距離矩陣(見下圖)。從中可以看出各個變間的距離,并按“距離"的長短進(jìn)行分類(二)凝聚狀態(tài)表表格的第一列表示聚類分析的第幾步;第二列、第三列表示聚類中哪兩個樣本或小類聚成一類;第四列是相應(yīng)的樣本距離或小類距離;第五列、第六列表示本步聚類中,參與
16、聚類的是樣本還是小類.表示樣本,數(shù)據(jù)(非)表示由第幾步聚類產(chǎn)生的小類參與步聚類;第七列表示本步聚類的結(jié)果將在下面聚類的第幾步中用到。(二)是變量層次聚類分析聚成3個類時變量的類歸屬情況(三)對群集成員進(jìn)行總結(jié)分類并定義就業(yè)指導(dǎo)課,偏于文職嵌入系統(tǒng),概率論與數(shù)理統(tǒng)計,Web應(yīng)用開發(fā),Web數(shù)據(jù)庫應(yīng)用,操作系統(tǒng),計算機(jī)網(wǎng)絡(luò),計算機(jī)組成原理,數(shù)據(jù)接構(gòu),數(shù)據(jù)庫原理,模擬電子技術(shù),數(shù)字邏輯,電路基礎(chǔ),醫(yī)院信息系統(tǒng),JAVA程序設(shè)計基礎(chǔ),計算機(jī)網(wǎng)絡(luò)安全,匯編語言,JAVA網(wǎng)絡(luò)編程,LINUX操作系統(tǒng),職業(yè)生涯規(guī)劃,軍論,思修,毛概,馬列,體育,英語,數(shù)學(xué),醫(yī)院管理學(xué),線性代數(shù),C程序設(shè)計,計算機(jī)程序設(shè)計,
17、微機(jī)原理與接口技術(shù),軟件工程偏于工程類 計算機(jī)組裝與維護(hù)硬件方面(四)由層次聚類分析的冰柱圖(見下圖),可以非常清楚地看到各變量按類歸屬的情況.(五 )結(jié)果分析:根據(jù)上述分析所得到的三個分類以及我們分別對每個類的定義,可以看到,一類學(xué)生在“計算機(jī)組裝與維護(hù)”方面學(xué)習(xí)能力比較強(qiáng),建議了解計算機(jī)硬件的相關(guān)原理,熟悉計算機(jī)的結(jié)構(gòu), 熟練使用各種檢測和維修工具,對主板、液晶顯示器、筆記本故障進(jìn)行定位及排除的復(fù)合型技能人才為目標(biāo). 畢業(yè)后主要從事計算機(jī)硬件組裝、管理、 維護(hù)、維修等工作。具體工作包括:1.計算機(jī)維護(hù)人員; 2.機(jī)房管理員;3。硬件維護(hù)維修;4。電腦售后服務(wù);5。 維護(hù)管理硬件。 一類學(xué)生
18、具有一定的管理思想,善于指導(dǎo)可以從事管理教育培訓(xùn),因而由技術(shù)人才轉(zhuǎn)到管理類人才不失為一個很好的選擇,做一些文職。類外在一類學(xué)生,形象思維能力和動手能力較強(qiáng),他們比較適合從事本專業(yè)的工程技術(shù)工作建議他們進(jìn)一步打好基礎(chǔ),深入掌握實際中的一些技巧,以便將來能成為本專業(yè)的技術(shù)骨干和專家。網(wǎng)絡(luò)工程方向就業(yè)前景良好,學(xué)生畢業(yè)后可以到國內(nèi)外大型電信服務(wù)商、大型通信設(shè)備制造企業(yè)進(jìn)行技術(shù)開發(fā)工作,也可以到其他企事業(yè)單位從事網(wǎng)絡(luò)工程領(lǐng)域的設(shè)計、維護(hù)、等工作。 2、軟件工程方向 就業(yè)前景十分廣闊,學(xué)生畢業(yè)后可以到國內(nèi)外眾多軟件企業(yè)、國家機(jī)關(guān)以及各個大、中型企、事業(yè)單位的信息技術(shù)部門、教育部門等單位從事軟件工程領(lǐng)域的技術(shù)開發(fā)、科研等工作。也可以繼續(xù)攻讀計算機(jī)科學(xué)與技術(shù)類專業(yè)研究生和軟件工程碩士。 3、通信方向 學(xué)生畢業(yè)后可到信息產(chǎn)業(yè)、財政、金融、郵電、交通、國防、大專院校和科研機(jī)構(gòu)從事通信技術(shù)和電
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 化妝品行業(yè)市場現(xiàn)狀及消費(fèi)者行為分析報告
- 長春金融高等??茖W(xué)?!豆こ涛锢怼?023-2024學(xué)年第一學(xué)期期末試卷
- 重慶商務(wù)職業(yè)學(xué)院《住宅室內(nèi)設(shè)計》2023-2024學(xué)年第一學(xué)期期末試卷
- 山西國際商務(wù)職業(yè)學(xué)院《視唱與聲樂(一)》2023-2024學(xué)年第一學(xué)期期末試卷
- 東北農(nóng)業(yè)大學(xué)《鋼琴即興伴奏二》2023-2024學(xué)年第一學(xué)期期末試卷
- 珠??萍紝W(xué)院《外國文學(xué)I》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年制造業(yè)綠色供應(yīng)鏈與綠色供應(yīng)鏈管理信息化技術(shù)應(yīng)用案例研究報告
- 2025年制造業(yè)供應(yīng)鏈數(shù)字化協(xié)同管理對產(chǎn)業(yè)升級的推動作用分析
- 評價技術(shù)應(yīng)用創(chuàng)新-洞察及研究
- 電氣基本控制線路安裝與維修課件:并勵直流電動機(jī)基本控制線路的安裝與檢修
- 國家開放大學(xué)本科《管理英語4》一平臺機(jī)考真題及答案(第六套)
- 2024年廣東省中考生物試卷附答案
- 合肥市瑤海區(qū)2022-2023學(xué)年七年級下學(xué)期期中歷史試題【帶答案】
- 一年級下冊口算題卡大全(口算練習(xí)題50套直接打印版)
- 2022-2023學(xué)年涼山彝族自治州數(shù)學(xué)三年級下冊期末考試試題含答案
- (高清版)JTG 5421-2018 公路瀝青路面養(yǎng)護(hù)設(shè)計規(guī)范
- 2022衢州醫(yī)學(xué)檢驗考編真題
- 0號柴油安全技術(shù)說明書SDS
- 熱療在婦科疾病治療中的效果
- 新中國史智慧樹知到期末考試答案2024年
- MOOC 創(chuàng)新管理-浙江大學(xué) 中國大學(xué)慕課答案
評論
0/150
提交評論