數(shù)據(jù)挖掘在實際生活中的應用_第1頁
數(shù)據(jù)挖掘在實際生活中的應用_第2頁
數(shù)據(jù)挖掘在實際生活中的應用_第3頁
數(shù)據(jù)挖掘在實際生活中的應用_第4頁
數(shù)據(jù)挖掘在實際生活中的應用_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

數(shù)據(jù)挖掘在學生學習成績中的應用小組成員:說明由于我們小組分析的是上一學年我們計商兩個班級的學習成績與獎學金獲得情況,因此涉及到了學生的一些個人信息。我們小組全體成員一致承諾:我們獲得的數(shù)據(jù)(通過輔導員老師獲得)僅用于本門課程的數(shù)據(jù)分析所用,對大家的姓名、學號、成績等敏感信息已做過處理,保證大家的隱私不被泄露。希望各位能夠予以理解!選題背景近年來,隨著高校的不斷擴招,學生人數(shù)大幅增加,給高校學生管理、教學工作帶來了嚴峻考驗。傳統(tǒng)的教學管理手段已經(jīng)不能滿足高校的快速發(fā)展?,F(xiàn)階段許多高校對學生的成績、學生的信息基本還停留在傳統(tǒng)的、簡單的數(shù)據(jù)庫管理和查詢階段,不能發(fā)揮其應有的作用。就以學生成績?yōu)槔?,教師對學生的成績知識做一個簡單的優(yōu)、良、中、差的考核,并不考慮影響學生學習成績的因素,有些可能是主觀因素,有些可能是客觀因素。如果某些客觀因素比如學習環(huán)境、師資力量等不能很好地解決,將嚴重影響學生的學習成績,制約學生的發(fā)展,而且嚴重阻礙了學校教育教學發(fā)展的腳步。因此,通過數(shù)據(jù)挖掘等技術理性的分析學生成績等關鍵信息,提高教學質(zhì)量與水平,是廣大師生最關心的問題之一。數(shù)據(jù)挖掘數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD),是從大量數(shù)據(jù)中尋找其規(guī)律的技術,是統(tǒng)計學、數(shù)據(jù)庫技術和人工智能技術的綜合。數(shù)據(jù)挖掘的任務是從大量的數(shù)據(jù)中發(fā)現(xiàn)對決策有用的知識,發(fā)現(xiàn)數(shù)據(jù)特性以及數(shù)據(jù)之間的關系。利用貝葉斯分類器分析獎學金概率問題獎學金作為一種激勵機制,在人才培養(yǎng)過程中發(fā)揮非常重要的導向作用,其目的是為了引導和鼓勵學生刻苦學習、奮發(fā)向上,促進學生全面素質(zhì)提高和個性健康發(fā)展。為了了解我們計商兩個班級上一學年獎學金獲得情況,進而考評上一學年我們電子商務系教學成果以及各位同學的學習成績情況,我們小組利用貝葉斯分類器的方法進行了分析。貝葉斯分類器的分類原理:貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。貝葉斯公式:p(X,Y)=p(Y|X)p(X)=p(X|Y)p(Y)變換式:P(YP(X 1Y)p(Y)IX)P(X)其中,X和Y在分類中可以分別表示樣本的屬性集合類別。p(X,Y)表示他們的聯(lián)合概率,p(X|Y)和p(Y|X)表示條件概率,p(Y|X)是后驗概率,p(Y)稱為Y的先驗概率。已知通過輔導員老師獲得2012-2013學年計商兩個班級學生獎學金獲得情況統(tǒng)計數(shù)據(jù)如表1和表2所示:1如巧2013學年I■淘笫二I叩大學計算機與信息學院10計商質(zhì)曲獎學金披油?清祝統(tǒng)計志2-2班級姓名測評總分茨空美級困同等級31算機與信息學院101Wal學號1學生137.1?1丙<hb-十算H巧信息學院十耳卜.]=倍冷子院Jutlui-j成」7^2學號盤學生二-汩I36.3536.0722甲丙6R十度機與信息學院學生436.932Tn算機與信息學院mi:C.3E3£1算機與信息學院10i商虹學號巳35.063§h十算H巧信息學院Jut學a34.1163LU-十聳科與信電辛浣lui-j學號廿*34.39q■11十算機與信息學院34.18i12宣機與信息學院mi學號W學生1CI33.90i131算機與信島學院10i商虹學『1M三」4141十算卜1巧信息學院Jut學皆目33.2711Lb-十苴科=信巳幸阮lui-j學*;以:H32.50q16n十算機與信息學院10H司廠學號L4^=■432.50Z.:?n算機與信息學院mi司,:學號站圣三K31.52甲IS1算機與信島學院101商虹學與預M三:A.節(jié)丙L9h十算H巧信息學院Jut學E孑二*30.ilD丙土-十堂柘馬仁部旱E*101-j岸530.40丙21n十或機與信息學院mH-商A1學號L9—■='=)m買丙22|算機與信息學院mi命:彳生小芋三28.79丙2?算機與信島學院101Wal學字1M三也28.7?丙2'J1十算臨信息學院lutj-有妃^-■<-2228.65表1A1班獎學金獲得情況120122013學年上件海第二工業(yè)大學計算機與信息學院3計商庭班獎學金獲得情況統(tǒng)計表2學院班級學號測評總分獲炎等級國推等級3T三身'宇院-〔川學號1姓名]沮LJ14卜算膺,m息字院項il字號。婦Z6.CO2S算機u宣息學10t商提學號3咤3:5,:03G61-具機與,言皂學IGt-商厘學號1吃,135.0937■1T-尋機頃m息學學號F姓名E35.023X1言息學E學號5姓名834.3S39宣息學院10^商占2學號ri-匕名TS4.81310T-異機與履息學LOT-商赧學號g34.67311■i1-具機與,言邑寧學號勺:4,412i-其擔與,m息學院學號N姓名1034.254A1.37-算機與言息學luH學號L1咤112,比4614算機與,m息學lot商位學號L2匕名1234.044Pj■lT-算機與,履息孝10t-加學號L3匕名1333.62416■.1-具機頃e息學卜泓3學號N32.9241"T卜算機馬,言息學:(IT學號住姓名15京心418i卜算帕4言息學院lut-商&2學號"i_E51.S7表2A2班獎學金獲得情況已知A1班總人數(shù)39,由表1可看出獲得獎學金人數(shù)為22,獲得獎學金的概率約為0.56已知A2班總人數(shù)36,由表2可看出獲得獎學金人數(shù)16,獲得獎學金的概率約為0.44A1、A2兩個班級總人數(shù)為75,獎學金獲得者38人,其中A1班占獎學金獲得者的比例為58%,A2班占獎學金獲得者總人數(shù)的比例為42%。.根據(jù)以上數(shù)據(jù)可以得到獎學金獲得概率及獲獎人數(shù)占兩個班級獲獎總人數(shù)的比例,如表3所示:班級獎學金概率獲獎人數(shù)占兩個班級獲獎總人數(shù)的比例10計商A10.5658%10計商A20.4442%表3獎學金獲得概率及所占比例通過以上數(shù)據(jù),我們解決以下兩個問題:(1) 隨機從兩個班級中選出一個學生是獎學金獲得者的概率是多少?(2) 隨機從兩個班級中選出一個學生,已知該學生是獎學金獲得者,則此學生來自哪個班級的可能性最大?假設X表示“選出的一個學生是獎學金獲得者”,Y=i,(i=10計商A1,10計商A2)表示“選出的學生是來自班級i”,則問題就轉換為求解p(X)與p(Y=ilX)。由表3得到后驗概率為:P(XIY=10計商A1)=0.56,P(XIY=10計商A2)=0.44先驗概率為:P(Y=10計商A1)=58%,P(Y=10計商A2)=42%由全概率計算公式得出:P(X)=P(XIY=10計商A1)P(Y=10計商A1)+P(XIY=10計商A2)P(Y=10計商A2)=0.56*0.58+0.44*0.42=0.3248+0.1848=0.5096因此,隨機從兩個班級中選出一個學生是獎學金獲得者的概率是0.5096o卜面我們求解p(Y=i|X),根據(jù)貝葉斯定理可得:P(XIY=i)p(Y=i)P(Y=iIX)=P(X)由公式①可以計算出該獲獎學生來自10計商A1班級的概率為:p(Y=10計商A1IX)=P(XIY=10計商A1)P(Y=10計商A1)0.56*0.58八= =0.640.5096同理可得,該獲獎學生來自10計商A2班級的概率為:p(Y=10計商A2IX)=P(X1Y=10計商^2)P(Y=1。計商>2)0.44*0.42= =0.360.5096通過以上分析計算不難得出結論:隨機從兩個班級中選出一個學生,已知該學生是獎學金獲得者,則此學生來自10計商A1班級的可能性最大。聚類分析中的k-means算法在學生獎學金等級劃分中的應用k-means算法是常見的基于劃分的聚類方法,其中相異度基于對象與類中心(簇中心)的距離計算,與簇中心距離最近的對象可以劃分為一個簇。此算法的目標是每個對象與簇中心距離的平方和最小。根據(jù)對獎學金獲得者學生的學習情況分析可知:獲獎等級與該學生平時去圖書館的次數(shù)、平時上課遲到次數(shù)、上課座位前后、參加競賽次數(shù)、宿舍評分等因素有關。比如,圖書館能為同學們提供安靜的、舒適的學習環(huán)境,同時能夠提高學生學習的自覺性,因此常去圖書館的同學學習成績一般都比很少去圖書館學生學習成績要好,相應的拿到獎學金的概率越大,拿到獎學金的等級也越高。其他因素類似,這里不一一詳細用文字來描述。首先定義五個變量(每學期均按16周計算):氣:一學期去圖書館次數(shù)(每周按七天計算,上限112次)X2:一學期遲到次數(shù)(每周按四天計算,上限64次)X3:一學期座位在前排次數(shù)(每周按四天計算,上限64次)X4:一學期參加各類競賽次數(shù)(每學期上限5次)X5:一學期宿舍平均評分(上限20分)根據(jù)獎學金獲得者獲獎等級情況分析可知,能夠拿到一等及以上獎學金的指標為:X:96-112;x2:0-2;x3:60-64;X4:3-5;X5:19.5-20學生X1X2X3X4X51112160119.52106364219.5334348119.5485264119590162018.5656139120727452118.5873053118910719117表4根據(jù)不同獲獎等級選取的學生信息在以上給定的9個樣本中選擇3個樣本:1號樣本代表能夠拿到一等及以上獎學金6號樣本代表能夠拿到非一等及以上獎學金9號樣本代表不能夠拿到獎學金計算每一個樣本與這三個樣本的距離:d2,6d2,9d3,1d3,6d3,9d4,1d4,6d4,9d5,1d5,6d5,9d7,1106-56106-1034-112+3-1+64-39+3-7+64-19+3-134-56+3-134-10+d2,6d2,9d3,1d3,6d3,9d4,1d4,6d4,9d5,1d5,6d5,9d7,1106-56106-1034-112+3-1+64-39+3-7+64-19+3-134-56+3-134-10+3-785-112+2-185-5685-1090-11290-5690-1027-112+2-11-11-11-7+48-60+48-39+48-19+2-1++2-1++1-1++1-1++1-1++64-60+1-1+19.5-20=78.519.5-17=148.519.5-19.5=9219.5-20=33.519.5-17=59.519-19.5=32.5+64-39+1-1+19-20+64-19+62-60+62-394-1+=5662-19+1-1++0-1++0-1++0-1+52-60+1-1+19-17=12718.5-19.518.5-2018.5-1718.5-19.52659.5131.5=972,1|106-112+3-1+64-60+2-1+19.5-19.5〔=132,1d76=127-10〔+〔4-7〔+〔52-39〔+|1-1|+|18.5-20|=46.5d79=127-10〔+〔4-7〔+〔52-19〔+|1-1|+|18.5-17|=54.5d8,1〔73—112〔+0-1+53-60+1-1+|18—19.5d8,1d8,6=I73-56l+I0-11+I53-39l+RI+I18-20|=34dQ°=73-10+0-7+53-19+1-1+18-17=1058,9 1第一次聚類結果:學生與學生1的距離與學生6的距離與學生9的距離10--21378.5148.539233.559.5432.55612752659.5131.56-0-79746.554.5848.5341059--0表5第一次聚類結果把以上距離最小的樣本歸入相應的類:根據(jù)第一次聚類結果數(shù)據(jù)不難看出,樣本1、2、4、5、8幾組數(shù)據(jù)比較接近,樣本3、6、7數(shù)據(jù)比較接近。因此,將以上樣本劃分為三類。第一類由樣本1、2、4、5、8組成,第二類由樣本3、6、7組成,第三類由樣本9組成。第一類:X1=(112+106+85+90+73)/5=93.2X2=(1+3+2+1+0)/5=1.4X3=(60+64+64+62+53)/5=60.6X4=(1+2+1+0+1)/5=1X5=(19.5+19.5+19+18.5+18)/5=18.9

第二類:氣二(34+56+27)/3=39X2=(3+1+4)/3=2.7X3=(48+39+52)/3=46.3X4=(1+1+1)/3=1X5=(19.5+20+18.5)/3=19.3第三類:氣=10X2=7X3=19氣=1X5=17新的樣本中心新中心x1x2x3x4x5第一類93.21.460.6118.9第二類392.746.3119.3第三類10719117表6新的樣本中心第二次聚類:學生2與新樣本的距離:2,1=|106-93.2〔+〔3—1.』+〔64-60.6〔+|1—1|+|19.5—18.9〔=18.42,1=106-39|+〔3-2.7〔+〔64-46.3〔+|1-1|+|19.5-19.3〔=83.2

2,3106-10+〔7-7+64-19+1—1+19.5-17=143.52,3學生3與新樣本的距離:d =|34-93.2|+|3-1.4|+148-60.6|+1-1|+119.5-18.9|=743,1d3,2=34-39|+3-2.71+|48-46.3|+11-1|+卜9.5-19.3|=d3,2卜=34-10+3-7+48-19+1-1+19.5-17=59.53,3 rr學生4與新樣本的距離:d =|85-93.2|+12-1.4|+164-60.6|+11-1|+119-18.9|=12.34,1d =|85-391+|2-2.7|+|64-46.3|+1-1|+119-19.3|=64.44,2d =|85-10|+12-7|+164-19|+|1-1|+畛-17|=1274,3學生5與新樣本的距離:d =p0-93.2|+1-1.4|+162-60.6|+10-1|+118.5-18.9|=6.4551d =|90-39|+11-2.7|+162-46.3|+10-1|+118.5-19.3|=70.25,2d53=|90-10|+11-^+162-191+|0-1|+118.5-17|=131.5學生7與新樣本的距離:d71=〔27-93.2+"-1.』+〔52-60.6〔+|1-1|+|18.5-18.9〔=76.6d72=〔27-39〔+〔4-2.7〔+〔53-46.3〔+|1-1|+|18.5-19.3〔=19.8d73=27-10+4-7+52-19+1-1+18.5-17=54.5學生8與新樣本的距離:d81d81〔73-93.2〔+|。-1.4〔+〔53-60.6〔+|1-1|+|18.9-18=30.1d82=〔73-39〔+〔0-2.7〔+|53-46』+|1-1|+|18.9-19.3〔=43.8d83=73-10+0-7+53—19〔+1—1+|18.9—17|=105.9第二次聚類結果:學生與第一類的距離與第二類的距離與第三類的距離10--218.483.2143.53747.259.5412.364.412756.470.2131.56-0-776.619.854.5830.143.8105.99--0表7第二次聚類結果觀察以上部分計算結果,第二次聚類和第一次聚類結果相同(其余計算部分省略),即第一類還是由樣本1,2,4,5,8組成,第二類由樣本3,6,7組成,第三類由樣本9組成。此時整個聚類過程結束。綜上計算分析得出結論:第一類為最有可能拿到一等及以上獎學金,第二類為可能拿到非一等及以上獎學金,第三類為拿不到獎學金者。小組成員分工情況姓名工作任務A主題選定,參與討論,數(shù)據(jù)計算錄入B主題選定,參與討論,PPT制作C主題選定,參與討論,內(nèi)容修改D主題選定,參與討論,數(shù)據(jù)計算錄入E主題選定,參與討論,PPT制作、講解(組長)組織討論,主題選定,數(shù)據(jù)處理,內(nèi)容策劃,文檔撰寫小組成員學習感言:(組長):經(jīng)過一學期《商務智能》這門課程的學習,使我們從剛開始對商務智能、數(shù)據(jù)挖掘概念的學習,到后來利用數(shù)據(jù)挖掘的一些方法去分析足球隊成員的組成情況、加上最后兩周上機實驗的練習以及最終的期末大作業(yè),使我們對數(shù)據(jù)挖掘有了一個更深層次的了解并能夠利用它進行一些實際問題的分析與解決。在整個學習過程中,雖然我們小組有幾名同學在實習,但是有問題時我們還會通過網(wǎng)絡、電話、郵件等方式一起進行討論,一起完成任務。A:通過這學期對商務智能這門課程的學習,我了解到了如何對目標對象進行數(shù)據(jù)挖掘和利用貝葉斯分類器分析問題等。這學期的學習還包括了很多商務智能相關的技術以及軟件的運用,使自己受益良多,讓我的商務智能相關技術知識豐富了不少,也提高了我的軟件操作能力,利用數(shù)據(jù)之間的聯(lián)系,可以找出數(shù)據(jù)之外的隱含信息,對于我來說,這種能力至關重要,在以后走向社會時,有一個別人不會的技能,增加了自己的競爭力。感謝小組成員的密切配合,讓我們可以把小組作業(yè)的工作順利的完成。B:通過這學期對商務智能這門課程的學習,我了解到如何對目標對象進行數(shù)據(jù)挖掘和利用貝葉斯分類器分析問題等知識。在這次的小組作業(yè)中我們在選定了學生成績分析,但是設計到理論和計算的時也非常仔細,組長組織大家討論選定了題目后按照步驟進行計算,完成文章后大家進行修改和討論,我制作了PPT。上完這門課后我對商務智能的概念、商務智能的應用、數(shù)據(jù)挖掘的概念、聚類分析等又有了一個新的認識,之前上課沒聽懂的知識點通過這次作業(yè)弄明白了。C:在這次的小組作業(yè)中我們在選定了貼近生活的成績

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論