基于數(shù)據(jù)挖掘技術(shù)的高校實(shí)驗(yàn)室設(shè)備采購決策支持系統(tǒng)_第1頁
基于數(shù)據(jù)挖掘技術(shù)的高校實(shí)驗(yàn)室設(shè)備采購決策支持系統(tǒng)_第2頁
基于數(shù)據(jù)挖掘技術(shù)的高校實(shí)驗(yàn)室設(shè)備采購決策支持系統(tǒng)_第3頁
基于數(shù)據(jù)挖掘技術(shù)的高校實(shí)驗(yàn)室設(shè)備采購決策支持系統(tǒng)_第4頁
基于數(shù)據(jù)挖掘技術(shù)的高校實(shí)驗(yàn)室設(shè)備采購決策支持系統(tǒng)_第5頁
已閱讀5頁,還剩5頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于數(shù)據(jù)挖掘技術(shù)的高校實(shí)驗(yàn)室設(shè)備采購決策支持系統(tǒng) 引言 近年來,隨著對(duì)教育事業(yè)投入的不斷加大,以及高校資金渠道的多元化,使高校儀器設(shè)備的數(shù)量增加較快,儀器設(shè)備的層次不斷提高,為高校的教學(xué)和科研奠定了較好的物質(zhì)基礎(chǔ)。與此同時(shí),對(duì)儀器設(shè)備采購工作提出了新的挑戰(zhàn)。高校實(shí)驗(yàn)室作為儀器設(shè)備的使用和管理部門,如何做好采購工作,最大限度地保證儀器到位率,更好地為教學(xué)科研服務(wù),值得管理工作者認(rèn)真探討和思考。 高校實(shí)驗(yàn)室設(shè)備的采購是巨大的投資,需要完整的規(guī)劃。一些高校過分追求儀器設(shè)備的檔次數(shù)量,造成了儀器設(shè)備的閑置和浪費(fèi)。為了追求高檔次,棄用相對(duì)價(jià)廉的國產(chǎn)儀器設(shè)備而選用價(jià)位偏高的進(jìn)口儀器設(shè)備。有的不考慮配套使用,機(jī)械地按學(xué)生人數(shù)購買基礎(chǔ)課實(shí)驗(yàn)儀器設(shè)備,但缺乏相關(guān)配套設(shè)備,使得儀器長時(shí)間閑置。 隨著大量的采購數(shù)據(jù)被不停地收集和存儲(chǔ),許多采購人員對(duì)于如何從購買記錄中挖掘關(guān)聯(lián)規(guī)則越來越感興趣。從大量商務(wù)事務(wù)記錄中發(fā)現(xiàn)內(nèi)在的關(guān)聯(lián)關(guān)系,可以幫助許多決策的制定,這就是關(guān)聯(lián)規(guī)則。最經(jīng)典的關(guān)聯(lián)規(guī)則提取算法是Apriori算法,它是由RakeshAgrawalRama和KrishnanSkrikant提出的,其思想是利用已知的高頻數(shù)據(jù)項(xiàng)集推導(dǎo)其它高頻數(shù)據(jù)項(xiàng)集。 本文的目的在于使用Apriori算法對(duì)高校實(shí)驗(yàn)室設(shè)備采購信息進(jìn)行數(shù)據(jù)挖掘,分析出潛在的采購關(guān)系。獲得各設(shè)備之間的內(nèi)在關(guān)系,從而才采購初期就能了解到而后可能需要的其他服務(wù),通過一次性投資降低日后的維護(hù)成本,也能發(fā)現(xiàn)現(xiàn)有計(jì)劃中無關(guān)的采購,減少浪費(fèi)。 1.關(guān)聯(lián)規(guī)則與Apriori算法 a)關(guān)聯(lián)規(guī)則 關(guān)聯(lián)規(guī)則表示數(shù)據(jù)庫中一組對(duì)象之間某種關(guān)聯(lián)例如,關(guān)聯(lián)規(guī)則可以表示為“購買了項(xiàng)目A和B的人中有95%的人又買了C和D”。從這些規(guī)則可找出購買行為模式,應(yīng)用于商品貨架設(shè)計(jì)、生產(chǎn)安排、針對(duì)性的市場(chǎng)營銷活動(dòng)以及產(chǎn)品的組合銷售等。 b)Apriori算法 Apriori算法是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法。算法的核心是基于兩階段頻集思想的遞推算法。算法的基本思想是:首先找出所有的頻集,這些項(xiàng)集出現(xiàn)的頻繁性至少和預(yù)定義的最小支持度一樣;然后由頻集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小可信度;然后使用第1步找到的頻集產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項(xiàng)的所有規(guī)則,其中每一條規(guī)則的右部只有一項(xiàng),這里采用的是中規(guī)則的定義。一旦這些規(guī)則被生成,那么只有那些大于用戶給定的最小可信度的規(guī)則才被留下來。為了生成所有頻集,使用了遞推的方法。 該算法對(duì)于較少量的數(shù)據(jù)而言可以快速的發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,但也會(huì)有缺點(diǎn),Apriori可能產(chǎn)生大量的候選集,還需要重復(fù)掃描數(shù)據(jù)庫,這使得對(duì)于海量數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘變得相當(dāng)緩慢。 c)Apriori算法當(dāng)前進(jìn)展 早期的Apriori算法主要應(yīng)用于零售業(yè)的銷售分析。 后逐漸擴(kuò)展到多個(gè)領(lǐng)域: 2008年薛志強(qiáng)將Apriori算法應(yīng)用于金融時(shí)間序列分析。 2007年關(guān)鵬等將Apriori算法應(yīng)用于甲型肝炎風(fēng)險(xiǎn)預(yù)測(cè)。 2005年李炎陽等將Apriori算法應(yīng)用于對(duì)語音合成中韻律參數(shù)的預(yù)測(cè)。 目前尚無將Apriori算法應(yīng)用于高校實(shí)驗(yàn)室設(shè)備采購關(guān)聯(lián)分析的案例。 2.基于Apriori算法的實(shí)驗(yàn)室設(shè)備采購決策支持系統(tǒng) 本文采用Perl語言實(shí)現(xiàn)的Apriori算法和SQLite數(shù)據(jù)庫系統(tǒng)對(duì)高校實(shí)驗(yàn)室設(shè)備采購數(shù) 據(jù)進(jìn)行分析。 Perl是著名的腳本語言。它具有高級(jí)語言強(qiáng)大的能力和靈活性,又與其他腳本語言一樣不需要編譯器和鏈接器來運(yùn)行代碼,要做的只是寫出程序并告訴Perl來運(yùn)行而已。這意味著對(duì)于小的編程問題的,Perl是快速解決方案,對(duì)大型事件則是良好的原型和測(cè)試方案。Perl被廣泛地用于日常生活的方方面面,從宇航工程到分子生物學(xué),從數(shù)學(xué)到語言學(xué),從圖形處理到文檔處理,從數(shù)據(jù)庫操作到網(wǎng)絡(luò)管理。Perl最擅長的,就是以極簡單的代碼處理批量復(fù)雜數(shù)據(jù),同時(shí)保證代碼的可移植性。考慮到數(shù)據(jù)挖掘的主要負(fù)載位于數(shù)據(jù)庫之上,同時(shí)數(shù)據(jù)挖掘通常作為自動(dòng)化例程在異構(gòu)的系統(tǒng)中運(yùn)行和粘粘不同數(shù)據(jù)源的數(shù)據(jù),本文選擇使用Perl來實(shí)現(xiàn)Apriori算法,并使用Perl-DBI連接數(shù)據(jù)庫。 SQLite是一款輕型的數(shù)據(jù)庫,是遵守ACID的關(guān)聯(lián)式數(shù)據(jù)庫管理系統(tǒng),它的設(shè)計(jì)目標(biāo)是嵌入式的,而且目前已經(jīng)在很多嵌入式產(chǎn)品中使用了它,它占用資源非常的低,在嵌入式設(shè)備中,可能只需要幾百K的內(nèi)存就夠了。它能夠支持Windows/Linux/Unix等等主流的操作系統(tǒng),同時(shí)能夠跟很多程序語言相結(jié)合,比如Tcl、PHP、Java等,還有ODBC接口,同樣比起Mysql、PostgreSQL這兩款開源世界著名的數(shù)據(jù)庫管理系統(tǒng)來講,它的處理速度比他們都快。 以下是一個(gè)簡單的計(jì)算機(jī)實(shí)驗(yàn)室設(shè)備采購歷史記錄: 首先將上述記錄錄入數(shù)據(jù)庫,建立名為Purchases的數(shù)據(jù)表,表結(jié)構(gòu)如下: 由于SQLite是無類型數(shù)據(jù)庫,故數(shù)據(jù)表中的類型并不會(huì)被應(yīng)用于實(shí)際數(shù)據(jù)上,系統(tǒng)會(huì)在運(yùn)行時(shí)自動(dòng)決定使用哪種類型記錄,類型僅作為程序參考使用。程序首先從命令行參數(shù)中取得要分析的數(shù)據(jù)庫,關(guān)聯(lián)數(shù)量和最小支持度,并打開對(duì)應(yīng)的數(shù)據(jù)庫。代碼如下: our($opt_n,$opt_s,$opt_f); getopt('n:s:f:'); my$dbh=DBI->connect("dbi:SQLite:dbname=$opt_f",'','',{ ShowErrorStatement=>1})ordie"Cannotopen$opt_f"; 從數(shù)據(jù)庫中解析出所有商品和購買次數(shù),生成0級(jí)頻集,作為1級(jí)候選集。代碼如下: my$all=$dbh->selectall_arrayref('selectdistinctgidfromsales')ordie$dbh->errstr; my$cnt=$dbh->selectall_arrayref('selectdistincttidfromsales')ordie$dbh->errstr; @candidates=map{[$_->[0]]}@$all; return&apriori(1,scalar@$cnt,@candidates); 在此之后,根據(jù)上一級(jí)給出的Ln候選集,按照給定的最小支持度過濾出Kn頻集,通過直和生成Ln+1候選集合,并傳入下一級(jí)。代碼如下: formy$gid(@set){ my$goods=join',',(map"'$_'",@$gid); my$sup=$dbh->selectall_arrayref("selecttid,count(tid)fromsaleswheregidin($goods)groupbytidhavingcount(tid)=$level"); push(@candidates,$gid)if(scalar@$sup)/$count>=$opt_s; } $level++; return&apriori($level,$count,&cross($level,@candidates)); 當(dāng)輸入的候選集維度達(dá)到要求找出關(guān)聯(lián)的商品數(shù)時(shí),該候選集就是最終具有關(guān)聯(lián)的集合。代碼如下: printf("pass[%s]\n",join(',',@$_))for@candidates; print"Noacceptedpairs\n"unless@candidates; return; 三個(gè)支持函數(shù)用于根據(jù)當(dāng)前頻集生成下一級(jí)候選集。代碼如下: subcross{ my($level,@set)=@_; my@set2; push@set2,$_for@set; my@ret; &cross_set($level,\@set,\@set2,\@ret); return@ret; } subcross_set{ my($n,$l,$r,$res)=@_; formy$i(@$l){ formy$j(@$r){ nextunless&compar_set($i,$j)<0; my%x; $x{$_}=1for@$i; $x{$_}=1for@$j; my@todo; push@todo,$_forsortkeys%x; nextunless(scalar@todo)==$n; push@$res,\@todo; } } } subcompar_set{ my($a,$b)=@_; my$la=scalar@$a; my$lb=scalar@$b; my$l=$la<$lb?$la:$lb; my$c; for(my$i=0;$i<$l;$i++){ $c=$a->[$i]cmp$b->[$i]; return$cif$c!=0; } return$la-$lb; } 3.結(jié)果和討論 從上述規(guī)則可以初步得出結(jié)論: a)計(jì)算機(jī)、交換機(jī)和路由器三者是配套產(chǎn)品,有的采購?fù)瑫r(shí)包含了三者。 b)交換機(jī)、路由器和無線路由器三者也是配套產(chǎn)品,可以以此搭建起一個(gè)簡單的內(nèi)部 網(wǎng)絡(luò)系統(tǒng)。 c)打印機(jī)通常是單獨(dú)購買的設(shè)備。 按照上述模式,高校在采購實(shí)驗(yàn)室設(shè)備時(shí)就可以一次性將必要設(shè)施和相關(guān)配套設(shè)施全部購入,同時(shí)減少不必要的設(shè)備購買。依靠此決策系統(tǒng),高校對(duì)實(shí)驗(yàn)室設(shè)備的利用率將獲得一個(gè)提升。 同時(shí)也需要看到,由于Apriori算法引入了大量的數(shù)據(jù)庫操作,當(dāng)歷史采購信息增多時(shí),系統(tǒng)的性能會(huì)降低。這也就需要對(duì)算法本身進(jìn)行改進(jìn),其中FP-Growth算法是一個(gè)很好的研究方向。 參考文獻(xiàn) a)加強(qiáng)高校實(shí)驗(yàn)室建設(shè)與管理的思考.于振江.實(shí)驗(yàn)技術(shù)與管理.20,3,2003. b)高校實(shí)驗(yàn)室信息系統(tǒng)網(wǎng)絡(luò)化.閆瑞琴,林德忠.實(shí)驗(yàn)技術(shù)與管理.21,5,2004. c)FastAlgorithmsforMiningAssociationRules.RakeshAgrawal,RamakrishnanSrikant. VeryLargeDataBases,1994. d)PersonalizationofSupermarketProductRecommendations.SpringerNetherlands.Data MiningandKnowledgeDiscovery.5,1-2,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論