版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于知識依賴度約簡的知識發(fā)現(xiàn)研究 摘要:粗糙集理論中的屬性約簡問題屬于np難問題。以教育技術(shù)學(xué)專業(yè)讀者2013學(xué)年度圖書借閱歷史數(shù)據(jù)為原型,采用借閱類目的次數(shù)多少作為屬性重要度進(jìn)行啟發(fā)式選擇,利用粗糙集理論中的知識依賴度對類目約簡,挖掘出本專業(yè)和各年級借閱類目的核心集,并經(jīng)問卷調(diào)查證明其規(guī)律的正確性。通過與教育技術(shù)學(xué)專業(yè)學(xué)科知識體系結(jié)構(gòu)的比較,能夠發(fā)現(xiàn)學(xué)科知識體系結(jié)構(gòu)建設(shè)的不足之處,以促進(jìn)其更科學(xué)完善。 關(guān)鍵詞:粗糙集;知識依賴度;數(shù)據(jù)挖掘;知識發(fā)現(xiàn) doidoi:10.11907/rjdk.143896 中圖分類號:tp391 文獻(xiàn)標(biāo)識碼:a 文章編號 文章編號:16727800(2015)
2、006013503 基金項(xiàng)目基金項(xiàng)目:安徽省高等學(xué)校圖書情報(bào)工作委員會基金項(xiàng)目(tgw13b08) 作者簡介作者簡介:李化明(1974-),男,江西東鄉(xiāng)人,碩士,淮北師范大學(xué)圖書館館員,研究方向?yàn)閿?shù)字圖書館、讀者服務(wù)。 0 引言 高校圖書館自動化建設(shè)經(jīng)過多年發(fā)展,已經(jīng)積累了大量歷史數(shù)據(jù),這些數(shù)據(jù)不但完整,而且質(zhì)量高,充分反映了讀者學(xué)習(xí)成長的過程。如何對其進(jìn)行挖掘提煉并從中發(fā)現(xiàn)有價(jià)值的知識,是了解讀者需要、開展知識推送服務(wù)的重要信息來源。前人研究主要是根據(jù)讀者的借閱歷史數(shù)據(jù),利用關(guān)聯(lián)規(guī)則算法發(fā)現(xiàn)某類書籍之間的關(guān)聯(lián)規(guī)則14,或利用聚類算法挖掘具有共同閱讀興趣的讀者群體5,以及通過時(shí)間流分析得到讀者
3、借閱時(shí)間的分布規(guī)律6等。也可以利用粗糙集進(jìn)行挖掘。例如,柳炳祥等7只是介紹有關(guān)理論,文章中并沒有對粗造集挖掘進(jìn)行深入闡述。這些挖掘結(jié)果往往只是反映讀者已往的借閱規(guī)律,而不能反映其當(dāng)前和今后一段時(shí)間的真實(shí)需要,因?yàn)檫@些讀者還需要不斷地進(jìn)行知識更新和深化學(xué)習(xí)。本文通過對教育技術(shù)學(xué)專業(yè)讀者群進(jìn)行數(shù)據(jù)挖掘,利用知識依賴度約簡方法發(fā)現(xiàn)其學(xué)科知識體系結(jié)構(gòu),并通過與相關(guān)專業(yè)的知識體系結(jié)構(gòu)建設(shè)進(jìn)行比較,以發(fā)現(xiàn)建設(shè)中的不足之處。如果利用所得的知識庫進(jìn)行推送服務(wù),則能把讀者真正需要的知識推送給他們。 1 粗造集有關(guān)理論 粗糙集理論認(rèn)為“知識是一種對對象進(jìn)行分類的能力”,它將分類理解為在特定空間上的等價(jià)關(guān)系,而等價(jià)
4、關(guān)系構(gòu)成了對該空間的劃分8。 定義1(論域、知識):設(shè)u 是感興趣的對象組成的非空有限集合,稱為一個(gè)論域。論域u 上的任一子集xu,稱為論域u 的一個(gè)概念或范疇。論域u 中的任何子集簇(概念簇)稱為關(guān)于u 的抽象知識,簡稱知識9。在二維表中,知識是由某些列對所有行的劃分構(gòu)成的集合所表示。 定義2(知識庫):給定一個(gè)論域u 和u上的一簇等價(jià)關(guān)系s,稱二元組k=(u,s)是關(guān)于論域u 的一個(gè)知識庫或近似空間。因此,論域上的等價(jià)關(guān)系即代表著劃分和知識。這樣,知識庫就表示了論域上由等價(jià)關(guān)系導(dǎo)出的各種知識,即劃分或分類模式,同時(shí)代表了對論域的分類能力,并隱含著知識庫中概念之間存在的各種關(guān)系9。 定義3(
5、不可分辨關(guān)系):給定一個(gè)論域u 和u上的一簇等價(jià)關(guān)系s,若ps,且p,則p(p中所有等價(jià)關(guān)系的交集)仍然是論域u 上的一個(gè)等價(jià)關(guān)系,稱為p上的一個(gè)不可分辨關(guān)系,記作ind(p)。ind(p)的等價(jià)類稱為知識p的基本范疇9。 2 知識發(fā)現(xiàn) 2.1 樣本數(shù)據(jù)選取 本研究以教育技術(shù)學(xué)專業(yè)學(xué)生作為研究原型,經(jīng)統(tǒng)計(jì),教育技術(shù)學(xué)專業(yè)自2008年以來每年招收1個(gè)班學(xué)生,系統(tǒng)有2008年以來的所有借閱歷史記錄,符合研究要求。為了簡化樣本數(shù)據(jù),選擇2013學(xué)年度(20132252014119日)教育技術(shù)學(xué)專業(yè)20102013級學(xué)生借閱歷史數(shù)據(jù)作為研究對象(即大一至大四學(xué)生),借閱情況統(tǒng)計(jì)數(shù)據(jù)如表1所示。 2.2
6、 數(shù)據(jù)預(yù)處理 在進(jìn)行數(shù)據(jù)挖掘之前,需要對數(shù)據(jù)進(jìn)行去噪、補(bǔ)缺和轉(zhuǎn)換等預(yù)處理操作。數(shù)據(jù)預(yù)處理步驟如下:根據(jù)年級、專業(yè)代碼和時(shí)間段獲取讀者借閱歷史記錄,并通過匯總獲得借閱圖書的人數(shù)、未借閱人數(shù)和總借閱冊數(shù);去除借閱書目的種次號,得到借閱類目,匯總后得到借閱類目數(shù)。由于中圖法是通過標(biāo)記符號代表各級類目和固定先后次序的分類體系,標(biāo)記符號不同,其表示的知識類目也不同,故不能把相近類目合并為一類;按類目進(jìn)行匯總,求得各類目借閱冊數(shù)和所有類目的平均借閱冊數(shù),并刪除低于平均借閱冊數(shù)的類目,因?yàn)槠浔憩F(xiàn)的只是某個(gè)學(xué)生的個(gè)人愛好,不是大家共同學(xué)習(xí)的知識,相當(dāng)于噪音數(shù)據(jù);求出借過大于平均借閱冊數(shù)類目的所有讀者,這些讀者
7、即是進(jìn)行知識約簡的對象;生成上述讀者對象和其借閱類目的二維表,并對表中數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,如果此讀者借過該類目書籍則為1,否則為0。類目列按類目總借閱冊數(shù)降序添加到表中。 2.3 知識約簡 經(jīng)過上面的數(shù)據(jù)預(yù)處理后,得到了知識庫的關(guān)系簇s 和論域u,即不小于平均借閱冊數(shù)的類目和借閱這些類目的讀者。然而,即使經(jīng)過上述預(yù)處理后,其約簡的類目數(shù)還有幾十種;如果直接利用知識依賴度(定義5)來約簡,其需要計(jì)算的次數(shù)為m*logm*2n(m是讀者數(shù),n是類目數(shù)),這是指數(shù)級時(shí)間復(fù)雜度,需要消耗大量計(jì)算時(shí)間。為了得到多項(xiàng)式時(shí)間算法,采用以類目借閱的冊數(shù)多少作為屬性重要度的啟發(fā)式策略,應(yīng)用知識依賴度來約簡二維表,
8、具體算法如下: (1)置k=,r=;/ k表示約簡后得到的知識,r表示臨時(shí)約簡知識 /如果單個(gè)知識把論域全覆蓋則作為約簡知識放入k中 (2)for r0=1 to count(類目) do 取出count(r0)類目i,計(jì)算其劃分。 如果i全覆蓋論域u ,則把i并入k中;否則,退出循環(huán)。 (3)把i并入r中。 /計(jì)算剩下的類目依賴關(guān)系 (4)for r1=r0+1 to count(類目) do 取出count(r1)類目q,根據(jù)類目q求其對論域u 的劃分。 根據(jù)r中的知識求其對論域u 的劃分。 利用知識依賴度公式,求q對r的知識依賴度;如果小于0.5,則把q并入r中,否則認(rèn)為知識q歸屬于r而
9、被約簡掉。 (5)k=kr,并退出。 /即k就是所求的約簡集合 此算法不能保證所有結(jié)果最優(yōu),但近似最優(yōu)值。對教育技術(shù)學(xué)專業(yè)2013學(xué)年度的知識約簡后的結(jié)果見表1“類目選擇”列,這里按屬性重要度(借閱冊次多少)列出了前面56個(gè)約簡后得到的類目(知識集合)。然后對各年級約簡的類目掃描一遍,根據(jù)類目的位置和重復(fù)度多少,即可得到本專業(yè)的核心知識,即:tp391.41、i247.5為專業(yè)核心知識集。約簡后一些主要類目借閱冊數(shù)如表2所示。 2.4 結(jié)果分析 在表2中如果各約簡后的主要類目借閱冊數(shù)相差懸殊不大,則說明讀者不了解專業(yè)知識結(jié)構(gòu),而是根據(jù)個(gè)人的興趣愛好進(jìn)行借閱;若相反,則表明其專業(yè)知識結(jié)構(gòu)明確,借
10、閱的針對性和目的性非常強(qiáng)。例如,表2中大一學(xué)生(2013年級)借閱tp391.41為14冊,g40-057為6冊,對應(yīng)的表1中的幾個(gè)主要借閱類目之間的最大比例是14/62.3倍,這說明他們除了學(xué)習(xí)專業(yè)技術(shù)知識外,還閱讀“i247.57 社會、言情小說”、“i561 英國文學(xué)”等書籍,閱讀內(nèi)容涉及面較寬,不了解專業(yè)知識體系結(jié)構(gòu);大二學(xué)生(2012年級)借閱tp391.41為69冊,j06為7冊,幾個(gè)主要借閱類目之間的最大比例是69/79.9倍,這顯示他們初步抓住了專業(yè)知識體系結(jié)構(gòu),閱讀內(nèi)容較為集中;而大三、大四的學(xué)生幾個(gè)主要借閱類目之間的最大比例12倍,表明他們主攻專業(yè)技術(shù)知識“tp391.41
11、圖像識別及其裝置”、“tp393.092網(wǎng)絡(luò)瀏覽器”,學(xué)習(xí)目標(biāo)非常明確。 另外還可以看到,“i247.5新體長篇、中篇小說” 一直是讀者熱衷的書籍,但在教育技術(shù)學(xué)專業(yè)人才培養(yǎng)方案(2013)13中則沒有反映出來,該專業(yè)主要課程包括:教育技術(shù)學(xué)導(dǎo)論、心理學(xué)、教學(xué)系統(tǒng)設(shè)計(jì)、遠(yuǎn)程教育基礎(chǔ)、電視教材設(shè)計(jì)與制作、教育媒體理論、教育技術(shù)學(xué)研究方法、中學(xué)信息技術(shù)課程教學(xué)設(shè)計(jì)。并且從表2中還能看出,一些專業(yè)基礎(chǔ)理論知識例如“j06 造型藝術(shù)理論”、“g40-057 教育技術(shù)學(xué)”,主要是由大一、大二學(xué)生借閱,而且數(shù)量都不大。這表明學(xué)科體系結(jié)構(gòu)中相關(guān)基礎(chǔ)理論課程設(shè)置較合理,基本滿足學(xué)習(xí)者需要;相反,“tp393.
12、092 網(wǎng)絡(luò)瀏覽器”在大三、大四學(xué)生借閱量中卻驟然增加,這反映了教育技術(shù)學(xué)專業(yè)學(xué)生更需要這方面的知識和技能,也說明該課程在學(xué)科體系結(jié)構(gòu)中的重要性,以及體系結(jié)構(gòu)設(shè)置的不合理性。 因此,通過對相關(guān)數(shù)據(jù)的分析,給出如下建議:給大一、大二學(xué)生適當(dāng)介紹本學(xué)科知識體系結(jié)構(gòu),使其開始就明確學(xué)習(xí)目標(biāo)、方向和內(nèi)容組成;通過與教育學(xué)院教師交流發(fā)現(xiàn),學(xué)院已開設(shè)學(xué)科導(dǎo)論課程,但效果不夠理想。因此,對于開設(shè)學(xué)科導(dǎo)論課的院系,需要扎實(shí)推進(jìn)本導(dǎo)制,發(fā)揮其引導(dǎo)作用;深入研究小說等文學(xué)類與教育技術(shù)學(xué)專業(yè)之間的內(nèi)在關(guān)系,將其納入學(xué)科體系結(jié)構(gòu)中,完善學(xué)科知識體系結(jié)構(gòu)建設(shè);在低年級中適當(dāng)開設(shè)“tp393.092 網(wǎng)絡(luò)瀏覽器”課程,做
13、好相關(guān)理論基礎(chǔ)知識鋪墊,使學(xué)科知識結(jié)構(gòu)布局更加合理。 3 知識驗(yàn)證 為了驗(yàn)證以上發(fā)現(xiàn)的知識規(guī)律是否正確,對20112013級教育技術(shù)學(xué)專業(yè)讀者進(jìn)行問卷調(diào)查。問卷內(nèi)容主要是根據(jù)表2約簡后得到的幾個(gè)類目,按借閱冊次多少選擇前3個(gè)類目,挑選出上一年級讀者在2013學(xué)年度借閱最多的前幾本書目及類目(配有類目解釋和例子),加上讀者自我推薦書目欄目,把這些作為2014年度本年級調(diào)查內(nèi)容。這樣設(shè)計(jì)的目的是:驗(yàn)證以上發(fā)現(xiàn)的知識規(guī)律是否正確;驗(yàn)證上一年級讀者在上學(xué)年借閱最多的書目是否也是本年級讀者在本學(xué)年借閱最多的,以確定推薦內(nèi)容。調(diào)查統(tǒng)計(jì)結(jié)果如表3所示,按此知識規(guī)則進(jìn)行推薦,其類目命中率(即約簡后的知識類目中
14、想借閱數(shù)/總想借閱數(shù))都在87%以上。再把表2和表3內(nèi)容合并后比較得出表4,從表4中也能看出其順序基本一致。因此,采用這種方法得出的知識與實(shí)際相符,驗(yàn)證了規(guī)律的正確性。另外,從調(diào)查具體數(shù)據(jù)來看,上一年級讀者借閱最多的書目并不一定是本年級讀者最想看的書目,例如:在對2012級教育技術(shù)學(xué)專業(yè)學(xué)生問卷調(diào)查中,書目 flash 8基礎(chǔ)與實(shí)例精講(騰飛科技編著.人民郵電出版社,2007)在2013學(xué)年被2011級教育技術(shù)學(xué)專業(yè)學(xué)生借閱了6次,問卷調(diào)查結(jié)果是34人想借閱;而書目flash 8 角色與動畫短片設(shè)計(jì)技術(shù)精粹(周國棟編著.人民郵電出版社,2007),則借閱了4次,問卷結(jié)果是41人想借閱。因此,在
15、進(jìn)行知識書目推薦時(shí),需要從這些約簡后的類目中分別挑選借閱最多的前幾本書目,組合起來作為推薦內(nèi)容,才能滿足讀者真正的需要。 4 結(jié)語 本文利用粗糙集理論中的知識依賴度約簡方法對某專業(yè)讀者群借閱歷史數(shù)據(jù)進(jìn)行挖掘,獲得其學(xué)科體系結(jié)構(gòu)知識,并通過比較,發(fā)現(xiàn)相應(yīng)學(xué)科體系結(jié)構(gòu)建設(shè)中的不足之處,促使學(xué)科結(jié)構(gòu)體系建設(shè)更加合理、完善。如果利用所得的知識進(jìn)行推送服務(wù),則能夠根據(jù)學(xué)生知識結(jié)構(gòu)的變化進(jìn)行預(yù)判,做到有的放矢,提高服務(wù)質(zhì)量。當(dāng)然,本文還有一些問題尚待解決,如表4類目順序變化的真正原因是什么,蘊(yùn)含了哪些知識?小說等文學(xué)類中哪些知識是教育技術(shù)學(xué)專業(yè)的本質(zhì)需要,如何合理設(shè)計(jì)它在學(xué)科體系結(jié)構(gòu)的布局等?相關(guān)問題有待
16、進(jìn)行下一步更深入的研究。 參考文獻(xiàn): 1陳錦,吳揚(yáng)揚(yáng). apriori算法在高校圖書館圖書推薦中的應(yīng)用j. 河南科技學(xué)院學(xué)報(bào):自然科學(xué)版,2012,40(4):9092. 2趙彥輝. 基于流通數(shù)據(jù)挖掘的讀者閱讀興趣本體模型構(gòu)建j. 圖書情報(bào)工作, 2012,56(3):121125. 3張紅燕. 關(guān)聯(lián)規(guī)則挖掘在高校圖書館借閱流通中的應(yīng)用j. 數(shù)字技術(shù)與應(yīng)用,2012(5):76,78. 4薛琴榮,李響. 基于數(shù)據(jù)挖掘技術(shù)的圖書館個(gè)性化借閱服務(wù)研究j. 情報(bào)探索,2013(4):110113. 5楊昌順. 聚類分析在圖書館讀者群體細(xì)分中的研究和應(yīng)用j. 貴州師范學(xué)院學(xué)報(bào),2012,28(6):1117. 6蔣細(xì)芳,劉羽,馮現(xiàn)坤. 基于時(shí)間序列的圖書館個(gè)性化服務(wù)研究j. 軟件導(dǎo)刊,2011,10(5):125126. 7柳炳祥. 基于數(shù)據(jù)挖掘的圖書館個(gè)性化服務(wù)系統(tǒng)j. 現(xiàn)代情報(bào),2007(3):108109. 8李龍澍,王慧萍,徐怡. 二進(jìn)制可分辨矩陣的最小屬性約簡算法j. 計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(6):9396,100. 9苗奪謙,李道國. 粗糙集理論、算法與應(yīng)用m. 北京:清華大學(xué)出版社,2008. 10唐彬,李龍澍. 啟發(fā)式屬性約簡算法完備性和規(guī)則發(fā)現(xiàn)算法的研究j. 計(jì)算機(jī)工程與應(yīng)用,2003(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 師德師風(fēng)警示教育活動總結(jié)6篇
- 工程信息管理體系
- 國開《可編程控制器應(yīng)用》形考任務(wù)五實(shí)驗(yàn)1
- 2024年淮南聯(lián)合大學(xué)高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 2022年6月7日陜西省省直事業(yè)單位廣播電視局面試真題及答案
- 中國人民大學(xué)會計(jì)系列教材·第四版《成本會計(jì)學(xué)》課件-第六章
- 濕紙巾發(fā)展趨勢分析報(bào)告
- 2024年隴西縣第一人民醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點(diǎn)附帶答案
- 如何提起證券交易代理合同糾紛訴訟培訓(xùn)講學(xué)
- 2024年泰山護(hù)理職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試歷年參考題庫含答案解析
- 《常見包材工藝簡介》課件
- 運(yùn)輸管理與鐵路運(yùn)輸
- 寧德時(shí)代社招測評題庫
- 統(tǒng)編版六年級語文上冊專項(xiàng) 專題11文言文閱讀-原卷版+解析
- 高中數(shù)學(xué)筆記總結(jié)高一至高三很全
- 011(1)-《社會保險(xiǎn)人員減員申報(bào)表》
- 電廠C級檢修工藝流程
- 函授本科《小學(xué)教育》畢業(yè)論文范文
- 高考高中英語單詞詞根詞綴大全
- 藥用輔料聚乙二醇400特性、用法用量
- 《中小學(xué)機(jī)器人教育研究(論文)11000字》
評論
0/150
提交評論