



下載本文檔
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、利用分類(lèi)算法實(shí)現(xiàn)圖書(shū)分類(lèi)管理 利用分類(lèi)算法實(shí)現(xiàn)圖書(shū)分類(lèi)管理2011-09-05 08:06 來(lái)源:未知 瀏覽次數(shù): 關(guān)鍵字: 分類(lèi)算法 圖書(shū)分類(lèi)管理利用分類(lèi)算法實(shí)現(xiàn)圖書(shū)分類(lèi)管理張超一背景知識(shí)介紹隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,計(jì)算機(jī)在企業(yè)管理中的應(yīng)用普及,利用計(jì)算機(jī)實(shí)現(xiàn)圖書(shū)信息分類(lèi)管理勢(shì)在必行。目前部分小型圖書(shū)館的借閱工作大部分還是手工管理,工作效率偏低,而且不能及時(shí)了解圖書(shū)的種類(lèi)以及用戶(hù)們極力需求的圖書(shū)類(lèi)型等,不能更好的適應(yīng)大多數(shù)用戶(hù)的借閱要求。計(jì)算機(jī)信息化管理有著儲(chǔ)存量大,查詢(xún)速度快等許多優(yōu)點(diǎn),提供及時(shí)快捷的信息處理。因此,利用計(jì)算機(jī)提供給我們的信息
2、對(duì)學(xué)生們的借閱過(guò)程形成一整套動(dòng)態(tài)的分類(lèi)管理系統(tǒng)能夠極大地提高圖書(shū)管理的效率。將圖書(shū)分文別類(lèi)地管理,不僅能夠提高管理員的工作效率,而且用戶(hù)可以快速地查詢(xún)到自己需要的類(lèi)型的圖書(shū),也提高了查詢(xún)的效率。二分類(lèi)算法介紹涉及到圖書(shū)信息的分類(lèi),當(dāng)然要對(duì)分類(lèi)算法做進(jìn)一步的介紹。分類(lèi)算法被用來(lái)預(yù)測(cè)數(shù)據(jù)對(duì)象的離散類(lèi)別,其應(yīng)用非常普遍,對(duì)于圖書(shū)館管理系統(tǒng),要涉及到對(duì)圖書(shū)種類(lèi)的分類(lèi),出版日期的分類(lèi)以及不同作者的分類(lèi)查詢(xún)等等。分類(lèi)算法經(jīng)常表現(xiàn)為樹(shù)的表示和遍歷問(wèn)題。那么,就涉及到以下6個(gè)問(wèn)題:如果用數(shù)據(jù)庫(kù)中的一個(gè)表來(lái)表達(dá)樹(shù)型分類(lèi),應(yīng)該有幾個(gè)字段;如何快速地從這個(gè)表恢復(fù)出一棵樹(shù); 如何判斷某個(gè)分類(lèi)是否是另一個(gè)分類(lèi)的子類(lèi);
3、如何查找某個(gè)分類(lèi)的所有產(chǎn)品; 如何生成分類(lèi)所在的路徑;如何新增分類(lèi)。下面我們重點(diǎn)以決策樹(shù)算法為例來(lái)介紹圖書(shū)分類(lèi)管理的基本核心思想。三決策樹(shù)分類(lèi)算法核心思想介紹決策樹(shù)表示方法是應(yīng)用最廣泛的邏輯方法之一,具有分類(lèi)的精度較高,成的模式相對(duì)簡(jiǎn)單,對(duì)噪聲數(shù)據(jù)有相對(duì)較強(qiáng)的健壯性等優(yōu)點(diǎn),因而是目前應(yīng)用比較廣泛的歸納推理算法之一,受到數(shù)據(jù)挖掘研究者的廣泛關(guān)注。決策樹(shù)歸納是經(jīng)典的分類(lèi)算法。它采用自頂向下遞歸,各個(gè)擊破的方式構(gòu)造決策樹(shù)。樹(shù)的每一個(gè)結(jié)點(diǎn)使用信息增益度量來(lái)選擇測(cè)試邏輯判斷(即屬性)??梢詮纳傻臎Q策樹(shù)中提取規(guī)則。決策樹(shù)構(gòu)造的輸入是一組帶有類(lèi)別標(biāo)記的例子,構(gòu)造的結(jié)果一般是一棵二叉樹(shù)或多叉樹(shù)。二叉樹(shù)的內(nèi)部
4、節(jié)點(diǎn),即非葉子節(jié)點(diǎn)一般表示成為一個(gè)邏輯判斷,樹(shù)的邊是邏輯判斷的分支結(jié)果。多叉樹(shù)的內(nèi)部節(jié)點(diǎn)是屬性,邊是該屬性的所有取值,樹(shù)的葉子節(jié)點(diǎn)一般都定義為類(lèi)別標(biāo)記。構(gòu)造決策樹(shù)的方法是采用自頂向下的遞歸方法,其思路是:以代表訓(xùn)練樣本的單個(gè)結(jié)點(diǎn)開(kāi)始建樹(shù)。如果樣本都在同一個(gè)類(lèi),則該結(jié)點(diǎn)成為樹(shù)葉,并用該類(lèi)標(biāo)記。否則,算法使用稱(chēng)為信息增益的基于熵的度量作為啟發(fā)信息,選擇能夠最好地將樣本分類(lèi)的邏輯判斷。該邏輯判斷稱(chēng)為該結(jié)點(diǎn)的“測(cè)試”或“判定”屬性。值得注意的是,在這類(lèi)算法中,所有的邏輯判斷都是取離散值的,連續(xù)值邏輯判斷必須離散化。對(duì)測(cè)試屬性的每個(gè)已知的值,創(chuàng)建一個(gè)分支,并據(jù)此劃分樣本。算法使用同樣的過(guò)程,遞歸地形成每
5、個(gè)劃分上的樣本決策樹(shù)。一旦一個(gè)屬性出現(xiàn)在一個(gè)結(jié)點(diǎn)上,就不必考慮該結(jié)點(diǎn)的任何后代。遞歸劃分步驟,當(dāng)下列條件之一成立時(shí)停止:給定結(jié)點(diǎn)的所有樣本屬于同一類(lèi)。沒(méi)有剩余屬性可以用來(lái)進(jìn)一步劃分樣本。構(gòu)造好的決策樹(shù)關(guān)鍵就在于如何選擇最優(yōu)的邏輯判斷,對(duì)于同樣一組例子,猶豫選擇的邏輯判斷不同,可以生成很多不同的決策樹(shù)。下面利用ID3算法舉例說(shuō)明如何構(gòu)建一棵決策樹(shù)來(lái)實(shí)現(xiàn)對(duì)圖書(shū)的分類(lèi)管理。對(duì)于ID3算法,首先要考慮如何選取合適的邏輯判斷來(lái)產(chǎn)生分支,這就需要介紹信息論的一系列概念:假設(shè)屬于第i類(lèi)的訓(xùn)練實(shí)例Ci,X中總的訓(xùn)練實(shí)例個(gè)數(shù)為|X|,若一個(gè)實(shí)例屬于第i類(lèi)的概率為p(Ci),則:p(Ci)=|Ci|/|X|信息熵
6、H(X):用來(lái)度量整個(gè)信息源X整體的不確定性。H(X)=-p(ai)log(p(ai) (i=1,2,.n)條件熵H(X|Y):如果信息源X受隨機(jī)變量Y的約束,用條件熵H(X|Y)來(lái)表示在收到隨機(jī)變量Y之后,對(duì)隨機(jī)變量X的不確定性。H(X|Y)=-p(ai|bj)log(p(ai|bj) (i=1,2,.n, j=1,2,m)平均互信息量I(X|Y):用它來(lái)表示信號(hào)Y所能提供的關(guān)于X的信息量的大小,其中I(X|Y)=H(X)-H(X|Y)。建立決策樹(shù)的過(guò)程就是將不確定度逐漸減小的過(guò)程,利用I(X|Y)表示的信息增益量選擇信息增益最大的屬性進(jìn)行優(yōu)先分類(lèi),下面舉例來(lái)說(shuō)明如何利用決策樹(shù)分類(lèi)算法實(shí)現(xiàn)圖書(shū)分類(lèi)。表1給出了一個(gè)簡(jiǎn)單的圖書(shū)樣本數(shù)據(jù)集,假設(shè)圖書(shū)的屬性有四個(gè):種類(lèi),出版日期,出版社,作者。樣本數(shù)據(jù)集合被分為類(lèi)別1和類(lèi)別2,通過(guò)ID3算法構(gòu)造決策樹(shù)將數(shù)據(jù)進(jìn)行分類(lèi)。 通過(guò)對(duì)每個(gè)屬性的信息熵和條件熵的計(jì)算,得到H(X|種類(lèi)) <H(X|出版日期)< H(X|出版社) <H(X|作者),所以I(X|種類(lèi)) >I(X|出版日期)> I(X|出版社) >I(X|作者)??梢?jiàn)應(yīng)該選
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- DB1303-T 323-2022 海綿城市 城市道路設(shè)計(jì)導(dǎo)則
- 賓館監(jiān)控系統(tǒng)設(shè)計(jì)方案樣本
- 2025屆山西省長(zhǎng)治市二中高二下化學(xué)期末檢測(cè)模擬試題含解析
- 2025屆江蘇省蔣王中學(xué)高一化學(xué)第二學(xué)期期末預(yù)測(cè)試題含解析
- 2024-2030年中國(guó)蛋及蛋制品行業(yè)市場(chǎng)發(fā)展趨勢(shì)與前景展望戰(zhàn)略分析報(bào)告
- 居民認(rèn)領(lǐng)樹(shù)苗活動(dòng)方案
- 岳陽(yáng)電玩城活動(dòng)方案
- 工會(huì)立冬活動(dòng)方案
- 小學(xué)遺體捐獻(xiàn)活動(dòng)方案
- 小學(xué)環(huán)境教育活動(dòng)方案
- 水文水位觀測(cè)
- 2023年蕪湖一中高一自主招生考試試題數(shù)學(xué)
- 天津理工大學(xué)-PPT 答辯3
- 引體向上教學(xué)設(shè)計(jì)
- 江蘇省南京市聯(lián)合體2022-2023八年級(jí)初二下學(xué)期期中英語(yǔ)試卷+答案
- 艾里遜自動(dòng)變速箱技術(shù)培訓(xùn)課程(H5610AR系列)
- 2022年江蘇蘇州獨(dú)墅湖科教創(chuàng)新區(qū)管理委員會(huì)招聘筆試備考題庫(kù)及答案解析
- 事業(yè)單位崗位職數(shù)情況表
- 鉆沖孔灌注樁監(jiān)理實(shí)施細(xì)則
- LS 8010-2014植物油庫(kù)設(shè)計(jì)規(guī)范
- GM/T 0021-2012動(dòng)態(tài)口令密碼應(yīng)用技術(shù)規(guī)范
評(píng)論
0/150
提交評(píng)論