通信學(xué)論文-網(wǎng)絡(luò)知識挖掘在數(shù)字參考咨詢中的實現(xiàn).doc_第1頁
通信學(xué)論文-網(wǎng)絡(luò)知識挖掘在數(shù)字參考咨詢中的實現(xiàn).doc_第2頁
通信學(xué)論文-網(wǎng)絡(luò)知識挖掘在數(shù)字參考咨詢中的實現(xiàn).doc_第3頁
通信學(xué)論文-網(wǎng)絡(luò)知識挖掘在數(shù)字參考咨詢中的實現(xiàn).doc_第4頁
通信學(xué)論文-網(wǎng)絡(luò)知識挖掘在數(shù)字參考咨詢中的實現(xiàn).doc_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

通信學(xué)論文-網(wǎng)絡(luò)知識挖掘在數(shù)字參考咨詢中的實現(xiàn)【內(nèi)容提要】文章著重闡述了網(wǎng)絡(luò)知識挖掘產(chǎn)生的背景及其概念、技術(shù),探討了網(wǎng)絡(luò)知識挖掘在數(shù)字參考咨詢服務(wù)中的應(yīng)用。【摘要題】信息需求與服務(wù)【關(guān)鍵詞】數(shù)字參考咨詢/數(shù)據(jù)挖掘/網(wǎng)絡(luò)知識挖掘【正文】1網(wǎng)絡(luò)知識挖掘產(chǎn)生的背景及其概念、技術(shù)對知識挖掘的設(shè)想始于20世紀(jì)80年代末。當(dāng)時出現(xiàn)了從源數(shù)據(jù)中發(fā)掘新信息模式及算法,被稱為數(shù)據(jù)中的知識發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD)。這種想法的出現(xiàn)是由于此前的信息或知識數(shù)據(jù)庫存在著種種局限,限制了對數(shù)據(jù)庫中蘊涵知識的有效利用1。知識發(fā)現(xiàn)被認(rèn)為是今后具有重要影響和應(yīng)用前景的關(guān)鍵技術(shù)。知識發(fā)現(xiàn)(knowledgediscovery)也稱數(shù)據(jù)挖掘(datamining),源自人工智能的機器學(xué)習(xí)領(lǐng)域,是在一個已知狀態(tài)的數(shù)據(jù)集上,通過設(shè)定一定的學(xué)習(xí)算法,從數(shù)據(jù)中獲取所需的知識2。數(shù)據(jù)挖掘廣泛應(yīng)用于數(shù)據(jù)倉庫和分布式數(shù)據(jù)庫中,根據(jù)數(shù)據(jù)間的相互關(guān)系進(jìn)行數(shù)據(jù)分析,提取潛在有用的信息和知識,經(jīng)挖掘后被發(fā)現(xiàn)的知識可用于信息管理、查詢優(yōu)化、科學(xué)研究、決策支持、過程控制等?,F(xiàn)有的數(shù)據(jù)挖掘工具有:ModelQuestMiner、KnowledgeSeeker、BusinessMiner、AnserTree等幾十種。數(shù)據(jù)挖掘是網(wǎng)絡(luò)知識挖掘的基礎(chǔ)。網(wǎng)絡(luò)知識挖掘是指利用數(shù)據(jù)挖掘技術(shù),自動地從由異構(gòu)數(shù)據(jù)組成的網(wǎng)絡(luò)文檔中發(fā)現(xiàn)和抽取知識,從概念及相關(guān)因素的延伸比較上找出用戶需要的深層次知識的過程3。網(wǎng)絡(luò)知識挖掘可分為網(wǎng)絡(luò)內(nèi)容挖掘(WebContentMining)、網(wǎng)絡(luò)結(jié)構(gòu)挖掘(WebConstructMining)、網(wǎng)絡(luò)使用挖掘(WebUsageMining)。一般而言,網(wǎng)絡(luò)知識挖掘的發(fā)現(xiàn)技術(shù)主要包括以下幾個方面。1.1路徑分析可以用許多曲線圖解法來進(jìn)行路徑分析,一個曲線代表了Web頁面間或者其他事物之間的一些聯(lián)系。1.2關(guān)聯(lián)規(guī)則關(guān)聯(lián)規(guī)則用于發(fā)現(xiàn)數(shù)據(jù)項之間的聯(lián)系,在網(wǎng)絡(luò)挖掘中就是發(fā)現(xiàn)某一顧客的引用頁面和服務(wù)器上多種頁面之間的聯(lián)系。1.3序列模式應(yīng)用序列模式是為了發(fā)現(xiàn)一些交互模式,如在一時間段內(nèi)某一數(shù)據(jù)項后面跟著另一個數(shù)據(jù)項。在服務(wù)器日志文件中,記錄了一段時間內(nèi)客戶的訪問信息,對Web服務(wù)器中訪問日志的序列模型分析可以使用企業(yè)預(yù)測用戶訪問模式,幫助廣告進(jìn)行目標(biāo)定位,發(fā)現(xiàn)在一個時間段內(nèi)訪問某一文件的所有客戶的相同特征等。1.4聚類和分類根據(jù)一些數(shù)據(jù)項的共同特征來對數(shù)據(jù)庫進(jìn)行分類。在網(wǎng)絡(luò)挖掘中,分類技術(shù)可以基于用戶的一些人口統(tǒng)計信息和訪問模式對訪問某文檔的用戶進(jìn)行偏好描述。聚類分析可以將有相似特征的用戶或者數(shù)據(jù)聚集在一起,聚類Web日志的用戶信息和數(shù)據(jù)可用來制定未來市場營銷策略4。2網(wǎng)絡(luò)知識挖掘與數(shù)字參考咨詢知識庫的建立數(shù)字參考咨詢的概念起源于20世紀(jì)80年代的美國,早期的電子郵件咨詢服務(wù)起源于1984年的華盛頓大學(xué)健康科學(xué)圖書館和馬里蘭巴爾迪摩大學(xué)健康圖書館5。在美國,圖書館界對數(shù)字圖書館的發(fā)展存在兩種看法,其中一種把圖書館看作是一個在圖書館員的協(xié)助下為廣大用戶提供智能服務(wù)的透明的知識網(wǎng)絡(luò)。數(shù)字參考臺就是根據(jù)這種意見建立起來的對話式的智能服務(wù)系統(tǒng)6。數(shù)字參考咨詢是伴隨著數(shù)字圖書館的研究和實踐熱潮出現(xiàn)的又一大熱點,也是網(wǎng)絡(luò)環(huán)境下圖書館參考咨詢服務(wù)的主流發(fā)展方向。利用網(wǎng)絡(luò)知識挖掘技術(shù),可以了解用戶訪問圖書館的目的和趨勢,了解用戶的興趣和需求,改進(jìn)服務(wù)質(zhì)量,變被動服務(wù)為主動服務(wù),提高數(shù)字參考咨詢服務(wù)的效率。數(shù)字化信息資源是數(shù)字參考咨詢的物質(zhì)基礎(chǔ),它由各類知識庫構(gòu)成。數(shù)字參考咨詢是從積累知識庫到進(jìn)行知識服務(wù),可以在面對面與用戶溝通中判斷用戶的實際需求,由此來加深知識服務(wù)層面的深度和廣度。知識庫的建設(shè)直接影響到數(shù)字參考咨詢服務(wù)。可想而知,如果沒有知識庫或知識庫內(nèi)容非常少,僅憑咨詢員個人的知識經(jīng)驗很難滿足不同用戶的各類需求。網(wǎng)絡(luò)在提供豐富資源的同時,也給查找和獲取有效信息帶來了難度。傳統(tǒng)的數(shù)據(jù)挖掘涉及的主要是結(jié)構(gòu)化及半結(jié)構(gòu)化的數(shù)據(jù)庫,而網(wǎng)上的信息變化頻繁且具動態(tài)性,是一個巨大而又復(fù)雜的異構(gòu)型數(shù)據(jù)庫,對網(wǎng)上的信息進(jìn)行挖掘要比面向單個數(shù)據(jù)庫復(fù)雜得多。數(shù)字資源的多元性和分散性,使數(shù)字化信息的知識化挖掘和鏈接成為信息服務(wù)所面臨的前沿挑戰(zhàn)。因此,對數(shù)據(jù)的進(jìn)一步加工和內(nèi)容分析顯得越來越重要。在這樣的背景下,網(wǎng)絡(luò)知識挖掘的新技術(shù)應(yīng)運而生。網(wǎng)絡(luò)知識挖掘的類型可分為對網(wǎng)絡(luò)知識的挖掘和對用戶知識的挖掘。對網(wǎng)絡(luò)知識的挖掘主要是指通過對網(wǎng)絡(luò)信息的定性定量的增值處理,找出信息分布的規(guī)律,發(fā)現(xiàn)信息內(nèi)在的關(guān)聯(lián)性,挖掘隱藏在網(wǎng)絡(luò)信息中的知識并形成模型。對用戶知識的挖掘是指對用戶訪問網(wǎng)絡(luò)時的信息和用戶個人信息的挖掘。網(wǎng)站服務(wù)器會保留用戶的訪問記錄,記錄關(guān)于用戶訪問和交互的信息,對此進(jìn)行分析和挖掘,有助于理解用戶的信息活動,了解用戶的信息需求,從中得出用戶的訪問模式和訪問興趣,從而改進(jìn)網(wǎng)站的結(jié)構(gòu),也可以用于為用戶提供個性化的服務(wù)7。此類知識庫建立方法在實際中的應(yīng)用如復(fù)旦大學(xué),復(fù)旦大學(xué)的實時咨詢提醒用戶如果在線咨詢員沒有空閑,可以參考圖書館FAQ中的一些常見問題的解答;如果用戶的問題仍未解決,不妨使用電子郵件咨詢服務(wù),或稍候使用實時在線咨詢服務(wù)。用戶所提的問題及其相應(yīng)答復(fù)可能被收入復(fù)旦大學(xué)圖書館參考咨詢臺后臺知識庫中,在知識庫中用戶的所有個人信息都會被刪除,收入數(shù)據(jù)版權(quán)歸復(fù)旦大學(xué)圖書館所有8?;贗nternet建設(shè)起來的知識庫,其質(zhì)量好壞直接影響數(shù)字參考咨詢。作為信息資源的知識庫,要形成一定的規(guī)模且檢索便捷、內(nèi)容新穎,能夠不斷地更新,以保持?jǐn)?shù)據(jù)的準(zhǔn)確、全面和及時。如當(dāng)今世界上最大的圖書館網(wǎng)絡(luò)OCLC把互聯(lián)網(wǎng)上的信息經(jīng)過系統(tǒng)化的整理,通過主題詞即可檢索;且OCLC的WorldCat數(shù)據(jù)庫隨時更新,每年以200多萬條記錄的速度增長9。OCLC之所以始終保持在高新技術(shù)前列,是由于在研究開發(fā)上的大量投資。OCLC平均每年投資研究與開發(fā)項目達(dá)1000萬美元以上,僅在2002-2003財政年度就投資1400萬美元10。所以研究開發(fā)先進(jìn)的知識挖掘、分析和提煉技術(shù),形成一個豐富的知識庫來滿足用戶的需求,提高用戶的滿意度,給用戶更好的服務(wù),是做好數(shù)字參考咨詢服務(wù)所必需的。3網(wǎng)絡(luò)知識挖掘為數(shù)字參考咨詢提供技術(shù)支撐圖書館對新技術(shù)尤其是信息技術(shù)保持高度敏感。隨著電子技術(shù)、計算機技術(shù)和通信技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)在全球范圍得到迅速普及,同時多媒體技術(shù)、實時交互技術(shù)等與之配套的技術(shù)如雨后春筍般出現(xiàn),這為圖書館開展數(shù)字參考咨詢服務(wù)提供了技術(shù)保障。經(jīng)過幾年的努力,圖書館的數(shù)字化建設(shè)與服務(wù)已具備了較好的技術(shù)和硬件基礎(chǔ),這也為開展數(shù)字參考咨詢服務(wù)提供了強有力的技術(shù)支撐。知識挖掘的技術(shù)基礎(chǔ)是統(tǒng)計學(xué)與人工智能。知識挖掘的主要特點是能對原有的數(shù)據(jù)進(jìn)行高度自動分析、歸納推理,從中挖掘出潛在的模式,預(yù)測用戶的行為,幫助決策者調(diào)整策略,作出正確的決策。人工智能是以自動機為手段,通過模擬人類宏觀外顯的思維行為,從而高效率地解決現(xiàn)實世界問題的科學(xué)和技術(shù)??梢钥闯?,人工智能的目標(biāo)非常高,除需要復(fù)雜的算法外還需要特定的機器。但知識挖掘僅僅利用了人工智能中一些已經(jīng)成熟的算法和技術(shù),如人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeutralNetworks)、遺傳算法(GeneticAlgorithms)、決策樹(DecisionTrees)、規(guī)則推理(RuleInduction)(即通過統(tǒng)計學(xué)方法歸納提取有價值的if-then規(guī)則,如關(guān)聯(lián)規(guī)則挖掘)、模糊邏輯(FuzzyLogic)、CVSM等11。數(shù)字參考咨詢服務(wù)無非是在保證提供符合用戶要求的同時縮短提供時間和提供個性化服務(wù)。數(shù)字參考咨詢服務(wù)的交流方式主要由解答式和交互式兩種。前者是比較初步而簡單的服務(wù)方式,如FAQ、非實時的電子郵件、Web表單、BBS和MessageBoard(留言版)等;后者主要是指實時性的交互模式,如2002年7月,OCLC與美國國會圖書館協(xié)同研制開發(fā)推出網(wǎng)上聯(lián)合數(shù)字參考咨詢服務(wù)QuestinPoint。但不管是哪一種,現(xiàn)在的提供方式雖然也在借鑒和應(yīng)用計算機的自動處理,但智能化的程度有待提高。其中最主要的一點是要提高對提問信息的分析正確度,如何從提問信息中提取最相關(guān)的單詞、詞組,并對提取的單詞、詞組在已有知識庫中進(jìn)行準(zhǔn)確無誤匹配,這就用到詞表技術(shù)。目前,詞表技術(shù)研究的一個重要發(fā)展趨勢就是與網(wǎng)絡(luò)檢索這類應(yīng)用系統(tǒng)的結(jié)合。通過概念空間詞表界面,用戶可以隨意輸入任何一個單詞或詞組,這時搜索界面會在一個顯示框中顯示按與用戶檢索詞相關(guān)程度排序的空間詞匯,用戶可以從中選擇合意的詞添加到搜索框中,從而檢索出用戶所需的信息,更提高檢索的精確度。其次是對檢索結(jié)果集的篩選和提煉問題。網(wǎng)絡(luò)知識挖掘的目的是將用戶從浩如煙海、錯綜復(fù)雜的網(wǎng)絡(luò)信息源中解放出來,擺脫原始數(shù)據(jù)細(xì)節(jié),直接與數(shù)據(jù)所反映的知識打交道,使處理結(jié)果以可讀、精練、概括的形式呈現(xiàn)給用戶,使用戶能把主要精力真正用到分析本質(zhì)問題、提高工作效率和資源利用率方面。網(wǎng)絡(luò)知識挖掘能夠真正支撐起數(shù)字參考咨詢服務(wù)系統(tǒng)的顯性知識與隱性知識全方位開發(fā)策略。目前對檢索結(jié)果的篩選和提煉這個工作環(huán)節(jié)大部分是由人工完成的,雖然保證了質(zhì)量,但隨著以后工作量的日益增加,采取智能處理是必然趨勢。知識挖掘雖然仍處在發(fā)展的前期,還有很多研究難題,但我們在建設(shè)數(shù)字參考咨詢服務(wù)系統(tǒng)的時候,必須考慮對知識管理功能的開發(fā),預(yù)先設(shè)計好底層數(shù)據(jù)標(biāo)準(zhǔn)和二次開發(fā)接口等。4網(wǎng)絡(luò)知識挖掘在數(shù)字參考咨詢個性化服務(wù)中的應(yīng)用數(shù)字圖書館的內(nèi)涵不僅僅應(yīng)體現(xiàn)在其數(shù)字化資源的建設(shè)上,更應(yīng)體現(xiàn)在服務(wù)上。數(shù)字參考咨詢服務(wù)是數(shù)字圖書館建設(shè)的必然結(jié)果。數(shù)字參考咨詢的用戶需求不僅是簡單的查詢,而且是需要深入內(nèi)容的信息處理技術(shù),希望擺脫表層信息的干擾,對網(wǎng)絡(luò)數(shù)據(jù)作更深層次的分析與挖掘。這就要求圖書館從紛繁復(fù)雜的信息資源中,以面向“個人”的方式來挖掘知識,提取真正有用的信息。這是數(shù)字圖書館建設(shè)中要考慮的問題之一,是做好數(shù)字參考咨詢的前期基礎(chǔ)。個性化服務(wù)是指使用多種數(shù)據(jù)分析技術(shù),根據(jù)用戶興趣的信息向用戶及時、主動地推薦用戶需要的且以往沒有獲得的知識資源信息,并能根據(jù)用戶對推薦內(nèi)容的反饋進(jìn)一步改進(jìn)推薦結(jié)果。個性化服務(wù)是一種高層次的智力技術(shù)活動,其重要的特點是知識增值與智能重組。網(wǎng)絡(luò)知識挖掘工作運用最新的智能工具來挖掘蘊藏于海量顯性信息中的隱性知識,并形成專業(yè)知識庫和知識倉庫,將隱性知識顯性化并給予管理、利用,非常符合網(wǎng)絡(luò)用戶對個性化、隱性知識的需求。網(wǎng)絡(luò)知識挖掘在數(shù)字參考咨詢個性化服務(wù)中的應(yīng)用主要體現(xiàn)在以下兩個方面。4.1收集與用戶有關(guān)的信息,建立用戶信息庫通過各種方式收集用戶興趣,比如表單、跟蹤日志、系統(tǒng)導(dǎo)入等,從而建立用戶個性化的信息庫。(1)填寫表單。數(shù)字參考咨詢服務(wù)可以在主頁上提供個性化服務(wù)的注冊入口。在進(jìn)入頁面,設(shè)計一個表單,內(nèi)容包括用戶的背景信息,如用戶的學(xué)歷、年齡、職業(yè)、地域、要求等和用戶的特殊信息,如感興趣的專業(yè)、方向,想獲取的信息以及獲取方式和聯(lián)絡(luò)方式等。(2)跟蹤日志。數(shù)字參考咨詢服務(wù)可以在用戶進(jìn)入圖書館網(wǎng)站開始,對用戶的行為進(jìn)行跟蹤,產(chǎn)生日志文件,并將該日志文件并入用戶信息庫。對用戶的Web日志記錄進(jìn)行挖掘可以比較真實地反映其信息需求。從Web日志記錄中可以挖掘出關(guān)聯(lián)模式、序列模式和Web訪問趨勢等,從而理解用戶的反映和動機。(3)系統(tǒng)導(dǎo)入。通過聯(lián)合圖書館方式將其它圖書館的用戶信息庫導(dǎo)入,也可以與其它網(wǎng)站合作,導(dǎo)入其用戶數(shù)據(jù)。4.2利用知識挖掘技術(shù),分析用戶信息庫為了開展個性化服務(wù),必須了解用戶,了解用戶的信息需求,包括顯性需求和隱性需求,進(jìn)行以下分析。(1)用戶分類。通過對用戶的興趣、愛好、研究領(lǐng)域、知識結(jié)構(gòu)、利用圖書館的程度和對圖書館提供服務(wù)手段掌握的熟練程度等方面,將用戶進(jìn)行分類。(2)用戶行為分析。要將信息主動推送給用戶,必須了解用戶的信息需求,它包括顯性需求和隱性需求。顯性需求是通過填問答表的方式了解,做到這一點比較容易,關(guān)鍵是如何了解用戶的隱性需求。隱性需求主要是系統(tǒng)通過觀察用戶信息使用行為,比如用戶訪問的頁面、訪問次數(shù)、逗留時間、保存行為等,以此來準(zhǔn)確地獲取用戶的信息需要。要做到這一點,必須完善相應(yīng)的人工智能方法和機器學(xué)習(xí)等技術(shù)。(3)用戶反饋挖掘。用戶反饋挖掘是通過自動聚類技術(shù)將用戶相關(guān)反饋的結(jié)果聚類,形成某些層次以描述用戶信息需求,具體包括關(guān)聯(lián)聚類、矩陣聚類、標(biāo)量聚類,其目的是找出用戶感興趣的區(qū)域。為了提高服務(wù)質(zhì)量,要求用戶對所提供的信息作出反饋,并將用戶的反饋信息再次分析、調(diào)整。如廈門大學(xué)圖書館在主頁上列有問題反饋類目,包括留言討論、館長信箱、致信webMaster、鼓浪聽濤XMU-Library版。(4)協(xié)同過濾。不考慮資源具有什么形式的具體內(nèi)容,僅通過收集到用戶對一些資源的評價(一般通過評級打分),比較用戶之間的興趣相似程度(距離),根據(jù)他與其它用戶之間興趣的相似程度(距離)和其它用戶對資源集合的評價進(jìn)行資源的推薦和共享12?!緟⒖嘉墨I(xiàn)】1李宏.知識管理與知識挖掘在情報研究工作中的實現(xiàn).情報理論與實踐,2003(3):199-2012晏創(chuàng)業(yè),張玉峰.智能檢索中的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)探索.中國圖書館學(xué)報,2002(3):49-513侯雅木冉.網(wǎng)絡(luò)環(huán)境下的知識挖掘.情報科學(xué),2003(8):887-8904史田華.論Internet知識挖掘.圖書情報知識,2002(3):44-465RuthA.Hodges.AssessingDigitalReference,Libri,2002(52):157-1686http:/www

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論