




已閱讀5頁,還剩15頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1 基于文獻聚類的數(shù)據(jù)挖掘模型設(shè)計與實現(xiàn) (南京人口管理干部學院 江蘇 南京 210042) 摘要 :聚類分析是統(tǒng)計學中的一項重要技術(shù)。通過聚類可以發(fā)現(xiàn)隱藏在海量數(shù)據(jù)背后知識。本文首先建立空間向量模型,改進了傳統(tǒng)相似度的計算模型,提出了一種基于摘要詞對關(guān)鍵詞加權(quán)貢獻的相似度模型,使得文獻的空間向量更加精確。數(shù)據(jù)來源于 05 年 獻數(shù)據(jù)庫圖書情報學的 3千多條文獻數(shù)據(jù),并通過中知網(wǎng)查詢相關(guān)文獻的摘要。通過數(shù)據(jù)清洗、去噪聲、降維、規(guī)格化處理、樣本抽樣等一系列步驟,得到最終用于聚類的 681篇文獻和 108個學科特征原子詞。利用 件編程實現(xiàn)了 法的文獻聚類。將聚類的結(jié)果通過基于學科原子特征詞的學科交叉表來表示,統(tǒng)計出圖書館學、情報學和文獻學三個學科的研究熱點及交叉點,以及圖書情報學新的學科增長點,并對結(jié)果進行了檢驗,檢驗結(jié)果表明該統(tǒng)計模型是科學的、有意義的。 關(guān)鍵詞 :聚類 ; 交叉學科 ; 關(guān)鍵詞 ; 摘要 ; 相似度 ; 一、引言 聚類分析( 統(tǒng)計、模式識別和數(shù)據(jù)挖掘等領(lǐng)域中一個非常重要的技術(shù),文獻聚類就是依據(jù)文獻之間 的相似度按照一定的算法準則,挖掘隱藏在海量文獻數(shù)據(jù)背后的有用知識:如學科交叉、研究熱點和新的研究方向??茖W研究需要創(chuàng)新。科學技術(shù)的發(fā)展為每個學科的發(fā)展帶來新的機遇的同時,也帶來更為嚴峻的挑戰(zhàn)。目前,文、理、工、管等學科之間相互滲透、交叉、融合已經(jīng)成為一種潮流和趨勢,其深度和廣度正在進一步深化。眾所周知,近代科學發(fā)展特別是科學上的重大發(fā)現(xiàn)和國計民生中的重大社會問題的解決,常常涉及不同學科的相互交充滿和相互滲透。學科交叉逐漸形成一批交叉學科,如化學與物理學的交叉形成了物理化學和化學物理學,化學與生物學的交叉形成 了生物化學和化學生物學,物理學與生物學交叉形成了生物物理學等。這些交叉學科的不斷發(fā)展大大地推動了科學進步,因此學科交叉研究( 現(xiàn)了科學向綜合性發(fā)展的趨勢。科學上的新理論、新發(fā)明的產(chǎn)生,新的工程技術(shù)的出現(xiàn),經(jīng)常是在學科的邊緣或交叉點上,重視交叉學科將使科學本身向著更深層次和更高水平發(fā)展,這是符合自然界存在的客觀規(guī)律的。由于現(xiàn)有的學科是人為劃分的,而科學問題是客觀存在的,根據(jù)人們的認識水平,過去只有天文學、地理(地質(zhì))、生物、數(shù)學、物理、化學六個一級學科;而 經(jīng)過 20 世紀科學的發(fā)展和交叉研究,又逐漸形成了新的交叉學科,如生命科學、材料科學、環(huán)境科學等。因此研究學科交叉可以反映學科的研究的熱點和發(fā)展趨勢。本次統(tǒng)計建模正是基于以上的研究背景,通過文獻聚類來研究學科交叉,其意義在于:( 1)通過對文獻數(shù)據(jù)的聚類分析,挖掘?qū)W科交叉點,使研究者了解本學科目前的研究現(xiàn)狀,如學科發(fā)展前沿與熱點問題等,以提高研究者的創(chuàng)新意識和創(chuàng)新動力,為 2 科學研究提供決策支持;( 2)為管理者和研究機構(gòu)提供決策支持,如交叉學科的政策支持、研究經(jīng)費投入、人才培養(yǎng)方向等;( 3)通過學科交叉的比較,使學科 本身獲得動力,提升學科競爭力,使學科能更好地適應(yīng)社會和經(jīng)濟的發(fā)展,更好地服務(wù)社會。 不同的數(shù)據(jù)庫 ,對其文獻進行分類有不同的方法 ,沒有一種方法能對所有數(shù)據(jù)庫的文獻分類都具有高效率、高精確率。對于科學文獻的分類 ,目前主要采用的方法有 1: (1)引文分析法 :引文分析是指通過對文獻中所附的參考引文進行計量統(tǒng)計分析 ,從而揭示科學技術(shù)發(fā)展的歷史及現(xiàn)狀。其目的是尋找文獻之間的聯(lián)系來研究文獻內(nèi)在聯(lián)系和科學結(jié)構(gòu)的一種方法。 (2)關(guān)鍵詞分析法 :關(guān)鍵詞分析就是通過對反映文獻主題內(nèi) 容的詞進行關(guān)聯(lián)性或相異性定量分析 ,研究文獻內(nèi)在聯(lián)系和科學結(jié)構(gòu)的一種方法。 (3)聚類分析法 :聚類分析是指根據(jù)分析對象彼此之間的相關(guān)程度把文獻分成類群 ,使群內(nèi)盡量相似 ,群間盡量相異 ,然后進行分析研究的過程。 (4)因素分析法 :因素分析的概念是英美心理統(tǒng)計學者們最早提出的 ,因素分析法是從試驗所得的 m n 個數(shù)據(jù)文獻中概括和提取出較少量的關(guān)鍵因素 ,它們能反映和解釋所得的大量觀測事實 ,從而建立起最簡潔、最基本的概念系統(tǒng) ,揭示出事物間最本質(zhì)的聯(lián)系。 (5)關(guān)鍵詞分析與共引聚類分析相結(jié)合研究法。目前國內(nèi)研 究的主要熱點集中在第一方面 ,而國外在該領(lǐng)域的最新研究是通過關(guān)鍵詞分析和共引聚類分析相結(jié)合 ,以揭示文獻的主題結(jié)構(gòu)。 中文文本挖掘技術(shù)成敗的關(guān)鍵在于文本中詞匯切分的成功與否。由于漢語語言的特殊性和復雜性 ,使中文詞匯的切分成為一個很傷腦筋的問題。而如果不進行分詞 ,中文信息處理的其它很多研究就無法進行。 分詞技術(shù)中基于詞庫的算法目前使用較廣 ,也較為成熟 ,如正向、逆向最大匹配法、逐詞遍歷法。這類算法分詞的正確性很大程度上取決于所建的詞庫。一個詞庫應(yīng)具有完備性和完全性兩個方面 ,建立一個同時滿足 這兩個要求的詞庫具有很大的難度 2。所以 ,對于中文文本挖掘來說 ,基于詞庫的分詞技術(shù)可能會使某些具有重要意義的詞匯被疏漏 ,從而導致挖掘的內(nèi)容不是十分準確。 基于無詞典的分詞技術(shù)正處于研究發(fā)展階段 ,其基本思想是 :基于頻度的統(tǒng)計 ,不依靠于詞典 ,將文本中任意幾個字同時出現(xiàn)的頻率進行統(tǒng)計 ,次數(shù)越高的越可能是一個詞 3。文中設(shè)計了一個基于無詞典分詞的算法 4,能比較準確地切分出文本中的新詞。 特征提取主要是識別文本中代表其特征的詞項。提取過程是自動的 ,提取的特征大部分是文本集中表示的概念。文本 特征分為一般特征和數(shù)字特征 ,其中一般特征主要包括動詞和名詞短語 ,如人名、組織名等 ;數(shù)字特征主要包括日期、時間、貨幣以及單純數(shù)字信息。這些特征包含重要的信息 ,因此特征提取是一種強有力的文本挖掘技術(shù)。通過文本特征抽取 ,記錄文本的特征 ,可以更好地組織文本 ,如文本的存儲、檢索、過濾、分類和摘要等。 中文姓名識別屬于中文信息處理中未登錄詞處理的范疇 ,中文姓名在文章中 3 的出現(xiàn)頻率雖然不高 ,但絕非可以忽略 ,因為中文姓名本身包含著重要的信息 ,它可能是整個句子甚至整個段落的語義中心 ,如果不予處理 ,將影響文本挖掘的性能 5。數(shù) 字特征反映一定的信息 ,但不能表達文本的中心思想 ,通常只作文本挖掘中的參考信息。 聚類分析主要包括統(tǒng)計學習和機器學習兩種方法。在基于統(tǒng)計學習的聚類分析中,主要研究基于幾何距離的聚類,這也是本次建模采用的方法。其主要步驟包括:( 1)定義多維空間;( 2)計算多維空間中樣本點之間的距離,作為樣本點之間的相似度;( 3)采用某種算法(如 次法等)按照相似度大小將相似度高的樣本聚為一類。 在文獻聚類問題中,一般都是根據(jù)向量空間模型( 想,將文獻聚類的樣本空間表示成 X= , 其中樣本 , 在要找到這樣一個劃分 C= , 使得: ,.,2,1,1 i 且 且,.,2,1,,并且滿足類內(nèi)之和 kj cx 值最小, 示類 本次建模研究目標是在海量數(shù)據(jù)的基礎(chǔ)上,采用聚類分析的理論和方法,挖掘隱藏在數(shù)據(jù)背后的學科交叉知識, 研究的整體框架如下: 圖 1 文獻聚類研究框架 主要的研究思路為: ( 1)數(shù)據(jù)采集:采集三個學科(圖書、情報、文獻)一年的文獻數(shù)據(jù); ( 2)數(shù)據(jù)預(yù)處理: 降維:經(jīng)過抽取和提煉,建立學科特征詞庫,構(gòu)建聚類空間; 文獻摘要分詞:將摘要利用分詞技術(shù)進行分詞,去掉虛泛詞; 關(guān)鍵詞與摘要詞加權(quán):利用關(guān)鍵詞在摘要中出現(xiàn)的頻次,計算出摘要詞對關(guān)鍵詞的貢獻度; 去噪聲:對數(shù)據(jù)庫中文獻學科類別特點不明顯的文獻刪除。 ( 3)利用 型,建立文獻空間向量; ( 4)利用 件中的 法,將文獻進 行多次聚類; 文獻樣本 數(shù)據(jù)庫 學科特征詞庫 數(shù)據(jù)抽取和提煉 結(jié)果 分析 聚類分析 文獻 數(shù)據(jù)庫 數(shù)據(jù)采集 加工 4 ( 5)對聚類的結(jié)果進行統(tǒng)計分析。 二、模型設(shè)計 向量空間模型( 文獻分類所使用的特征較為普遍采用的方法之一。在這種模型中,文獻空間被看作是由一組正交詞條向量組成的向量空間,每個文獻表示為其中的一個范化特征向量: V(d)=(t1,w1(d), ,ti,wi(d), ,tn,wn(d),其中 可以要求 提高文獻內(nèi)容的準確性。 Wi(d)常被定義為 d 出現(xiàn)頻率 d)的函數(shù),如 wi(d)=(d),常用的 函數(shù)有布 爾函數(shù): 1 ( ) 10 , ( ) 0d , ;平方根函數(shù): ()d ;對數(shù)函數(shù) : lo g ( ( ) 1 )d ; 數(shù): ( ) l o g ( )d n 等。本次建模中采用了一種新的 wi(d)的計算模型,具體步驟如下: (1)構(gòu)建特征向量空間 文獻聚類是在一個非常高的維度中進行的,而聚類算法的復雜度與數(shù)據(jù)維度是非線性關(guān)系。理論證明,隨著維度的增加,計算的復雜度將呈現(xiàn)指數(shù)級的增長。我們通過 對 05 年 獻數(shù)據(jù)庫中三大學科文獻的統(tǒng)計發(fā)現(xiàn),在 3932 篇文獻中關(guān)鍵字的個數(shù)為 14202,平均每篇文獻的關(guān)鍵詞個數(shù)為 ,互異的關(guān)鍵詞達到 6708 個,利用普遍認可的 計算文獻相似度矩陣時,特征空間的維度很大,增加了計算的復雜性。因此,文獻聚類的首要問題是要將數(shù)據(jù)進行降維。原子特征詞是指從所有文獻關(guān)鍵詞中找出能夠反映出學科特點的關(guān)鍵詞中的原子部分。這樣做可以將數(shù)組維度從一個非常高的維度降低到一個維度相對較低的空間。 原子特征詞詞典的確立是基于關(guān)鍵詞的文本分類的非常關(guān)鍵的基礎(chǔ)問題,詞典中原子 特征詞的選取既要考慮這些詞在文本集合中出現(xiàn)的統(tǒng)計特征,選取那些反映文本內(nèi)容的原子特征詞;又要做停用詞表,去掉那些在特定語言中出現(xiàn)頻率較高但含義虛泛的詞,以降低特征空間的維數(shù);同時還要考慮關(guān)鍵詞的頻幅限制,以防止因少數(shù)關(guān)鍵詞在少數(shù)文本中頻幅過高而造成的聚類中心的偏移影響。 (2)關(guān)鍵詞相似度計算模型 由于我們對關(guān)鍵進行了抽取和加工,因此大部分的文獻關(guān)鍵詞與原子特征詞并不完全相同,由于在傳統(tǒng)的相似度計算模型中兩者的相似度將是 0,這會使得構(gòu)建的文獻空間向量矩陣絕大部分元素出現(xiàn) 0。因此,必須考慮兩種關(guān)鍵詞之間的部分 相似性。 6 假設(shè)兩個關(guān)鍵字 符長度分別為 續(xù)相同字符串長度為 l,則該兩個關(guān)鍵字相似度定義為 T(ki, 404),( ( 1) 顯然有 T(ki, 0, 1。這個公式考慮了關(guān)鍵字之間的部分相似性,提高了相似度計算的精度。例如:兩個關(guān)鍵字“公共圖書館”和“數(shù)字圖書館”,在許多的文獻聚類方法中將這兩個關(guān)鍵字的相似度定義為 0(即兩者完全不同), 5 這在某種程度上影響了文獻相似度的精確度。利用我們給出的公式( 1)計算結(jié)果為 更加準確地表示兩者的相似度。 (3)相似度加權(quán)計算模型 每一篇文獻一般有若干個關(guān)鍵詞,通過關(guān)鍵詞相似度計算模型中公式( 1)計算所得的值也相應(yīng)地有若干個。為了進一步提高文獻相似度的精確度,我們結(jié)合關(guān)鍵詞相似度計算模型和關(guān)鍵詞的頻次提出一種新的計算文獻相似度的相似度加權(quán)計算模型: 假設(shè)文獻的關(guān)鍵詞為文獻的關(guān)鍵詞集合定義為 () 12( ) ( , , , , , )i i nD k k k k k( 1) 定義文獻的關(guān)鍵詞的頻次為 () ( ( ) , ( ) , , ( ) , , ( ) )i i nF k F k F k F k F k( 2) 通過關(guān)鍵詞相似度計算模型計算 12( ) ( ( ) , ( ) , , ( ) , , ( ) )i i nT k T k T k T k T k( 3) 取公式( 3)中的最大值,定義為 ()k( ) ( ( ) )a x k T k(4) 定義相似度加權(quán)計算的值為 () ( ) ( ( ) 1 )i i iP k M a x k F k (5) (4)文獻空間向量的構(gòu)建 目標是將文獻數(shù)據(jù)表示為特征空間中的一個向量。該矩陣以文獻作為行,以原子特征詞作為文獻的特征詞,即作為列。每一篇文獻的每一個關(guān)鍵詞分別和每一個原子特征詞進行相似度計算,乘以該關(guān)鍵詞在摘要中出現(xiàn)的頻次加1后的最大值作為最終結(jié)果,因為該詞在文獻關(guān)鍵詞中也出現(xiàn) 1次。假設(shè) 文獻的空間向量矩陣表示為: .獻在 m 維空間的特征分量 i=1,2,n;j=1,2,m)計算是通過每篇文獻的關(guān)鍵詞與原子特征詞之間的相似度乘以該關(guān)鍵詞在摘要中出現(xiàn)的頻次加 1,并取最大值得到。例如:一篇文獻中的 3 個關(guān)鍵詞及在摘要中出現(xiàn)的頻次分別為:數(shù)字型圖書館( 3) ; 隱性知識( 4) ; 圖書館工作( 2),第 i 維的原子特征詞為“圖書館”。則這篇文獻的 wi(d)的計算方式為:首先利用相似度計算模型中公 式( 5)計算 3 個關(guān)鍵詞與原子特征詞“圖書館”的相似度值分別為 0、 后計算加權(quán)后的值分別為 3+1) =0( 4+1)=0、 2+1) =最大值 為 wi(d)的值。 6 類算法模型及步驟 ( 1) 類算法模型 的思想就是使得被劃分到同一 類的對象之間相似度最大,而不同 類 之間的相似度最小。模糊 均值算法的改進,普通 7。 代尋優(yōu)過程中 , 不斷更新各類的中心及隸屬度矩陣各元素的值 , 直到逼近下列準則函數(shù)最小值 211(,) Nc mm ij V u d , (2) 式 (1)中 V= , 重 (1, )m,2 ( ) ( )j i j x v A x v , 時, 歐式距離 。式 (2)的約束條件為11c , j ,運用拉格朗日乘數(shù)法,可得無約束的準則函數(shù) 2 1 1( 1 )N c N j i j i jj i j iF u d u , (3) 式( 3)取極小值的必要條件是 12 0,ij jF m u (4) 1( 1 ) 0 .c u (5) 由式 (3)可得 12 1( ) ,j m d (6) 將式 (6)代入式 (5)可得 11 112111( ) ( ) 1cc mj , (7) 從而有 1 11121( ) ,1()j (8) 將式 (8)代入式 (6)得 2111 .()ij mk (9) 考慮到,對j,定義集合 7 0,j i d 2 , , 3如果 ,則 2111 .()ij mk (10) 如果 則,令 0,類似地,可得聚類中心更新算式,令 ( , ) 0 , V 可得 11 ( ) ( ) 2 ( ) 0 ,j j i j i i j j x v A x v u A x 由此可得 ij j u x u (11) ( 2) 類算法步驟 ( 1)確定類數(shù) (2 )c c N 、參數(shù) m、矩陣 ; ( 2)置定初始模糊分類矩陣 (0), 中元素,令 s=0; ( 3)計算 ()的 ()11, 1 , 2 , , m mi i j j i u x u i c ( 4)按下面的方法更新 () ( 1 ) ( 1 ) j N 計算 0,j i d 2 , ,c I 計算 如果 ,那么2111 ,()ij mk 否則,0,ij i ( 5)以一個適當?shù)木仃嚪稊?shù)比較 () ( 1),如果 ( ) ( 1 ) ,停止;否則, s=s+1,返回( 3) 8. 8 三、文獻聚類的實現(xiàn) 文獻聚類實現(xiàn)的步驟如下: ( 1)數(shù)據(jù)抽樣:從 05年 據(jù)庫中情報學、文獻學、圖書館學三種學科文獻共 3932 篇文獻中,通過系統(tǒng)抽樣法,從中選取了 800 篇文獻,其中情報學 257篇,文獻學 120篇,圖書館學 423篇。 ( 2)數(shù)據(jù)清洗:通過中知網(wǎng)( 索,取出每一篇文獻的摘要部分,并統(tǒng)計每一篇文獻中關(guān)鍵詞在摘要中出現(xiàn)的頻次。去掉其中表達不規(guī)范的摘要,最終選取情報學、文獻學、圖書館學三個學科文獻共 681篇,其中情報學207篇,文獻學 98 篇,圖書館學 376篇,處理后的數(shù)據(jù)如圖 2所示。 圖 2 待聚類的文獻數(shù)據(jù) ( 3)抽取原子特征詞:取出 681篇文獻中所有的關(guān)鍵詞,從中人工選取 108個原子特征詞,如表 1。通過編寫程序,求出每一篇文獻中的每一個關(guān)鍵詞相對于 108 個原子特征詞的相 似度值,然后乘以該關(guān)鍵詞在摘要中出現(xiàn)的頻次加 1之后最大相似度值,即為相似度加權(quán)值。 表 1 原子特征詞表 1 安全 19 傳播 37 館員 55 排架 73 數(shù)字 91 影響因子 2 版本 20 導航 38 集成 56 評估 74 搜索引擎 92 用戶 3 版權(quán) 21 電子 39 計算機 57 評價 75 索引 93 語義 4 保存 22 調(diào)查 40 家譜 58 期刊 76 圖書 94 元數(shù)據(jù) 5 被引 23 讀者 41 價值 59 企業(yè) 77 圖書館 95 閱讀 6 本體 24 敦煌 42 檢 索 60 情報 78 圖像 96 整理 7 編目 25 分布式 43 建筑 61 全文數(shù)據(jù)庫 79 推送 97 政府 8 標引 26 分詞 44 借閱 62 人文 80 網(wǎng)絡(luò)計量 98 知識 9 博客 27 分類 45 競爭 63 人性化 81 網(wǎng)頁 99 智能 10 采訪 28 佛經(jīng) 46 口述 64 儒家 82 網(wǎng)站 100 中圖法 9 11 采購 29 個人 47 類目 65 商務(wù) 83 文獻 101 主題 12 參考 30 個性化 48 聯(lián)合 66 社會 84 信息 102 著錄 13 藏 書 31 公共 49 聯(lián)機 67 社區(qū) 85 虛擬 103 著作 14 查全 32 共享 50 聯(lián)盟 68 史料 86 敘詞表 104 專利 15 查新 33 古籍 51 鏈接 69 視頻 87 學科 105 咨詢 16 查詢 34 關(guān)鍵詞 52 論文 70 收錄 88 學術(shù) 106 資料 17 成本 35 館藏 53 目錄 71 書目 89 引文 107 資源 18 出版 36 館際 54 內(nèi)容分析 72 數(shù)據(jù) 90 隱性知識 108 自動化 ( 4)構(gòu)建文獻空間向量矩陣:以 681篇文獻作為行, 108個原子特征詞作為列,以步驟( 3)中求出的相似度加權(quán)值作為矩陣元素來構(gòu)建文獻空間向量矩陣R,圖 3 為 R 的部分元素。該矩陣每一行即為一篇文獻的一個空間向量,每一列(每一維)即為一個文獻特征。通過相似度加權(quán)計算的方法所取得的值與現(xiàn)有的方法相比較更加準確地反映出某個關(guān)鍵詞在文獻中的權(quán)重,而且所得的文獻空間向量矩陣 樣通過 定。 圖 3 文獻空間向量矩陣 ( 5)聚類實現(xiàn):將文獻空間向量矩陣 R 中的數(shù)據(jù)存入文本文檔,作為 法的數(shù)據(jù) 源。運行 法 100 以上,取出其中聚類目標函數(shù)值最小時的聚類結(jié)果作為最終結(jié)果輸出,程序界面如圖 4。通過多次運行并對結(jié)果進行比較發(fā)現(xiàn),聚類的結(jié)果比較穩(wěn)定,如表 2。 10 圖 4 序界面 表 2 前 200 項數(shù)據(jù)的聚類結(jié)果 1 3 21 3 41 2 61 1 81 1 101 1 121 1 141 1 161 2 181 3 2 2 22 2 42 1 62 1 82 1 102 2 122 1 142 2 162 3 182 1 3 2 23 1 43 1 63 1 83 1 103 1 123 1 143 1 163 2 183 3 4 3 24 1 44 1 64 1 84 1 104 1 124 1 144 1 164 2 184 3 5 1 25 3 45 1 65 2 85 1 105 1 125 1 145 1 165 2 185 2 6 3 26 3 46 3 66 1 86 1 106 1 126 1 146 2 166 2 186 1 7 1 27 2 47 1 67 3 87 1 107 3 127 1 147 3 167 3 187 3 8 1 28 1 48 1 68 3 88 1 108 2 128 1 148 3 168 3 188 2 9 3 29 2 49 1 69 1 89 1 109 1 129 1 149 3 169 3 189 3 10 2 30 1 50 1 70 1 90 1 110 1 130 1 150 3 170 1 190 1 11 3 31 2 51 1 71 1 91 2 111 1 131 1 151 3 171 2 191 3 12 3 32 2 52 1 72 1 92 1 112 1 132 1 152 1 172 1 192 1 13 3 33 1 53 2 73 1 93 1 113 1 133 2 153 2 173 1 193 3 14 1 34 1 54 1 74 3 94 1 114 1 134 3 154 1 174 2 194 3 15 3 35 1 55 1 75 2 95 3 115 1 135 1 155 1 175 3 195 1 16 1 36 1 56 1 76 1 96 2 116 1 136 3 156 1 176 3 196 1 17 1 37 3 57 1 77 1 97 1 117 1 137 1 157 3 177 1 197 2 18 2 38 3 58 1 78 1 98 2 118 1 138 1 158 2 178 3 198 1 19 2 39 3 59 3 79 1 99 1 119 1 139 1 159 1 179 3 199 2 20 1 40 1 60 2 80 1 100 2 120 1 140 3 160 1 180 1 200 1 ( 6)學科交叉研究方法:通過 2)中已知的學科分類數(shù)據(jù)相比較,得到一張 學科交叉表。該表以原子特征詞作為行,以兩兩學科相互之間是否交叉作為列,統(tǒng)計原子特征詞是否在某兩門學科之間出 11 現(xiàn)以及如果出現(xiàn),那么出現(xiàn)的頻次為多大。這樣就可以清晰地知道:哪些文獻屬于交叉學科,學科之間正在共同探討哪些方面以及該方面的關(guān)注度如何。 四、聚類結(jié)果統(tǒng)計分析 建立一張二維表,通過 類所得的文獻分類結(jié)果與文獻在現(xiàn)實中的學科分類相比,就可以很清楚地看到該文獻是否為交叉學科,同時很清楚地看到該文獻屬于哪幾門學科交叉及各學科之間的交叉點(關(guān)注點)。 表 3 部分學科交叉表(完整學科交叉表見附錄 原子特征詞 全 0 3 0 0 2 0 5 0 0 版本 0 0 3 0 0 0 0 0 0 版權(quán) 0 0 0 0 2 0 4 0 0 保存 0 5 0 0 0 0 0 0 0 被引 0 2 4 0 0 0 0 0 0 本體 0 8 0 0 0 0 0 6 0 表 1(見附錄 每個字段中前 一個數(shù)字表示文獻通過 類方法聚成的結(jié)果,共分為 3 類,分別用 I、 示;后一個數(shù)據(jù)表示文獻的實際分類,其中“ 1”代表“圖書館學”;“ 2”代表“情報學”;“ 3”代表“文獻學”。例如:“ 一個“ I”代表文獻通過 后一個“ 1”表示文獻現(xiàn)實中被歸為圖書館學。 從表 1(見附錄 我們可以看出: ( 1)文獻中哪些屬于交叉學科范疇。當一部分文獻通過原子特征詞被聚為同一類時,說明這些文獻研究或探討的內(nèi)容有相同或相似的方面,在這一類中的文獻如果現(xiàn)實中屬于不同學科時,那么說明 學科之間有交叉的部分,其中一些文獻屬于交叉學科。從原子特征詞中,我們可以進一步看出學科之間共同關(guān)注的課題。 ( 2)如果某個原子特征詞分別在不同學科中出現(xiàn),那么從中我們可以很明顯地看出該原子特征詞被哪些學科同時關(guān)注。例如第八行的原子特征詞“編目”通過 在現(xiàn)實中同時出現(xiàn)于“圖書館學”、“情報學”、“文獻學”三門學科。從中我們可以看出,這三門學科正在同時研究“編目”這個方面。 ( 3)通過原子特征詞的統(tǒng)計頻次,我們可以進一步看出某個原子特征詞的關(guān)注度。如果某個原子特征詞在某些學科中同時多次出 現(xiàn),那么可以肯定地是這個原子特征詞是不同學科研究的熱點問題。例如:“檢索”在圖書館學中出現(xiàn)地頻次為 7,在情報學中出現(xiàn)地頻次為 98,在文獻學中出現(xiàn)地頻次為 11,而且是被聚為同一類中。從中可以看出,三門學科在“檢索”方面屬于交叉學科范疇,而且它在三門學科中的關(guān)注度很高。 2. 統(tǒng)計分析 ( 1)聚類結(jié)果的學科類別統(tǒng)計分析 表 4 聚類結(jié)果的學科類別統(tǒng)計表 文獻數(shù) 圖書館學 情報學 文獻學 合計 12 類別 I 63 154 93 30% 310 06 32 3 141 07 90% 21 2 230 合計 376 207 98 681 從表 4中統(tǒng)計的結(jié)果可以看出,聚類結(jié)果的第 和文獻學( 30%)組成,圖書館學占 因此第 I 類中可以分析出情報學與文獻學、情報學與圖書館學之間的交叉關(guān)系;第 2 類中主要是由圖書館學(和情報學(占 組成,因此第 主要由圖書館學(占 90%)組成,包 含 情報學有可能成為研究的新的增長點。圖 5是三個類別中學科分布情況。以上是對三個學科類別總體情況的分析,下面將作更為詳細的分析。 第 I 類別 學科分布狀況情報學 : 49 . 7 %圖書館學 : 20 . 3 %文獻學 : 30 %123第 別 學科分布狀況圖書館學 :報學 : 22 . 7 %文獻學 : 2 . 1 %123 13 第 別 學科分布狀況圖書館學 : 90 %情報學 : 9 . 1 %文獻學 : 0 . 9 %123圖 5 三個類別學科分布狀況 ( 2)學科研究熱點分析 綜合上述的統(tǒng)計情況,類別 別 要是圖書館學為主,因此,按以下思路分別對三個類別進行統(tǒng)計分析來研究各個學科的研究熱點: ( 1)從第 情報學中原子特征詞頻次降序排列后,排在前 10位的數(shù)據(jù)如下: 原子特征詞 圖書館 情報學 文獻學 總計 情報 0 115 0 115 檢索 7 98 11 116 競爭 0 71 0 71 信息 19 65 0 84 數(shù)據(jù) 8 63 9 80 資源 27 52 20 99 數(shù)字 12 43 11 66 知識 14 43 0 57 參考 7 32 5 44 期刊 13 30 6 49 ( 2)從第 文獻學中原子特征詞頻次降序排列后,排在前 10位的數(shù)據(jù)如下: 原子特征詞 圖書館 情報學 文獻學 總計 文獻 4 8 42 54 資源 27 52 20 99 編目 7 2 19 28 查新 0 7 15 22 分詞 0 0 15 15 標引 0 3 13 16 著錄 4 0 13 17 藏書 2 0 12 14 檢索 7 98 11 116 數(shù)字 12 43 11 66 ( 3)從第 中,按圖書館學中原子特征詞頻次降序排列后,排在前 10 14 位的數(shù)據(jù)如下: 原子特征詞 圖書館 情報學 文獻學 總計 圖書 295 0 2 297 圖書館 292 0 2 294 數(shù)字 97 0 0 97 知識 53 16 0 69 資源 39 11 0 50 館員 27 0 0 27 社區(qū) 25 0 0 25 評價 23 0 0 23 信息 17 0 0 17 社會 17 0 0 17 ( 4)研究熱點匯總 將三張表的結(jié)果進行匯總得到每個學科研究的熱點如下表: 研究熱點 學 科 研究熱點 圖書館學 數(shù)字圖書館、知識管理、信息資源、信息評價、社區(qū)圖書館等 情報學 情報檢索、競爭情報、知識管理、信息資源管理、信息數(shù)字化等。 文獻學 文獻資源管理、文獻檢索、文獻查新、數(shù)字文獻、藏書等 ( 3)學科交叉分析 從三張表中字體為黑斜體的數(shù)據(jù)統(tǒng)計出三個學科之間的交叉情況如下表: 圖書館學 報學 數(shù)字圖書館、 知識管理、信息資源等 情報學 獻學 文獻檢索、編目、文獻、信息資源等 文獻學 書館學 編目、文獻、信息資源、知識管理等 文獻學 書館學 報學 檢索、數(shù)據(jù)、資源、參考、期刊、編目等 ( 4)新的學科增長點分析 為了研究新的學科增長點,我們從第 中提取了情報學文獻進行研究,由于該類別中絕大部分屬于圖書館學,盡管其中只有 21 篇文獻既屬于圖書館學又屬于情報學研究內(nèi)容,因此該類別中這種學科交叉點有可能成為情報學新的增長點。具體數(shù)據(jù)如下圖: 15 圖 6 第 中情報學文獻數(shù)據(jù) 從數(shù)據(jù)中可以 看出,其中“數(shù)字圖書館”涉及較多,當然它也是 05 年圖書情報研究的熱點,這是一個顯性的知識;而其中的“語義 “本體”、“知識”等詞的出現(xiàn),應(yīng)該成為我們必須關(guān)注的信號,因為它們可能在若干年后成為圖書情報學研究的新的增長點。為了驗證我們的結(jié)論,我們從中知網(wǎng)的 數(shù)字出版物超市 中國學術(shù)文獻網(wǎng)絡(luò)出版總庫 學科學術(shù)熱點 ,從中檢索“本體”關(guān)鍵字的結(jié)果如下表: 序號 熱點主題 主要知識點 主題所屬學科名稱 熱度值 文獻數(shù) 相關(guān)國家課題數(shù) 研究人員數(shù) 研究機構(gòu)數(shù) 5 語義網(wǎng) ;知識服務(wù) ;本體 ; 語義網(wǎng) ;知識服務(wù) ;本體 ;識管理 ;萬維網(wǎng) ;高校圖書館 ;數(shù)據(jù) ;網(wǎng)絡(luò)檢索 ;圖書館 ;圖書館員 ;本體映射 ;智能檢索 ;圖書館服務(wù) ;知識地圖 ;知識服務(wù)系統(tǒng) ;數(shù)字圖書館建設(shè) ;語義 圖書情報與數(shù)字圖書館 ;計算機軟件及計算機應(yīng)用 ; 10149 178 25 273 127 6 語義網(wǎng) ;本體 ;信息組織 ; 語義網(wǎng) ;本體 ;務(wù) ;數(shù)字圖書館 ;萬維網(wǎng) ;獻標題 ;搜索引擎 ;網(wǎng)絡(luò)檢索 ;元數(shù)據(jù) ;知識服務(wù) ;智能檢索 ;圓周率 ;本體論 ;知識表示 ;信息檢索系統(tǒng) ;據(jù)庫 ;體語言 ; 互聯(lián)網(wǎng)技術(shù) ;計算機軟件及計算機應(yīng)用 ; 7959 146 28 226 104 從表中可以檢驗我們通過對 05年數(shù)據(jù)挖掘的結(jié)果在 09年得到驗證。 五、結(jié)論 本次建模的主要目標是通過文獻聚類發(fā)現(xiàn)學科交叉和學科熱點等隱藏在數(shù)據(jù)背后的學科知識。在建模中,我們選取了 05 年圖書情報學的 681 篇文獻作為統(tǒng)計建模的數(shù)據(jù),由于采用了系統(tǒng)抽樣的方法,因此研究的數(shù)據(jù)具有一定的代表性。通過數(shù)據(jù)的采集和預(yù)處理、模型的建立、實驗仿真、結(jié)果的統(tǒng)計分析和結(jié)果檢驗等各個環(huán)節(jié),我們比較順利 地完成了本次建模任務(wù)。經(jīng)檢驗,模型是科學的,結(jié)果是正確的。主要的創(chuàng)新點:( 1)在設(shè)計的模型中,我們提出了一種新的相似度加權(quán)模型,從而使得 類所得的結(jié)果更加合理和準確。( 2)設(shè)計了學科交叉表。從學科交叉表中可以一目了然地看出哪些學科在哪些方面交叉,同時還可以看出哪些課題是學科之間的熱點及新的增長點。這樣研究人員、學者就可以在第一時間很清楚地了解到交叉學科的熱點及增長點,不僅節(jié)省花在查找方面的時間與精力,更為重要地是,可以時刻掌握先機,搶占科學前沿。該模型還需改進的方面有:( 1)模型只考慮了摘要詞對關(guān)鍵詞 的貢獻度,還可以考慮標題詞對關(guān)鍵詞的貢獻度,以進一步加強文獻間相似度的精確性;( 2)由于 此在該模型中可以引入模糊理論,使得聚類的結(jié)果有重合,對于研究學科交叉將更為直接。 16 參考文獻 1林春燕,朱東華 計算機應(yīng)用, 2004. 2蔣澄 ,馬范援 ,蔣思杰 索引擎的信息處理 J1999,25(4):373 嚴威 ,趙政 J1999,25(6):54 胥桂仙 ,蘇筱蔚 ,陳淑艷 J2002,23(1):165 牛正雨 ,柴佩琪 J2001,(1):256魏建香,蘇新寧 . 基于關(guān)鍵字和摘要相關(guān)度的文獻聚類研究 . 情報學報,2009, 28( 2) . 7金華 . 分級聚類與平面劃分結(jié)合方法在網(wǎng)頁分類中的應(yīng)用 . 計算機工程與應(yīng)用 , 2004. 8胡寧靜,王靖 . 基于模糊 c 均值算法文檔聚類問題的研究 . 長沙電力學 院學報 , 2004. 17 附錄 I: 法( U, %if 2 & 3, %判斷輸入的函數(shù)參數(shù)個數(shù)只能是 2個或 3個 or ); 1); %求出 ,即樣本個數(shù) 2); %求出 ,即特征值長度 2;100;1; %默認操作參數(shù) 隸屬度矩陣 最大迭代次數(shù) 隸屬度最小變化量 迭代終止條件 每次迭代是否輸出信息標志 if 2, if , if i) 18 i; :; % 標函數(shù)值 % U:隸屬度矩陣 % 類中心 附錄 表 1 學科交叉表 原子特征詞 1全 0 3 0 0 2 0 5 0 0 版本 0 0 3 0 0 0 0 0 0 版權(quán) 0 0 0 0 2 0 4 0 0 保存 0 5 0 0 0 0 0 0 0 被引 0 2 4 0 0 0 0 0 0 本體 0 8 0 0 0 0 0 6 0 編目 7 2 19 2 0 0 5 0 0 標引 0 3 13 0 0 0 0 0 0 博客 0 9 0 0 0 0 0 0 0 采訪 2 2 7 8 0 0 4 0 0 采購 2 0 8 3 2 0 3 0 0 參考 7 32 5 2 8 0 10 5 0 藏書 2 0 12 9 0 0 7 0 0 查全 0 7 0 0 0 0 0 0 0 查新 0 7 15 0 0 0 0 0 0 查詢 0 10 0 0 0 0 0 0 0 成本 4 5 0 0 0 0 11 0 0 出版 0 0 3 0 0 0 0 0 4 傳播 0 0 0 0 3 0 4 0 0 導航 0 8 2 0 0 0 0 0 0 電子 16 15 10 0 0 0 0 0 0 調(diào)查 0 0 0 0 0 0 3 0 0 讀者 2 0 0 6 0 0 9 0 0 敦煌 0 0 4 0 0 0 0 0 0 分布式 2 0 0 0 0 0 0 0 0 分詞 0 0 15 0 0 0 0 0 0 分類 0 0 4 0 0 0 0 0 0 佛經(jīng) 0 0 5 0 0 0 0 0 0 個人 0 7 0 0 3 0 4 0 0 個性化 0 10 0 0 0 0 0 2 0 19 公共 0 0 0 0 0 0 0 0 0 共享 7 6 8 6 2 0 8 0 0 古籍 0 0 0 0 0 0 0 0 0 關(guān)鍵詞 0 3 4 0 0 0 0 0 0 館藏 6 0 0 0 0 0 2 0 0 館際 0 0 0 0 0 0 0 0 0 館員 18 0 0 14 0 0 27 0 0 集成 0 4 0 3 4 2 0 2 0 計算機 0 0 0 0 0 0 2 0 0 家譜 0 0
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 軍品訂購項目管理辦法
- 北京車位產(chǎn)權(quán)管理辦法
- 資本驅(qū)動下人工智能產(chǎn)業(yè)化的倫理挑戰(zhàn)與應(yīng)對策略
- 睡眠剝奪對小鼠色氨酸代謝及行為影響機制研究
- 體檢機構(gòu)備案管理辦法
- 佛山酒店宿舍管理辦法
- 西部地區(qū)經(jīng)濟韌性對經(jīng)濟高質(zhì)量發(fā)展的影響研究
- 基于機器視覺的鋼板表面缺陷自動檢測系統(tǒng)設(shè)計與實現(xiàn)
- 未發(fā)生較大及以上生產(chǎn)安全事故
- 智慧醫(yī)院建設(shè)管理辦法
- 保安公司薪酬管理制度
- 井蓋巡查管理制度
- GB/T 33490-2025展覽展示工程服務(wù)基本要求
- 2024年國能榆林化工有限公司招聘真題
- 消防總隊面試題目及答案
- 《低鈉血癥中國專家共識(2023年版)》解讀課件
- GB/T 45604-2025船舶與海洋技術(shù)大抓力平衡錨
- 國家中小學智慧教育平臺與人工智能融合應(yīng)用指南(試行)
- 混凝土攪拌站企業(yè)管理規(guī)范與要求
- 物業(yè)公司接管寫字樓項目工作時間倒推計劃表(T日為入駐日)
- 重點人口管理工作規(guī)定
評論
0/150
提交評論