中文短文本語(yǔ)法語(yǔ)義相似度算法_第1頁(yè)
中文短文本語(yǔ)法語(yǔ)義相似度算法_第2頁(yè)
中文短文本語(yǔ)法語(yǔ)義相似度算法_第3頁(yè)
中文短文本語(yǔ)法語(yǔ)義相似度算法_第4頁(yè)
中文短文本語(yǔ)法語(yǔ)義相似度算法_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、https:/中文短文本語(yǔ)法語(yǔ)義相似度算法中文短文本語(yǔ)法語(yǔ)義相似度算法摘要:通過(guò)分析中文短文本的特征,提出了一種基于語(yǔ)法語(yǔ)義的短文本相似度算法.該算法結(jié)合中文語(yǔ)句語(yǔ)義的相似性以及語(yǔ)句語(yǔ)法的相似性,即計(jì)算具有相同句法結(jié)構(gòu)的短文本的相似度以及考慮語(yǔ)句詞組順序?qū)ο嗨贫鹊呢暙I(xiàn),對(duì)中文短文本相似度進(jìn)行計(jì)算.實(shí)驗(yàn)表明,本文提出的算法在中文短文本相似度計(jì)算結(jié)果上更加接近人們的主觀判斷并且擁有比較好的精確率與召回率.關(guān)鍵詞:語(yǔ)法語(yǔ)義相似度;語(yǔ)句相似性計(jì)算;HowNet;語(yǔ)料庫(kù);語(yǔ)法分析;語(yǔ)義分析;相似度計(jì)算中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1674-2974(2016)02-0135-06短

2、文本相似度計(jì)算在文章查重、信息檢索、圖像檢索、智能機(jī)器問(wèn)答、詞義消歧和搜索引擎等多個(gè)領(lǐng)域有著非常廣泛的應(yīng)用1,并在英文處理方面取得了許多實(shí)質(zhì)性的成果,如機(jī)器人語(yǔ)音對(duì)話系統(tǒng)等.但是在中文信息處理中存在一些困難,例如未登錄詞識(shí)別問(wèn)題、語(yǔ)法結(jié)構(gòu)復(fù)雜和一詞多義等2.為此本文主要研究中文短文本(語(yǔ)句)相似度計(jì)算方法,并提高計(jì)算結(jié)果的精確度.短文本相似度表示的是多個(gè)短文本(語(yǔ)句)之間的相似程度,屬于一種度量參數(shù),相似度值越高,則表明文本間越相似,反之越不相似3.文本相似度包括語(yǔ)義和語(yǔ)法等方面,但是在實(shí)際中主要考慮語(yǔ)義層次的相似性,往往忽略了文本的語(yǔ)法結(jié)構(gòu)對(duì)文本相似度的重要影響.大量的研究證明短文本的語(yǔ)法結(jié)

3、構(gòu)對(duì)相似性的影響是非常重要的4,但是當(dāng)前基于 HowNet5的中文短文本相似度計(jì)算大都是分析文本的語(yǔ)義層次的相似性,這樣就會(huì)導(dǎo)致計(jì)算結(jié)果的精確度和召回率都不高,為了提高相似度計(jì)算的精確度和召回率,本文以 HowNet 為語(yǔ)料庫(kù)和 Stanford6為語(yǔ)法解析工具,在中文短文本的語(yǔ)義信息基礎(chǔ)上加入了文本的語(yǔ)法結(jié)構(gòu)信息來(lái)研究短文本相似度計(jì)算.1 語(yǔ)句相似度計(jì)算HowNet 主要揭示了概念間關(guān)系及概念的屬性間的關(guān)系,有關(guān) HowNet 詳細(xì)介紹可見(jiàn)參考文獻(xiàn)2,在此不贅述.義原距離定義為兩個(gè)義原間最短路徑上邊的數(shù)目7.義原距離反映的是兩個(gè)義原的相對(duì)關(guān)系,距離越大,則表明兩者相似性越低,反之則越高.義原

4、深度定義為兩個(gè)義原的最近公共父節(jié)點(diǎn)到根節(jié)點(diǎn)的層次數(shù).義原深度反映的是兩個(gè)義原在義原層次結(jié)構(gòu)中的絕對(duì)關(guān)系,深度越小,表明兩者越不相似,反之則越相似.2 基于語(yǔ)法語(yǔ)義的相似度計(jì)算https:/目前基于中文短文本的相似度算法中,大多數(shù)研究者著眼于語(yǔ)句的語(yǔ)義層次,然而組成一個(gè)語(yǔ)句的不單單是詞語(yǔ)本身的語(yǔ)義含義,還包括語(yǔ)法結(jié)構(gòu),例如一個(gè)句子包含不同的句法和詞語(yǔ)順序8等.最近大量實(shí)驗(yàn)證明語(yǔ)句的語(yǔ)法結(jié)構(gòu)對(duì)相似度有著重要的影響,不能忽視4.例如,“今天我追趕了一只狗.”和“一只狗今天追趕了我.”這兩個(gè)語(yǔ)句根據(jù)人的主觀判斷,是兩種相反的意思,可是目前絕大多數(shù)相似度算法中這兩個(gè)語(yǔ)句的相似度值是極其高的,甚至是 1,

5、即完全一樣,這顯然不合適.忽視了語(yǔ)句的語(yǔ)法信息,其計(jì)算結(jié)果往往缺乏合理性.本文對(duì)中文語(yǔ)句的相似度算法進(jìn)行改進(jìn),在計(jì)算相似度的時(shí)候,不但考慮語(yǔ)義信息,還將語(yǔ)句的語(yǔ)法結(jié)構(gòu)加進(jìn)來(lái).本文涉及的語(yǔ)法結(jié)構(gòu)主要從 3 方面來(lái)進(jìn)行考慮:1)具有相同語(yǔ)法結(jié)構(gòu)的詞語(yǔ)集合間的相似度;2)兩個(gè)語(yǔ)句中所包含的語(yǔ)法結(jié)構(gòu)的相似性;3)經(jīng)過(guò)分詞后的詞組在語(yǔ)句中出現(xiàn)的位置的相似性.為了解決目前中文領(lǐng)域大多數(shù)短文本相似度計(jì)算僅僅涉及語(yǔ)句語(yǔ)義特性的缺陷,本文結(jié)合語(yǔ)句的語(yǔ)義特性和語(yǔ)法特性,進(jìn)行短文本的相似度計(jì)算.2.1 語(yǔ)法結(jié)構(gòu)的提取要對(duì)語(yǔ)句的語(yǔ)法結(jié)構(gòu)進(jìn)行提取與分析,首先需要對(duì)語(yǔ)句進(jìn)行分詞.本文使用Ictclas4j 分 詞 工 具

6、 , 該 工 具 是 Sinboy 在 中 科 院 張 華 平 和 劉 群 研 制 的FreeICTCLAS 的基礎(chǔ)上完成的一個(gè)開(kāi)源中文分詞項(xiàng)目.同時(shí)使用 Stanford6工具進(jìn)行語(yǔ)法解析,該工具是由 Stanford NLP Group 開(kāi)發(fā)的開(kāi)源工具.對(duì)于某一中文語(yǔ)句,經(jīng)過(guò)語(yǔ)法工具分析后,能夠得到某個(gè)詞語(yǔ)的具體詞性,斜杠后面表示的就是該詞語(yǔ)的具體詞性,如圖 1 所示.但是,僅僅知道詞語(yǔ)的具體詞性是不夠的,具體的詞性代表的是詞語(yǔ)的特性,并不表示一個(gè)語(yǔ)句的結(jié)構(gòu)組成,我們需要從中提取出語(yǔ)句的語(yǔ)法結(jié)構(gòu),例如簡(jiǎn)單從句、名詞性從句和動(dòng)詞短語(yǔ)等,然后把相應(yīng)的詞語(yǔ)或短語(yǔ)歸類(lèi)到語(yǔ)法結(jié)構(gòu)集合中.本文通過(guò)分析

7、漢語(yǔ)語(yǔ)法結(jié)構(gòu)的多樣性及詞語(yǔ)的具體詞性,提出一種新的語(yǔ)句語(yǔ)法結(jié)構(gòu)的提取方法,提取過(guò)程如下:1)使用 Ictclas4j 與 Stanford 對(duì)語(yǔ)句進(jìn)行分詞處理以及語(yǔ)法解析,得到最基本的詞語(yǔ)或短語(yǔ)的詞性標(biāo)注.2)進(jìn)一步分析以上獲得的結(jié)果,通過(guò)逐層解析以及句法樹(shù)分析的方式把已https:/經(jīng)標(biāo)注好語(yǔ)法詞性的詞語(yǔ)或短語(yǔ)進(jìn)行抽取與歸納,抽取出語(yǔ)句的組成結(jié)構(gòu)類(lèi)型,例如簡(jiǎn)單從句類(lèi)型和動(dòng)詞短語(yǔ)類(lèi)型等.3)最后把具有相同語(yǔ)法結(jié)構(gòu)類(lèi)型的詞語(yǔ)或短句存放在相應(yīng)結(jié)構(gòu)類(lèi)型的集合中,形成不同的語(yǔ)法結(jié)構(gòu)集合,例如簡(jiǎn)單從句類(lèi)型集合、名詞性從句類(lèi)型集合和動(dòng)詞短語(yǔ)類(lèi)型集合等,實(shí)現(xiàn)對(duì)語(yǔ)句的語(yǔ)法組成結(jié)構(gòu)的分析.通過(guò)使用上述語(yǔ)句語(yǔ)法結(jié)

8、構(gòu)提取方法進(jìn)行語(yǔ)句語(yǔ)法處理,提取出語(yǔ)句的語(yǔ)法結(jié)構(gòu)以及相應(yīng)所包含的詞組,如圖 2 所示.與圖 1 相比較,我們發(fā)現(xiàn)一個(gè)中文語(yǔ)句經(jīng)過(guò)語(yǔ)法結(jié)構(gòu)提取后,可以得到該語(yǔ)句的結(jié)構(gòu)組成,例如動(dòng)詞性短語(yǔ)和介詞性短語(yǔ)等,相比于圖 1 中單個(gè)詞語(yǔ)的詞性標(biāo)注,能夠得到語(yǔ)句的語(yǔ)法結(jié)構(gòu)組成,更加有利于對(duì)中文語(yǔ)句語(yǔ)法語(yǔ)義相似度的研究.因?yàn)檠芯空Z(yǔ)句的語(yǔ)法結(jié)構(gòu)時(shí),我們更加傾向于研究其整體的結(jié)構(gòu)類(lèi)型組成,而不是單單某個(gè)詞語(yǔ).中文語(yǔ)句句法結(jié)構(gòu)類(lèi)型部分見(jiàn)表 1.2.2 語(yǔ)句句法結(jié)構(gòu)類(lèi)型相似度計(jì)算經(jīng)過(guò)語(yǔ)句語(yǔ)法結(jié)構(gòu)提取方法分析后,每個(gè)語(yǔ)句都被切分成若干個(gè)結(jié)構(gòu)類(lèi)型,例如有的包含名詞性短語(yǔ)和動(dòng)詞性短語(yǔ)等,有的卻包括簡(jiǎn)單從句、名詞性短語(yǔ)和副詞

9、短語(yǔ)等.語(yǔ)句語(yǔ)法結(jié)構(gòu)類(lèi)型相似度計(jì)算思想就是計(jì)算兩個(gè)語(yǔ)句中含有相同結(jié)構(gòu)類(lèi)型的個(gè)數(shù)與所有結(jié)構(gòu)類(lèi)型的個(gè)數(shù)的比值.該比值反映了兩個(gè)語(yǔ)句在句法結(jié)構(gòu)上的相似性.定義 1 假設(shè)語(yǔ)句 Sen1 包含 m 個(gè)不同的句法結(jié)構(gòu)類(lèi)型,分別為 ST11,ST12,ST1m,Sen2 包含 n 個(gè)不同的句法結(jié)構(gòu)類(lèi)型,分別為 ST21,ST22,ST2n,則句法結(jié)構(gòu)上的相似度 sst 計(jì)算公式如下:2.3 語(yǔ)句詞組位置相似度計(jì)算中文語(yǔ)句中詞組的位置對(duì)短文本間的相似性有著重要影響,所以需要計(jì)算詞組位置的相似度8.本文中采用的方法不是以單個(gè)漢字為基本單位,而是以經(jīng)過(guò)分詞后的詞組為單位,因?yàn)閱蝹€(gè)漢字包含的信息太少,詞組能夠反映更

10、多的信息,所以以詞組為單位計(jì)算詞組位置的相似度更加合理.本文計(jì)算語(yǔ)句詞組位置相似度的方法如下:2.4 基于語(yǔ)法結(jié)構(gòu)的語(yǔ)句語(yǔ)義相似度計(jì)算目前絕大多數(shù)的中文語(yǔ)句相似度計(jì)算方法都是根據(jù)第一個(gè)語(yǔ)句中的每個(gè)詞語(yǔ)分別和第二個(gè)語(yǔ)句中的每對(duì)詞語(yǔ)計(jì)算相似度,取最大值作為第一個(gè)語(yǔ)句中的那個(gè)詞語(yǔ)對(duì)第二個(gè)語(yǔ)句的相似度,然后第一個(gè)語(yǔ)句中每個(gè)詞語(yǔ)都這樣計(jì)算,最https:/后取所有相似度值的均值作為第一個(gè)語(yǔ)句對(duì)第二個(gè)語(yǔ)句的相似度.上述的方法完全依靠語(yǔ)義信息,而忽視了語(yǔ)法結(jié)構(gòu)信息,計(jì)算結(jié)果都不太理想,因此本文把語(yǔ)法結(jié)構(gòu)信息加入計(jì)算中,即計(jì)算具有相同語(yǔ)法結(jié)構(gòu)類(lèi)型的詞組間的相似度,綜合了語(yǔ)法和語(yǔ)義兩大方面.2.5 基于語(yǔ)法語(yǔ)義

11、的語(yǔ)句相似度計(jì)算基于語(yǔ)法語(yǔ)義的語(yǔ)句相似度計(jì)算方法綜合考慮了語(yǔ)法和語(yǔ)義兩方面特性,主要包括基于語(yǔ)法結(jié)構(gòu)的語(yǔ)句語(yǔ)義相似度計(jì)算、語(yǔ)句語(yǔ)法結(jié)構(gòu)類(lèi)型相似度計(jì)算和語(yǔ)句詞組位置相似度計(jì)算.通過(guò)公式(5),(6)和(7)可以得到語(yǔ)句間的最終計(jì)算公式,見(jiàn)式(8).公式(8)表示,中文語(yǔ)句間的相似度最終由語(yǔ)句的語(yǔ)法和語(yǔ)義的相似性共同構(gòu)成.在計(jì)算短文本(語(yǔ)句)間的相似度時(shí),改變了以往僅僅考慮語(yǔ)句語(yǔ)義相似性的思路,本文不但考慮語(yǔ)義相似性,還考慮了語(yǔ)句語(yǔ)法結(jié)構(gòu)對(duì)相似性的影響.本文在計(jì)算語(yǔ)義相似度時(shí),加入語(yǔ)法結(jié)構(gòu)信息,即計(jì)算具有相同語(yǔ)法結(jié)構(gòu)的詞組集合間的相似度,另外充分考慮了句法結(jié)構(gòu)類(lèi)型和詞組位置相似性對(duì)整體語(yǔ)句相似度的

12、貢獻(xiàn)與影響.最終短文本(語(yǔ)句)間相似度計(jì)算更加符合中文語(yǔ)句的特點(diǎn),計(jì)算結(jié)果更加合理,與人們的主觀判斷更為接近.3 實(shí)驗(yàn)及分析當(dāng)前基于語(yǔ)法的相似度計(jì)算方法多用于英文短文本處理,為進(jìn)行中文短文本相似度計(jì)算,本文采用了以下 3 種方法來(lái)對(duì)相似度算法進(jìn)行分析.方法一:劉群、李素建等9提出的一種相似度方法,在計(jì)算時(shí)僅僅考慮義原距離,未考慮深度.方法二:一種既考慮義原距離和深度,又在計(jì)算過(guò)程中加入詞語(yǔ)詞頻作為權(quán)重的方法2,具體參數(shù)設(shè)置詳見(jiàn)參考文獻(xiàn)2.方法三:本文中介紹的基于語(yǔ)法語(yǔ)義的短文本相似度計(jì)算方法.利用上述 3 種方法分別測(cè)試 50 對(duì)中文語(yǔ)句,計(jì)算語(yǔ)句(短文本)間的相似度值,部分計(jì)算結(jié)果見(jiàn)表 2.

13、3.1 權(quán)重因子實(shí)驗(yàn)與分析利用上述實(shí)驗(yàn)數(shù)據(jù),對(duì)方法三的短文本相似度計(jì)算公式中的權(quán)重因子 a 和 b進(jìn)行實(shí)驗(yàn)分析,獲得能夠使得計(jì)算公式的效果最佳的權(quán)重因子組合.采用控制變量法對(duì) a=0.35,0.45,0.55,0.65,0.75,0.85,0.90,0.95https:/和 b=0.3,0.4,0.5,0.6,0.7,0.8 進(jìn)行實(shí)驗(yàn)分析,且設(shè)置相似度閾值為 0.6,根據(jù)獲得的結(jié)果進(jìn)而計(jì)算得到不同的精確度和召回率.不管權(quán)重因子 a 和 b 取上述的哪個(gè)值,本文提出的相似度計(jì)算方法的召回率基本上都是差不多的,穩(wěn)定在 0.882 上下,這說(shuō)明了本文方法的穩(wěn)定性. 根據(jù)實(shí)驗(yàn)結(jié)果繪制本文方法在權(quán)重因子

14、 a 和 b 不同取值時(shí)的精確度的折線圖,如圖 3 所示,其中橫坐標(biāo)表示 a 的取值,縱坐標(biāo)表示精確度,b 的不同取值采用不同的線條表示.根據(jù)圖 3 分析可知,當(dāng)權(quán)重因子 a 的值大于 0.6,b 的取值在0.4,0.6時(shí),本文方法的精確度基本上都在 0.75 以上,尤其當(dāng) a 值在(0.85,0.95區(qū)間時(shí),本方法的精確度可達(dá)到最大值 0.833,且比較穩(wěn)定.綜上所述,可以得到本文最終計(jì)算公式中的權(quán)重因子 a 和 b 的取值范圍.當(dāng)a 值在(0.85,0.95區(qū)間,且 b 的取值在0.4,0.6時(shí),本文方法的召回率以及精確度能夠同時(shí)達(dá)到比較高的水平,分別為 0.882 和 0.833.3.2

15、 短文本相似度實(shí)驗(yàn)與分析方法三中的權(quán)重因子 a 和 b 分別取為 0.88 和 0.5,然后對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,計(jì)算 3 種不同計(jì)算方法的計(jì)算結(jié)果的精確率和召回率,且設(shè)置相似度閾值為 0.6,結(jié)果如圖 4 所示.根據(jù)圖 4 可知,在召回率基本上比較高的情況下,本文提出的方法的精確率為 0.833,比方法一的 0.577 和方法二的 0.619 都要高,這說(shuō)明本文方法非常明顯地提高了查準(zhǔn)率,有效地減少了噪音數(shù)據(jù),計(jì)算結(jié)果更加能夠被人們接受.把實(shí)驗(yàn)數(shù)據(jù)分為近義的語(yǔ)句對(duì)集合和反義的語(yǔ)句對(duì)集合,分別進(jìn)一步分析.對(duì)于近義的語(yǔ)句對(duì)集合,將相似度區(qū)間分為 3 個(gè),圖 5 描述了不同方法在每個(gè)區(qū)間內(nèi)近義語(yǔ)

16、句對(duì)占所有近義語(yǔ)句對(duì)的比例.方法一中接近一半的語(yǔ)句對(duì)的相似度值在(0.8,1間,其在(0.5,8間的語(yǔ)句對(duì)還不到一半,因?yàn)檎Z(yǔ)句對(duì)沒(méi)有完全一樣的,所以計(jì)算結(jié)果偏高,且還有一些語(yǔ)句對(duì)的相似度低于 0.5,顯然其計(jì)算結(jié)果不合理.方法二中大概 82.00%的語(yǔ)句對(duì)的相似度值都在(0.5,8之間,比較符合實(shí)際,但是其計(jì)算結(jié)果中仍然有低于 0.5 的,結(jié)果也不太理想.而方法三中在(0.8,1之間的不到 25.00%,絕大部分都是在(0.5,8之間,沒(méi)有低于 0.5 的,這樣的計(jì)算結(jié)果顯然更加合理,更接近人們的主觀判斷.對(duì)于反義語(yǔ)句對(duì)集合,把相似度區(qū)間分為 4 個(gè),圖 6 描述了不同方法分別在每個(gè)區(qū)間中的測(cè)

17、試語(yǔ)句對(duì)所占的比例.由圖可知,方法一和方法二在相似度大于 0.5 時(shí)大概都有 75.00%的反義語(yǔ)句對(duì),而低于 0.5 的卻只有 25.00%,顯然它們的計(jì)算結(jié)果都非常不理想,計(jì)算粗糙.而方法三在(0.5,1區(qū)間中只有 29.00%左右的反義語(yǔ)句對(duì),且約 71.00%的語(yǔ)句相似度都是低于 0.5.顯然方法三計(jì)算結(jié)果更加合理和精確.另外由表 2 可知,有些語(yǔ)句意思明明是完全相反的,可方法一和方法二計(jì)算結(jié)果都非常高,甚至是 1,而方法三卻能夠得到非常合理的結(jié)果.由上述實(shí)驗(yàn)結(jié)果可知,本文提出的方法相比于方法一和方法二,具有比較https:/好的查全率,并且其精確率更高,能夠非常有效地減少噪音數(shù)據(jù)的產(chǎn)

18、生,更加接近人們的主觀判斷.4 結(jié)論本文以 HowNet 為詞典庫(kù),以 Stanford 為語(yǔ)法解析工具,并在此基礎(chǔ)上研究了本文提出的基于語(yǔ)法語(yǔ)義的中文短文本的相似度計(jì)算.在本文描述的方法中,我們結(jié)合語(yǔ)句的語(yǔ)法結(jié)構(gòu)和語(yǔ)義信息計(jì)算整個(gè)語(yǔ)句的相似度,即計(jì)算具有相同語(yǔ)法結(jié)構(gòu)的詞組間的語(yǔ)義相似度以及考慮語(yǔ)法結(jié)構(gòu)類(lèi)型間相似性和詞組位置相似性對(duì)整個(gè)語(yǔ)句相似度的影響.即使兩個(gè)語(yǔ)句完全一樣,但是語(yǔ)句結(jié)構(gòu)不同或詞組位置不同,也會(huì)導(dǎo)致意思完全不一樣,這樣的計(jì)算方式與人們的主觀判斷更加接近,也符合中文語(yǔ)句(短文本)的復(fù)雜性特點(diǎn).本文研究的方法在一定程度上解決了目前中文領(lǐng)域基于 HowNet 進(jìn)行短文本相似度計(jì)算的方

19、法中存在的結(jié)果不合理現(xiàn)象.通過(guò)實(shí)驗(yàn)對(duì) 3 種方法進(jìn)行對(duì)比分析,證明了本文描述的中文短文本相似度方法更合理,具有比較好的召回率和精確率.參考文獻(xiàn)1蔣溢,丁優(yōu),熊安萍,等.一種基于知網(wǎng)的詞匯語(yǔ)義相似度改進(jìn)計(jì)算方法J.重慶郵電大學(xué)學(xué)報(bào):自然科學(xué)版, 2009,21(4): 533-537.JIANG Yi ,DING You ,XIONG An-ping ,et al. An improvedcomputation method of words semantic similarity based on HowNetJ.Journal of Chongqing University of Posts

20、 and Telecommunications: NaturalScience, 2009,21(4): 533-537.(In Chinese)2廖志芳,邱麗霞,謝岳山, 等.一種頻率增強(qiáng)的語(yǔ)句語(yǔ)義相似度計(jì)算J.湖南大學(xué)學(xué)報(bào):自然科學(xué)版,2013,40(2):82-88.LIAO Zhi-fang ,QIU Li-xia ,XIE Yue-shan ,et al. A frequencyenhanced algorithm of sentence semantic similarityJ. Journal of HunanUniversity: Natural Sciences, 2013,

21、40(2): 82-88.(In Chinese)3李連,朱愛(ài)紅,蘇濤.一種改進(jìn)的基于向量空間文本相似度算法的研究與實(shí)現(xiàn)J.計(jì)算機(jī)應(yīng)用與軟件,2012,29(2):282-284.LI Lian, ZHU Ai-hong, SU Tao. Research and implementation of animproved VSM-based text similarity algorithmJ. Computer Applications andSoftware, 2012,29(2):282-284.(In Chinese)4OLIVA J, SERRANO J I, CASTILLO M D, et al. SyMSS: asyntax-based measure for short-text semantic similarityJ. Data & KnowledgeEngineering, 2011,70(4):390-405.https:/5 董 振 東 , 董 強(qiáng) . 關(guān) 于 知 網(wǎng) 中 文 信 息 結(jié) 構(gòu) 庫(kù) EB/OL/http :/ Zhen-dong, DONG Qiang.Chinese information database basedon CNKIEB/OL/www.heenage,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論