版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
詞典詞典與詞典編纂的研究
詞典學(xué)lexicologyTheoryanddescriptionoflexicalinformation計(jì)算詞典學(xué)computationallexicologyformalmodelingoflexicalinformation詞典編纂學(xué)lexicographyConstructionofdictionaries(databases,handbooks)計(jì)算詞典編纂學(xué)computationallexicographyconstructionandproductionofdictionariesusingelectronicpublishing機(jī)讀詞典與人讀詞典人讀詞典(HumanReadableDictionary)格式不規(guī)范數(shù)據(jù)完整性和一致性不好非結(jié)構(gòu)化機(jī)讀詞典(MachineReadableDictionary)格式規(guī)范數(shù)據(jù)完整性和一致性較好結(jié)構(gòu)化人讀詞典(demo)
金山詞霸story中古英語(yǔ)storie<古法語(yǔ)estoire<拉丁語(yǔ)historian-ries(1)故事,小說(shuō);傳聞;軼事Pleasereadusastory!請(qǐng)給我們讀個(gè)故事!(2)謊話(huà),假話(huà)(3)(書(shū)籍、電影、戲劇等的)情節(jié)(4)(報(bào)刊、雜志文章的)素材,題材機(jī)讀詞典的分類(lèi)
按信息類(lèi)型分類(lèi)語(yǔ)法詞典語(yǔ)義詞典(包括同義詞典)雙語(yǔ)詞典…….按領(lǐng)域分類(lèi)通用詞典專(zhuān)業(yè)詞典(術(shù)語(yǔ)詞典)專(zhuān)名詞典……漢語(yǔ)語(yǔ)法信息詞典
開(kāi)發(fā)單位:北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所參考文獻(xiàn):俞士汶等(1998)《現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典詳解》,清華大學(xué)出版社、廣西科學(xué)技術(shù)出版社1998年版。規(guī)模:7萬(wàn)多詞條總庫(kù)詞性庫(kù)名詞時(shí)間詞處所詞方位詞數(shù)詞量詞區(qū)別詞代詞動(dòng)詞形容詞狀態(tài)詞副詞介詞連詞助詞語(yǔ)氣詞前接成分后接成分成語(yǔ)簡(jiǎn)稱(chēng)略語(yǔ)習(xí)用語(yǔ)語(yǔ)素標(biāo)點(diǎn)符號(hào)詞性分庫(kù)動(dòng)詞代詞漢語(yǔ)語(yǔ)法信息詞典·總庫(kù)漢語(yǔ)語(yǔ)法信息詞典·動(dòng)詞庫(kù)漢語(yǔ)語(yǔ)法信息詞典·謂賓動(dòng)詞分庫(kù)
新華社詞語(yǔ)數(shù)據(jù)庫(kù)
全庫(kù)分為中文和外文兩個(gè)大類(lèi),主要包括中文新聞庫(kù)、經(jīng)濟(jì)信息庫(kù)、證券庫(kù)、人物庫(kù)、組織機(jī)構(gòu)庫(kù)、專(zhuān)題資料庫(kù)等中文數(shù)據(jù)庫(kù),還包括XinhuaNewsBulletin、Who’sWhoinChina等英文數(shù)據(jù)庫(kù)。共有28個(gè)庫(kù)100多個(gè)子庫(kù),數(shù)據(jù)量達(dá)80多億漢字,并以日均150萬(wàn)漢字的速度增長(zhǎng)。新華社詞語(yǔ)數(shù)據(jù)庫(kù)·國(guó)際組織
“2000年問(wèn)題”聯(lián)合委員會(huì)/jointyear2000council/International“4·19”運(yùn)動(dòng)/movementapril19/Colombia“阿爾法66”/"alpha66"/Cuba“俄羅斯地區(qū)”社會(huì)聯(lián)盟/regionsofrussiagroup/Russia“法中-2000年”協(xié)會(huì)/france-chinaassociationfortheyear2000/France“繁榮”黨/prosperity/Russia“光明的日本”國(guó)會(huì)議員聯(lián)盟/parliamentaryunionforabrightjapan/Japan“基地”組織/alqaeda/SaudiArabia《財(cái)富》雜志/fortune/USA《朝日新聞》/asahishimbun/Japan國(guó)際獻(xiàn)血組織聯(lián)合會(huì)/internationalfederationofblooddonororganizations/International國(guó)際憲法學(xué)協(xié)會(huì)/internationalassociationofconstitutionallaw/International國(guó)際香料集團(tuán)/internationalspicegroup/International經(jīng)濟(jì)和外貿(mào)部/ministryofeconomyandexternaltradeofsyria/Syria經(jīng)濟(jì)和外貿(mào)部/ministryofeconomyandforeigntradeofegypt/Egypt新華社詞語(yǔ)數(shù)據(jù)庫(kù)·人名知網(wǎng)(Hownet)作者:董振東董強(qiáng)網(wǎng)站:概念描述舉例NO.=017144W_C=打G_C=VE_C=~網(wǎng)球,~牌,~秋千,~太極,球~得很棒W_E=playG_E=VE_E=DEF=exercise|鍛練,sport|體育其中DEF是核心,采用特定的“知識(shí)描述語(yǔ)言”知網(wǎng)(Hownet)2打017144exercise|鍛練,sport|體育男人059349human|人,family|家,male|男高興029542aValue|屬性值,circumstances|境況,happy|福,desired|良生日072280time|時(shí)間,day|日,@ComeToWorld|問(wèn)世,$congratulate|祝賀寫(xiě)信089834write|寫(xiě),ContentProduct=letter|信件北京003815place|地方,capital|國(guó)都,ProperName|專(zhuān),(China|中國(guó))愛(ài)好者000363human|人,*FondOf|喜歡,#WhileAway|消閑必須004932{modality|語(yǔ)氣}串015204NounUnit|名量,&(grape|葡萄),&(key|鑰匙)從良016251cease|停做,content=(prostitution|賣(mài)淫)打?qū)φ?17317subtract|削減,patient=price|價(jià)格,commercial|商,(range|幅度=50%)兒童基金會(huì)024083part|部件,%institution|機(jī)構(gòu),politics|政,#young|幼,#fund|資金,(institution|機(jī)構(gòu)=UN|聯(lián)合國(guó))知網(wǎng)(Hownet)3
義原總數(shù):1500多個(gè)義原分類(lèi):共8類(lèi)基本義原事件、實(shí)體、次要特征屬性、屬性值、數(shù)量、數(shù)量值語(yǔ)法義原:描述語(yǔ)法特征,如POS語(yǔ)法關(guān)系義原:描述意義關(guān)系,類(lèi)似于格關(guān)系動(dòng)態(tài)角色動(dòng)態(tài)屬性知網(wǎng)(Hownet)4義原的上下位關(guān)系構(gòu)成樹(shù)結(jié)構(gòu)-entity|實(shí)體├thing|萬(wàn)物…├physical|物質(zhì)…├animate|生物…├AnimalHuman|動(dòng)物…├human|人│└humanized|擬人└animal|獸├beast|走獸…知網(wǎng)(Hownet)5知網(wǎng)中的關(guān)系同義詞詞林1
梅家駒等,1983,上海辭書(shū)出版社為克服寫(xiě)作和翻譯時(shí)的詞窮現(xiàn)象而編寫(xiě)目前廣泛應(yīng)用于自然語(yǔ)言處理中收詞近7萬(wàn)(按義項(xiàng)統(tǒng)計(jì))按義項(xiàng)編排12大類(lèi)94中類(lèi)1428小類(lèi)3925詞群詞群內(nèi)部的詞是同義詞大類(lèi)、中類(lèi)、小類(lèi)之間不一定是上下位關(guān)系(有些是領(lǐng)域)同義詞詞林2大類(lèi):A中類(lèi):g小類(lèi):10詞群:01最小同義詞集:01,02,03catewordAa010101人Aa010101士Aa010101人物Aa010101人士Aa010101人氏Aa010101人選Aa010102人類(lèi)Aa010102噍類(lèi)Aa010102生人Aa010102橫目Aa010102圓顱方趾Aa010102方趾圓顱Aa010103人手Aa010103人員Aa010103人口Aa010103人丁Aa010103口Aa010103丁口Aa010103食指Aa010104勞力Aa010104勞動(dòng)力Aa010105匹夫Aa010105個(gè)人WordNet1網(wǎng)址:/~wn/開(kāi)發(fā)單位:普林斯頓大學(xué)心理語(yǔ)言學(xué)實(shí)驗(yàn)室初衷是作為研究人類(lèi)詞匯記憶的心理語(yǔ)言學(xué)成果在自然語(yǔ)言處理中得到廣泛的應(yīng)用免費(fèi)的在線(xiàn)詞匯數(shù)據(jù)庫(kù)世界很多語(yǔ)種都開(kāi)發(fā)了相應(yīng)的版本各種歐洲語(yǔ)言:EuroNet漢語(yǔ):CCD(ChineseConceptDictioanry)WordNet2同義詞集Synset用一組同義詞的集合Synset來(lái)表示一個(gè)概念每一個(gè)概念有一段描述性的說(shuō)明關(guān)系上下位關(guān)系(hyponymy,troponymy)同義反義關(guān)系(synonymy,antonymy)部分整體關(guān)系(entailment,meronymy)……Wordnet3規(guī)模名詞:80,000words,60,000synsets形容詞:16,000synsets動(dòng)詞:11,500synsets還在不斷發(fā)展之中WordNet4
名詞概念的組織:WordNet5形容詞概念的組織:WordNet6WordNet7詞典檢索算法1詞典檢索算法的性能評(píng)價(jià)時(shí)間復(fù)雜度空間復(fù)雜度檢索方式直接用詞語(yǔ)檢索檢索句子中某個(gè)位置開(kāi)始的所有詞檢索句子中某個(gè)位置開(kāi)始的最長(zhǎng)詞模糊檢索……增量式索引詞典檢索算法2兩個(gè)問(wèn)題索引結(jié)構(gòu)查找算法一種索引結(jié)構(gòu)可以對(duì)應(yīng)不同的查找算法詞典順序索引索引結(jié)構(gòu)簡(jiǎn)單,占用空間小不能實(shí)現(xiàn)增量式索引:每增加一個(gè)詞需重新排序詞典順序索引的查找算法整詞二分查找時(shí)間復(fù)雜度O(log2N)無(wú)法按前綴查找改進(jìn)的整詞二分查找時(shí)間復(fù)雜度O(log2N)可以實(shí)現(xiàn)按前綴查找詞典散列索引索引結(jié)構(gòu)簡(jiǎn)單,占用空間?。ū软樞蛩饕源螅┛梢詫?shí)現(xiàn)增量式索引詞典散列索引的檢索算法利用散列(hash)函數(shù)直接定位效率高:常數(shù)不能按前綴查找沖突的解決使用沖突隊(duì)列使用再散列散列函數(shù)(hash)的選擇算法改進(jìn):逐詞散列,可以實(shí)現(xiàn)按前綴查找詞典分級(jí)索引將詞語(yǔ)分成若干部分,為每一部分分別建立索引在分級(jí)索引中,每一級(jí)索引都可以采用各種不同的索引和查找算法對(duì)于漢語(yǔ)而言,第一級(jí)索引一般使用詞語(yǔ)的首字,所以又常稱(chēng)為首字索引。漢語(yǔ)的首字?jǐn)?shù)量有限,可以使用直接定位法,效率最高,空間也不大漢語(yǔ)詞典按首字順序索引首字二分檢索2時(shí)間復(fù)雜度:O(log2N)空間復(fù)雜度:O(N)可以按前綴查找不能增量式索引:每次要重新排序漢語(yǔ)詞典TRIE樹(shù)索引AC算法1問(wèn)題假設(shè)詞典中有兩個(gè)詞:aba,abcd考慮輸入串:bababcdab如何迅速找出輸入串中詞典詞的所有出現(xiàn)?簡(jiǎn)單解決辦法逐字查詞典:效率太低AC算法將詞典構(gòu)造成一個(gè)自動(dòng)機(jī),一次掃描完成AC算法2
AC算法3AC算法4AC算法5AC算法5AC算法6AC算法7AC算法8AC算法9漢語(yǔ)新詞語(yǔ)
隨著經(jīng)濟(jì)、社會(huì)的飛速發(fā)展和對(duì)外交流的日漸頻繁,自然語(yǔ)言中新詞的不斷涌現(xiàn)在漢語(yǔ)這種詞與詞之間沒(méi)有明顯界限的語(yǔ)言中,新詞的識(shí)別問(wèn)題尤為嚴(yán)重。除了命名實(shí)體和字母詞因?yàn)橛忻黠@的構(gòu)成特征而相對(duì)比較容易被識(shí)別外,其他新詞很難識(shí)別。漢語(yǔ)新詞語(yǔ)分類(lèi)新詞語(yǔ)的種類(lèi)命名實(shí)體:包括人名、地名、音譯名、商品名、公司字號(hào)、機(jī)構(gòu)名等;縮略語(yǔ):如“非典”、“計(jì)生委”等;方言詞:如“靚”、“買(mǎi)單”等;–新造詞:如“伊妹兒”、“美眉”等;專(zhuān)業(yè)術(shù)語(yǔ):如“非典型肺炎”、“藍(lán)光光盤(pán)”等;音譯詞:如“酷”、“秀”、“克隆”等;外來(lái)字母詞:如WTO、APEC、SARS等。以上劃分方式大多是按語(yǔ)言學(xué)的標(biāo)準(zhǔn)進(jìn)行的,在計(jì)算機(jī)處理時(shí)難以找到明顯的規(guī)律(命名實(shí)體和字母詞除外)漢語(yǔ)新詞語(yǔ)的出現(xiàn)規(guī)律雖然從詞語(yǔ)的構(gòu)成規(guī)律上看不出新詞的規(guī)律,但是從一個(gè)整體的角度看,新詞具有下述的兩個(gè)特征:.新詞語(yǔ)在文本中重復(fù)出現(xiàn).新詞語(yǔ)出現(xiàn)的時(shí)間有規(guī)律隨著Internet的蓬勃發(fā)展以及網(wǎng)頁(yè)采集技術(shù)的成熟,已經(jīng)可以輕易的從網(wǎng)上采集大規(guī)模的網(wǎng)頁(yè),同時(shí)目前概率詞法分析器也達(dá)到了比較成熟的階段,因此這兩個(gè)條件給我們利用新詞語(yǔ)的這兩個(gè)特征做好了準(zhǔn)備?;谥貜?fù)子串的新詞語(yǔ)識(shí)別
從互聯(lián)網(wǎng)上定點(diǎn)收集大量文本語(yǔ)料對(duì)這些文本語(yǔ)料進(jìn)行詞語(yǔ)切分從切分的結(jié)果中識(shí)別出所有的詞典中沒(méi)有出現(xiàn)的重復(fù)串選擇某個(gè)時(shí)間點(diǎn)以后出現(xiàn)的重復(fù)串作為候選新詞采用人機(jī)互助的方法從候選新詞中找出真正的新詞重復(fù)子串識(shí)別目標(biāo):識(shí)別出文本中所有出現(xiàn)兩次以上的子串據(jù)香港《文匯報(bào)》報(bào)道,北京的臺(tái)灣問(wèn)題專(zhuān)家李家泉受訪(fǎng)時(shí)指出,臺(tái)北、高雄兩市市長(zhǎng)選舉,盡管藍(lán)、綠兩政治勢(shì)力進(jìn)行了激烈的斗爭(zhēng),但“北藍(lán)南綠”的政治格局未被打破,由此可以預(yù)見(jiàn),未來(lái)一段時(shí)間內(nèi)兩岸關(guān)系的改善很難有突破。李家泉指出,此次北高兩市選舉在兩個(gè)大背景下進(jìn)行,一是民進(jìn)黨執(zhí)政兩年來(lái)政績(jī)相當(dāng)差,自身危機(jī)感非常強(qiáng);二是距離2004年“大選”只有一年多時(shí)間,兩派都格外重視此次交鋒,對(duì)泛綠陣營(yíng)來(lái)說(shuō)是政權(quán)保衛(wèi)戰(zhàn),而對(duì)泛藍(lán)陣營(yíng)來(lái)說(shuō)則是奪權(quán)演習(xí)戰(zhàn)。因此可以看到斗爭(zhēng)形勢(shì)相當(dāng)嚴(yán)峻而激烈。新詞語(yǔ)識(shí)別(Demo)
對(duì)于《人民日?qǐng)?bào)》2002年和2001年語(yǔ)料分別進(jìn)行重復(fù)子串識(shí)別用2002年的重復(fù)子串集合減去2001年的重復(fù)子串集合2002年出現(xiàn)詞數(shù)大于20的詞語(yǔ)而2001年沒(méi)有出現(xiàn)過(guò)的重復(fù)子串:1005個(gè)Top10十六大精神1289中共十六大342學(xué)習(xí)貫徹十六大精神238核查人員223干部任用條例220建設(shè)中國(guó)特色社會(huì)主義194一邊一國(guó)189貫徹十六大精神156胡錦濤當(dāng)選為中共中央總書(shū)記155軍品出口151新詞語(yǔ)識(shí)別(Demo)詞語(yǔ):抗擊非典出現(xiàn)總次數(shù):3081出現(xiàn)的文章數(shù):8471.報(bào)紙名:中國(guó)汽車(chē)報(bào)日期:2003-06-10網(wǎng)址:/GB/paper1668/9424/872549.html例句:抗擊非典的斗爭(zhēng)已經(jīng)進(jìn)入到掃尾階段。2.報(bào)紙名:中國(guó)汽車(chē)報(bào)日期:2003-06-03網(wǎng)址:/GB/paper1668/9366/868060.html例句:此外,公司決定立即采購(gòu)一批專(zhuān)用的清潔機(jī)、高壓水槍、高效除垢劑以及殺菌消毒噴霧機(jī)等投入使用,全力以赴,抗擊非典。3.報(bào)紙名:中國(guó)汽車(chē)報(bào)日期:2003-05-20網(wǎng)址:/GB/paper1668/9365/867876.html例句:日前,鄭州宇通客車(chē)股份有限公司捐資100萬(wàn)元用于抗擊非典什么是詞語(yǔ)相似度與具體應(yīng)用密切相關(guān)實(shí)例機(jī)器:文本中詞語(yǔ)的可替換程度信息檢索:查詢(xún)擴(kuò)展的有效程度……取值范圍:[0,1]之間1:相似度最高,詞語(yǔ)和其本身相似度為1;0:相似度最低影響詞語(yǔ)相似度的因素:形態(tài)、句法、語(yǔ)義、語(yǔ)用;語(yǔ)義起主要作用詞語(yǔ)相似度與詞語(yǔ)距離
.詞語(yǔ)距離取值范圍:[0,∞).詞語(yǔ)相似度和詞語(yǔ)距離的關(guān)系詞語(yǔ)距離為0.詞語(yǔ)相似度為1詞語(yǔ)距離為∞.詞語(yǔ)相似度為0詞語(yǔ)距離越大,相似度越?。▎握{(diào)遞減).轉(zhuǎn)換公式:(示例)α:可調(diào)節(jié)參數(shù),相似度0.5時(shí)的距離值詞語(yǔ)相似度與詞語(yǔ)相關(guān)性(1)詞語(yǔ)相關(guān)性?xún)蓚€(gè)詞語(yǔ)互相關(guān)聯(lián)的程度可以用共現(xiàn)的頻率來(lái)衡量取值范圍:[0,1]之間相似度和相關(guān)性反映詞語(yǔ)的不同特點(diǎn)相關(guān)性高未必相似性高:醫(yī)生,疾病相似性高未必相關(guān)性高:耶和華,玉皇大帝詞語(yǔ)相似度與詞語(yǔ)相關(guān)性(2)相關(guān)性與相似度反映詞語(yǔ)的不同特點(diǎn)相關(guān)性反映的是詞語(yǔ)的組合特性相似性反映的是詞語(yǔ)的聚合特性相關(guān)性和相似度有著密切的聯(lián)系相似度高的兩個(gè)詞,它們與其他詞的相關(guān)性特點(diǎn)也相似可以利用相關(guān)性特點(diǎn)來(lái)計(jì)算詞的相似性詞語(yǔ)相似度計(jì)算方法(1)基于世界知識(shí)的詞語(yǔ)相似度計(jì)算方法利用同義詞詞典(Thesaurus)計(jì)算兩個(gè)概念在樹(shù)狀概念層次體系中的距離影響概念距離的其他因素(深度、密度)基于語(yǔ)料庫(kù)的詞語(yǔ)相似度計(jì)算方法利用固定寬度的文本窗口得到詞語(yǔ)共現(xiàn)向量根據(jù)共現(xiàn)向量夾角余弦得到相似度利用其他統(tǒng)計(jì)信息(如互信息)詞語(yǔ)相似度計(jì)算方法(2)基于世界知識(shí)的詞語(yǔ)相似度計(jì)算方法簡(jiǎn)單有效,直觀,易于理解主觀性較強(qiáng),有時(shí)不夠客觀主要反映語(yǔ)義特征,忽略句法語(yǔ)用等特征基于語(yǔ)料庫(kù)的詞語(yǔ)相似度計(jì)算方法客觀,綜合反映形態(tài)句法語(yǔ)義語(yǔ)用等特點(diǎn)計(jì)算復(fù)雜,性能依賴(lài)于語(yǔ)料庫(kù)數(shù)據(jù)稀疏嚴(yán)重,噪聲干擾大《知網(wǎng)》的知識(shí)描述語(yǔ)言(1)打017144exercise|鍛練,sport|體育男人059349human|人,family|家,male|男高興029542aValue|屬性值,circumstances|境況,happy|福,desired|良生日072280time|時(shí)間,day|日,@ComeToWorld|問(wèn)世,$congratulate|祝賀寫(xiě)信089834write|寫(xiě),ContentProduct=letter|信件北京003815place|地方,capital|國(guó)都,ProperName|專(zhuān),(China|中國(guó))愛(ài)好者000363human|人,*FondOf|喜歡,#WhileAway|消閑必須004932{modality|語(yǔ)氣}串015204NounUnit|名量,&(grape|葡萄),&(key|鑰匙)從良016251cease|停做,content=(prostitution|賣(mài)淫)打?qū)φ?17317subtract|削減,patient=price|價(jià)格,commercial|商,(range|幅度=50%)兒童基金會(huì)024083part|部件,%institution|機(jī)構(gòu),politics|政,#young|幼,#fund|資金,(institution|機(jī)構(gòu)=UN|聯(lián)合國(guó))《知網(wǎng)》的知識(shí)描述語(yǔ)言(2)虛詞描述格式:“{句法義原}”、“{關(guān)系義原}”;實(shí)詞描述格式:由一系列用逗號(hào)隔開(kāi)的“語(yǔ)義描述式”組成,這些“語(yǔ)義描述式”有三種形式:獨(dú)立義原描述式:“基本義原”、“(具體詞)”;關(guān)系義原描述式:“關(guān)系義原=基本義原”、“關(guān)系義原=(具體詞)”、“(關(guān)系義原=具體詞)”符號(hào)義原描述式:“關(guān)系符號(hào)基本義原”、“關(guān)系符號(hào)(具體詞)”在實(shí)詞的描述中,第一個(gè)描述式總是一個(gè)基本義原,描述了該實(shí)詞的最基本的語(yǔ)義特征基于《知網(wǎng)》的詞語(yǔ)相似度計(jì)算困難:知識(shí)描述語(yǔ)言的復(fù)雜語(yǔ)法方法一:只計(jì)算第一獨(dú)立義原的相似度優(yōu)點(diǎn):簡(jiǎn)單缺點(diǎn):過(guò)于粗疏方法二:LiSujian,etal.(2002)綜合利用《知網(wǎng)》和《同義詞詞林》利用了《知網(wǎng)》義原之間除上下位以外的其他關(guān)系綜合考慮相似度和相關(guān)度(未必合理)詞語(yǔ)的相似度計(jì)算對(duì)于兩個(gè)漢語(yǔ)詞語(yǔ)W1和W2,如果W1有n個(gè)義項(xiàng)(概念):S11,S12,……,S1n,W2有m個(gè)義項(xiàng)(概念):S21,S22,……,S2m,我們規(guī)定,W1和W2的相似度各個(gè)概念的相似度之最大值,也就是說(shuō):注:在實(shí)際的文本中最好先排岐。義原的相似度計(jì)算義原之間的語(yǔ)義距離:其中p1和p2表示兩個(gè)義原(primitive),d是p1和p2在義原層次體系中的路徑長(zhǎng)度,是一個(gè)正整數(shù)。α是一個(gè)可調(diào)節(jié)的參數(shù)。具體詞與義原的相似度一律處理為一個(gè)小常數(shù)(γ);具體詞和具體詞的相似度,如果兩個(gè)詞相同,則為1,否則為0。將任何義原(或具體詞)與空值的相似度定義為一個(gè)小常數(shù)(δ);虛詞概念的相似度計(jì)算.由于虛詞概念總是用“{句法義原}”或“{關(guān)系義原}”這兩種方式進(jìn)行描述,所以,虛詞概念的相似度計(jì)算非常簡(jiǎn)單,只需要計(jì)算其對(duì)應(yīng)的句法義原或關(guān)系義原之間的相似度即可。實(shí)詞概念的相似度計(jì)算(1)基本原則:整體相似要建立在部分相似的基礎(chǔ)上。把一個(gè)復(fù)雜的整體分解成部分,通過(guò)計(jì)算部分之間的相似度得到整體的相似度。先在二者的各個(gè)部分之間建立一一對(duì)應(yīng)關(guān)系(組合配對(duì)),分別計(jì)算各個(gè)組合配對(duì)的相似度;整體相似度等于各個(gè)組合配對(duì)的相似度的加權(quán)評(píng)價(jià);古代的戰(zhàn)場(chǎng)的兩軍對(duì)壘:兵對(duì)兵、將對(duì)將,捉對(duì)廝殺。實(shí)詞概念的相似度計(jì)算(2)將實(shí)詞概念的語(yǔ)義表達(dá)式分成四個(gè)部分:–第一獨(dú)立義原描述式:Sim1(S1,S2);–其他獨(dú)立義原描述式:Sim2(S1,S2);–關(guān)系義原描述式:Sim3(S1,S2)–符號(hào)義原描述式:Sim4(S1,S2)實(shí)詞概念整體相似度計(jì)算公式:β1+β2+β3+β4=1β1≥β2≥β3≥β4實(shí)詞概念的相似度計(jì)算(3)發(fā)現(xiàn)的問(wèn)題:如果Sim1非常小,但Sim3或者Sim4比較大,將導(dǎo)致整體的相似度仍然比較大的不合理現(xiàn)象改進(jìn)的公式:改進(jìn)的意義:主要部分的相似度值對(duì)于次要部分的相似度值起到制約作用,也就是說(shuō),如果主要部分相似度比較低,那么次要部分的相似度對(duì)于整體相似度所起到的作用也要降低。實(shí)詞概念的相似度計(jì)算(4)第一獨(dú)立義原描述式:.直接計(jì)算兩個(gè)義原的相似度其他獨(dú)立義原描述式:兩個(gè)義原集合的相似度:配對(duì)困難先計(jì)算出所有可能的配對(duì)的義原相似度取相似度最大的一對(duì),并將它們歸為一組在剩下的獨(dú)立義原的配對(duì)相似度中,取最大的一對(duì),并歸為一組,如此反復(fù),直到所有獨(dú)立義原都完成分組實(shí)詞概念的相似度計(jì)算(5)關(guān)系義原描述式:把關(guān)系義原相同的描述式分為一組,并計(jì)算其相似度符號(hào)義原描述式:把關(guān)系符號(hào)相同的描述式分為一組,并計(jì)算其相似度計(jì)算以上各部分的相似度時(shí),權(quán)值都取等值實(shí)驗(yàn)設(shè)計(jì)(1)詞語(yǔ)相似度結(jié)果評(píng)價(jià)放到實(shí)際的系統(tǒng)中(如基于實(shí)例的機(jī)器翻譯系統(tǒng)),觀察不同的相似度計(jì)算方法對(duì)實(shí)際系統(tǒng)的性能的影響人工判別:我們采用的辦法實(shí)驗(yàn)一采用本文中提出的詞語(yǔ)相似度計(jì)算方法計(jì)算一個(gè)詞和另外選取的一組詞的相似度,判斷是否符合人的直覺(jué)實(shí)驗(yàn)設(shè)計(jì)(2)實(shí)驗(yàn)二三種方法對(duì)比方法一:僅使用《知網(wǎng)》語(yǔ)義表達(dá)式中第一獨(dú)立義原來(lái)計(jì)算詞語(yǔ)相似度方法二:LiSujianetal.(2002)中使用的詞語(yǔ)語(yǔ)義相似度計(jì)算方法方法三:本文中介紹的語(yǔ)義相似度計(jì)算方法參數(shù)選擇:α=1.6,γ=0.2,δ=0.2參數(shù)選擇:β1=0.5,β2=0.2,β3=0.17,β4=0.13實(shí)驗(yàn)結(jié)果詞語(yǔ)1 詞語(yǔ)2 詞語(yǔ)2的語(yǔ)義 方法1 方法2 方法3男人 女人 人,家,女 1.000 0.668 0.833男人 父親 人,家,男 1.000 1.000 1.000男人 母親 人,家,女 1.000 0.668 0.833男人 和尚 人,宗教,男 1.000 0.668 0.833男人 經(jīng)理 人,#職位,官,商 1.000 0.351 0.657男人 高興 屬性值,境況,福,良0.016 0.024 0.013男人 收音機(jī) 機(jī)器,*傳播 0.186 0.008 0.164男人 鯉魚(yú) 魚(yú) 0.347 0.009 0.208男人 蘋(píng)果 水果 0.285 0.004 0.166男人 工作 事務(wù),$擔(dān)任 0.186 0.035 0.164男人 責(zé)任 責(zé)任 0.016 0.005 0.010實(shí)驗(yàn)結(jié)果分析實(shí)驗(yàn)一:考察方法3的結(jié)果與人的直覺(jué)比較符合實(shí)驗(yàn)二:比較三種方法的結(jié)果方法1的結(jié)果比較粗糙,只要是人,相似度都為1,顯然不夠合理方法2的結(jié)果比方法1更細(xì)膩一些,能夠區(qū)分不同人之間的相似度方法2有些相似度的結(jié)果也不太合理,比如“男人”和“工作”的相似度比“男人”和“鯉魚(yú)”的相似度更高方法2的結(jié)果中,“男人”和“和尚”的相似度比“男人”和“經(jīng)理”的相似度高出近一倍,不如方法3結(jié)果好WordNet發(fā)展簡(jiǎn)史70年代:基于義素分析的詞匯語(yǔ)義學(xué)(componentiallexicalsemantics)80年代:基于關(guān)系的詞匯語(yǔ)義學(xué)(relationallexicalsemantics)1985:Miller,WordNet:ADictionaryBrowser,可以使用同義詞集合(synset)來(lái)代表詞匯概念,形成詞匯網(wǎng)絡(luò),即在詞的形式和意義之間建立起映射關(guān)系(mapping)。WordNet被設(shè)想為是一個(gè)詞典瀏覽器,是一個(gè)機(jī)器可讀詞典的輔助工具。而這樣一個(gè)機(jī)器詞典不是按字母排序的,是基于意義組織起來(lái)的。1987:ChristianeFellbaum加盟WordNet1991年7月,WordNet1.0版,包含44983個(gè)同義詞集合現(xiàn)在,WordNet1.7.1版WordNet的心理語(yǔ)言學(xué)假設(shè)可分離性假設(shè)(Separabilityhypothesis):語(yǔ)言的詞匯成分可以被離析出來(lái)并專(zhuān)門(mén)針對(duì)它加以研究。可模式化假設(shè)(patterninghypothesis):一個(gè)人不可能掌握他運(yùn)用一種語(yǔ)言所需的所有詞匯,除非他能夠利用詞義之間存在的系統(tǒng)的模式和關(guān)系。廣泛性假設(shè)(comprehensivenesshypothesis):計(jì)算語(yǔ)言學(xué)如果希望能像人那樣處理自然語(yǔ)言,就需要像人那樣儲(chǔ)存盡可能多的詞匯知識(shí)。WordNet詞匯的來(lái)源語(yǔ)料庫(kù)Brown語(yǔ)料庫(kù);已有的一些詞表LaurenceUrdang(1978)的《同義反義小詞典》;Urdang(1978)修訂的《Rodale同義詞詞典》;RobertChapmand(1977)的第4版《羅杰斯同義詞詞林》;美國(guó)海軍研究與發(fā)展中心的FredChang的詞表,與WordNet原有詞表只有15%的重合詞語(yǔ)(1986)RalphGrishman和他在紐約大學(xué)的同事的一個(gè)詞表,包含39143個(gè)詞,這個(gè)詞表實(shí)際上包含在著名的COMLEX詞典中。WordNet當(dāng)時(shí)詞表與該詞表重合率為74%(1993年)。WordNet中有什么WordNet描述的對(duì)象compound(復(fù)合詞)、phrasalverb(短語(yǔ)動(dòng)詞)、collocation(搭配詞)、idiomaticphrase(成語(yǔ))、word(單詞),其中word是最基本的單位。對(duì)象之間的語(yǔ)義關(guān)系同義反義關(guān)系(synonymy,antonymy)上下位關(guān)系(hyponymy,troponymy)部分整體關(guān)系(entailment,meronymy)……部分句法信息簡(jiǎn)單的動(dòng)詞基本句式信息(VerbSentenceFrames)e.g.beat(somebody---ssomebody)WordNet中沒(méi)有什么WordNet并不把詞語(yǔ)分解成更小的有意義的單位(這是義素分析法的方法);WordNet也不包含比詞更大的組織單位(如腳本、框架之類(lèi)的單位);WordNet不是在文本和話(huà)語(yǔ)篇章水平上來(lái)描述詞和概念的語(yǔ)義,因此WordNet中沒(méi)有包含指示詞語(yǔ)在特定的篇章話(huà)題領(lǐng)域的相關(guān)概念關(guān)系。例如,WordNet中沒(méi)有將racquet(網(wǎng)球拍)、ball(球)、net(球網(wǎng))等詞語(yǔ)以一定方式聯(lián)系到一起。WordNet中缺少關(guān)于詞語(yǔ)的句法信息;WordNet中沒(méi)有“IS-NOT-A-KIND-OF”這樣的關(guān)系;WordNet中沒(méi)有區(qū)分“IS-A-KIND-OF”和“IS-USED-AS-A-KIND-OF”兩種關(guān)系,比如,“Athrushisabird”是前一種關(guān)系,而“Anadornmentisadecoration”則是后一種關(guān)系。更典型的例子也許是“Chickenisakindofbird”和“Chickenisakindoffood”……WordNet的名詞同義詞集合(synset)與詞匯層級(jí)(lexicalhierarchy){robin,redbreast}@->{animal,animate_being}@->{organism,life_form,living_thing},25個(gè)基本類(lèi)別(25uniquebeginners){act,activity}{food}{possession}{animal,fauna}{group,grouping}{process}{artifact}…很少有超過(guò)10到12層的語(yǔ)義樹(shù),通常層次比較深的情況是由于專(zhuān)業(yè)詞匯造成的,而不是日常語(yǔ)言中的用詞。比如:shetlandpony@->pony@->horse@->equid@->odd-toedungulate@->placentalmammal@->mammal@->vertebrate@->chordate@->animal@->organism@->entity(12levels)詞匯層級(jí)的心理學(xué)證據(jù)和語(yǔ)言學(xué)證據(jù)
Collins&Quillian(1969):distanceinhierarchyArobinisabird--ArobinisananimalSmith&Medin(1981):typicalityorprototypicalitytheoryArobinisabird--Achickenisabird√Igavehimagoodnovel,butthebookboredhim×Igavehimagoodnovel,butthecatsupboredhim動(dòng)詞的搭配選擇限制也表明名詞上下位關(guān)系的重要性。比如動(dòng)詞“drink”的直接賓語(yǔ)可以是beverage(飲料)的任何一個(gè)下位詞。這也暗示有關(guān)名詞的上下位關(guān)系的知識(shí)應(yīng)該以一種人們能夠快速訪(fǎng)問(wèn)和搜索到的方式存貯WordNet名詞的整體與部分關(guān)系A(chǔ)是B的組成部分;beak/wing->birdA是B的成員;tree->forestA是B的構(gòu)成材料。aluminum->plane {wheel}isapartof{vehicle} {wheeled_vehicle} {sled}isakindof{vehicle} {wheel}isNOTapartof{sled} thebranchisapartofthetree thetreeisapartoftheforest thebranchisapartoftheforest.WordNet的形容詞描寫(xiě)性形容詞(descriptiveadjectives)e.g.big,beautiful,interesting,possible,married,……關(guān)系性形容詞(relationaladjectives)e.g.fraternal,electrical,sidereal,……說(shuō)明:關(guān)系形容詞因其跟名詞的關(guān)系而得名,如electricalengineer中的electrical實(shí)際跟名詞electricity相關(guān)。描寫(xiě)性形容詞的反義關(guān)系關(guān)系性形容詞的特征 只能出現(xiàn)在定語(yǔ)位置(attributiveposition); 意義上跟一個(gè)名詞非常相關(guān);fraternaltwins——fraternal:brotherdentalhygiene——dental:tooth 不受程度副詞修飾*theextremelyatomicbomb*theverybaseballgame 沒(méi)有直接的反義詞non-:somethingelsee.g.nonhuman,racellularcivillawyervs.criminallawyermechanicalengineeringvs.electricalengineering形容詞的多義性oldmanvs.oldhouseoldfriend-newfriend oldfriend-youngfriendeconomicrestructuring-therestructuringwaseconomic economicslump-*theslumpiseconomicthenervousperson-theperson'snervousness thenervousdisorder-*thedisorder’snervousnessWordNet動(dòng)詞的蘊(yùn)涵關(guān)系ToV1istoV2insomeparticularmannerWordNet動(dòng)詞的反義關(guān)系give/take;buy/sell;lend/borrow;teach/learn沒(méi)有共同上位詞live/die;exclude/include;differ/equal;wake/sleep狀態(tài)動(dòng)詞lengthen/shorten;strengthen/weaken;prettify/uglify變化動(dòng)詞tie/untie;appear/disappear有標(biāo)記與無(wú)標(biāo)記的對(duì)立rise/fall;walk/run有共同上位詞fail/succeedtry;forget/rememberknow蘊(yùn)涵關(guān)系damage/repairdamage;remove/replaceremoveWordNet的應(yīng)用詞義標(biāo)注基于詞義分類(lèi)的統(tǒng)計(jì)模型基于概念的文本檢索文本校對(duì)知識(shí)處理——推理……HowNet(知網(wǎng))1988-1998-董振東董強(qiáng)知網(wǎng)(英文名稱(chēng)How-Net)是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)人工構(gòu)建,自底向上歸納義原(知網(wǎng)標(biāo)記集)董振東,1998,《語(yǔ)義關(guān)系的表達(dá)和知識(shí)系統(tǒng)的建造》,載《語(yǔ)言文字應(yīng)用》1998年第3期。/HowNet的目標(biāo):通向“真正”的理解HowNet定義的語(yǔ)義關(guān)系(a)上下位關(guān)系(b)同義關(guān)系(c)反義關(guān)系(d)對(duì)義關(guān)系(e)部件-整體關(guān)系(f)屬性-宿主關(guān)系(g)材料-成品關(guān)系(h)角色-事件關(guān)系施事/經(jīng)驗(yàn)者/關(guān)系主體-事件關(guān)系 受事/內(nèi)容/領(lǐng)屬物-事件關(guān)系 工具-事件關(guān)系 場(chǎng)所-事件關(guān)系 ……HowNet詞項(xiàng)基本形式NO.=030010 記錄
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《美國(guó)的誕生》課件
- 《LA格式講座》課件
- 教培合同范本(2篇)
- 2024年度涉外離婚登記所需材料與程序詳解協(xié)議3篇
- 《地下水資源調(diào)查》課件
- 《知識(shí)產(chǎn)權(quán)常識(shí)》課件
- 2025年揚(yáng)州貨運(yùn)資格證考試有哪些項(xiàng)目
- 2025年安康貨運(yùn)從業(yè)資格證考試技巧
- 2025年蘭州從業(yè)資格證應(yīng)用能力考些啥
- 國(guó)際金融學(xué)課件匯率理論與學(xué)說(shuō)
- 職業(yè)健康及環(huán)境安全培訓(xùn)(共70張課件)
- 多源異構(gòu)日志關(guān)聯(lián)與融合
- 節(jié)電設(shè)備產(chǎn)品營(yíng)銷(xiāo)計(jì)劃書(shū)
- 冀教版六年級(jí)上冊(cè)科學(xué)學(xué)科期末試題和答案
- 注冊(cè)安全工程師建筑施工專(zhuān)業(yè)實(shí)務(wù)
- 2024年人工智能(AI)訓(xùn)練師職業(yè)技能鑒定考試題庫(kù)(濃縮500題)
- 《大學(xué)計(jì)算機(jī)應(yīng)用基礎(chǔ)》期末考試復(fù)習(xí)題庫(kù)(含答案)
- 2024年危險(xiǎn)化學(xué)品安全知識(shí)競(jìng)賽試題及答案
- 初中物理知識(shí)點(diǎn)
- 《第13課 數(shù)據(jù)有關(guān)聯(lián)》參考課件2
- 重難點(diǎn)專(zhuān)題41 圓錐曲線(xiàn)中定比點(diǎn)差法的應(yīng)用十一大題型-備戰(zhàn)2025年高考《數(shù)學(xué)》重難點(diǎn)題型突破(新高考)解析版
評(píng)論
0/150
提交評(píng)論