


版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、PHP簡易中文分詞系統(tǒng)對閩菜名的分詞試驗與結(jié)果分析摘要:菜名作為專知名詞的一局部,在計算機分詞中,常屬于“未登錄詞”局部。本文選取 600 個閩菜名為調(diào)查材料測試 PHP 分詞系統(tǒng)在對材料進展切分時的效率分析該分詞系統(tǒng)在菜名切分時存在的問題及問題的主要類別,試圖解釋造成分詞結(jié)果錯誤的原 因,提出解決思路。一、閩菜名特點及對其進展正確的識別、切分的必要性作為中國八大菜系之一的閩菜以福州菜為代表,另外包括閩南菜、閩西菜等。閩菜所選用的食材種類較為豐富,盛產(chǎn)海鮮的東南沿海地區(qū)擅于使用海鰻、蟶子、魷魚等海鮮為原料烹制各式菜肴,內(nèi)陸山區(qū)則多用筍、香菇、雞鴨等山珍野味。閩菜的烹調(diào)方式多樣而又不失自身特色擅
2、長“炒熘煎煨”等,“糟”是閩菜的一大特色在命名活動中符號化的“事物”需要得到社會的、心理的、文化的認同。只有經(jīng)“文化世界的折光”,抽象的所指才能和事物之間建立比較確定的聯(lián)系,符號才能名稱化,成為真正能夠指代事物的名稱。閩菜名作為標記具體菜肴的符號,或反映菜品的原料,如“蘿卜鯽魚”“鱘肉豆苗”,或表現(xiàn)該菜的烹調(diào)方式如“熗糟雞絲或運用比方借代等修辭手法呈現(xiàn)該菜的特點如“龍須燕丸”,或反映菜式的來源如“福州魚丸”,具有較為深厚的文化內(nèi)涵。有關(guān)是否應當對菜名切分的問題,存在不同的觀點現(xiàn)代漢語語料庫加工標準詞語切分與詞性標注中認為,食譜上的菜名等通常也是短語型的,假設拆開了,意思差異甚遠,則不切分,否則
3、切分。即使不切分,也不看作專知名詞,例如木犀肉/n,芝麻/n 餅/n。本文認為,菜名應”的范疇:首先,一個菜名往往與一個具體的、確定的菜品相互對應;其次,假設以拆開后意義與原意的差異程度作為是否切分的標準在實際運用時難以落實。對于計算機分詞系統(tǒng)來說相當大一局部菜名屬于未登錄詞即詞典中沒有收錄的詞而未登錄詞”對于分詞精度的影響是不容無視的因此對菜名進展相對準確的識別與切分是必要詞精度的影響超過了歧義切分。未登錄詞處理在有用型分詞系統(tǒng)中占的份量舉足輕重。通名中包含“煎、炸、炒”等在實際語用中可作動詞的烹飪方式,而自動分詞系統(tǒng)在對菜名進展如“肉燒白菜”這個菜名,假設分詞系統(tǒng)將“燒”判定為動詞,本為名
4、詞性短語的菜名就被切分為“主語+謂語+賓語”的成分。又如福建名菜“佛跳墻”,假設分詞系統(tǒng)未能識別這是一個菜名錯誤切分。例如:“他愛吃西紅柿炒雞蛋?!奔僭O分詞系統(tǒng)不能正確識別“西紅柿炒雞蛋”這個菜名,就可能導致“他|愛|吃西紅柿|炒雞蛋”這樣錯誤的切分結(jié)果。 二、本文調(diào)查語料的來源及根本狀況 語料來源 本文共收集了 600 個閩菜名稱,主要來自閩菜菜譜及網(wǎng)絡: 樣 省略/Topic/CaiXi/MinCai/二語料根本狀況本文所收集的菜名包含福建境內(nèi)不同地區(qū)的各式菜肴涵蓋了福州菜閩南菜閩西菜三大局部所使用的食材包括海產(chǎn)品、河鮮、山珍等,烹調(diào)方式則包括蒸、燒、炒、熘、炸等。菜名音節(jié)數(shù)從二到七個不等
5、,音節(jié)具體狀況。三PHP簡易中文分詞系統(tǒng)簡介本菜名試驗時選用了PHP 簡易中文分詞SCWS第四版在線分詞系統(tǒng),其鏈接為: :/ 省略/scws/demo/v4.php。相關(guān)資料顯示這是一套基于詞頻詞典的機械中文分詞引擎,能將一整段的漢字根本正確地切分成詞。它承受自行采集的詞頻詞典,并輔以肯定程度上的專知名稱、人名、地名、數(shù)字年月等規(guī)章集,經(jīng)小范圍測試或許準確率在90%95%之間,已能根本滿足一些中小型搜尋引擎、關(guān)鍵字提取等場合運用。SCWS 承受純C 代碼開發(fā)以Unix-Like OS為主要平臺環(huán)境供給共享函數(shù)庫便利植入各種現(xiàn)有軟件系統(tǒng)。此外它支持GBK,UTF-8,BIG5等漢字編碼,切詞效
6、率高。三、PHP簡易中文分詞系統(tǒng)第四版對閩菜名的切分狀況“分詞單位”也可稱作“切分單位”,是指信息處理中使用的、具有確定的語義和語法功能的根本單位信息處理用現(xiàn)代漢語分詞標準中指出,分詞單位包括了語言學中“詞”的全部,如“火車”“學習”“更加”;以及滿足某些條件的“詞組”的一局部,如“牛肉”“一個”“越來越”。北京大學計算語言學爭辯所的2022 3 月版中指出,切分單位主要“詞”的定義是:具有肯定語音形式的、能獨立運用的、最小的語言單位。只有少數(shù)菜名是直接由語言學上的“詞”構(gòu)成的,更多的菜名是由兩個或者以上語言學上的“詞”組合構(gòu)成的名詞性短語。所謂“名詞性短語”,也叫體詞性短語。性質(zhì)上是名詞性的
7、,功能上跟名詞相當, 經(jīng)常充當主語、賓語。本文在使用 PHP 簡易中文分詞系統(tǒng)第四版對 600 個中文簡體的閩菜名進展切分試驗時所選擇的編碼類型是GB并在復合分詞選項下選擇了標注詞性”的功能。在推斷分詞效率時,主要考察兩個方面:1.一個菜名被切分后分詞單位的數(shù)量;2.對于被切分后分詞單位的數(shù)量為兩個及以上的菜名則考慮系統(tǒng)對各局部的詞性標注是否恰當。菜名作為一個整體,應當屬于名詞性成分,表示烹飪方式的那局部動詞進入菜名作為其構(gòu)成局部時,詞性應當與原本的動詞有所差異。一不同音節(jié)閩菜名的切分狀況1.雙音節(jié)閩菜名的切分狀況本文的分詞試驗材料中共有雙音節(jié)閩菜名 6 個,被分詞系統(tǒng)判定為一個分詞單位的有三
8、個,占總數(shù)的 50%,其中,詞性被判定為名詞的只有 2 個,分別是肉松和素雞,“姜雞”被識別為一個分詞單位,但詞性被標注為人名n,其緣由可能姜除了表示一種食物以外,還可以作為姓氏使用。其余雙音節(jié)菜局部,并在詞性標注上存在問題“糟鴨”中的“糟”被判定為形容詞,然而,“糟”字的詞性一般狀況下是形容詞,意義與“好”相對,但在閩菜中,“糟”是一種特別的烹飪方式。2.三音節(jié)閩菜名的切分狀況在對 104 個三音節(jié)閩菜名進展切分時,分詞單位個數(shù)為 1 且詞性標注正確的閩菜名僅有“鍋邊糊”。另有“金鯉蝦”“白片羊”等 4 個閩菜名被判定為一個分詞單位,但詞性被標注為人名。“糖/n 什錦/n”“荔枝/n 肉/n
9、”“砂鍋/n 雞”38釀/v青椒醉/v排骨酒/n蒸/v雞42 個菜名中包含的烹飪方式被標記為動詞; “扁肉燕”“紅糟雞”10 個菜名因包含“扁”“糟”等可作為形容詞使用的成分,分詞系統(tǒng)未能對其進展正確識別。除此之外,未能被正確識別的閩菜名還有“佛跳墻”“五柳居”等來源于相關(guān)故事典故的菜名。 3.四音節(jié)閩菜名的切分狀況 285 47.5%,是不同音節(jié)分詞單位的只有“游龍戲鳳”“梅開二度”等 4 個借用成語的菜名。包括“白糖/n 鍋巴/n”“太極/nz 明蝦/n”“湯醬/nr 草頭/n”“包心菜/n 卷/q”“甜/a 山藥/n 桃/n”“蔥/n 燒鴨/n 塊/q”在內(nèi)的 181個四音節(jié)閩菜名被切分
10、成幾個名詞性的分詞單位?!凹t燜/v 豬蹄/n”“生/v 蒸/v 龍蝦/n”“炸/v核桃/n 魚/n”24 個四音節(jié)閩菜名被切分為動賓構(gòu)造的動詞性短語?!笆[/n 烤/v 草魚/n”“香神仙/n 整/v雞/n”等32個四音節(jié)閩菜名被切分為“名詞+動詞+名詞”的構(gòu)造。另有“酥/a 豬肝/n 排/v”“雞/n 茸/ 蠣/ 糊/v”等菜名在切分之后為“名詞+動詞”構(gòu)造。4.五音節(jié)閩菜名切分狀況中共有187 個五音節(jié)閩菜名,占總數(shù)的31.2%,其數(shù)量于四音節(jié)閩菜名?!鞍壮?nr 龍蝦/n 片/q”“偏口魚/n 燉肉/n”“八寶/n 書包/n 魚/n”等 113 個五音節(jié)閩菜名被切分為幾個名詞性的分詞單位“
11、肉片/n燒/v茄子/n”“三/m 絲/n拌/v 糟/a 魚/n”等37 個五音節(jié)閩菜名被切分為“名詞+動詞+名詞”的形式“和合 /n 鯧魚/n”21 個五音節(jié)閩菜名切分后表現(xiàn)為動賓短語?!敖瘘S/z /n 糊/v”4 個五音節(jié)閩菜名被切分為“名詞+動詞”“肉片/n 燜/扁豆/n”“雞湯/n 汆/海/n 蚌/n”“大棗/n 煨/兔肉/n”12 個五音節(jié)閩菜名含有“燜”“汆”“煨”等系統(tǒng)不能正確識別的字詞。 5.六音節(jié)閩菜名的切分狀況 材料中的15 個六音節(jié)閩菜名稱都被切分成為假設干局部,主要類型知名詞性成分的組合,如“什錦/n蜂窩/n豆腐/n”;述賓構(gòu)造,如“紅燜/v通心/nz河鰻/n”;主謂構(gòu)造
12、,如“陵/ng島/n生/v蒸/v龍蝦/n”等。此外,”松脆”“酥”等對口感的描述性成分也被單獨切分成一個單位。七音節(jié)閩菜名的切分狀況 由于音節(jié)數(shù)過多不便利使用和記憶,不利于人們快捷地提3 個七音節(jié)閩菜名,分詞結(jié)果分別為:“雙/m冬/nr肉絲/n豆腐/n湯/n”“江東/nr鱸魚/n燉/姜絲/n”“蓮蓬/n菠菜/n 豆腐/n湯/n”。二閩菜名切分結(jié)果的主要類型通過對不同音節(jié)數(shù)閩菜名切分后結(jié)果的綜合分析,可以歸納出以下 6 種主要類型:1.假設干個名詞的組合這類菜名主要構(gòu)成局部是做菜的原材料,例如“酸梅/n 藕/n”“白糖/n 鍋巴/n”“豆腐/n 魚尾/n 湯/n”“什錦/n 蜂窩/n 豆腐/n”
13、“蓬萊/n 菠菜/n 豆腐/n 湯/n”等。2.“動詞+名詞”式這類菜名主要構(gòu)造為“烹飪方式+原料”,例如“熏/v河鰻/n”“燒/v白鴿/n罐/q”“炒/v菠蘿/n鴨/n 片/q”“紅燜/v通心/nz 河鰻/n”等。3.“名詞+動詞+名詞”式這種形式的菜名構(gòu)造一般配料烹飪方式+主料例如酒/n蒸/v雞枇杷/n拌/v雞海米/n拌/v萵筍”等。 4.“名詞+動詞”式被切分為這種形式的菜名,一般是由于以“凍”“煎”“排”“松”“扣”“糊” 例如“土/n 筍/n 凍/v”“蠔/子/k 煎/v”“香油/n 蝦n/排/v”“五彩/n蝦/n松/v”“五彩/n 珍寶/ns 扣/v”“百合/n花生/n糊/v”等。
14、 5.直接借用成語或其他固定短語作為菜名 如“梅開二度/l”“吉利如意/l”“百花爭艷/i”等。 6.來源于典故、故事的菜名 系統(tǒng)往往未能正確識別這些菜名背后的典故,僅憑字面上的語法關(guān)系對其進行切分,造成了錯誤,例如“佛/n 跳/v 墻/n”“五/m 柳居/nr”等。材料中不同音節(jié)數(shù)閩菜名在以上六種主要類型中的分布狀況。依據(jù)上圖可知,僅有極少數(shù)的閩菜名能夠被分詞系統(tǒng)識別為一個分詞單位不考慮詞性標注正確性。被切分為名詞與名詞相互組合構(gòu)造的菜名數(shù)量最多,動賓構(gòu)造的次之,另外, “名詞+動詞+名詞”的形式也較為普遍。四、分詞結(jié)果可能帶來的問題一即便是由名詞組成的菜名,其整體意義并不等于各局部名詞意義
15、的簡潔相加,因此對這類菜名進展切分時不合理的。依據(jù)試驗結(jié)果,結(jié)合具體材料,可覺察在被切分為名詞的組合的那局部菜名里,存在一局部菜名切分后的意面線/n”,但由于該詞組存在交集型歧義,分詞系統(tǒng)將其處理為“炒面”“線”這兩個名詞的組合,不符合該詞組原來的意義。另一個例子“福州/ns肉/n燕/nr”中,“肉燕”本是福州地區(qū)一種類似餛飩的小吃名稱,被切分開后意義發(fā)生了極大的轉(zhuǎn)變。材料中的其他很多閩菜名,“蝦仁/n芙蓉/n蛋/n”“雪/n 中魚/nz”等,在被切分后意義都發(fā)生了不同程度的轉(zhuǎn)變。 二對于被切分為“動或是“名詞+動詞+名詞”的菜名在進入句子后,分詞系統(tǒng)對它們的判定仍舊是動賓構(gòu)造,可能導致這個句
16、子其他局部的分詞錯誤。在機器翻譯過程中,這樣的分詞結(jié)果可能“扒/v燒/v全/a雞/n”這個菜名進入句子后的分詞結(jié)果為“扒/v 燒/v 全/a 雞/n 是/v 道菜/n。/un”這個菜名在入句前后的標記結(jié)果未見差異,而實際上,這個菜名在進入句子后,應視作一個名詞性成分。又如“粉絲/n 燴/v 雞/n”這個菜名進入句子后的分詞結(jié)果為“他/r 寵愛/v 粉絲/n 燴/v 雞/n”,切分結(jié)果并不能很好地表達句子層次及語義內(nèi)容,給機器翻譯帶來困難。 三“五彩/n蝦/n松/v”“五彩/n珍寶/ns扣/v”等被切分為“名詞+動詞”切分這類菜名時,分詞系統(tǒng)存在明顯的缺陷,對單個菜名的切分已經(jīng)產(chǎn)生嚴峻失誤。四分
17、詞結(jié)果為一個分詞單位的那局部菜名中也存在問題?!懊烽_二度”“吉利如意”等以固定詞組為菜名,這些詞組作為菜名使用時的意義與其原本的意義并不一樣。假設不能區(qū)分它們在句中消滅時是使用原義還是菜名,就會給整體句意的理解帶來影響。包含了可兼為食材名和姓氏的成分的菜名,例如“姜”“湯”“黃”等往往被判定為人名,如“姜雞/nr”“湯醬/nr 草頭/n”“荷包/n 黃翅魚/nr”等。這樣的分詞結(jié)果明顯不符合菜名的本義。遇到一些較為生僻的烹飪方法用字或是食材用字時,分詞系統(tǒng)也產(chǎn)生切分失誤。例如“雞湯/n 汆/海/n 蚌/n”“大蔥/n 燜/羊肉/n”“/豆腐/n 蠣/”等。五、分詞系統(tǒng)可能進展的一些改進依據(jù)PH
18、P 簡易中文分詞系統(tǒng)對600 個閩菜名的分詞結(jié)果,本文認為該系統(tǒng)可能通過一些改進,提高對菜名的識別和切分力量,以提高分詞效率。汶主編計算語言學概論一書中指出解決未登錄詞識別問題的策略主要有三種:一是盡可能多地收入詞匯,以降低遇到未登錄詞的時機;二是通過構(gòu)詞規(guī)章和上下文特征規(guī)章來識別;三是通過統(tǒng)計的方法來猜測經(jīng)過一般的分詞過程后剩下的“連續(xù)單字詞碎片” 是人名、地名等的可能性,從而識別出未登錄詞。有關(guān)未登錄詞的識別問題,目前些工作涉及到中國人名的識別外國譯名的識別中國地名的識別及機構(gòu)名的識別,提出了基于模式匹配的中文專知名詞識別、基于統(tǒng)計的中文專知名詞識別等不同方式。菜名的識別,可以借鑒這些專知
19、名詞識別爭辯工作上已經(jīng)取得的成果。另有一些識別未登錄詞的解決方案可供參考。陳小荷2022指出,在識別未登錄詞時,現(xiàn)有兩種解決方案:個別解決方案和一攬子解決方案。其中,個別解決方案主要針對專名未登錄詞,有建立專名資料庫、利用上下文啟發(fā)信息等方法。一攬子解決方案則包括有窮多層列舉法、語料庫統(tǒng)計、局部統(tǒng)計、結(jié)合詞性標注等方法。除此之外,他還提出了自己的一攬子解決方案:先用最或許率法進展第一趟分詞,識別已登錄的多字詞;再運用概率計算的方法在“分詞碎片”中查找未登錄詞。參考在未登錄詞識別爭辯上已有的成果本文認為分詞系統(tǒng)在識別菜名時可實行不同方式以相互補充協(xié)作以下是可承受的方法:1.適當擴大詞表利用語料庫人工篩選相結(jié)合的方法選取一局部相對穩(wěn)定常用的菜名將其收入到詞表中。2.分析菜名構(gòu)詞規(guī)章上的特點,歸納總結(jié)菜名構(gòu)詞規(guī)律,提高分詞系統(tǒng)對菜名的識別力量。3.利用語料庫,考察與菜名相匹配的前后成分的狀況,分析其上下文特征,為識別菜名供給幫助。4.對于未收錄到詞表中的,依據(jù)其自身
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年民間借貸合同模板月息
- 六年級下冊數(shù)學教案-5.2 數(shù)與代數(shù) ︳西師大版
- 二年級下冊數(shù)學教案-4.4勤勞工作-筆算三位數(shù)加減三位數(shù)(一次進位、退位) 青島版
- 2025年城鄉(xiāng)結(jié)對共建協(xié)議書范
- 2025年河北旅游職業(yè)學院單招職業(yè)適應性測試題庫及答案一套
- 化學-云南省三校2025屆高三2月高考備考聯(lián)考卷(六)試題和答案
- 2025江西省建筑安全員A證考試題庫及答案
- 2025年鶴崗師范高等??茖W校單招職業(yè)傾向性測試題庫完整版
- 2025年度個人股份轉(zhuǎn)讓與員工分紅權(quán)合同模板
- 2025年度企業(yè)數(shù)字化轉(zhuǎn)型技術(shù)顧問合作協(xié)議
- 四環(huán)素類抗菌藥物兒科臨床應用專家共識(2024年版)解讀
- 重點語法清單2024-2025學年人教版英語八年級上冊
- 金屬包裝容器生產(chǎn)數(shù)據(jù)分析考核試卷
- 寵物學概論課程設計
- 2024年全國統(tǒng)一高考數(shù)學試卷(理科)甲卷含答案
- 排水管網(wǎng)溯源排查項目專項培訓
- 譯林牛津版八年級下冊英語全冊課件
- 2024環(huán)氧磨石地坪施工技術(shù)規(guī)程
- 五年級下冊小學數(shù)學《分數(shù)的加法和減法》單元作業(yè)設計
- 醫(yī)學文獻管理制度
- 白塞氏病學習課件
評論
0/150
提交評論