多粒度分詞演示系統(tǒng)

上傳人：美*** IP屬地：天津上傳時(shí)間：2023-07-11 格式：DOCX 頁(yè)數(shù)：35 大小：393.98KB 積分：40 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩30頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)（論文）蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)（論文）蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)（論文）蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)（論文）AbstractTOC\o"1-5"\h\z前言 3\o"CurrentDocument"第1章緒論 4\o"CurrentDocument"1.1研究背景 4\o"CurrentDocument"1.2分詞概述 5\o"CurrentDocument"1.3本文的主要工作 6\o"CurrentDocument"第2章基于詞典匹配和動(dòng)態(tài)規(guī)劃樹(shù)狀解碼的多粒度分詞算法 8\o"CurrentDocument"2.1算法實(shí)現(xiàn) 8\o"CurrentDocument"2.2優(yōu)化 10\o"CurrentDocument"2.3評(píng)價(jià) 10\o"CurrentDocument"第3章基于神經(jīng)網(wǎng)絡(luò)分類模型和動(dòng)態(tài)規(guī)劃序列解碼的多粒度分詞方法 13133.1介紹13\o"CurrentDocument"3.2模型搭建 14\o"CurrentDocument"3.3模型訓(xùn)練 16\o"CurrentDocument"3.4模型結(jié)果處理 17\o"CurrentDocument"3.5評(píng)價(jià) 19\o"CurrentDocument"第4章多粒度分詞演示系統(tǒng)構(gòu)建 22\o"CurrentDocument"4.1后端程序 22\o"CurrentDocument"4.2網(wǎng)頁(yè)前端 23\o"CurrentDocument"4.3效果展示 24\o"CurrentDocument"第5章總結(jié)與展望 27\o"CurrentDocument"5.1本文總結(jié) 27\o"CurrentDocument"5.2后續(xù)工作展望 27\o"CurrentDocument"致謝 29\o"CurrentDocument"參考文獻(xiàn) 30附錄 32蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)（論文）蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)（論文）#4.2網(wǎng)頁(yè)前端網(wǎng)頁(yè)前端采用了HTML5+Ajax+JavaScript來(lái)編寫(xiě)。HTML超級(jí)文本標(biāo)記語(yǔ)言是標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言下的一個(gè)應(yīng)用，也是一種規(guī)范，一種標(biāo)準(zhǔn)，它通過(guò)標(biāo)記符號(hào)來(lái)標(biāo)記要顯示的網(wǎng)頁(yè)中的各個(gè)部分。簡(jiǎn)單來(lái)講，我們只需要一個(gè)文本框供用戶輸入文本，一個(gè)按鈕點(diǎn)擊后產(chǎn)生結(jié)果，和一個(gè)畫(huà)布來(lái)展示結(jié)果。Ajax(AsynchronousJavaScriptandXML)異步的JavaScript和XML，是指一種創(chuàng)建交互式網(wǎng)頁(yè)應(yīng)用的網(wǎng)頁(yè)開(kāi)發(fā)技術(shù)。傳統(tǒng)的前端與后臺(tái)的交互方法不得不讓整個(gè)頁(yè)面刷新，這樣做讓用戶體驗(yàn)大大下降，而 Ajax是一種用于創(chuàng)建快速動(dòng)態(tài)網(wǎng)頁(yè)的技術(shù)，在無(wú)需重新加載整個(gè)網(wǎng)頁(yè)的情況下，它能夠更新部分網(wǎng)頁(yè)，通過(guò)在后臺(tái)與服務(wù)器進(jìn)行少量數(shù)據(jù)交換，Ajax可以使網(wǎng)頁(yè)實(shí)現(xiàn)異步更新。以本文為例，單擊按鈕后，瀏覽器就利用Ajax技術(shù)異步地把數(shù)據(jù)傳到后臺(tái)服務(wù)器，而本身這個(gè)頁(yè)面不受任何影響，但服務(wù)器把數(shù)據(jù)回發(fā)給瀏覽器時(shí)，瀏覽器就可以完成指定動(dòng)作，比如在下方畫(huà)出圖像，無(wú)需重新加載整個(gè)頁(yè)面。最后我們還要用JavaScript語(yǔ)言來(lái)畫(huà)出樹(shù)的形狀。根據(jù)需求，圖形中應(yīng)當(dāng)只有簡(jiǎn)單的點(diǎn)、線和圓等形狀，所以本文沒(méi)有采用第三方 js圖形庫(kù)，直接用html提供的canvas元素來(lái)動(dòng)態(tài)地繪制。算法4:畫(huà)出樹(shù)狀圖1:確定整個(gè)樹(shù)的根節(jié)點(diǎn)位置2:input:tree，根節(jié)點(diǎn)位置3:function(tree,root_x,root_y):4:iftreeisnotleaf::5: forsubtreeintree::6 確定subtree的根節(jié)點(diǎn)位置7: 畫(huà)出根節(jié)點(diǎn)，并與上一層根節(jié)點(diǎn)相連8: subtree遞歸調(diào)用9: endfor要畫(huà)一棵樹(shù)必然要遍歷該棵樹(shù)，遍歷的順序決定了畫(huà)節(jié)點(diǎn)的順序。我們以先序遍歷為模板來(lái)作圖，首先確定整棵樹(shù)根節(jié)點(diǎn)的位置，然后從該位置為起點(diǎn)遞歸地遍歷子樹(shù)。每次遞歸時(shí)要確定根節(jié)點(diǎn)的位置，而根節(jié)點(diǎn)的水平位置應(yīng)該位于該子樹(shù)所有葉子節(jié)點(diǎn)的中間，縱向位置由每層的高度決定。所以先計(jì)算該子樹(shù)的葉子節(jié)點(diǎn)的個(gè)數(shù)，然后取中間位置，在累加上前面子樹(shù)所有

葉子數(shù)量的間距就是該子樹(shù)根節(jié)點(diǎn)的橫坐標(biāo)?？v坐標(biāo)就是上一層根節(jié)點(diǎn)的縱坐標(biāo)加上每一層高度。畫(huà)出根節(jié)點(diǎn)后，再遞歸地畫(huà)子樹(shù)。如果是葉子節(jié)點(diǎn)（遇到list長(zhǎng)度為1），遞歸結(jié)束。上一頁(yè)算法4列出了畫(huà)出樹(shù)狀圖的偽代碼，圖4.2展示了畫(huà)出一棵樹(shù)的結(jié)果。圖4.2:樹(shù)示意圖4.3效果展示服務(wù)器上運(yùn)行服務(wù)器程序后，在瀏覽器的地址欄輸入：http://localhost:5000/demo,如果遠(yuǎn)程訪問(wèn)，則把localhost改為對(duì)應(yīng)IP。圖4.3是初始界面。多粒度分詞Demo圖4.3：演示系統(tǒng)初始界面（以谷歌瀏覽器為例）在文本框內(nèi)輸入想要分詞的句子，本文以“我是中國(guó)人”和“全國(guó)各地醫(yī)學(xué)界專

家走出人民大會(huì)堂”為例，點(diǎn)擊分析按鈕，下方會(huì)顯示出結(jié)果，各個(gè)標(biāo)簽的含義見(jiàn)2.1節(jié)。結(jié)果如圖4.4和圖4.5所示。圖4.4：“我是中國(guó)人”的分詞結(jié)果圖4.5:“全國(guó)各地醫(yī)學(xué)界專家走出人民大會(huì)堂”的分詞結(jié)果圖4.4：“我是中國(guó)人”的分詞結(jié)果圖4.5:“全國(guó)各地醫(yī)學(xué)界專家走出人民大會(huì)堂”的分詞結(jié)果該演示系統(tǒng)還支持JSON格式的API，只要在網(wǎng)頁(yè)端輸入http://localhost:5000/api?text^是中國(guó)人，則會(huì)返回分詞結(jié)果的JSON數(shù)據(jù)格式，也就是前文寫(xiě)到的嵌套列表。本文在圖 4.6中貼出了python語(yǔ)言的調(diào)用格式實(shí)例fromurllibimp。r七requestfromurllib.parseinpor1:quoteimpcrtstring+ext='我是中國(guó)人，url^base='http：//localhasT:&OQG/api?text=url=tirl_base十texturl-quoteurljsa_&=string.printableresponse^request.LLrlopen(tirL).read()response-response.decode(Fu_f-8')printresponse圖4.6:python3調(diào)用API示例第5章總結(jié)與展望本章節(jié)主要總結(jié)并分析了兩種多粒度分詞方法的優(yōu)點(diǎn)和缺點(diǎn)，在此基礎(chǔ)上，以ANN模型實(shí)現(xiàn)的演示系統(tǒng)也存在不足。所以提出了幾種方法來(lái)進(jìn)一步提高準(zhǔn)確率，優(yōu)化演示系統(tǒng)的顯示結(jié)果。5.1本文總結(jié)本文先嘗試用兩種方法實(shí)現(xiàn)多粒度分詞，并且在同一個(gè)測(cè)試集上評(píng)價(jià)。 CKY算法通過(guò)查字典給每個(gè)句子成分定義一個(gè)分值，然后通過(guò)動(dòng)態(tài)規(guī)劃算法找出分值最大的一棵樹(shù)。另一種方法則是運(yùn)用了人工神經(jīng)網(wǎng)絡(luò)的強(qiáng)大功能，把多粒度分詞看成是一個(gè)序列標(biāo)注任務(wù)，直接找到每個(gè)字對(duì)應(yīng)的MWS標(biāo)簽來(lái)構(gòu)成一棵樹(shù)。根據(jù)實(shí)驗(yàn)結(jié)果我們可以得到以下結(jié)論：（1） CKY解碼方法受詞典和自定義的標(biāo)簽分值影響較大，在測(cè)試集上效果一般。但結(jié)果比較穩(wěn)定，算法簡(jiǎn)單。（2）多粒度分詞可以和單粒度分詞一樣轉(zhuǎn)化為序列標(biāo)注任務(wù)來(lái)解決。（3）前饋神經(jīng)網(wǎng)絡(luò)模型能夠有效地解決多粒度分詞問(wèn)題，在測(cè)試集上的表現(xiàn)遠(yuǎn)好于CKY解碼算法。但該模型對(duì)于訓(xùn)練集中未出現(xiàn)的詞比如人名，地名較敏感，結(jié)果不穩(wěn)定，同時(shí)模型訓(xùn)練耗時(shí)間，占用大量資源。最后本文通過(guò)調(diào)用實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型，實(shí)現(xiàn)了一個(gè)多粒度分詞演示系統(tǒng)，根據(jù)用戶的輸入正確的顯示樹(shù)狀結(jié)構(gòu)。5.2后續(xù)工作展望該演示系統(tǒng)采用的是前饋神經(jīng)網(wǎng)絡(luò)模型。雖然該模型已經(jīng)達(dá)到95%的F值，但是仍存在以下幾點(diǎn)問(wèn)題：它依靠一個(gè)固定大小的上下文窗口來(lái)獲取前后特征，無(wú)法獲取更長(zhǎng)久的記憶信息，而且有時(shí)候上下文信息也會(huì)成為干擾噪音；分詞的結(jié)果容易受未出現(xiàn)的詞如人名地名的影響而出錯(cuò)；英文等非中文字符結(jié)果異常；句子太長(zhǎng)導(dǎo)致顯示結(jié)果難看。因此，后續(xù)工作可以分為如下幾點(diǎn)：（1）進(jìn)一步提高準(zhǔn)確率，避免使用上下文窗口這樣的工具。為此可以嘗試選用更復(fù)雜的模型，比如循環(huán)神經(jīng)網(wǎng)絡(luò)RNN（RecurrentNeuralNetwork）。［17］循環(huán)神經(jīng)網(wǎng)絡(luò)已被用于包括語(yǔ)言模型［18］和語(yǔ)音識(shí)別［19］在內(nèi)的各種任務(wù)中，并產(chǎn)生良好的結(jié)果?；蛘呖梢赃x擇長(zhǎng)短時(shí)記憶LSTM（Long-ShortTermMemory）模型及雙向LSTM模型［20］，它可以在特定時(shí)間范圍內(nèi)有效利用過(guò)去的特征（通過(guò)正向狀態(tài)）和未來(lái)的特征（通過(guò)反向狀態(tài)）。雙向LSTM模型已經(jīng)在單粒度中文分詞領(lǐng)域取得卓越的效果［21］。（2）嘗試對(duì)非中文字符及句子進(jìn)行處理，盡可能不影響中文結(jié)果，甚至能正確分出詞語(yǔ)。例如可以單獨(dú)選擇英文語(yǔ)料進(jìn)行模型的訓(xùn)練。（3）調(diào)整演示系統(tǒng)的顯示結(jié)果，避免一個(gè)句子或者文本太長(zhǎng)，而使得整棵樹(shù)太寬。可以根據(jù)句子長(zhǎng)度動(dòng)態(tài)的拉高每層之間的距離，平衡整棵樹(shù)的高度和寬度。致謝回顧畢業(yè)設(shè)計(jì)這一段時(shí)間，首先要感謝的是李正華老師。在準(zhǔn)備階段，李老師積極地引導(dǎo)我進(jìn)行相關(guān)調(diào)研，協(xié)助我制定畢業(yè)設(shè)計(jì)的計(jì)劃。由于我沒(méi)有任何自然語(yǔ)言處理的基礎(chǔ)，李老師由淺入深地指導(dǎo)我編寫(xiě)分詞算法，并且提供相關(guān)資料，讓我在學(xué)習(xí)過(guò)程中體會(huì)到了逐漸深入的樂(lè)趣。整個(gè)畢設(shè)過(guò)程中，每當(dāng)我遇到難題時(shí)，他總是不遺余力地提出指導(dǎo)性意見(jiàn)；每當(dāng)我犯錯(cuò)時(shí)，他也會(huì)嚴(yán)格的指出。非常感謝李老師每周都從百忙之中抽出時(shí)間來(lái)監(jiān)督我一周的學(xué)習(xí)情況，作為我未來(lái)研究生階段的導(dǎo)師，也感謝他帶我入門。其次我要感謝人類語(yǔ)言技術(shù)實(shí)驗(yàn)室的每一位成員，尤其是龔晨師姐。她在我畢業(yè)設(shè)計(jì)階段也提供了莫大的幫助。第一次寫(xiě)多粒度分詞算法時(shí)她及時(shí)地幫助我分析問(wèn)題，提供各類數(shù)據(jù)和資料。結(jié)果有問(wèn)題時(shí)，也總是不厭其煩地協(xié)助我找錯(cuò)誤。在第一次做神經(jīng)網(wǎng)絡(luò)模型的時(shí)候，沒(méi)有經(jīng)驗(yàn)的我多次向龔晨學(xué)姐探討問(wèn)題，包括模型的訓(xùn)練評(píng)價(jià)等等各個(gè)細(xì)節(jié)都給我講解了清楚。也感謝實(shí)驗(yàn)室及李老師給我提供合適的編程環(huán)境。另外也要感謝我的同班同學(xué)，尤其是趙俊杰同學(xué)。他在深度學(xué)習(xí)方面掌握了許多知識(shí)，經(jīng)常不厭其煩地給予我?guī)椭＿€有張宇同學(xué)，我的舍友錢昊等等，我們?cè)谝黄鸹ハ啾O(jiān)督，互相激勵(lì)，共同前行。有問(wèn)題一起討論解決，沒(méi)有他們我將寸步難行，謝謝他們陪我度過(guò)這愉快的四年時(shí)光。最后，我要感謝我的父母。除了謝謝他們?cè)诮?jīng)濟(jì)上支持我完成大學(xué)時(shí)光甚至未來(lái)的研究生階段，每周父母都會(huì)慰問(wèn)我生活情況和學(xué)習(xí)情況，鼓勵(lì)我好好學(xué)習(xí)，這在精神上給了我非常大的幫助。因此在這里鄭重的感謝父母。參考文獻(xiàn)張黎,徐蔚然?中文分詞研究[J].軟件,2012,33(12):103-108.SproatR,GaleW,ShihC,etal.Astochasticfinite-stateword-segmentationalgorithmforChinese[J].ComputationalLinguistics,1996,22(3):377-404.黃昌寧，趙海.中文分詞十年回顧[J].中文信息學(xué)報(bào)，2007,21(3):8-19.何國(guó)斌，趙晶璐.基于最大匹配的中文分詞概率算法研究[J].計(jì)算機(jī)工程，2010,36(5):173-175⑸ZhangHP.ModelofChineseWordsRoughSegmentationBasedonN-Shortest-PathsMethod[J].JournalofChineseInformationProcessing,2002,16(5):1-7.XueN.Chinesewordsegmentationascharactertagging[J].ComputationalLinguisticsandChineseLanguageProcessing,2003,8(1):29-47.張梅山，鄧知龍,車萬(wàn)翔，劉挺.統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J].中文信息學(xué)報(bào),2012,26(02):8-12.ZhengX,ChenH,XuT.DeeplearningforChinesewordsegmentationandPOStagging[C]//ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2013.PeiW,GeT,ChangB.Max-MarginTensorNeuralNetworkforChineseWordSegmentation[C]〃MeetingoftheAssociationforComputationalLinguistics.2014:293-303.MaJ,HinrichsE.AccurateLinear-TimeChineseWordSegmentationviaEmbeddingMatching[C]〃TheMeetingoftheAssociationforComputationalLinguisticsandthe,InternationalJointConferenceonNaturalLanguageProcessing.2015:247-252GongC,LiZ,ZhangM,etal.Multi-GrainedChineseWordSegmentation[C]〃ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2017:692-703.梁喜濤顧磊沖文分詞與詞性標(biāo)注研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(02):175-180.吳建源.基于BP神經(jīng)網(wǎng)絡(luò)的中文分詞算法研究[J].廣東培正學(xué)院論叢，2011,30⑷:33-37.Jin,Zhihui,Tanakalshii,etal.UnsupervisedsegmentationofChinesetextbyuseofbranchingentropy[C]〃ACL2006,InternationalConferenceonComputationalLinguisticsand,MeetingoftheAssociationforComputationalLinguistics,ProceedingsoftheConference,Sydney,Australia,17-21July.DBLP,2006:625-638.FengH,ChenK,DengX,etal.AccessorvarietycriteriaforChinesewordextraction[J].ComputationalLinguistics,2004,30(1):75-93.SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:asimplewaytopreventneuralnetworksfromoverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.MikolovT,KarafiatM,BurgetL,etal.RecurrentneuralnetworkbasedIanguagemodel[C]〃INTERSPEECH2010,ConferenceoftheInternationalSpeechCommunicationAssociation,Makuhari,Chiba,Japan,September.DBLP,2010:10451048.MikolovT,DeorasA,PoveyD,etal.StrategiesfortraininglargescaleneuralnetworkIanguagemodels[C]〃AutomaticSpeechRecognitionandUnderstanding.IEEE,2012:196-201.GravesA.2005SpecialIssue:FramewisephonemeclassificationwithbidirectionalLSTMandotherneuralnetworkarchitectures[M].ElsevierScieneeLtd.2005.ChenX,QiuX,ZhuC,etal.LongShort-TermMemoryNeuralNetworksforChineseWordSegmentation[C].

人人文庫(kù)> 全部分類> 應(yīng)用文書(shū) > 事務(wù)文書(shū)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

多粒度分詞演示系統(tǒng)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

多粒度分詞演示系統(tǒng)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔