多粒度分詞演示系統(tǒng)_第1頁(yè)
多粒度分詞演示系統(tǒng)_第2頁(yè)
多粒度分詞演示系統(tǒng)_第3頁(yè)
多粒度分詞演示系統(tǒng)_第4頁(yè)
多粒度分詞演示系統(tǒng)_第5頁(yè)
已閱讀5頁(yè),還剩30頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)AbstractTOC\o"1-5"\h\z前言 3\o"CurrentDocument"第1章緒論 4\o"CurrentDocument"1.1研究背景 4\o"CurrentDocument"1.2分詞概述 5\o"CurrentDocument"1.3本文的主要工作 6\o"CurrentDocument"第2章基于詞典匹配和動(dòng)態(tài)規(guī)劃樹(shù)狀解碼的多粒度分詞算法 8\o"CurrentDocument"2.1算法實(shí)現(xiàn) 8\o"CurrentDocument"2.2優(yōu)化 10\o"CurrentDocument"2.3評(píng)價(jià) 10\o"CurrentDocument"第3章基于神經(jīng)網(wǎng)絡(luò)分類模型和動(dòng)態(tài)規(guī)劃序列解碼的多粒度分詞方法 13133.1介紹13\o"CurrentDocument"3.2模型搭建 14\o"CurrentDocument"3.3模型訓(xùn)練 16\o"CurrentDocument"3.4模型結(jié)果處理 17\o"CurrentDocument"3.5評(píng)價(jià) 19\o"CurrentDocument"第4章多粒度分詞演示系統(tǒng)構(gòu)建 22\o"CurrentDocument"4.1后端程序 22\o"CurrentDocument"4.2網(wǎng)頁(yè)前端 23\o"CurrentDocument"4.3效果展示 24\o"CurrentDocument"第5章總結(jié)與展望 27\o"CurrentDocument"5.1本文總結(jié) 27\o"CurrentDocument"5.2后續(xù)工作展望 27\o"CurrentDocument"致謝 29\o"CurrentDocument"參考文獻(xiàn) 30附錄 32蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)蘇州大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)#4.2網(wǎng)頁(yè)前端網(wǎng)頁(yè)前端采用了HTML5+Ajax+JavaScript來(lái)編寫(xiě)。HTML超級(jí)文本標(biāo)記語(yǔ)言是標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言下的一個(gè)應(yīng)用, 也是一種規(guī)范,一種標(biāo)準(zhǔn),它通過(guò)標(biāo)記符號(hào)來(lái)標(biāo)記要顯示的網(wǎng)頁(yè)中的各個(gè)部分。簡(jiǎn)單來(lái)講,我們只需要一個(gè)文本框供用戶輸入文本, 一個(gè)按鈕點(diǎn)擊后產(chǎn)生結(jié)果,和一個(gè)畫(huà)布來(lái)展示結(jié)果。Ajax(AsynchronousJavaScriptandXML)異步的JavaScript和XML,是指一種創(chuàng)建交互式網(wǎng)頁(yè)應(yīng)用的網(wǎng)頁(yè)開(kāi)發(fā)技術(shù)。傳統(tǒng)的前端與后臺(tái)的交互方法不得不讓整個(gè)頁(yè)面刷新,這樣做讓用戶體驗(yàn)大大下降,而 Ajax是一種用于創(chuàng)建快速動(dòng)態(tài)網(wǎng)頁(yè)的技術(shù),在無(wú)需重新加載整個(gè)網(wǎng)頁(yè)的情況下,它能夠更新部分網(wǎng)頁(yè),通過(guò)在后臺(tái)與服務(wù)器進(jìn)行少量數(shù)據(jù)交換,Ajax可以使網(wǎng)頁(yè)實(shí)現(xiàn)異步更新。以本文為例,單擊按鈕后,瀏覽器就利用Ajax技術(shù)異步地把數(shù)據(jù)傳到后臺(tái)服務(wù)器,而本身這個(gè)頁(yè)面不受任何影響,但服務(wù)器把數(shù)據(jù)回發(fā)給瀏覽器時(shí),瀏覽器就可以完成指定動(dòng)作,比如在下方畫(huà)出圖像,無(wú)需重新加載整個(gè)頁(yè)面。最后我們還要用JavaScript語(yǔ)言來(lái)畫(huà)出樹(shù)的形狀。根據(jù)需求,圖形中應(yīng)當(dāng)只有簡(jiǎn)單的點(diǎn)、線和圓等形狀,所以本文沒(méi)有采用第三方 js圖形庫(kù),直接用html提供的canvas元素來(lái)動(dòng)態(tài)地繪制。算法4:畫(huà)出樹(shù)狀圖1:確定整個(gè)樹(shù)的根節(jié)點(diǎn)位置2:input:tree,根節(jié)點(diǎn)位置3:function(tree,root_x,root_y):4:iftreeisnotleaf::5: forsubtreeintree::6 確定subtree的根節(jié)點(diǎn)位置7: 畫(huà)出根節(jié)點(diǎn),并與上一層根節(jié)點(diǎn)相連8: subtree遞歸調(diào)用9: endfor要畫(huà)一棵樹(shù)必然要遍歷該棵樹(shù),遍歷的順序決定了畫(huà)節(jié)點(diǎn)的順序。我們以先序遍歷為模板來(lái)作圖,首先確定整棵樹(shù)根節(jié)點(diǎn)的位置,然后從該位置為起點(diǎn)遞歸地遍歷子樹(shù)。每次遞歸時(shí)要確定根節(jié)點(diǎn)的位置,而根節(jié)點(diǎn)的水平位置應(yīng)該位于該子樹(shù)所有葉子節(jié)點(diǎn)的中間,縱向位置由每層的高度決定。所以先計(jì)算該子樹(shù)的葉子節(jié)點(diǎn)的個(gè)數(shù), 然后取中間位置,在累加上前面子樹(shù)所有

葉子數(shù)量的間距就是該子樹(shù)根節(jié)點(diǎn)的橫坐標(biāo)??v坐標(biāo)就是上一層根節(jié)點(diǎn)的縱坐標(biāo)加上每一層高度。畫(huà)出根節(jié)點(diǎn)后,再遞歸地畫(huà)子樹(shù)。如果是葉子節(jié)點(diǎn)(遇到list長(zhǎng)度為1),遞歸結(jié)束。上一頁(yè)算法4列出了畫(huà)出樹(shù)狀圖的偽代碼,圖4.2展示了畫(huà)出一棵樹(shù)的結(jié)果。圖4.2:樹(shù)示意圖4.3效果展示服務(wù)器上運(yùn)行服務(wù)器程序后,在瀏覽器的地址欄輸入:http://localhost:5000/demo,如果遠(yuǎn)程訪問(wèn),則把localhost改為對(duì)應(yīng)IP。圖4.3是初始界面。多粒度分詞Demo圖4.3:演示系統(tǒng)初始界面(以谷歌瀏覽器為例)在文本框內(nèi)輸入想要分詞的句子,本文以“我是中國(guó)人”和“全國(guó)各地醫(yī)學(xué)界專

家走出人民大會(huì)堂”為例,點(diǎn)擊分析按鈕,下方會(huì)顯示出結(jié)果,各個(gè)標(biāo)簽的含義見(jiàn)2.1節(jié)。結(jié)果如圖4.4和圖4.5所示。圖4.4:“我是中國(guó)人”的分詞結(jié)果圖4.5:“全國(guó)各地醫(yī)學(xué)界專家走出人民大會(huì)堂”的分詞結(jié)果圖4.4:“我是中國(guó)人”的分詞結(jié)果圖4.5:“全國(guó)各地醫(yī)學(xué)界專家走出人民大會(huì)堂”的分詞結(jié)果該演示系統(tǒng)還支持JSON格式的API,只要在網(wǎng)頁(yè)端輸入http://localhost:5000/api?text^是中國(guó)人,則會(huì)返回分詞結(jié)果的JSON數(shù)據(jù)格式,也就是前文寫(xiě)到的嵌套列表。本文在圖 4.6中貼出了python語(yǔ)言的調(diào)用格式實(shí)例fromurllibimp。r七requestfromurllib.parseinpor1:quoteimpcrtstring+ext='我是中國(guó)人,url^base='http://localhasT:&OQG/api?text=url=tirl_base十texturl-quoteurljsa_&=string.printableresponse^request.LLrlopen(tirL).read()response-response.decode(Fu_f-8')printresponse圖4.6:python3調(diào)用API示例第5章總結(jié)與展望本章節(jié)主要總結(jié)并分析了兩種多粒度分詞方法的優(yōu)點(diǎn)和缺點(diǎn),在此基礎(chǔ)上,以ANN模型實(shí)現(xiàn)的演示系統(tǒng)也存在不足。所以提出了幾種方法來(lái)進(jìn)一步提高準(zhǔn)確率,優(yōu)化演示系統(tǒng)的顯示結(jié)果。5.1本文總結(jié)本文先嘗試用兩種方法實(shí)現(xiàn)多粒度分詞,并且在同一個(gè)測(cè)試集上評(píng)價(jià)。 CKY算法通過(guò)查字典給每個(gè)句子成分定義一個(gè)分值,然后通過(guò)動(dòng)態(tài)規(guī)劃算法找出分值最大的一棵樹(shù)。另一種方法則是運(yùn)用了人工神經(jīng)網(wǎng)絡(luò)的強(qiáng)大功能, 把多粒度分詞看成是一個(gè)序列標(biāo)注任務(wù),直接找到每個(gè)字對(duì)應(yīng)的MWS標(biāo)簽來(lái)構(gòu)成一棵樹(shù)。根據(jù)實(shí)驗(yàn)結(jié)果我們可以得到以下結(jié)論:(1) CKY解碼方法受詞典和自定義的標(biāo)簽分值影響較大,在測(cè)試集上效果一般。但結(jié)果比較穩(wěn)定,算法簡(jiǎn)單。(2) 多粒度分詞可以和單粒度分詞一樣轉(zhuǎn)化為序列標(biāo)注任務(wù)來(lái)解決。(3)前饋神經(jīng)網(wǎng)絡(luò)模型能夠有效地解決多粒度分詞問(wèn)題, 在測(cè)試集上的表現(xiàn)遠(yuǎn)好于CKY解碼算法。但該模型對(duì)于訓(xùn)練集中未出現(xiàn)的詞比如人名,地名較敏感,結(jié)果不穩(wěn)定,同時(shí)模型訓(xùn)練耗時(shí)間,占用大量資源。最后本文通過(guò)調(diào)用實(shí)現(xiàn)的神經(jīng)網(wǎng)絡(luò)模型,實(shí)現(xiàn)了一個(gè)多粒度分詞演示系統(tǒng),根據(jù)用戶的輸入正確的顯示樹(shù)狀結(jié)構(gòu)。5.2后續(xù)工作展望該演示系統(tǒng)采用的是前饋神經(jīng)網(wǎng)絡(luò)模型。雖然該模型已經(jīng)達(dá)到95%的F值,但是仍存在以下幾點(diǎn)問(wèn)題:它依靠一個(gè)固定大小的上下文窗口來(lái)獲取前后特征,無(wú)法獲取更長(zhǎng)久的記憶信息,而且有時(shí)候上下文信息也會(huì)成為干擾噪音;分詞的結(jié)果容易受未出現(xiàn)的詞如人名地名的影響而出錯(cuò);英文等非中文字符結(jié)果異常;句子太長(zhǎng)導(dǎo)致顯示結(jié)果難看。因此,后續(xù)工作可以分為如下幾點(diǎn):(1)進(jìn)一步提高準(zhǔn)確率,避免使用上下文窗口這樣的工具。為此可以嘗試選用更復(fù)雜的模型,比如循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(RecurrentNeuralNetwork)。[17]循環(huán)神經(jīng)網(wǎng)絡(luò)已被用于包括語(yǔ)言模型[18]和語(yǔ)音識(shí)別[19]在內(nèi)的各種任務(wù)中,并產(chǎn)生良好的結(jié)果?;蛘呖梢赃x擇長(zhǎng)短時(shí)記憶LSTM(Long-ShortTermMemory)模型及雙向LSTM模型[20],它可以在特定時(shí)間范圍內(nèi)有效利用過(guò)去的特征 (通過(guò)正向狀態(tài))和未來(lái)的特征(通過(guò)反向狀態(tài))。雙向LSTM模型已經(jīng)在單粒度中文分詞領(lǐng)域取得卓越的效果 [21]。(2) 嘗試對(duì)非中文字符及句子進(jìn)行處理,盡可能不影響中文結(jié)果,甚至能正確分出詞語(yǔ)。例如可以單獨(dú)選擇英文語(yǔ)料進(jìn)行模型的訓(xùn)練。(3) 調(diào)整演示系統(tǒng)的顯示結(jié)果,避免一個(gè)句子或者文本太長(zhǎng),而使得整棵樹(shù)太寬。可以根據(jù)句子長(zhǎng)度動(dòng)態(tài)的拉高每層之間的距離,平衡整棵樹(shù)的高度和寬度。致謝回顧畢業(yè)設(shè)計(jì)這一段時(shí)間,首先要感謝的是李正華老師。在準(zhǔn)備階段,李老師積極地引導(dǎo)我進(jìn)行相關(guān)調(diào)研,協(xié)助我制定畢業(yè)設(shè)計(jì)的計(jì)劃。由于我沒(méi)有任何自然語(yǔ)言處理的基礎(chǔ),李老師由淺入深地指導(dǎo)我編寫(xiě)分詞算法,并且提供相關(guān)資料,讓我在學(xué)習(xí)過(guò)程中體會(huì)到了逐漸深入的樂(lè)趣。整個(gè)畢設(shè)過(guò)程中,每當(dāng)我遇到難題時(shí),他總是不遺余力地提出指導(dǎo)性意見(jiàn);每當(dāng)我犯錯(cuò)時(shí),他也會(huì)嚴(yán)格的指出。非常感謝李老師每周都從百忙之中抽出時(shí)間來(lái)監(jiān)督我一周的學(xué)習(xí)情況,作為我未來(lái)研究生階段的導(dǎo)師,也感謝他帶我入門。其次我要感謝人類語(yǔ)言技術(shù)實(shí)驗(yàn)室的每一位成員,尤其是龔晨師姐。她在我畢業(yè)設(shè)計(jì)階段也提供了莫大的幫助。第一次寫(xiě)多粒度分詞算法時(shí)她及時(shí)地幫助我分析問(wèn)題,提供各類數(shù)據(jù)和資料。結(jié)果有問(wèn)題時(shí),也總是不厭其煩地協(xié)助我找錯(cuò)誤。在第一次做神經(jīng)網(wǎng)絡(luò)模型的時(shí)候,沒(méi)有經(jīng)驗(yàn)的我多次向龔晨學(xué)姐探討問(wèn)題,包括模型的訓(xùn)練評(píng)價(jià)等等各個(gè)細(xì)節(jié)都給我講解了清楚。也感謝實(shí)驗(yàn)室及李老師給我提供合適的編程環(huán)境。另外也要感謝我的同班同學(xué),尤其是趙俊杰同學(xué)。他在深度學(xué)習(xí)方面掌握了許多知識(shí),經(jīng)常不厭其煩地給予我?guī)椭_€有張宇同學(xué),我的舍友錢昊等等,我們?cè)谝黄鸹ハ啾O(jiān)督,互相激勵(lì),共同前行。有問(wèn)題一起討論解決,沒(méi)有他們我將寸步難行,謝謝他們陪我度過(guò)這愉快的四年時(shí)光。最后,我要感謝我的父母。除了謝謝他們?cè)诮?jīng)濟(jì)上支持我完成大學(xué)時(shí)光甚至未來(lái)的研究生階段,每周父母都會(huì)慰問(wèn)我生活情況和學(xué)習(xí)情況,鼓勵(lì)我好好學(xué)習(xí),這在精神上給了我非常大的幫助。因此在這里鄭重的感謝父母。參考文獻(xiàn)張黎,徐蔚然?中文分詞研究[J].軟件,2012,33(12):103-108.SproatR,GaleW,ShihC,etal.Astochasticfinite-stateword-segmentationalgorithmforChinese[J].ComputationalLinguistics,1996,22(3):377-404.黃昌寧,趙海.中文分詞十年回顧[J].中文信息學(xué)報(bào),2007,21(3):8-19.何國(guó)斌,趙晶璐.基于最大匹配的中文分詞概率算法研究[J].計(jì)算機(jī)工程,2010,36(5):173-175⑸ZhangHP.ModelofChineseWordsRoughSegmentationBasedonN-Shortest-PathsMethod[J].JournalofChineseInformationProcessing,2002,16(5):1-7.XueN.Chinesewordsegmentationascharactertagging[J].ComputationalLinguisticsandChineseLanguageProcessing,2003,8(1):29-47.張梅山,鄧知龍,車萬(wàn)翔,劉挺.統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J].中文信息學(xué)報(bào),2012,26(02):8-12.ZhengX,ChenH,XuT.DeeplearningforChinesewordsegmentationandPOStagging[C]//ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2013.PeiW,GeT,ChangB.Max-MarginTensorNeuralNetworkforChineseWordSegmentation[C]〃MeetingoftheAssociationforComputationalLinguistics.2014:293-303.MaJ,HinrichsE.AccurateLinear-TimeChineseWordSegmentationviaEmbeddingMatching[C]〃TheMeetingoftheAssociationforComputationalLinguisticsandthe,InternationalJointConferenceonNaturalLanguageProcessing.2015:247-252GongC,LiZ,ZhangM,etal.Multi-GrainedChineseWordSegmentation[C]〃ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.2017:692-703.梁喜濤顧磊沖文分詞與詞性標(biāo)注研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(02):175-180.吳建源.基于BP神經(jīng)網(wǎng)絡(luò)的中文分詞算法研究[J].廣東培正學(xué)院論叢,2011,30⑷:33-37.Jin,Zhihui,Tanakalshii,etal.UnsupervisedsegmentationofChinesetextbyuseofbranchingentropy[C]〃ACL2006,InternationalConferenceonComputationalLinguisticsand,MeetingoftheAssociationforComputationalLinguistics,ProceedingsoftheConference,Sydney,Australia,17-21July.DBLP,2006:625-638.FengH,ChenK,DengX,etal.AccessorvarietycriteriaforChinesewordextraction[J].ComputationalLinguistics,2004,30(1):75-93.SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:asimplewaytopreventneuralnetworksfromoverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.MikolovT,KarafiatM,BurgetL,etal.RecurrentneuralnetworkbasedIanguagemodel[C]〃INTERSPEECH2010,ConferenceoftheInternationalSpeechCommunicationAssociation,Makuhari,Chiba,Japan,September.DBLP,2010:10451048.MikolovT,DeorasA,PoveyD,etal.StrategiesfortraininglargescaleneuralnetworkIanguagemodels[C]〃AutomaticSpeechRecognitionandUnderstanding.IEEE,2012:196-201.GravesA.2005SpecialIssue:FramewisephonemeclassificationwithbidirectionalLSTMandotherneuralnetworkarchitectures[M].ElsevierScieneeLtd.2005.ChenX,QiuX,ZhuC,etal.LongShort-TermMemoryNeuralNetworksforChineseWordSegmentation[C].

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論