中文分詞課件_第1頁
中文分詞課件_第2頁
中文分詞課件_第3頁
中文分詞課件_第4頁
中文分詞課件_第5頁
已閱讀5頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

13.4中文分詞原理2【目錄】什么是中文

分詞查詢處理分詞技術(shù)分析應(yīng)用舉證分詞技術(shù)概

12345為什么要分詞英文Knowledgeispower單詞之間有空格,很容易進(jìn)行詞語的匹配。中文的語義與字詞的搭配相關(guān)后人又有人寫:1、下雨天留客,天留,我不留。2、下雨天留客,天留我不留。3、下雨天,留客,天留,我不留。4、下雨天,留客,天留我,不留。5、下雨天留客,天留我不?留!6、下雨天,留客天,留我不留?7、下雨天,留客天,留我?不留!8、下雨天留客,天!留我不?留!9、下雨天,留客!天!留我不留?唐朝時,一個窮人到他朋友家去玩,這個窮人非常的聰明。又一天,下起了雨,這個朋友想讓他快點回去,不好意思說,于是,寫了一封信,但沒加標(biāo)點。這個朋友的意思是:下雨天留客,天留人不留。沒想到,這位聰明的窮人在信中夾了標(biāo)點,意思全變了:下雨天,留客天,留人不?留。6什么是中文分詞中文分詞定義上海/武警/總隊/醫(yī)院/地址分詞就是將一句話切分成一個個單詞的過程.分詞的目的是更加有效、準(zhǔn)確的關(guān)鍵詞索引。中文分詞概述什么是分詞?比如句子“內(nèi)塔尼亞胡說的確實在理”基于關(guān)鍵詞的口碑分析客戶:某知名全國連鎖餐飲品牌需求:自身及競爭對手在互聯(lián)網(wǎng)上的口碑變化2023/2/62023/2/611Part2【接受用戶查詢后做了哪些事情】『查詢處理』

13查詢處理小于等于3個字符串皮膚病用戶查詢方式皮膚病14查詢處理用戶查詢方式小于等于3個中文漢字,將直接調(diào)取數(shù)據(jù)庫中索引的詞匯注15查詢處理用戶提交了不止一個查詢串多于3個字串符上海皮膚病醫(yī)院用戶查詢方式上海/皮膚病/醫(yī)院上海皮膚病/醫(yī)院上海/皮膚病醫(yī)院上海皮膚病醫(yī)院17查詢處理提交的中文查詢包含英文單詞用戶查詢方式Iphone手機Iphone/手機Iphone手機18查詢處理用戶查詢方式當(dāng)提交的中文查詢包含英文單詞時,查詢結(jié)果會將英文單詞優(yōu)先完整展現(xiàn),即使查詢的單詞不存在,也會當(dāng)做一個字符處理,不會進(jìn)行拆分注中文分詞概述(Cont.)分詞難點歧義無處不在交叉歧義(多種切分交織在一起)內(nèi)塔內(nèi)亞胡說的/確實/在理組合歧義(不同情況下切分不同)這個人/手上有痣我們公司人手真歧義(幾種切分都可以)乒乓球拍/賣/完了乒乓球/拍賣/完了中文分詞概述(Cont.)分詞難點普通詞與新詞互用高明表演真好(演員)/他的表演很高明汪洋到深圳檢查工作/洞庭湖一片汪洋普通詞與新詞交織在一起克林頓對內(nèi)塔尼亞胡說胡錦濤聽取龔學(xué)平等同志的匯報中文分詞概述(Cont.)分詞難點(需要重新處理)需求多種多樣切分速度:搜索引擎VS單機版語音合成結(jié)果呈現(xiàn):切分粒度要求不同:機器翻譯VS搜索引擎分詞重點要求不同:語音合成VS搜索引擎唯一結(jié)果VS多結(jié)果:語音合成VS搜索引擎新詞敏感度不同:語音合成VS搜索引擎處理對象:書面文本(規(guī)范/非規(guī)范)VS口語文本硬件平臺:嵌入式VS單機版VS服務(wù)器版23Part3【都有哪些分詞技術(shù)】『分詞技術(shù)概述』

25Part3基于字典的分詞方法按照一定的策略將待分析的漢字串與一個充分大的詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符串,則匹配成功概念26Part3基于字典的分詞方法第一頁最后一頁29反向最大匹配法中醫(yī)治白癜風(fēng)中/醫(yī)治/白癜風(fēng)基于字典的分詞方法反向最大匹配法30最短路徑分詞法中醫(yī)治白癜風(fēng)中醫(yī)/治白癜風(fēng)基于字典的分詞方法最短路徑分詞法31基于字典的分詞方法常用方法采用最短路徑分詞方法,因詞典中沒有“治白癜風(fēng)”這個詞組,所以從用戶體驗考慮,調(diào)取了字典中意思相近、用戶搜索量大的詞“治療白癜風(fēng)”、“治愈白癜風(fēng)”注32基于統(tǒng)計的分詞方法相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞優(yōu)點用于系統(tǒng)自動識別新詞缺點對常用詞的識別精度差例如:你的、我的、許多的、最好的、之一常用方法統(tǒng)計分詞生成式統(tǒng)計分詞判別式統(tǒng)計分詞生成式分詞原理首先建立學(xué)習(xí)樣本的生成模型,再利用模型對預(yù)測結(jié)果進(jìn)行間接推理兩個假設(shè)前提馬爾可夫假設(shè)當(dāng)前狀態(tài)出現(xiàn)的概率僅同過去有限的歷史狀態(tài)有關(guān),而與其他狀態(tài)無關(guān)。具體到分詞任務(wù),就是文本中第i個詞出現(xiàn)的概率僅僅依賴于它前面的i-1個詞,而與其他詞無關(guān)。輸出獨立性假設(shè)當(dāng)前狀態(tài)的輸出僅僅取決于當(dāng)前狀態(tài)本身,而與其他狀態(tài)無關(guān)。生成式分詞(Cont.)學(xué)習(xí)素材句子切分結(jié)果分詞知識庫產(chǎn)生式學(xué)習(xí)算法產(chǎn)生式切分算法分詞詞典生成式分詞(Cont.)分詞過程實例第一步:全切分生成式分詞(Cont.)第二步:Viterbi動態(tài)規(guī)劃,找到貫穿句子的路徑并計算每條路徑的概率P1=P(說|他)*P(的|說)*P(確實|的)*P(在理|確實)*P($End|在理)P2=P(說|他)*P(的確|說)*P(實在|的確)*P(理|實在)*P($End|理)第三步:選擇概率最大的路徑為切分結(jié)果生成式分詞(Cont.)優(yōu)點在訓(xùn)練語料規(guī)模足夠大和覆蓋領(lǐng)域足夠多的情況下,可以獲得較高的切分正確率(>=95%)不足需要很大的訓(xùn)練語料新詞識別能力弱解碼速度相對較慢統(tǒng)計分詞生成式統(tǒng)計分詞判別式統(tǒng)計分詞判別式分詞原理在有限樣本條件下建立對于預(yù)測結(jié)果的判別函數(shù),直接對預(yù)測結(jié)果進(jìn)行判別,建模無需任何假設(shè)。由字構(gòu)詞的分詞理念,將分詞問題轉(zhuǎn)化為判別式分類問題典型算法Maxent SVM CRF Perceptron優(yōu)勢能充分利用各種來源的知識需要較少的訓(xùn)練語料解碼速度更快新詞識別性能好判別式分詞(Cont.)由字構(gòu)詞把分詞問題轉(zhuǎn)化為確定句中每個字在詞中位置問題每個字在詞中可能的位置可以分為以下三種詞首B(日本占領(lǐng)了東三?。┰~中M(游泳比賽菲爾普斯獨占鰲頭)詞尾E(中國隊搶占了風(fēng)頭)分詞結(jié)果形式化分詞結(jié)果:毛/B新/M年/E2/B0/M0/M0/M年/E畢/B業(yè)/E/于/B東/B北/M大/M學(xué)/E還原:毛新年/2000年/畢業(yè)/于/東北大學(xué)判別式分詞(Cont.)學(xué)習(xí)素材句子切分結(jié)果分詞知識庫判別式學(xué)習(xí)算法判別式學(xué)習(xí)算法判別式分詞(Cont.)特征所涉及的語言學(xué)知識列表字的上下文知識形態(tài)詞知識:處理重疊詞、離合詞、前后綴仿詞知識:2000年成語/慣用語知識普通詞詞典知識歧義知識新詞知識/用戶詞典新詞的全局化知識判別式分詞(Cont.)優(yōu)點理論基礎(chǔ)扎實解碼速度快分詞精度高新詞識別能力強所需學(xué)習(xí)素材少弱點訓(xùn)練速度慢需要高配置的機器訓(xùn)練我們即將以昂揚的斗志迎來新的一年。2023/2/6依存句法分析標(biāo)注關(guān)系(共15種)及含義2023/2/6在家禽攤位中,有一個攤位專賣烏骨雞。2023/2/649概念尚不成熟,試驗階段通過讓計算機模擬人對句子的理解,達(dá)到識別詞的效果基于理解的分詞方法常用方法50Part4【實例舉證】『分詞技術(shù)分析』

51分詞技術(shù)分析百度匹配結(jié)果:皮膚/醫(yī)院52分詞技術(shù)分析正向最大匹配:解小東/北京/華/煙云反向最大匹配:解/小/東北/京華煙云百度實際匹配結(jié)果:解小東/北/京華煙云解小東/北京53分詞技術(shù)分析正向最大匹配:相同/仁/醫(yī)院/墻正向最大匹配:反向最大匹配:相/同仁/醫(yī)/院墻百度實際匹配結(jié)果:相/同仁醫(yī)院/墻54結(jié)論分詞技術(shù)分析百度分詞采取了至少兩個詞典,一個是普通詞典,一個是專用詞典(人名、書名、地名、影視劇名等)。而且是專用詞典先切分,然后將剩余的片斷交由普通詞典來切分。古巴比倫常正向最大匹配:古巴比倫/常反向最大匹配:古巴/比/倫常百度輸出結(jié)果:古巴比倫/常如果正向和反向結(jié)果不一致百度采取最短路徑方法55分詞技術(shù)分析首先查詢專用詞典(人名,部分地名等),將專有名稱切出,剩下的部分采取雙向分詞策略,如果兩者切分結(jié)果相同,說明沒有歧義,直接輸出分詞結(jié)果。如果不一致,則輸出最短路徑的那個結(jié)果,如果最短路徑長度相同,則選擇單字詞少的那一組切分結(jié)果。如果單字也相同,則選擇正向分詞結(jié)果56分詞技術(shù)分析用專用詞典切出專有名詞剩下部分進(jìn)行雙向分詞如果單字也相同取正向匹配結(jié)果如果最短路徑相同取單字詞少的那一組切分結(jié)果如果不同,取最短路徑結(jié)果如果相同,說明沒有歧義輸出結(jié)果57Part5【常見切詞效果】『應(yīng)用舉證』

58應(yīng)用舉證【常見切詞效果】白癜風(fēng)

上海白癜風(fēng)治療中心

治療白癜風(fēng)最好的醫(yī)院-上海武警總隊醫(yī)院A、白癜風(fēng)B、上海白癜風(fēng)C、上海白癜風(fēng)治療D、上海白癜風(fēng)治療中心E、治療白癜風(fēng)最好的醫(yī)院F、上海治療白癜風(fēng)最好的醫(yī)院G、上海白癜風(fēng)治療醫(yī)院H、上海白癜風(fēng)醫(yī)院59上海皮膚病醫(yī)院_長寧區(qū)白癜風(fēng)_閔行牛皮癬_皮膚科醫(yī)院武夷路_閘北保德路黃埔徐匯靜安奉賢寶山嘉定楊浦虹口松江金山普陀浦東新區(qū)青浦區(qū)最好的皮膚病??漆t(yī)院A、上海皮膚病醫(yī)院B、上海皮膚科醫(yī)院C、上海皮膚病醫(yī)院武夷路D、上海皮膚病??漆t(yī)院E、上海皮膚病醫(yī)院保德路F、長寧區(qū)白癜風(fēng)醫(yī)院G、長寧區(qū)皮膚科醫(yī)院H、………….應(yīng)用舉證【常見切詞效果】60網(wǎng)頁的Title長度根據(jù)關(guān)鍵詞匹配的數(shù)量和熱度而定,好比一個頁面只做兩三個競爭度強的詞,那么Title就應(yīng)該盡量控制在30字以內(nèi),因為關(guān)鍵詞拆分得越多,就意味著需要匹配得越多,而匹配的越多,對排名值的貢獻(xiàn)會減弱。而第二個例子中,之所以Title標(biāo)題會高于70字,也是根據(jù)情況而定,因為70字中所匹配的關(guān)鍵詞除了第一個出現(xiàn)的完全匹配的關(guān)鍵詞“上海皮膚病醫(yī)院”詞以外,其他詞相對而言競爭度都非常小,所以切詞匹配后能排名的幾率仍然非常高為什么要完全匹配?應(yīng)用舉證【常見切詞效果】61網(wǎng)站首頁Title根據(jù)網(wǎng)站定位可以參考此類寫法,但文章內(nèi)頁一般一篇文章只做1-2個長尾詞,所以切不可將標(biāo)題寫的和例2中一樣太過于冗長而影響用戶體驗,同時網(wǎng)站內(nèi)頁也沒有如此高的權(quán)重能帶起那么多長尾詞的排名。文章內(nèi)頁Title一般一句話能匹配出2個長尾詞就足夠了,常見的是一句話匹配一個詞注:應(yīng)用舉證【常見切詞效果】62注:臉上長白斑怎么辦小腿有白點搜索詞:應(yīng)用舉證【常見切詞效果】63標(biāo)題中的關(guān)鍵詞不一定非得完全匹配,但關(guān)鍵詞匯一定要在標(biāo)題中有關(guān)聯(lián)的出現(xiàn)應(yīng)用舉證64完全匹配包含主要關(guān)鍵詞“皮膚”、“過敏”的相關(guān)匹配同樣能展現(xiàn)應(yīng)用舉證65主要關(guān)鍵詞要放在標(biāo)題和描述的最前面,關(guān)鍵詞越靠前切詞時獲得的權(quán)重越高,排名越好應(yīng)用舉證66通過梯形圖很容易看出,關(guān)鍵詞出現(xiàn)位置越靠前排名越好應(yīng)用舉證67關(guān)鍵詞出現(xiàn)的頻率同樣是排名的關(guān)鍵,關(guān)鍵詞出現(xiàn)密度高的網(wǎng)頁將會獲得好的排名應(yīng)用舉證68A網(wǎng)站比B網(wǎng)站關(guān)鍵詞出現(xiàn)密度顯然要高,所以略占優(yōu)勢完全匹配AB提示:如果是在完全匹配的情況下,關(guān)鍵詞密度應(yīng)該要嚴(yán)格控制。標(biāo)題中關(guān)鍵詞精確匹配一次,短語匹配一次為佳,描述中關(guān)鍵詞精確匹配和短語匹配可以和標(biāo)題一樣穿插使用出現(xiàn)1-3次。如果完全匹配的關(guān)鍵詞如果放到標(biāo)題或內(nèi)容的最后面,其排名未必見得會高于那些短語匹配出現(xiàn)密度高的關(guān)鍵詞的排名應(yīng)用舉證69總結(jié)為什么用戶搜索一個詞,搜索引擎會羅列出和他相關(guān)的結(jié)果?因為用戶搜索的詞或是詞中某個字符串和搜索引擎詞典中的某個字符串匹配成功,那么包含這些字符串的網(wǎng)頁將會被羅列出來基于字典的分詞方法為什么用戶搜索一個詞,搜索引擎會羅列出和他相關(guān)的結(jié)果?為什么用戶搜索一個詞,搜索引擎會羅列出和他相關(guān)的結(jié)果??70總結(jié)為什么一再強調(diào)文章的標(biāo)題要和文章主旨相符?除用戶體驗外因素外,另一個因素是因為通過搜索引擎對標(biāo)題以及內(nèi)容的了解,在標(biāo)題語義和句法的分析上能夠更準(zhǔn)確,從而避免分詞時增加歧義錯誤率的發(fā)生基于詞義的分詞方法71總結(jié)為什么一再強調(diào)文章中關(guān)鍵詞的出現(xiàn)密度?能加強搜索引擎對新詞的識別能力,更好的識別文章中的主要關(guān)鍵詞是什么,同時也降低了將主要關(guān)鍵詞進(jìn)行錯誤切詞的概率基于統(tǒng)計的分詞方法內(nèi)容提要分詞概述分詞技術(shù)發(fā)展國際分詞評測分詞技術(shù)總結(jié)分詞系統(tǒng)ICTCLAS這可是最早的中文開源分詞項目之一,ICTCLAS在國內(nèi)973專家組組織的評測中活動獲得了第一名,在第一屆國際中文處理研究機構(gòu)SigHan組織的評測中都獲得了多項第一名。ICTCLAS3.0分詞速度單機996KB/s,分詞精度98.45%,API不超過200KB,各種詞典數(shù)據(jù)壓縮后不到3M.ICTCLAS全部采用C/C++編寫,支持Linux、FreeBSD及Windows系列操作系統(tǒng),支持C/C++、C#、Delphi、Java等主流的開發(fā)語言。分詞系統(tǒng)CC-CEDICT一個中文詞典開源項目,提供一份以漢語拼音為中文輔助的漢英辭典,其詞典可以用于中文分詞使用,而且不存在版權(quán)問題。Chrome中文版就是使用的這個詞典進(jìn)行中文分詞的。

IK

IKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經(jīng)推出了3個大版本。最初,它是以開源項目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAnalyzer3.0則發(fā)展為面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認(rèn)優(yōu)化實現(xiàn)。

Paoding

Paoding(庖丁解牛分詞)基于Java的開源中文分詞組件,提供lucene和solr接口,具有極高效率和高擴展性。引入隱喻,采用完全的面向?qū)ο笤O(shè)計,構(gòu)思先進(jìn)。高效率:在PIII1G內(nèi)存?zhèn)€人機器上,1秒可準(zhǔn)確分詞100萬漢字。采用基于不限制個數(shù)的詞典文件對文章進(jìn)行有效切分,使能夠?qū)υ~匯分類定義。能夠?qū)ξ粗脑~匯進(jìn)行合理解析。僅支持Java語言。分詞系統(tǒng)MMSEG4J

MMSEG4J基于Java的開源中文分詞組件,提供lucene和solr接口:

1.mmseg4j

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論