百度分詞原理培訓(xùn)ppt課件_第1頁
百度分詞原理培訓(xùn)ppt課件_第2頁
百度分詞原理培訓(xùn)ppt課件_第3頁
百度分詞原理培訓(xùn)ppt課件_第4頁
百度分詞原理培訓(xùn)ppt課件_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1, http:/www.by-,Baidu分詞原理,2,【目錄】,什 么 是 中 文 分 詞,查 詢 處 理,分 詞 技 術(shù) 分 析,應(yīng) 用 舉 證,分 詞 技 術(shù) 概 述,1,2,3,4,5,3,Part 1,【引言】, 什么是中文分詞 ,4,什么是中文分詞,搜索引擎技術(shù),5,什么是中文分詞,搜索引擎技術(shù),Baidu更懂中文,6,什么是中文分詞,中文分詞定義,上海/武警/總隊/醫(yī)院/地址,中文分詞是指將一個漢字序列切分成一個 一個單獨的詞。,7,Part 2,【百度接受用戶查詢后做了哪些事情】, 查詢處理 ,8,用戶提交字符串小于3個字符,用戶提交字符串多于3個字符,提交的中文查詢包含英文

2、單詞,查詢處理,用戶查詢方式,9,查詢處理,小于等于3個字符串,皮膚病,用戶查詢方式,皮膚病,10,查詢處理,用戶查詢方式,小于等于3個中文漢 字,將直接調(diào)取數(shù) 據(jù)庫中索引的詞匯,注,11,查詢處理,用戶提交了不止一個查詢串 多于3個字串符,上海皮膚病醫(yī)院,用戶查詢方式,上海/皮膚病/醫(yī)院,上海皮膚病/醫(yī)院,上海/皮膚病醫(yī)院,上海皮膚病醫(yī)院,12,查詢處理,用戶查詢方式,大于等于4個中文 漢字,搜索引擎會 默認(rèn)將所有字符串 按詞分隔開,分成 若干子查詢串,注,13,查詢處理,提交的中文查詢包含英文單詞,用戶查詢方式,Iphone手機(jī),Iphone/手機(jī),Iphone手機(jī),14,查詢處理,用戶查

3、詢方式,當(dāng)提交的中文查詢包 含英文單詞時,查詢 結(jié)果會將英文單詞優(yōu) 先完整展現(xiàn),即使查 詢的單詞不存在,也 會當(dāng)做一個字符處理 ,不會進(jìn)行拆分,注,15,Part 3,【都有哪些分詞技術(shù)】, 分詞技術(shù)概述 ,16,Part 3,分詞技術(shù)概述, 目錄 ,基于字符串匹配的分詞方法,基于統(tǒng)計的分詞方法,基于詞義分詞方法,17,Part 3,基于字串符匹配的分詞方法,按照一定的策略將待分析的漢字串與一個充分大的 詞典中的詞條進(jìn)行匹配,若在詞典中找到某個字符 串,則匹配成功,概 念,18,Part 3,基于字串符匹配的分詞方法,第一頁,最后一頁,19,正向最大匹配法,反向最大匹配法,最短路徑分詞法,基于

4、字符串匹配的分詞方法,常用方法,20,正向最大匹配法,中醫(yī)治白癜風(fēng),中醫(yī) / 治 / 白癜風(fēng),基于字符串匹配的分詞方法,正向最大匹配法,21,反向最大匹配法,中醫(yī)治白癜風(fēng),中 / 醫(yī)治 / 白癜風(fēng),基于字符串匹配的分詞方法,反向最大匹配法,22,最短路徑分詞法,中醫(yī)治白癜風(fēng),中醫(yī)/治白癜風(fēng),基于字符串匹配的分詞方法,最短路徑分詞法,23,基于字符串匹配的分詞方法,常用方法,采用最短路徑分詞方 法,因詞典中沒有 “治白癜風(fēng)”這個詞 組,所以從用戶體驗 考慮,調(diào)取了字典中 意思相近、用戶搜索 量大的詞“治療白癜 風(fēng)”、“治愈白癜風(fēng)”,注,24,基于統(tǒng)計的分詞方法,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有

5、可能構(gòu)成一個詞,優(yōu)點,用于系統(tǒng)自動識別新詞,缺點,對常用詞的識別精度差,例如:你的、我的 、許多的、最好的、之一,常用方法,25,概 念,尚不成熟,試驗階段,通過讓計算機(jī)模擬人對句子的理解,達(dá) 到識別詞的效果,基于理解的分詞方法,常用方法,26,Part 4,【實例舉證】, 分詞技術(shù)分析 ,27,分詞技術(shù)分析,百度匹配結(jié)果:,皮膚/醫(yī)院,28,分詞技術(shù)分析,正向最大匹配:,解小東/北京/華/煙云,反向最大匹配:,解/小/東北/京華煙云,百度實際匹配結(jié)果:,解小東/北/京華煙云,解小東/北京,29,分詞技術(shù)分析,正向最大匹配:,相同/仁/醫(yī)院/墻,正向最大匹配:,反向最大匹配:,相/同仁/醫(yī)/院

6、墻,百度實際匹配結(jié)果:,相/同仁醫(yī)院/墻,30,結(jié) 論,分詞技術(shù)分析,百度分詞采取了至少兩個詞典,一個是普通詞典,一個是 專用詞典(人名、書名、地名、影視劇名等)。而且是專用 詞典先切分,然后將剩余的片斷交由普通詞典來切分。,古巴比倫常,正向最大匹配:古巴比倫/常,反向最大匹配:古巴/比/倫常,百度輸出結(jié)果: 古巴比倫/常,如果正向和反向結(jié)果不一致百度采取最短路徑方法,31,分詞技術(shù)分析,首先查詢專用詞典(人名,部分地名等),將專有名稱切出, 剩下的部分采取雙向分詞策略,如果兩者切分結(jié)果相同, 說明沒有歧義,直接輸出分詞結(jié)果。如果不一致,則輸出 最短路徑的那個結(jié)果,如果最短路徑長度相同,則選擇

7、單字 詞少的那一組切分結(jié)果。如果單字也相同,則選擇正向分詞 結(jié)果,32,分詞技術(shù)分析,用專用詞典切出專有名詞 剩下部分進(jìn)行雙向分詞,如果單字也相同 取正向匹配結(jié)果,如果最短路徑相同 取單字詞少的那一組切分結(jié)果,如果不同,取最短路徑結(jié)果,如果相同,說明沒有歧義,輸出結(jié)果,33,Part 5,【常見切詞效果】, 應(yīng)用舉證 ,34,應(yīng)用舉證,【常見切詞效果】,白癜風(fēng) 上海 白癜風(fēng) 治療中心 治療 白癜風(fēng) 最好的 醫(yī)院-上海武警總隊醫(yī)院,A、白癜風(fēng) B、上海白癜風(fēng) C、上海白癜風(fēng)治療 D、上海白癜風(fēng)治療中心,E、治療白癜風(fēng)最好的醫(yī)院 F、上海治療白癜風(fēng)最好的醫(yī)院 G、上海白癜風(fēng)治療醫(yī)院 H、上海白癜風(fēng)

8、醫(yī)院,35,上海皮膚病醫(yī)院_長寧區(qū)白癜風(fēng)_閔行牛皮癬_皮膚科醫(yī)院 武夷路_閘北保德路 黃埔 徐匯 靜安 奉賢 寶山 嘉定 楊浦 虹口 松江 金山 普陀 浦東新區(qū) 青浦區(qū) 最好的皮膚病??漆t(yī)院,A、上海皮膚病醫(yī)院 B、上海皮膚科醫(yī)院 C、上海皮膚病醫(yī)院 武夷路 D、上海皮膚病??漆t(yī)院,E、上海皮膚病醫(yī)院 保德路 F、長寧區(qū)白癜風(fēng)醫(yī)院 G、長寧區(qū)皮膚科醫(yī)院 H、.,應(yīng)用舉證,【常見切詞效果】,36,網(wǎng)頁的Title長度根據(jù)關(guān)鍵詞匹配的數(shù)量和熱度而定,好比一個頁面只做兩三 個競爭度強(qiáng)的詞,那么Title就應(yīng)該盡量控制在30字以內(nèi),因為關(guān)鍵詞拆分得 越多,就意味著需要匹配得越多,而匹配的越多,對排名值

9、的貢獻(xiàn)會減弱。 而第二個例子中,之所以Title標(biāo)題會高于70字,也是根據(jù)情況而定,因為70 字中所匹配的關(guān)鍵詞除了第一個出現(xiàn)的完全匹配的關(guān)鍵詞“上海皮膚病醫(yī)院” 詞以外,其他詞相對而言競爭度都非常小,所以切詞匹配后能排名的幾率仍然 非常高,為什么要完全匹配?,應(yīng)用舉證,【常見切詞效果】,37,網(wǎng)站首頁Title根據(jù)網(wǎng)站定位可以參考此類寫法,但文章內(nèi)頁一般一篇文章只做1-2個長尾詞,所以切不可將標(biāo)題寫的和例2中一樣太過于冗長而影響用戶體驗,同時網(wǎng)站內(nèi)頁也沒有如此高的權(quán)重能帶起那么多長尾詞的排名。文章內(nèi)頁Title一般一句話能匹配出2個長尾詞就足夠了,常見的是一句話匹配一個詞,注:,應(yīng)用舉證,【

10、常見切詞效果】,38,注:,臉上長白斑怎么辦,小腿有白點,搜索詞:,應(yīng)用舉證,【常見切詞效果】,39,標(biāo)題中的關(guān)鍵詞不一定非得完全匹配,但關(guān) 鍵詞匯一定要在標(biāo)題中有關(guān)聯(lián)的出現(xiàn),應(yīng)用舉證,40,完全匹配,包含主要關(guān) 鍵詞“皮膚” 、“過敏”的 相關(guān)匹配同樣 能展現(xiàn),應(yīng)用舉證,41,主要關(guān)鍵詞要放在標(biāo)題和描述的最前面,關(guān) 鍵詞越靠前切詞時獲得的權(quán)重越高,排名越好,應(yīng)用舉證,42,通過梯形圖很 容易看出,關(guān) 鍵詞出現(xiàn)位置 越靠前排名越好,應(yīng)用舉證,43,關(guān)鍵詞出現(xiàn)的頻率同樣是排名的關(guān)鍵,關(guān)鍵 詞出現(xiàn)密度高的網(wǎng)頁將會獲得好的排名,應(yīng)用舉證,44,A網(wǎng)站比B網(wǎng)站 關(guān)鍵詞出現(xiàn)密 度顯然要高,所 以略占優(yōu)勢

11、,完全匹配,A,B,提示:如果是在完全匹配的情 況下,關(guān)鍵詞密度應(yīng)該要嚴(yán)格 控制。標(biāo)題中關(guān)鍵詞精確匹 配一次,短語匹配一次為佳, 描述中關(guān)鍵詞精確匹配和短語 匹配可以和標(biāo)題一樣穿插使用 出現(xiàn)1-3次。如果完全匹配的 關(guān)鍵詞如果放到標(biāo)題或內(nèi)容的 最后面,其排名未必見得會高 于那些短語匹配出現(xiàn)密度高的 關(guān)鍵詞的排名,應(yīng)用舉證,45,總 結(jié),為什么用戶搜索一個詞,搜索引擎會羅列出和他相關(guān)的結(jié)果,?,因為用戶搜索的詞或是詞中某個字符串和搜索引擎詞典中的某個字符串匹配成功,那么包含這些字符串的網(wǎng)頁將會被羅列出來,基于字串符匹配的分詞方法,為什么用戶搜索一個詞,搜索引擎會羅列出和他相關(guān)的結(jié)果,?,為什么用戶搜索一個詞,搜索引擎會羅列出和他相關(guān)的結(jié)果,?,?,46,總 結(jié),為什么一再強(qiáng)調(diào)文章的標(biāo)題要和文章主旨相符,?,除用戶體驗外因素外,另一個因素是因為通過搜索引擎對標(biāo)題以及內(nèi)容的了解,在標(biāo)題語義和句法的分析上能夠更準(zhǔn)確,從而避免分詞時增加歧義錯誤率的發(fā)生,基于詞義的分詞方法,47,總 結(jié),為什么一再強(qiáng)調(diào)文章中關(guān)鍵詞的出現(xiàn)密度,?,能加強(qiáng)搜索引擎對新詞的識別能力,更好的識別文章中的主要關(guān)鍵詞是什么,同時也降低了將主要關(guān)鍵詞進(jìn)行錯誤切詞的概率,基于統(tǒng)計的分詞方法,Thanks,seosemwhy論壇網(wǎng)址:,.,49,資料可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論