




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、,面向計算機的語言研究,黃昌寧 微軟亞洲研究院 ,報告提綱,1.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論(兩種語言研究的對比),1. 自然語言處理的目標(biāo), 讓用戶能通過自然語言與計算機對話 The future of computing is the computer that talks, listens, sees, and learns. That is what is being created at Microsoft Research. - Bill Gates 通過機器翻譯跨越語言壁壘,以便讓全世界每個用戶都能共
2、享因特網(wǎng)的浩瀚信息和無限商機。,大規(guī)模真實文本處理, NLP 從實驗室走向?qū)嵱没闹匾獦?biāo)志 1990年被列為第13屆國際計算語言學(xué)大會 (Coling90)的主題 12年來取得的成果: 搜索引擎: MyNews: 信息抽取(IE): 語料庫標(biāo)注:http:/www.hcu.ox.ac.uk/BNC/,方法論的分歧,關(guān)于經(jīng)驗主義和理性主義方法的論爭 自然語言的歧義性和大規(guī)模真實文本處理的需求把經(jīng)驗主義方法推向第一線。 十年前第4屆機器翻譯的理論和方法國際會議(TMI-92) 的主題是:“機器翻譯中的經(jīng)驗主義和理性主義方法” 。 面向計算機的語言研究:語言知識表示和知識獲取都發(fā)生了實質(zhì)性的轉(zhuǎn)變。,
3、報告提綱,1.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論(兩種語言研究的對比),同音字漢字拼音輸入,每個不帶調(diào)的音節(jié)平均對應(yīng)19個漢字 單音節(jié)“yi”對應(yīng)131個漢字:一,以,已,異,亦,伊,意,易,毅,儀,依,宜,議,衣 shishi:實施,事實,實時,實事,適時,時時 一個含10個音節(jié)的句子,平均生成 1910 條可能的漢字序列 用詞的三元模型(trigram)實現(xiàn)拼音-漢字轉(zhuǎn)換,出錯率比市場上原有產(chǎn)品大約減小50%,多音字文語轉(zhuǎn)換(TTS), 行(xing):步行,一行,行頭,人行道, 發(fā)行,流行, 進(jìn)行, 行(hang)
4、: 行列,行業(yè),排行,行家, 人行, 工商行, 樂(le): 快樂,歡樂, 娛樂, 樂(yue): 音樂,樂隊,樂手,,自動分詞, 交集型歧義字段(OAS):AB/C 或 A/BC 不只是,從今后,法學(xué)院,曲劇團,熱湯面,大隊長 建設(shè)/有/效率/的精干的機構(gòu) (1694) 他/只得/到/工廠值班室去睡覺(325) 組合型歧義字段(CAS):AB 或 A/B 上將,成人,學(xué)會,國有,個人,馬上,都會,陣風(fēng) 怎么樣/才/能/抓住機遇 (202:24) 未登錄詞識別(誤切) 坎/昆/市/市長/拉/臘/和/夫人 瑞/閩/鋁/板/帶/有限公司,自動分詞的評測,對一個句法分析系統(tǒng)的評測 錯誤的分布: 分詞
5、 詞性 組塊 中心詞 40% 24% 12% 24% 分詞錯誤的分布: 人名 地名 機構(gòu)名 新詞 OAS 10% 20% 30% 30% 10%,專名識別的評測,人名(%) 地名(%)機構(gòu)名(%) P R P R P R 系統(tǒng)A 94.5 78.1 85.4 72.0 71.3 13.1 系統(tǒng)B 90.7 74.4 93.5 44.2 64.2 46.9 系統(tǒng)C 78.0 78.7 76.7 73.6 81.7 21.6 測試集 4,347 5,311 3,850 (1MB),思考問題,分詞的任務(wù)定義清楚了嗎?知識從哪里來? 詞典為什么幫不上忙? 靠現(xiàn)有的句法-語義知識能解決分詞歧義嗎? 一個
6、重要的理念 面向計算機的語言知識有什么特性? 語言運用知識的來源:語料庫 知識的表示:概率化參數(shù)模型 語言知識的獲取:統(tǒng)計學(xué)習(xí)理論,多乂詞, 據(jù)同義詞詞林統(tǒng)計: 最小類總數(shù): 1,428 詞形總數(shù): 42,724 多義詞占詞形總數(shù)的 14.8% 據(jù)語料庫統(tǒng)計: 多義詞占總詞次數(shù)的 42%,(句法)結(jié)構(gòu)歧義,結(jié)構(gòu)歧義是通過詞例動態(tài)顯現(xiàn)的: V N1 de N2 削蘋果的/刀NP; 削/蘋果的皮VP P N1 de N2 對系統(tǒng)的/評測NP; 對/評測的系統(tǒng)PP NumP N1 de N2 五個公司的職員; 五個公司的職員 N1 N2 N3 現(xiàn)代/漢語詞典; 新版漢語/詞典,(句法)結(jié)構(gòu)歧義(續(xù))
7、, NP V N % 打擊力度; 委托方式 VP V N % 打擊盜版; 委托甲方 短語類型歧義: 該 公司 / 正在 招聘 / 銷售 人員NP。 地球 / 在 不斷 / 改變 形狀VP。,(句法)結(jié)構(gòu)歧義(續(xù)), NPN V % 市場調(diào)查;政治影響 SNP VP % 價格攀升。局勢穩(wěn)定。 短語邊界歧義: 中國的鐵路 建設(shè)NP 發(fā)展很快。 中國的鐵路NP 建設(shè) 得很快。,思考問題,短語結(jié)構(gòu)規(guī)則(PSG)為什么不能消解短語邊界和短語類型的歧義? 句法規(guī)則的確是遣詞造句的動態(tài)知識,但詞類標(biāo)記是否丟失了太多的詞例信息? 復(fù)雜特征集和合一語法怎么樣? 詞匯主義(lexicalism)怎么樣? 如何表示
8、和獲取顆粒度更細(xì)、覆蓋面更寬的語言知識?,報告提綱,1.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論(兩種語言研究的對比),OAS 的語料調(diào)查, 其中約 94% 是偽歧義,即只有一種切分: 挨/批評; 愛/國家; 愛情/詩; 市/政府 真歧義占 6%,它由兩部分組成: 5.3% 通常只有一種切分,如: 解除/了; 其/實質(zhì); 與/其他; 提/出來 必須依靠上下文才能消歧的只占 0.7%: 應(yīng)用于; 從小學(xué); 前進(jìn)一步 利用上述知識,OAS 的消歧正確率可達(dá) 92%,CAS 的語料調(diào)查, 讓/人/生/厭/的/行為 (1:84) 一/
9、種/是/非/和平/方式 (7:14) 拉達(dá)鄉(xiāng)中心校/是/一/所/有/七/名/教師/的/小學(xué)。(4:198) 首先需要有一張 CAS 詞表 為每個 CAS 制訂一條規(guī)則或一對分類器以便根據(jù)特定的上下文選擇正確切分 概率化參數(shù)模型使 CAS 的消歧正確率達(dá)96% 1Xiao Luo, Maosong Sun, and Benjamin K.Tsou. Covering ambiguity resolution in Chinese word segmentation based on context information. Proceedings of COLING2002, Taiwan.,C
10、AS 消歧,拉達(dá)鄉(xiāng)中心校/是/一/所/有/七/名/教師/的/小學(xué) w-3 w-2 w-1 CAS w1 w2 w3 知識表示:向量空間模型(VSM) CAS不切分的向量 v0 = (t01 t02 t0m) CAS切分的向量 v1= (t11 t12 t1m) 其中m是向量的維數(shù)(即語境詞的個數(shù)),tij是詞wij的權(quán)重(由位置和頻度來確定)。 輸入句子生成向量vinput。分別計算向量vinput和v0 、v1之間的夾角,即可知該CAS要不要切分。,介詞短語(PP)附加, 例句: Pierre Vinken, 61 years old, joined the board as a nonex
11、ecutive director. 令A(yù)=1表示名詞附加,A=0為動詞附加,則 (A=0, V=joined, N1=board, P=as, N2=director) 參數(shù): Pr (A=1 | V=v, N1=n1, P=p, N2=n2) 算法:若 Pr (1 | v, n1, p, n2) 0.5 則 判定 PP 附加于 n1 否則 附加于 v,介詞短語附加(續(xù)), 語料庫: 華爾街日報(WSJ)樹庫 訓(xùn)練集: 20,801個四元組 測試集: 3,097個四元組 自動判定精度的上下限分析: 一律視為名詞附加 (A1) 59.0% 只考慮介詞p的最常見附加 (unigram)72.2%
12、三位專家只根據(jù)四個中心詞判斷 88.2% 三位專家根據(jù)全句判斷 93.2%,介詞短語附加(續(xù)), 實驗結(jié)果: 四元組總數(shù) 3,097 正確判斷數(shù) 2,606 平均精度 84.1% 若以上限值88.2%為100計,精度已達(dá)95.4%。 2 M. Collins and J. Brooks. Preposition phrase attachment through a backed-off model. In Proc of the 3rd WVLC, Cambridge, MA, 1995.,統(tǒng)計語言模型(SLM), 令W=w1, ,wn 為任一詞序列,則 P(W) = P(w1)P(w2|w
13、1) P(wn|w1, ,wn-1) 若近似認(rèn)為,任一詞的出現(xiàn)只同它前一個詞有關(guān),則有二元模型(bigram): P(W) P(w1)i=2,nP(wi|wi-1) 設(shè)語料庫的總詞次數(shù)為N,則概率參數(shù)估算為: P(wi|wi-1) count(wi-1wi) / count(wi-1) P(wi) count(wi) / N,語音識別,語音識別可視為求以下條件概率的極大值 W*= argmaxW P(W|speech signal) = argmaxW P(speech signal|W) P(W) /P(speech signal) = argmaxW P(speech signal|W)
14、P(W) 其中,P(W) 為語言模型,通過語料庫訓(xùn)練獲得; P(speech signal|W) 叫做聲學(xué)模型。 目前市場上的中外文聽寫機產(chǎn)品都是用 三元模型實現(xiàn)的, 幾乎完全不用句法-語義分析手段。,詞性標(biāo)注, 詞典中約 14% 的詞形具有不只一個詞性,而在一個語料庫中總詞次數(shù)的約 30% 是兼類詞。 系統(tǒng)名 TAGGIT(1971) CLAWS(1987) 標(biāo)記數(shù) 86 133 方法 3000條規(guī)則 隱馬爾科夫模型 標(biāo)注精度 77% 96% 測試語料 布朗語料庫 LOB語料庫 3Garside,R. et al (Eds.). The Computational Analysis of E
15、nglish: A Corpus-Based Approach. London: Longman, 1989,詞性標(biāo)注(續(xù)), 令 C 和 W 分別代表詞類標(biāo)記序列和詞序列,則詞性標(biāo)注可視為計算如下條件概率的極大值 C*= argmaxC P(C|W) = argmaxC P(W|C)P(C) / P(W) argmaxC i=1,nP(wi|ci )P(ci |ci-1 ) P(W|C) i=1,nP(wi|ci ) (獨立性假設(shè)) 參數(shù) P(wi|ci ) count(wi,ci) / count(ci) P(C) i=1,n P(ci |ci-1 ) ( 二元模型) 參數(shù) P(ci |c
16、i-1 ) count(ci-1ci) / count(ci-1),基于SLM的自動分詞,設(shè)S是由漢字串組成的句子,W是所有可能被切分出來的詞序列。則分詞結(jié)果是: W* = argmaxW P(W|S) = argmaxW P(S|W)P(W) 專名PN、LN、ON各為一類,其余每詞一類,建立基于類的N-gram模型。設(shè)C為類序列: C* = argmaxC P(S|C)P(C) PN模型: P(S|C) P(李際生|PN) 語境模型: P(ci|ci-1) P(PN|研究員),詞義排歧(WSD), 根據(jù)同義詞詞林統(tǒng)計: Ga15: 醒悟 懂事 (1)醒悟 覺悟 省悟 覺醒 清醒 醒 如夢初醒
17、 大夢初醒 (Ib04) (2)懂事 記事兒 開竅 通竅 每個義類都可以用一個特征向量表示,其中的特征就是語料庫中和該義類的詞在 d 距離內(nèi)同現(xiàn)的所有實詞。,詞義排歧(續(xù)), 語義空間的兩個假設(shè) 假設(shè)1:如果兩個詞的詞義相同或相似,則它們在文本中對應(yīng)的上下文相似。 假設(shè)2:意義相同或相似的一些詞,在語義空間上體現(xiàn)為一個密集的點陣。因此可以用一個義類向量來表示。 義類向量可當(dāng)作該義類的“分類器” 。它可通過未經(jīng)義類標(biāo)注的語料庫獲取,因此這種方法又叫無指導(dǎo)學(xué)習(xí)方法。用義類向量方法進(jìn)行大規(guī)模非受限文本詞義標(biāo)注, 4 黃昌寧、李涓子:詞義排歧的一種語言模型,語言文字應(yīng)用2000年第3期。,報告提綱,1
18、.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論(兩種語言研究的對比),信息檢索(IR),任務(wù):從一個大型文檔庫中找出與某一查詢相關(guān)的那些文檔。 怎樣表示文檔和查詢的內(nèi)容? 索引問題 “基于內(nèi)容” “基于理解” 如何度量文檔和查詢之間的相關(guān)度?檢索過程 如何評價一個信息檢索系統(tǒng)?精度和召回率 精度 = 檢索到的相關(guān)文檔數(shù) / 檢索到的文檔總數(shù) 召回率 = 檢索到的相關(guān)文檔數(shù) / 庫中相關(guān)文檔總數(shù),信息檢索(續(xù)),信息檢索大會TREC (/) 1992年起每年舉辦一屆大會。得到美國國防部(DARP
19、A)和國家標(biāo)準(zhǔn)技術(shù)局(NIST)的資助。 通過提供大規(guī)模測試語料和統(tǒng)一的評測方法來支持IR技術(shù)的研發(fā)。 1999年 TREC-8宣布,提交給大會的檢索系統(tǒng)七年間效率提高了一倍。但迄今沒有證據(jù)表明NLP技術(shù)能顯著提高IR系統(tǒng)的性能。 一直到1999年的問答系統(tǒng)(QA)評比,NLP技術(shù)才嶄露頭角。,信息檢索(續(xù)), 測試內(nèi)容:不同索引單位對中文信息檢索的影響 評測指標(biāo):11點平均精度 測試預(yù)料庫:TREC5/6 提供 內(nèi)容:人民日報(1991-1993) 新華社新聞稿(1994-1995) 文檔數(shù):164,789篇 文檔平均長度:507字 規(guī)模:167.4 MB 查詢數(shù):54個 查詢平均長度:119字,信息檢索(續(xù)),信息抽取(IE),MUC 以限定領(lǐng)域的信息抽取為目標(biāo) IE可分解為如下子任務(wù): 命名實體(NE)識別:人名,地名,機構(gòu)名,日期,時間,貨幣,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 賬務(wù)核算管理辦法模板
- 科教城區(qū)食堂管理辦法
- 設(shè)備集中采購管理辦法
- 招商管理辦法考核指標(biāo)
- 童車成品驗貨管理辦法
- 塘沽外灘管理辦法細(xì)則
- 福州編外合同管理辦法
- 維修質(zhì)量糾紛管理辦法
- 結(jié)合實踐創(chuàng)新管理辦法
- 存款保險標(biāo)志管理辦法
- 棋牌室全包裝修合同樣本
- GB/T 15688-2024動植物油脂不溶性雜質(zhì)含量的測定
- 旅游保險行業(yè)發(fā)展建議
- GB/T 44412-2024船舶與海上技術(shù)液化天然氣燃料船舶加注規(guī)范
- 國家開放大學(xué)??啤斗ɡ韺W(xué)》期末紙質(zhì)考試第四大題問答題題庫2024版
- 微生物限度檢查操作規(guī)程中國藥典四部通則
- 乒乓球社團活動記錄
- (高清版)JTT 529-2016 預(yù)應(yīng)力混凝土橋梁用塑料波紋管
- 小學(xué)科學(xué)培訓(xùn)講座
- DLT 5100水工混凝土外加劑技術(shù)規(guī)程
- 廣告制作、宣傳用品、宣傳物料采購項目投標(biāo)方案(技術(shù)方案)
評論
0/150
提交評論