面向計算機的語言研究

上傳人：x*** IP屬地：江西上傳時間：2020-09-15 格式：PPT 頁數(shù)：41 大小：263KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩36頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、,面向計算機的語言研究,黃昌寧微軟亞洲研究院 ,報告提綱,1.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論（兩種語言研究的對比）,1. 自然語言處理的目標(biāo), 讓用戶能通過自然語言與計算機對話 The future of computing is the computer that talks, listens, sees, and learns. That is what is being created at Microsoft Research. - Bill Gates 通過機器翻譯跨越語言壁壘，以便讓全世界每個用戶都能共

2、享因特網(wǎng)的浩瀚信息和無限商機。,大規(guī)模真實文本處理, NLP 從實驗室走向?qū)嵱没闹匾獦?biāo)志 1990年被列為第13屆國際計算語言學(xué)大會（Coling90）的主題 12年來取得的成果：搜索引擎: MyNews: 信息抽取(IE): 語料庫標(biāo)注:http:/www.hcu.ox.ac.uk/BNC/,方法論的分歧,關(guān)于經(jīng)驗主義和理性主義方法的論爭自然語言的歧義性和大規(guī)模真實文本處理的需求把經(jīng)驗主義方法推向第一線。十年前第4屆機器翻譯的理論和方法國際會議(TMI-92) 的主題是：“機器翻譯中的經(jīng)驗主義和理性主義方法” 。面向計算機的語言研究：語言知識表示和知識獲取都發(fā)生了實質(zhì)性的轉(zhuǎn)變。,

3、報告提綱,1.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論（兩種語言研究的對比）,同音字漢字拼音輸入,每個不帶調(diào)的音節(jié)平均對應(yīng)19個漢字單音節(jié)“yi”對應(yīng)131個漢字：一，以，已，異，亦，伊，意，易，毅，儀，依，宜，議，衣 shishi：實施，事實，實時，實事，適時，時時一個含10個音節(jié)的句子，平均生成 1910 條可能的漢字序列用詞的三元模型(trigram)實現(xiàn)拼音-漢字轉(zhuǎn)換，出錯率比市場上原有產(chǎn)品大約減小50%,多音字文語轉(zhuǎn)換（TTS）, 行（xing）：步行，一行，行頭，人行道，發(fā)行，流行，進(jìn)行，行（hang）

4、: 行列，行業(yè)，排行，行家，人行，工商行，樂（le）: 快樂，歡樂，娛樂，樂（yue）: 音樂，樂隊，樂手，,自動分詞, 交集型歧義字段（OAS)：AB/C 或 A/BC 不只是，從今后，法學(xué)院，曲劇團，熱湯面，大隊長建設(shè)/有/效率/的精干的機構(gòu) （1694）他/只得/到/工廠值班室去睡覺（325）組合型歧義字段（CAS)：AB 或 A/B 上將，成人，學(xué)會，國有，個人，馬上，都會，陣風(fēng) 怎么樣/才/能/抓住機遇（202：24）未登錄詞識別（誤切) 坎/昆/市/市長/拉/臘/和/夫人瑞/閩/鋁/板/帶/有限公司,自動分詞的評測,對一個句法分析系統(tǒng)的評測錯誤的分布：分詞

5、詞性組塊中心詞 40% 24% 12% 24% 分詞錯誤的分布：人名地名機構(gòu)名新詞 OAS 10% 20% 30% 30% 10%,專名識別的評測,人名(%) 地名(%)機構(gòu)名（%） P R P R P R 系統(tǒng)A 94.5 78.1 85.4 72.0 71.3 13.1 系統(tǒng)B 90.7 74.4 93.5 44.2 64.2 46.9 系統(tǒng)C 78.0 78.7 76.7 73.6 81.7 21.6 測試集 4,347 5,311 3,850 (1MB),思考問題,分詞的任務(wù)定義清楚了嗎？知識從哪里來？詞典為什么幫不上忙？靠現(xiàn)有的句法-語義知識能解決分詞歧義嗎？一個

6、重要的理念面向計算機的語言知識有什么特性？語言運用知識的來源：語料庫知識的表示：概率化參數(shù)模型語言知識的獲取：統(tǒng)計學(xué)習(xí)理論,多乂詞, 據(jù)同義詞詞林統(tǒng)計: 最小類總數(shù): 1,428 詞形總數(shù): 42,724 多義詞占詞形總數(shù)的 14.8% 據(jù)語料庫統(tǒng)計：多義詞占總詞次數(shù)的 42%,（句法）結(jié)構(gòu)歧義,結(jié)構(gòu)歧義是通過詞例動態(tài)顯現(xiàn)的： V N1 de N2 削蘋果的/刀NP; 削/蘋果的皮VP P N1 de N2 對系統(tǒng)的/評測NP; 對/評測的系統(tǒng)PP NumP N1 de N2 五個公司的職員; 五個公司的職員 N1 N2 N3 現(xiàn)代/漢語詞典; 新版漢語/詞典,(句法)結(jié)構(gòu)歧義（續(xù)）

7、, NP V N % 打擊力度; 委托方式 VP V N % 打擊盜版; 委托甲方短語類型歧義：該公司 / 正在招聘 / 銷售人員NP。地球 / 在不斷 / 改變形狀VP。,(句法)結(jié)構(gòu)歧義（續(xù)）, NPN V % 市場調(diào)查；政治影響 SNP VP % 價格攀升。局勢穩(wěn)定。短語邊界歧義：中國的鐵路建設(shè)NP 發(fā)展很快。中國的鐵路NP 建設(shè) 得很快。,思考問題,短語結(jié)構(gòu)規(guī)則(PSG)為什么不能消解短語邊界和短語類型的歧義？句法規(guī)則的確是遣詞造句的動態(tài)知識，但詞類標(biāo)記是否丟失了太多的詞例信息？復(fù)雜特征集和合一語法怎么樣？詞匯主義(lexicalism)怎么樣？如何表示

8、和獲取顆粒度更細(xì)、覆蓋面更寬的語言知識？,報告提綱,1.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論（兩種語言研究的對比）,OAS 的語料調(diào)查, 其中約 94% 是偽歧義，即只有一種切分：挨/批評; 愛/國家; 愛情/詩; 市/政府真歧義占 6%，它由兩部分組成： 5.3% 通常只有一種切分，如：解除/了; 其/實質(zhì); 與/其他; 提/出來必須依靠上下文才能消歧的只占 0.7%：應(yīng)用于; 從小學(xué); 前進(jìn)一步利用上述知識，OAS 的消歧正確率可達(dá) 92%,CAS 的語料調(diào)查, 讓/人/生/厭/的/行為（1:84）一/

9、種/是/非/和平/方式 (7:14) 拉達(dá)鄉(xiāng)中心校/是/一/所/有/七/名/教師/的/小學(xué)。(4:198) 首先需要有一張 CAS 詞表為每個 CAS 制訂一條規(guī)則或一對分類器以便根據(jù)特定的上下文選擇正確切分概率化參數(shù)模型使 CAS 的消歧正確率達(dá)96% 1Xiao Luo, Maosong Sun, and Benjamin K.Tsou. Covering ambiguity resolution in Chinese word segmentation based on context information. Proceedings of COLING2002, Taiwan.,C

10、AS 消歧,拉達(dá)鄉(xiāng)中心校/是/一/所/有/七/名/教師/的/小學(xué) w-3 w-2 w-1 CAS w1 w2 w3 知識表示：向量空間模型(VSM) CAS不切分的向量 v0 = (t01 t02 t0m) CAS切分的向量 v1= (t11 t12 t1m) 其中m是向量的維數(shù)（即語境詞的個數(shù)），tij是詞wij的權(quán)重（由位置和頻度來確定）。輸入句子生成向量vinput。分別計算向量vinput和v0 、v1之間的夾角，即可知該CAS要不要切分。,介詞短語(PP)附加, 例句: Pierre Vinken, 61 years old, joined the board as a nonex

11、ecutive director. 令A(yù)=1表示名詞附加，A=0為動詞附加，則 (A=0, V=joined, N1=board, P=as, N2=director) 參數(shù)： Pr (A=1 | V=v, N1=n1, P=p, N2=n2) 算法：若 Pr (1 | v, n1, p, n2) 0.5 則判定 PP 附加于 n1 否則附加于 v,介詞短語附加（續(xù)）, 語料庫: 華爾街日報（WSJ）樹庫訓(xùn)練集: 20,801個四元組測試集: 3,097個四元組自動判定精度的上下限分析: 一律視為名詞附加 (A1) 59.0% 只考慮介詞p的最常見附加 (unigram)72.2%

12、三位專家只根據(jù)四個中心詞判斷 88.2% 三位專家根據(jù)全句判斷 93.2%,介詞短語附加（續(xù)）, 實驗結(jié)果: 四元組總數(shù) 3,097 正確判斷數(shù) 2,606 平均精度 84.1% 若以上限值88.2%為100計，精度已達(dá)95.4%。 2 M. Collins and J. Brooks. Preposition phrase attachment through a backed-off model. In Proc of the 3rd WVLC, Cambridge, MA, 1995.,統(tǒng)計語言模型(SLM), 令W=w1, ,wn 為任一詞序列，則 P(W) = P(w1)P(w2|w

13、1) P(wn|w1, ,wn-1) 若近似認(rèn)為，任一詞的出現(xiàn)只同它前一個詞有關(guān)，則有二元模型（bigram）： P(W) P(w1)i=2,nP(wi|wi-1) 設(shè)語料庫的總詞次數(shù)為N，則概率參數(shù)估算為： P(wi|wi-1) count(wi-1wi) / count(wi-1) P(wi) count(wi) / N,語音識別,語音識別可視為求以下條件概率的極大值 W*= argmaxW P(W|speech signal) = argmaxW P(speech signal|W) P(W) /P(speech signal) = argmaxW P(speech signal|W)

14、P(W) 其中，P(W) 為語言模型，通過語料庫訓(xùn)練獲得； P(speech signal|W) 叫做聲學(xué)模型。目前市場上的中外文聽寫機產(chǎn)品都是用三元模型實現(xiàn)的, 幾乎完全不用句法-語義分析手段。,詞性標(biāo)注, 詞典中約 14% 的詞形具有不只一個詞性，而在一個語料庫中總詞次數(shù)的約 30% 是兼類詞。系統(tǒng)名 TAGGIT(1971) CLAWS(1987) 標(biāo)記數(shù) 86 133 方法 3000條規(guī)則隱馬爾科夫模型標(biāo)注精度 77% 96% 測試語料布朗語料庫 LOB語料庫 3Garside,R. et al (Eds.). The Computational Analysis of E

17、大夢初醒 (Ib04) （2）懂事記事兒開竅通竅每個義類都可以用一個特征向量表示，其中的特征就是語料庫中和該義類的詞在 d 距離內(nèi)同現(xiàn)的所有實詞。,詞義排歧（續(xù)）, 語義空間的兩個假設(shè) 假設(shè)1：如果兩個詞的詞義相同或相似，則它們在文本中對應(yīng)的上下文相似。假設(shè)2：意義相同或相似的一些詞，在語義空間上體現(xiàn)為一個密集的點陣。因此可以用一個義類向量來表示。義類向量可當(dāng)作該義類的“分類器” 。它可通過未經(jīng)義類標(biāo)注的語料庫獲取，因此這種方法又叫無指導(dǎo)學(xué)習(xí)方法。用義類向量方法進(jìn)行大規(guī)模非受限文本詞義標(biāo)注， 4 黃昌寧、李涓子：詞義排歧的一種語言模型，語言文字應(yīng)用2000年第3期。,報告提綱,1

18、.自然語言處理(NLP)的目標(biāo) 2.自然語言的歧義性 3.概率化參數(shù)模型(PPM) 4.應(yīng)用系統(tǒng)舉例 5.結(jié)論（兩種語言研究的對比）,信息檢索(IR),任務(wù)：從一個大型文檔庫中找出與某一查詢相關(guān)的那些文檔。怎樣表示文檔和查詢的內(nèi)容？索引問題 “基于內(nèi)容” “基于理解” 如何度量文檔和查詢之間的相關(guān)度？檢索過程如何評價一個信息檢索系統(tǒng)？精度和召回率精度 = 檢索到的相關(guān)文檔數(shù) / 檢索到的文檔總數(shù) 召回率 = 檢索到的相關(guān)文檔數(shù) / 庫中相關(guān)文檔總數(shù),信息檢索（續(xù)）,信息檢索大會TREC (/) 1992年起每年舉辦一屆大會。得到美國國防部（DARP

19、A）和國家標(biāo)準(zhǔn)技術(shù)局（NIST）的資助。通過提供大規(guī)模測試語料和統(tǒng)一的評測方法來支持IR技術(shù)的研發(fā)。 1999年 TREC-8宣布，提交給大會的檢索系統(tǒng)七年間效率提高了一倍。但迄今沒有證據(jù)表明NLP技術(shù)能顯著提高IR系統(tǒng)的性能。一直到1999年的問答系統(tǒng)（QA）評比，NLP技術(shù)才嶄露頭角。,信息檢索（續(xù)）, 測試內(nèi)容：不同索引單位對中文信息檢索的影響評測指標(biāo)：11點平均精度測試預(yù)料庫：TREC5/6 提供內(nèi)容：人民日報（1991-1993）新華社新聞稿（1994-1995）文檔數(shù)：164,789篇文檔平均長度：507字規(guī)模：167.4 MB 查詢數(shù)：54個查詢平均長度：119字,信息檢索（續(xù)）,信息抽取(IE),MUC 以限定領(lǐng)域的信息抽取為目標(biāo) IE可分解為如下子任務(wù)：命名實體（NE）識別：人名，地名，機構(gòu)名，日期，時間，貨幣，

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

面向計算機的語言研究

文檔簡介

溫馨提示

最新文檔

評論