版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
----------------------------精品word文檔值得下載值得擁有--------------------------------------------------------------------------精品word文檔值得下載值得擁有---------------------------------------------------------------------------------------------------------------------------------------------------------------------------內(nèi)容來(lái)自中科院劉群研究員計(jì)算語(yǔ)言學(xué)PPT的整理筆記一、概述1.應(yīng)用機(jī)器翻譯(MT)信息檢索(IR)自動(dòng)問(wèn)答(QA)自動(dòng)文摘(AU,automaticsummary)信息抽?。↖E)信息過(guò)濾(IF)特點(diǎn)2.1定義:計(jì)算語(yǔ)言學(xué)是一門以計(jì)算為手段對(duì)自然語(yǔ)言進(jìn)行研究和處理的科學(xué)。區(qū)別:自然語(yǔ)言和形式語(yǔ)言的本質(zhì)區(qū)別在于前者具有歧義性。語(yǔ)言的層次劃分:從底層到上層,詞法->句法->語(yǔ)義->語(yǔ)用2.2歧義現(xiàn)象詞法層歧義:i)詞性兼類歧義。例子:工作-ng、vg,高-adj、ng;ii)詞語(yǔ)切分歧義。 例子:乒乓球/拍賣/完/了/、乒乓/球拍/賣/完/了/,南京/市長(zhǎng)/江大橋/、南 京市/長(zhǎng)江大橋/句法層歧義:結(jié)構(gòu)歧義。例子:張三/和/李四的朋友/、張三和李四/的/朋友/;語(yǔ)義層歧義:i)一詞多義。例子:“杜鵑”,可以是一種鳥,也可以是一種花;ii)一義多詞。例子:“可能、大概、也許”。語(yǔ)用層歧義:例子:“你很好?!闭x,“你很好!”反義。2.3未登陸詞:現(xiàn)有知識(shí)庫(kù),比如WordNet、HowNet、FrameNet等,均無(wú)法解決未登錄詞的問(wèn)題。2.4中文特點(diǎn):中文是以字為基本單位,但中文意義是以詞語(yǔ)為基本單位;中文詞語(yǔ)未被分割,做中文處理的第一步就是分詞;中文無(wú)詞形變化的特點(diǎn),詞語(yǔ)的詞性難以區(qū)分;中文是詞語(yǔ)序列的意義組合,無(wú)固定的結(jié)構(gòu)2.5一些語(yǔ)言學(xué)特點(diǎn):Zipf定律:漢字出現(xiàn)的頻率與漢字按詞頻排列的名次大體等于一個(gè)定值;常見(jiàn)的漢字定量,大概在四五千個(gè)左右;漢字的使用頻率符合高斯定律;二、基礎(chǔ)知識(shí)1.基于規(guī)則的基礎(chǔ)知識(shí)1.1詞典。詞典結(jié)構(gòu)1.2形式語(yǔ)言自動(dòng)機(jī)。背景。描述一種語(yǔ)言,通常聯(lián)想到三種方法。i)窮舉。缺點(diǎn):語(yǔ)言變化的多樣性導(dǎo)致不能完全窮舉,且窮舉時(shí)間、空間復(fù)雜度大;ii)語(yǔ)法總結(jié)。缺點(diǎn):語(yǔ)法不可能總結(jié)所有的語(yǔ)言現(xiàn)象,且語(yǔ)法之間會(huì)出現(xiàn)沖突。鑒于以上兩者的缺陷,采用iii)形式語(yǔ)言自動(dòng)機(jī)。即給出能識(shí)別該語(yǔ)言句子的機(jī)械方法。形式語(yǔ)法。四元組G=<初始符,非終結(jié)符,終結(jié)符,規(guī)則>表示。基于統(tǒng)計(jì)的基礎(chǔ)知識(shí)2.1概率論:樣本空間、事件隨機(jī)變量、概率、聯(lián)合概率、條件概率、貝葉斯分布、概率分 布、協(xié)方差、相關(guān)系數(shù)、參數(shù)估計(jì)、極大似然比、馬爾科夫過(guò)程。2.2統(tǒng)計(jì)學(xué):各種常見(jiàn)分布、三大分布函數(shù)、Dirichlet分布、卡方檢驗(yàn)、T檢驗(yàn)。2.3信息論:熵、聯(lián)合熵、條件熵、互信息、困惑度。熵:描述事件的不確定性。熵越大,表示事件的不確定性越高。熵等于0,事 件確定。熵等于1,表示隨機(jī)事件為均勻分布。最大熵理論:在無(wú)外力作用下,事物總是朝著最混亂的方向發(fā)展。即在已知條 件下,熵最大的事物,最可能接近它的真實(shí)狀態(tài)。2.4自然語(yǔ)言處理:統(tǒng)計(jì)模型,如HMM、CRF、ME、SVM等。文本處理相關(guān)知識(shí)文本表示:布爾模型、VSM、BM25、倒排索引文本存儲(chǔ):Hash映射、Trie樹,B樹、紅黑樹文本特征:詞、詞性、上下文信息、位置信息、詞間信息、詞內(nèi)信息文本相似度計(jì)算:cosine、SAO、PCA、LDA三、詞法分析1.分詞1.1基于詞典的分詞方法正向最大匹配逆向最大匹配雙向最大匹配:當(dāng)正向匹配和逆向匹配出現(xiàn)不一致的情況時(shí),利用一些特征(比如:分詞后的個(gè)數(shù)最少、分詞后的單字非連續(xù)等)來(lái)選擇最優(yōu)的分詞結(jié)果。1.2基于統(tǒng)計(jì)模型的分詞方法N元語(yǔ)法模型。理論:任何字的集合都可以構(gòu)成句子,只是構(gòu)成句子的概率大小不一樣。當(dāng)字集合達(dá)到一定 概率,就認(rèn)為是句子。缺陷:沒(méi)有考慮語(yǔ)言內(nèi)部的結(jié)構(gòu)信息。方法:利用訓(xùn)練語(yǔ)料,統(tǒng)計(jì)測(cè)試語(yǔ)料中N元字之間的概率,將滿足最大概率的句子當(dāng)做正 確的結(jié)果。N等于1,為1元模型,即假定當(dāng)前字僅和前一個(gè)字有關(guān),N等于2,為 2元模型,即假定當(dāng)前自僅和前兩個(gè)字有關(guān),N等于3,即假定當(dāng)前字僅和前三個(gè)字 有關(guān)。數(shù)據(jù)平滑:在利用訓(xùn)練語(yǔ)料進(jìn)行統(tǒng)計(jì)的時(shí)候,會(huì)出現(xiàn)訓(xùn)練語(yǔ)料數(shù)據(jù)稀疏導(dǎo)致概率為0的情況, 這時(shí)需要做平滑處理。方法:加1法,GoodTuring,絕對(duì)減值法,線性減值法, 回退法。2.詞性標(biāo)注(POSTagging)2.1基于轉(zhuǎn)換的錯(cuò)誤驅(qū)動(dòng)方法:基于轉(zhuǎn)換規(guī)則,先給出初始標(biāo)記,然后不斷修正。通過(guò)語(yǔ)料庫(kù)學(xué)習(xí)轉(zhuǎn)換規(guī)則,是一種有監(jiān)督的學(xué)習(xí)方法。2.2基于HMM的詞性標(biāo)注(成果:ICTCLAS利用層疊HMM實(shí)現(xiàn)的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別的工具。)3.命名實(shí)體識(shí)別3.1i)專有名詞:人、地、機(jī)構(gòu)、……;ii)專業(yè)名詞3.2技術(shù)路線:基于HMM、ME、CRF等模型,基于角色標(biāo)注的命名實(shí)體識(shí)別新詞發(fā)現(xiàn)基于字標(biāo)注的句法分析5.1基于字的分詞方法基于HMM的分詞方法:將詞進(jìn)行切分標(biāo)記,切分標(biāo)記包括:O(單字)、B(詞首字)、M(詞中字)、E(詞尾字),然后利用Viterbi算法求概率最大的切分標(biāo)記集合?;贛E的分詞方法基于互信息的分詞方法5.2基于字標(biāo)注方法的特點(diǎn)模型簡(jiǎn)單:?jiǎn)我荒P徒鉀Q所有問(wèn)題,詞語(yǔ)切分、未定義詞識(shí)別,甚至詞性標(biāo)注也可以用這個(gè)模型解決。模型功能強(qiáng)大:可以任意選擇特征、可以調(diào)節(jié)特征直接的權(quán)重。四、句法分析1.句法分析基礎(chǔ)知識(shí)1.1策略:自頂向下(演繹)分析法;自底向上(規(guī)約)分析法;左角分析法:自頂向下和自底向上相結(jié)合的方法。1.2上下文無(wú)關(guān)語(yǔ)法的分析算法移進(jìn)-規(guī)約算法。操作:移進(jìn)、規(guī)約、接受、拒絕。沖突:移進(jìn)-規(guī)約沖突;規(guī)約-規(guī)約沖突;沖突解決方法:回溯特點(diǎn):是一種自底向上的分析算法。為了得到所有可能的分析結(jié)果,可以再每次分析成 功時(shí)都強(qiáng)制性回溯,知道分析失敗。效率低下。CYK算法。不需要回溯;建立在Chomsky范式的基礎(chǔ)上;數(shù)據(jù)結(jié)構(gòu)為一個(gè)斜角二維矩陣:上。每一個(gè)元素對(duì)應(yīng)于輸入句子中某一個(gè)區(qū)間(Span)上所有可能形成的短語(yǔ)的非終結(jié)符集合。矩陣中填入該區(qū)間對(duì)應(yīng)的詞語(yǔ)序列上所有可能的短語(yǔ)標(biāo)記。Earley算法。在CYK的基礎(chǔ)上加入了點(diǎn)規(guī)則。Chart算法(圖分析算法、線圖分析算法)2.上下文無(wú)關(guān)文法2.1概率上下文無(wú)關(guān)文法(PCFG)在CFG的基礎(chǔ)上,加入規(guī)則的概率信息。2.2詞匯化概率上下文無(wú)關(guān)文法每一個(gè)非終結(jié)符被關(guān)聯(lián)到一個(gè)中心詞w和一個(gè)中心詞形t。中心成分的生成:詞匯中心和結(jié)構(gòu)中心,首先生成詞匯中心,其次生成結(jié)構(gòu)中心。詞匯中心:中心詞和中心詞詞性標(biāo)記。結(jié)構(gòu)中心:中心成分的短語(yǔ)標(biāo)記。組塊分析又稱為淺層分析(ShallowParsing)?;舅枷耄河捎谕耆浞ǚ治龇浅@щy。研究者采用分而治之的策略。首先從句子中識(shí)別出組塊(Chunk),然后由組塊結(jié)合成句子。3.基于短語(yǔ)的句法分析4.基于依存的句法分析4.1依存分析與短語(yǔ)結(jié)構(gòu)分析類似,但依存分析丟掉了跨度信息和跨度上的句法標(biāo)識(shí)。任何短語(yǔ)結(jié)構(gòu)樹句法分析模型輸出的句法樹,通過(guò)中心詞映射規(guī)則即可轉(zhuǎn)化為依存結(jié)構(gòu)樹。4.2依存分析模型i)生成式依存模型詞匯依存概率模型(Collinsmodel)Train:通過(guò)極大似然估計(jì),在樹庫(kù)中統(tǒng)計(jì)出任意兩個(gè)詞之間存在特定依存關(guān)系的概率。對(duì)于給定的兩個(gè)詞,存在和不存在依存關(guān)系的概率之和為1。Decode:尋找使得所有依存詞對(duì)的依存概率的乘積最大的依存樹,采用自底向上分析法,可采用Viterbi算法。依存生成概率模型(Eisnermodel)描述:給定一個(gè)帶詞性標(biāo)記的輸入語(yǔ)句,對(duì)于一棵可能的依存樹,設(shè)該樹中任一節(jié)點(diǎn)P,它的左孩子由近及遠(yuǎn)分別為L(zhǎng)C1,LC2,……,LCm;右孩子分別為RC1,RC2,……,RCn。定義P生成其所有孩子的概率為:Train:對(duì)于每棵候選依存樹T,整棵樹的生成概率定義為樹中所有節(jié)點(diǎn)生成概率的乘積,即。Decode:尋找生成概率最大的依存樹,采用方法和詞匯依存概率模型的方法一樣。ii)判別式依存模型最大生成樹模型:將尋找依存樹的任務(wù)轉(zhuǎn)化為尋找概率最大的生成樹問(wèn)題。狀態(tài)轉(zhuǎn)移模型:分析過(guò)程的任一時(shí)刻稱為一個(gè)狀態(tài),依據(jù)該狀態(tài)下的特征做出某種決策,從而轉(zhuǎn)入新的狀態(tài)。iii)依存分析模型比較生成式依存模型通過(guò)簡(jiǎn)單的極大似然估計(jì)即可完成訓(xùn)練,且模型較小。缺點(diǎn)是分析準(zhǔn)確率較低。最大生成樹模型和狀態(tài)轉(zhuǎn)移模型則需要在訓(xùn)練語(yǔ)料上進(jìn)行多輪迭代以調(diào)節(jié)參數(shù),訓(xùn)練耗時(shí)長(zhǎng)且模型較大。優(yōu)點(diǎn)是分析準(zhǔn)確率高。目前流行的是最大生成樹模型和狀態(tài)轉(zhuǎn)移模型中的移進(jìn)規(guī)約模型。其中,最大生成樹模型擅長(zhǎng)于確定遠(yuǎn)距離的依存關(guān)系,移進(jìn)規(guī)約模型則對(duì)近距離依存關(guān)系識(shí)別準(zhǔn)確率更高。未來(lái)發(fā)展額外知識(shí)6.1最大熵理論I)問(wèn)題定義:用A表示條件集合,B表示結(jié)論集合。隨機(jī)事件現(xiàn)在有一批X的樣本假設(shè)我們已知,如何預(yù)測(cè)?Ii)用最大熵理論描述為:求解一個(gè)X的概率分布,使得:X的熵最大,可以表示為:。X的分布與已知的樣本分布一致,可以描述為:,其中p為樣本分布,為模型分布。其中,對(duì)于任何一個(gè)特征,模型和樣本應(yīng)該具有相同的均值。為了方便起見(jiàn),將特征取值定義為bool類型。那么,這個(gè)公式可以理解為:模型中任何一個(gè)特征為1的概率與樣本相同。Iii)最大熵模型的參數(shù)估計(jì)問(wèn)題可以表示為一個(gè)在約束條件下的極值問(wèn)題。即:在一下約束條件下:,求解。經(jīng)推到,得到最大熵模型如下:其中,是一個(gè)歸一化參數(shù),是個(gè)常量。是一組參數(shù),其中每個(gè)參數(shù)對(duì)應(yīng)于一個(gè)特征。Iv)最大熵模型應(yīng)用于預(yù)測(cè)。給定條件,結(jié)論為的概率可以表示為:給定條件,最優(yōu)的可以表示為:可以看出,一旦得到這組參數(shù),那么對(duì)于給定的條件,只要將其所有值為1特征對(duì)應(yīng)的加起來(lái),取和最大的即可。更新記錄時(shí)間修改內(nèi)容備注2014年12月17日初稿包括概述基礎(chǔ)知識(shí)詞法分析句法分析未來(lái)發(fā)展額外知識(shí)577100180309001209557903682285963308257710018030900123865761373997357606965771001803090013594578077579902515512577100180309001238757716498260181805157710018030900121385721311921589183265771001803090012359579036822361076053577100180309001235657613528614379174257710018030900123555750878697046932791708810034335527410122994432583337917088100343355275101866732938832008170881003433561071015811525015005221708810034335610810100018005987173217088100343354295101074194142687017170881003433561841018786608696288021
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024期房買賣合同協(xié)議書(含精裝修)3篇
- 工作簡(jiǎn)歷模板應(yīng)屆生
- 平行四邊形單元測(cè)試題含答案(謝)
- 2024版砌筑工程分包協(xié)議模板版B版
- 大連中考幾點(diǎn)考數(shù)學(xué)試卷
- 常熟一中數(shù)學(xué)試卷
- 水塘開挖的施工方案
- 平面向量與三角形四心問(wèn)題
- 初一內(nèi)卷數(shù)學(xué)試卷
- 2024版離婚手冊(cè):權(quán)益保護(hù)與新規(guī)定2篇
- 2024年酒店式公寓承包合同
- 貓抓病的護(hù)理
- 勘察設(shè)計(jì)工作內(nèi)容
- GB/T 19799.2-2024無(wú)損檢測(cè)超聲檢測(cè)試塊第2部分:2號(hào)標(biāo)準(zhǔn)試塊
- 2024-2025學(xué)年冀教新版八年級(jí)上冊(cè)數(shù)學(xué)期末復(fù)習(xí)試卷(含詳解)
- 內(nèi)蒙古呼和浩特市2024屆九年級(jí)上學(xué)期期末考試數(shù)學(xué)試卷(含答案)
- DB45T 1831-2018 汽車加油加氣站防雷裝置檢測(cè)技術(shù)規(guī)范
- 《兒歌運(yùn)用于幼兒園教育問(wèn)題研究的文獻(xiàn)綜述》8600字
- 懸掛燈籠施工方案
- 水資源調(diào)配與優(yōu)化-洞察分析
- 某自來(lái)水公司自然災(zāi)害應(yīng)急預(yù)案樣本(2篇)
評(píng)論
0/150
提交評(píng)論