




已閱讀5頁,還剩65頁未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】口語對話系統(tǒng)中文法規(guī)則自動(dòng)推導(dǎo)研究-計(jì)算機(jī)科學(xué)與技術(shù)系.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
N N to of y e 2009 I 摘 要 基于規(guī)則的 口語對話系統(tǒng)中 的文法規(guī)則通常 由 領(lǐng)域?qū)<液陀?jì)算機(jī)語言學(xué)家 手工設(shè)計(jì), 需要 依賴 專家 的 專業(yè)知識和經(jīng)驗(yàn), 這對于普通開發(fā)人員來說是無法完成的。另外,手工設(shè)計(jì)的 文法移植性差, 根據(jù)某一領(lǐng)域 設(shè)計(jì) 的 文法規(guī)則 很難移植到其他領(lǐng)域繼續(xù)使用,同樣功能的 口語 對話系統(tǒng)對于不同領(lǐng)域都需要領(lǐng)域?qū)<抑匦略O(shè)計(jì) 文法規(guī)則 ,存在大量的重復(fù)勞動(dòng),造成巨大的人力和物力浪費(fèi) 。隨著社會需求的不斷增大,系統(tǒng)規(guī)??涨皵U(kuò)大, 文法規(guī)則 的獲取成了 口語 對話系統(tǒng)研發(fā)的主要瓶頸。 本文針對口語對話系統(tǒng)中語言的特點(diǎn),以一種上下文無關(guān)增強(qiáng)文法為對象, 對 口語對話系統(tǒng)中 文 法規(guī)則 的自動(dòng)獲取技術(shù)進(jìn)行了 研究 。 主要 工作包括: ( 1) 對比分析常見 形式文法的特點(diǎn)和性能,重點(diǎn)研究一種符合漢語口語特點(diǎn)的上下文無關(guān)增強(qiáng)文法, 根據(jù) 口語對話系統(tǒng)中語言的特點(diǎn), 選定該文法 為對象進(jìn)行 文法規(guī)則自動(dòng) 推導(dǎo) 技術(shù)的研究。 ( 2)提出一種基于句子分割 的 文法規(guī)則 自動(dòng)推導(dǎo)算法 。 基本思想是:用 初始 規(guī)則集對訓(xùn)練 例句 進(jìn)行分析, 若不能得到完整的語法樹, 則 先對分析得到的片斷進(jìn)行消歧和歸一化,然后 根據(jù) 頂層 片斷 遞歸地 推導(dǎo)出缺少的 文法規(guī)則 ,并更新已有的規(guī)則集。 研究片斷 的 消歧 和 歸一化策略 ,為了提高算法性能,探討并給出一種算法的改進(jìn)方案 。 ( 3) 研究 面向領(lǐng)域任務(wù)的文法測評方法,給出 一套靈活 的 、可 領(lǐng)域 定制的文法評測方法。使用該方法 在天氣預(yù)報(bào)查詢領(lǐng)域 對算法的輸出文法進(jìn)行評測,結(jié)果 顯示, 輸出文法 的句法分析準(zhǔn)確率在初始規(guī)則集為空時(shí)達(dá)到了 在初始規(guī)則集只包含日期相關(guān)規(guī)則時(shí)達(dá)到了 關(guān)鍵詞: 口語 對 話系統(tǒng) , 上下文無關(guān)增強(qiáng)文法 , 文法推導(dǎo) , 文法 評測 to in is by on so it is to is is a is to to So it is to of of it a a to a of as 1. of a of it as to DS to 2. A on is in is to an If is to is of in In to of is s is 3. in a of be to of in in of of an an 目 錄 摘 要 . I . 錄 . V 第一章 緒論 . 1 究背景 . 1 究現(xiàn)狀 . 2 話系統(tǒng) 研究現(xiàn)狀 . 2 法規(guī)則自動(dòng)推導(dǎo)算法研究現(xiàn)狀 . 5 法性能的評測 . 7 究的主要內(nèi)容及創(chuàng)新點(diǎn) . 7 究的主要內(nèi)容 . 7 究的創(chuàng)新點(diǎn) . 8 文的組織 . 8 第二章 文法的基本概念及常見類型分析 . 9 法的基本概念 . 9 法及語言的定義 . 9 法的作用 . 10 法的評價(jià)原則 . 11 法體系 . 11 法分類 . 11 型文法的特點(diǎn) . 12 法分析器 . 13 下文無關(guān)增強(qiáng)文法 . 16 法的形式化定義 . 16 強(qiáng)屬性的歸納及規(guī)則類型的定義 . 17 義文法 . 19 強(qiáng)的文法分析器 . 20 章小結(jié) . 22 第三章 文法規(guī)則自動(dòng)推導(dǎo)算法 . 25 語口語對話系統(tǒng)中語言的特點(diǎn) . 25 語的特點(diǎn) . 25 語的特點(diǎn) . 26 音識別器導(dǎo)致的問題 . 26 節(jié)小結(jié) . 27 法的推導(dǎo)對象 . 27 于句子分割的文法規(guī)則自動(dòng)推導(dǎo)算法 . 27 法基本原理 . 27 關(guān)術(shù)語定義 . 29 法推導(dǎo)算法 . 30 同的推導(dǎo)策略 . 31 義片斷的消除與歸一化 . 33 法流程的改進(jìn) . 34 章小結(jié) . 36 第四章 算法評測與分析 . 37 測 指標(biāo)的定義 . 37 驗(yàn)領(lǐng)域及步驟 . 38 驗(yàn)領(lǐng)域 . 38 驗(yàn)數(shù)據(jù) . 38 驗(yàn)步驟安排 . 39 驗(yàn)結(jié)果及分析 . 40 法性能的評測 . 40 法復(fù)雜程度的評測 . 41 始規(guī)則集對文法影響的評測 . 42 左部優(yōu)先 ”策略與 “右部優(yōu)先 ”策略對比 . 43 自頂向下 ”策略與 “自底向上 ”策略對比 . 43 法改進(jìn)前后效果對比 . 44 章小結(jié) . 45 第五章 總結(jié)與展望 . 47 文工作總結(jié) . 47 關(guān)問題討論 . 47 來的研究方向 . 48 參考文獻(xiàn) . 49 附錄 A 預(yù)定義的天氣預(yù)報(bào)領(lǐng)域關(guān)鍵詞表 . 53 附錄 B 包含日期相關(guān)規(guī)則的初始規(guī)則集 . 55 附錄 C 算法輸出的文法規(guī)則 . 57 致 謝 . 59 攻讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目錄 . 61 獨(dú) 創(chuàng) 性 聲 明 . 63 關(guān)于論文使用授權(quán)的說明 . 63 第一章 緒論 1 第一章 緒論 究背景 在語音信號處理、語音識別、語音合成及語言理解各項(xiàng)技術(shù)迅猛發(fā)展的今天, 口語對話系統(tǒng) (有很高的研究價(jià)值,其應(yīng)用也必將帶來很好的社會、經(jīng)濟(jì)效益。目前一批研究 成果 或?qū)嶋H系統(tǒng)已經(jīng)出現(xiàn),常見的比如旅游信息查詢、電話客票服務(wù)和天氣預(yù)報(bào)信息查詢等。構(gòu)建一個(gè)完善的對話系統(tǒng),需要應(yīng)用語音信號處理、語音識別、語言理解、知識表示、對話管理和文語轉(zhuǎn)換等多項(xiàng)技術(shù)。與其它語音系統(tǒng) 相比,對話系統(tǒng)面 臨 以下幾個(gè) 主要問題: ( 1) 語音的口語性與 自發(fā)性 (在語音命令系統(tǒng)中,語音可以是孤立詞;在聽寫機(jī)系統(tǒng)中,語音一般是書面語,要求發(fā)音比較規(guī)范;而在對話系統(tǒng)中,語音是 (或 者十分接近 )人們?nèi)粘?生活中的口語, 允 許比較隨意的發(fā)音。自發(fā)語音中包括不流利、不合語法、修改及內(nèi)容不完整等口語現(xiàn)象,這給聲學(xué)識別和語義分析帶來挑戰(zhàn)。 ( 2) 語義分析的必要性。語音命令系統(tǒng)中,詞表和用戶意圖 (s 以是簡單的一一對應(yīng)關(guān)系;而在對話系統(tǒng)中,用戶意圖往往必須用語義網(wǎng)絡(luò)等更加復(fù)雜的方法來表示。此時(shí),語義框架和語義分析模塊的設(shè)計(jì)就成為必然。 ( 3) 用戶主導(dǎo) (系統(tǒng)主導(dǎo) (混合主導(dǎo)(關(guān)系 處理問題 。根據(jù)應(yīng)用環(huán)境的不同,以及用戶之間的差異,系統(tǒng)在對話過程中可以呈現(xiàn)出三種不同的主導(dǎo)方式 ; a)用戶向系統(tǒng)主動(dòng)提問或提供信息(用戶主導(dǎo) ); b)系統(tǒng)向用戶提問 (系統(tǒng)主導(dǎo) ); c)一般情況下采取用戶主導(dǎo),在需要時(shí)切換到系統(tǒng)主導(dǎo) (混合主導(dǎo) )。 針對以上問題 , 清華大學(xué)的燕鵬舉提出一種基于語義類的上下文無關(guān)增強(qiáng)文法及相應(yīng)的語義分析方法 1, 較好地處理對話系統(tǒng)中常見的口語表達(dá)問題。 然而 口語對話系統(tǒng)中 文法規(guī)則 的獲取 卻面臨著以下問題: ( 1) 需要依賴領(lǐng)域?qū)<液陀?jì)算機(jī)語言學(xué)家專業(yè)的知識和經(jīng)驗(yàn), 這 對于普通開 發(fā)人員來說是無法完成的 。 ( 2) 文法規(guī)則 的獲取目前主要采用 手工方式進(jìn)行,是一個(gè)相當(dāng)繁瑣的過程。 ( 3) 文法移植性差。 根據(jù)某一領(lǐng)域獲取的 文法規(guī)則 很難移植到其他領(lǐng)域繼續(xù)使用,口語對話系統(tǒng)中句法規(guī)則自動(dòng)推導(dǎo)研究 2 同樣功能的對話系統(tǒng)對于不同領(lǐng)域都需要領(lǐng)域?qū)<抑匦略O(shè)計(jì) 文法規(guī)則 。 隨著社會需求的不斷增大 ,系統(tǒng)規(guī)??涨皵U(kuò)大, 文法規(guī)則 的獲取成了 對話 系統(tǒng)研發(fā)的主要瓶頸。 針對該瓶頸,在 深入分析 對比 國內(nèi)外 文法規(guī)則 自動(dòng)推導(dǎo) 方法 的基礎(chǔ)上, 研究漢語口語對話系統(tǒng)中 文法規(guī)則 的自動(dòng)推導(dǎo)技術(shù), 探索 一種符合漢語口語特點(diǎn)的 文法規(guī)則 自動(dòng)推導(dǎo)算法, 及 一套面向領(lǐng)域任務(wù)的文法性能評測指標(biāo) , 使 開發(fā)人員從專業(yè) 且繁瑣的手工勞動(dòng)中解脫出來,提高對話系統(tǒng)研發(fā)效率,降低研發(fā)成本,具有很好的理論及應(yīng)用價(jià)值。 究現(xiàn)狀 話系統(tǒng)研究現(xiàn)狀 對話系統(tǒng),可以簡單地定義為:以語音為輸入輸出接口,通過與用戶進(jìn)行交談,實(shí)現(xiàn)自動(dòng)信息(或其它)服務(wù)的系統(tǒng)。對話系統(tǒng)結(jié)構(gòu) ( 圖 1 含四個(gè)主要功能部件,即語音識別器、語言理解器、對話管理器和語音合成器。目前,語音合成的研究已經(jīng)比較成熟,其主要挑戰(zhàn)在于 如何 使生成的語音 更加自然與生動(dòng)。 一般而言,對話系統(tǒng)目標(biāo)的 實(shí)現(xiàn) 對 于 語音合成自然度的依賴不是必須的,而語音識別 、語言理解和對話管理是對話系統(tǒng)研究人員所所關(guān)注的焦點(diǎn)。 語音識別的目的是把人的語音轉(zhuǎn)換成文字,這是許多語音系統(tǒng)的核心與主軸,比如聽寫機(jī)、語音命令系統(tǒng)和對話系統(tǒng)。 與 其它系統(tǒng)不同的是,對話系統(tǒng)中的語音識別 的 輸出要付諸于語言理解,因此識別錯(cuò)誤對語言理解的干擾是系統(tǒng) 必須 考慮的。語言理解得到語義表示后,對話管理要根據(jù)上下文語境、歷史信息等,進(jìn)行綜合分析,以確定用戶的意圖,根據(jù)需要查詢后臺數(shù)據(jù)庫,并組織應(yīng)答語句等??梢钥闯?,對話系統(tǒng)中這幾個(gè)核心部件的關(guān)系比較緊密。 第一章 緒論 3 聲學(xué)模型 對話模型 領(lǐng)域知識 語言模型 句法 / 語義規(guī)則 語音 識別器 語言 理解器 對話 管理器 識別器 語音 合成器 語音 詞網(wǎng)格 語義框架 應(yīng)答文本 語音 圖 1話系統(tǒng)模型略圖 對話 系統(tǒng)的運(yùn)行往往還依賴于一些模型或數(shù)據(jù)庫,比如是聲學(xué)模型、語言模型、句法 /語義規(guī)則、領(lǐng)域 (識、對話模型和領(lǐng)域數(shù)據(jù)庫等。本節(jié)將對對話系統(tǒng)當(dāng)前的研究現(xiàn)狀做簡要綜述。 根據(jù)不同的應(yīng)用,對話系統(tǒng)可以構(gòu)建于不同的平臺,有著不同的表現(xiàn)形式: 嵌入式平臺: 人 2設(shè)計(jì)了一個(gè)基于 嵌入式電子表格系統(tǒng)。該系統(tǒng)采用人機(jī)對話的方式進(jìn)行電子表格的自動(dòng)設(shè)計(jì)與填充。與使用鼠標(biāo)鍵盤的手工輸入方式和簡單屏蔽鼠標(biāo)鍵盤的語音命令方式 相比,語音對話的方式提高了效率,而且使用戶更加輕松。 臺: 設(shè)計(jì)了一個(gè)用于在 頁上填充表格的語音軟件。該軟件使用 為用戶接口,采用名為 語音識別器和基于框架的語義分析器,以 序的方式處理語音輸入輸出。 為,這種基于表格的語音接口是探索分布式自然語言系統(tǒng)的重要一步。 機(jī)器人平臺: 是一個(gè)可移動(dòng)的辦公室機(jī)器人,能通過語音對話的方式,完成人員查詢、引路、接通特定人電話、給特定人發(fā)電子郵件等任務(wù)。這類機(jī)器人平 臺的系統(tǒng)面臨的主要問題是實(shí)際使用環(huán)境中的噪音,以及系統(tǒng)響應(yīng)的實(shí)時(shí)性。 電話平臺: 隨著大量公有信息的出現(xiàn)(訂票、信息查詢等)以及電話的普及,基于電話的對話系統(tǒng)越來越多。歐洲的 劃 5下有法語、荷蘭語、意大利語等若干系統(tǒng), 研究人員對各系統(tǒng)進(jìn)行了橫向比較,有助于找到不同方法的優(yōu)缺點(diǎn)和提高研究水平?;陔娫捚脚_的系統(tǒng)應(yīng)用前景廣闊,有很好的社會效益和經(jīng)濟(jì)效益,其技術(shù)挑口語對話系統(tǒng)中句法規(guī)則自動(dòng)推導(dǎo)研究 4 戰(zhàn)主要在于電話信道的窄帶特性、信道之間的差異,以及現(xiàn)實(shí)生活中的噪音問題。 以下是國內(nèi)外一些對話系統(tǒng)的簡介。 ( 1) 麻省理工學(xué)院的 統(tǒng) 6。這是一個(gè)通過口語對話獲取旅游信息的系統(tǒng),有大約 1500 個(gè)詞的詞匯量,能夠提供大約 750 個(gè)城市的天氣預(yù)報(bào)和大約 250 個(gè)城市的航班情況。它的語音識別器 用基于分段( 識別方法,建立了 型,詞識別率為 它直接采用了另一個(gè)對話系統(tǒng) 的自然語言理解模塊,用語義框架的結(jié)構(gòu)來描述語義;自然語言生成為 音合成采用 硬件和軟件。該系統(tǒng)的第二代 采用了系結(jié)構(gòu),成為美國 第一個(gè)參考體系結(jié)構(gòu)。 統(tǒng)作為發(fā)展人類語言技術(shù)的試驗(yàn)平臺,在其基礎(chǔ)上,已經(jīng)開發(fā)了許多不同領(lǐng)域、不同語言的系統(tǒng),如電話天氣預(yù)報(bào)查詢系統(tǒng) 1,航班訂票系統(tǒng)2。 ( 2) 德國的 統(tǒng)。這個(gè)對話系統(tǒng)用于會議的安排,可以識別并翻譯大量的不同口語表達(dá)。它通過一個(gè)動(dòng)態(tài)建立的上下文模型和一個(gè)建立在語料庫之上的隨機(jī)模型,可以預(yù)測對話某一點(diǎn)的下一句將會是什么。 ( 3) 由英德法意等國共同開發(fā)的 統(tǒng) 13。這是一個(gè)提供航班和火車時(shí)刻信息的電話口語對話系統(tǒng)。它的詞匯量為 1000 詞左右,是非特定人的系統(tǒng),而且具有很好的對話管理功能,通過電話進(jìn)行的對話成功率達(dá)到 96%。 ( 4) 中國科學(xué)院自動(dòng)化所模式識別國家實(shí)驗(yàn)室的 統(tǒng) 14。該系統(tǒng)向用戶提供旅游信息,并且可以根據(jù)用戶的要求計(jì)劃旅游路線。它采用了大詞表連續(xù)語音識別的技術(shù),識別結(jié)果經(jīng)過語義項(xiàng)的匹配得到有關(guān)的語義概念。它實(shí)現(xiàn)了對話的人機(jī)混合主導(dǎo),基于模板生成系統(tǒng)應(yīng)答,整個(gè)系統(tǒng)的應(yīng)答準(zhǔn)確率達(dá)到了 ( 5) 清華大學(xué)智能技術(shù)與系統(tǒng)國家重點(diǎn)實(shí)驗(yàn)室語音技術(shù)中心的 統(tǒng) 15。該系統(tǒng)向用戶提供友好的清華大學(xué)校園導(dǎo)游服務(wù),包括校園內(nèi)的建筑物信息和交通信息。它考慮了口語中的省略指代現(xiàn)象 , 能處理上下文相關(guān)的對話。當(dāng)信息查詢結(jié)果為空時(shí),該系統(tǒng)還會主動(dòng)放寬某些約束條件,提供用戶可能關(guān)心的信息。 總之, 基于規(guī)則的 口語對話系統(tǒng)得到了 學(xué) 術(shù) 界的認(rèn)同,并獲得了很大的發(fā)展。雖然近年來也出現(xiàn)了基于統(tǒng)計(jì)的方法,但鑒于自然語言深層結(jié)構(gòu) 的 規(guī)律性,規(guī)則方法有 著 統(tǒng)計(jì)方法不可替代的優(yōu)勢。 眾所周知,基于規(guī)則的口語對話系統(tǒng)中 文 法規(guī)則 的獲取是系統(tǒng)第一章 緒論 5 研發(fā)的主要瓶頸。 如何突破該瓶頸,提高系統(tǒng)研發(fā)效率,降低研發(fā)成本是口語對話系統(tǒng)研發(fā) 中 一個(gè) 亟待解決的問題。這正是 本文 工作 的意義所在。 法規(guī)則 自動(dòng)推導(dǎo) 算法 研究現(xiàn)狀 ( 1)有指導(dǎo)的學(xué)習(xí)方法 指 從給定的樹庫 (具有句法結(jié)構(gòu)的語料庫) 中推導(dǎo)出句法結(jié)構(gòu)知識 (或文法 )的方法?;谧儞Q的錯(cuò)誤驅(qū)動(dòng)方法 16、 法 17和 清華大學(xué)的苑春法、陳剛等提出的基于詞性和語義知識的漢語 文法規(guī)則 學(xué)習(xí)方法 18都屬于這類方法 。 ( 2)無指導(dǎo)的學(xué)習(xí)方法 指 直接基于原始或者初級加工的句子 , 不使用人工加工后的結(jié)構(gòu)信息或結(jié)構(gòu)規(guī)則 推導(dǎo) 文法規(guī)則 。 這種方法 可 分成兩類 : a) 基于壓縮的方法 。 壓縮方法實(shí)際上是提取 “ 公因子 ” , 將多次出現(xiàn)的多詞詞串代之以 “ 成分 (或稱為非終結(jié)符 )” 。 比較典型的有 最小描述長度 (法19和 最小長度編碼 (法 20。 但已有的研究表明 , 單純的壓縮方法在文法推導(dǎo)中并不能達(dá)到很好的效果 。 一個(gè)直接的原因是 , 貌似 “ 公因子 ” 的詞串 , 實(shí)際上并不一定能夠抽象為成分 。 b) 基于分布的方法 。 按照 語言學(xué) 家的基本思想 , 當(dāng)兩個(gè)不同的詞串所在的上下文具有一致的分布特點(diǎn)時(shí) , 它們很可能就具有了可替換的特點(diǎn) 。 此時(shí) , 可以將兩個(gè)不同的詞串用一個(gè)非終結(jié)符表示 。 分布方法可以分為局部分布和全局分布兩種 : 局部分布只考慮某個(gè)詞序列前后相鄰的詞的特征 。 如 學(xué) 工作 21 他們以句子的詞性標(biāo)注序列作為輸入 , 通過對詞性 (序列 )的上下文 (主要是相鄰的詞 )信息來判斷兩個(gè)詞是否有相似 。 他們研究了依存結(jié)構(gòu)和成分結(jié)構(gòu)樹的推導(dǎo) , 分別對英語、德語和漢語進(jìn)行了測試 。 英國 學(xué)的 到了 與此類似的思想 23,在帶有詞性標(biāo)注的語料基礎(chǔ)上 , 根據(jù)詞性的上下文分布將其聚類為非終結(jié)符 , 推導(dǎo) 文法規(guī)則 。 處理過程中結(jié)合了 法 。 他們的方法對英語測試也取得了較好的結(jié)果 。 局部分布的最大特點(diǎn)是只考慮前后相鄰的信息 , 在語料庫不是非常龐大時(shí)比較適用 ;但在一個(gè)較小的窗口內(nèi) , 所得到的信息畢竟不夠充分 。 例如 , 在英文中 , “介詞 )+詞 )+詞 )” 的模式 , 很可能將 T 歸約一個(gè)結(jié)構(gòu) (互信息值可能更大 ),而實(shí)際情況應(yīng)該是由 N 先結(jié)合 。 擴(kuò)大詞的左右窗口范圍 , 在一定程度上可以避免這口語對話系統(tǒng)中句法規(guī)則自動(dòng)推導(dǎo)研究 6 一問 題 , 在極端情況下 , 可以將范圍擴(kuò)展到整個(gè)句子 。 荷蘭 學(xué)的 統(tǒng) 24和英國 學(xué) 基于對齊的學(xué)習(xí)都是以整個(gè)句子作為考察對象的 25 基本思想是將一個(gè)句子看成 3 部分 : cl+e+ e 的左部 , e 的右部 , 稱為 e 的上下文 。 對于一個(gè)句子 , e 可以取其中的任何詞串 , 剩下的部分就形成其上下文 。 在文法推導(dǎo)時(shí) , 從句子庫中抽取所有可能的模式 , 然后再進(jìn)行聚類 。而 思想與 學(xué)的 人在翻譯模板提 取中的思想有很大的相似性 27, 都通過多個(gè)相同片段和不同片斷交錯(cuò)對齊的基本方法 , 只是 一步推導(dǎo)出了句子的層次結(jié)構(gòu) 。 究了英語句子結(jié)構(gòu)的推導(dǎo) , 在結(jié)構(gòu)推導(dǎo)中 , 不對英語句子作任何其他預(yù)處理 ( 如詞性標(biāo)注 ) 。 這種思想雖然易于實(shí)現(xiàn) , 但如果詞的詞性兼類現(xiàn)象比較嚴(yán)重 , 而訓(xùn)練語料又不足夠大 , 即使是找到了對齊 , 也不一定能保證是正確的對齊 。 如果事先對句子作適當(dāng)?shù)念A(yù)加工 (如詞性標(biāo)注和簡單的語義歸類 ), 并加入一定的對齊約束 (如詞性約束 ), 則是可以減少明顯不合理推導(dǎo)現(xiàn)象發(fā)生的 。 c) 一些新的思路。 學(xué)的 用 一種新的思路 ,先構(gòu)造正例集和反例集,在已有的小 規(guī)模 初始規(guī)則 集 上,用分析算法分析正例,添加新的規(guī)則 , 分析反例,抑制不合理的規(guī)則 28香港中文大學(xué)的 借鑒了語音識別中語言建模的思想,用統(tǒng)計(jì)的方法對訓(xùn)練語料中的詞和句法結(jié)構(gòu)進(jìn)行聚類,若干次迭代后得到初步的上下文無關(guān)文法,再人工用語義標(biāo)記代替文法中隨機(jī)的類別標(biāo)記 30。 清華大學(xué) 的劉智博提出了一種基于主題的方法 31:首先把領(lǐng)域知識劃分為若干個(gè)主題,表達(dá)相同語義的不同句子屬于同一個(gè)主題。算法根據(jù)預(yù) 先定義好的關(guān)鍵詞表,把某一個(gè)主題下可能的用戶查詢例句轉(zhuǎn)化為由語義關(guān)鍵詞類表示的模板,應(yīng)用于相應(yīng)的主題。這種方法得到是單句模板,而且算法需要先由人工將例句劃分為不同的主題,然后才能對不同的主題分別進(jìn)行處理。 d) 有關(guān)漢語的方法 。 漢語與西文有著不同的語言特點(diǎn),處理方法也存在著較大的差異,隨著漢語熱的興起,針對漢語的 文法規(guī)則 自動(dòng)學(xué)習(xí)研究開始逐漸受到學(xué)術(shù)界的重視,主要的研究有: 北京大學(xué)的王厚峰 和 王波設(shè)計(jì)了基于句子對齊的漢語句法結(jié)構(gòu)推導(dǎo)的計(jì)算模型 32。 清華大學(xué)的周強(qiáng) 、黃昌寧兩位 教授提出了基于元規(guī)則的漢語 文法規(guī)則 的自動(dòng)構(gòu)造方法 33。 綜合國內(nèi)外 文法規(guī)則 自動(dòng)推導(dǎo)的研究,我們可以發(fā)現(xiàn),大部分工作以理論研究與探討為目的,針對口語對話系統(tǒng) 的、 符合口語對話系統(tǒng)中語言特點(diǎn)的研究并不多見。因此第一章 緒論 7 本文工作不僅具有很好的應(yīng)用 價(jià)值 , 而且 具有一定的理論 意義 。 法性能的評測 通過 分析對比國內(nèi)外相關(guān)研究 中文法評測方法,可以看到,學(xué)術(shù)界主要 考查文法的復(fù)雜程度(生成的規(guī)則數(shù)目及新添加的非終結(jié)符數(shù)目)和算法的時(shí)間消耗 34香港中文大學(xué)的 常用文法的 基礎(chǔ)上,結(jié)合自身算法特點(diǎn)評測了參數(shù)的不同取值對最終生成 的文法的影響 30。北大計(jì)算語言學(xué)研究所的王厚峰在評測中將自動(dòng)推導(dǎo)的文法與手工標(biāo)注的 文法相比較, 使用 文法的 準(zhǔn)確率、召回率、 F 值,對 評測算法輸出的 文法規(guī)則 32。 綜觀這些研究,還沒有一套針對領(lǐng)域任務(wù)需求的文法評測方法。 究的主要內(nèi)容及創(chuàng)新點(diǎn) 究 的主要內(nèi)容 口語對話系統(tǒng)中 文法規(guī)則 的獲取 面臨著幾個(gè)主要問題:一是 需要依賴領(lǐng)域?qū)<液陀?jì)算機(jī)語言學(xué)家專業(yè)的知識和經(jīng)驗(yàn),對于普通開發(fā)人員來說是無法完成的; 二是 采用手工方式進(jìn)行,是一個(gè)相當(dāng)繁瑣的過程; 三是 文 法移植性差, 根據(jù)某一領(lǐng)域獲取的 文法規(guī)則很難移 植到其他領(lǐng)域繼續(xù)使用,同樣功能的對話系統(tǒng)對于不同領(lǐng)域都需要領(lǐng)域?qū)<抑匦略O(shè)計(jì) 文法規(guī)則 。隨著社會需求的不斷增大,系統(tǒng)規(guī)??涨皵U(kuò)大, 文法規(guī)則 的獲取成了對話系統(tǒng)研發(fā)的主要瓶頸。 針對口語對話系統(tǒng)中 文法規(guī)則 的獲取,研究符合漢語口語特點(diǎn)的 文法規(guī)則 自動(dòng)推導(dǎo)技術(shù), 研究 內(nèi)容如下: ( 1) 文法 的 基本概念 ,包括文法 及語言 的定義 、常見的文法分析算 法 , 分析幾種常見文法的特點(diǎn)及優(yōu)劣 ; 重點(diǎn)研究一種針漢語口語特點(diǎn)的上下文無關(guān)增強(qiáng)文法, 主要 包括 增強(qiáng)屬性的歸納、增強(qiáng)規(guī)則類型形式化定義及增強(qiáng)文法分析算法 。 ( 2) 根據(jù) 漢語口語的特點(diǎn), 以 一種符合漢 語口語特點(diǎn)的 上下文無關(guān)增強(qiáng)文法為對象,研究口語對話系統(tǒng)中 文法規(guī)則 的自動(dòng)推導(dǎo)算法 。 提出一種基于句子分割的 文法規(guī)則自動(dòng) 推導(dǎo) 算法 ,給出 算法 的形式化描述 、 具體步驟、片斷的 消歧和歸一化方法
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030年中國集成電路引線框架行業(yè)發(fā)展研究報(bào)告
- 2025至2030年中國鍍珞圓柱角行業(yè)發(fā)展研究報(bào)告
- 2025至2030年中國鉆鑼機(jī)主軸夾頭行業(yè)發(fā)展研究報(bào)告
- 牛瘤胃臌氣的預(yù)防與治療
- 2025至2030年中國轉(zhuǎn)子軸行業(yè)發(fā)展研究報(bào)告
- 2025至2030年中國袖條行業(yè)發(fā)展研究報(bào)告
- 2025至2030年中國花崗紋鞋底行業(yè)發(fā)展研究報(bào)告
- 2025至2030年中國聚酰胺復(fù)聚酯亞胺漆包銅圓線行業(yè)發(fā)展研究報(bào)告
- 2025至2030年中國絎縫手工被行業(yè)發(fā)展研究報(bào)告
- 2025至2030年中國精密型雙滾著色涂布機(jī)行業(yè)發(fā)展研究報(bào)告
- (五調(diào))武漢市2025屆高三年級五月模擬訓(xùn)練語文試卷(含答案詳解)
- (統(tǒng)編2024版)七下語文期末專題總復(fù)習(xí)課件(共6個(gè)專題)新教材
- 中國食物成分表2018年(標(biāo)準(zhǔn)版)第6版
- MOOC 跨文化交際-蘇州大學(xué) 中國大學(xué)慕課答案
- 環(huán)杭州灣地區(qū)發(fā)展戰(zhàn)略規(guī)劃研究
- 擬投入本項(xiàng)目的主要施工設(shè)備表
- 湖北省環(huán)境監(jiān)測專業(yè)服務(wù)暫時(shí)行收費(fèi)重點(diǎn)標(biāo)準(zhǔn)
- 純堿MSDS報(bào)告化學(xué)品安全技術(shù)說明書
- 機(jī)械原理課程設(shè)計(jì)-織機(jī)開口機(jī)構(gòu)設(shè)計(jì)說明書
- Triz矛盾矩陣 48行48列
- (完整版)PICC維護(hù)操作流程及評分標(biāo)準(zhǔn)
評論
0/150
提交評論