【畢業(yè)學位論文】(Word原稿)中文網(wǎng)頁褒貶態(tài)度的機器評價-計算機軟件與理論計算語言學_第1頁
【畢業(yè)學位論文】(Word原稿)中文網(wǎng)頁褒貶態(tài)度的機器評價-計算機軟件與理論計算語言學_第2頁
【畢業(yè)學位論文】(Word原稿)中文網(wǎng)頁褒貶態(tài)度的機器評價-計算機軟件與理論計算語言學_第3頁
【畢業(yè)學位論文】(Word原稿)中文網(wǎng)頁褒貶態(tài)度的機器評價-計算機軟件與理論計算語言學_第4頁
【畢業(yè)學位論文】(Word原稿)中文網(wǎng)頁褒貶態(tài)度的機器評價-計算機軟件與理論計算語言學_第5頁
已閱讀5頁,還剩44頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

碩士研究生學位論文 題目: 中文 網(wǎng)頁褒貶態(tài)度的機器評價 姓 名: 蘇玉梅 學 號: 10108083 系 別: 信息 科學技術(shù) 學院 專 業(yè): 計算機軟件與理論 研究方向: 計算語言學 導 師: 俞士汶 教授 孫斌 副教授 二 四 年五月 版權(quán)聲明 任何收存和保管本論文各種版本的單位和個人,未經(jīng)本論文作者同意, 不得將本論文轉(zhuǎn)借他人,亦不得隨意復制、抄錄、拍照或以任何方式傳播。否則,引起有礙作者著作權(quán)之問題,將可能承擔法律責任。 北京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 - I - 中文 網(wǎng)頁褒貶態(tài)度的機器評價 摘要 天網(wǎng)知名度系統(tǒng)是基于北大天網(wǎng)搜索引擎技術(shù)和中文信息處理技術(shù),針對用戶定制的實體信息開展的個性化網(wǎng)絡服務研究。重點研究了網(wǎng)頁實體相關(guān)度評價算法,從而優(yōu)化了針對特定信息的網(wǎng)絡查詢服務質(zhì)量。在此研究中,通過對中文網(wǎng)頁文本內(nèi)容的大量觀察,作者提出了中文網(wǎng)頁褒貶態(tài)度機器評價的研究方向。 基于褒貶評價的修辭屬性,作者確定了以語言手段及領(lǐng)域標準為策略的評價算法 , 獨立完 成了網(wǎng)頁褒貶態(tài)度機器評價模塊的全部設計與開發(fā),并為此準備了必要的褒貶評價語言知識庫,包括在轉(zhuǎn)化現(xiàn)有的基礎靜態(tài)褒貶義詞典的有限資源之外,搜集來自真實中文網(wǎng)頁的領(lǐng)域相關(guān)褒貶義補充詞典,積累了一批褒貶態(tài)度 表達的語言 形式模板。 該評價模型針對中文網(wǎng)頁,依據(jù)領(lǐng)域補充褒貶義詞典,對網(wǎng)頁實體進行褒貶態(tài)度評價,其中包含了一系列評價要素,如褒貶結(jié)構(gòu)、領(lǐng)域標準、實體有關(guān)、褒貶猜測等關(guān)鍵方法,關(guān) 聯(lián)了多種語言知識,從而更合理地模擬了人對網(wǎng)頁褒貶信息 的 解析方法。該模塊被應用到天網(wǎng)知名度系統(tǒng),通過對 75 萬網(wǎng)頁近 300 個實體的評價 測試 , 得到了 有 價值 的實驗結(jié)果 。網(wǎng)頁褒貶相關(guān)度評價模型 的研究開發(fā), 為天網(wǎng)知名度系統(tǒng)的個性化網(wǎng)絡服務做出了新的和有意義的嘗試。 關(guān)鍵詞:褒貶態(tài)度 機器評價 網(wǎng)絡 信息 服務 北京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 - F N on on of at of as In of on of it As an a of as of of a 京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 - 正文目錄 第 1 章 引論 .網(wǎng)知名度系統(tǒng) .頁觀察機器評價視角下看中文網(wǎng)頁類型 .目延伸探索新的網(wǎng)絡服務(網(wǎng)頁褒貶態(tài)度的機器評價) .文的研究內(nèi)容及意義 .文的結(jié)構(gòu) . 2 章 相關(guān)工作及工作基礎 .言手段 . 詞語手段 . 句式手段 . 辭格手段 .價的規(guī)范與標準 .源準備 . 11 礎褒貶義詞典 . 11 型網(wǎng)頁文本搜集 . 11 域補充褒貶義詞集 . 褒貶評價模板搜集 .統(tǒng)基礎 . 天網(wǎng)知名度系統(tǒng)流程 . 天網(wǎng)知名度系統(tǒng)結(jié)構(gòu)及模塊分布 . 3 章 網(wǎng)頁褒貶態(tài)度評價模塊 .據(jù)需求 . 網(wǎng)頁表示信息庫 . 注冊實體信息庫 .鍵策略 . 實體有關(guān)性 . 領(lǐng)域相關(guān)性 .塊設計 . 處理流程 . 褒貶結(jié)構(gòu) . 基本結(jié)構(gòu) P . 4 章 實驗結(jié)果及展望 .果瀏 覽界面 .效性分析 .進方向 . 更精細的褒貶評價模板 . 轉(zhuǎn)折結(jié)構(gòu)及褒貶權(quán)重 . 更精確的褒貶沖突控制 . 褒貶評價的程度考慮 . 更精細的褒貶義詞典構(gòu)造 .他應用 .驗評價 .考文獻與資料 .京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 - 圖表目錄 圖 1 網(wǎng)頁褒貶評價關(guān)系分析圖 . 2 天網(wǎng)知名度系統(tǒng)流程 . 3 用戶注冊界面 . 4 用戶檢索界面實體信息列表 . 5 用戶檢索界面 實體相關(guān)網(wǎng)頁排序 . 6 人名實體 對應示例 . 7 一篇網(wǎng)頁的褒貶評價流程 . 8 P 的識別流程 . 9 實體相關(guān)網(wǎng)頁的褒貶評價結(jié)果瀏覽 . 10 實驗網(wǎng)頁中人名實體對應關(guān)系 . 1 實驗考察與實驗資源的對應分布 . 2 網(wǎng)頁褒貶評價例句 . 11 表 3 注冊實體信息表的信息項定義 . 4 實體領(lǐng)域及對應的領(lǐng)域褒貶補充詞典 . 5 面向領(lǐng)域的褒貶補充詞典候選樣例 . 6 褒貶評價候選模板樣例 . 7 褒貶評價用到的網(wǎng)頁表示庫信息項 . 8 褒貶評價用到的實體信息庫信息項 . 9 褒貶結(jié)構(gòu)模板要素 .京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 引論 - 1 - 第 1章 引論 因特網(wǎng)( 1994 年開始登陸中國,短短幾年內(nèi)得到了迅猛的發(fā)展 , 今天的因特網(wǎng)確實是一個信息的寶庫,但是在很大程度上它還只是信息的堆砌,因此它更像一個寶礦,等待有需求的人們?nèi)ネ诰颉?網(wǎng)上海量信息的涌現(xiàn)迫使人們越來越依賴搜索引擎,而目前中文搜索引擎的服務還遠遠不能滿足用戶的需要。常見的網(wǎng)絡檢索服務, 常常沒有語義分析,只是根據(jù)用戶所給出查詢詞串的邏輯組合機械地找出一系列匹配網(wǎng)頁,同時檢索結(jié)果中常有很多無關(guān)或無用的網(wǎng)頁。通用的搜索引擎缺乏針對性,用戶不能通過搜索系統(tǒng)定期、定量、和自動地獲得目標相關(guān)的網(wǎng)頁,必須手工地進行繁復的篩選任務。 面對網(wǎng)上的海量信息,人們越發(fā)看重準確性、及時性,迫切需要一種 更加智能的網(wǎng)絡檢索服務, 能夠 針對用戶關(guān)心的焦點, 為用戶自動收集、分析和整理 相關(guān)信息,因此, 提供個性化檢索服務已勢在必行。 網(wǎng)知名度系統(tǒng) 北京大學計算機系網(wǎng)絡實驗室 于 1997 年推出了 “天網(wǎng)”搜索引擎,據(jù) “天網(wǎng) ” 搜集的網(wǎng)頁估計,中文(簡體)網(wǎng)頁數(shù)已超過 1 億。從 2002 年 7 月開始,北京大學計算語言學研究所信息提?。?目組與北京大學網(wǎng)絡實驗室在北 京 大 學新研究院的支持下開展了“天網(wǎng)知名度” 研究 項目。本項目在天網(wǎng)搜索引擎的基礎上,力求利用中文信息提取的先進技術(shù),嘗試個性化檢索服務,提高網(wǎng)絡服務的質(zhì)量。 在 天網(wǎng)知名度系統(tǒng)中, 用戶 可以通過指定一批具體的實體來 定制 自己 的查詢需求 ,即用戶可以指定一個或多個實體作為信息收集、分析和提供服務的目標對象 , 例如: 名人實體: 姓名,主要職業(yè)、社會兼職、社會形象、工作單位、代表作品等;公司實體:名稱(含別名、縮寫名、英文名),所在地、所屬行業(yè)、產(chǎn)品(服務項目)、負責人(可選)等;機構(gòu)實體:名稱(含別名、縮寫名、英文名), 所 屬地 區(qū) 、部門、性質(zhì)、負責人(可選)等;產(chǎn)品實體:名稱(含別名、縮寫名、英文名)、型號、功能、規(guī)格等。 北京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 引論 - 2 - 經(jīng)過對名人實體、機構(gòu)實體及產(chǎn)品實體的前期考察,天網(wǎng)知名度系統(tǒng)選擇了名人實體做為實驗對象。用戶將其要查詢的名人信息注冊 之后 ,系統(tǒng)將為每個用戶登記專用的實體信息,形成個人信息庫和實體信息庫,以保證盡量滿足每個用戶的個 性化檢索需求。 用戶通過 天網(wǎng)知名度系統(tǒng)用戶界面登陸 并 提交要查詢的實體,系統(tǒng) 將 通過檢索評分庫和索引庫將檢索 到的實體相關(guān)網(wǎng)頁的排序 結(jié)果返回 給 用戶。該系統(tǒng)依托天網(wǎng)搜索引擎的原始網(wǎng)頁庫,目前 在 75 萬中文簡體網(wǎng)頁范圍內(nèi) 小規(guī)模 提供 了 近 300 個名人的網(wǎng)頁搜索服務。 系統(tǒng) 采用了基于內(nèi)容的淺層分析技術(shù),提取網(wǎng)頁中人名、人的職業(yè)描述以及人所在的工作單位等二元關(guān)系描述,結(jié)合特征向量的加權(quán)統(tǒng)計,對查詢信息建立了合理的結(jié)構(gòu),大大增加了網(wǎng)頁中有關(guān)人物分析的準確性。不同于 搜索引擎,“天網(wǎng)”知名度項目著眼于用戶的特定檢索需求(表 現(xiàn)為系統(tǒng)中的注冊實體,包括各信息條目及其權(quán)重),因此實體信息注冊、二元關(guān)系抽取、加權(quán)分析等是實現(xiàn)系統(tǒng)目標的關(guān)鍵環(huán)節(jié)。 頁觀察機器評價視角下看 中文 網(wǎng)頁類型 天網(wǎng)知名度系統(tǒng) 實驗過程中的實體信息,來自前期考察對網(wǎng)頁實體信息的認知抽象。而 天網(wǎng)知名度系統(tǒng)的 相關(guān)度評價即是讓機器來模擬人自身對網(wǎng)頁與實體的相關(guān)性的認知策略,最終機器的模擬結(jié)果也要接受用戶認知體驗的檢查。因此作者在參與網(wǎng)頁與注冊實體相關(guān)度評價模塊的開發(fā)時,一直注意積累對網(wǎng)頁文本內(nèi)容的觀察。 以公司類實體的網(wǎng)頁為例,作者發(fā)現(xiàn)如下規(guī)律:從來源看,有 來自 企業(yè)自 身也有 來自外界 的 ,如行業(yè)網(wǎng)站或新聞網(wǎng)站。從網(wǎng)頁內(nèi)容來說,有介紹企業(yè)的產(chǎn)品、經(jīng)營領(lǐng)域(與該企業(yè)的產(chǎn)品類型相關(guān))、下屬子公司、發(fā)行的證券、股票的;也有介紹公司的負責人 的 (其人、其事、訪談);有關(guān)于該公司的經(jīng)營研究報告、業(yè)務分析、公司的事件新聞(收購、兼并等)等的;還有談及企業(yè)文化概念的,如核心理念、市場口號(例如,“以您的生活為本”,“無抗”等)、特色概念、論壇、周刊、市場策略、經(jīng)營模式,以及它們的改變 等 ;甚至也有介紹其使用的軟件管理系統(tǒng)、電子商務等(即借該企業(yè)宣傳另一個企業(yè)產(chǎn)品的成功案例的)。形式上,除了單獨 出現(xiàn)在網(wǎng)頁中,也常在行業(yè)網(wǎng)站和企業(yè)峰會的網(wǎng)站中和其他公司一起出現(xiàn) 的 ,甚至只是名稱列舉。網(wǎng)頁內(nèi)容除了文本本身,還有格式標記,某些類別的標記可表示一篇網(wǎng)頁的主題信息或通過控制顯示效果而表示一段內(nèi)容的重要性。對網(wǎng)頁的觀察幫助項目組制定出注冊實體信息的格式和內(nèi)容,也確定了系統(tǒng)進行分析評價所需要的信息。 北京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 引論 - 3 - 作者 從大量 的 網(wǎng)頁觀察中發(fā)現(xiàn),與目標實體實際相關(guān)的網(wǎng)頁, 可以分為 兩類。一類是強文字相關(guān)的信息類網(wǎng)頁 ,這類網(wǎng)頁與實體信息匹配程度高,簡歷型名人網(wǎng)頁 是很好的例子 。另一類是 弱文字相關(guān)的事件或事物展開型網(wǎng)頁 ,相比 前者, 這類網(wǎng)頁 與實體的背景性信息匹配程度就低多了。事件展開類網(wǎng)頁,譬如,關(guān)于某名人的事件報道或訪談記錄,恰好談論的不是名人實體中注冊的那些常見資料性信息,假設一篇談論克林頓在家鋤草的報道,則這篇網(wǎng)頁的內(nèi)容相對于系統(tǒng)中的資料信息延伸距離很大。另一個典型的例子,中央電視臺 的 節(jié)目表網(wǎng)頁,整個網(wǎng)頁是 一份 央視節(jié)目單的具體 展開 。 這些都 是 與 目標實體 相關(guān)但 無法由特征詞簡單覆蓋的 網(wǎng)頁類型。對此要取得好的評價結(jié)果,則需要更靈活深刻地利用特征詞手段。 反過來,特征詞頻繁出現(xiàn)的網(wǎng)頁未必與目標實體相關(guān)性很大。例如有時 一篇網(wǎng)頁中分散出現(xiàn)了大量某個注 冊實體的特征詞 卻 并非著意 于談論該實體 , 這是由于 這些代表實體信息的特征詞,也正是大多情況下人們談論實體 時的語言環(huán)境,甚至有時只在這種語言環(huán)境下才可能順帶提起那個實體而已 。除了人員 單位和人員 職位二元關(guān)系之外, 如果我們的語言技術(shù) 能 準確地提取出更多特征信息與實體的確切關(guān)系,則能在衡量實體相關(guān)度時起到定性作用,而在有限的計算語言技術(shù)下,即使是特征詞統(tǒng)計過程中的定量尺度,也是不易把握的。針對上文的一個更普遍而典型的情形是,網(wǎng)頁在 談論 同領(lǐng)域的其他人物時提起了我們要考察的人物實體 , 這 種情況 將 在網(wǎng)頁褒貶態(tài)度的機器評價 中繼續(xù)討論。 目延伸探索新的網(wǎng)絡服務(網(wǎng)頁褒貶態(tài)度的機器評價) 在參與相關(guān)度評價的前期開發(fā)過程中,通過對網(wǎng)頁文本內(nèi)容及機器評價的聯(lián)系思考,作者獲得了新的實驗方向。 網(wǎng)頁是傳遞信息的。從效果上看,人們通過構(gòu)建網(wǎng)頁來傳遞信息,也可以進而表達態(tài) 度和傳遞情感。 前一階段中 的 網(wǎng)頁與注冊實體信息的相關(guān)度評價,針對用戶感興趣的目標,優(yōu)化了檢索排序。而有些用戶在得到與關(guān)心的實體相關(guān)的一批網(wǎng)頁后,也可能會希望進一步 分出 其中的正面報道和負面報道,例如企業(yè)希望了解市場上對其產(chǎn)品的正負面評價,名人希望了解媒體和公眾對自己的評價。 在滿足這種用戶需求時,機器需要做的工作就是分析現(xiàn)實網(wǎng)頁的修辭效果,即分析網(wǎng)頁所表達出的態(tài)度和情感,反饋給用戶。網(wǎng)頁的內(nèi)容作者,作為話語構(gòu)建者,總是在一定言語環(huán)境下選擇適切的話語來達到傳遞信息和交流交流感情的目的的,因此我們的考察是北京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 引論 - 4 - 針對一種有意識、有目的、有規(guī)律、有效果期望的話語組織行為,也即修辭行為,這里它是以網(wǎng)頁的形式通過網(wǎng)絡傳播的,而我們需要獲取的是這種修辭行為的修辭效果之一: 網(wǎng) 頁所包涵的褒貶態(tài)度信息 。 網(wǎng)頁的內(nèi)容作者實施的是話語的構(gòu)建,即對實體評價的褒貶信息編碼;網(wǎng)頁讀者實施的是話語的解構(gòu),即信息的 接收和解析。網(wǎng)頁構(gòu)建者構(gòu)建網(wǎng)頁,需要掌握和運用語言知識,讀者解析網(wǎng)頁也要利用語言知識 基礎來 解析網(wǎng)頁的各種話語信息,包括網(wǎng)頁內(nèi)容作者所表達出來的對談論實體的褒貶態(tài)度信息,是一種褒揚的態(tài)度還是貶斥的態(tài)度。文本褒貶態(tài)度的機器評價其實是在模擬人對網(wǎng)頁的解析活動。作者以下圖來標示褒貶評價中各元素的關(guān)系,分析 此圖可以 得到,網(wǎng)頁、實體和語言知識本身,是網(wǎng)頁內(nèi)容作者、讀者及模擬讀者的機器所共同關(guān)聯(lián)的 因素 。 圖 1 網(wǎng)頁褒貶評價關(guān) 系分析圖 上圖揭示,機器的有效模擬,需要關(guān)注三個 要素 :網(wǎng)頁、語言知識、實體。 網(wǎng)頁 機器 讀者 語言 實體 語言 實體 語言 實體 構(gòu)造 認知 評價 解析 評價 認知 認知 評價 解讀 網(wǎng)頁內(nèi)容作者 北京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 引論 - 5 - 文的研究內(nèi)容及意義 天網(wǎng)知名度系統(tǒng) 是 立足個性化網(wǎng)絡服務 的 探索 研究。網(wǎng)頁相關(guān)度評價利用計算語言學技術(shù)針對用戶定制的實體信息進行網(wǎng)頁相關(guān)度的評價 及排序, 從而獲得了 更高效優(yōu)質(zhì)的個性化服務 。作者在參與網(wǎng)頁相關(guān)度評價模塊的開發(fā)過程中積累了對 中文 網(wǎng)頁的 大量 觀察 ,從而 發(fā)現(xiàn)和明確了網(wǎng)頁褒貶評價的問題目標。網(wǎng)頁褒貶 態(tài)度的 機器評價研究符合網(wǎng)絡用戶的進一步查詢需求, 也 符合天網(wǎng)知名度系統(tǒng)個性化網(wǎng)絡服務的 研究定位 , 同時可以利用 系統(tǒng) 已有的實體針對性平臺基 礎。 此 項實驗具有研究和實驗的可延續(xù)性。 另一方面,網(wǎng)絡傳媒在現(xiàn)代社會中 充當著 信息傳播的重要手段。網(wǎng)絡文本 是典型的 傳播性文本?,F(xiàn)實網(wǎng)頁中的褒貶態(tài)度表達往往含有明確的目標、動機和效果期望, 因此 構(gòu)造者 會很重視語言知識 這個 交流 手段 , 網(wǎng)頁中的褒貶態(tài)度表達 也就是一個 典型的修辭行為,所以實驗 可以充分利用修辭 學 的理論 成果 ,具有理論指導基礎。而從語言學角度看,修辭涉及語言的附加意義, 這 區(qū)別于概念意義。 因而 此 項實驗具有 豐富 創(chuàng)新性 研究 價值。 文 的 結(jié)構(gòu) 本文后面的部分將介紹三部分內(nèi)容。首先是理論基礎和實驗資源的考察。這一部分既驗 證實驗的可行性,也是作者完成資源積累作好實驗準備的 基礎工作 過程。第二部分介紹網(wǎng)頁褒貶機器評價模塊的 具體 設計實現(xiàn)。最后給出實驗結(jié)果并做合理性分析。 此 項 實驗中, 本人 的原創(chuàng)性實驗工作主要包括 針對 領(lǐng)域 的 褒貶詞集的 語料搜集整理 和網(wǎng)頁褒貶機器評價模塊的全部設計與實現(xiàn)。實驗本身涉及網(wǎng)頁、實體、語言知識三個 要素 。對于實驗 處理對象 網(wǎng)頁褒貶態(tài)度的話語形式 的關(guān)注 自始至終貫穿本作者的 思考和 實驗過程,指導作者選擇合適的資源或?qū)崿F(xiàn)策略來 捕捉 和 覆蓋 目標 問題 ,這 也將成文下文論述的重要線索。 北京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 相關(guān)工作及工作基礎 - 6 - 第 2章 相關(guān)工作及工作基礎 “修辭就是在運用 語言的時候根據(jù)一定的目的精心選擇語言材料的過程?!?文獻 7, 網(wǎng)頁中褒貶態(tài)度的表達,是有目標有指向的評價活動, 因此 是典型的修辭活動。修辭者要組織出適切、有效的話語,需要掌握修辭手段的結(jié)構(gòu)和功能。機器進行網(wǎng)頁修辭效果的判斷,也必須利用這些手段 和 規(guī)律來展開修辭效果的分析。 所謂修辭手段就是修辭所需要的材料,主要是指可以利用的語言要素和輔助性非語言要素。按照是否是語言要素,修辭手段 可以分成為語言修辭手段和非語言修辭手段。前者包括詞語、句子、句群 、辭格和語篇。后者主要是指一些輔助性的文字符號以及表 情、動作等。 文獻 3, 表情、動作等輔助手段 可以用在人機交互多媒體技術(shù)中 , 本實驗目前針對天網(wǎng)知名度系統(tǒng)的大規(guī)模網(wǎng)頁庫進行文本處理,因此下面主要考察語言手段,關(guān)注其中與褒貶 態(tài)度的表達 有關(guān)聯(lián) 的理論。 言手段 語手段 文章是 由 句子構(gòu)成的,句子的基本單位是詞語。詞語是組成能完成一定交際任務的句子的基本手段。 文獻 3, 詞性: 詞語可以分為名次、動詞、形容性等。詞語的語法功能分類是為了進行語法分析,這有助于解決話語組織的正確性問題,即話語是否 合乎 語法規(guī)則的問題,但 卻 不能解決詞語的其他修辭 問題。 詞義及詞語的修辭功能 :所謂詞語的意義, 實際 上就是語音或文字符號在人們的心理上引發(fā)的心理形象或記憶、認識、經(jīng)驗、體驗和感受等。 在運用中,實際上是起一定的刺激中介作用。因此說,詞語實際上所具有的是表意功能或修辭功能。 文獻 3, 語對人腦的 刺激作用 有兩種, 離開言語環(huán)境所具有的基本表意功能,即語言修辭功能,和在具體的言語環(huán)境中的表意功能,即言語修辭功能。 文獻 3, 語的語言修辭功能包括兩北京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 相關(guān)工作及工作基礎 - 7 - 個方面:一是表示 概念意義 (或理性意義),二是表示 附加意義的功能 (語體、文化 、態(tài)度等標示功能)。 文獻 3, 示說話者的 褒貶態(tài)度 ,就是詞語的 附加功能之一 。 在漢語中,具有表示態(tài)度功能的詞語很多,例如“撤退 逃跑”,“效果 后果”,“鼓勵 教唆”,“起義 叛亂”,“愛護 庇護”,“團結(jié) 勾結(jié)”等,這些詞對中,前者表明了說話者對所談及事物的肯定、擁護、贊成和褒揚態(tài)度,后者則表明了說話者對所談及事物的否定、反對、不贊成甚至貶斥的態(tài)度。 文獻 3, 與一般詞語一樣,熟語除標示理性意義的功能之外,也具有一些附加修辭功能。比如“守株待兔”、“揠苗助長”、“刻舟求劍”、“陽奉陰違 ”、“口是心非”、“狼子野心”、“狼心狗肺”、“不三不四”等成語,“抓小辮”、“吃老本”、“吹牛皮”、“出洋相”、“開小差”、“半吊子”等慣用語,“搟面杖吹火 一竅不通”、“老鼠過街 人人喊打”等歇后語,多具有貶斥功能。而“堅持不懈”、“老驥伏櫪”、“廢寢忘食”、“眾志成城”、“一心一意”等成語,“眾人拾柴火焰高”、“三個臭皮匠,頂一個諸葛亮”、“若要工夫深,鐵杵磨成針”等諺語,“知識就是力量” 、“謙受益,滿招損” 、“千里之行,始于足下” 、“世上無難事,只怕有心人” 、“良藥苦口利于病,忠言逆耳利 于行”等警句格言,則具有褒揚功能。 文獻 3, 在話語組織過程中,選擇什么詞語直接關(guān)系到修辭的效果。比如形容好喝酒的 人 ,就有許多詞語可供選擇:“酒仙” 、 “酒鬼” 、 “酒囊飯袋” 、 “酒桶” 、 “酒簍子”等等。每一個詞語的修辭功能都不完全一樣。每一個詞語的修辭功能都不完全一樣?!熬葡伞蓖ǔJ侵改切╇m然好喝酒,但卻品性高雅的人,“酒鬼” 、 “酒囊飯袋” 、 “酒桶” 、 “酒簍子”,則多形容和比喻那些 酗酒 且無所作為的人。這些同中有異的詞語為話語組織提供了選擇余地,所以說,詞語是重要的修辭手段。 文獻 3, 根據(jù)詞語修辭功能的不同,可以從修辭效果的角度來劃分: 分為書面語詞語、口語詞語;或者褒義詞語、 貶義 詞語等等。這些功能表示了詞語的使用范圍,比如是書面語還是口語,說話者的態(tài)度 是 褒還是貶。 詞語的 褒貶 修辭功能劃分 有利于人們使用詞語來有目標地構(gòu)造話語,也方便人們解析說話人的話語信息。 褒貶的劃分確定了詞語褒貶評價的極性, 而 褒貶 評價不 只 是兩極對立的,也常會受到程度性修飾,例如“有點吹毛求疵” ,“非常絢麗” 。有時也 甚至 因為修飾而改變極性 方向 ,例如“高”這個詞語本身屬于中性,如果說“有點太高了”則往 往是 否定的態(tài)度 。 北京大學碩士學位論文 中文 網(wǎng)頁褒貶態(tài)度的機器評價 相關(guān)工作及工作基礎 - 8 - 詞語的形式 :詞語包括 詞和短語 。短語包括固定的短語和不固定的短語。固定短語包括成語、 慣用語 、諺語、格言及歇后語等。 文獻 3, 固定的短語同樣有修辭功能,關(guān)于不固定的短語我們后面會從模板的角度來考慮。 式手段 漢語不僅有豐富的詞匯手段而且有豐富的句式資源。漢語句式按照語氣劃分為 陳述句 、疑問句 、 祈使句 和 感嘆句 四種。話語組織匯過程中,我們可以根據(jù)表達需要,選擇不同語氣的句式。 文獻 3, 其中,陳述句和感嘆句句式對褒貶態(tài)度的表達有影響。 陳述句 是四種語氣的句式中使用頻率 最高的。陳述句主要是對事物、情況等進行描述的句子。陳述句還有肯定和否定之分。 文獻 3, 中的否定句會造成褒貶態(tài)度的指向改變。除肯定句和否定句之外,還有一種雙重否定句,表達的是肯定的意思,可 起 強調(diào)作用。例如:“我們不是沒有能力解決這個問題,而是目前時機還沒到”。 文獻 3, 感嘆句 用以表達強烈的情感。例如:白楊樹實在不平凡,我贊美白楊樹?。┒埽喊讞疃Y贊)如果采用陳述語氣,則顯得十分平淡。 文獻 3, 格手段 漢語中的辭格非常豐富。一類重在深化話語的意義,如比喻、 借 代 、比擬等,這類辭格可以體現(xiàn)說寫人的態(tài)度、情感,例如比喻辭格。如果用來打比方的事物是 美好 的,那么表示說話人對被比方的 事物 的態(tài)度是褒的,反之則是貶的。另一類則是話語形式的 辭格 ,例如對偶、排比、反復等。 文獻 3, 目前還沒有可用的 針對 辭格形式的計算識別 技術(shù) 和考量方法 ??紤]到 中文 網(wǎng)頁的文本大多是媒體傳播 型 的,辭格的豐富性不及文學類文本,因此,本 評價 系統(tǒng)中對于用辭格來表達的褒貶態(tài)度,將簡化為利用詞語手段等來捕捉,例如,“她像盛開的蓮花”與“她端莊美麗” ,機器評價能識別后者,但不理解前者,除非機器被 灌輸語體“蓮花”這個詞的修辭意義。當然,如果句子是“她像蓮花一樣端莊美麗” ,那么機器同樣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論