基于SVM的宋詞風格分類的設計與開發(fā)_第1頁
基于SVM的宋詞風格分類的設計與開發(fā)_第2頁
基于SVM的宋詞風格分類的設計與開發(fā)_第3頁
基于SVM的宋詞風格分類的設計與開發(fā)_第4頁
基于SVM的宋詞風格分類的設計與開發(fā)_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

題目:基于SVM的詩詞風格分類(自然語言處理結課論文)姓名: 學院: 系: 專業(yè): 年級: 學號: 2013年12月29日

[摘要]為了提高宋詞風格劃分的準確性,本文提出了基于SVM和協(xié)同學習的宋詞風格自動判定方法,在小規(guī)模人工標注訓練語料上,利用協(xié)同學習方法,在大規(guī)模未標注全宋詞語料庫上進行半監(jiān)督學習,并訓練得到風格SVM分類器。在本文搭建的模型系統(tǒng)上進行的實驗表明,本文所提出的研究方法,初步解決了宋詞的風格劃分,也為后繼的相關研究提供了理論依據(jù)和實驗基礎。[關鍵詞]風格劃分宋詞SVM分類

目錄第1章引言 -4-1.1研究背景及意義 -4-1.2計算詩學綜述 -4-1.3本文的工作和主要內容 -5-第2章基于SVM的古詩場景時間判定 -6-2.1SVM概述 -6-2.2基于SVM的宋詞風格判定 -6-2.3訓練樣本的獲取 -7-2.3.1文本預處理 -7-2.3.2文本表示模型 -8-2.3.3特征選取 -8-2.3.4文本特征權重計算 -9-2.3.5訓練集的標注與構建 -9-2.4SVM分類器的構建 -10-2.4.1協(xié)同訓練算法概述 -10-2.4.2基于協(xié)同訓練算法的半監(jiān)督學習 -11-2.5實驗與結果分析 -11-2.5.1實驗數(shù)據(jù) -11-2.5.2實驗結果分析 -12-第3章總結與展望 -13-參考文獻 -14-

第1章引言1.1研究背景及意義中國古典詩詞源遠流長,博大精深,是中華民族文化藝術寶庫中的瑰寶。在信息化高度發(fā)展的今天,如何運用新的技術形式來傳承、保護及開發(fā)中國古典詩詞,對于傳統(tǒng)文化的傳承與發(fā)展至關重要。其中的宋詞作為宋代文學的典范,贏得了眾多文人騷客的青睞,成為中國古代詩詞中的一顆璀璨的明珠。因此,通過對宋詞進行研究進而了解宋代文化一直是語言文學研究工作者的一個研究熱點。本文以宋詞為研究對象,研究宋詞風格的計算機自動分類。宋詞的分類研究,可以幫助讀者更好地把握整個詩歌的整體意境,了解詩歌的思想感情。1.2計算詩學綜述本設計所依托的理論研究基礎主要是計算詩學。廈門大學周昌樂教授在其著作《心腦計算舉要》中首次提出了計算詩學這一概念。所謂計算詩學[1],指的是采用計算思想、方法和技術等從事詩歌(推而廣之,也可以包括其他文學形式)的研究工作。廣義的計算詩學,主要是對詩歌文本的各種規(guī)律的研究,例如詩歌機器分類、詩歌風格的計算機輔助歸納、詩學知識的計算機輔助發(fā)現(xiàn)、詩歌創(chuàng)作的計算機輔助系統(tǒng)工作、詩歌用詞用語的統(tǒng)計、詩學語料庫、文獻庫等等。而狹義的計算詩學,則主要是指使計算機系統(tǒng)具備詩歌理解、欣賞和創(chuàng)作的能力,如詩歌作品的計算機理解、計算機詩歌創(chuàng)作系統(tǒng)以及計算機歌曲創(chuàng)作系統(tǒng)等。由于詩歌語言的獨特復雜性,計算詩學是計算語言學研究領域中充滿挑戰(zhàn)的一個年輕的研究分支。就中國古典詩詞而言,自20世紀90年代后,北京大學計算語言學研究所、臺灣元智大學中國語文學系、重慶大學計算機學院以及廈門大學藝術認知與計算實驗室等不少學術機構和學者陸續(xù)在詩歌語料庫及知識庫的建設[2-4]、韻律分析[5]、風格分析[6-8]、情感分析[9]和詩歌自動生成[10-13]等領域開展了漢語計算詩學的廣泛研究。北京大學計算語言學研究所與臺灣元智大學合作,在90年代后期開發(fā)了“古詩研究的計算機支持環(huán)境”模型系統(tǒng)[14],初步實現(xiàn)了超文本閱讀,全文檢索、關鍵詞檢索以及計算機語言學輔助研究等功能。其隨后開發(fā)的“宋代名家詩自動注音系統(tǒng)”將基于統(tǒng)計的語言模型與宋詞的音韻特點相結合,采用條件概率策略、互信息策略以及規(guī)則策略三種多音字自動注音策略,實現(xiàn)宋詞的自動注音[2]。重慶大學計算機學院的易勇博士在其論文“計算機輔助詩詞創(chuàng)作中的風格辨析及聯(lián)語應對研究”[15]中,對詩詞采用向量空間模型表示,并用基于機器學習中的Na?veBayes等方法,首次提出了古典詩詞的豪放婉約風格判析計算模型,并利遺傳算法等方法對模型進行改進,取得了較好的判定效果。北京大學計算語言學研究所運用語言學的手段對古詩詞進行研究,相供的研究成果能夠對古詩詞、古漢語領域的研究提供有益的幫助。在胡俊峰博士的論文“基于詞匯語義分析的唐宋詩計算機輔助深層研究”[16]中,將計算語言學的技術根據(jù)古詩詞的特點加以改造,取得了有益的成果。其系統(tǒng)提取積累了有關中國古詩詞的語料及語言信息知識庫,也為今后的古詩詞、古漢語相關領域的研究奠定了良好的基礎。廈門大學自2001年以來,在周昌樂教授帶領下開始中國古典詩詞計算化的研究工作,主要開展?jié)h語隱喻分析與理解研究、詩詞計算分析與創(chuàng)作研究以及詩歌機器翻譯系統(tǒng)的開發(fā)等,并取得了不少科研成果,其中,周昌樂教授2010年在《軟件學報》第3期發(fā)表的“一種宋詞自動生成的遺傳算法及其機器實現(xiàn)”[17]一文,在國內學術界具有比較大的影響,并引起了網(wǎng)民的廣泛關注。1.3本文的工作和主要內容中國古典詩歌有著極高的文學造詣,在漢語言文化的成長、演變與傳播中占有著極重要的地位。詩歌作為一種用高度凝結的語言表達豐富含義的特殊文體,是人類智慧在語言乃至思維層面的一個閃光點。本文結合了計算詩學領域相關研究成果對宋詞的風格劃分進行研究。主要研究內容涉及宋詞特征的選取、協(xié)同訓練的研究、宋詞的風格判定。我們的最終目標是希望通過本文的研究,構建一個較完善的計算模型和系統(tǒng),實現(xiàn)基于SVM的宋詞風格劃分。第2章基于SVM的古詩場景時間判定2.1SVM概述SVM(SupportVectormachine,支持向量機)[18]是在統(tǒng)計學習理論基礎之上發(fā)展起來的一種全新的機器學習算法。它適合大樣本分類,特別是文本分類。SVM基于統(tǒng)計學習理論的結構風險最小化原則,將原始數(shù)據(jù)集合壓縮到支持向量集合,然后用子集學習得到新的知識,同時給出了支持向量決定的規(guī)則。將最大化分類間隔的思想和基于核的方法結合在一起,表現(xiàn)出很好的泛化能力。由于SVM方法有統(tǒng)計學習理論作為其堅實的數(shù)學基礎,并且可以很好地克服“維數(shù)災難”和“過擬合”等傳統(tǒng)算法不可避免的問題,所以受到越來越多的研究人員的關注[19]。2.2基于SVM的宋詞風格判定文本分類的歷史可以追溯到20實際60年代,直到90年代結合互聯(lián)網(wǎng)應用后得到了廣泛的研究和應用。隨著信息技術的不斷發(fā)展,文本信息量的急劇增加,人們開始研究基于機器學習的文本分類方法。通過機器學習,文本分類不再需要過多人工參與,其準確性和穩(wěn)定性也具有明顯的優(yōu)勢。基于機器學習的文本分類系統(tǒng)主要包括文本預處理、文本特征的表示、分類器訓練、分類器分類和分類評估,大致流程如下圖所示。文本預處理訓練文本文本預處理訓練文本測試文本特征選取特征權值計算特征權值計算分類器訓練分類器分類評估人工分類結果分類器評判結果訓練過程文本測試過程圖1基于機器學習的文本分類系統(tǒng)框圖本文結合了相關文獻及語料庫的分析,將宋詞的風格判定看作是兩個文本分類問題,提取每一單句中的相關句法語義信息為特征,在相關宋詞詞典的基礎上人工加工的小規(guī)模帶標注的訓練語料,采用半監(jiān)督學習方法中的協(xié)同訓練法,在大規(guī)模的不帶標注的《全詩詞》語料庫上進行半監(jiān)督學習,訓練得到風格判定的SVM分類器,并對分類器的性能進行了測試和分析。2.3訓練樣本的獲取2.3.1文本預處理文本預處理作為文本分類的第一個環(huán)節(jié),有著十分重要的作用。對于文本的預處理,主要的目的在于減少文本噪聲,改善文本質量,同時對文本進行適當?shù)恼Z義處理,為后續(xù)工作做好鋪墊。本文中文本預處理過程主要是對古詩進行分詞。這里所使用的分詞工具是史曉東教授開發(fā)的專門針對古詩詞訓練的分詞標注工具segtag。用此分詞工具,本文對《全宋詞》語料庫中2萬多首宋詞進行分詞標注。2.3.2文本表示模型自然語言形式的文本結構非常復雜,并不適合計算機處理。因而在分類前有必要將文本化成一個數(shù)學模型,該模型要能夠盡量反映出文本內容,同時還要有對不同文本的區(qū)分能力。由此引入了文本表示模型的概念,即以一定的的文本特征的組合來表示文本,將非結構化的文本表示為結構化的模型。常用的模型有向量空間模型(VectotSpaceModel)、布爾模型(BooleanModel)和概率模型(ProbabilisticModel)三種。其中向量空間模型是當前應用最為廣泛的文本表示模型[20],因此本文采取的文本表示模型為向量空間模型。向量空間模型最初由Salton等人在20世紀60年代提出,并在著名的SMART系統(tǒng)中得到應用[21]。其主要思想是將每篇文檔映射到一組規(guī)范正交化特征向量張成的向量空間中的一個點,其形式化表示為文本,其中tij表示文檔di的第j個特征,wij標識該特征的權重,反映特征項tij對表示文檔di的重要程度,簡記為。當所有文本都映射到向量空間中,文本間的相似程度可轉為向量間的距離度量,常用的方法為計算向量間夾角的余弦(式1)。(式1)2.3.3特征選取本文在建模過程中,選擇詞作為文本的特征項。所謂特征選取,其實就是一個維數(shù)壓縮的過程。如果將語料庫中所有出現(xiàn)的詞都作為特征,會使形成的空間向量維數(shù)過于復雜,而且對于不相關的特征的引入,有可能會影響之后訓練的效果。因此,在前期的特征提取中,本文只選用了含義具體的名詞(\n)以及反映時間信息的時間詞(\t)作為訓練集的特征,從而大大減少了特征空間維數(shù)。2.3.4文本特征權重計算通過特征選取,我們已經(jīng)獲取了最能表示文本的特征項集合,但是這些特征項對于文本的重要程度各不相同,有些區(qū)分類別的能力較強,有的則很弱。因此需要對特征進行加權,對于區(qū)分類別能力較大的特征項賦予較大的權重。常用的特征加權方法有很多,本文采用現(xiàn)今信息檢索與文本挖掘領域最為常用的詞頻-逆向文件頻率(TF-IDF)。這種方法考慮了特征項在文檔中的重要程度和整個文檔集中的區(qū)分能力。特征項ti在文檔dj中的TF-IDF權重計算見式2。(式2)其中TFij表示特征項ti在文檔dj中的詞頻,IDFi表示特征項ti在所有文檔D中的逆向文件頻率。nij表示ti在dj中出現(xiàn)的次數(shù),nij的值越大,TFij越大;|D|表示所有文檔的總數(shù),表示出現(xiàn)過ti的文檔數(shù)量,特征項ti在文檔集中出現(xiàn)的越頻繁,對于的IDFi越低。在本文的研究中,dj表示古詩的單句。由此可知TF-IDF權重傾向選擇在特定文檔里出現(xiàn)頻率高,在整個文檔集出現(xiàn)頻率較低的特征項。利用這一方法,能夠排除一些常用詞所帶來的影響。2.3.5訓練集的標注與構建考慮到宋詞中的風格一般分為豪放和婉約兩類,所以在SVM訓練集的標注的過程中也分為以上兩類。本文選擇《全宋詞》語料庫中的一部分古詩的單句,在《宋詞鑒賞辭典》及相關詩詞網(wǎng)站的基礎上對其人工加工得到小規(guī)模帶標注的文本訓練語料。人工標注類別時由于語料庫的數(shù)據(jù)較多,逐句人工判定標注的方法費時費力。因此,本文研究過程中,利用相關詩詞網(wǎng)站中所提供的豪放與婉約分類下的宋詞,將語料庫中的宋詞進行風格標注。通過上述方法,我們得到小規(guī)模帶標注的語料,并在其基礎上根據(jù)上述文本預處理、表示模型和特征選取以及權重計算等方法,最終獲得宋詞風格判定初始的SVM訓練集。2.4SVM分類器的構建本設計的SVM訓練采用的是目前比較流行的SVM工具LIBSVM,并利用協(xié)同訓練方法,在大規(guī)模的不帶標注的《全宋詞》語料庫上進行半監(jiān)督學習,分別訓練得到風格判定的SVM分類器。2.4.1協(xié)同訓練算法概述協(xié)同訓練算法(Co-TrainingAlgorithm)是半監(jiān)督學習算法的一種,它由A.Blum和T.Mitchell在1998年提出。協(xié)同訓練隱含利用聚類假設和流行假設,使用兩個或多個分類器,挑選標注未標注樣本進行相互標注學習,從而不斷更新訓練樣本集和學習模型。之后又有很多研究者對協(xié)同訓練進行了研究和分析,取得了很大進展,使協(xié)同訓練成為半監(jiān)督學習中非常重要的方面和成果。A.Blum和T.Mitchell對標準的協(xié)同訓練算法提出了三個基本假設:(1)屬性集可以被劃分為兩個集合;(2)每一個屬性集的子集都足以訓練一個分類器;(3)在給定類標記情況下,兩個屬性集是相互獨立的。其中每個屬性集構成一個視圖,滿足上述假設的視圖稱為充分冗余的視圖。但是這一的前提條件比較苛刻,真實的數(shù)據(jù)中,滿足充分冗余的要求往往很難達到。因此Z.H.Zhou和M.Li在2005年提出了Tri-training的算法[22],使用三個分類器,如果兩個分類器分類結果一致,那么就將該未標記樣本加入到已標記的樣本中去。其算法流程如下圖所示:算法:Tri-training輸入:未標記樣本集U,已標記樣本集L,某種分類算法K輸出:協(xié)同學習后得到的帶標注樣本new_L迭代:隨機抽取樣本L,分成3份,得到3個訓練集L1,L2,L3,分別用于同一種學習算法訓練出分類器C1,C2,C3。對于任意一個由算法K訓練出的分類器Ci維護其對立訓練集Li,將滿足的樣本加入到Li中,遍歷U后,得到更新后的Li’,對于每個Ci,若,則對Ci利用新的訓練集Li’重新訓練,得到新的分類器Ci’對于每個Ci,若不滿足Ci=Ci’,繼續(xù)迭代終止條件:3個分類器都不再更新將3個訓練器的訓練集合并后得到new_L圖2Tri-Training算法過程2.4.2基于協(xié)同訓練算法的半監(jiān)督學習本文基于傳統(tǒng)的協(xié)同訓練算法思想,選擇人工標注的語料庫作為初始樣本集,采用協(xié)同訓練中的Tri-training算法,在大量未標注的樣本集上進行半監(jiān)督學習。本文所采用的基于協(xié)同訓練算法的半監(jiān)督學習步驟如下圖3所示。實驗中已標記樣本集L為1.3節(jié)中人工標注的數(shù)據(jù)集,未標注的樣本集U選擇《全宋詞》數(shù)據(jù)庫中大量未標注的宋詞生語料,分類算法K選擇目前常用的支持向量機的算法SVM。通過上述協(xié)同訓練的方法,訓練得到大量準確且已標注的SVM訓練樣本集。2.5實驗與結果分析2.5.1實驗數(shù)據(jù)本文以上節(jié)基于協(xié)同學習得到的大規(guī)模帶標注的樣本集作為實驗數(shù)據(jù),將其按2:1的比例分為訓練集與測試集兩部分,分別訓練得到風格SVM分類器。整理得到季節(jié)和晝夜兩個分類器所需的訓練集與測試集數(shù)據(jù)如下表所示。表1風格SVM分類器實驗數(shù)據(jù)介紹類別豪放婉約訓練集340420測試集1712102.5.2實驗結果分析對于分類器的評價指標有準確率(Precision,亦稱查對率)和查全率(Recall,亦稱召回率)。分類器在類別上的準確率(Precision)定義如下:(式3)同樣的,分類器在類別上的查全率(Recall)定義如下:(式4)其中a表示測試文檔集中本來屬于類別而且被分類器分到類別的文檔數(shù),b表示測試文檔集中本來不屬于類別而且被分類器錯誤分到類別的文檔數(shù),c表示測試文檔集中本來屬于類別而且被分類器錯誤分到其他類別的文檔數(shù)[29]。整個實驗過程分為訓練階段和測試階段,訓練階段我們將季節(jié)與晝夜兩個分類實驗中的訓練集整理,利用SVM分類算法構造出季節(jié)分類器和晝夜分類器,并對兩個分類器分別進行封閉測試和開放測試,結果如下表所示。表2風格分類器測試結果類別封閉測試開放測試準確率查全率準確率查全率豪放100%100%82.14%81.18%婉約100%100%84.16%85.00%平均指標100%100%83.15%83.09%圖3風格分類器測試結果從上述結果看,季節(jié)分類器在開放測試和封閉測試中,準確率與查全率都比較理想,開放測試結果的準確率與查全率都在80%以上。對風格分類器的測試結果表明SVM分類器可以較好地完成了對宋詞的分類要求,達到了預期的效果第3章總結與展望古典詩詞作為中華民族文化藝術寶庫中的瑰寶,對它的研究具有重要而深遠的意義。本文主要著眼于對宋詞風格的判定,采用專門針對古文的分詞工具以及結合相關研究基礎,人工加工了小規(guī)模帶標注的語料,并利用協(xié)同訓練,在全宋詞大規(guī)模不帶標注的語料上進行半監(jiān)督學習,分別建立的對宋詞風格(豪放與婉約)判定的SVM分類器。本文構建的實驗系統(tǒng)采用全過程計算機自動執(zhí)行方法,用戶只需要輸入宋詞,確認后,從分詞開始到最后輸出場景劃分結果每一步都由計算機自動完成,無需人工參與。系統(tǒng)測試結果表明,該系統(tǒng)可以較合理地完成宋詞風格的判定過程,且全過程運行速度快,基本達到了預期的效果。今后待于進一步開展的主要研究工作有以下方面:(1)當前的研究用于訓練模型的語料庫較少,分類的方法也僅僅局限于支持向量機。在后繼的研究中,一方面要適當?shù)財U大訓練語料庫,一方面也可以嘗試利用多種分類方法綜合地應用于宋詞的風格分類,從而提高分類的準確性。(2)關于宋詞熟語料庫和相關知識庫的建立有待于進一步完善,目前對于宋詞的分類,主要基于分詞的結果在風格(豪放與婉約)方面展開,對于詩歌的主題方面的研究較少,為了使系統(tǒng)具有更強的實用性,有必要編撰相關宋詞語義詞典。參考文獻[1]周昌樂.心腦計算[M].清華大學出版社.2003:195-203[2]穗志方、俞士汶、羅鳳珠.宋代名家詩自動注音研究及系統(tǒng)實現(xiàn)[J].中文信息學報.1998(2)[3]俞士汶、胡俊峰.唐宋詩之詞匯自動分析及應用[J].臺灣中研院第3屆漢學會議(2000).LanguageandLinguistics.2003-4(3):631~647[4]蘇勁松、周昌樂、李翼鴻.基于統(tǒng)計抽詞和格律的全宋詞切分語料庫建立[J].中文信息學報,2007(2)[5]羅鳳珠、李元萍.中國古代詩詞格律自動檢索與教學系統(tǒng)[J].中文信息學報,1999(1)[6]YiYong、HeZhongshi、LiLiangyan.AdvancedstudiesontraditionalChinesepoetrystyleidentification[J].ICMLC05.2005[7]ZhongshiHe、WentingLiang、LiangyanLi、YufangTian.SVM-Basedclassificationmethodforpoetrystyle[J].ProceedingsofthesixthInternationalConferenceonMachineLearningandCybernetics.HongKong.19-22August2007(I

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論