BERT的圖模型文本摘要生成方法研究_第1頁
BERT的圖模型文本摘要生成方法研究_第2頁
BERT的圖模型文本摘要生成方法研究_第3頁
BERT的圖模型文本摘要生成方法研究_第4頁
BERT的圖模型文本摘要生成方法研究_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGE

PAGE

-18-

BERT的圖模型文本摘要生成方法研究

摘要:基于圖模型的TextRank方法形成的摘要不會脫離文檔本身,但在抽取文本特征的時(shí)候,傳統(tǒng)的詞向量獲取方法存在一詞多義的問題,而基于BERT的詞向量獲取方式,充分挖掘了文本語義信息,緩解了一詞多義問題。對不同詞嵌入方法進(jìn)行了實(shí)驗(yàn)對比,驗(yàn)證了BERT模型的有效性?;谠~頻統(tǒng)計(jì)的相似度計(jì)算方法也忽略了句子的語義信息,文中選擇了向量形式的相似度的計(jì)算方法用于文本摘要生成。最后在TTNews數(shù)據(jù)集上做實(shí)驗(yàn),效果有了明顯的提升。

關(guān)鍵詞:中文文本摘要;BERT;TextRank;相似度

中圖分類號:TP391文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2022)02-0091-06

Abstract:TheabstractformedbyTextRankmethodbasedongraphmodelwillnotbeseparatedfromthedocumentitself,butwhenextractingtextfeatures,thetraditionalwordvectoracquisitionmethodhastheproblemofpolysemy,whilethewordvectoracquisitionmethodbasedonBERTfullyexcavatesthesemanticinformationofthetextandalleviatestheproblemofpolysemy.TheexperimentalcomparisonofdifferentwordembeddingmethodsverifiestheeffectivenessoftheBERTmodel.Thesimilaritycalculationmethodbasedonwordfrequencystatisticsalsoignoresthesemanticinformationofsentences.Inthispaper,thesimilaritycalculationmethodinvectorformisselectedfortextabstractgeneration.Finally,theexperimentonTTNewsdatasetshowsthattheeffectisobviouslyimproved.

Keywords:abstractofChinesetext;BERT;TextRank;similarity

0引言

文本摘要作為自然語言處理領(lǐng)域的主要研究方向之一,它的主要任務(wù)是信息抽取。在這個(gè)互聯(lián)網(wǎng)快速發(fā)展的時(shí)期,每天都能從網(wǎng)上看到大量的文本信息,比如新聞微博等。然而并不是所有的信息都是需要的,我們都只關(guān)注自己所關(guān)心的內(nèi)容,如何從大量的文本里面抽取到關(guān)鍵信息以幫助人們快速獲得自己想要的信息,是本篇論文主要討論的問題。文本摘要的主要任務(wù)就是抽取關(guān)鍵信息,進(jìn)而可以解決這一問題,文本摘要旨在幫助人們從大量的文本信息中快速找到自己關(guān)注的信息。如果把含有幾千字的文章縮寫成幾百字,那么讀者就可以很輕松地了解到文章的主旨,摘要分為“人工摘要”和“自動(dòng)摘要”,人工摘要由讀者自己閱讀總結(jié)得到,可能需要花費(fèi)讀者大量的時(shí)間和精力,自動(dòng)摘要是由機(jī)器得到的。

文本摘要可以分為抽取式摘要、生成式摘要[1]和混合式摘要。抽取式摘要可以簡單概括為從原文檔中抽取出一個(gè)或者多個(gè)句子拼接在一起構(gòu)成摘要,這樣得到的摘要不會脫離文檔本身,既簡單又實(shí)用。抽取式摘要主要思想是對文檔的每句話打分,句子的重要程度就是根據(jù)分?jǐn)?shù)的高低來判定的,按照分?jǐn)?shù)的高低對每個(gè)句子排序,分?jǐn)?shù)高的前幾個(gè)句子被抽取出來形成摘要。生成式摘要和抽取式摘要不同,它重在提取每個(gè)句子的特征,獲取文檔的主要思想后,重新組織語言生成新的句子組成摘要?;旌鲜秸褪菍⑸鲜鰞煞N方法結(jié)合在一起生成的摘要稱為混合式摘要。

文本摘要又可以按照文檔的其他形式劃分,比如按照文檔數(shù)量劃分,分為單文檔摘要和多文檔摘要[2],這兩者只是在文檔數(shù)量上有所不同,單文檔是指只針對一篇文檔,多文檔針對同一類型的多篇文檔處理,最后生成的摘要包含了這些文檔的主題信息。

1相關(guān)工作

1.1文本摘要研究現(xiàn)狀

抽取式文本摘要簡單實(shí)用,目前也出現(xiàn)了很多抽取式摘要生成方法,其中在工業(yè)方面應(yīng)用的比較廣泛,目前主要的技術(shù)方法有基于主題模型、基于圖模型、特征評分、深度學(xué)習(xí),等等。

1958年Luhn[3]提出了基于高頻關(guān)鍵詞給文章句子排序得到摘要的方法。Kupiec[4]等人采用了樸素貝葉斯分類器來計(jì)算一個(gè)句子是否為摘要句的概率。Aone[5]提出了TF-IDF[6]方法來計(jì)算某個(gè)句子成為摘要句子的概率。Conrog[7]等人運(yùn)用馬爾可夫模型來抽取摘要句子。

上述幾種方法都是基于統(tǒng)計(jì)特征為基礎(chǔ)的摘要方法。這幾種方法得到的摘要的可讀性不是很好,為了繼續(xù)完善自動(dòng)摘要提取方法,GunesErkan和Rad等人[8]提出了TextRank方法,這個(gè)算法計(jì)算每兩個(gè)句子之間的相似度,計(jì)算每個(gè)句子占全文信息的比重,選擇比重較高的前幾個(gè)句子組成摘要。隨著深度學(xué)習(xí)不斷地發(fā)展,生成式摘要也逐漸得到了廣泛的研究。2022年Google提出的序列到序列模型[9]最開始應(yīng)用在翻譯任務(wù)中;2022年Facebook公司的Rush等人[10]將深度學(xué)習(xí)的端到端的方法首次應(yīng)用到摘要的生成任務(wù)中,得到了很好的效果;Chopra等人[11]用卷積神經(jīng)網(wǎng)絡(luò)編碼原文信息,采用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼生成了更加連貫的摘要;Nallapati[12]等在編碼階段使用雙向循環(huán)的神經(jīng)網(wǎng)絡(luò),還對低頻詞進(jìn)行了處理;2022年谷歌[13]發(fā)布的摘要模型采用了集束搜索(Beam-Search)來生成摘要,這種方法在編碼和解碼的部分采用的是循環(huán)神經(jīng)網(wǎng)絡(luò),避免時(shí)間和空間的浪費(fèi);2022年谷歌發(fā)布BERT[14]模型,這個(gè)模型被多次應(yīng)用在自然語言處理任務(wù)中,都取得了比較好的效果。

1.2主要工作

在以往的NLP任務(wù)中,詞向量的表示方法有One-Hot方法,可是One-Hot編碼方式存在維度過高的缺點(diǎn),計(jì)算量非常龐大。2022年Mikolov等人提出了基于分布式的詞嵌入方式Word2Vec方法,這個(gè)方法網(wǎng)絡(luò)結(jié)構(gòu)簡單,訓(xùn)練的中文語料比較少,不能提取句子的深層語義信息。2022年由JacobDevlin等人研發(fā)出BERT[14]模型,BERT內(nèi)部主要由Transformer[15]組成,該模型網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訓(xùn)練的中文語料比較多,充分提取文檔的語義特征,緩解了一詞多義問題。本文選用BERT模型,是因?yàn)锽ERT模型使用雙向Transformer編碼器,Transformer模型能夠抽取句子的特征,得到的詞向量會隨著上下文語境的改變而動(dòng)態(tài)變化,使句子的語義表達(dá)更準(zhǔn)確,比如“蘋果公司”和“吃個(gè)蘋果”,“蘋果”在第一個(gè)句子中代表的是一個(gè)品牌的名字,在第二句話中表示的是水果的意思,BERT在對蘋果這個(gè)詞進(jìn)行編碼的時(shí)候會根據(jù)其所在的上下文不同而改變編碼的詞向量,使其更符合所表達(dá)的含義。對于之前從未考慮過的詞的位置信息影響語義的表達(dá)的問題,比如像“明天你去我家”和“明天我去你家”,意思完全不一樣,BERT加入PositionEmbedding來保留位置信息,使相同的詞在不同的位置的時(shí)候表達(dá)的語義信息更加準(zhǔn)確。本文將其他詞嵌入方法與BERT模型用于文本摘要做了實(shí)驗(yàn)對比,BERT相比較其他模型來說能達(dá)到比較好的效果。將微調(diào)后的BERT用來預(yù)處理文本,原始的BERT輸出是針對Token的而不是句子,并且原始BERT的輸入只有兩個(gè)句子,不適合做文本摘要任務(wù),所以,為了使它更加適合文本摘要任務(wù),需要對BERT模型做一些修改。在每個(gè)句子句首加上[CLS]標(biāo)簽,每個(gè)句子的末尾都有一個(gè)[SEP]標(biāo)簽,[CLS]標(biāo)簽可以區(qū)分每一個(gè)句子,BERT可以輸入多個(gè)句子,給句子進(jìn)行編碼構(gòu)成特征向量,用于文本摘要任務(wù)?;趫D模型的方法處理文本信息,通常以單詞或者句子作為處理文本單元,在抽取式文本摘要中,主要以句子為文本單元進(jìn)行處理,將句子作為頂點(diǎn),2個(gè)相似的點(diǎn)用邊連接起來構(gòu)成圖,利用圖排序算法,比如TextRank算法對句子進(jìn)行打分排序。這種方法依賴句子之間的相似度,主要進(jìn)行任意句子之間的相似性計(jì)算和迭代計(jì)算,TextRank算法是基于PageRank算法改進(jìn)而來。傳統(tǒng)的TextRank模型在計(jì)算句子的相似度時(shí)用的是基于詞頻的統(tǒng)計(jì)方式,這種方法沒有考慮到句子語義方面的信息,比如像“你美不”“你不美”這類的句子,沒有考慮到他們的語義層面的信息,結(jié)果存在不必要性。本文用余弦相似度的計(jì)算方法代替了傳統(tǒng)的詞頻統(tǒng)計(jì)方法,結(jié)果得到了明顯的改善。本文研究內(nèi)容主要有:

(1)基于BERT的句向量表示。通過word2vec或者glove方法抽取淺層的文本特征來對基本語義單元進(jìn)行向量化表示,而后依據(jù)相應(yīng)算法計(jì)算句子的權(quán)重,這種方法存在一詞多義問題,抽取得到的摘要句精確度低,連貫性差。針對這一問題使用BERT對句子進(jìn)行向量化表示,學(xué)習(xí)和開發(fā)深層次的語義特征,效果有明顯改善。

(2)句子的相似度度量。用TextRank方法做抽取式摘要,計(jì)算每兩個(gè)句子之間的相似度時(shí),用的是基于詞頻的相似度度量方法,這種方法忽視了句子的上下文信息,針對這一問題本文對比了其他的相似度度量方法進(jìn)行研究。

(3)關(guān)于TTNews的文本摘要生成。將本文的文本摘要生成方法用于TTNews數(shù)據(jù)集上,用其他方法和本文方法做了實(shí)驗(yàn)對比,運(yùn)用ROUGE評價(jià)方法評測了摘要的質(zhì)量。

2研究方法

獲取句子的向量形式,本文使用改進(jìn)的BERT方法,原始的BERT輸出是針對Token而不是句子,并且原始BERT的輸入只有兩個(gè)句子,不適合做文本摘要任務(wù),所以,需要對BERT模型做一些修改。在每個(gè)句子句首加上[CLS]標(biāo)簽,使[CLS]標(biāo)簽可以區(qū)分每一個(gè)句子,同時(shí)BERT可以輸入多個(gè)句子。使用BERT來獲取句子的表示向量,借助BERT模型的強(qiáng)大表示能力,更好地捕捉句子的上下文信息。用TextRank算法對文本進(jìn)行抽取處理,將文檔中重要的句子抽取出來組合在一起,生成新的文本摘要。

2.1BERT的模型

圖1為BERT的模型結(jié)構(gòu),BERT內(nèi)部主要由多層Transformer構(gòu)成。Transformer基本結(jié)構(gòu)是Encoder-Decoder,Encoder表示編碼器,Decoder表示解碼器Transformer由這兩者組合而成。

2.2TextRank圖模型

TextRank做文本摘要,針對單個(gè)文檔首先根據(jù)標(biāo)點(diǎn)符號進(jìn)行句子分割,針對每個(gè)句子獲得句子的向量表示,構(gòu)建相似度矩陣,然后以句子為頂點(diǎn),相似度作為邊表示成圖的形式,最后計(jì)算每個(gè)頂點(diǎn)的得分,把得分最高的前幾個(gè)句子抽取出來構(gòu)成文檔的摘要,其流程圖如圖2所示。

具體流程為:

(1)將文檔按照:,?!。;“”等標(biāo)點(diǎn)符號劃分成一系列的句子。

(2)文本預(yù)處理,去除停用詞,然后進(jìn)行(jieba)分詞,得到句子中詞的詞向量,對詞向量求平均作為句子的向量表示。

(3)計(jì)算每兩個(gè)句子之間的相似度值,然后以句子為頂點(diǎn),相似度值作為邊,將兩個(gè)頂點(diǎn)連接構(gòu)成圖如圖3所示。

(4)計(jì)算每個(gè)句子的得分值。

(5)最后按照分?jǐn)?shù)高低排序,得分高的前幾個(gè)句子抽取出來構(gòu)成摘要。

TextRank圖模型如圖3所示,每個(gè)頂點(diǎn)代表的是文本中的句子,兩個(gè)頂點(diǎn)連線上的數(shù)字為兩個(gè)句子之間的相似度。

2.3本文方法

摘要生成的流程圖如圖4所示,首先根據(jù)標(biāo)點(diǎn)符號對文檔進(jìn)行句子分割,然后送入BERT模型,BERT模型首先對文檔每個(gè)句子進(jìn)行處理,在每個(gè)句子開頭加[CLS]標(biāo)簽,句子的末尾加上[SEP]標(biāo)簽,句子表示成圖4(TokenEmbedding+SegmentEmbedding+PositionEmbedding)的形式,BERT模型內(nèi)部有多個(gè)Transformer層,經(jīng)過這些Transformer層處理后輸出每個(gè)句子的向量表示形式。然后求每兩個(gè)句子之間的相似度值,構(gòu)建相似度矩陣,以每個(gè)句子為頂點(diǎn),句子之間的相似度作為邊構(gòu)建圖模型,最后求每個(gè)句子的得分值,選取得分高的幾個(gè)句子作為文檔的摘要。

2.3.1文本句向量表示

給定一篇文檔D={S1,S2,S3,…,Sn}(其中n表示文檔的第n個(gè)句子),BERT模型的句向量表示如圖5所示。

原始的BERT輸出是針對Token的而不是句子,由于原始BERT模型不適合文本摘要任務(wù),所以,需要對模型做一些修改。在每個(gè)句子句首加上[CLS]標(biāo)簽,句子的末尾都有一個(gè)[SEP]標(biāo)簽,因此模型可以區(qū)分開每一個(gè)句子。

TokenEmbeddings:先得到每個(gè)詞的詞向量形式;

SegmentEmbeddings:根據(jù)i的奇偶性來決定這個(gè)句子的段嵌入為EA或者EB;

PositionEmbeddings:根據(jù)詞在文檔中的位置訓(xùn)練得到;

將上面三個(gè)向量相加TokenEmbedding+SegmentEmbedding+PositionEmbedding作為BERT模型的輸入。即:

(1)將每個(gè)句子用向量表示出來保存在[CLS]中。

(2)經(jīng)過BERT模型,得到每個(gè)句子的向量表示,這種向量表示包含句子的上下文信息,考慮到了句子語義層面的信息。

BERT模型與其他模型相比,可以充分挖掘詞的上下文的信息,獲得含有語義信息的向量表示形式,因此可以在一定程度上緩解多義詞問題。

2.3.2摘要句抽取

TextRank算法求句子的相似度,是基于詞頻的統(tǒng)計(jì)方式,忽視了句子之間的語義信息。計(jì)算公式為:

(Si,Sj表示第i個(gè)句子和第j個(gè)句子,wk表示第k個(gè)詞)這種計(jì)算方法僅僅通過統(tǒng)計(jì)兩個(gè)句子之間的公有詞的個(gè)數(shù)來計(jì)算句子之間的相似度,沒有考慮任何語義層面的信息。本文用BERT模型獲取的句子的向量來計(jì)算相似度,因?yàn)锽ERT模型使用雙向Transformer編碼器,即讓兩個(gè)Transformer特征抽取器分別從左到右和從右到左掃描輸入序列。BERT加入PositionEmbedding來保留位置信息,使相同的詞在不同的位置的時(shí)候表達(dá)的語義信息更加準(zhǔn)確。本文通過用余弦相似度的計(jì)算方法計(jì)算相似度,這個(gè)方法正是計(jì)算兩個(gè)向量之間的方向關(guān)系,這樣求得的句子之間的相似度更能表達(dá)兩個(gè)句子之間的關(guān)系。

本文也考慮了用歐氏距離[16]來計(jì)算兩個(gè)句子的相似度,可因?yàn)闅W氏距離主要用來計(jì)算兩個(gè)點(diǎn)之間的距離,和兩個(gè)點(diǎn)之間的坐標(biāo)信息有關(guān),而語義層次的信息并不關(guān)心數(shù)值的大小,更多的是關(guān)注兩個(gè)向量在方向上是否更加接近?;诖耍嘞蚁嗨贫鹊亩攘糠椒梢愿行У乇硎緝蓚€(gè)句子之間的相似度關(guān)系。

給定文檔D,劃分句子D={S1,S2,S3,…,Sn}。以句子為頂點(diǎn),構(gòu)建圖G(V,E),其中V代表句子的集合,E是邊的集合,句子之間的相似度作為構(gòu)成圖的邊的權(quán)值。

式(2)中,WS(Vi)表示頂點(diǎn)i的得分,d的值為0.85。in(Vi)代表所有指向點(diǎn)i的點(diǎn),Wji表示點(diǎn)j和點(diǎn)i之間的邊的權(quán)值,out(Vj)表示所有從點(diǎn)j指向其他頂點(diǎn)的點(diǎn),Wjk表示點(diǎn)j和點(diǎn)k的邊的權(quán)值,WS(Vj)表示頂點(diǎn)j的得分。

根據(jù)式(2)得到每個(gè)句子的得分值,本文選取得分比較高的前三個(gè)句子作為文檔的摘要。

3實(shí)驗(yàn)分析

3.1實(shí)驗(yàn)數(shù)據(jù)

文章提出的方法用在了TTNewscorpus數(shù)據(jù)集上,取得分最高的前三句作為文本摘要,并與其他三個(gè)抽取式摘要方法做了對比。

3.2實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

實(shí)驗(yàn)環(huán)境:Pytorch1.8.1,Tensorflow1.9.0,Torchvision0.8,Cuda9.2。

實(shí)驗(yàn)使用的BERT-base模型共12層即12個(gè)encoder單元,隱藏層768維,12個(gè)attention,序列長度為128。

3.3評價(jià)指標(biāo)

文中用ROUGE[15]作為文本自動(dòng)摘要的評價(jià)指標(biāo),Rouge方法比較本文生成的摘要與數(shù)據(jù)集給出的標(biāo)準(zhǔn)摘要的重疊單元,來評價(jià)模型生成摘要的質(zhì)量。本實(shí)驗(yàn)用ROUGE-1、ROUGE-2、ROUGE-L這三個(gè)值作為評價(jià)指標(biāo)對得出的摘要進(jìn)行評價(jià)。

式(3)中n代表比較文本單元的長度,Countmatch代表的是同時(shí)出現(xiàn)在標(biāo)準(zhǔn)摘要和機(jī)器生成的摘要的文本的數(shù)目。

ROUGE-L表示的是標(biāo)準(zhǔn)摘要和本文生成的摘要的最長公共子序列的長度占標(biāo)準(zhǔn)摘要的比例。

3.4實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)進(jìn)行了2000次迭代,文中介紹的抽取式摘要方法和其他抽取式摘要方法都在TTNews數(shù)據(jù)集上做了比較。從解決一詞多義方面考慮,首先對word2vec、glove、BERT三種不同的詞嵌入方法做了實(shí)驗(yàn)對比,結(jié)果如表1所示,從中可以看出相比較其他詞向量表示方法,文中采用的方法效果更好。

對于不同的相似度計(jì)算方法,對比了TextRank原始的詞頻統(tǒng)計(jì)方式、歐氏距離相似度算法,以及文中用的余弦相似度算法,相似度比較結(jié)果如表2所示。從中可以看出,文中選用的余弦相似度計(jì)算方法判斷兩個(gè)句子之間的相似性精確度有了明顯的提升。

最后,用文中提出的抽取式摘要方法與其他幾個(gè)抽取式摘要方法做了實(shí)驗(yàn)對比,結(jié)果如表3所示。

Lead3方法:選取文章的前三個(gè)句子作為文章的摘要部分。這種方法雖然簡單方便,但是存在信息覆蓋不全,容易損失信息的缺點(diǎn)。

TextRank[17]方法:構(gòu)建圖模型,用算法為文檔的每個(gè)句子按照得分排序。此方法經(jīng)過本文方法的改進(jìn)后,摘要信息的準(zhǔn)確率得到了明顯的提升。

TF-IDF方法[6]:根據(jù)每個(gè)句子中詞語的TF-IDF值來計(jì)算句子的得分,句子的重要性根據(jù)詞的重要性之和來估計(jì),選取重要性高的幾個(gè)句子作為摘要。這種方法句子的重要性主要通過“關(guān)鍵詞”來衡量,得到的摘要存在片面,信息涵蓋不全,不連貫等缺點(diǎn)。

從表3中可以看出本文提出的方法和其他幾種方法相比,ROUGE-1、ROUGE-2、ROUGE-L的值都有所提升。說明本文提出的方法生成的摘要準(zhǔn)確性和可讀性有一定的保障。

4結(jié)論

文中主要介紹了一種對TextRank方法進(jìn)行改進(jìn)而得到的一個(gè)抽取式文本摘要方法,分別介紹了BERT的模型結(jié)構(gòu)和TextRank處理文本的流程及原理,以及計(jì)算句子相似度的方法。因?yàn)榻┠闎ERT模型在NLP領(lǐng)域處理文本的時(shí)候效果都比較好,所以選擇了BERT模型來進(jìn)行處理文本。文中首先對BERT進(jìn)行改進(jìn),使它適用于處理多個(gè)句子,對多個(gè)句子進(jìn)行向量表示。然后基于TextRank的思想對句子進(jìn)行打分處理。就是將兩種模型綜合在一起使用,然后選擇了合適的文本相似度度量方法,最后將得到的文本摘要同標(biāo)準(zhǔn)摘要進(jìn)行對比分析。文中提出的方法雖然準(zhǔn)確率得到了提升,但是得到的文本摘要還達(dá)不到非常好的效果,比如句子不夠通順、存在句子冗余等問題,文本摘要在自然語言處理領(lǐng)域還有待發(fā)展。

參考文獻(xiàn):

[1]MIHALCEAR,TARAUP.TextRank:BringingOrderintoTexts[EB/OL].[2022-11-12].https:///ark:/67531/metadc30962/m1/1/.

[2]胡俠,林曄,王燦,等.自動(dòng)文本摘要技術(shù)綜述[J].情報(bào)雜志,2022,29(8):144-147.

[3]LUHNHP.Theautomaticcreationofliteratureastracts[J].IBMJournalofResearchandDevelopment,1958,2(2):159-165.

[4]KUPIECJ,PEDERSENJO,CHENF.Atrainabledocumentsummarizer[C]//18thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.NewYork:AssociationforComputingMachinery,1995:68-73.

[5]AONEC,OKUROWSKIME,GORLINSKYJ,etal.ArainablesummarizerwithknowledgeacquiredfromrobustNLPtechniques[M]//INDERJEETM,MARKMT.AdvancesinAutomaticTextSummarization,Cambridge:TheMitPress,1999:71-80.

[6]SALTONG,BUCKLEYC.Term-weightingapproachesinautomatictextretrieval[J].InformationProcessingManagem-ent,1988,24(5):513-523.

[7]CONROYJM,OLEARYDP.TextsummarizationviahiddenMarkovmodels[C]//SIGIR‘01:Proceedingsofthe24thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval,NewOrleans:AssociationforComputingMachinery,2022:406-407.

[8]ERKANG,RADEVDR.LexRank:Graph-basedLexicalCentralityasSalienceinTextSummarization[J/OL].arXiv1109.2128[cs.CL].[2022-11-23].https:///abs/1109.2128.

[9]BAHDANAUD,CHOK,BENGIOY.NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate[J/OL].arXiv:1409.0473[cs.CL].(2022-09-01).https:///abs/1409.0473,2022.

[10]RUSHAM,CHOPRAS,WESTONJ.ANeuralAttentionModelforAbstractiveSentenceSummarization[C]//Proceddingsofthe2022ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Lisbon:AssociationforComputationalLinguistics,2022:379-389.

[11]CHOPRAS,AULIM,RUSHAM.Abstractivesentencesummarizationwithattentiverecurrentneuralnetworks[C]//ProceddingsoftheAnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputionalLinguistics:HumanLanguageTechnologies.SanDieg

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論