BERT的圖模型文本摘要生成方法研究

上傳人：笑*** IP屬地：廣東上傳時(shí)間：2022-11-03 格式：DOCX 頁數(shù)：18 大?。?4.18KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩13頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

PAGE

-18-

BERT的圖模型文本摘要生成方法研究

摘要：基于圖模型的TextRank方法形成的摘要不會脫離文檔本身，但在抽取文本特征的時(shí)候，傳統(tǒng)的詞向量獲取方法存在一詞多義的問題，而基于BERT的詞向量獲取方式，充分挖掘了文本語義信息，緩解了一詞多義問題。對不同詞嵌入方法進(jìn)行了實(shí)驗(yàn)對比，驗(yàn)證了BERT模型的有效性?；谠~頻統(tǒng)計(jì)的相似度計(jì)算方法也忽略了句子的語義信息，文中選擇了向量形式的相似度的計(jì)算方法用于文本摘要生成。最后在TTNews數(shù)據(jù)集上做實(shí)驗(yàn)，效果有了明顯的提升。

關(guān)鍵詞：中文文本摘要;BERT;TextRank;相似度

中圖分類號：TP391文獻(xiàn)標(biāo)識碼：A文章編號：2096-4706（2022）02-0091-06

Abstract：TheabstractformedbyTextRankmethodbasedongraphmodelwillnotbeseparatedfromthedocumentitself，butwhenextractingtextfeatures，thetraditionalwordvectoracquisitionmethodhastheproblemofpolysemy，whilethewordvectoracquisitionmethodbasedonBERTfullyexcavatesthesemanticinformationofthetextandalleviatestheproblemofpolysemy.TheexperimentalcomparisonofdifferentwordembeddingmethodsverifiestheeffectivenessoftheBERTmodel.Thesimilaritycalculationmethodbasedonwordfrequencystatisticsalsoignoresthesemanticinformationofsentences.Inthispaper，thesimilaritycalculationmethodinvectorformisselectedfortextabstractgeneration.Finally，theexperimentonTTNewsdatasetshowsthattheeffectisobviouslyimproved.

Keywords：abstractofChinesetext;BERT;TextRank;similarity

0引言

文本摘要作為自然語言處理領(lǐng)域的主要研究方向之一，它的主要任務(wù)是信息抽取。在這個(gè)互聯(lián)網(wǎng)快速發(fā)展的時(shí)期，每天都能從網(wǎng)上看到大量的文本信息，比如新聞微博等。然而并不是所有的信息都是需要的，我們都只關(guān)注自己所關(guān)心的內(nèi)容，如何從大量的文本里面抽取到關(guān)鍵信息以幫助人們快速獲得自己想要的信息，是本篇論文主要討論的問題。文本摘要的主要任務(wù)就是抽取關(guān)鍵信息，進(jìn)而可以解決這一問題，文本摘要旨在幫助人們從大量的文本信息中快速找到自己關(guān)注的信息。如果把含有幾千字的文章縮寫成幾百字，那么讀者就可以很輕松地了解到文章的主旨，摘要分為“人工摘要”和“自動(dòng)摘要”，人工摘要由讀者自己閱讀總結(jié)得到，可能需要花費(fèi)讀者大量的時(shí)間和精力，自動(dòng)摘要是由機(jī)器得到的。

文本摘要可以分為抽取式摘要、生成式摘要[1]和混合式摘要。抽取式摘要可以簡單概括為從原文檔中抽取出一個(gè)或者多個(gè)句子拼接在一起構(gòu)成摘要，這樣得到的摘要不會脫離文檔本身，既簡單又實(shí)用。抽取式摘要主要思想是對文檔的每句話打分，句子的重要程度就是根據(jù)分?jǐn)?shù)的高低來判定的，按照分?jǐn)?shù)的高低對每個(gè)句子排序，分?jǐn)?shù)高的前幾個(gè)句子被抽取出來形成摘要。生成式摘要和抽取式摘要不同，它重在提取每個(gè)句子的特征，獲取文檔的主要思想后，重新組織語言生成新的句子組成摘要?；旌鲜秸褪菍⑸鲜鰞煞N方法結(jié)合在一起生成的摘要稱為混合式摘要。

文本摘要又可以按照文檔的其他形式劃分，比如按照文檔數(shù)量劃分，分為單文檔摘要和多文檔摘要[2]，這兩者只是在文檔數(shù)量上有所不同，單文檔是指只針對一篇文檔，多文檔針對同一類型的多篇文檔處理，最后生成的摘要包含了這些文檔的主題信息。

1相關(guān)工作

1.1文本摘要研究現(xiàn)狀

抽取式文本摘要簡單實(shí)用，目前也出現(xiàn)了很多抽取式摘要生成方法，其中在工業(yè)方面應(yīng)用的比較廣泛，目前主要的技術(shù)方法有基于主題模型、基于圖模型、特征評分、深度學(xué)習(xí)，等等。

1958年Luhn[3]提出了基于高頻關(guān)鍵詞給文章句子排序得到摘要的方法。Kupiec[4]等人采用了樸素貝葉斯分類器來計(jì)算一個(gè)句子是否為摘要句的概率。Aone[5]提出了TF-IDF[6]方法來計(jì)算某個(gè)句子成為摘要句子的概率。Conrog[7]等人運(yùn)用馬爾可夫模型來抽取摘要句子。

上述幾種方法都是基于統(tǒng)計(jì)特征為基礎(chǔ)的摘要方法。這幾種方法得到的摘要的可讀性不是很好，為了繼續(xù)完善自動(dòng)摘要提取方法，GunesErkan和Rad等人[8]提出了TextRank方法，這個(gè)算法計(jì)算每兩個(gè)句子之間的相似度，計(jì)算每個(gè)句子占全文信息的比重，選擇比重較高的前幾個(gè)句子組成摘要。隨著深度學(xué)習(xí)不斷地發(fā)展，生成式摘要也逐漸得到了廣泛的研究。2022年Google提出的序列到序列模型[9]最開始應(yīng)用在翻譯任務(wù)中;2022年Facebook公司的Rush等人[10]將深度學(xué)習(xí)的端到端的方法首次應(yīng)用到摘要的生成任務(wù)中，得到了很好的效果;Chopra等人[11]用卷積神經(jīng)網(wǎng)絡(luò)編碼原文信息，采用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼生成了更加連貫的摘要;Nallapati[12]等在編碼階段使用雙向循環(huán)的神經(jīng)網(wǎng)絡(luò)，還對低頻詞進(jìn)行了處理;2022年谷歌[13]發(fā)布的摘要模型采用了集束搜索（Beam-Search）來生成摘要，這種方法在編碼和解碼的部分采用的是循環(huán)神經(jīng)網(wǎng)絡(luò)，避免時(shí)間和空間的浪費(fèi);2022年谷歌發(fā)布BERT[14]模型，這個(gè)模型被多次應(yīng)用在自然語言處理任務(wù)中，都取得了比較好的效果。

1.2主要工作

在以往的NLP任務(wù)中，詞向量的表示方法有One-Hot方法，可是One-Hot編碼方式存在維度過高的缺點(diǎn)，計(jì)算量非常龐大。2022年Mikolov等人提出了基于分布式的詞嵌入方式Word2Vec方法，這個(gè)方法網(wǎng)絡(luò)結(jié)構(gòu)簡單，訓(xùn)練的中文語料比較少，不能提取句子的深層語義信息。2022年由JacobDevlin等人研發(fā)出BERT[14]模型，BERT內(nèi)部主要由Transformer[15]組成，該模型網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜，訓(xùn)練的中文語料比較多，充分提取文檔的語義特征，緩解了一詞多義問題。本文選用BERT模型，是因?yàn)锽ERT模型使用雙向Transformer編碼器，Transformer模型能夠抽取句子的特征，得到的詞向量會隨著上下文語境的改變而動(dòng)態(tài)變化，使句子的語義表達(dá)更準(zhǔn)確，比如“蘋果公司”和“吃個(gè)蘋果”，“蘋果”在第一個(gè)句子中代表的是一個(gè)品牌的名字，在第二句話中表示的是水果的意思，BERT在對蘋果這個(gè)詞進(jìn)行編碼的時(shí)候會根據(jù)其所在的上下文不同而改變編碼的詞向量，使其更符合所表達(dá)的含義。對于之前從未考慮過的詞的位置信息影響語義的表達(dá)的問題，比如像“明天你去我家”和“明天我去你家”，意思完全不一樣，BERT加入PositionEmbedding來保留位置信息，使相同的詞在不同的位置的時(shí)候表達(dá)的語義信息更加準(zhǔn)確。本文將其他詞嵌入方法與BERT模型用于文本摘要做了實(shí)驗(yàn)對比，BERT相比較其他模型來說能達(dá)到比較好的效果。將微調(diào)后的BERT用來預(yù)處理文本，原始的BERT輸出是針對Token的而不是句子，并且原始BERT的輸入只有兩個(gè)句子，不適合做文本摘要任務(wù)，所以，為了使它更加適合文本摘要任務(wù)，需要對BERT模型做一些修改。在每個(gè)句子句首加上[CLS]標(biāo)簽，每個(gè)句子的末尾都有一個(gè)[SEP]標(biāo)簽，[CLS]標(biāo)簽可以區(qū)分每一個(gè)句子，BERT可以輸入多個(gè)句子，給句子進(jìn)行編碼構(gòu)成特征向量，用于文本摘要任務(wù)?；趫D模型的方法處理文本信息，通常以單詞或者句子作為處理文本單元，在抽取式文本摘要中，主要以句子為文本單元進(jìn)行處理，將句子作為頂點(diǎn)，2個(gè)相似的點(diǎn)用邊連接起來構(gòu)成圖，利用圖排序算法，比如TextRank算法對句子進(jìn)行打分排序。這種方法依賴句子之間的相似度，主要進(jìn)行任意句子之間的相似性計(jì)算和迭代計(jì)算，TextRank算法是基于PageRank算法改進(jìn)而來。傳統(tǒng)的TextRank模型在計(jì)算句子的相似度時(shí)用的是基于詞頻的統(tǒng)計(jì)方式，這種方法沒有考慮到句子語義方面的信息，比如像“你美不”“你不美”這類的句子，沒有考慮到他們的語義層面的信息，結(jié)果存在不必要性。本文用余弦相似度的計(jì)算方法代替了傳統(tǒng)的詞頻統(tǒng)計(jì)方法，結(jié)果得到了明顯的改善。本文研究內(nèi)容主要有：

（1）基于BERT的句向量表示。通過word2vec或者glove方法抽取淺層的文本特征來對基本語義單元進(jìn)行向量化表示，而后依據(jù)相應(yīng)算法計(jì)算句子的權(quán)重，這種方法存在一詞多義問題，抽取得到的摘要句精確度低，連貫性差。針對這一問題使用BERT對句子進(jìn)行向量化表示，學(xué)習(xí)和開發(fā)深層次的語義特征，效果有明顯改善。

（2）句子的相似度度量。用TextRank方法做抽取式摘要，計(jì)算每兩個(gè)句子之間的相似度時(shí)，用的是基于詞頻的相似度度量方法，這種方法忽視了句子的上下文信息，針對這一問題本文對比了其他的相似度度量方法進(jìn)行研究。

（3）關(guān)于TTNews的文本摘要生成。將本文的文本摘要生成方法用于TTNews數(shù)據(jù)集上，用其他方法和本文方法做了實(shí)驗(yàn)對比，運(yùn)用ROUGE評價(jià)方法評測了摘要的質(zhì)量。

2研究方法

獲取句子的向量形式，本文使用改進(jìn)的BERT方法，原始的BERT輸出是針對Token而不是句子，并且原始BERT的輸入只有兩個(gè)句子，不適合做文本摘要任務(wù)，所以，需要對BERT模型做一些修改。在每個(gè)句子句首加上[CLS]標(biāo)簽，使[CLS]標(biāo)簽可以區(qū)分每一個(gè)句子，同時(shí)BERT可以輸入多個(gè)句子。使用BERT來獲取句子的表示向量，借助BERT模型的強(qiáng)大表示能力，更好地捕捉句子的上下文信息。用TextRank算法對文本進(jìn)行抽取處理，將文檔中重要的句子抽取出來組合在一起，生成新的文本摘要。

2.1BERT的模型

圖1為BERT的模型結(jié)構(gòu)，BERT內(nèi)部主要由多層Transformer構(gòu)成。Transformer基本結(jié)構(gòu)是Encoder-Decoder，Encoder表示編碼器，Decoder表示解碼器Transformer由這兩者組合而成。

2.2TextRank圖模型

TextRank做文本摘要，針對單個(gè)文檔首先根據(jù)標(biāo)點(diǎn)符號進(jìn)行句子分割，針對每個(gè)句子獲得句子的向量表示，構(gòu)建相似度矩陣，然后以句子為頂點(diǎn)，相似度作為邊表示成圖的形式，最后計(jì)算每個(gè)頂點(diǎn)的得分，把得分最高的前幾個(gè)句子抽取出來構(gòu)成文檔的摘要，其流程圖如圖2所示。

具體流程為：

（1）將文檔按照：，？！。;“”等標(biāo)點(diǎn)符號劃分成一系列的句子。

（2）文本預(yù)處理，去除停用詞，然后進(jìn)行（jieba）分詞，得到句子中詞的詞向量，對詞向量求平均作為句子的向量表示。

（3）計(jì)算每兩個(gè)句子之間的相似度值，然后以句子為頂點(diǎn)，相似度值作為邊，將兩個(gè)頂點(diǎn)連接構(gòu)成圖如圖3所示。

（4）計(jì)算每個(gè)句子的得分值。

（5）最后按照分?jǐn)?shù)高低排序，得分高的前幾個(gè)句子抽取出來構(gòu)成摘要。

TextRank圖模型如圖3所示，每個(gè)頂點(diǎn)代表的是文本中的句子，兩個(gè)頂點(diǎn)連線上的數(shù)字為兩個(gè)句子之間的相似度。

2.3本文方法

摘要生成的流程圖如圖4所示，首先根據(jù)標(biāo)點(diǎn)符號對文檔進(jìn)行句子分割，然后送入BERT模型，BERT模型首先對文檔每個(gè)句子進(jìn)行處理，在每個(gè)句子開頭加[CLS]標(biāo)簽，句子的末尾加上[SEP]標(biāo)簽，句子表示成圖4（TokenEmbedding+SegmentEmbedding+PositionEmbedding）的形式，BERT模型內(nèi)部有多個(gè)Transformer層，經(jīng)過這些Transformer層處理后輸出每個(gè)句子的向量表示形式。然后求每兩個(gè)句子之間的相似度值，構(gòu)建相似度矩陣，以每個(gè)句子為頂點(diǎn)，句子之間的相似度作為邊構(gòu)建圖模型，最后求每個(gè)句子的得分值，選取得分高的幾個(gè)句子作為文檔的摘要。

2.3.1文本句向量表示

給定一篇文檔D={S1，S2，S3，…，Sn}（其中n表示文檔的第n個(gè)句子），BERT模型的句向量表示如圖5所示。

原始的BERT輸出是針對Token的而不是句子，由于原始BERT模型不適合文本摘要任務(wù)，所以，需要對模型做一些修改。在每個(gè)句子句首加上[CLS]標(biāo)簽，句子的末尾都有一個(gè)[SEP]標(biāo)簽，因此模型可以區(qū)分開每一個(gè)句子。

TokenEmbeddings：先得到每個(gè)詞的詞向量形式;

SegmentEmbeddings：根據(jù)i的奇偶性來決定這個(gè)句子的段嵌入為EA或者EB;

PositionEmbeddings：根據(jù)詞在文檔中的位置訓(xùn)練得到;

將上面三個(gè)向量相加TokenEmbedding+SegmentEmbedding+PositionEmbedding作為BERT模型的輸入。即：

（1）將每個(gè)句子用向量表示出來保存在[CLS]中。

（2）經(jīng)過BERT模型，得到每個(gè)句子的向量表示，這種向量表示包含句子的上下文信息，考慮到了句子語義層面的信息。

BERT模型與其他模型相比，可以充分挖掘詞的上下文的信息，獲得含有語義信息的向量表示形式，因此可以在一定程度上緩解多義詞問題。

2.3.2摘要句抽取

TextRank算法求句子的相似度，是基于詞頻的統(tǒng)計(jì)方式，忽視了句子之間的語義信息。計(jì)算公式為：

（Si，Sj表示第i個(gè)句子和第j個(gè)句子，wk表示第k個(gè)詞）這種計(jì)算方法僅僅通過統(tǒng)計(jì)兩個(gè)句子之間的公有詞的個(gè)數(shù)來計(jì)算句子之間的相似度，沒有考慮任何語義層面的信息。本文用BERT模型獲取的句子的向量來計(jì)算相似度，因?yàn)锽ERT模型使用雙向Transformer編碼器，即讓兩個(gè)Transformer特征抽取器分別從左到右和從右到左掃描輸入序列。BERT加入PositionEmbedding來保留位置信息，使相同的詞在不同的位置的時(shí)候表達(dá)的語義信息更加準(zhǔn)確。本文通過用余弦相似度的計(jì)算方法計(jì)算相似度，這個(gè)方法正是計(jì)算兩個(gè)向量之間的方向關(guān)系，這樣求得的句子之間的相似度更能表達(dá)兩個(gè)句子之間的關(guān)系。

本文也考慮了用歐氏距離[16]來計(jì)算兩個(gè)句子的相似度，可因?yàn)闅W氏距離主要用來計(jì)算兩個(gè)點(diǎn)之間的距離，和兩個(gè)點(diǎn)之間的坐標(biāo)信息有關(guān)，而語義層次的信息并不關(guān)心數(shù)值的大小，更多的是關(guān)注兩個(gè)向量在方向上是否更加接近?；诖耍嘞蚁嗨贫鹊亩攘糠椒梢愿行У乇硎緝蓚€(gè)句子之間的相似度關(guān)系。

給定文檔D，劃分句子D={S1，S2，S3，…，Sn}。以句子為頂點(diǎn)，構(gòu)建圖G（V，E），其中V代表句子的集合，E是邊的集合，句子之間的相似度作為構(gòu)成圖的邊的權(quán)值。

式（2）中，WS（Vi）表示頂點(diǎn)i的得分，d的值為0.85。in（Vi）代表所有指向點(diǎn)i的點(diǎn)，Wji表示點(diǎn)j和點(diǎn)i之間的邊的權(quán)值，out（Vj）表示所有從點(diǎn)j指向其他頂點(diǎn)的點(diǎn)，Wjk表示點(diǎn)j和點(diǎn)k的邊的權(quán)值，WS（Vj）表示頂點(diǎn)j的得分。

根據(jù)式（2）得到每個(gè)句子的得分值，本文選取得分比較高的前三個(gè)句子作為文檔的摘要。

3實(shí)驗(yàn)分析

3.1實(shí)驗(yàn)數(shù)據(jù)

文章提出的方法用在了TTNewscorpus數(shù)據(jù)集上，取得分最高的前三句作為文本摘要，并與其他三個(gè)抽取式摘要方法做了對比。

3.2實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

實(shí)驗(yàn)環(huán)境：Pytorch1.8.1，Tensorflow1.9.0，Torchvision0.8，Cuda9.2。

實(shí)驗(yàn)使用的BERT-base模型共12層即12個(gè)encoder單元，隱藏層768維，12個(gè)attention，序列長度為128。

3.3評價(jià)指標(biāo)

文中用ROUGE[15]作為文本自動(dòng)摘要的評價(jià)指標(biāo)，Rouge方法比較本文生成的摘要與數(shù)據(jù)集給出的標(biāo)準(zhǔn)摘要的重疊單元，來評價(jià)模型生成摘要的質(zhì)量。本實(shí)驗(yàn)用ROUGE-1、ROUGE-2、ROUGE-L這三個(gè)值作為評價(jià)指標(biāo)對得出的摘要進(jìn)行評價(jià)。

式（3）中n代表比較文本單元的長度，Countmatch代表的是同時(shí)出現(xiàn)在標(biāo)準(zhǔn)摘要和機(jī)器生成的摘要的文本的數(shù)目。

ROUGE-L表示的是標(biāo)準(zhǔn)摘要和本文生成的摘要的最長公共子序列的長度占標(biāo)準(zhǔn)摘要的比例。

3.4實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)進(jìn)行了2000次迭代，文中介紹的抽取式摘要方法和其他抽取式摘要方法都在TTNews數(shù)據(jù)集上做了比較。從解決一詞多義方面考慮，首先對word2vec、glove、BERT三種不同的詞嵌入方法做了實(shí)驗(yàn)對比，結(jié)果如表1所示，從中可以看出相比較其他詞向量表示方法，文中采用的方法效果更好。

對于不同的相似度計(jì)算方法，對比了TextRank原始的詞頻統(tǒng)計(jì)方式、歐氏距離相似度算法，以及文中用的余弦相似度算法，相似度比較結(jié)果如表2所示。從中可以看出，文中選用的余弦相似度計(jì)算方法判斷兩個(gè)句子之間的相似性精確度有了明顯的提升。

最后，用文中提出的抽取式摘要方法與其他幾個(gè)抽取式摘要方法做了實(shí)驗(yàn)對比，結(jié)果如表3所示。

Lead3方法：選取文章的前三個(gè)句子作為文章的摘要部分。這種方法雖然簡單方便，但是存在信息覆蓋不全，容易損失信息的缺點(diǎn)。

TextRank[17]方法：構(gòu)建圖模型，用算法為文檔的每個(gè)句子按照得分排序。此方法經(jīng)過本文方法的改進(jìn)后，摘要信息的準(zhǔn)確率得到了明顯的提升。

TF-IDF方法[6]：根據(jù)每個(gè)句子中詞語的TF-IDF值來計(jì)算句子的得分，句子的重要性根據(jù)詞的重要性之和來估計(jì)，選取重要性高的幾個(gè)句子作為摘要。這種方法句子的重要性主要通過“關(guān)鍵詞”來衡量，得到的摘要存在片面，信息涵蓋不全，不連貫等缺點(diǎn)。

從表3中可以看出本文提出的方法和其他幾種方法相比，ROUGE-1、ROUGE-2、ROUGE-L的值都有所提升。說明本文提出的方法生成的摘要準(zhǔn)確性和可讀性有一定的保障。

4結(jié)論

文中主要介紹了一種對TextRank方法進(jìn)行改進(jìn)而得到的一個(gè)抽取式文本摘要方法，分別介紹了BERT的模型結(jié)構(gòu)和TextRank處理文本的流程及原理，以及計(jì)算句子相似度的方法。因?yàn)榻┠闎ERT模型在NLP領(lǐng)域處理文本的時(shí)候效果都比較好，所以選擇了BERT模型來進(jìn)行處理文本。文中首先對BERT進(jìn)行改進(jìn)，使它適用于處理多個(gè)句子，對多個(gè)句子進(jìn)行向量表示。然后基于TextRank的思想對句子進(jìn)行打分處理。就是將兩種模型綜合在一起使用，然后選擇了合適的文本相似度度量方法，最后將得到的文本摘要同標(biāo)準(zhǔn)摘要進(jìn)行對比分析。文中提出的方法雖然準(zhǔn)確率得到了提升，但是得到的文本摘要還達(dá)不到非常好的效果，比如句子不夠通順、存在句子冗余等問題，文本摘要在自然語言處理領(lǐng)域還有待發(fā)展。

參考文獻(xiàn)：

[1]MIHALCEAR，TARAUP.TextRank：BringingOrderintoTexts[EB/OL].[2022-11-12].https：///ark：/67531/metadc30962/m1/1/.

[2]胡俠，林曄，王燦，等.自動(dòng)文本摘要技術(shù)綜述[J].情報(bào)雜志，2022，29（8）：144-147.

[3]LUHNHP.Theautomaticcreationofliteratureastracts[J].IBMJournalofResearchandDevelopment，1958，2（2）：159-165.

[4]KUPIECJ，PEDERSENJO，CHENF.Atrainabledocumentsummarizer[C]//18thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.NewYork：AssociationforComputingMachinery，1995：68-73.

[5]AONEC，OKUROWSKIME，GORLINSKYJ，etal.ArainablesummarizerwithknowledgeacquiredfromrobustNLPtechniques[M]//INDERJEETM，MARKMT.AdvancesinAutomaticTextSummarization，Cambridge：TheMitPress，1999：71-80.

[6]SALTONG，BUCKLEYC.Term-weightingapproachesinautomatictextretrieval[J].InformationProcessingManagem-ent，1988，24（5）：513-523.

[7]CONROYJM，OLEARYDP.TextsummarizationviahiddenMarkovmodels[C]//SIGIR‘01：Proceedingsofthe24thannualinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval，NewOrleans：AssociationforComputingMachinery，2022：406-407.

[8]ERKANG，RADEVDR.LexRank：Graph-basedLexicalCentralityasSalienceinTextSummarization[J/OL].arXiv1109.2128[cs.CL].[2022-11-23].https：///abs/1109.2128.

[9]BAHDANAUD，CHOK，BENGIOY.NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate[J/OL].arXiv：1409.0473[cs.CL].（2022-09-01）.https：///abs/1409.0473，2022.

[10]RUSHAM，CHOPRAS，WESTONJ.ANeuralAttentionModelforAbstractiveSentenceSummarization[C]//Proceddingsofthe2022ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Lisbon：AssociationforComputationalLinguistics，2022：379-389.

[11]CHOPRAS，AULIM，RUSHAM.Abstractivesentencesummarizationwithattentiverecurrentneuralnetworks[C]//ProceddingsoftheAnnualConferenceoftheNorthAmericanChapteroftheAssociationforComputionalLinguistics：HumanLanguageTechnologies.SanDieg

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

BERT的圖模型文本摘要生成方法研究

文檔簡介

溫馨提示

最新文檔

評論

BERT的圖模型文本摘要生成方法研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔