《深度學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件-任務(wù)八:使用BERT預(yù)訓(xùn)練醫(yī)學(xué)語(yǔ)言模型_第1頁(yè)
《深度學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件-任務(wù)八:使用BERT預(yù)訓(xùn)練醫(yī)學(xué)語(yǔ)言模型_第2頁(yè)
《深度學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件-任務(wù)八:使用BERT預(yù)訓(xùn)練醫(yī)學(xué)語(yǔ)言模型_第3頁(yè)
《深度學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件-任務(wù)八:使用BERT預(yù)訓(xùn)練醫(yī)學(xué)語(yǔ)言模型_第4頁(yè)
《深度學(xué)習(xí)項(xiàng)目案例開(kāi)發(fā)》課件-任務(wù)八:使用BERT預(yù)訓(xùn)練醫(yī)學(xué)語(yǔ)言模型_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

任務(wù)八:使用BERT預(yù)訓(xùn)練醫(yī)學(xué)語(yǔ)言模型Transformer基本結(jié)構(gòu)任務(wù)導(dǎo)入01任務(wù)目標(biāo)02任務(wù)導(dǎo)學(xué)03任務(wù)知識(shí)點(diǎn)04任務(wù)總結(jié)05任務(wù)導(dǎo)入/01近年來(lái),隨著自然語(yǔ)言處理技術(shù)的快速發(fā)展,預(yù)訓(xùn)練語(yǔ)言模型在各種任務(wù)中展現(xiàn)出了強(qiáng)大的性能。其中,BERT(BidirectionalEncoderRepresentationsfromTransformers)模型因其在廣泛領(lǐng)域的出色表現(xiàn)而備受關(guān)注。在醫(yī)學(xué)領(lǐng)域,語(yǔ)言模型的應(yīng)用尤為重要,因?yàn)獒t(yī)學(xué)文本數(shù)據(jù)復(fù)雜且專(zhuān)業(yè)性強(qiáng)。使用BERT預(yù)訓(xùn)練醫(yī)學(xué)語(yǔ)言模型可以有效地提升醫(yī)療文本的理解和處理能力。在醫(yī)學(xué)語(yǔ)言處理任務(wù)中,BERT模型可用于信息抽取、命名實(shí)體識(shí)別、文本分類(lèi)、醫(yī)學(xué)問(wèn)答等多個(gè)任務(wù)。例如,在電子健康記錄中,BERT可以幫助自動(dòng)提取患者的診斷信息、治療方案以及藥物使用情況,極大地提高了醫(yī)療信息處理的效率和準(zhǔn)確性。此外,基于BERT的模型在醫(yī)學(xué)文獻(xiàn)的自動(dòng)綜述和疾病預(yù)測(cè)方面也展現(xiàn)出了潛力。任務(wù)目標(biāo)/022.任務(wù)目標(biāo)了解序列到序列

(seq2seq)

模型基本原理了解Transformer基本原理掌握Transformer的架構(gòu)掌握分詞器的工作原理掌握分詞器、嵌入的工作原理了解注意力機(jī)制的原理知識(shí)目標(biāo)能按照任務(wù)要求搭建基于Transformer的模型拓展能力能調(diào)用Transformer模型能使用分詞器完成分詞能使用嵌入嵌入機(jī)制處理完成嵌入詞向量的生成能使用多頭注意力機(jī)制計(jì)算注意力矩陣能力目標(biāo)任務(wù)導(dǎo)學(xué)/034.任務(wù)知識(shí)RNN和LSTM在處理長(zhǎng)序列時(shí)難以并行化,訓(xùn)練時(shí)間較長(zhǎng),且容易遇到梯度消失或爆炸問(wèn)題,導(dǎo)致捕捉長(zhǎng)距離依賴(lài)能力不足。為了解決這一問(wèn)題,2017年提出了Transformer,它是一種革命性的神經(jīng)網(wǎng)絡(luò)架構(gòu),專(zhuān)為處理序列數(shù)據(jù)而設(shè)計(jì)。與傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)和長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTMs)不同,Transformer基于自注意力機(jī)制來(lái)建模序列中的依賴(lài)關(guān)系。其核心思想是通過(guò)允許模型在處理每個(gè)輸入位置時(shí),對(duì)整個(gè)序列的其他位置進(jìn)行注意力集中,增強(qiáng)了長(zhǎng)距離依賴(lài)的捕捉能力,并提高了訓(xùn)練效率和模型的表達(dá)能力。什么是GAN(生成對(duì)抗網(wǎng)絡(luò))目前常用的語(yǔ)言大模型GPT和BERT都是基于Transformer架構(gòu)的。GPT使用Transformer的解碼器部分,通過(guò)自回歸方法進(jìn)行單向預(yù)訓(xùn)練,主要用于生成任務(wù)。而B(niǎo)ERT使用Transformer的編碼器部分,通過(guò)掩碼語(yǔ)言模型進(jìn)行雙向預(yù)訓(xùn)練,主要用于理解任務(wù)。什么是GAN(生成對(duì)抗網(wǎng)絡(luò))任務(wù)知識(shí)點(diǎn)/04序列到序列(Sequence-to-Sequence,簡(jiǎn)稱(chēng)Seq2Seq)模型是一種廣泛應(yīng)用于自然語(yǔ)言處理任務(wù)的神經(jīng)網(wǎng)絡(luò)架構(gòu),旨在將一個(gè)序列轉(zhuǎn)換為另一個(gè)序列。Seq2Seq模型通常由兩個(gè)主要部分組成,編碼器(Encoder)接收并處理輸入序列,將其編碼為一個(gè)固定長(zhǎng)度的上下文向量(也稱(chēng)為隱狀態(tài)或編碼狀態(tài))。編碼器通常是一個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)或門(mén)控循環(huán)單元(GRU)等。序列到序列(seq2seq)模型大部分seq2seq模型均由編碼器和解碼器構(gòu)成。編碼器會(huì)接收輸入序列,并將其映射至某些中間表示(即一種n維向量)。然后,解碼器會(huì)接收這個(gè)抽象向量,并將其轉(zhuǎn)換成輸出序列。下圖以機(jī)器翻譯作為序列到序列的問(wèn)題的例子,展示了編碼器-解碼器的架構(gòu)。序列到序列(seq2seq)模型的工作原理解碼階段,解碼器從上下文向量開(kāi)始,通過(guò)每一步預(yù)測(cè)下一個(gè)輸出詞。每一步的輸入是前一步生成的詞,直到生成終止標(biāo)記為止。在輸入階段,輸入序列被逐個(gè)詞地輸入到編碼器中,編碼器將每個(gè)詞的嵌入表示傳遞到下一個(gè)時(shí)間步,并最終生成一個(gè)上下文向量。編碼階段,編碼器的最后一個(gè)隱狀態(tài)作為上下文向量,包含了整個(gè)輸入序列的信息。序列到序列(seq2seq)模型的工作原理Transformer模型和時(shí)間序列模型在一些方面有相似之處,但它們?cè)谠O(shè)計(jì)和應(yīng)用上有顯著不同。傳統(tǒng)時(shí)間序列模型通常依賴(lài)于時(shí)間步之間的順序關(guān)系。而Transformer使用編碼器-解碼器結(jié)構(gòu),通過(guò)多頭自注意力機(jī)制并行處理整個(gè)序列。Transformer不依賴(lài)于順序計(jì)算,因此更容易并行化,適合處理長(zhǎng)序列數(shù)據(jù)。Transformer與傳統(tǒng)序列模型的區(qū)別RNN/LSTM/GRU等傳統(tǒng)時(shí)間序列模型由于其順序計(jì)算的特性,訓(xùn)練和推理時(shí)計(jì)算效率較低,尤其在處理長(zhǎng)序列時(shí)更為明顯。Transformer由于其并行計(jì)算的特性,通過(guò)自注意力機(jī)制,可以顯著提高計(jì)算效率,尤其在處理長(zhǎng)序列時(shí)表現(xiàn)更好。Transformer模型和時(shí)間序列模型都用于處理序列數(shù)據(jù),傳統(tǒng)的序列模型通常應(yīng)用于時(shí)間序列數(shù)據(jù)(如股票價(jià)格、天氣數(shù)據(jù)),而Transformer更多應(yīng)用于自然語(yǔ)言處理如機(jī)器翻譯、文本生成、問(wèn)答系統(tǒng)等。Transformer與傳統(tǒng)序列模型的區(qū)別Transformer的基本結(jié)構(gòu)由編碼器(Encoder)和解碼器(Decoder)兩部分組成,每部分包含多個(gè)堆疊的相同層。此外還需要分詞器、嵌入層、位置編碼、多頭注意力和一些基本組件如前饋層等,以下是Transformer的基本結(jié)構(gòu)。Transformer基本結(jié)構(gòu)Transformer基本結(jié)構(gòu)編碼器(?Encoder)?:?作用:?負(fù)責(zé)將輸入序列轉(zhuǎn)換為連續(xù)的表示,?捕捉輸入序列中的信息并建模其特征。?結(jié)構(gòu):?每個(gè)編碼器層包含兩個(gè)子層,?分別是多頭自注意力機(jī)制和全連接前饋網(wǎng)絡(luò)。?這些子層通過(guò)殘差連接和LayerNormalization(?LayerNorm)?相互連接,?幫助編碼器更好地學(xué)習(xí)輸入序列的表示。?Transformer基本結(jié)構(gòu)解碼器(?Decoder)?:?作用:?根據(jù)編碼器的輸出和先前生成的部分序列來(lái)逐步生成輸出序列。?結(jié)構(gòu):?每個(gè)解碼器層也包含三個(gè)子層,?分別是多頭自注意力機(jī)制、?編碼器-解碼器注意力機(jī)制和全連接前饋網(wǎng)絡(luò)。?類(lèi)似編碼器,?解碼器層也通過(guò)殘差連接和LayerNormalization相互連接,?幫助解碼器生成輸出序列。?Transformer基本結(jié)構(gòu)Transformer模型使用自注意力機(jī)制來(lái)建模輸入序列中各個(gè)位置之間的依賴(lài)關(guān)系。?通過(guò)自注意力機(jī)制,?模型可以同時(shí)考慮輸入序列中所有位置的信息,?從而更好地捕捉全局依賴(lài)關(guān)系。?這種結(jié)構(gòu)使得Transformer模型在處理序列轉(zhuǎn)導(dǎo)任務(wù)時(shí)具有強(qiáng)大的能力,?尤其是在自然語(yǔ)言處理領(lǐng)域,?如機(jī)器翻譯、?文本生成等任務(wù)中表現(xiàn)出了卓越的性能。任務(wù)總結(jié)序列到序列

(seq2seq)

模型的基本原理、結(jié)構(gòu)和用途01掌握Transformer基本結(jié)構(gòu)及其用途02了解和解碼器和編碼器的基本架構(gòu)03任務(wù)八:使用BERT預(yù)訓(xùn)練醫(yī)學(xué)語(yǔ)言模型Transformer工作流程分詞器01嵌入式處理02注意力機(jī)制03編碼解碼04分詞器/01分詞器可將原始文本轉(zhuǎn)換為由標(biāo)記(即子詞)組成的文本的初始數(shù)值表征。分詞器之所以是模型的重要構(gòu)成部分之一。分詞器可將凝集性語(yǔ)言中的詞分解為更易管理的組成部分、處理原始語(yǔ)料庫(kù)中不存在的新詞或外來(lái)詞/特殊字符,并確保模型生成緊湊的文本表征。每種語(yǔ)言都有可選用的數(shù)量眾多且各不相同的分詞器。大部分基于Transformer的架構(gòu)均使用經(jīng)過(guò)訓(xùn)練的分詞器,這些分詞器旨在充分縮短典型序列的長(zhǎng)度。WordPiece(應(yīng)用于BERT)、SentencePiece(應(yīng)用于T5或RoBerta)等分詞器同樣具有多個(gè)變體。通常使用tokenizer來(lái)實(shí)現(xiàn)分詞器的功能,它能將將輸入的自然語(yǔ)言文本分割成獨(dú)立的詞或子詞單元,使得模型能夠理解和處理文本數(shù)據(jù)。將句子"Thecatsatonthemat"分割成["The","cat","sat","on","the","mat"]。還需要將分割后的詞或子詞轉(zhuǎn)換成模型可以處理的數(shù)字表示。例如,句子"Thecatsatonthemat"可能被轉(zhuǎn)換成[2,17,35,10,2,49],其中每個(gè)數(shù)字對(duì)應(yīng)詞匯表中的一個(gè)詞或子詞。最后還需要將特殊標(biāo)記(如[CLS]表示分類(lèi),[SEP]表示分隔符)添加到輸入序列中,模型輸出后Tokenizer還負(fù)責(zé)將模型生成的數(shù)字序列轉(zhuǎn)換回自然語(yǔ)言文本。這一步驟通常稱(chēng)為解碼(Decoding)。嵌入式處理/02分詞后的文本將由嵌入機(jī)制處理。嵌入向量是通過(guò)一種算法生成的,該算法可將原始數(shù)據(jù)轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)可使用的數(shù)值表征。這種數(shù)值表征通常被稱(chēng)為文本嵌入。常用的算法有Word2Vec、GloVe或fastText,它們將離散的詞或子詞表示為連續(xù)的、密集的向量,使得模型可以更高效地進(jìn)行計(jì)算。通過(guò)訓(xùn)練,詞嵌入向量能夠捕捉到詞之間的語(yǔ)義關(guān)系。分詞嵌入式處理分詞的嵌入式處理過(guò)程分為兩步,第一步輸入的詞或子詞通過(guò)嵌入層轉(zhuǎn)換為固定維度的向量。這一步驟通常使用一個(gè)可訓(xùn)練的嵌入矩陣來(lái)完成。第二步加入位置編碼,由于Transformer模型不具備處理序列順序的內(nèi)置機(jī)制,需要加入位置編碼(PositionalEncoding)以提供序列位置信息。位置編碼向量被添加到詞嵌入向量中,使模型能夠區(qū)分不同位置的詞。位置編碼通常使用正弦和余弦函數(shù)來(lái)生成,以確保不同位置的編碼具有獨(dú)特的表示。分詞嵌入式處理位置編碼通常使用正弦和余弦函數(shù)來(lái)生成,以確保不同位置的編碼具有獨(dú)特的表示。以下是位置編碼的計(jì)算公式:其中:pos是詞在序列中的位置。i是嵌入向量的維度索引。dmodel是嵌入向量的維度。分詞嵌入式處理下面是實(shí)現(xiàn)Transformer詞嵌入和位置編碼的實(shí)例,使用TransformerEmbedding類(lèi)同時(shí)實(shí)現(xiàn)了詞嵌入和位置編碼。輸入的詞ID通過(guò)嵌入層轉(zhuǎn)換為向量,并添加位置編碼以提供序列位置信息。輸出的結(jié)果是一個(gè)包含詞嵌入和位置編碼的向量表示。分詞嵌入式處理代碼中輸入一個(gè)形狀為[2,5]的張量,其中2是批次大小,5是序列長(zhǎng)度。輸入張量表示兩個(gè)序列,每個(gè)序列由五個(gè)詞組成。input_seq這個(gè)張量表示第一個(gè)句子由詞ID[1,2,3,4,5]組成。第二個(gè)句子由詞ID[6,7,8,9,10]組成。模型將輸入的詞ID轉(zhuǎn)換為嵌入向量,并添加位置編碼。輸出將是一個(gè)形狀為[2,5,512]的張量,其中512是嵌入向量的維度。分詞嵌入式處理注意力機(jī)制/03當(dāng)一個(gè)場(chǎng)景進(jìn)入人類(lèi)視野時(shí),往往會(huì)先關(guān)注場(chǎng)景中的一些重點(diǎn),如動(dòng)態(tài)的點(diǎn)或者突兀的顏色,剩下的靜態(tài)場(chǎng)景可能會(huì)暫時(shí)性的忽略。例如在右面的圖像中,按照人類(lèi)的關(guān)注點(diǎn)使用顏色對(duì)重要的部分進(jìn)行了標(biāo)注。什么是注意力機(jī)制同樣的在文本處理中,也需要根據(jù)上下文的信息去關(guān)注重點(diǎn)的文字信息。通過(guò)觀察輸入序列,并在每個(gè)輸入時(shí)間步判斷序列中的其它部分哪些是重要的。例如在下面的例子中,可以看到“ball”對(duì)“tennis”和“playing”有強(qiáng)烈的注意力,但“tennis”和“dog”之間的聯(lián)系很微弱。什么是注意力機(jī)制注意力機(jī)制允許模型在處理序列數(shù)據(jù)時(shí)更加關(guān)注重要的信息,從而提高模型的精度和效率。注意力機(jī)制的核心思想是根據(jù)輸入數(shù)據(jù)的不同部分賦予不同的權(quán)重,以高權(quán)重去聚焦重要信息,低權(quán)重去忽略不相關(guān)的信息,并且還可以不斷調(diào)整權(quán)重,使得模型能夠根據(jù)當(dāng)前的任務(wù)需求動(dòng)態(tài)地選擇關(guān)注哪些信息。這種機(jī)制模仿了人類(lèi)視覺(jué)和認(rèn)知系統(tǒng)的特性,即人類(lèi)在處理信息時(shí)會(huì)選擇性地將注意力集中在某些特定的區(qū)域或特征上,同時(shí)忽略其他不相關(guān)的信息,模型因此具有更高的可擴(kuò)展性和魯棒性。注意力機(jī)制是自深度學(xué)習(xí)快速發(fā)展后廣泛應(yīng)用于自然語(yǔ)言處理、統(tǒng)計(jì)學(xué)習(xí)、圖像檢測(cè),語(yǔ)音識(shí)別和計(jì)算機(jī)等領(lǐng)域的核心技術(shù)。注意力機(jī)制原理自注意力機(jī)制(Self-AttentionMechanism)是Transformer模型中的核心組件,它允許模型在處理輸入序列時(shí),通過(guò)給每個(gè)元素分配不同的權(quán)重,來(lái)聚焦于序列中不同位置的信息。Transformer架構(gòu)中的注意力機(jī)制中由三個(gè)組件構(gòu)成:查詢(xún)(Query)、鍵(Key)和值(Value)。這三個(gè)組件中的每一個(gè)組件均有與之關(guān)聯(lián)的權(quán)重矩陣,該矩陣通過(guò)優(yōu)化過(guò)程進(jìn)行訓(xùn)練。Transformer自注意力機(jī)制編碼解碼/04例如需要從一個(gè)文檔中提取“人工智能項(xiàng)目”的摘要,就特別需要注意和關(guān)鍵字相關(guān)的信息。這時(shí)Query(查詢(xún))表示是當(dāng)前你關(guān)注的部分,你想了解與它最相關(guān)的內(nèi)容。比如,如果你正在生成關(guān)于“人工智能項(xiàng)目”的摘要部分,Query就是與“人工智能項(xiàng)目”相關(guān)的信息點(diǎn)。Key(鍵)表示是你可以訪(fǎng)問(wèn)的信息點(diǎn),用于匹配Query。在上例中文檔中每句話(huà)或每個(gè)段落都可以是一個(gè)Key。Value(值)與每個(gè)Key相關(guān)聯(lián)的實(shí)際信息,如果Key與Query匹配,這些信息將被用來(lái)生成輸出(即摘要)。在上面的例子中Value可能是與每個(gè)Key(話(huà)語(yǔ)或段落)相對(duì)應(yīng)的詳細(xì)內(nèi)容。Q、K和V矩陣的作用文檔中包含多個(gè)內(nèi)容,包括“人工智能項(xiàng)目”、“團(tuán)隊(duì)信息”、“計(jì)劃安排”,任務(wù)是生

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論