大模型原理與技術-課件 chap2 深度學習基礎_第1頁
大模型原理與技術-課件 chap2 深度學習基礎_第2頁
大模型原理與技術-課件 chap2 深度學習基礎_第3頁
大模型原理與技術-課件 chap2 深度學習基礎_第4頁
大模型原理與技術-課件 chap2 深度學習基礎_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2章深度學習基礎魏明強、宮麗娜計算機科學與技術學院智周萬物?道濟天下o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄23

目錄o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

神經網絡基礎神經網絡o

人工神經元人工神經網絡(ArtificialNeuralNetwork,ANN),簡稱為神經網絡(NeuralNetwork:NN),是指一系列受生物學和神經科學啟發(fā)的數(shù)學模型。人工神經元,簡稱為神經元,是構成神經網絡的基本單元。單個神經元計算過程單層神經網絡計算過程要想模擬人腦具有的能力,單一神經元是遠遠不夠的,需要眾多神經元的協(xié)作來完成復雜任務,即神經網絡。在得到單層神經網絡的輸出之后,可以通過疊加類似的層來構建每層都包含若干神經元的多層神經網絡。

神經網絡基礎神經網絡o

激活函數(shù)激活函數(shù)(ActivationFunction)是神經網絡中的一種非線性變換,它賦予神經元更強大的表達能力。如果不使用激活函數(shù),則每層的操作只是對上一層的輸出結果進行線性變換,多層神經網絡會退化成單層神經網絡。l

Sigmoid函數(shù)l

Tanh函數(shù)l

Softmax函數(shù)l

ReLU函數(shù)通常用于二分類問題的輸出層。通常用于多分類問題的輸出層。通常用于中間層或輸出層。廣泛應用于隱藏層,其簡單性和非飽和性使其在大多數(shù)情況下表現(xiàn)良好。

神經網絡基礎神經網絡o

全連接神經網絡在全連接神經網絡中,每個神經元與前一層的所有神經元相連接,形成一個完全連接的結構。它的基本組成包括輸入層(InputLayer)、若干隱藏層(HiddenLayer)和輸出層(OutputLayer)。輸入層接收原始數(shù)據(jù)或特征作為網絡的輸入,每個輸入神經元對應于數(shù)據(jù)或特征的一個維度。隱藏層位于輸入層和輸出層之間,進行特征的非線性變換和抽象。每個隱藏層包含多個神經元,每個神經元與前一層的所有神經元相連接。多個隱藏層的存在使得網絡能夠學習更加復雜和抽象的表示。輸出層產生網絡的最終輸出。全連接神經網絡在一些任務上表現(xiàn)良好,但隨著問題復雜性的增加,更深層次、更復雜結構的神經網絡逐漸取代了全連接神經網絡。這是因為全連接神經網絡在參數(shù)數(shù)量和計算復雜度上容易受到限制,而深度學習任務通常需要更強大的神經網絡結構。o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

神經網絡基礎卷積神經網絡o

感受野1962年,生物學家D.H.Hubel和T.N.Wiesel對貓的視覺系統(tǒng)進行了研究,貓的視覺系統(tǒng)實驗示意圖如圖2.5所示。他們首次發(fā)現(xiàn)了在貓的視覺皮層中存在兩種主要類型的神經元,即簡單細胞和復雜細胞。這兩種類型的細胞對邊緣和紋理的敏感性有所不同。神經元對視野中的某一小塊區(qū)域內的特定邊緣或紋理更為敏感,反映了感受野的特性。感受野(ReceptiveField)描述了神經系統(tǒng)中一些神經元對于特定刺激區(qū)域的敏感性,這意味著神經元只對其支配區(qū)域內的信號做出響應。在視覺神經系統(tǒng)中,視覺皮層中的神經細胞的輸出受到視網膜上光感受器的影響,即當視網膜上的光感受器受到刺激并興奮時,會產生神經沖動信號并傳遞到視覺皮層。然而,并非所有視覺皮層中的神經元都會接收這些信號。每個神經元都有其特定的感受野,即只有視網膜上特定區(qū)域內的刺激才能激活該神經元。

神經網絡基礎卷積神經網絡o

卷積神經網絡卷積神經網絡(ConvolutionalNeuralNetwork,CNN)的設計靈感正是源自生物學中感受野的機制。卷積神經網絡模仿了生物學中神經元對于刺激的局部敏感性。它通過學習局部特征,逐漸建立對整體特征的抽象。它在處理空間結構化數(shù)據(jù)和視覺數(shù)據(jù)方面的能力使其在自然語言處理、計算機視覺等領域都發(fā)揮著重要作用。下圖展示了第一個誕生的卷積神經網絡LeNet-5的網絡結構,該網絡用于手寫數(shù)字識別任務。LeNet-5由卷積層、池化層及全連接層組成,它的設計為后續(xù)卷積神經網絡的發(fā)展奠定了基礎。

神經網絡基礎卷積神經網絡o

卷積卷積運算通過滑動一定間隔的卷積核(也稱為濾波器)窗口,計算對應位置的元素相乘再求和,得到輸出特征圖中每個位置的值,當卷積核窗口移動到所示位置時,計算輸入特征圖與卷積核窗口對應位置的元素乘積,并將其求和,即執(zhí)行計算:(-1)×1+0×0+1×2+(-1)×5+0×4+1×2+(-1)×3+0×4+1×5=0,從而計算得到輸出特征圖中相應位置的值為0。之后,卷積核繼續(xù)向后滑動,重復相同的操作,直到得到完整的輸出特征圖。o

卷積操作的概念l

偏置(bias)l

步長(stride)l

填充(padding)

神經網絡基礎卷積神經網絡o

池化池化操作通常應用在卷積層之后,通過對特征圖的局部區(qū)域進行采樣,從而獲得更小且具有抽象特征的特征圖。常見的池化類型有最大池化和平均池化兩種。在最大池化中,每個池化窗口選擇局部區(qū)域的最大值作為采樣值。而在平均池化中,每個池化窗口計算局部區(qū)域的平均值作為采樣值。o

池化層的特點l

沒有可學習參數(shù)l

不改變通道數(shù)l

平移不變性

神經網絡基礎卷積神經網絡o

批歸一化批歸一化的作用是加速神經網絡的訓練,提高模型的收斂速度,并且有助于避免梯度消失或梯度爆炸問題。批歸一化的核心思想是對每層的輸入進行歸一化,使其均值接近0,標準差接近1。這樣做有助于緩解梯度消失問題,提高網絡的穩(wěn)定性。對于一個批次的輸入數(shù)據(jù),批歸一化首先計算批次的均值和方差,再對輸入進行歸一化,即減去均值并除以標準差,然后使用可學習的縮放和平移參數(shù)對歸一化后的數(shù)據(jù)進行線性變換。o

全連接全連接層(FullyConnectedLayer),也被稱為密集連接層,是卷積神經網絡中的關鍵組成部分。在全連接層中,每個神經元都與上一層的所有神經元相連接,形成了一個全連接的結構。對于自然語言處理任務,輸入通常是一維向量,如文本數(shù)據(jù)的詞嵌入,以便進行文本分類、情感分析等任務;對于計算機視覺任務,輸入通常是多維特征圖,這些特征圖可能通過卷積層或其他特征提取層從原始圖像中提取而來。為了傳遞給全連接層,這些多維特征圖通常需要被展平成一維向量,作為全連接層的輸入,以便進行后續(xù)處理。

神經網絡基礎卷積神經網絡o

DropoutDropout是一種常用的正則化技術,旨在減少過擬合并提高模型的泛化能力。Dropout的基本思想是在訓練過程中以一定概率隨機地忽略一部分神經元的輸出。具體而言,假設有一個全連接層的輸出向量為h,Dropout的操作如下:(1)在訓練中,以概率(通常為0.5)隨機選擇一部分神經元,將它們的輸出置為0。(2)在測試過程中,保持所有神經元的輸出,但將它們乘以1?p以保持期望輸出值不變。o

殘差連接殘差連接將若干卷積層學習到的特征與原始輸入相加,從而形成了一種“跳躍連接”的結構,從而使得神經網絡更容易進行優(yōu)化,并且能夠構建更深層次的網絡結構。殘差連接能夠在一定程度上緩解深層網絡的退化網絡問題。并且既不增加額外的參數(shù)也不增加計算復雜度,使得網絡易于優(yōu)化,提高了泛化性能。o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2o

均方誤差損失函數(shù)均方誤差(MeanSquaredError,MSE)損失函數(shù)是一種應用于回歸問題的損失函數(shù),用于度量模型預測值與真實值之間的平方差的平均值。

損失函數(shù)和優(yōu)化算法4o

平方絕對誤差損失函數(shù)平均絕對誤差(MeanAbsoluteError,MAE)損失函數(shù)是應用于回歸問題的一種損失函數(shù),用于度量模型預測值與真實值之間的絕對差的平均值。o

交叉熵損失函數(shù)交叉熵損失(Cross-EntropyLoss)函數(shù)廣泛應用于分類問題。它衡量模型輸出的概率分布與真實標簽的概率分布之間的差異。二分類問題:多分類問題:損失函數(shù)o

序列交叉熵損失函數(shù)序列交叉嫡損失(SequenceCross-EntropyLoss)函數(shù)是用于序列到序列(sequence-to-sequence)任務中的一種損失函數(shù),主要應用于自然語言處理領域的機器翻譯任務。在這種任務中,模型需要將一個輸入序列映射到另一個輸出序列,而且輸入和輸出的序列長度是可變的。

損失函數(shù)和優(yōu)化算法4o

焦點損失函數(shù)焦點損失(FocalLoss)函數(shù)通過調整難易分類樣本的權重,即降低易分類樣本的權重,提高難分類樣本的權重,使得模型更關注難以分類的樣本。損失函數(shù)o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

損失函數(shù)和優(yōu)化算法4優(yōu)化算法o

梯度下降法變種l

批量梯度下降法l

隨機梯度下降法l

小批量梯度下降法使用整個訓練集的數(shù)據(jù),計算每個樣本上損失函數(shù)的梯度并求和,然后更新參數(shù)。隨機選擇一個樣本計算梯度并更新參數(shù)。每次迭代使用一小批次的樣本來計算梯度。

損失函數(shù)和優(yōu)化算法優(yōu)化算法

損失函數(shù)和優(yōu)化算法優(yōu)化算法

損失函數(shù)和優(yōu)化算法優(yōu)化算法o

Adam算法Adam算法是一種自適應學習率的優(yōu)化算法,結合了動量法和AdaGrad算法思想,在深度學習中得到了廣泛應用,對于不同類型的神經網絡和任務都有較好的適應性。其核心思想是為每個參數(shù)維護兩個移動平均量,一個是梯度的一階矩估計(動量項),另一個是梯度的二階矩估計(AdaGrad項),然后使用這兩個估計來調整學習率。

o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

神經網絡訓練梯度和鏈式法則o

梯度的計算給定一個具有n個輸入和1個標量輸出的函數(shù): 其對輸入計算梯度,得到一個與輸入具有相同維度的向量,向量的每個維度是輸出對于輸入中相應維度的偏導數(shù):給定一個有n個輸入和m個輸出的函數(shù):可以將m個輸出拆分成m個具有n個輸入的單輸出函數(shù)。相當于由m個神經元構成了一層神經網絡。m個輸出分別對n個輸入求微分,得到m×n大小的雅可比矩陣(JacobianMatrix)。該矩陣的第i行第j列元素是第i個輸出對于第j個輸入的偏導數(shù)。

神經網絡訓練梯度和鏈式法則o

鏈式法則鏈式法則是復合函數(shù)求導數(shù)的性質,其定義如下:如果某個函數(shù)由復合函數(shù)表示,則該復合函數(shù)的導數(shù)可以用構成復合函數(shù)的各個函數(shù)的導數(shù)的乘積表示。以一元函數(shù)為例,為了求z對x的導數(shù),使用鏈式法則,先求z對y的導數(shù),再求y對x的導數(shù),再將兩個導數(shù)相乘,即為z對x的導數(shù):推廣到多輸入多輸出的函數(shù):要求h對x的偏導,同樣地運用鏈式法則,先求h對z的偏導以及z對x的偏導,兩者都可以表示成雅可比矩陣,再將矩陣相乘,得到最終的結果。o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

神經網絡訓練前向傳播和反向傳播o

計算圖計算圖能夠將神經網絡的計算過程以圖形化的方式呈現(xiàn)。在這個圖中,源節(jié)點表示網絡的輸入,內部節(jié)點表示各種計算操作,有向邊用于傳遞各節(jié)點計算出的值,同時存儲當前計算操作得到的值。按照有向邊的方向進行順序計算,就能得到神經網絡的輸出值,這個過程稱為前向傳播。反向傳播的過程則是沿著計算圖相反的方向進行計算,計算每個參數(shù)的梯度,從而在優(yōu)化過程中更新這些參數(shù)。通過反向傳播,神經網絡能夠學習調整權重和偏置,使得模型的預測與實際結果更加接近,從而提高整體性能。單個節(jié)點的反向傳播:下游梯度=上游梯度×本地梯度

神經網絡訓練前向傳播和反向傳播o

計算圖計算過程示例前向傳播反向傳播o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2

神經網絡訓練訓練神經網絡示例o

PyTorch訓練神經網絡示例訓練神經網絡需要先將訓練數(shù)據(jù)輸入模型中,通過前向傳播計算預測值,然后計算損失函數(shù),并通過反向傳播調整模型參數(shù),以最小化損失。這一過程使用合適的優(yōu)化算法來更新模型的權重和偏置。以卷積神經網絡為例,使用MNIST數(shù)據(jù)集完成手寫數(shù)字識別任務,使用PyTorch框架來演示訓練神經網絡的具體流程。(1)導入必要的庫

神經網絡訓練訓練神經網絡示例o

PyTorch訓練神經網絡示例(2)定義一個簡單的卷積神經網絡模型,包括卷積層、激活函數(shù)、池化層和全連接層。

神經網絡訓練訓練神經網絡示例o

PyTorch訓練神經網絡示例(3)加載數(shù)據(jù)集并進行數(shù)據(jù)預處理,將圖像轉換為Tensor格式并進行歸一化。(4)定義損失函數(shù)和優(yōu)化器,損失函數(shù)使用交叉熵損失函數(shù),優(yōu)化器使用Adam優(yōu)化器,學習率設置為0.001。

神經網絡訓練訓練神經網絡示例o

PyTorch訓練神經網絡示例(5)進行模型訓練,迭代數(shù)據(jù)集,計算損失,反向傳播更新模型參數(shù)。o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2https:///jittor/深度學習框架https:///11主流深度學習框架https://keras.io//https:////https:///https://www.tensorflow.org/o

神經網絡基礎l

神經網絡l

卷積神經網絡o

損失函數(shù)和優(yōu)化算法l

損失函數(shù)l

優(yōu)化算法o

神經網絡訓練l

梯度和鏈式法則l

前向傳播和反向傳播l

訓練神經網絡示例o

深度學習框架l

主流深度學習框架l

框架選擇和優(yōu)缺點比較o

思考

目錄2深度學習框架

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論