大模型原理與技術-課件 chap8 高效大模型策略_第1頁
大模型原理與技術-課件 chap8 高效大模型策略_第2頁
大模型原理與技術-課件 chap8 高效大模型策略_第3頁
大模型原理與技術-課件 chap8 高效大模型策略_第4頁
大模型原理與技術-課件 chap8 高效大模型策略_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

高效大模型策略魏明強、宮麗娜計算機科學與技術學院智周萬物?道濟天下o

大模型效率概述l

研究背景l(fā)

研究內容o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率

目錄2o

大模型效率概述l

研究背景l(fā)

研究內容o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率3

目錄o

由于更大的參數(shù)規(guī)模需要更高的計算成本和內存需求,大模型的訓練和微調會受到嚴重限制o

訓練這些模型需要大量的數(shù)據(jù)和資源,給數(shù)據(jù)獲取、資源分配和模型設計帶來挑戰(zhàn),探索不同架構或策略的成本變得過高o

大規(guī)模參數(shù)使大模型不適合部署在資源受限的環(huán)境中,如邊緣設備隨著模型參數(shù)規(guī)模的增大,大模型不僅提高了現(xiàn)有任務的性能,而且還出現(xiàn)了很多新功能

大模型效率面臨的問題4o

大模型效率概述l

研究背景l(fā)

研究內容o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率3

目錄

大模型效率及其評估指標o

本章將“大模型效率”定義為大模型產(chǎn)生特定性能時所需的資源,與性能成正相關,與資源成負相關o

評估大模型效率的關鍵指標l

參數(shù)數(shù)量l

模型大小l

浮點運算次數(shù)l

推理時間/token生成速度l

內存占用l

碳排放o

高效大模型策略旨在不影響模型性能的情況下優(yōu)化計算和內存資源,這些評估指標將是高效大模型策略的重要依據(jù)和體現(xiàn)

大模型效率及其評估指標o

評估大模型效率的關鍵指標l

參數(shù)數(shù)量參數(shù)數(shù)量是直接影響模型學習能力和復雜性的關鍵因素。這些參數(shù)包括權重和偏差等參數(shù),在訓練或微調階段是可以學習的。更大的參數(shù)數(shù)量通常使模型能夠學習到更復雜的數(shù)據(jù)模式和新功能,但會影響訓練和推理計算的時間。l

模型大小模型大小定義為存儲整個模型所需的磁盤空間,通常以千兆字節(jié)(GB)或兆字節(jié)(MB)等為單位。模型大小會受到多個因素的影響,其中最主要的因素是參數(shù)數(shù)量,其他因素有參數(shù)數(shù)據(jù)類型和特定的體系結構。模型大小會直接影響存儲需求,提前考慮模型大小對在存儲受限環(huán)境下的部署尤其重要。l

浮點運算次數(shù)浮點運算次數(shù)是指單次前向傳播過程中浮點運算(如加減乘除法)的次數(shù)(計算量),用于估算大模型的計算復雜度。較高的浮點運算次數(shù)通常意味著模型有著更高的計算要求,在資源有限的環(huán)境中部署這種模型將是一個挑戰(zhàn)。系統(tǒng)的并行優(yōu)化以及不同的架構也都會影響最終的整體計算效率。

大模型效率及其評估指標o

評估大模型效率的關鍵指標l

推理時間/token生成速度推理時間也稱為延遲,是大模型在推理階段從輸入到生成響應所需的時間,單位通常為毫秒或秒。推理時間是在實際部署的設備上進行評估的,考慮了特定的硬件和優(yōu)化條件,提供了現(xiàn)實世界性能的實用衡量標準。token生成速度是指模型在每秒內可以處理的token數(shù),它能夠用來規(guī)范推理時間,是反映模型速度和效率的關鍵性能指標。l

內存占用內存占用是指在推理或訓練期間加載和運行模型所需的隨機存取存儲器的內存大小,通常以MB或GB為單位。內存占用的內容不僅包括模型參數(shù),還包括其他運行時必需數(shù)據(jù),如中間變量和數(shù)據(jù)結構。較大的內存占用會限制模型的可部署性,尤其是在資源受限的環(huán)境中,需要優(yōu)化技術來降低占用,如模型剪枝或量化。l

碳排放碳排放通常以模型從訓練到推理的過程中排放的二氧化碳量來衡量,反映了訓練和運行該模型對環(huán)境的影響。碳排放受到各種因素的影響,包括所用硬件的能源效率、電力來源,以及模型訓練和運行的持續(xù)時間。可以通過模型優(yōu)化、硬件加速和算法改進等方式提高能效,還可以為數(shù)據(jù)中心(如蘋果公司的云上貴州數(shù)據(jù)中心、騰訊的七星洞數(shù)據(jù)中心)選擇更環(huán)保的能源,從而減少碳排放。o

背景大模型效率概述l

研究背景l(fā)

研究背景o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率3

目錄

高效大模型策略o

提高大模型效率的關鍵方向l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率o

背景大模型效率概述l

研究背景l(fā)

研究背景o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率3

目錄

預算效率o

大模型性能受到各種因素的影響,包括訓練數(shù)據(jù)、模型大小、體系結構、計算資源和訓練策略等。通過調整這些因素來達到滿足預期的最佳性能,能夠降低資源的消耗以提高效率。但如果采用試錯方法會在調試中浪費大量的資源,而且通常無法找到最高效的設計方案。為此,可以通過提前預測大模型的性能來調整大模型的設計和資源安排。縮放定律研究了在某些系統(tǒng)中,隨著系統(tǒng)規(guī)模的增大,某些特定指標或行為會發(fā)生可預測的變化。通過縮放定律可以提前預測大模型性能,以便更有效地規(guī)劃和分配資源,進而提高大模型效率。l

縮放定律表明,大模型性能(假設目標函數(shù)為L)主要取決于三個因素:模型參數(shù)的數(shù)量N、數(shù)據(jù)集大小D及訓練的計算預算C。模型的性能會隨著模型參數(shù)的數(shù)量N、數(shù)據(jù)集大小D和訓練的計算預算C的增加而持續(xù)增加。當任意兩個因素不受瓶頸限制時,模型的性能與第三個因素之間存在冪律關系。但如果固定模型參數(shù)的數(shù)量N或數(shù)據(jù)集大小D中的一個,而增加另一個,模型的性能的提升幅度會因受到懲罰而有所減少。o

背景大模型效率概述l

研究背景l(fā)

研究背景o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率3

目錄

數(shù)據(jù)效率o

據(jù)效率策略從數(shù)據(jù)利用方面提高大模型效率。大模型對數(shù)據(jù)的需求是無止境的,但海量的數(shù)據(jù)給大模型訓練不僅延長了訓練時間,而且由于耗電大、存儲容量大而導致訓練成本急劇上升。有效的數(shù)據(jù)使用方法對大模型的訓練和驗證都至關重要,能夠在降低資源消耗的同時提升模型性能,從而提高大模型效率。l

數(shù)據(jù)過濾-將訓練重點指向信息量更大的樣本,較少集中在信息價值較小的樣本上。-通過重復數(shù)據(jù)消除、數(shù)據(jù)下采樣減少訓練集中的冗余,提高數(shù)據(jù)質量。l

主動學習/重要性采樣-用較少的標注來訓練樣本,實現(xiàn)較好或等效的性能。-根據(jù)樣本對學習過程的重要性對樣本進行優(yōu)先級排序,僅選擇和標注最有用的樣本,有策略地減少訓練樣本總數(shù)的目的。l

課程學習-通過仔細設計訓練數(shù)據(jù)中樣本的反饋順序來提高模型訓練效率的策略。-先從簡單的樣本或子任務開始訓練,并逐步升級到具有挑戰(zhàn)性的任務上。o

背景大模型效率概述l

研究背景l(fā)

研究背景o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率3

目錄

架構效率o

Transformer架構中的關鍵操作注意力機制,通常需要相對于序列長度的二次復雜度來進行計算,因此在處理長輸入序列時速度明顯較慢。因此,減少注意力操作所需的計算成為提高體系結構效率的直接解決方案,對訓練和推理階段都有效。l

高效注意力-并非所有token關系都具有相同的重要性,可以識別并僅保留最關鍵的關系。-在硬件層面減少硬件之間的數(shù)據(jù)傳輸。l

高效位置編碼-相對位置編碼方法利用兩個token之間的相對位置,而非單個token的絕對位置。-旋轉位置編碼使用旋轉矩陣對輸入序列進行編碼。l

稀疏模型-計算時只將大模型中用于給定的任務、樣本或token的某些部分被激活。l

無注意力模型-用其他模塊取代注意力機制,在性能上已經(jīng)能夠實現(xiàn)與標準的Transformer相當?shù)男Ч?。旋轉位置編碼o

背景大模型效率概述l

研究背景l(fā)

研究背景o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率3

目錄

訓練效率o

大模型數(shù)據(jù)和模型的規(guī)模會直接影響到模型的訓練效率。因此,訓練效率是決定大模型效率的重要因素,提高訓練效率需要解決由大模型數(shù)據(jù)和模型規(guī)模的增加帶來的問題。l

穩(wěn)定訓練策略-調整超參數(shù)如批處理大小、學習率等,實行權重衰減和梯度裁剪等穩(wěn)定策略,防止梯度消失或爆炸。l

混合精度訓練-用更低精度的存儲格式存儲參數(shù),減少內存使用,加速模型內的通信過程-使用FP32存儲權重,使用FP16進行傳遞和計算l

并行訓練技術-數(shù)據(jù)并行將數(shù)據(jù)集劃分在多個加速器上被并行處理。-模型并行將模型本身劃分到多個加速器上。l

內存優(yōu)化-將模型參數(shù)、梯度和優(yōu)化器狀態(tài)等元素劃分到不同GPU上,可以根據(jù)需要從其他GPU中檢索所需數(shù)據(jù)。o

背景大模型效率概述l

研究背景l(fā)

研究背景o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率3

目錄

推理效率o

模型巨大的參數(shù)數(shù)量給在云服務和資源有限設備上的部署帶來了挑戰(zhàn),同時使得維持推理的成本很高。因此,加速推理的常見的方法是構建壓縮模型,以達到與完整模型相當?shù)男阅?。這種方法通??梢苑譃?類:剪枝、知識蒸餾、量化和低秩分解l

剪枝-剪枝技術旨在識別大模型中的冗余并置零,可對單個參數(shù)進行非結構化剪枝,也可對結構單元進行結構化剪枝。l

知識蒸餾-通過利用一個大模型(教師模型)的知識訓練一個小模型(學生模型)。l

量化-降低模型參數(shù)的數(shù)值精度,提高執(zhí)行速度,降低模型大小。-量化需要特定的硬件才能體現(xiàn)在低位精度上的優(yōu)勢。-通常在模型訓練完成后對參數(shù)進行量化。l

低秩分解-大模型權重矩陣存在于包括自注意力層和MLP層及嵌入層在內的線性層中,權重矩陣通常是低秩的表明模型權重中存在冗余,將權重矩陣分解為兩個或更多個較小的矩陣以節(jié)約參數(shù)。o

背景大模型效率概述l

研究背景l(fā)

研究背景o

高效大模型策略l

預算效率l

數(shù)據(jù)效率l

架構效率l

訓練效率l

推理效率l

微調效率3

目錄

微調效率o

在大規(guī)模且多樣的數(shù)據(jù)集上訓練的大模型已經(jīng)具有出色

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論