科技行業(yè)市場前景及投資研究報告:AI模型技術交互體驗升級_第1頁
科技行業(yè)市場前景及投資研究報告:AI模型技術交互體驗升級_第2頁
科技行業(yè)市場前景及投資研究報告:AI模型技術交互體驗升級_第3頁
科技行業(yè)市場前景及投資研究報告:AI模型技術交互體驗升級_第4頁
科技行業(yè)市場前景及投資研究報告:AI模型技術交互體驗升級_第5頁
已閱讀5頁,還剩48頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

AI專題?從模型視角看端側(cè)AI模型技術持續(xù)演進,交互體驗有望升級2024年7月核心觀點

基礎的構(gòu)建:模型實現(xiàn)高效壓縮是端側(cè)AI的第一步。模型尺寸變小、同時具備較好性能,是端側(cè)AI的前提。目前,在10B參數(shù)規(guī)模以下的模型中,7B尺寸占據(jù)主流,3B及以下小模型仍在探索,部分小模型性能正逐步接近更大參數(shù)模型,如谷歌Gemini-Nano模型在部分測試基準上接近Gemini-Pro、Meta

Llama-3-8B模型表現(xiàn)可與Llama-2-70B匹敵。模型廠商為兼顧模型尺寸與性能,在算法優(yōu)化上進行積極探索,在模型壓縮技術、稀疏注意力機制、多頭注意力變體等領域取得持續(xù)進展,幫助模型減少參數(shù)、降低存算需求,同時保持較好的性能,為端側(cè)AI奠定小模型的基礎。

落地的關鍵:模型適配終端硬件是端側(cè)AI的第二步。小語言模型(SLM)不完全等于端側(cè)模型,在模型實現(xiàn)高效壓縮后,需要進一步與手機硬件進行適配,幫助小模型裝進終端。從眾多小模型論文中可以發(fā)現(xiàn),當前主要存在內(nèi)存、功耗、算力三大硬件瓶頸。其中,蘋果在其論文《LLM

in

aflash》中指出,70億半精度參數(shù)的語言模型,完全加載進終端需要超過14GB的DRAM空間;Meta在其MobileLLM模型論文中指出,一個約有5000焦耳滿電能量的iPhone,僅支持7B模型在10tokens/秒的AI生成速率下對話不足2小時。為解決以上問題,手機芯片廠商正加速推進AI芯片研發(fā),在先進制程、內(nèi)存容量及帶寬、CPU和GPU性能、以及AI服務器上發(fā)力,手機品牌商也將配備更高性能的電池、散熱元器件,提升整體終端硬件能力,更好地支持AI模型。

體驗的突破:模型助力人機交互是端側(cè)AI的第三步。端側(cè)模型通常能夠支持用戶完成AI初級任務,然而更豐富、更深度的交互體驗需要UI模型、云端模型、以及系統(tǒng)級AI進行有力支撐。其中,UI模型可以提供手機UI界面理解的基礎,云端模型能夠幫助處理較為復雜的交互任務,系統(tǒng)級AI可以實現(xiàn)多種模型間的調(diào)用與協(xié)同。在AI時代下,模型的端側(cè)意義不止于類似ChatGPT的聊天機器人軟件,而在于賦能手機系統(tǒng)和應用交互的系統(tǒng)級AI,其帶來的交互體驗將成為影響用戶換機的核心。從當前的海外合作陣營來看,可分為“蘋果+OpenAI”和“谷歌+高通+三星”兩大陣營。未來,隨著端側(cè)模型、配套硬件、AI系統(tǒng)的持續(xù)發(fā)展,終端市場有望呈現(xiàn)更多可能。

相關標的:蘋果(AAPL.O)、三星電子(005930.KS)、高通(QCOM.O)、谷歌(GOOGL.O)等。

風險提示:端側(cè)AI技術進展不及預期風險;行業(yè)競爭加劇風險;應用開發(fā)不及預期風險等。1目

錄1基礎的構(gòu)建:模型實現(xiàn)高效壓縮是端側(cè)AI的第一步1.1

十億級參數(shù)模型加速迭代,性能表現(xiàn)向百億參數(shù)模型靠攏1.2模型壓縮技術助力端側(cè)部署,注意力優(yōu)化機制降低存算需求2落地的關鍵:模型適配終端硬件是端側(cè)AI的第二步2.1

從小模型論文看端側(cè)硬件瓶頸:內(nèi)存/功耗/算力2.2從芯片廠商布局看硬件升級趨勢:制程/內(nèi)存/NPU/電池/散熱3體驗的突破:模型助力人機交互是端側(cè)AI第三步3.1UI模型:手機界面理解能力提升,任務設計為人機交互奠定基礎3.2

系統(tǒng)級AI:云端模型補充交互體驗,系統(tǒng)升級支持更多AI場景21

模型實現(xiàn)高效壓縮是端側(cè)AI的第一步海外小模型發(fā)展概況模型優(yōu)化技術模型壓縮:知識蒸餾、量化、剪枝等稀疏注意力機制:滑動窗口注意力機制、全局注意力機制等多頭注意力變體:分組查詢注意力機制、多頭隱式注意力機制等Flash

attention等…技術支持技術支持模型公司Gemma-2Gemini-NanoLlama-3.1MobileLLMPhi

-3OpenELMMistralMistralGoogleMetaMicrosoftApple訓練GPU類型TPUv4,

TPUv5eA100,

H100A100,

H100算力租賃等A100,

H00Gemma-2基于Gemma-1優(yōu)化模型具體細節(jié);Gemini-Nano致力于在終端設備上運行;GQA由谷歌創(chuàng)新提出Llama追求數(shù)據(jù)上的scaling

law,Llama

-3.1加入多模態(tài)/多語言/長文本/實用工具等能力;MobileLLM強調(diào)小模型的深度比寬度更重要Phi-1專注于編碼;Phi-2開始學習推理;Phi-3擅長編碼和推理;強調(diào)數(shù)據(jù)的小而精核心目標在于服務終端設備及應用歐洲LLM領先獨角獸特點性能追求方向追求方向?qū)?/p>

型大小壓縮至10B參數(shù)以下,性能向10B~100B級別參數(shù)的模型靠攏資料:谷歌,Meta,微軟,蘋果,Mistral,西南證券整理31.1

小模型24H1加速迭代,模型性能持續(xù)提升

發(fā)展節(jié)奏:24H1小模型加速推出,Meta

Llama領先發(fā)布,微軟、谷歌相繼迭代,蘋果厚積薄發(fā)。

模型參數(shù):7B模型占據(jù)主流;3B及以下小模型進一步探索,其中蘋果小模型梯隊分布明顯。

訓練數(shù)據(jù):Meta在有限參數(shù)下追求數(shù)據(jù)量上的scaling

law;微軟專注小而精的數(shù)據(jù)集;蘋果旗下小模型的訓練數(shù)據(jù)量與參數(shù)量的比值不低。

算力消耗:23年GPU大多采用A100,24年主要采用H100;谷歌使用自研TPU;創(chuàng)企選擇上云等。23H2及24H1海外小模型版本迭代情況預訓練數(shù)據(jù)量(B

Tokens)預訓練數(shù)據(jù)量與模型參數(shù)量的比值公司模型名稱發(fā)布日期模型參數(shù)量(B)GPU型號預訓練耗時Gemma-2-9BGemma-2-2.6BGemma-1-7BGemma-1-2BGemini-Nano-3.25BGemini-Nano-1.8BLlama-3-8B2024年6月27日訓練中92.678000200060003000/8897698571500/4096張TPUv4512張TPUv5e4096張TPUv5e512張TPUv5eTPUv5eorTPUv4TPUv5eorTPUv5H100//////2024年2月21日2024年2月21日2023年12月6日2023年12月6日2024年4月18日2023年7月18日2023年2月24日2024年2月22日2024年2月22日2024年4月23日2024年4月23日2023年12月12日2023年9月11日2023年6月20日2024年4月25日2024年4月25日2024年4月25日2024年4月25日Google23.251.88770.1250.3573.82.71.31.30.270.451.083.04//150002000100025018752861432000714686868519231300000小時184320小時82432小時Llama-2-7BLlama-1-7BA100A10032張A10032張A100MetaMobileLLM-125MMobileLLM-350MPhi-3-small-7BPhi-3-mini-3.8BPhi-2Phi-1.5Phi-1OpenELM-0.27BOpenELM-0.45BOpenELM-1.08BOpenELM-3.04B//25048003300140030Phi-3系列模型中的Phi-3-medium(14B)模型在512塊H100上訓練耗時42天微軟蘋果96塊A100A1004塊A100128塊A100128塊H100128塊A100128塊H10014天1500小時4天3天3天11天13天751500150015001500555633331389493資料:各公司官網(wǎng),西南證券整理41.1.1

谷歌Gemma系列模型:基于第一代模型架構(gòu)對技術細節(jié)進行優(yōu)化

基于千張TPU集群訓練,模型性能在同類中較為領先。1)Gemma-2-9B:在4096張TPUv4上進行訓練,在多數(shù)基準中得分超過Llama-3-8B和Mistral-7B等同類模型,MMLU

5-shot、GSM8K5-shot的測試得分相較于前一代模型Gemma-1-7B分別有11%和32%的增長。2)Gemma-2-2.6B:在512張TPUv5e上進行訓練,沿用第一代模型架構(gòu),對技術細節(jié)進一步優(yōu)化,Gemma-2-2.6B模型較上一代Gemma-1-2.5B模型在參數(shù)量基本不變和數(shù)據(jù)集更小的情況下實現(xiàn)更優(yōu)性能,MMLU

5-shot、GSM8K

5-shot的測試得分相較于上一代模型分別有21%和58%的增長。谷歌Gemma系列模型性能情況模型測試基準MMLUGemma-1-2.5B

Gemma-2-2.6BMistral-7B62.560.539.644.063.856.078.583.012.780.582.247.083.262.523.226.240.2LLaMA-3-8B66.6Gemma-1-7B64.4Gemma-2-9B71.35-shot25-shot5-shot42.348.515.124.248.535.266.871.711.873.277.349.769.453.212.522.029.251.355.423.930.652.041.970.973.015.080.177.851.972.559.416.717.729.6ARC-CGSM8KAGIEvalDROP59.261.168.445.751.868.63-5-shot3-shot,F13-shot,CoT5-shot45.944.952.858.456.369.4BBH61.159.068.2WinograndeHellaSwagMATH76.179.080.610-shot4-shot82.082.381.924.336.6ARC-e0-shot81.588.0PIQA0-shot81.281.7SIQA0-shot51.853.4Boolq0-shot83.284.2TriviaQANQ5-shot63.476.65-shot23.029.2HumanEvalMBPPpass@13-shot32.340.244.452.4資料:谷歌,Meta,微軟,蘋果,西南證券整理51.1.2

谷歌Gemini-Nano系列模型:部分任務性能距Gemini

Pro較小

專為設備部署而設計,擅長總結(jié)和閱讀理解。2023年12月6日,谷歌發(fā)布Gemini系列自研大模型,參數(shù)規(guī)模從大至小分別為Gemini-Ultra、Gemini-Pro、Gemini-Nano,其中Gemini-Nano模型包括兩種版本,Nano-1參數(shù)規(guī)模為1.8B,Nano-2為3.25B,旨在分別針對低內(nèi)存和高內(nèi)存的設備。

Gemini-Nano-1和Nano-2模型與參數(shù)規(guī)模更大的Gemini-Pro模型對比來看:1)根據(jù)BoolQ基準(主要用于衡量模型理解問題和回答問題的邏輯能力)得分,Gemini-Nano-1的準確率為71.6%,性能是Gemini-Pro的81%,Gemini-Nano-2的準確率為79.3%,是Gemini-Pro的90%,更接近Gemini-Pro的性能;2)TydiQA(GoldP)基準涉及回答復雜問題的能力,Gemini-Nano-1和Gemini-Nano-2的準確率為68.9%和74.2%,分別是Gemini-Pro的85%和91%,性能差距較小。

Gemini-Nano-1和Gemini-Nano-2模型對比來看:隨著模型參數(shù)規(guī)模從Nano-1的1.8B增加至Nano-2的3.25B,模型的性能表現(xiàn)在大多數(shù)任務性能均能得到提升。谷歌Gemini-Nano系列模型性能情況Gemini-Nano-1(1.8B)Gemini-Nano-2模型測試基準準確率(%)相對于Gemini

Pro的比例準確率(%)相對于Gemini

Pro的比例BoolQTydiQA(GoldP)71.668.938.618.834.82081%85%69%43%47%33%41%64%79.374.246.524.842.427.222.855.890%91%83%56%58%45%70%78%NaturalQuestions(Retrieved)NaturalQuestions(Closed-book)BIG-Bench-Hard(3-shot)MBPPMATH(4-shot)13.545.9MMLU(5-shot)資料:谷歌,西南證券整理61.1.3

Meta

Llama系列模型:在有限參數(shù)下追求數(shù)據(jù)上的scaling

law

同等參數(shù)情況下性能大幅提升,較小模型可以通過擴大訓練數(shù)據(jù)量實現(xiàn)優(yōu)秀性能。1)對比同等參數(shù)模型來看,Llama-3的8B和70B模型相對于Llama-2的7B和70B模型性能均得到大幅提升。2)對比Llama-3-8B和Llama-2-70B來看,在算力消耗基本持平的情況下,更好的模型性能可以通過在更大規(guī)模的數(shù)據(jù)集上訓練實現(xiàn),Llama-3-8B模型的參數(shù)量約為Llama-2-70B的1/9,但訓練數(shù)據(jù)集是其7.5倍,最終的模型效果基本可與70B的模型相匹敵,且經(jīng)過指令微調(diào)后,指令微調(diào)模型Llama-3-8B明顯超過Llama

2

70B。MetaLlama系列模型性能情況指標Llama

3Llama

2模型階段類別基準Llama

3

70B

Llama

3

8B

Llama

2

70B

Llama

2

7BMMLU(5-shot)79.563.083.883.181.393.089.785.651.179.079.782.039.581.793.050.466.645.972.676.161.178.678.576.444.475.758.468.434.262.279.630.069.754.878.781.865.785.387.582.649.473.170.252.921.025.657.511.645.728.857.673.338.153.772.172.239.665.537.934.121.77.9AGIEval

English

(3-5

shot)CommonSenseQA(7-shot)Winogrande(5-shot)BIG-Bench

Hard

(3-shot,CoT)ARC-Challenge(25-shot)TriviaQA-Wiki

(5-shot)SQuAD

(1-shot)General預訓練模型KnowledgereasoningQuAC

(1-shot,F1)BoolQ

(0-shot)DROP(3-shot,F1)MMLU(5-shot)Reading

comprehensive多任務語言理解推理專業(yè)知識推理能力GPQA

(0-shot)指令微調(diào)模型代碼生成能力HumanEval

(0-shot)GSM-8K

(8-shot,CoT)MATH

(4-shot,CoT)數(shù)學(小學數(shù)學問題)數(shù)學(數(shù)學工具和函數(shù))25.73.8資料:Meta,西南證券整理71.1.4

Meta

MobileLLM系列模型:強調(diào)小模型的深度比寬度更重要

模型參數(shù)進一步縮小,模型架構(gòu)追求深而窄。MobileLLM的模型參數(shù)僅為1.25億和3.5億,其技術報告聚焦于少于10億參數(shù)的sub-billion(<1B)模型,強調(diào)模型架構(gòu)對小模型的重要性,認為模型深度比寬度更重要,并引入分組查詢注意力機制等優(yōu)化技巧,相較于同類125M/350M大小模型的基準測試得分相比,MobileLLM的平均分均有提高。1)Zero-Shot常識推理任務方面:在125M參數(shù)量級下,MobileLLM的模型性能顯著優(yōu)于OPT、GPT-Neo、Calaclafa等其他模型;在350M參數(shù)量級下,MobileLLM的各項測試得分均優(yōu)于此前最先進的模型OPT-350M。2)問答和閱讀理解任務方面:根據(jù)在TQA問答的benchmark和RACE閱讀理解的benchmark的測評結(jié)果,MobileLLM-125M和MobileLLM-350M模型的精度比同等量級的小模型要高出較多。Meta

MobileLLM系列模型性能情況MobileLLM-125MMobileLLM-350M模型測試基準0-shotGalactica-125MOPT-125MGPT-neo-125MOPT-350MARC-eARC-cBoolQPIQA43.927.160.265.342.438.939.553.139.728.913.914.312.544.026.254.955.438.929.628.249.641.325.257.562.041.931.131.250.834.727.58.740.724.861.362.541.929.731.650.734.727.08.053.833.562.468.644.749.640.057.645.633.822.023.924.241.925.754.064.842.636.233.352.437.128.011.012.310.40-shot0-shot0-shotSIQA0-shotHellaSwagOBQAWinoGrandeRACE0-shot0-shot0-shotAcc,middleAcc,highF1

score,1-shotF1

score,5-shotF1

score,64-shotRACETQATQA9.67.9TQA8.25.0資料:Meta,西南證券整理81.1.5

微軟Phi系列模型:主要創(chuàng)新在于構(gòu)建教科書質(zhì)量的訓練數(shù)據(jù)集

訓練數(shù)據(jù)追求小而精,模型參數(shù)逐步擴大。2023年6月,微軟發(fā)布論文《Textbooks

Are

All

YouNeed》,用規(guī)模僅為7B

tokens的“教科書質(zhì)量”的數(shù)據(jù)集,訓練出1.3B參數(shù)、性能良好的Phi-1模型。此后,歷代Phi模型沿用“Textbooks

Are

All

You

Need”的訓練思想,進一步使用精挑細選的高質(zhì)量內(nèi)容和過濾的Web數(shù)據(jù)來增強訓練語料庫,以提升模型性能。在最新迭代的模型中,Phi-3-mini-3.8B通過3.3T

tokens的訓練,在學術基準和內(nèi)部測試上可與經(jīng)過15T

tokens訓練的Llama-3-In-8B模型相匹敵。微軟Phi系列模型性能情況模型測試基準5-ShotHBK*21Phi-3-mini-3.8b

Phi-3-small-7bPhi-2-2.7b56.3Mistral-7b61.758.547.146.450.035.175.278.690.677.774.657.354.279.872.272.653.028.050.8Gemma-1-7b63.6Llama-3-In8b66.5MMLUHellaSwagANLI68.876.752.882.553.837.564.084.994.684.276.671.770.883.277.280.265.058.570.075.777.058.189.665.445.158.190.797.086.979.279.181.588.084.880.070.261.071.75-ShotZHB*197-Shot

NWD*208-Shot,

CoT

CKB*212-ShotJPO*200-ShotZCG*235-Shot

JCWZ1710-Shot

CCE*1810-Shot

CCE*185-Shot

BZGC195-Shot

BZGC1953.649.871.142.548.757.3GSM-8KMedQAAGIEvalTriviaQAArc-C61.159.877.440.949.660.529.842.142.045.272.367.775.978.382.8Arc-E88.591.493.4PIQA60.278.175.7SociQA68.365.573.9BigBench-Hard

3-Shot,

CoTSRR*22

SSS*2259.459.651.5WinoGrandeOpenBookQABoolQ5-Shot

SLBBC1910-Shot

MCKS182-Shot

CLC*1954.755.665.073.678.682.666.080.9CommonSenseQATruthfulQAHumanEvalMBPP10-ShotTHLB1910-Shot,

MC2

LHE220-ShotCTJ*2169.376.279.052.163.259.060.634.160.43-ShotAON*2151.567.7資料:微軟,西南證券整理91.1.6

蘋果OpenELM系列模型:核心目標在于服務終端設備及應用

致力于服務終端設備,模型性能整體表現(xiàn)出色。OpenELM的模型參數(shù)包括2700萬、4500萬、11億和30億四種大小,相較于市場主流的70億參數(shù)模型,更加輕巧精悍,致力于讓主流筆記本電腦和部分高性能智能手機也能承載和運行高性能模型。根據(jù)官方信息,OpenELM在同類模型表現(xiàn)較好:

OpenELM-1.08B:在使用較少預訓練數(shù)據(jù)(僅為艾倫人工智能研究所AI2

Labs推出的先進開源模型—OLMo-1.18B模型的1/2)的情況下,性能超越OLMo,提升幅度達2.36%。

OpenELM-3B:在衡量知識推理能力的ARC-C基準上,準確率為42.24%;在MMLU和HellaSwag兩項基準測試中,得分分別為26.76%和73.28%,首批試用者反饋OpenELM模型表現(xiàn)穩(wěn)定且一致性高,不易產(chǎn)生過于激進或不當內(nèi)容的輸出。蘋果OpenELM系列小模型性能情況OpenELM-

MobiLlama-

OpenELM-

MobiLlama-

MobiLlama-OLMo-1.18BOpenELM-

OpenELM-模型測試基準MMLU0.28B25.7227.6566.7947.1569.7584.70.50B26.0929.5265.4752.7571.1183.60.45B26.0130.20.80B25.21.26B23.8734.6470.2463.2774.8189.11.08B27.0536.6971.7465.7175.5790.63.04B26.7642.2473.2973.2878.2492.75-shot25-shot25-shot10-shot0-shot0-shot5-shot0-shot0-shot0-shot0-shot0-shot26.1634.4769.9563.8175.1487ARC-CCrowS-PairsHellaSwagPIQA30.6366.2554.1773.1885.968.6353.8672.3187.2SciQWinoGrandeARC-e53.8345.0853.9830.9139.2439.2456.2746.0455.7232.1537.5537.5557.2248.0655.7833.1140.1840.1856.3549.6260.0333.6838.4138.4160.7756.6560.3435.0235.1935.1960.4657.2861.7436.7532.9432.9463.2255.4363.5836.4636.9836.9867.2559.8967.4BoolQRACE38.7634.9834.98TruthfulQATruthfulQA-mc2資料:蘋果,西南證券整理101.2

模型架構(gòu)持續(xù)優(yōu)化,壓縮技術不斷創(chuàng)新

為壓縮模型大小、在保持較小模型尺寸的同時實現(xiàn)高性能、以及能夠支持較長的上下文,各海外模型廠商紛紛布局小模型,并在模型算法優(yōu)化方面進行積極探索,于24H1呈現(xiàn)出多種技術創(chuàng)新方向,主要集中在模型壓縮技術,稀疏注意力機制、多頭注意力變體三大領域。海外小模型架構(gòu)優(yōu)化及技術創(chuàng)新方向是否進行模型壓縮?量化/剪枝/知識蒸餾是否采用稀疏注意力機制?是否采用FlashAttention?是否采用多頭注意力變體?支持的上下文長度(tokens)公司模型名稱發(fā)布日期Gemma-2-9BGemma-2-2.6BGemma-1-7BGemma-1-2B2024年6月27日訓練中知識蒸餾滑動窗口&全局注意力√√√√/GQAGQAMHAMQAMQAMQAGQAGQAMHAGQAGQAGQAGQAMHAMHAMHAGQAGQAGQAGQA8,1928,1928,1928,192//滑動窗口&全局注意力2024年2月21日2024年2月21日//Google//Gemini-Nano-3.25B

2023年12月6日量化、知識蒸餾/Gemini-Nano-1.8BLlama-3-8B2023年12月6日2024年4月18日2023年7月18日2023年2月24日2024年2月22日2024年2月22日2024年4月23日2024年4月23日2023年12月12日2023年9月11日2023年6月20日2024年4月25日2024年4月25日2024年4月25日2024年4月25日量化、知識蒸餾//////8,1924,0962,048/Llama-2-7B知識蒸餾//MetaLlama-1-7B///MobileLLM-125MMobileLLM-350MPhi-3-small-7BPhi-3-mini-3.8BPhi-2量化、知識蒸餾//量化、知識蒸餾////局部塊注意力√√√√√√√√√8,1924,0962,0482,0482,0482,0482,0482,0482,048量化////////微軟蘋果/Phi-1.5/Phi-1/OpenELM-0.27BOpenELM-0.45BOpenELM-1.08BOpenELM-3.04B量化、知識蒸餾量化、知識蒸餾量化、知識蒸餾量化、知識蒸餾資料:谷歌,Meta,微軟,蘋果,西南證券整理111.2.1

模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高

模型壓縮技術持續(xù)發(fā)展,助力端側(cè)部署。模型壓縮技術旨在保持模型基本性能的情況下降低對推理算力的需求,主要包括三種方法:1)參數(shù)剪枝(Pruning):刪除部分權重參數(shù)、去除神經(jīng)網(wǎng)絡中的冗余通道、神經(jīng)元節(jié)點等;2)參數(shù)量化(Quantization):將浮點計算轉(zhuǎn)成低比特定點計算,業(yè)內(nèi)應用普遍;3)知識蒸餾(Knowledge

Distilling):將大模型作為教師模型,用其輸出訓練出一個性能接近、結(jié)構(gòu)更簡單的學生模型,由Geof

f

rey

Hinton等人在2015年谷歌論文《Distillingthe

Knowledge

in

a

Neural

Network》中提出,目前關注較高,業(yè)內(nèi)通常使用GPT-4和Claude-3作為教師模型。模型壓縮的三種方法:剪枝/量化/知識蒸餾Requantizationint32Output教師模型int8剪枝前Activationint32AccumulatorBiasesint32int8InputConvWeights4個輸入/3個神經(jīng)元/2個輸出/18條網(wǎng)絡連接Distillint8PruningKnowledgeQuantizerActivationAccumulatorConvOutputTransfer剪枝后學生模型BiasesInputQuantizerWeights4個輸入/2個神經(jīng)元/2個輸出/12條網(wǎng)絡連接資料:英偉達官網(wǎng),《A

White

Paper

on

Neural

Network

Quantization》,《Knowledge

Distillation:

A

Survey》,西南證券整理121.2.1

模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高

蘋果OpenELM模型:模型微調(diào)引入量化和知識蒸餾技術,提高模型泛化能力,幫助模型實現(xiàn)必要性能。根據(jù)2024年6月10日蘋果發(fā)布的研究成果:

1)參數(shù)量化:對于設備端推理,為保持模型質(zhì)量,蘋果采用混合2-bit和4-bit的配置策略,平均參數(shù)量化至3.5-bit,以實現(xiàn)與未壓縮模型相同的準確性。

2)知識蒸餾:蘋果結(jié)合拒絕采樣和知識蒸餾等多種技術,創(chuàng)新模型微調(diào)方法——a

rejectionsampling

fine-tuning

algorithm

with

teacher

committee,其中,Teacher

Committee(教師委員會)是指使用多個教師模型來指導學生模型的學習,每個教師模型可能具有不同的優(yōu)勢和專業(yè)領域,通過綜合多個教師模型的知識,提供更全面、準確的指導,幫助學生模型更好地學習。蘋果端側(cè)模型在指令遵循測評上得分更高蘋果端側(cè)模型在指寫作測評上得分更高100%80%60%40%20%0%1086420Apple

on-

Phi-3-mini

Mistral-7B

Gemma-7B

Gemma-2BdeviceApple

on-

Phi-3-mini

Mistral-7B

Gemma-7B

Gemma-2BdeviceInstruction-level

AccuracyPrompt-level

AccuracySummarizationComposition資料:蘋果,西南證券整理資料:蘋果,西南證券整理131.2.1

模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高

Meta

MobileLLM模型:采用量化和知識蒸餾技術,模型壓縮后性能差距較小。根據(jù)2024年6月27日Meta發(fā)布的MobileLLM模型技術報告:

1)參數(shù)量化:模型參數(shù)量化的消融實驗分別對全精度BF16和量化后的W8A8(8位權重、8位激活)模型進行零樣本常識推理任務測試,根據(jù)實驗結(jié)果,量化后的模型效果相較于全精度BF16的模型,性能差距均在0.5以內(nèi),模型經(jīng)過量化壓縮后性能損失較小。

2)知識蒸餾:在知識蒸餾的消融實驗中,Meta將LLaMA-v2-7B作為教師模型,使用來自大型預訓練教師模型(即LLaMA-v2-7B)和學生模型(MobileLLM-125M和350M模型)logits之間的交叉熵計算知識蒸餾損失(KD

loss),再集成至小模型的預訓練過程中。根據(jù)實驗結(jié)果,MobileLLM-125M和350M模型經(jīng)過教師模型的知識蒸餾后,性能誤差分別分別僅為0.1和0.3。Meta

MobileLLM模型關于參數(shù)量化和知識蒸餾的消融研究消融研究量化模型精度ARC-eARC-cBoolQPIQASIQAHellaSwagOBQAWinoGrande

Avg.GapMobileLLM-125MMobileLLM-125MMobileLLM-LS-125MBF16W8A8BF1645.545.244.444.051.451.451.951.343.141.850.248.727.727.127.027.531.332.135.233.828.928.531.831.858.358.361.560.961.061.159.659.558.158.556.960.764.665.065.164.668.168.868.969.162.361.667.767.441.941.743.043.143.643.143.443.742.341.144.343.236.436.237.637.747.247.147.247.234.634.545.845.935.433.637.837.741.640.643.343.031.532.740.838.950.451.052.051.055.455.158.457.050.151.655.553.745.044.846.145.849.949.951.050.643.943.849.148.8-0.2-MobileLLM-LS-125M

W8A80.3-MobileLLM-350MMobileLLM-350MMobileLLM-LS-350MBF16W8A8BFI60.0-MobileLLM-LS-350M

W8A80.4-125M

model125M

model350M

model350M

modelLabelLabel+KDLabel0.1-知識蒸餾Label+KD0.3資料:Meta,西南證券整理141.2.1

模型壓縮技術:參數(shù)量化運用廣泛,知識蒸餾熱點較高

谷歌Gemini-Nano模型:知識蒸餾+量化壓縮。Nano的1.8B和3.25B模型由更大的Gemini模型知識蒸餾訓練而來,并將其量化至4-bit,以便在低內(nèi)存和高內(nèi)存的設備上部署運行。

谷歌Gemma-2模型:通過大模型壓縮蒸餾出一個小模型,再用數(shù)據(jù)去訓練,比從頭訓練小模型的效果更好。根據(jù)谷歌技術報告,Gemma-2的9B和2.6B模型在訓練策略上均采用知識蒸餾技術,使模型能夠在相同訓練數(shù)據(jù)體量下達到更好的效果。根據(jù)消融實驗,基于500B

tokens的訓練數(shù)據(jù)集,由7B模型知識蒸餾后的2.6B模型,相較于一個從零開始訓練的2.6B模型,三項基準測試均分更高。

微軟Phi-3模型:量化壓縮。微軟將Phi-3-mini模型量化至4-bit,內(nèi)存占用約為1.8GB,根據(jù)其端側(cè)部署測試,該模型可在帶有蘋果A16仿生芯片的iPhone

14上以原生方式運行并完全離線。Gemma-2-2.6B知識蒸餾后三項測試均分更高Phi-3-mini量化后在A16仿生芯片iPhone上運行7560453015067.760.3from

scratchdistilled(7B)資料:谷歌,西南證券整理資料:微軟,西南證券整理151.2.2

多頭注意力變體:減少注意力頭數(shù)量,降低內(nèi)存占用

KV

cache:通過緩存中間計算結(jié)果,以“內(nèi)存空間”換“計算時間”。當前,主流的大語言模型基本采用Transformer

decoder-only架構(gòu),其推理過程主要包括預填充和解碼階段。1)預填充階段:根據(jù)用戶提出的prompt,生成第一個token;2)解碼階段:在生成第一個token之后,開始采用自回歸方式逐個生成后續(xù)的token,每個token的生成均需要依賴并attention此前的token,因此,隨著解碼過程的進行,需要向此前生成的token的關注會越來越多,計算量也逐漸增大。

為減少解碼過程中的重復計算,可以通過引入KV

Cache,即緩存中間結(jié)果、在后續(xù)計算中直接從Cache中讀取而非重新計算,從而實現(xiàn)“以空間換時間”,使顯存占用增加、但計算需求減少。LLM自回歸推理過程示意圖LLM在多輪對話場景中引入KV

Cache輸入輸出第一次請求輸入

輸出預填充階段高

在十自回歸推理第二次請求高

十月舉行KV

Cache新輸入

輸出解碼階段高

月高

舉第三次請求KV

CacheKV

Cache新輸入

輸出第n次請求…資料:西南證券資料:大模型生態(tài)圈,西南證券整理161.2.2

多頭注意力變體:減少注意力頭數(shù)量,降低內(nèi)存占用

為平衡模型性能與存算成本,產(chǎn)生多種注意力變體。對比各注意力變體的特征來看:①

多頭注意力機制(MHA):1個Query

Head對應1個KV

Head,模型效果更好,但隨著模型參數(shù)增長、以及更長的上下文,會形成過大的KV

cache,從而帶來明顯的訪存瓶頸。②

多查詢注意力機制(MQA):只保留一個KV

Head,通過多個Query

Heads共享相同的KV

Head,使模型內(nèi)存占用減少、推理速度更快,但是性能損失較大。③

分組查詢注意力機制(GQA):將Query

Heads進行分組,每組Query

Heads對應一個KV

Head,介于MHA和MQA之間,由多個Query共享?組KV,在減少內(nèi)存占用的同時,提升數(shù)據(jù)處理速度,保持模型處理下游任務的性能。④

多頭隱式注意力機制(MLA):將KV值壓縮至低維空間,減少模型推理的內(nèi)存占?和計算需求。LLM推理中有關KV

Cache的注意力機制及改進資料:《DeepSeek-V2:

A

Strong,

Economical,and

Efficient

Mixture-of-Experts

Language

Model》,西南證券整理171.2.2

多頭注意力變體:減少注意力頭數(shù)量,降低內(nèi)存占用

GQA由谷歌率先提出,成為當前主流注意力變體。GQA技術由Google

Research團隊于2023年12月提出,根據(jù)論文《GQA:

Training

Generalized

Multi-Query

Tra

nsf

ormer

Models

from

Multi-Head

Checkpoints》中關于各種注意力變體的表現(xiàn)來看,MHA基準測試均分最高、但推理耗時較長,MQA推理時間最短,但模型性能略差,而GQA能夠平衡模型性能和推理速度,在較短的推理時間內(nèi)取得較好的表現(xiàn)性能。從模型當前采用程度來看,截至24H1,GQA僅提出約半年時間,便在主流小模型中得到廣泛采用,谷歌的Gemma-2,微軟的Phi-3、Meta的Llama-3和MobileLLM模型、蘋果的端側(cè)模型OpenELM,以及法國創(chuàng)企Mistral-7B更新版本均采用分組查詢注意力機制。MHA、GQA、MQA對比采用GQA技術的主流小模型47.547.046.546.045.5MHA-XXLGQA-XXLMQA-XXLMHA-Large0.00.51.01.52.0推理時間(s)資料:《GQA:

TrainingGeneralizedMulti-Query

TransformerModels

from

Multi-Head

Checkpoints》,西南證券整理資料:各公司官網(wǎng),西南證券整理181.2.3

稀疏注意力機制:選擇性處理信息,降低計算需求

稀疏注意力(Sparse

Attention)機制:選取一部分信息進行交互,節(jié)省注意力機制成本。在當前主流模型架構(gòu)Transformer中,注意力矩陣可以通過限制Query-Key對的數(shù)量來減少計算復雜度,即將注意力機制稀疏化。稀疏注意力機制主要采用基于位置信息和基于內(nèi)容的稀疏化方法,其中,基于位置信息的稀疏注意力方法更加主流,主要包括全局/帶狀/膨脹/隨機/局部塊五種類型。近年來,隨著大語言模型的加速發(fā)展,計算和存儲壓力增大,使得稀疏注意力機制不斷優(yōu)化,逐步衍生出基于以上稀疏注意力機制的復合模式,涌現(xiàn)出Longformer等稀疏注意力模型?;谖恢眯畔⒌淖⒁饬C制稀疏化方法全局注意力帶狀注意力(Band

Attention)限制Query只與相鄰節(jié)點進行交互膨脹注意力(Di

lated

Attention)

(Random

Attention)通過增加空隙以獲取更大的感受野隨機注意力局部塊注意力Global

Attention加入全局節(jié)點以增強長距離依賴關系(Block

Attention)使用多個不重疊的塊來限制信息交互通過隨機采樣,提升非局部的交互資料:《大規(guī)模語言模型:從理論到實踐》,西南證券整理191.2.3

稀疏注意力機制:選擇性處理信息,降低計算需求

滑動窗口注意力(Sliding

Window

Attention-SWA)機制:關注臨近位置信息,簡化計算步驟。1)Mistral-7B:創(chuàng)新使用SWA機制,解決長文本問題。SWA作為一種稀疏注意力機制,在輸入序列中的每個token周圍使用一個固定大小的窗口,其計算復雜度為O(s×w

)(其中s是輸入序列的長度,w是固定的窗口大小,且w<s),相較于計算復雜度為O(s×s)的完全自注意力機制,會更加高效。在長文本情況下,一般相鄰tokens的相關性更大,因此,在文本生成時并不需要對所有tokens計算注意力值,只需計算每個token前的n個tokens的注意力值,從而在更長的上下文情況下不增加KVCache緩存的大小。2)Gemma-2:交替使用局部滑動窗口和全局注意力,捕捉細節(jié)的同時保證全局理解。Gemma-2在架構(gòu)上基本沿用第一代模型設計,在注意力機制上進行細節(jié)優(yōu)化,實現(xiàn)局部滑動窗口和全局注意力的交替使用,其中,滑動窗口大小設置為4096

tokens,而全局注意力窗口為8192

tokens,滑動窗口注意力機制可以確保模型能夠精確捕捉文本細節(jié),全局注意力機制有助于保持模型對上下文的正確理解。Mistral-7B:采用SWA機制解決長文本問題Gemma-2:調(diào)整滑動窗口大小對困惑度影響較小1.751.651.551.451.351.25010242048307240965120滑動窗口注意力機制Sliding

Window資料:Mistral

《Mistral

7B》,西南證券整理資料:谷歌,西南證券整理20目

錄1基礎的構(gòu)建:模型實現(xiàn)高效壓縮是端側(cè)AI的第一步1.1

十億級參數(shù)模型加速迭代,性能表現(xiàn)向百億參數(shù)模型靠攏1.2模型壓縮技術助力端側(cè)部署,注意力優(yōu)化機制降低存算需求2落地的關鍵:模型適配終端硬件是端側(cè)AI的第二步2.1

從小模型論文看端側(cè)硬件瓶頸:內(nèi)存/功耗/算力2.2從芯片廠商布局看硬件升級趨勢:制程/內(nèi)存/NPU/電池/散熱3體驗的突破:模型助力人機交互是端側(cè)AI第三步3.1UI模型:手機界面理解能力提升,任務設計為人機交互奠定基礎3.2

系統(tǒng)級AI:云端模型補充交互體驗,系統(tǒng)升級支持更多AI場景212

小模型能上終端是端側(cè)AI的第二步手機終端硬件發(fā)展概況蘋果論文《LLMin

a

flash》從小模型論文

指出:7B參數(shù)、半精度的Meta

MobileLLM論文指出:一個約有5000焦耳滿電能量的iPhone,可支持7B模型在10

tokens/秒的AI生成速率下進行對話不到2小時Meta

MobileLLM論文指出:用于計算的SRAM通常限制在約20MB左右,一般只能容納一個單獨的Transformer塊看硬件瓶頸LLM,完全加載進終端所需的DRAM空間超過14GB硬件瓶頸硬件瓶頸先進制程最大顯存

最大內(nèi)存

最大帶寬

L2-Cache

L3-CacheAI算力TDP11W蘋果TSMC

3nmTSMC

4nmTSMC

4nm6

GB/8

GB16

GB24

GB51.2GB/s76.8GB/s76.6GB/s20

MB24

MB18

MB12

MB35

TOPS33

TOPS34

TOPSA17

Pro當前手機硬件配置聯(lián)發(fā)科//12.5W12.5W天璣

9300高通驍龍8

Gen

36

GB硬件升級硬件升級先進制程:從4nm向3nm、從3nm向2nm升級存儲:從8+6GB向1

6

+12GB擴容、從50GB/s、80GB/s向更高帶寬升級算力:從35TOPS向更高算力升級電池:鋼殼+硅碳負極+疊片工藝散熱:VC散熱板+石墨烯未來硬件升級方向資料:各公司官網(wǎng),CPU

monkey,西南證券整理222.1

從小模型論文看端側(cè)硬件瓶頸——內(nèi)存容量

將LLM裝進終端要求手機內(nèi)存有多少DRAM容量?

蘋果在其發(fā)布的論文《LLM

in

a

flash》中指出:在通常的LLM推理階段,LLM直接加載至DRAM中,一個7B參數(shù)、半精度的LLM,完全加載進DRAM所需的存儲空間超過14GB。考慮到目前主流手機的DRAM最高也就16GB的水平,在端側(cè)直接使用DRAM來加載7B

LLM面臨巨大挑戰(zhàn)。

通常一個應用最多可以占用多少DRAM內(nèi)存?

Meta在其MobileLLM模型論文中指出:將8-bit量化權重下的LLaMA-2-7B模型整合至手機,內(nèi)存代價過高,手機目前DRAM容量從iPhone

15的6GB到Google

Pixel

8

Pro的12GB不等,由于DRAM需要與操作系統(tǒng)和其他應用程序共享,一個移動應用不應超過DRAM的10%(即1~2GB)。

微軟在其Phi-3模型技術報告中指出,Phi-3-mini可在手機上實現(xiàn)本地推理,在3.8B尺寸、在量化為4-bit權重下,大約占用1.8GB的內(nèi)存。移動設備中的存儲層次結(jié)構(gòu)1)

閃存(FlashMemory)特點:①大存儲:可存儲的內(nèi)容多,如圖所示的100G;②低帶寬:數(shù)據(jù)傳輸速率低,如圖所示的1GB/s。2)DRAM特點:①小存儲;1)

用于執(zhí)行高速

用程序的操作內(nèi)存主要位于D

RAM中,通常限制在6-12GB;2)

用于計算的SRAM

通常限制在20M左右。②高帶寬。資料:蘋果,Meta,微軟,西南證券整理232.1

從小模型論文看端側(cè)硬件瓶頸——內(nèi)存容量

如何解決當前手機DRAM內(nèi)存容量空間有限與LLM需求之間的矛盾?

Meta

MobileLLM采用方法:由操作系統(tǒng)和其他應用程序需要共享DRAM容量,一個移動應用不應超過DRAM的10%,因此,Meta選擇研究并部署一個小于10億參數(shù)的LLM,推出僅有125M和350M參數(shù)大小的MobileLLM模型,模型優(yōu)化方法包括但不限于前文所提及的量化、知識蒸餾、GQA等方法,并采取“共享層”策略,即通過增加隱藏層的數(shù)量而不增加額外的模型存儲成本。通常在手機內(nèi)存層次結(jié)構(gòu)中,用于計算的SRAM通常限制在約20MB左右,一般只能容納一個單獨的Transformer塊,在“層共享”策略下,Meta

MobileLLM將共享的權重放入緩存中,在SRAM和DRAM之間實現(xiàn)數(shù)據(jù)共享,從而提高自回歸推理的整體執(zhí)行速度。MetaMobileLLM模型提出“層共享”方法(a)

沒有層共享的基準模

:通常一個transformer塊包含多頭自注意力(MHSA)和前饋網(wǎng)絡(FFN);(c)

全局重復共享(Repeat-all-over

sharing):該方法下,模型在零樣本常識推理測試中具備更高的性能。(b)

立即以塊為單位共享

(Immediate

block-wise

sharing):能夠最好地利用緩存,因為共享權重可以保留在緩存中,并立即兩次計算。(d)

逆共享

(Reversesharing)資料:Meta,西南證券整理242.1

從小模型論文看端側(cè)硬件瓶頸——內(nèi)存容量

如何解決當前手機DRAM內(nèi)存容量空間有限與LLM需求之間的矛盾?

蘋果《LLM

in

a

flash》解決思路:由于LLM所需內(nèi)存大小顯著大于實際DRAM容量,因此,蘋果嘗試將LLM放在Flash

Memory中,在每次需要進行推理時,僅將部分必要菜單參數(shù)加載到DRAM中。在該方案中,需解決兩個問題:①如何快速識別出模型的哪些參數(shù)是必要的;②由于Flashmemory到DRAM的帶寬較低,如何加快由Flash

memory到DRAM的傳輸效率。針對以上問題,蘋果提出三種解決思路:①減少數(shù)據(jù)傳輸量;②提高傳輸吞吐量;③優(yōu)化DRAM數(shù)據(jù)管理。蘋果對DRAM中的數(shù)據(jù)進行精細化管理當需要刪除某個神經(jīng)元時(如左圖標紅部分,對應的是編號為10的神經(jīng)元),只需將num_rows的數(shù)量減1,并

最后一行Copy至被刪除行,結(jié)果如圖4中圖所示。新增時,直接將對應參數(shù)從Flash

memory中copy至該矩陣,無需額外分配存儲空間。資料:蘋果《LLM

in

a

flash》,西南證券整理252.1

從小模型論文看端側(cè)硬件瓶頸——算力

GPU算力影響首個token的推理延遲,內(nèi)存帶寬影響后續(xù)每個token的推理延遲。LLM推理過程主要包括預填充(并行處理輸入prompt的所有tokens,并生成第一個token)和解碼階段(逐個生成后續(xù)的token),其中,預填充所需要的時間

=

模型浮點計算量(FLOPS)

/

GPU半精度浮點算力,根據(jù)該公式可以看出,預訓練階段的性能瓶頸主要在于GPU算力,即GPU算力影響首個token的推理時延;而解碼階段每個token所需的生成時間

=

模型參數(shù)量所占字節(jié)數(shù)(bytes)

/

內(nèi)存帶寬(GB/s)

,根據(jù)公式可以看出,解碼階段的主要性能瓶頸是內(nèi)存帶寬,即內(nèi)存帶寬影響后續(xù)每個token的推理延遲。與此同時,GPU算力的有效利用率和內(nèi)存帶寬的有效利用率的高低也會影響模型的推理速度。Meta

MobileLLM推理延遲表現(xiàn)蘋果通過篩選模型參數(shù)后實現(xiàn)延時減少Meta指出:MobileLLM-125M模型能夠以每秒

50

個令牌的速度運行,而最先進的iPhone

App

MLC

Chat

使用

LLaMA7B

模型以每秒

3~6

個令牌的速度運行。蘋果根據(jù)每個令牌生成步驟有選擇地加載參數(shù)資料:Meta,西南證券整理資料:蘋果《LLM

in

a

flash》,西南證券整理262.1

從小模型論文看端側(cè)硬件瓶頸——內(nèi)存帶寬

GPU算力影響首個token的推理時延,內(nèi)存帶寬影響后續(xù)每個token的推理延遲。

根據(jù)微軟Phi-3模型技術報告,微軟通過在配備A16

Bionic芯片的iPhone

14上部署Phi-3

Mini,進行了量化模型的測試,該設備完全離線運行,每秒生成超過12個token。

根據(jù)蘋果官網(wǎng),小模型在iPhone

15

Pro上的測試結(jié)果來看,端側(cè)AI的延遲約為0.6毫秒,生成速率為每秒30個token,性能較為合理。

目前,主流AI手機芯片對于7B參數(shù)模型的AI生成速度一般在每秒20個tokens左右。iPhone

14每秒生成速率超過12個tokens主要AI手機芯片AI生成速度(token/秒)3025201510570億(7B)參數(shù)模型AI生成速度(token/秒)222020微軟在配備A16

Bionic芯片的iPhone14上部署Phi-3

Mini,在模型量化為4-bit的條件下,每秒生成超過12個token0高通

驍龍8

Gen3聯(lián)發(fā)科

天璣

9300

聯(lián)發(fā)科

天璣

9300+資料:微軟,西南證券整理資料:各公司官網(wǎng),西南證券整理272.1

從小模型論文看端側(cè)硬件瓶頸——功耗

模型產(chǎn)生更多功耗,電池性能有待提高,散熱能力仍需加強。MetaMobileLLM中的功耗瓶頸

LLM能耗:模型每十億參數(shù)下,每個token消耗0.1焦耳。因此,對于一個7B參數(shù)的模型,每個token消耗0.7焦耳。

一個滿電的iPhone,大約有5000焦耳能量,可以支持7B模型在10

tokens/秒的AI生成速率下進

對話不到2小時,每64個tokens消耗0.2%的電量。MobileLLM-350M在8-bit權重下的模型,每個t

o

ken僅消耗0.035焦耳,iPhone可以支持全天的會話使用。資料:Meta,西南證券整理282.2

從芯片廠商布局看硬件升級趨勢——先進制程

手機芯片采用先進制程,工藝有望向3nm邁進。23Q4,高通和聯(lián)發(fā)科分別在其10月和11月峰會上發(fā)布旗下手機芯片驍龍8Gen3和天璣9300,兩者均采用臺積電4nm制程工藝。根據(jù)高通和聯(lián)發(fā)科歷年一年一迭代的發(fā)布節(jié)奏,驍龍8Gen4和天璣9400手機處理器可能于24Q4推出,并有望基于臺積電3nm工藝打造。而蘋果相較于其他手機芯片廠商工藝更為領先,于23Q3率先推出采用3nm制程的iPhone芯片A17

Pro,未來有望在先進制程上保持領先。主流手機芯片廠商Roadmap公司蘋果芯片21Q422Q122Q222Q322Q423Q123Q223Q323Q424Q124Q2A17/A17

Pro@TSMCN3A16@TSMCN4PA系列驍龍8Gen1@TSMC4nm驍龍8Gen2@TSMC4nm驍龍8Gen3@TSMCN4P高通驍龍8系天璣9000@TSMC4nm天璣9000+@TSMC4nm天璣9200@TSMC4nm天璣9200+@TSMC4nm天璣9300@TSMC4nm天璣9300+@TSMC4nm聯(lián)發(fā)科

天璣9000系Exynos2200@三星4nmExynos2400@三星4nm三星Exynos系資料:各公司官網(wǎng),CPU

monkey,西南證券整理292.2

從芯片廠商布局看硬件升級趨勢——內(nèi)存容量及帶寬

內(nèi)存容量仍需擴大,帶寬需求持續(xù)升級。2024年初,聯(lián)發(fā)科陳立忠博士在騰訊科技的采訪中提到,手機運行百億參數(shù)的AI模型,需要至少13GB的內(nèi)存和130GB/s的帶寬,而2023年旗艦手機的配置,內(nèi)存通常為16GB,帶寬為50GB/s,使得手機終端難以運行大模型。1)內(nèi)存容量方面:對比目前市場上三大主流手機芯片來看,蘋果A17

Pro芯片在內(nèi)存容量明顯低于聯(lián)發(fā)科的天璣9300和高通的驍龍8Gen3。隨著AI模型應用的加速,蘋果手機的內(nèi)存容量有望從iPhone15的6+8GB,向8+8GB或12+16GB等更高配置提升。2)內(nèi)存帶寬方面:當前主流手機芯片的最大帶寬在50GB/s或80GB/s級別,距離130GB/s的帶寬需求仍有較大差距,根據(jù)前文對小模型上終端的硬件瓶頸分析,更高的帶寬及帶寬利用率,將有效提升AI模型的推理速度、優(yōu)化用戶體驗。主要手機芯片存儲參數(shù)對比配置指標發(fā)布時間終端應用型號制程運算單元及頻率最大顯存蘋果

A17

Pro聯(lián)發(fā)科

天璣

9300高通

驍龍8

Gen323Q323Q423Q4三星Galaxy

Z

Fold/Flip

6、小米14系列、OPPO

FindX7Qualcomm

Adreno

750TSMC4nmiPhone15

Pro/Pro

Maxvivo蘋果

A17

ProTSMC3nm6核,24運算單元,頻率1.40GHz6

GBARM

Immortails-G720

MC12TSMC4nm12運算單元,頻率1.00GHzGPU頻率0.90GHz/LPDDR5T-9600Mbps4

(Quad

Channel)16

GB6

GB內(nèi)存類型內(nèi)存通道最大內(nèi)存最大帶寬L2-CacheL3-CacheLPDDR5-6400Mbps1

(SingleChannel)8

GBLPDDR5X-9600Mbps4

(Quad

Channel)24

GB內(nèi)存緩存51.2

GB/s20

MB24

MB76.8

GB/s/18

MB76.6

GB/s/12

MB資料:CPU

monkey,西南證券整理302.2

從手機芯片廠商布局看硬件升級趨勢——AI處理器

提高AI處理器配置,支持更強AI模型。1)蘋果A17

Pro:集成16個神經(jīng)網(wǎng)絡核心,支持35TOPS的AI計算能力,相較于上一代手機芯片A16(17TOPS)的AI算力實現(xiàn)顯著提升;2)聯(lián)發(fā)科天璣9300:搭載聯(lián)發(fā)科第七代AI處理器APU

790,AI算力為33TOPS,支持終端運行10/70/130億、最高可達330億參數(shù)的端側(cè)模型。3)高通驍龍8Gen3:通過升級AI引擎Hexagon

NPU的微架構(gòu),性能相較上一代提升98%,能效比提升4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論