2024高通AI白皮書-讓AI觸手可及-高通_第1頁
2024高通AI白皮書-讓AI觸手可及-高通_第2頁
2024高通AI白皮書-讓AI觸手可及-高通_第3頁
2024高通AI白皮書-讓AI觸手可及-高通_第4頁
2024高通AI白皮書-讓AI觸手可及-高通_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

序言PREAMBLE序言攜手合作擁抱AI終端創(chuàng)新的黃金時代高通公司中國區(qū)董事長孟樸一年前,高通公司發(fā)布了《混合AI是AI的未來》白皮書,率先向業(yè)界分享了對人工智(AI技術(shù)發(fā)展趨勢的洞察。那時,ChatGPT等生成式AI初露鋒芒,這一現(xiàn)象級的應(yīng)用引發(fā)了產(chǎn)業(yè)界對這場AI技術(shù)革命的廣泛探討和巨大期待。人們開始意識到,生成式AI將為各行各業(yè)生產(chǎn)力的提升帶來質(zhì)變。從那時起,大模型技術(shù)日新月異,商業(yè)化應(yīng)用的步伐不斷加快。當(dāng)每個人都希望無時無刻地?fù)碛小皞€人大模型”時,生成式AI走AI技術(shù)的普及提供廣闊的空間,終端創(chuàng)新的黃金時代已經(jīng)到來。從云到端:智能終端迎來新增長周期,讓AI真正觸手可及當(dāng)生成式AI展現(xiàn)出強大的能力和前景,我們也認(rèn)識到,AI技術(shù)的真正價值在于其普惠性——要實現(xiàn)AI人人可享、人人可用,需要讓AI技術(shù)更加貼近用戶,在人們觸手可及的終端上運行。PAI在作為關(guān)鍵的連接底座AI2025球5G連接規(guī)模將達到25億1“5G+AI”它改變在高通看來,這也正是生成式AI的革新意義——智能終端讓AI成為無處不在的個人助理,推動終端與云端的融合,為智能手機帶來新的互動方式,讓汽車成為全新的運算空間,為下一代PC帶來強大的AI能力,智能終端市場迎來了新的增長動力。1GSMIGTI5G新技術(shù)創(chuàng)造新價值PC、智能網(wǎng)聯(lián)汽車位于AI年出貨量高達十幾億臺。目前,眾多手機廠商積極推廣生成式AI應(yīng)用,使得智能手機有望成為生成式AI發(fā)展最快的領(lǐng)域之一。據(jù)預(yù)測,生成式AI智能手機出貨量將在2023到2027年迅速增長,預(yù)計2024年出貨量占比達到112027年將達到5.5億部,占比43%,年均復(fù)合增長率為49%。AI規(guī)?;瘮U展AI處理成為可能,AI規(guī)?;瘮U展AI如AI用例這有賴于終端算力的革新升級。你的智能手機將成為個人AI算為核心的計算架構(gòu),向更加高性能的異構(gòu)AI計算架構(gòu)升級,讓CPUGPU和NPU等不同的計算單元“各司其職”。只有協(xié)同使用這些計算單元,異構(gòu)計算才能在應(yīng)用性能、能效和電池續(xù)航上實現(xiàn)最優(yōu)化,讓AI助理如虎添翼,賦能增強的生成式AI體驗。AI前沿科技的開拓者和探索者,我們看到,終端側(cè)AI規(guī)模化擴展正在點燃產(chǎn)業(yè)界的熱情和信心,推動智能終端軟硬件和生態(tài)層面的創(chuàng)新。我們也倍感自豪,高通能夠成為推動這一進程的重要力量。今年3NPU和異構(gòu)計算開啟終端側(cè)生成式AI》白皮書,分享了高通在異構(gòu)計算架構(gòu)和NPU研究方面的創(chuàng)新成果。事實上,早在2007年,也就是生成式AI進入大眾視野的15年前,高通就開始了對NPU的研究。多年來,高通致力于將高性能低功耗的AI計算能力帶入終端設(shè)備,打造了專為AI定制設(shè)計的全新計算架構(gòu)。通過異構(gòu)計算AI引擎,我們將性能卓越的CPUNPU和GPU進行組合,為行業(yè)提供了可行的解決方案,支持生態(tài)系統(tǒng)在跨多品類終端上開發(fā)并實現(xiàn)生成式AI用例、體驗和領(lǐng)先產(chǎn)品,讓智能計算無處不在。從共享機遇到共建生態(tài):共創(chuàng)AI終端創(chuàng)新的黃金時代終端側(cè)AI等產(chǎn)業(yè)鏈各方,帶來了前所未有的發(fā)展機遇。據(jù)預(yù)測,對端側(cè)AI能力的需求可能會引(ASPAI能力將成為手機廠商推進高端化的有效發(fā)力點。小米、榮耀、OPPO、三星等品牌均已推出支持豐富生成式AI應(yīng)用的旗艦機型。在PC2027年60%出貨的PC將是AIPC。2CounterpointAI207年占比達43%3CanalysAI趨勢與潛力4CanalysCanalysAIPC的現(xiàn)在和未來面對AI終端產(chǎn)業(yè)機遇,我們始終相信,要實現(xiàn)讓智能計算無處不在、AI觸手可及,需要產(chǎn)業(yè)鏈上下游的通力合作,需要包括中國在內(nèi)的全球生態(tài)系統(tǒng)的創(chuàng)新與協(xié)作。這將加速AI技術(shù)在各領(lǐng)域的普及與應(yīng)用,為形成新質(zhì)生產(chǎn)力蓄勢賦能。高通的AI領(lǐng)先優(yōu)勢得益于與業(yè)界的深度合作。無論是高通的異構(gòu)計算能力,還是可擴展的AI軟件工AI解決方案和驍龍平臺正在成為推動終端側(cè)AI手機廠商基于第三代驍龍8移動平臺,為消費者打造突破性的AI體驗;廠商通過驍龍X系列平臺產(chǎn)品組合,為企業(yè)用戶和消費者帶來強大生產(chǎn)力、豐富創(chuàng)造力和沉浸式娛樂體驗;汽車廠商也基于驍龍數(shù)字底盤,將智能網(wǎng)聯(lián)汽車上的生成式AI應(yīng)用與云端AI相結(jié)合,為用戶創(chuàng)造更好的駕乘體驗。目前,高通AI引擎賦能的終端產(chǎn)品出貨量已經(jīng)超過了20億。與此同時,為了與生態(tài)伙伴共建開放生態(tài),高通推出了AIHub,讓開發(fā)者充分發(fā)揮前沿技術(shù)的潛力,共同推進終端側(cè)AI的規(guī)?;逃眠M程。我們希望能夠打造一個橫向生態(tài)系統(tǒng),讓所有模型在終端上可以和諧共生,帶來跨多個生態(tài)系統(tǒng)的全新AI體驗。在終端側(cè)AI規(guī)?;瘮U展的機遇面前,我們倍感振奮,將一如既往地通過技術(shù)創(chuàng)新與合作共贏,擔(dān)當(dāng)推動終端側(cè)AI發(fā)展的重要力量。期望各界能夠從我們最新結(jié)集發(fā)布的《讓AI觸手可及高通AI白皮書》中,更加系統(tǒng)性地了解高通在AI技術(shù)演進和應(yīng)用落地方面的見解和洞察。這不僅是高通在AI領(lǐng)域持續(xù)探索、不斷突破的有力見證,也凝聚了高通與行業(yè)伙伴共同智慧的結(jié)晶。讓我們攜手共同邁向激動人心的AI新時代,一同探索AI終端創(chuàng)新的無限可能,見證AI科技變革千行百業(yè)、成就人類美好生活的壯闊進程。2024(MWAI(GLOMO獎AI而生的移動平臺第三代驍龍8,賦能智能手機體驗的全面突破,讓智能計算無處不在。全球移動大獎(GLOMO獎是全球數(shù)字智能領(lǐng)域的最高。獎項名稱BestAIInnovation,請以英文為準(zhǔn)獎項名稱Breakthroughdeviceinnovation,請以英文為準(zhǔn)獎項信息源自官方介紹,/mobile-awards

第三代驍龍82024設(shè)備創(chuàng)新突破獎第三代驍龍8

2圍高通人工智能引擎2024最佳人工智能創(chuàng)新獎高通人工智能引擎第一部分通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI1.摘要 02處理器集成于SoC中的諸多優(yōu)勢 03式AI需要多樣化的處理器 0406通能AI 08式11通AI式AI14高通AI引擎中的處理器 高通AI異構(gòu)計算的系統(tǒng)級解決方案 15案例研究使用異構(gòu)計算的虛擬化身AI個人助手 16驍龍平臺領(lǐng)先的AI性能 第三代驍龍8的領(lǐng)先智能手機上AI性能 驍龍XElite的領(lǐng)先PC上AI性能 通過高通軟件棧訪問AI處理器 總結(jié) 第二部分終端側(cè)AI和混合AI開啟生成式AI的未來1.摘要 26生成式AI簡介和當(dāng)前趨勢 27合AI式AI30什么是混合AI? 30混合AI的優(yōu)勢 303.2.1成本 303.2.2能耗 32可靠性性能和時延 32隱私和安全 32個性化 33AI工作負(fù)載的分布式處理機制 33以終端為中心的混合AI 33基于終端感知的混合AI 35終端與云端協(xié)同處理的混合AI 37終端側(cè)AI的演進與生成式AI的需求密切相關(guān) 40終端側(cè)處理能夠支持多樣化的生成式AI模型 42跨終端品類的生成式AI關(guān)鍵用例 431 智能手機搜索和數(shù)字助手 筆記本電腦和PC生產(chǎn)力 3汽車數(shù)字助手和自動駕駛 44XR3D內(nèi)容創(chuàng)作和沉浸式體 物聯(lián)網(wǎng)運營效率和客戶支持 第三部分THREE 高通在推動混合AI規(guī)?;瘮U展方面獨具優(yōu)勢1.摘要 52高通技術(shù)公司是終端側(cè)AI的領(lǐng)導(dǎo)者 53持續(xù)創(chuàng)新 54我們AI技術(shù)的發(fā)展歷程 54我們在終端側(cè)生成式AI領(lǐng)域的領(lǐng)導(dǎo)力 55突破終端側(cè)和混合AI邊界 55負(fù)責(zé)任的AI 56卓越的終端側(cè)AI技術(shù)和全棧優(yōu)化 57算法和模型開發(fā) 58軟件和模型效率 584.2.1量化 624.2.2編譯 62硬件加速 63的全球邊緣側(cè)布局和規(guī)模 665.1 手機 5.2 汽車 PC和平板電腦 物聯(lián)網(wǎng) 685.5 XR 68生成式AI何種算力?通過 和異構(gòu)計算開啟終端側(cè)生成高通AI通過 和異構(gòu)計算開啟終端側(cè)生成NPU AIUnlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過 和異構(gòu)計算開啟終端側(cè)生成式第一部分ONE通過 和異構(gòu)計算開啟終端側(cè)生成式NPU AIUnlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing摘要生成式AI變革已經(jīng)到來。隨著生成式AI用例需求在有著多樣化要求和計算需求的垂直領(lǐng)域不斷增加,我們顯然需要專為AI定制設(shè)計的全新計算架構(gòu)。這首先需要一個面向生成式AI全新設(shè)計的神經(jīng)網(wǎng)絡(luò)處理器(NPU,同時要利用異構(gòu)處理器組合,比如中央處理器(CPU和圖形處理器(GPU。通過結(jié)合NPU使用合適的處理器,異構(gòu)計算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航,賦能全新增強的生成式AI體驗。NPU專為實現(xiàn)低功耗加速AI推理而全新打造,并隨著新AI用例、模型和需求的發(fā)展不斷演進。優(yōu)秀的NPU設(shè)計能夠提供正確的設(shè)計選擇,與AI行業(yè)方向保持高度一致。高通正在助力讓智能計算無處不在。業(yè)界領(lǐng)先的高通HexagonNPU面向以低功耗實現(xiàn)持續(xù)穩(wěn)定的高性能AI推理而設(shè)計。高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設(shè)計和快速創(chuàng)新。通過定制設(shè)計NPU以及控制指令集架構(gòu)(ISA通能夠快速進行設(shè)計演進和擴展,以解決瓶頸問題并優(yōu)化性能。HexagonNPU是高通業(yè)界領(lǐng)先的異構(gòu)計算架構(gòu)高通AI引擎中的關(guān)鍵處理器,高通AI引擎還包括高AdrenoGPUKryo或高通OryonCPU、高通傳感器中樞和內(nèi)存子系統(tǒng)。這些處理器為實現(xiàn)協(xié)同工作而設(shè)計,能夠在終端側(cè)快速且高效地運行AI應(yīng)用。我們在AI基準(zhǔn)測試和實際生成式AI應(yīng)用方面的行業(yè)領(lǐng)先性能就是例證。我們還專注于在全球搭載高通和驍龍?平臺的數(shù)十億終端設(shè)備上實現(xiàn)便捷開發(fā)和部署,賦能開發(fā)者。利用高通AI(mAIStack,開發(fā)者可在高通硬件上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,一次編寫即可實現(xiàn)在不同產(chǎn)品和細分領(lǐng)域采用高通芯片組解決方案進行部署。高通技術(shù)公司正在賦能終端側(cè)生成式AI的規(guī)模化擴展。處理器集成于SoC中的諸多優(yōu)勢(CPU新處理器和加速器的需求出現(xiàn)。例如,早期智能手機系統(tǒng)由CPU和環(huán)繞CPU分布的分立芯片組成,用于2DGPSSo(DIE中。例如,現(xiàn)代智能手機、C和汽車C已集成多種處理器,如中央處理器(CPU(GPU和神經(jīng)網(wǎng)絡(luò)處理器(NPU。芯片設(shè)計上的這種集成具有諸多優(yōu)勢,CPUGPUNPU傳感安全ISP蜂窩調(diào)制解調(diào)器Wi-Fi內(nèi)存例如,在智能手機或筆記本電腦內(nèi)安裝分立的GPU或NPUCPUGPUNPU傳感安全ISP蜂窩調(diào)制解調(diào)器Wi-Fi內(nèi)存圖1SoC在單個DIEgeeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI生成式AI需要多樣化的處理器談到AI,集成專用處理器并不新鮮。智能手機SoC自多年前就開始利用NPU改善日常用戶體驗,賦能出色影像和音頻,以及增強的連接和安全。不同之處在于,生成式AI用例需求在有著多樣化要求和計算需求的垂直領(lǐng)域不斷增加。這些用例可分為三類:/視頻拍攝、圖像生成//(電子郵件、文檔等創(chuàng)作/摘要。這包括用戶用手機輸入文字創(chuàng)作自定義圖像、在PC上生成會議摘要,或在開車時用語音查詢最近的加油站。持續(xù)型用例運行時間較長,包括語音識別、游戲和視頻的超級分辨率、視頻通話的音頻/視頻處理以及實時翻譯。這包括用戶在海外出差時使用手機作為實時對話PC上玩游戲時逐幀運行超級分辨率。泛在用例在后臺持續(xù)運行,包括始終開啟的預(yù)測性AI助手、基于情境感知的AI個性化和高級文本自動填充。例如手機可以根據(jù)用戶的對話內(nèi)容自動建議與同事的會議、PC端的學(xué)習(xí)輔導(dǎo)助手則能夠根據(jù)用戶的答題情況實時調(diào)整學(xué)習(xí)資料。這些AI用例面臨兩大共同的關(guān)鍵挑戰(zhàn)。第一,在功耗和散熱受限的終端上使用通用CPU和GPU服務(wù)平臺的不同需求,難以滿足這些AI用例嚴(yán)苛且多樣化的計算需求。第二,這些AI支持處理多樣性的異構(gòu)計算架構(gòu)能夠發(fā)揮每個處理器的優(yōu)勢,例如以AI為中心定制設(shè)計的NPUCPU和GPUCPU擅長順序控制和即時性,GPU適合并行數(shù)據(jù)流處理,NPUAI工作負(fù)載。CPU和GPU是通用處理器。它們?yōu)殪`活性而設(shè)計,非常易于編程AI工作負(fù)載的可用容量。NPU專為AI打造,NPU降低部分易編程性以實現(xiàn)更高的峰值性能、能效和面積效率,從而運行機器學(xué)習(xí)所需的大量乘通過使用合適的處理器,異構(gòu)計算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航,賦能全新增強的生成式AI體驗。geeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AINPU入門NPU專為實現(xiàn)以低功耗加速AI推理而全新打造,并隨著新AI用例、模型和需求的發(fā)展不斷演進。對整體SoC系統(tǒng)設(shè)計、內(nèi)存訪問模式和其他處理器架構(gòu)運行AI工作負(fù)載時的瓶頸進行的分析會深刻影響NPU設(shè)計。這些AI工作負(fù)載主要包括由標(biāo)量、向量和張量數(shù)學(xué)組成的神經(jīng)網(wǎng)絡(luò)層計算,以及隨后的非線性激活函數(shù)。在2015NPU面向音頻和語音AI用例而設(shè)計,這些用例基于簡單卷積神經(jīng)(CNN并且主要需要標(biāo)量和向量數(shù)學(xué)運算。從26年開始,拍照和視頻AI用例大受歡迎,出現(xiàn)了基于(RNN(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(luò)(CNN等更復(fù)雜的全新模型。這些工作負(fù)載需要大量張量數(shù)學(xué)運算,因此NPU增加了張量加速器和卷積加速,讓處理效率大幅提升。有了面向張量乘法的大共享內(nèi)存配置和專用硬件,不僅能夠顯著提高性能,而且可以降低內(nèi)存帶寬占用和能耗。例如,一個NxN矩陣和另一個NxN矩陣相乘,需要讀取2N2個值并進行2N3(單個乘法和加法。在張量加速器中,每次內(nèi)存訪問的計算操作比率為N:1,而對于標(biāo)量和向量加速器,這一比率要小得多。在2023(LLM比如Llama2-7B(VM比如StableDiffusion賦能的生成式AI使得典型模型的大小提升超過了一個數(shù)量級。除計算需求之外,還需要重點考慮內(nèi)存和系統(tǒng)設(shè)計,通過減少內(nèi)存數(shù)據(jù)傳輸以提高性能和能效。未來預(yù)計將會出現(xiàn)對更大規(guī)模模型和多模態(tài)模型的需求。201520152016-202220232023后用例語音/視頻音頻/語音個人助手型賦能的StableControlNet多模態(tài)生成式AI模型硬件標(biāo)量向量標(biāo)量向量Transformer支持多模態(tài)A模型簡單CNNTransformer/LSTM/RNN/CNN100億參數(shù)LLM/LVM100億參數(shù)以上LLM/向量標(biāo)量張量張量圖2NPU隨著不斷變化的AI隨著AI一個專用的定制化設(shè)計NPU能夠做出正確的選擇,與AI行業(yè)方向保持高度一致。geeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI高通NPUAI經(jīng)過多年研發(fā),高通HexagonNPU不斷演進,能夠滿足快速變化的AI2007首款HexagonDSP在驍龍?——DSP控制和標(biāo)量架構(gòu)是高通未來多代NPU的基礎(chǔ)。2015年,驍龍820處理器正式推出,集成首個高通AI引擎,支持成像、音頻和傳感器運算。2018855中為HexagonNPU增加了Hexagon張量加速器。2019年,高通在驍龍865上擴展了終端側(cè)AIAIAIAI語音和始終在線的感知功能。圖32015年發(fā)布的驍龍820首次集成高通AI引擎。2020HexagonNPU向量和張量加速器,帶來了更佳性能和能效,同時還為加速器打造了專用大共享內(nèi)存,AI加速器架構(gòu)為高通未來的NPU架構(gòu)奠定了堅實基礎(chǔ)。20228中的NPUHexagonNPU的標(biāo)量加速能力,將神經(jīng)網(wǎng)絡(luò)分割成多個能夠獨立執(zhí)行的微切片,消除了高達10余層的內(nèi)存占用,能夠最大化利用HexagonNPU中的標(biāo)量、向量和張量加速器并降低功耗。本地4位整(INT4運算支持能夠提升能效和內(nèi)存帶寬效率,同時將INT4層和神經(jīng)網(wǎng)絡(luò)的張量加速吞吐量提高一倍。Transformer網(wǎng)絡(luò)加速大幅加快了應(yīng)用于生成式AI的多頭注意力機制的推理速度,在使用MobileBERT模型的特定用例中能帶來高達4.35倍的驚人AI性能提升。其他特殊硬件包括改進的分組卷積、激活函數(shù)加速和張量加速器性能。升級的微切片推理加速器專用電源微架構(gòu)升級峰值性能內(nèi)核高通HagonNPUInferencingAccelerationNet2倍帶寬張量加速器入更高主頻T升級的微切片推理加速器專用電源微架構(gòu)升級峰值性能內(nèi)核高通HagonNPUInferencingAccelerationNet2倍帶寬張量加速器入更高主頻TDedicated圖48的HexagonNPU升級以低功耗實現(xiàn)領(lǐng)先的生成式Dedicated與前代平臺相比。geeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI高通NPU的差異化優(yōu)勢在于系統(tǒng)級解決方案、定制設(shè)計和快速創(chuàng)新。高通的系統(tǒng)級解決方案考量每個處理器的架構(gòu)、SoC系統(tǒng)架構(gòu)和軟件基礎(chǔ)設(shè)施,以打造最佳AI解決方案。要在增加或修改硬件方面做出恰當(dāng)?shù)臋?quán)衡和決策,需要發(fā)現(xiàn)當(dāng)前和潛在的AI研究與優(yōu)化,高通能夠做到這一點。由于能夠定制設(shè)計NPU(ISA,高通架構(gòu)師能夠快速進行設(shè)計演進和擴展以解決瓶頸問題。這一迭代改進和反饋循環(huán),使我們能夠基于最新神經(jīng)網(wǎng)絡(luò)架構(gòu)持續(xù)快速增強高通NPU和高通AI軟件棧?;诟咄ǖ淖灾鰽I研究以及與廣大AI社區(qū)的合作,我們與AI模型的發(fā)展保持同步。高通具有開展基礎(chǔ)性AI研究以支持全棧終端側(cè)AI開發(fā)的獨特能力,可賦能產(chǎn)品快速上市,并圍繞終端側(cè)生成式AI等關(guān)鍵應(yīng)用優(yōu)化NPU部署。相應(yīng)地,高通NPU歷經(jīng)多代演進,利用大量技術(shù)成果消除瓶頸。例如,第三代驍龍8的諸多NPU架構(gòu)升級能夠幫助加速生成式AI大模型。內(nèi)存帶寬是大語言模型token生成的瓶頸,這意味著其性能表現(xiàn)更受限于內(nèi)存帶寬而非處理能力。因此,我們專注于提高內(nèi)存帶寬效率。第三代驍龍8還支持業(yè)界最快的內(nèi)存配置之一:4.8GHzLPDDR5x,支持77GB/s帶寬,能夠滿足生成式AI用例日益增長的內(nèi)存需求。從DSP架構(gòu)入手打造NPU是正確的選擇,可以改善可編程性,并能夠緊密控制用于AI處理的標(biāo)量、向量和張量運算。高通優(yōu)化標(biāo)量、向量和張量加速的設(shè)計方案結(jié)合本地共享大內(nèi)存、專用供電系統(tǒng)和其他硬件加速,讓我們的解決方案獨樹一幟。高通NPU能夠模仿最主流模型的神經(jīng)網(wǎng)絡(luò)層和運算,比如卷積、全連接層、Transformer以及主流激活函數(shù),以低功耗實現(xiàn)持續(xù)穩(wěn)定的高性能表現(xiàn)。異構(gòu)計算:利用全部處理器支持生成式AI適合終端側(cè)執(zhí)行的生成式AI模型日益復(fù)雜,參數(shù)規(guī)模也在不斷提升,從10億參數(shù)到100700億參數(shù)。其多模態(tài)趨勢日益增強,這意味著模型能夠接受多種輸入形式此外,許多用例需要同時運行多個模型。例如,個人助手應(yīng)用采用語音輸入輸出,這需要運行一個支持語音生成文本的自動語音識別(ASR模型、一個支持文本生成文本的大語言模型、和一個作為語音輸出的文本生成語音(TTS模型。生成式AI工作負(fù)載的復(fù)雜性、并發(fā)性和多樣性需要利用SoC中所有處理器的能力。最佳的解決方案要求:跨處理器和處理器內(nèi)核擴展生成式AI處理將生成式AI模型和用例映射至一個或多個處理器及內(nèi)核選擇合適的處理器取決于眾多因素,包括用例、終端類型、終端層級、開發(fā)時間、關(guān)鍵性能指標(biāo)(KPI和開發(fā)者的技術(shù)專長。制定決策需要在眾多因素之間進行權(quán)衡,針對不同用例的KPI(OEM在面向跨品類和層級的多種終端開發(fā)應(yīng)用時,需要根據(jù)SoC規(guī)格、最終產(chǎn)品功能、開發(fā)難易度、成本和應(yīng)用跨終端層級的適度降級等因素,選擇運行AI模型的最佳處理器。正如前述,大多數(shù)生成式AI用例可分類為按需型、持續(xù)型或泛在型用例。按需型應(yīng)用的關(guān)鍵性能指標(biāo)是時延,因為用戶不想等待。這些應(yīng)用使用小模型時,CPU通常是正確的選擇。當(dāng)模型變大(比如數(shù)十億參數(shù)時,和NPU往往更合適。電池續(xù)航和能效對于持續(xù)和泛在型用例至關(guān)重要,因此NPU是最佳選擇。另一個關(guān)鍵區(qū)別在于AI(即性能表現(xiàn)受限于內(nèi)存帶寬(即性能表現(xiàn)受限于處理器性能。當(dāng)前的大語言模型在生成文本時受內(nèi)存限制,geeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI因此需要關(guān)注CPUGPU或NPU的內(nèi)存效率。對于可能受計算或內(nèi)存限制的大視覺模型,可使用GPU或,但NPU可提供最佳的能效。時延敏感型小模型持續(xù)運行的ansformerN和LLMLVM圖像處理:用例終端類型終端層級開發(fā)時間關(guān)鍵性能指標(biāo)開發(fā)者技術(shù)專長低算量 時延敏感型小模型持續(xù)運行的ansformerN和LLMLVM圖像處理:用例終端類型終端層級開發(fā)時間關(guān)鍵性能指標(biāo)開發(fā)者技術(shù)專長圖5提供自然語音用戶界(UI以提高生產(chǎn)力并增強用戶體驗的個人助手預(yù)計將成為一類流行的生成式AI應(yīng)用。語音識別、大語言模型和語音模型必將以某種并行方式運行,因此理想的情況是在NPUGPUCPU和傳感處理器之間分布處理模型。對于PC來說,個人助手預(yù)計將始終開啟且無處不在地運行,考慮到性能和能效,應(yīng)當(dāng)盡可能在NPU上運行。geeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI7.高通AI引擎:面向生成式AI的業(yè)界領(lǐng)先異構(gòu)計算高通AI引擎包含多個硬件和軟件組件,以加速驍龍和高通平臺上的終端側(cè)AI成硬件方面,高通AI引擎具有業(yè)界最領(lǐng)先的異構(gòu)計算架構(gòu),包括HexagonNPU、GPUKryoOryonCPU件都經(jīng)過精心設(shè)計以實現(xiàn)協(xié)同工作,在終端側(cè)快速高效地運行AI應(yīng)用。高通高通AI引擎圖6AI引擎包括HexagonNPUAdrenoGPUKryo或高通OryonCPU高通AI引擎中的處理器高通最新的HexagonNPU面向生成式AI帶來了顯著提升,性能提升98%,包括微架構(gòu)升級、增強的微切片推理、更低的內(nèi)存帶寬占用,以及專用電源傳INT4硬件加速,使HexagonNPU成為面向終端側(cè)AI推理的領(lǐng)先處理器。AdrenoGPU不僅是能夠以低功耗進行高性能圖形處理、賦能豐富用戶體驗的強大引擎,還可用于以高精度格式進行AI并行處理,支持32(FP3216位浮點(FP16和8(INT8運算。第三代驍龍8中全新升級的AdrenoGPU實現(xiàn)了25的能效提升,增強了AIAdreno2-7B每秒可生成超過13個tokens。正如上一章節(jié)所述,擅長時延敏感型的低計算量AI工作負(fù)載。在驍龍?XEliteOryonCPU作為PC領(lǐng)域的全新CPU領(lǐng)軍者,可提供高達競品兩倍的CPU性能,達到競品峰值性能時功耗僅為競品的三分之一。始終在線的處理器對于處理面向泛在型生成式AI應(yīng)用的情境化信息至關(guān)重要。高通AI引擎集成的高通傳感器中樞是一款極其高效、始終在線的AI處理器,適用于需要全天1(mA。第三代驍龍8中全新升級的高通傳感器中樞相比前代性能提升3.5倍,內(nèi)存增加30,并配備兩個下一代微型,能夠?qū)崿F(xiàn)增強的AI器中樞具備專用電源傳輸軌道,可在SoC其余部分關(guān)閉時運行,從而大幅節(jié)省電量。高通AI引擎中的所有處理器相輔相成,能夠?qū)崿F(xiàn)AI處理效率的大幅度提升。高通AI異構(gòu)計算的系統(tǒng)級解決方案異構(gòu)計算涵蓋整個SoC,包括多樣化處理器、系統(tǒng)架構(gòu)和軟件三個層級,因此在異構(gòu)計算解決方案中應(yīng)用系統(tǒng)級方法至關(guān)重要。全局視角讓高通架構(gòu)師可以評估每個層級之間的關(guān)鍵約束條件、需求和依賴關(guān)系,從而針對SoC和最終產(chǎn)品用途做出恰當(dāng)?shù)倪x擇,比如如何設(shè)計共享內(nèi)存子系統(tǒng)或決定不同處理器應(yīng)支持的數(shù)據(jù)類型。高通定制設(shè)計了整個系統(tǒng),因此我們能夠做出恰當(dāng)?shù)脑O(shè)計權(quán)衡,并利用這些洞察打造更具協(xié)同性的解決方案。定制設(shè)計方法為高通解決方案帶來了差異化優(yōu)勢,我們可以為每類處理器插入全新的AI指令或硬件加速器。高通致力于推動面向異構(gòu)計算特性的架構(gòu)演進,同時保持處理器多樣性這一優(yōu)勢。如果所有處理器都采用相近的架構(gòu),那么SoC將變成同構(gòu)系統(tǒng)。geeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI相比之下,許多芯片組廠商通常選擇授權(quán)多個第三方處理器,然后拼裝在一起。這些處理器不一定能夠緊密配合,也不一定是針對相同約束條件或細分市場而設(shè)計的。高通AI引擎是我們終端側(cè)AI優(yōu)勢的核心,它在驍龍平臺和眾多高通產(chǎn)品中發(fā)揮了重要作用。高通AI引擎作為我們多年全棧AI優(yōu)化的結(jié)晶,能夠以極低功耗提供業(yè)界領(lǐng)先的終端側(cè)AI性能,支持當(dāng)前和未來的用例。搭載高通AI引擎的產(chǎn)品出貨量已超過20XRPC、安防攝像頭、機器人和汽車等。2案例研究:使用異構(gòu)計算的虛擬化身AI個人助手在2023驍龍峰會上,高通在搭載第三代驍龍8移動平臺的智能手機上演示了語音控制的AI個人助手,支持手機屏幕上的虛擬化身實現(xiàn)實時動畫效果。該應(yīng)用需要同時基于不同計算需求,運行眾多復(fù)雜工作負(fù)載。實現(xiàn)優(yōu)秀用戶體驗的關(guān)鍵在于充分利用SoC內(nèi)的處理器多樣性,在最匹配的處理器上運行合適的工作負(fù)載。圖7AI助手包括眾多復(fù)雜工作負(fù)載。https:///products/mobile/snapdragon/smartphones/mobile-ai讓我們看看該如何分配這一用例的工作負(fù)載:Whisper轉(zhuǎn)化為文本。該模型在高通傳感器中樞上運行。當(dāng)用戶與AI助手交談時,語音通過OpenAI的自動語音識別(ASR生成式AIWhisper轉(zhuǎn)化為文本。該模型在高通傳感器中樞上運行。AI助手再使用大語言模型Llama2-7B生成文本回復(fù)。該模型在NPU上運行。4與此4與此同須與語音輸出同步,才能實現(xiàn)足夠真實的用戶交互界面。AIAI工作負(fù)載在NPU上運行。

blendshape)能夠給嘴形和面部表情帶來合適的動畫最終的虛擬化身渲染在GPU上進行。以上步驟需要在整個內(nèi)存子系統(tǒng)中高效傳輸數(shù)據(jù),盡可能在芯片上保存數(shù)據(jù)。這一個人助手演示利用了高通AI引擎上的所有多樣化處理器,以高效處理生成式和傳統(tǒng)AI工作負(fù)載。ASRASRWhisper語音Llama2開源TTS融合變形動畫染 UEMetaHuamn圖8AI引擎的所有多樣化處理器。geeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI驍龍平臺領(lǐng)先的AI性能實現(xiàn)領(lǐng)先性能需要卓越的硬件和軟件。盡管每秒萬億次運(TOPS數(shù)值能夠反映硬件性能潛力,但決定硬件可訪問性和總體利用率的是軟件。AI基準(zhǔn)測試可以更好的展示性能,但最終的評估方式還是在實際應(yīng)用中,測試峰值性能、持續(xù)穩(wěn)定性能和能效。由于生成式AI基準(zhǔn)測試和應(yīng)用仍處于起步階段,以下對當(dāng)前領(lǐng)先AI指標(biāo)的分析展示了驍龍平臺的領(lǐng)先性能。第三代驍龍8的領(lǐng)先智能手機上AI性能在MLCommonMLPerfMobileV.1基準(zhǔn)測試中,與其他智能手機競品相比,第三代驍龍8具有領(lǐng)先性能。例如,在生成式AI語言理解模型MobileBERT17%,比競品B高321%3AIMarkV4.3基準(zhǔn)測試中,第三代驍龍8的總分分別為競品B的5.7倍和競品C的7.9倍。在安兔兔AI基準(zhǔn)測試中,第三代驍龍8的總分是競品B的6.3倍。智能手機AI基準(zhǔn)測試AIrk3

I

MLCommonMLPerf推理:MobileV3.198765439876543210相關(guān)性能

第三代驍龍8競品A競品B競品C圖98在AIMarkAIu和MLPerf中具有領(lǐng)先的智能手機AI性能。高通技術(shù)公司在搭載驍龍和競品B平臺的手機上運行和收集數(shù)據(jù)。競品A在2023年驍龍峰會上,高通演示過兩個生成式AI覺模型通用架構(gòu)的真實應(yīng)用性能。在第三代驍龍820個tokens的速度運行Llama2-7BStableDiffusion能夠在0.6秒內(nèi)生成一張x512分辨率的圖像4。高通有著智能手機領(lǐng)域領(lǐng)先的Llama和Diffusion模型指標(biāo)。驍龍XElite的領(lǐng)先PC上AI性能驍龍XElite上集成的HexagonNPU算力達到45,大幅領(lǐng)先于友商最新X86架構(gòu)芯片NPU的算力數(shù)值。在面向Windows的ULProcyonAI基準(zhǔn)測試中,與其他PCXEliteXElite的基準(zhǔn)測試總分分別為X86架構(gòu)競品A的3.4倍和競品B的8.6倍。面向Windows的ULProcyonAI推理基準(zhǔn)測試14.00 12.00 10.00相關(guān)性能8.00相關(guān)性能6.004.002.00總分0.00總分

ResNet-50

MobileNetV3

ESRGAN驍龍XElite X86競品A X86競品B圖10XElite在Poon基準(zhǔn)測試中具有領(lǐng)先的筆記本電腦AI性能。在驍龍X2-7B模型能夠在高通OryonCPU上以高達每秒30個的速度運行。在不損失太多精度的情況下,Stable能夠在0.9秒內(nèi)生成一張512x512Llama和StableDiffusion模型指標(biāo)?;趯Ρ刃哉Z言-(CLIPgeeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI通過高通軟件棧訪問AI處理器僅有優(yōu)秀的AI硬件還不夠。讓開發(fā)者能夠獲取基于異構(gòu)計算的AI加速,對于終端側(cè)AI的規(guī)?;瘮U展至關(guān)重要。高通AI軟件棧將我們的互補性AI軟件產(chǎn)品整合在統(tǒng)一的解決方案中。OEM廠商和開發(fā)者可在高通的產(chǎn)品上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,充分利用高通AI引擎的性能,讓開發(fā)者創(chuàng)建一次AI模型,即可跨不同產(chǎn)品隨時隨地進行部署。AI框架AIruntimes高通神經(jīng)網(wǎng)絡(luò)處理SDK高通AIAI框架AIruntimes高通神經(jīng)網(wǎng)絡(luò)處理SDK高通AI引擎DirectDirectMLTFLiteExecuTorch數(shù)學(xué)庫 編譯器 虛擬平臺分析器和調(diào)試器 編程語言 核心庫系統(tǒng)接口 SoC加速器驅(qū)動 仿真支持QualcommAIStudio高通AI軟件棧全面支持主流AI(PyTorchONNX和Keras和runtim(rwrweh和Xruntime,面向以上runtime的代理對象可通過高通AI引擎Direct(SDK直接進行耦合,加快開發(fā)進程。geeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI此外,高通AI軟件棧集成用于推理的高通神經(jīng)網(wǎng)絡(luò)處理SDK,包括面向Android、Linux和Windows的不同版本。高通開發(fā)者庫和服務(wù)支持最新編程語言、虛擬平臺和編譯器。ROS程序。我們還跨不同產(chǎn)品線支持廣泛的操作系統(tǒng)(包括AndroidWindowsLinux和QNX(比如PrometheusKubernetes和Doce對于的直接跨平臺訪問,我們支持和DirectML。由于易于編程且應(yīng)用于所有平臺,通常是AI編程的首選,我們的LLVM編譯器基礎(chǔ)設(shè)施優(yōu)化可實現(xiàn)加速的高效AI推理。TFLiteTFLiteExecuTorchONNXRT 高通AI引擎Direct OpenCLCPU內(nèi)核GPU內(nèi)核Hexagon內(nèi)核圖2AI軟件棧支持關(guān)鍵框架和runtime。高通專注于AI模型優(yōu)化以實現(xiàn)能效和性能提升??焖俚男⌒虯I模型如果只能提供低質(zhì)量或不準(zhǔn)確的結(jié)果,那么將失去實際用處。因此,我們采用全面而有針對性的策略,包括量化、壓縮、條件計算、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS和編譯,在不犧牲太多準(zhǔn)確度的前提下縮減AI模型,使其高效運行。即使是那些已經(jīng)面向移動終端優(yōu)化過的模型我們也會進行這一工作。例如,量化有益于提升性能、能效、內(nèi)存帶寬和存儲空間。HexagonNPU原生支持IN4AI模型增效工具包(AIMET5提供基于高通AI研究技術(shù)成果開發(fā)的量化工具,能夠在降低位數(shù)精度的同時限制準(zhǔn)確度的損失。對于生成式AI于r(GPTm和Llama受到內(nèi)存的限制,在量化到8位或4位權(quán)重后往往能夠獲得大幅提升的效率優(yōu)勢。借助量化感知訓(xùn)練和/或更加深入的量化研究,許多生成式AI模型可以量化至INT4模型。事實上,已成為大語言模型的趨勢,并逐漸成為范式,尤其是面向開源社區(qū)和希望在邊緣終端上運行大型參數(shù)規(guī)模模型的情況下。INT4支持將在不影響準(zhǔn)確性或性能表現(xiàn)的情況下節(jié)省更多功耗,與INT8相比實現(xiàn)高達90的性能提升和60的能效提升,能夠運行更高效的神經(jīng)網(wǎng)絡(luò)。使用低位整數(shù)型精度對高能效推理至關(guān)重要??偨Y(jié)利用多種處理器進行異構(gòu)計算,對于實現(xiàn)生成式AI應(yīng)用最佳性能和能效至關(guān)重要。與競品相比,專為持久穩(wěn)定的高性能AI推理而打造的HexagonNPU具有卓越性能、能效和面積效率。高通AI引擎包括HexagonNPUAdrenoGPUKryo或高通OryonCPU、高通傳感器中樞和內(nèi)存子系統(tǒng),能夠支持按需型用例、持續(xù)型用例和泛在型用例,為生成式AI提供業(yè)界領(lǐng)先的異構(gòu)計算解決方案。通過定制設(shè)計整個系統(tǒng),高通能夠做出恰當(dāng)?shù)脑O(shè)計權(quán)衡,并利用這些洞察打造更具協(xié)同性的解決方案。我們的迭代改進和反饋循環(huán),使高通能夠基于最新神經(jīng)網(wǎng)高通AI(AIMET(QualcommInnovationCente,Inc.的產(chǎn)品。geeIhnUds通過NPU和異構(gòu)計算開啟終端側(cè)生成式AI絡(luò)架構(gòu),持續(xù)快速增強高通NPU和高通AI軟件棧。我們在面向智能手機和PC的AI基準(zhǔn)測試與生成式AI應(yīng)用中領(lǐng)先的性能表現(xiàn),是高通差異化解決方案和全棧AI優(yōu)化的結(jié)晶。高通AI軟件棧賦能開發(fā)者跨不同產(chǎn)品創(chuàng)建、優(yōu)化和部署AI應(yīng)用,使得高通AI引擎上的AI加速具備可獲取性和可擴展性。通過將技術(shù)領(lǐng)導(dǎo)力、定制芯片設(shè)計、全棧AI優(yōu)化和生態(tài)系統(tǒng)賦能充分結(jié)合,高通技術(shù)公司在推動終端側(cè)生成式AI開發(fā)和應(yīng)用方面獨樹一幟。 2024年3月生成式AI?生成式AI終端側(cè) 和混合 開啟生成式 的未終端側(cè) 和混合 開啟生成式 的未AI AI AIAIon-device終端側(cè) 和混合 開啟生成式 的未終端側(cè) 和混合 開啟生成式 的未AI AI AIUnlockingthegenerativeAIwithon-deviceandhybridAI摘要混合AI是AI的未來。隨著生成式AI正以前所未有的速度發(fā)展1以及計算需求的日益增長2AI處理必須分布在云端和終端進行,才能實現(xiàn)AI的規(guī)模化擴展并發(fā)揮其最大潛能正如傳統(tǒng)計算從大型主機和瘦客戶端演變?yōu)楫?dāng)前云端和邊緣終端相結(jié)合的模式。與僅在云端進行處理不同,混合AI架構(gòu)在云端和邊緣終端之間分配并協(xié)調(diào)AI工作負(fù)載。云端和邊緣終端如智能手機、汽車、個人電腦和物聯(lián)網(wǎng)終端協(xié)同工作,能夠?qū)崿F(xiàn)更強大、更高效且高度優(yōu)化的AI。節(jié)省成本是主要推動因素。舉例來說,據(jù)估計,每一次基于生成式AI的網(wǎng)絡(luò)搜索查(query,其成本是傳統(tǒng)搜索的10倍,而這只是眾多生成式AI的應(yīng)用之一?;旌螦I將支持生成式AI開發(fā)者和提供商利用邊緣終端的計算能力降低成本?;旌螦I架構(gòu)或終端側(cè)AI能夠在全球范圍帶來高性能、個性化、隱私和安全等優(yōu)勢。混合AI架構(gòu)可以根據(jù)模型和查詢需求的復(fù)雜度等因素,選擇不同方式在云端和終端側(cè)之間分配處理負(fù)載。例如,如果模型大小、提示(prompt和生成長度小于某個限定值,并且能夠提供可接受的精確度,推理即可完全在終端側(cè)進行。如果是更復(fù)雜的任務(wù),模型則可以跨云端和終端運行?;旌螦I還能支持模型在終端側(cè)和云端同時運行,也就是在終端側(cè)運行輕量版模型時,在云端并行處理完整模型的多個標(biāo)記(token,并在需要時更正終端側(cè)的處理結(jié)果。隨著強大的生成式AI模型不斷縮小,以及終端側(cè)處理能力的持續(xù)提升,混合AI的潛力將會進一步增長。參數(shù)超過10億的AI模型已經(jīng)能夠在手機上運行,且性能和精確度水平達到與云端相似的水平。不久的將來,擁有100億或更高參數(shù)的模型將能夠在終端上運行?;旌螦I方式適用于幾乎所有生成式AI應(yīng)用和終端領(lǐng)域,包括手機、筆記本電腦、XR頭顯、汽車和物聯(lián)網(wǎng)。這一方式對推動生成式AI規(guī)?;瘮U展,滿足全球企業(yè)與消費者需求至關(guān)重要。https:///chart/29174/time-to-one-million-users//2023/02/05/generative-ai-drives-explosion-compute-looming-need-sustainable-ai/生成式AI簡介和當(dāng)前趨勢ChatGPT激發(fā)了人們的想象力和好奇心。自2022年11月推出后,短短兩個月內(nèi)其月活用戶便達到1億,成為有史以來增長速度最快的消費類應(yīng)用和第一個殺手級的生成式AI應(yīng)用。隨著創(chuàng)新節(jié)奏的加快,想要緊跟生成式AI的發(fā)展速度,難度越來越大。大型聚合網(wǎng)站的數(shù)據(jù)顯示,目前已有超過個可用的生成式AI應(yīng)用和特性4AI正迎來大爆發(fā)時期,就像此前電視、互聯(lián)網(wǎng)和智能手機的問世,而這僅僅是一個開始。ChatGPT和StableDiffusion等生成式AI模型能夠基于簡單的提示創(chuàng)作出全新的原創(chuàng)內(nèi)容,如文本、圖像、視頻、音頻或其他數(shù)據(jù)。這類模型正在顛覆傳統(tǒng)的搜索、內(nèi)容創(chuàng)作和推薦系統(tǒng)的方法通過從普通產(chǎn)業(yè)到創(chuàng)意產(chǎn)業(yè)的跨行業(yè)用例,在實用性、生產(chǎn)力和娛樂性方面帶來顯著增強。建筑師和藝術(shù)家可以探索新思路,工程師可以更高效地編寫程序。幾乎所有與文字、圖像、視頻和自動化相關(guān)的工作領(lǐng)域都將受益。AI作為一項全新的生產(chǎn)力特性,它能夠利用生成式AI幫助編寫和總結(jié)文檔、分析數(shù)據(jù),或?qū)⒑唵蔚臅嫦敕ㄞD(zhuǎn)化為演示文稿,嵌入于WordExcelPowerPointOutlook和等微軟應(yīng)用中。生成式AI的出現(xiàn)也標(biāo)志著用戶開始向探索更加多樣化、個性化的數(shù)字世界邁出了第一步。由于3D設(shè)計師可以借助生成式AI工具更加快速高效地進行內(nèi)容開發(fā),3D內(nèi)容創(chuàng)作有望得到普及。這不僅將加速沉浸式虛擬體驗的創(chuàng)建,而且能夠降低個人創(chuàng)作者自主內(nèi)容制作的門檻。我們即將看到從生成式AI中涌現(xiàn)出各種各樣的全新企業(yè)級和消費級用例,帶來超越想象的功能。GPT4和LaMDA等通用大語言模型(LLM作為基礎(chǔ)模型,所具備的語言理解、生成能力和知識范疇已達到了前所未有的水平。這些模型大多數(shù)都非常龐大,參數(shù)超過1千億,并通過API向客戶提供免費或付費服務(wù)?;A(chǔ)模型的使用推動大量初創(chuàng)公司和大型組織利用文本、圖像、視頻、3D、語言和音頻創(chuàng)建應(yīng)用。例如,代碼生成GitbCopilot(Jasper、面向藝術(shù)家和(Midjurney(Chaacte.ai。截至2023年4月,生成式AI應(yīng)用和特性:/theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來據(jù)初步估計顯示,生成式AI市場規(guī)模將達到1萬億美元5,廣泛覆蓋生態(tài)鏈的各個參與方。為把握這一巨大機遇,并推動AI成為主流,計算架構(gòu)需要不斷演進并滿足大規(guī)模生成式AI日益增長的處理和性能需求。邊緣終端邊緣終端I/工具和平臺 基礎(chǔ)模型 到應(yīng)用程序成式(輔助應(yīng)用)使用自主模型垂直領(lǐng)域應(yīng)用的實現(xiàn)其他模型;通過API提供服務(wù)通用大LL和專業(yè)照片/)專用模/企業(yè)、基礎(chǔ)設(shè)施超大規(guī)模用戶數(shù)使用基礎(chǔ)模型)編寫代碼計等圖1:生成式AI生態(tài)鏈?zhǔn)箲?yīng)用數(shù)量激增2023年2月UOCO/VVV\UOCO/VVV\1at?tAiTa&at6Bft???a&O1of^?.?al>??Ai@theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來混合AI對生成式AI規(guī)模化擴展至關(guān)重要擁有數(shù)十億參數(shù)的眾多生成式AI模型對計算基礎(chǔ)設(shè)施提出了極高的需求。因此,無論是為AI模型優(yōu)化參數(shù)的AI訓(xùn)練,還是執(zhí)行該模型的AI推理,至今都一直受限于大型復(fù)雜模型而在云端部署。AI推理的規(guī)模遠高于AI訓(xùn)練。盡管訓(xùn)練單個模型會消耗大量資源,但大型生成式AI模頻率的增加而增加。在云端進行推理的成本極高,這將導(dǎo)致規(guī)模化擴展難以持續(xù)?;旌螦I能夠解決上述問題,正如傳統(tǒng)計算從大型主機和瘦客戶端演變?yōu)楫?dāng)前云端和PC、智能手機等邊緣終端相結(jié)合的模式。什么是混合AI?混合AI指終端和云端協(xié)同工作,在適當(dāng)?shù)膱鼍昂蜁r間下分配AI計算的工作負(fù)載,以提供更好的體驗,并高效利用資源。在一些場景下,計算將主要以終端為中心,在必要時向云端分流任務(wù)。而在以云為中心的場景下,終端將根據(jù)自身能力,在可能的情況下從云端分擔(dān)一些AI工作負(fù)載?;旌螦I的優(yōu)勢混合AI(或僅在終端側(cè)運行AI,能夠在全球范圍帶來成本、能耗、性能、隱私、安全和個性化優(yōu)勢。成本隨著生成式AI模型使用量和復(fù)雜性的不斷增長,僅在云端進行推理并不劃算。因為持續(xù)增加。例如,當(dāng)前面向大語言模型推理的云計算架構(gòu),將導(dǎo)致無論規(guī)模大小的搜索引擎企業(yè)負(fù)擔(dān)更高運營成本。試想一下,未來通過生成式AI大語言模型增強的互聯(lián)網(wǎng)搜索,比如GPT,其運行參數(shù)遠超1750億。生成式AI搜索可以提供更加出色的用戶體驗theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來和搜索結(jié)果,但每一次搜索查詢(quer其成本是傳統(tǒng)搜索方法的10倍。目前每天有超過100億次的搜索查詢產(chǎn)生,即便基于大語言模型的搜索僅占其中一小部分,每年增量成本也可能達到數(shù)十億美元。6將一些處理從云端轉(zhuǎn)移到邊緣終端,可以減輕云基礎(chǔ)設(shè)施的壓力并減少開支。這使混合AI對生成式AI的持續(xù)規(guī)模化擴展變得至關(guān)重要?;旌螦I能夠利用現(xiàn)已部署的、具備AI能力的數(shù)十億邊緣終端,以及未來還將具備更高處理能力的數(shù)十億終端。節(jié)省成本也是生成式AI生態(tài)系統(tǒng)發(fā)展的重要一環(huán),可以支持OEM廠商、獨立軟件開(ISV和應(yīng)用開發(fā)者更經(jīng)濟實惠地探索和打造應(yīng)用。例如,開發(fā)者可以基于完全在終端上運行的StableDiffusion創(chuàng)建應(yīng)用程序,對于生成的每個圖像承擔(dān)更低的查詢成本,或完全沒有成本。能耗支持高效AI處理的邊緣終端能夠提供領(lǐng)先的能效,尤其是與云端相比。邊緣終端能夠以很低的能耗運行生成式AI模型,尤其是將處理和數(shù)據(jù)傳輸相結(jié)合時。這一能耗成本差異非常明顯,同時能幫助云服務(wù)提供商降低數(shù)據(jù)中心的能耗,實現(xiàn)環(huán)境和可持續(xù)發(fā)展目標(biāo)。在混合AI架構(gòu)中,終端側(cè)AI處理十分可靠,能夠在云服務(wù)器和網(wǎng)絡(luò)連接擁堵時,提供媲美云端甚至更佳的性能7。當(dāng)生成式AI查詢對于云的需求達到高峰期時,會產(chǎn)生大量排隊等待和高時延,甚至可能出現(xiàn)拒絕服務(wù)的情況8。向邊緣終端轉(zhuǎn)移計算負(fù)載可防止這一現(xiàn)象發(fā)生。此外,混合AI架構(gòu)中終端側(cè)處理的可用性優(yōu)勢,讓用戶無論身處何地,甚至在無連接的情況下,依然能夠正常運行生成式AI應(yīng)用。隱私和安全終端側(cè)AI從本質(zhì)上有助于保護用戶隱私,因為查詢和個人信息完全保留在終端上。對于企業(yè)和工作場所等場景中使用的生成式AI,這有助于解決保護公司保密信息的難摩根士丹利,《HowLargearetheIncrementalAICosts...and4FactorstoWatchNext》,2023年2月https:///news/onq/2023/02/worlds-first-on-device-demonstration-of-stable-diffusion-on-androidhttps:///computing/chatgpt-is-at-capacity-and-is-frustrating-new-people-everywhere/從而消除如今眾多企業(yè)面臨的顧慮9。對于消費者使用而言,混合AI模式”讓用戶能夠充分利用終端側(cè)AI向聊天機器人輸入敏感提示,比如健康問題或創(chuàng)業(yè)想法。此外,終端側(cè)安全能力已經(jīng)十分強大,并且將不斷演進,確保個人數(shù)據(jù)和模型參數(shù)在邊緣終端上的安全。個性化混合AI讓更加個性化的體驗成為可能。數(shù)字助手將能夠在不犧牲隱私的情況下,根據(jù)用戶的表情、喜好和個性進行定制。所形成的用戶畫像能夠從實際行為、價值觀、痛點、需求、顧慮和問題等方面來體現(xiàn)一個用戶,并且可以隨著時間推移進行學(xué)習(xí)和演進。它可以用于增強和打造定制化的生成式AI提示,然后在終端側(cè)或云端進行處理。用戶畫像保留在終端內(nèi),因此可以通過終端側(cè)學(xué)習(xí)不斷優(yōu)化和更新。個性化不僅僅適用于消費者,企業(yè)或機構(gòu)可以借助它標(biāo)準(zhǔn)化代碼的編寫方式,或者制作具有特殊語氣和聲音的公共內(nèi)容。AI工作負(fù)載的分布式處理機制我們期望打造能夠支持不同工作負(fù)載分流方式的混合AI架構(gòu),可以根據(jù)模型和查詢復(fù)雜度進行分布式處理,并能持續(xù)演進。例如,如果模型大小、提示和生成長度小于某個限定值,并且能夠提供可接受的精確度,推理即可完全在終端側(cè)進行。如果是更復(fù)雜的任務(wù),模型則可以跨云端和終端運行;如果需要更多最新信息,那么也可以連接至互聯(lián)網(wǎng)獲取。以終端為中心的混合AI在以終端為中心的混合AI架構(gòu)中,終端將充當(dāng)錨點,云端僅用于分流處理終端無法充分執(zhí)行的任務(wù)。許多生成式AI模型可以在終端上充分運行(參閱圖2說終端可通過運行不太復(fù)雜的推理完成大部分處理工作。例如,用戶在筆記本電腦上運行或必應(yīng)Chat時,包含高達數(shù)百億參數(shù)的模型將在終端上運行,而更復(fù)雜的模型將根據(jù)需求在云端進行處理。對用戶來說,這種體驗是無縫的,因為終端側(cè)神經(jīng)網(wǎng)絡(luò)或基于規(guī)則而運行的判決器(arbiter將決定是否需要使用云端,無論是為了有機會使用更好的模型還是https:///news/samsung-software-engineers-busted-for-pasting-proprietary-code-into-chatgpttheAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來檢索互聯(lián)網(wǎng)信息。如果用戶對請求處理結(jié)果的質(zhì)量不滿意,那么再次嘗試發(fā)起請求時可能就會引入一個更好的模型。由于終端側(cè)AI處理能力隨著終端升級和芯片迭代不斷提升,它可以分流更多云端的負(fù)載。是是否終端側(cè)神經(jīng)網(wǎng)絡(luò)器圖2AIAI任務(wù)。對于各種生成式AI應(yīng)用,比如創(chuàng)作圖像或起草郵件,快速響應(yīng)式的推理更受青睞,即使它在準(zhǔn)確度上會稍有損失。終端側(cè)AI的快速反饋(即低時延可以讓用戶使用改進的提示來快速迭代推理過程,直至獲得滿意的輸出結(jié)果?;诮K端感知的混合AI在基于終端感知的混合AI場景中,在邊緣側(cè)運行的模型將充當(dāng)云端大語言模型(類似大腦的傳感器輸入端(類似眼睛和耳朵。例如,當(dāng)用戶對智能手機說話時,Whisper等自動語音識別(ASR的AI模型將在終端側(cè)運行,將語音轉(zhuǎn)為文字,然后將其作為請求提示發(fā)送到云端。云端將運行大語言模型,再將生成的文本回復(fù)發(fā)回終(TTS模型,提供自然免提回答。將自動語音識別和文本生成語音模型工作負(fù)載轉(zhuǎn)移至終端側(cè)能夠節(jié)省計算和連接帶寬。隨著大語在更先進的版本中,隱私將得到進一步保護,終端側(cè)AI能夠承擔(dān)更多處理,并向云端提供經(jīng)過改進且更加個性化的提示。借助終端側(cè)學(xué)習(xí)和終端上的個人數(shù)據(jù),比如ochestato程序協(xié)作,基于更多情境信息提供更完善的提示。例如,如果用戶讓手機來安排與好友會面的時間并在喜愛的餐廳預(yù)訂座位,編排器程序了解上述個性化信息并能夠向云端大語言模型提供更佳提示。編排器程序可在大語言模型缺乏信息時設(shè)置護欄并幫助防止產(chǎn)生“AI端側(cè)運行,而無需與云端交互,這類似于以終端為中心的混合AI。theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來圖像/視頻語音圖像/視頻語音ASR,CV,TTS文文本回答TTS本 LLM先進模型 語音 改進的提示圖像/視頻先進模型 語音 改進的提示

ASR,CV,TTS

LLM文本回答LLMTTS圖。終端與云端協(xié)同處理的混合AI終端和云端的AI計算也可以協(xié)同工作來處理AI負(fù)載,生成大語言模型的多個token就是一個例子。大語言模型的運行都是內(nèi)存受限的,這意味著計算硬件在等待來自DRAM的內(nèi)存數(shù)據(jù)時經(jīng)常處于閑置狀態(tài)。大語言模型每次推理生成一個token,也就是基本等同于一個單詞,這意味著GPT-3等模型必須讀取全部1750億參數(shù)才能生成一個單詞,然后再次運行整個模型來生成下一個,完整的推理過程可以以此類推。鑒于內(nèi)存讀取是造成推理性能的瓶頸因素,更高效的做法就是同時運行多個大語言模型以生成多個token,并且從DRAM一次性讀取全部參數(shù)。每生成一個token就要讀取全部參數(shù)會產(chǎn)生能耗和造成發(fā)熱,因此使用閑置的算力通過共享參數(shù)來推測性并行運行大語言模型,可謂是在性能和能耗上實現(xiàn)雙贏。為了生成四個(比原始目標(biāo)大語言模型小7至10準(zhǔn)確性更低要在終端上按順序連續(xù)運行四次才可以。終端向云端發(fā)送這四個云端高效運行四次目標(biāo)模型來檢查其準(zhǔn)確度,而僅讀取一次完整的模型參數(shù)。在云端tokentoken作為輸入。這些token在被云端確認(rèn)或校正之前被認(rèn)為是“近似的過程將持續(xù)到完整的答案出現(xiàn)時為止。我們的早期實驗和其他已發(fā)布結(jié)果10顯示,通過四個token的推測性解碼,平均兩到三個token是正確可被接受的,這會帶來單位時間內(nèi)生成token數(shù)的增加,并節(jié)省能耗。arXivpreprintarXiv:arXivpreprintarXiv:2211.17192(2022)theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來數(shù)12 1 2 3 434計算四個token1近似模型 接受 21

正確并被接受圖4AI的四個toen推測性解碼示例。UOCO/\/VV\UOCO/\/VV\ItìlAI$gC%AtheAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來終端側(cè)AI的演進與生成式AI的需求密切相關(guān)終端側(cè)AI能力是賦能混合AI并讓生成式AI實現(xiàn)全球規(guī)模化擴展的關(guān)鍵。如何在云端和邊緣終端之間分配處理任務(wù)將取決于終端能力、隱私和安全需求、性能需求以及商業(yè)模式等諸多因(參閱第3.3章節(jié)在生成式AI出現(xiàn)之前,AI處理便持續(xù)向邊緣轉(zhuǎn)移,越來越多的AI推理工作負(fù)載在手機、筆記本電腦、XR頭顯、汽車和其他邊緣終端上運行。例如,手機利用終端側(cè)AI支持許多日常功能,比如暗光拍攝、降噪和人臉解鎖。AI處理的重心正在向邊緣轉(zhuǎn)移為實現(xiàn)規(guī)模化擴展,5G成本 隱私 低時延可靠性網(wǎng)絡(luò)帶AI處理的重心正在向邊緣轉(zhuǎn)移為實現(xiàn)規(guī)?;瘮U展,5G中心云 邊緣云 終端側(cè)混合AI圖5AI處理的重心正在向邊緣轉(zhuǎn)移。 UOCO/\/VV\ AIt!?§??¥f???AIt!?§??¥f???theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來4.1終端側(cè)處理能夠支持多樣化的生成式AI模型如今,具備AI功能的手機、PC和其他品類的便攜終端數(shù)量已達到數(shù)十億臺11,利用大規(guī)模終端側(cè)AI處理支持生成式AI有著廣闊前景,并且將在未來幾年穩(wěn)步增長。關(guān)鍵問題在于,哪些生成式AI模型能夠以合適的性能和準(zhǔn)確度在終端側(cè)運行。好消息是,性能十分強大的生成式AI模型正在變小,同時終端側(cè)處理能力正在持續(xù)提升。圖6展示了可以在終端側(cè)運行的豐富的生成式AI功能,這些功能的模型參數(shù)在10億至100億之間12。如StableDiffusion等參數(shù)超過10億的模型已經(jīng)能夠在手機上運行,且性能和精確度達到與云端處理類似的水平。不久的將來,擁有100億或更多參數(shù)的生成式AI模型將能夠在終端上運行。20242023文字生成圖像對話和NLP編程

0.1

1 10 模型規(guī)模(十億參數(shù))圖6AI模型可從云端分流到終端上運行。https:///products/mobile/snapdragon/smartphones/mobile-ai假設(shè)使用INT4型的參數(shù)跨終端品類的生成式AI關(guān)鍵用例基于基礎(chǔ)模型的生成式AI迅速興起,正在驅(qū)動新一輪內(nèi)容生成、搜索和生產(chǎn)力相關(guān)用例的發(fā)展,覆蓋包括智能手機、筆記本電腦和PCXR以及物聯(lián)網(wǎng)等終端品類?;旌螦I架構(gòu)將賦能生成式AI在上述這些終端領(lǐng)域提供全新的增強用戶體驗。智能手機:搜索和數(shù)字助手面對每日超過100億次的搜索量且移動端搜索占比超過60%的情況13,生成式AI的應(yīng)用將推動所需算力的實質(zhì)性增長,尤其是來自智能手機端的搜索請求。由于基于生成式AI的查詢能夠提供更令人滿意的答案,用戶的搜索方式已經(jīng)開始發(fā)生轉(zhuǎn)變。對話式搜索的普及也將增加總體查詢量。隨著對話功能不斷改進,變得更加強大,智能手機將成為真正的數(shù)字助手。精準(zhǔn)的終端側(cè)用戶畫像與能夠理解文字、語音、圖像、視頻和任何其他輸入模態(tài)的大語言模型相結(jié)合,讓用戶可以自然地溝通,獲取準(zhǔn)確、貼切的回答。進行自然語言處理、圖像理解、視頻理解、文本生成文本等任務(wù)的模型將面臨高需求。筆記本電腦和PC生成式AI基于簡單提示就能快速生成優(yōu)質(zhì)內(nèi)容,它也正在憑借這項能力變革生產(chǎn)力。以筆記本電腦和PC上的MicrosoftOffice4億MicrosoftOffice365商業(yè)付費席位和個人訂閱者,如果將生成式AI集成至用戶日常工作流將帶來重大影響14。此前需要數(shù)小時或數(shù)天的任務(wù),現(xiàn)在僅需幾分鐘就能完成。Microsoft365Copilot同時利用大語言模型的功能和MicrosoftGraph與Microsoft365應(yīng)用中的用戶數(shù)據(jù),能夠?qū)⑻崾巨D(zhuǎn)化為強大的生產(chǎn)力工具15。Office工作者可通過后臺運行大語言模型,在Outlook中閱讀或撰寫電子郵件,在WordPowerPoint中創(chuàng)建演示文稿,在ExcelTeams會議中協(xié)作。生成式AI(和編程需要經(jīng)過海量處理,才能支持這些被重度使用的生產(chǎn)力任務(wù)。在以終端為中心的混合AI架構(gòu)中,大部分處理能夠在PC上進行。微軟財報https:///statistics/297137/mobile-share-of-us-organic-search-engine-visits/微軟財報/blog/2023/03/16/introducing-microsoft-365-copilot-your-copilot-for-work/theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來汽車:數(shù)字助手和自動駕駛得益于車內(nèi)和車輛周圍環(huán)境相關(guān)數(shù)據(jù)所提供的信息,如今AI驅(qū)動的座艙能夠提供高度個性化的體驗。類似于智能手機和PC,車載數(shù)字助手將能夠讓駕乘人員通過免提的友好用戶界面保持無縫互聯(lián),同時為生態(tài)系統(tǒng)創(chuàng)造全新的創(chuàng)收機會。(C-V2X等。企業(yè)API也支持第三方服務(wù)提供商集成他們的解決方案,將客戶關(guān)系延伸到車上。例如,主動式駕駛輔助將大幅改善導(dǎo)航體驗,比如會影響駕駛員常用出行路線的交通和天氣信息更新,汽車充電或購買停車券提醒,此外,用戶可以通過簡單地請求即可用已綁定的信用卡預(yù)訂自己喜歡的美食。如果汽車能夠識別每位駕乘人員并提供定制化的音樂和播客等體驗和內(nèi)容,座艙的媒體娛樂體驗也將會變革。隨著車載AR應(yīng)用變得更加普遍,數(shù)字助手可以按照駕乘人員的偏好提供定制化的顯示。圖7AI可用于先進駕駛輔助系統(tǒng)/(ADAS/ADUOCO/\/VV\UOCO/\/VV\¥i.?.Ph¥,??i.?.Ph??ItìlAI$gC%AtheAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來汽車維修保養(yǎng)和服務(wù)也將變得更加自主和無縫。通過分析傳感器輸入、維修保養(yǎng)歷史和駕駛行為等數(shù)據(jù),數(shù)字助手可以預(yù)測何時需要進行保養(yǎng)。利用生成式AI,數(shù)字助手可針對汽車如何維修提供信息,或為用戶提供咨詢,找到合適的服務(wù)提供商,提高車輛可靠性,同時減少時間和成本。感知軟件棧從未遇到過的罕見或陌生物體,經(jīng)常會對高級駕駛輔助系統(tǒng)和自動駕駛(ADAS/AD解決方案產(chǎn)生干擾。這種情況通常由光線不佳或惡劣天氣條件造成,會導(dǎo)致駕駛策略軟件棧產(chǎn)生難以預(yù)測、有時甚至很危險的結(jié)果。為了在未來預(yù)防類似情況,必須妥善采集和標(biāo)記這些極端場景的數(shù)據(jù)并重新訓(xùn)練模型。這個循環(huán)可能耗時費力,而生成式AI可以模擬極端場景,預(yù)測不同道路行為主體的軌跡和行為,比如車輛、行人、自行車騎行者和摩托車騎行者。規(guī)劃者可以利用這些場景確定車輛駕駛策略。駕駛策略軟件棧以及感知軟件棧始終在汽車的AI算力可支持的情況下本地運行。嚴(yán)苛的時延要求決定了云端無法針對這些AI工作負(fù)載在決策過程中發(fā)揮任何作用。隨著ADAS/AD解決方案采用支持適當(dāng)后處理的生成式AI模型,汽車必然需要具備顯著高能效的AI計算能力。XR內(nèi)容創(chuàng)作和沉浸式體驗AI能為XR帶來巨大前景。它有潛力普及3D內(nèi)容創(chuàng)作,并真正實現(xiàn)虛擬化身。下一代AI渲染工具將賦能內(nèi)容創(chuàng)作者使用如文本、語音、圖像或視頻等各種類型的提示,生成3D物體和場景,并最終創(chuàng)造出完整的虛擬世界。此外,內(nèi)容創(chuàng)作者將能夠利用文本生成文本的大語言模型,為能夠發(fā)出聲音并表達情緒的虛擬化身生成類人對話。總而言之,這些進步將變革用戶在XR設(shè)備上創(chuàng)造和體驗沉浸式內(nèi)容的方式。生成式AI為XR提供的前景無疑令人興奮,但很難預(yù)測這些技術(shù)何時才能被廣泛采用。不過,根據(jù)近幾個月快速的創(chuàng)新步伐,可以肯定地說,我們可以期待在未來幾年內(nèi)取得重要進展。對話式AI AI渲染工具模態(tài) 文本生成文本 像 文本生成3D 圖像生成3D 視頻生成3D示例 描述大語言利生成類人回2真的圖像轉(zhuǎn)化為3D模型e逼真的3D模型將模型執(zhí)行語音ASR*文本ChatGPT文本TTS**語音語音ASR文本StableDiffusion圖像游戲引擎3D紋理語音ASR文本Magic3D3D游戲引擎3D物體圖像(單/多張)NeRF游戲引擎3D物體3D場景3D虛擬化身視頻生成式AI3D游戲引擎3D場景3D世界的中D體3頭用戶的3D3D場景并最終*ASR=自動語音識別 **TTS=文本生成語音游戲引擎=將生成式AI模型引入圖形渲染管線圖8AI模型將面向XR賦能對話式AI和全新渲染工具。對于沉浸式世界,Diffusion等文本生成圖像類的模型很快將賦能內(nèi)容創(chuàng)作者在3D物體上生成逼真的紋理。我們預(yù)計,一年內(nèi)這些功能將在智能手機上實現(xiàn),并延伸到XR終端。XR中的部署需要“分布式處理”,即頭顯運行感知和渲染軟件棧,與之配對的智能手機或云端運行生成式AI模型。未來幾年,首批文本生成3D和圖像生成3D類的模型將可能實現(xiàn)邊緣側(cè)部署,生成高質(zhì)量的3D物體點云。幾年后,theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來這些模型將通過提升,達到能夠從零開始生成高質(zhì)量3D紋理物體的水平。在大約十年內(nèi),模型將更進一步,支持由文本或圖像生成的高保真完整3D空間和場景。未來,文本生成3D和視頻生成3D類的模型最終或能讓用戶踏入從零開始生成的3D虛擬世界,例如自動構(gòu)建滿足用戶任何想象的3D虛擬環(huán)境。9I虛擬化身將遵循類似的發(fā)展過程。文本生成文本的模型,比如有130億參數(shù)的模型將為這些虛擬化身生成全新的紋理和服裝。未來幾年內(nèi),圖像生成3D和編/解物聯(lián)網(wǎng):運營效率和客戶支持目前,鏈和資產(chǎn)管理。AI依靠近乎實時的數(shù)據(jù)采集和分析改進決策質(zhì)量,優(yōu)化運營效率,并賦能創(chuàng)新以打造差異化競爭優(yōu)勢。通過生成式AI,物聯(lián)網(wǎng)細分領(lǐng)域?qū)⑦M一步從AI的應(yīng)用中受益?!敖ㄗh如何調(diào)整庫存和“建議如何調(diào)整庫存和衛(wèi)生間減 增加庫存 商場入口增加庫存減 增加庫存 商場入口增加庫存增加庫存少庫存收銀臺試衣間圖10AItheAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來能源和公共設(shè)施領(lǐng)域也將受益于生成式AI。運營團隊可以創(chuàng)建極端負(fù)荷場景并預(yù)測電力需求,以及特殊情況下潛在的電網(wǎng)故障,比如農(nóng)村地區(qū)在炎熱的夏季出現(xiàn)強風(fēng)和局部火災(zāi)的情況,從而更好地管理資源、避免電力中斷。生成式AI也可以用于提供更好的客戶服務(wù),比如解答斷電或賬單計費問題??偨Y(jié)混合AI勢不可擋。生成式AI用例將持續(xù)演進并成為主流體驗,云端和其基礎(chǔ)設(shè)施需求將不斷增加。憑借終端側(cè)AI的先進能力,混合AI架構(gòu)將規(guī)?;瘮U展,以滿足企業(yè)和消費者的需求,帶來成本、能耗、性能、隱私、安全和個性化的優(yōu)勢。云端和終端將協(xié)同工作,依托強大、高效且高度優(yōu)化的AI能力打造下一代用戶體驗。 2023年5月高通在推動混合 規(guī)模化擴展方面獨具優(yōu)高通在推動混合 規(guī)?;瘮U展方面獨具優(yōu)AIisto高通在推動混合 規(guī)?;瘮U展方面獨高通在推動混合 規(guī)?;瘮U展方面獨具優(yōu)AIQualcommisuniquelypositionedtoscalehybridAI摘要正如白皮書第二部分所言,在云端和終端進行分布式處理的混合AI才是AI的未來?;旌螦I架構(gòu),或僅在終端側(cè)運行A,能夠在全球范圍帶來成本、能耗、性能、隱私、安全和個性化優(yōu)勢。高通正在助力實現(xiàn)隨時隨地的智能計算。高通技術(shù)公司作為終端側(cè)AI領(lǐng)導(dǎo)者,面向XR頭顯與眼鏡、PC和物聯(lián)網(wǎng)等邊緣終端提供行業(yè)領(lǐng)先的硬件和軟件解決方案,對推動混合AI規(guī)模化擴展獨具優(yōu)勢。高通的硬件解決方案具有行業(yè)基礎(chǔ)研究,以及跨AI應(yīng)用、模型、硬件與軟件的全棧終端側(cè)AI優(yōu)化,我們的持續(xù)創(chuàng)新讓公司始終處于終端側(cè)AI解決方案的最前沿。高通技術(shù)公司還專注于為全球數(shù)十億、由高通和驍龍?平臺支持的終端提供開發(fā)和部署的簡便性,從而賦能開發(fā)者。利用高通AI軟件棧,開發(fā)者可以在我們的硬件上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,一次編寫即能實現(xiàn)跨我們芯片組解決方案的不同產(chǎn)品和細分領(lǐng)域進行部署。憑借技術(shù)領(lǐng)導(dǎo)力、全球化規(guī)模和生態(tài)系統(tǒng)賦能,高通技術(shù)公司正在讓混合AI成為現(xiàn)實。52高通AI高通AI領(lǐng)導(dǎo)力AI網(wǎng)絡(luò)研究利用深度學(xué)習(xí)研究人臉識別片與Google展開基于TensorFlow的合作Brain公司獲得1.14億美元融資網(wǎng)絡(luò)處理架構(gòu)高通研發(fā)立ff2通研究啟動2007VisionAI研究項目a阿成立聯(lián)合yfer投入是產(chǎn)品領(lǐng)導(dǎo)力的基礎(chǔ)圖1AI研發(fā)投入是產(chǎn)品領(lǐng)導(dǎo)力的基礎(chǔ)。持續(xù)的AI研發(fā)網(wǎng)絡(luò)處理K驍龍660630(驍龍820第一代高通AI移動平臺)(驍龍835高通第二代AI引擎)https:///products/mobile/snapdragon/smartphones/mobile-ai驍龍和高通品牌產(chǎn)品是高通技術(shù)公司和/或其子公司的產(chǎn)品。53201720162013 20152009AI憑借賦能數(shù)十億邊緣終端的終端側(cè)AI領(lǐng)導(dǎo)力,高通技術(shù)公司正在助力打造混合AI新時代??蓴U展的技術(shù)架構(gòu)讓我們能夠采用一個高度優(yōu)化的AI軟件棧即可在不同終端和模型上進行工作。我們的AI解決方案旨在提供最佳能效,讓AI無處不在。高通AI引擎是我們終端側(cè)AI優(yōu)勢的核心,它在驍龍平臺和我們其他眾多產(chǎn)品中發(fā)揮了重要作用。高通AI引擎作為我們多年全棧AI優(yōu)化的結(jié)晶,能夠以極低功耗提供業(yè)界領(lǐng)先的終端側(cè)AI性能,賦能當(dāng)前和未來的用例。搭載高通AI引擎的產(chǎn)品出貨量已超過20XRPC1高通AI軟件棧將我們所有相關(guān)的AI軟件產(chǎn)品集成在統(tǒng)一的解決方案中。OEM廠商和開發(fā)者可在我們的產(chǎn)品上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,充分利用高通AI引擎性能,讓AI開發(fā)者創(chuàng)建一次AI模型,即可跨不同產(chǎn)品部署。Net習(xí)的ImageNet比賽啟動高通AI研究啟動高通AI研究OX持的編譯實現(xiàn)和智能創(chuàng)新中心co、I開源StleDiffusion人員贏得ICLR智能平臺驍龍開具IIE)entyBN和ReservoirLabs驍龍座艙平臺驍龍665/730/平臺(第一代驍龍8)高通AI引擎(驍龍845)高通AI引擎(驍龍855)高通I引擎CludAI100(驍龍865)高通AI引擎高通AI引擎I龍8)(首高通QCS400個音頻SoC)(驍龍888)高通機器人RB5平臺高通AI研究是高通技術(shù)公司的機構(gòu)。542021 2022 2023202020192018istoaledAI持續(xù)創(chuàng)新我們開發(fā)的低功耗、高性能AI,已經(jīng)形成了一個跨智能手機、汽車、XRPC電腦以及企業(yè)級AI等現(xiàn)有市場和新興領(lǐng)域的龐大終端AI生態(tài)系統(tǒng)。多年來,我們在AI賦能芯片組產(chǎn)品、打造差異化優(yōu)勢,以獲得市場領(lǐng)先地位。我們AI技術(shù)的發(fā)展歷程高通深耕AI研發(fā)已超過15年。在高通AI研究2,我們的使命是實現(xiàn)AI基礎(chǔ)研究突破,并實現(xiàn)跨行業(yè)和用例的規(guī)模化擴展。高通正在推動AI進步,讓感知、推理和行為等核心能力在終端上無處不在。我們的重要AI研究論文正在影響整個行業(yè),推動高能效AI發(fā)展。通過匯聚領(lǐng)域內(nèi)的杰出人才,高通正在不斷突破AI可能性,塑造AI的未來。我們在終端側(cè)生成式AI領(lǐng)域的領(lǐng)導(dǎo)力多年來,高通AI研究團隊一直在探索生成式AI。生成式AI可追溯到生成式對抗網(wǎng)絡(luò)(GA和變分自編碼器AE。最初,我們探索了生成式模型是否能夠很好地壓縮,并進一步提升生成痕跡(rt的感知效果。我們利用E技術(shù)創(chuàng)建更好的視頻和語音編解碼器,將模型規(guī)模控制在1億參數(shù)以下。我們還將生成式AI理念延伸到無線領(lǐng)域來替代信道模型,讓通信系統(tǒng)更加高效。億參數(shù)的生成式AI并計劃未來在終端側(cè)支持參數(shù)高達數(shù)百億的模型。我們不僅在研究如何將生成式AI模型用作通用代理來構(gòu)建計算架構(gòu)并使用語言來描述相關(guān)任務(wù)和行為,同時也正在研究如何能夠通過增加感知輸入(比如視覺和音頻,進一步開拓這一能力以及環(huán)境交互能力,比如對機器人生成指令或運行軟件。突破終端側(cè)和混合AI邊界高通技術(shù)公司具有獨特專長,我們能夠提供在邊緣側(cè)終端上低功耗運行生成式AI所需(LLM等。若要讓生成式AI得到廣泛采用,就不能像目前這樣僅在云端進行推理,還必須在終端側(cè)進行大量AI處理。為了讓生成式AI融入日常生活,處理需要同時使用云端和終端。最終,能力將成為用戶選購下一款手機、PC或汽車的主要影響因素。通過AI硬件加速和簡化開發(fā)的軟件解決方案(比如高通AI軟件棧,高通已經(jīng)在引領(lǐng)終端側(cè)AI推理。目前,我們能夠支持在終端側(cè)運行參數(shù)超過10億的模型,預(yù)計在未來幾個月,終端側(cè)將可以支持超過100億參數(shù)的模型。我們的AI加速架構(gòu)具備靈活性和穩(wěn)健

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論