版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
序言PREAMBLE序言攜手合作擁抱AI終端創(chuàng)新的黃金時(shí)代高通公司中國區(qū)董事長孟樸一年前,高通公司發(fā)布了《混合AI是AI的未來》白皮書,率先向業(yè)界分享了對人工智(AI技術(shù)發(fā)展趨勢的洞察。那時(shí),ChatGPT等生成式AI初露鋒芒,這一現(xiàn)象級(jí)的應(yīng)用引發(fā)了產(chǎn)業(yè)界對這場AI技術(shù)革命的廣泛探討和巨大期待。人們開始意識(shí)到,生成式AI將為各行各業(yè)生產(chǎn)力的提升帶來質(zhì)變。從那時(shí)起,大模型技術(shù)日新月異,商業(yè)化應(yīng)用的步伐不斷加快。當(dāng)每個(gè)人都希望無時(shí)無刻地?fù)碛小皞€(gè)人大模型”時(shí),生成式AI走AI技術(shù)的普及提供廣闊的空間,終端創(chuàng)新的黃金時(shí)代已經(jīng)到來。從云到端:智能終端迎來新增長周期,讓AI真正觸手可及當(dāng)生成式AI展現(xiàn)出強(qiáng)大的能力和前景,我們也認(rèn)識(shí)到,AI技術(shù)的真正價(jià)值在于其普惠性——要實(shí)現(xiàn)AI人人可享、人人可用,需要讓AI技術(shù)更加貼近用戶,在人們觸手可及的終端上運(yùn)行。PAI在作為關(guān)鍵的連接底座AI2025球5G連接規(guī)模將達(dá)到25億1“5G+AI”它改變在高通看來,這也正是生成式AI的革新意義——智能終端讓AI成為無處不在的個(gè)人助理,推動(dòng)終端與云端的融合,為智能手機(jī)帶來新的互動(dòng)方式,讓汽車成為全新的運(yùn)算空間,為下一代PC帶來強(qiáng)大的AI能力,智能終端市場迎來了新的增長動(dòng)力。1GSMIGTI5G新技術(shù)創(chuàng)造新價(jià)值PC、智能網(wǎng)聯(lián)汽車位于AI年出貨量高達(dá)十幾億臺(tái)。目前,眾多手機(jī)廠商積極推廣生成式AI應(yīng)用,使得智能手機(jī)有望成為生成式AI發(fā)展最快的領(lǐng)域之一。據(jù)預(yù)測,生成式AI智能手機(jī)出貨量將在2023到2027年迅速增長,預(yù)計(jì)2024年出貨量占比達(dá)到112027年將達(dá)到5.5億部,占比43%,年均復(fù)合增長率為49%。AI規(guī)?;瘮U(kuò)展AI處理成為可能,AI規(guī)?;瘮U(kuò)展AI如AI用例這有賴于終端算力的革新升級(jí)。你的智能手機(jī)將成為個(gè)人AI算為核心的計(jì)算架構(gòu),向更加高性能的異構(gòu)AI計(jì)算架構(gòu)升級(jí),讓CPUGPU和NPU等不同的計(jì)算單元“各司其職”。只有協(xié)同使用這些計(jì)算單元,異構(gòu)計(jì)算才能在應(yīng)用性能、能效和電池續(xù)航上實(shí)現(xiàn)最優(yōu)化,讓AI助理如虎添翼,賦能增強(qiáng)的生成式AI體驗(yàn)。AI前沿科技的開拓者和探索者,我們看到,終端側(cè)AI規(guī)?;瘮U(kuò)展正在點(diǎn)燃產(chǎn)業(yè)界的熱情和信心,推動(dòng)智能終端軟硬件和生態(tài)層面的創(chuàng)新。我們也倍感自豪,高通能夠成為推動(dòng)這一進(jìn)程的重要力量。今年3NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI》白皮書,分享了高通在異構(gòu)計(jì)算架構(gòu)和NPU研究方面的創(chuàng)新成果。事實(shí)上,早在2007年,也就是生成式AI進(jìn)入大眾視野的15年前,高通就開始了對NPU的研究。多年來,高通致力于將高性能低功耗的AI計(jì)算能力帶入終端設(shè)備,打造了專為AI定制設(shè)計(jì)的全新計(jì)算架構(gòu)。通過異構(gòu)計(jì)算AI引擎,我們將性能卓越的CPUNPU和GPU進(jìn)行組合,為行業(yè)提供了可行的解決方案,支持生態(tài)系統(tǒng)在跨多品類終端上開發(fā)并實(shí)現(xiàn)生成式AI用例、體驗(yàn)和領(lǐng)先產(chǎn)品,讓智能計(jì)算無處不在。從共享機(jī)遇到共建生態(tài):共創(chuàng)AI終端創(chuàng)新的黃金時(shí)代終端側(cè)AI等產(chǎn)業(yè)鏈各方,帶來了前所未有的發(fā)展機(jī)遇。據(jù)預(yù)測,對端側(cè)AI能力的需求可能會(huì)引(ASPAI能力將成為手機(jī)廠商推進(jìn)高端化的有效發(fā)力點(diǎn)。小米、榮耀、OPPO、三星等品牌均已推出支持豐富生成式AI應(yīng)用的旗艦機(jī)型。在PC2027年60%出貨的PC將是AIPC。2CounterpointAI207年占比達(dá)43%3CanalysAI趨勢與潛力4CanalysCanalysAIPC的現(xiàn)在和未來面對AI終端產(chǎn)業(yè)機(jī)遇,我們始終相信,要實(shí)現(xiàn)讓智能計(jì)算無處不在、AI觸手可及,需要產(chǎn)業(yè)鏈上下游的通力合作,需要包括中國在內(nèi)的全球生態(tài)系統(tǒng)的創(chuàng)新與協(xié)作。這將加速AI技術(shù)在各領(lǐng)域的普及與應(yīng)用,為形成新質(zhì)生產(chǎn)力蓄勢賦能。高通的AI領(lǐng)先優(yōu)勢得益于與業(yè)界的深度合作。無論是高通的異構(gòu)計(jì)算能力,還是可擴(kuò)展的AI軟件工AI解決方案和驍龍平臺(tái)正在成為推動(dòng)終端側(cè)AI手機(jī)廠商基于第三代驍龍8移動(dòng)平臺(tái),為消費(fèi)者打造突破性的AI體驗(yàn);廠商通過驍龍X系列平臺(tái)產(chǎn)品組合,為企業(yè)用戶和消費(fèi)者帶來強(qiáng)大生產(chǎn)力、豐富創(chuàng)造力和沉浸式娛樂體驗(yàn);汽車廠商也基于驍龍數(shù)字底盤,將智能網(wǎng)聯(lián)汽車上的生成式AI應(yīng)用與云端AI相結(jié)合,為用戶創(chuàng)造更好的駕乘體驗(yàn)。目前,高通AI引擎賦能的終端產(chǎn)品出貨量已經(jīng)超過了20億。與此同時(shí),為了與生態(tài)伙伴共建開放生態(tài),高通推出了AIHub,讓開發(fā)者充分發(fā)揮前沿技術(shù)的潛力,共同推進(jìn)終端側(cè)AI的規(guī)?;逃眠M(jìn)程。我們希望能夠打造一個(gè)橫向生態(tài)系統(tǒng),讓所有模型在終端上可以和諧共生,帶來跨多個(gè)生態(tài)系統(tǒng)的全新AI體驗(yàn)。在終端側(cè)AI規(guī)?;瘮U(kuò)展的機(jī)遇面前,我們倍感振奮,將一如既往地通過技術(shù)創(chuàng)新與合作共贏,擔(dān)當(dāng)推動(dòng)終端側(cè)AI發(fā)展的重要力量。期望各界能夠從我們最新結(jié)集發(fā)布的《讓AI觸手可及高通AI白皮書》中,更加系統(tǒng)性地了解高通在AI技術(shù)演進(jìn)和應(yīng)用落地方面的見解和洞察。這不僅是高通在AI領(lǐng)域持續(xù)探索、不斷突破的有力見證,也凝聚了高通與行業(yè)伙伴共同智慧的結(jié)晶。讓我們攜手共同邁向激動(dòng)人心的AI新時(shí)代,一同探索AI終端創(chuàng)新的無限可能,見證AI科技變革千行百業(yè)、成就人類美好生活的壯闊進(jìn)程。2024(MWAI(GLOMO獎(jiǎng)AI而生的移動(dòng)平臺(tái)第三代驍龍8,賦能智能手機(jī)體驗(yàn)的全面突破,讓智能計(jì)算無處不在。全球移動(dòng)大獎(jiǎng)(GLOMO獎(jiǎng)是全球數(shù)字智能領(lǐng)域的最高。獎(jiǎng)項(xiàng)名稱BestAIInnovation,請以英文為準(zhǔn)獎(jiǎng)項(xiàng)名稱Breakthroughdeviceinnovation,請以英文為準(zhǔn)獎(jiǎng)項(xiàng)信息源自官方介紹,/mobile-awards
第三代驍龍82024設(shè)備創(chuàng)新突破獎(jiǎng)第三代驍龍8
2圍高通人工智能引擎2024最佳人工智能創(chuàng)新獎(jiǎng)高通人工智能引擎第一部分通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI1.摘要 02處理器集成于SoC中的諸多優(yōu)勢 03式AI需要多樣化的處理器 0406通能AI 08式11通AI式AI14高通AI引擎中的處理器 高通AI異構(gòu)計(jì)算的系統(tǒng)級(jí)解決方案 15案例研究使用異構(gòu)計(jì)算的虛擬化身AI個(gè)人助手 16驍龍平臺(tái)領(lǐng)先的AI性能 第三代驍龍8的領(lǐng)先智能手機(jī)上AI性能 驍龍XElite的領(lǐng)先PC上AI性能 通過高通軟件棧訪問AI處理器 總結(jié) 第二部分終端側(cè)AI和混合AI開啟生成式AI的未來1.摘要 26生成式AI簡介和當(dāng)前趨勢 27合AI式AI30什么是混合AI? 30混合AI的優(yōu)勢 303.2.1成本 303.2.2能耗 32可靠性性能和時(shí)延 32隱私和安全 32個(gè)性化 33AI工作負(fù)載的分布式處理機(jī)制 33以終端為中心的混合AI 33基于終端感知的混合AI 35終端與云端協(xié)同處理的混合AI 37終端側(cè)AI的演進(jìn)與生成式AI的需求密切相關(guān) 40終端側(cè)處理能夠支持多樣化的生成式AI模型 42跨終端品類的生成式AI關(guān)鍵用例 431 智能手機(jī)搜索和數(shù)字助手 筆記本電腦和PC生產(chǎn)力 3汽車數(shù)字助手和自動(dòng)駕駛 44XR3D內(nèi)容創(chuàng)作和沉浸式體 物聯(lián)網(wǎng)運(yùn)營效率和客戶支持 第三部分THREE 高通在推動(dòng)混合AI規(guī)?;瘮U(kuò)展方面獨(dú)具優(yōu)勢1.摘要 52高通技術(shù)公司是終端側(cè)AI的領(lǐng)導(dǎo)者 53持續(xù)創(chuàng)新 54我們AI技術(shù)的發(fā)展歷程 54我們在終端側(cè)生成式AI領(lǐng)域的領(lǐng)導(dǎo)力 55突破終端側(cè)和混合AI邊界 55負(fù)責(zé)任的AI 56卓越的終端側(cè)AI技術(shù)和全棧優(yōu)化 57算法和模型開發(fā) 58軟件和模型效率 584.2.1量化 624.2.2編譯 62硬件加速 63的全球邊緣側(cè)布局和規(guī)模 665.1 手機(jī) 5.2 汽車 PC和平板電腦 物聯(lián)網(wǎng) 685.5 XR 68生成式AI何種算力?通過 和異構(gòu)計(jì)算開啟終端側(cè)生成高通AI通過 和異構(gòu)計(jì)算開啟終端側(cè)生成NPU AIUnlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing通過 和異構(gòu)計(jì)算開啟終端側(cè)生成式第一部分ONE通過 和異構(gòu)計(jì)算開啟終端側(cè)生成式NPU AIUnlockingon-devicegenerativeAIwithanNPUandheterogeneouscomputing摘要生成式AI變革已經(jīng)到來。隨著生成式AI用例需求在有著多樣化要求和計(jì)算需求的垂直領(lǐng)域不斷增加,我們顯然需要專為AI定制設(shè)計(jì)的全新計(jì)算架構(gòu)。這首先需要一個(gè)面向生成式AI全新設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)處理器(NPU,同時(shí)要利用異構(gòu)處理器組合,比如中央處理器(CPU和圖形處理器(GPU。通過結(jié)合NPU使用合適的處理器,異構(gòu)計(jì)算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航,賦能全新增強(qiáng)的生成式AI體驗(yàn)。NPU專為實(shí)現(xiàn)低功耗加速AI推理而全新打造,并隨著新AI用例、模型和需求的發(fā)展不斷演進(jìn)。優(yōu)秀的NPU設(shè)計(jì)能夠提供正確的設(shè)計(jì)選擇,與AI行業(yè)方向保持高度一致。高通正在助力讓智能計(jì)算無處不在。業(yè)界領(lǐng)先的高通HexagonNPU面向以低功耗實(shí)現(xiàn)持續(xù)穩(wěn)定的高性能AI推理而設(shè)計(jì)。高通NPU的差異化優(yōu)勢在于系統(tǒng)級(jí)解決方案、定制設(shè)計(jì)和快速創(chuàng)新。通過定制設(shè)計(jì)NPU以及控制指令集架構(gòu)(ISA通能夠快速進(jìn)行設(shè)計(jì)演進(jìn)和擴(kuò)展,以解決瓶頸問題并優(yōu)化性能。HexagonNPU是高通業(yè)界領(lǐng)先的異構(gòu)計(jì)算架構(gòu)高通AI引擎中的關(guān)鍵處理器,高通AI引擎還包括高AdrenoGPUKryo或高通OryonCPU、高通傳感器中樞和內(nèi)存子系統(tǒng)。這些處理器為實(shí)現(xiàn)協(xié)同工作而設(shè)計(jì),能夠在終端側(cè)快速且高效地運(yùn)行AI應(yīng)用。我們在AI基準(zhǔn)測試和實(shí)際生成式AI應(yīng)用方面的行業(yè)領(lǐng)先性能就是例證。我們還專注于在全球搭載高通和驍龍?平臺(tái)的數(shù)十億終端設(shè)備上實(shí)現(xiàn)便捷開發(fā)和部署,賦能開發(fā)者。利用高通AI(mAIStack,開發(fā)者可在高通硬件上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,一次編寫即可實(shí)現(xiàn)在不同產(chǎn)品和細(xì)分領(lǐng)域采用高通芯片組解決方案進(jìn)行部署。高通技術(shù)公司正在賦能終端側(cè)生成式AI的規(guī)模化擴(kuò)展。處理器集成于SoC中的諸多優(yōu)勢(CPU新處理器和加速器的需求出現(xiàn)。例如,早期智能手機(jī)系統(tǒng)由CPU和環(huán)繞CPU分布的分立芯片組成,用于2DGPSSo(DIE中。例如,現(xiàn)代智能手機(jī)、C和汽車C已集成多種處理器,如中央處理器(CPU(GPU和神經(jīng)網(wǎng)絡(luò)處理器(NPU。芯片設(shè)計(jì)上的這種集成具有諸多優(yōu)勢,CPUGPUNPU傳感安全I(xiàn)SP蜂窩調(diào)制解調(diào)器Wi-Fi內(nèi)存例如,在智能手機(jī)或筆記本電腦內(nèi)安裝分立的GPU或NPUCPUGPUNPU傳感安全I(xiàn)SP蜂窩調(diào)制解調(diào)器Wi-Fi內(nèi)存圖1SoC在單個(gè)DIEgeeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI生成式AI需要多樣化的處理器談到AI,集成專用處理器并不新鮮。智能手機(jī)SoC自多年前就開始利用NPU改善日常用戶體驗(yàn),賦能出色影像和音頻,以及增強(qiáng)的連接和安全。不同之處在于,生成式AI用例需求在有著多樣化要求和計(jì)算需求的垂直領(lǐng)域不斷增加。這些用例可分為三類:/視頻拍攝、圖像生成//(電子郵件、文檔等創(chuàng)作/摘要。這包括用戶用手機(jī)輸入文字創(chuàng)作自定義圖像、在PC上生成會(huì)議摘要,或在開車時(shí)用語音查詢最近的加油站。持續(xù)型用例運(yùn)行時(shí)間較長,包括語音識(shí)別、游戲和視頻的超級(jí)分辨率、視頻通話的音頻/視頻處理以及實(shí)時(shí)翻譯。這包括用戶在海外出差時(shí)使用手機(jī)作為實(shí)時(shí)對話PC上玩游戲時(shí)逐幀運(yùn)行超級(jí)分辨率。泛在用例在后臺(tái)持續(xù)運(yùn)行,包括始終開啟的預(yù)測性AI助手、基于情境感知的AI個(gè)性化和高級(jí)文本自動(dòng)填充。例如手機(jī)可以根據(jù)用戶的對話內(nèi)容自動(dòng)建議與同事的會(huì)議、PC端的學(xué)習(xí)輔導(dǎo)助手則能夠根據(jù)用戶的答題情況實(shí)時(shí)調(diào)整學(xué)習(xí)資料。這些AI用例面臨兩大共同的關(guān)鍵挑戰(zhàn)。第一,在功耗和散熱受限的終端上使用通用CPU和GPU服務(wù)平臺(tái)的不同需求,難以滿足這些AI用例嚴(yán)苛且多樣化的計(jì)算需求。第二,這些AI支持處理多樣性的異構(gòu)計(jì)算架構(gòu)能夠發(fā)揮每個(gè)處理器的優(yōu)勢,例如以AI為中心定制設(shè)計(jì)的NPUCPU和GPUCPU擅長順序控制和即時(shí)性,GPU適合并行數(shù)據(jù)流處理,NPUAI工作負(fù)載。CPU和GPU是通用處理器。它們?yōu)殪`活性而設(shè)計(jì),非常易于編程AI工作負(fù)載的可用容量。NPU專為AI打造,NPU降低部分易編程性以實(shí)現(xiàn)更高的峰值性能、能效和面積效率,從而運(yùn)行機(jī)器學(xué)習(xí)所需的大量乘通過使用合適的處理器,異構(gòu)計(jì)算能夠?qū)崿F(xiàn)最佳應(yīng)用性能、能效和電池續(xù)航,賦能全新增強(qiáng)的生成式AI體驗(yàn)。geeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AINPU入門NPU專為實(shí)現(xiàn)以低功耗加速AI推理而全新打造,并隨著新AI用例、模型和需求的發(fā)展不斷演進(jìn)。對整體SoC系統(tǒng)設(shè)計(jì)、內(nèi)存訪問模式和其他處理器架構(gòu)運(yùn)行AI工作負(fù)載時(shí)的瓶頸進(jìn)行的分析會(huì)深刻影響NPU設(shè)計(jì)。這些AI工作負(fù)載主要包括由標(biāo)量、向量和張量數(shù)學(xué)組成的神經(jīng)網(wǎng)絡(luò)層計(jì)算,以及隨后的非線性激活函數(shù)。在2015NPU面向音頻和語音AI用例而設(shè)計(jì),這些用例基于簡單卷積神經(jīng)(CNN并且主要需要標(biāo)量和向量數(shù)學(xué)運(yùn)算。從26年開始,拍照和視頻AI用例大受歡迎,出現(xiàn)了基于(RNN(LSTM)和更高維度的卷積神經(jīng)網(wǎng)絡(luò)(CNN等更復(fù)雜的全新模型。這些工作負(fù)載需要大量張量數(shù)學(xué)運(yùn)算,因此NPU增加了張量加速器和卷積加速,讓處理效率大幅提升。有了面向張量乘法的大共享內(nèi)存配置和專用硬件,不僅能夠顯著提高性能,而且可以降低內(nèi)存帶寬占用和能耗。例如,一個(gè)NxN矩陣和另一個(gè)NxN矩陣相乘,需要讀取2N2個(gè)值并進(jìn)行2N3(單個(gè)乘法和加法。在張量加速器中,每次內(nèi)存訪問的計(jì)算操作比率為N:1,而對于標(biāo)量和向量加速器,這一比率要小得多。在2023(LLM比如Llama2-7B(VM比如StableDiffusion賦能的生成式AI使得典型模型的大小提升超過了一個(gè)數(shù)量級(jí)。除計(jì)算需求之外,還需要重點(diǎn)考慮內(nèi)存和系統(tǒng)設(shè)計(jì),通過減少內(nèi)存數(shù)據(jù)傳輸以提高性能和能效。未來預(yù)計(jì)將會(huì)出現(xiàn)對更大規(guī)模模型和多模態(tài)模型的需求。201520152016-202220232023后用例語音/視頻音頻/語音個(gè)人助手型賦能的StableControlNet多模態(tài)生成式AI模型硬件標(biāo)量向量標(biāo)量向量Transformer支持多模態(tài)A模型簡單CNNTransformer/LSTM/RNN/CNN100億參數(shù)LLM/LVM100億參數(shù)以上LLM/向量標(biāo)量張量張量圖2NPU隨著不斷變化的AI隨著AI一個(gè)專用的定制化設(shè)計(jì)NPU能夠做出正確的選擇,與AI行業(yè)方向保持高度一致。geeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI高通NPUAI經(jīng)過多年研發(fā),高通HexagonNPU不斷演進(jìn),能夠滿足快速變化的AI2007首款HexagonDSP在驍龍?——DSP控制和標(biāo)量架構(gòu)是高通未來多代NPU的基礎(chǔ)。2015年,驍龍820處理器正式推出,集成首個(gè)高通AI引擎,支持成像、音頻和傳感器運(yùn)算。2018855中為HexagonNPU增加了Hexagon張量加速器。2019年,高通在驍龍865上擴(kuò)展了終端側(cè)AIAIAIAI語音和始終在線的感知功能。圖32015年發(fā)布的驍龍820首次集成高通AI引擎。2020HexagonNPU向量和張量加速器,帶來了更佳性能和能效,同時(shí)還為加速器打造了專用大共享內(nèi)存,AI加速器架構(gòu)為高通未來的NPU架構(gòu)奠定了堅(jiān)實(shí)基礎(chǔ)。20228中的NPUHexagonNPU的標(biāo)量加速能力,將神經(jīng)網(wǎng)絡(luò)分割成多個(gè)能夠獨(dú)立執(zhí)行的微切片,消除了高達(dá)10余層的內(nèi)存占用,能夠最大化利用HexagonNPU中的標(biāo)量、向量和張量加速器并降低功耗。本地4位整(INT4運(yùn)算支持能夠提升能效和內(nèi)存帶寬效率,同時(shí)將INT4層和神經(jīng)網(wǎng)絡(luò)的張量加速吞吐量提高一倍。Transformer網(wǎng)絡(luò)加速大幅加快了應(yīng)用于生成式AI的多頭注意力機(jī)制的推理速度,在使用MobileBERT模型的特定用例中能帶來高達(dá)4.35倍的驚人AI性能提升。其他特殊硬件包括改進(jìn)的分組卷積、激活函數(shù)加速和張量加速器性能。升級(jí)的微切片推理加速器專用電源微架構(gòu)升級(jí)峰值性能內(nèi)核高通HagonNPUInferencingAccelerationNet2倍帶寬張量加速器入更高主頻T升級(jí)的微切片推理加速器專用電源微架構(gòu)升級(jí)峰值性能內(nèi)核高通HagonNPUInferencingAccelerationNet2倍帶寬張量加速器入更高主頻TDedicated圖48的HexagonNPU升級(jí)以低功耗實(shí)現(xiàn)領(lǐng)先的生成式Dedicated與前代平臺(tái)相比。geeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI高通NPU的差異化優(yōu)勢在于系統(tǒng)級(jí)解決方案、定制設(shè)計(jì)和快速創(chuàng)新。高通的系統(tǒng)級(jí)解決方案考量每個(gè)處理器的架構(gòu)、SoC系統(tǒng)架構(gòu)和軟件基礎(chǔ)設(shè)施,以打造最佳AI解決方案。要在增加或修改硬件方面做出恰當(dāng)?shù)臋?quán)衡和決策,需要發(fā)現(xiàn)當(dāng)前和潛在的AI研究與優(yōu)化,高通能夠做到這一點(diǎn)。由于能夠定制設(shè)計(jì)NPU(ISA,高通架構(gòu)師能夠快速進(jìn)行設(shè)計(jì)演進(jìn)和擴(kuò)展以解決瓶頸問題。這一迭代改進(jìn)和反饋循環(huán),使我們能夠基于最新神經(jīng)網(wǎng)絡(luò)架構(gòu)持續(xù)快速增強(qiáng)高通NPU和高通AI軟件棧?;诟咄ǖ淖灾鰽I研究以及與廣大AI社區(qū)的合作,我們與AI模型的發(fā)展保持同步。高通具有開展基礎(chǔ)性AI研究以支持全棧終端側(cè)AI開發(fā)的獨(dú)特能力,可賦能產(chǎn)品快速上市,并圍繞終端側(cè)生成式AI等關(guān)鍵應(yīng)用優(yōu)化NPU部署。相應(yīng)地,高通NPU歷經(jīng)多代演進(jìn),利用大量技術(shù)成果消除瓶頸。例如,第三代驍龍8的諸多NPU架構(gòu)升級(jí)能夠幫助加速生成式AI大模型。內(nèi)存帶寬是大語言模型token生成的瓶頸,這意味著其性能表現(xiàn)更受限于內(nèi)存帶寬而非處理能力。因此,我們專注于提高內(nèi)存帶寬效率。第三代驍龍8還支持業(yè)界最快的內(nèi)存配置之一:4.8GHzLPDDR5x,支持77GB/s帶寬,能夠滿足生成式AI用例日益增長的內(nèi)存需求。從DSP架構(gòu)入手打造NPU是正確的選擇,可以改善可編程性,并能夠緊密控制用于AI處理的標(biāo)量、向量和張量運(yùn)算。高通優(yōu)化標(biāo)量、向量和張量加速的設(shè)計(jì)方案結(jié)合本地共享大內(nèi)存、專用供電系統(tǒng)和其他硬件加速,讓我們的解決方案獨(dú)樹一幟。高通NPU能夠模仿最主流模型的神經(jīng)網(wǎng)絡(luò)層和運(yùn)算,比如卷積、全連接層、Transformer以及主流激活函數(shù),以低功耗實(shí)現(xiàn)持續(xù)穩(wěn)定的高性能表現(xiàn)。異構(gòu)計(jì)算:利用全部處理器支持生成式AI適合終端側(cè)執(zhí)行的生成式AI模型日益復(fù)雜,參數(shù)規(guī)模也在不斷提升,從10億參數(shù)到100700億參數(shù)。其多模態(tài)趨勢日益增強(qiáng),這意味著模型能夠接受多種輸入形式此外,許多用例需要同時(shí)運(yùn)行多個(gè)模型。例如,個(gè)人助手應(yīng)用采用語音輸入輸出,這需要運(yùn)行一個(gè)支持語音生成文本的自動(dòng)語音識(shí)別(ASR模型、一個(gè)支持文本生成文本的大語言模型、和一個(gè)作為語音輸出的文本生成語音(TTS模型。生成式AI工作負(fù)載的復(fù)雜性、并發(fā)性和多樣性需要利用SoC中所有處理器的能力。最佳的解決方案要求:跨處理器和處理器內(nèi)核擴(kuò)展生成式AI處理將生成式AI模型和用例映射至一個(gè)或多個(gè)處理器及內(nèi)核選擇合適的處理器取決于眾多因素,包括用例、終端類型、終端層級(jí)、開發(fā)時(shí)間、關(guān)鍵性能指標(biāo)(KPI和開發(fā)者的技術(shù)專長。制定決策需要在眾多因素之間進(jìn)行權(quán)衡,針對不同用例的KPI(OEM在面向跨品類和層級(jí)的多種終端開發(fā)應(yīng)用時(shí),需要根據(jù)SoC規(guī)格、最終產(chǎn)品功能、開發(fā)難易度、成本和應(yīng)用跨終端層級(jí)的適度降級(jí)等因素,選擇運(yùn)行AI模型的最佳處理器。正如前述,大多數(shù)生成式AI用例可分類為按需型、持續(xù)型或泛在型用例。按需型應(yīng)用的關(guān)鍵性能指標(biāo)是時(shí)延,因?yàn)橛脩舨幌氲却?。這些應(yīng)用使用小模型時(shí),CPU通常是正確的選擇。當(dāng)模型變大(比如數(shù)十億參數(shù)時(shí),和NPU往往更合適。電池續(xù)航和能效對于持續(xù)和泛在型用例至關(guān)重要,因此NPU是最佳選擇。另一個(gè)關(guān)鍵區(qū)別在于AI(即性能表現(xiàn)受限于內(nèi)存帶寬(即性能表現(xiàn)受限于處理器性能。當(dāng)前的大語言模型在生成文本時(shí)受內(nèi)存限制,geeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI因此需要關(guān)注CPUGPU或NPU的內(nèi)存效率。對于可能受計(jì)算或內(nèi)存限制的大視覺模型,可使用GPU或,但NPU可提供最佳的能效。時(shí)延敏感型小模型持續(xù)運(yùn)行的ansformerN和LLMLVM圖像處理:用例終端類型終端層級(jí)開發(fā)時(shí)間關(guān)鍵性能指標(biāo)開發(fā)者技術(shù)專長低算量 時(shí)延敏感型小模型持續(xù)運(yùn)行的ansformerN和LLMLVM圖像處理:用例終端類型終端層級(jí)開發(fā)時(shí)間關(guān)鍵性能指標(biāo)開發(fā)者技術(shù)專長圖5提供自然語音用戶界(UI以提高生產(chǎn)力并增強(qiáng)用戶體驗(yàn)的個(gè)人助手預(yù)計(jì)將成為一類流行的生成式AI應(yīng)用。語音識(shí)別、大語言模型和語音模型必將以某種并行方式運(yùn)行,因此理想的情況是在NPUGPUCPU和傳感處理器之間分布處理模型。對于PC來說,個(gè)人助手預(yù)計(jì)將始終開啟且無處不在地運(yùn)行,考慮到性能和能效,應(yīng)當(dāng)盡可能在NPU上運(yùn)行。geeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI7.高通AI引擎:面向生成式AI的業(yè)界領(lǐng)先異構(gòu)計(jì)算高通AI引擎包含多個(gè)硬件和軟件組件,以加速驍龍和高通平臺(tái)上的終端側(cè)AI成硬件方面,高通AI引擎具有業(yè)界最領(lǐng)先的異構(gòu)計(jì)算架構(gòu),包括HexagonNPU、GPUKryoOryonCPU件都經(jīng)過精心設(shè)計(jì)以實(shí)現(xiàn)協(xié)同工作,在終端側(cè)快速高效地運(yùn)行AI應(yīng)用。高通高通AI引擎圖6AI引擎包括HexagonNPUAdrenoGPUKryo或高通OryonCPU高通AI引擎中的處理器高通最新的HexagonNPU面向生成式AI帶來了顯著提升,性能提升98%,包括微架構(gòu)升級(jí)、增強(qiáng)的微切片推理、更低的內(nèi)存帶寬占用,以及專用電源傳INT4硬件加速,使HexagonNPU成為面向終端側(cè)AI推理的領(lǐng)先處理器。AdrenoGPU不僅是能夠以低功耗進(jìn)行高性能圖形處理、賦能豐富用戶體驗(yàn)的強(qiáng)大引擎,還可用于以高精度格式進(jìn)行AI并行處理,支持32(FP3216位浮點(diǎn)(FP16和8(INT8運(yùn)算。第三代驍龍8中全新升級(jí)的AdrenoGPU實(shí)現(xiàn)了25的能效提升,增強(qiáng)了AIAdreno2-7B每秒可生成超過13個(gè)tokens。正如上一章節(jié)所述,擅長時(shí)延敏感型的低計(jì)算量AI工作負(fù)載。在驍龍?XEliteOryonCPU作為PC領(lǐng)域的全新CPU領(lǐng)軍者,可提供高達(dá)競品兩倍的CPU性能,達(dá)到競品峰值性能時(shí)功耗僅為競品的三分之一。始終在線的處理器對于處理面向泛在型生成式AI應(yīng)用的情境化信息至關(guān)重要。高通AI引擎集成的高通傳感器中樞是一款極其高效、始終在線的AI處理器,適用于需要全天1(mA。第三代驍龍8中全新升級(jí)的高通傳感器中樞相比前代性能提升3.5倍,內(nèi)存增加30,并配備兩個(gè)下一代微型,能夠?qū)崿F(xiàn)增強(qiáng)的AI器中樞具備專用電源傳輸軌道,可在SoC其余部分關(guān)閉時(shí)運(yùn)行,從而大幅節(jié)省電量。高通AI引擎中的所有處理器相輔相成,能夠?qū)崿F(xiàn)AI處理效率的大幅度提升。高通AI異構(gòu)計(jì)算的系統(tǒng)級(jí)解決方案異構(gòu)計(jì)算涵蓋整個(gè)SoC,包括多樣化處理器、系統(tǒng)架構(gòu)和軟件三個(gè)層級(jí),因此在異構(gòu)計(jì)算解決方案中應(yīng)用系統(tǒng)級(jí)方法至關(guān)重要。全局視角讓高通架構(gòu)師可以評(píng)估每個(gè)層級(jí)之間的關(guān)鍵約束條件、需求和依賴關(guān)系,從而針對SoC和最終產(chǎn)品用途做出恰當(dāng)?shù)倪x擇,比如如何設(shè)計(jì)共享內(nèi)存子系統(tǒng)或決定不同處理器應(yīng)支持的數(shù)據(jù)類型。高通定制設(shè)計(jì)了整個(gè)系統(tǒng),因此我們能夠做出恰當(dāng)?shù)脑O(shè)計(jì)權(quán)衡,并利用這些洞察打造更具協(xié)同性的解決方案。定制設(shè)計(jì)方法為高通解決方案帶來了差異化優(yōu)勢,我們可以為每類處理器插入全新的AI指令或硬件加速器。高通致力于推動(dòng)面向異構(gòu)計(jì)算特性的架構(gòu)演進(jìn),同時(shí)保持處理器多樣性這一優(yōu)勢。如果所有處理器都采用相近的架構(gòu),那么SoC將變成同構(gòu)系統(tǒng)。geeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI相比之下,許多芯片組廠商通常選擇授權(quán)多個(gè)第三方處理器,然后拼裝在一起。這些處理器不一定能夠緊密配合,也不一定是針對相同約束條件或細(xì)分市場而設(shè)計(jì)的。高通AI引擎是我們終端側(cè)AI優(yōu)勢的核心,它在驍龍平臺(tái)和眾多高通產(chǎn)品中發(fā)揮了重要作用。高通AI引擎作為我們多年全棧AI優(yōu)化的結(jié)晶,能夠以極低功耗提供業(yè)界領(lǐng)先的終端側(cè)AI性能,支持當(dāng)前和未來的用例。搭載高通AI引擎的產(chǎn)品出貨量已超過20XRPC、安防攝像頭、機(jī)器人和汽車等。2案例研究:使用異構(gòu)計(jì)算的虛擬化身AI個(gè)人助手在2023驍龍峰會(huì)上,高通在搭載第三代驍龍8移動(dòng)平臺(tái)的智能手機(jī)上演示了語音控制的AI個(gè)人助手,支持手機(jī)屏幕上的虛擬化身實(shí)現(xiàn)實(shí)時(shí)動(dòng)畫效果。該應(yīng)用需要同時(shí)基于不同計(jì)算需求,運(yùn)行眾多復(fù)雜工作負(fù)載。實(shí)現(xiàn)優(yōu)秀用戶體驗(yàn)的關(guān)鍵在于充分利用SoC內(nèi)的處理器多樣性,在最匹配的處理器上運(yùn)行合適的工作負(fù)載。圖7AI助手包括眾多復(fù)雜工作負(fù)載。https:///products/mobile/snapdragon/smartphones/mobile-ai讓我們看看該如何分配這一用例的工作負(fù)載:Whisper轉(zhuǎn)化為文本。該模型在高通傳感器中樞上運(yùn)行。當(dāng)用戶與AI助手交談時(shí),語音通過OpenAI的自動(dòng)語音識(shí)別(ASR生成式AIWhisper轉(zhuǎn)化為文本。該模型在高通傳感器中樞上運(yùn)行。AI助手再使用大語言模型Llama2-7B生成文本回復(fù)。該模型在NPU上運(yùn)行。4與此4與此同須與語音輸出同步,才能實(shí)現(xiàn)足夠真實(shí)的用戶交互界面。AIAI工作負(fù)載在NPU上運(yùn)行。
blendshape)能夠給嘴形和面部表情帶來合適的動(dòng)畫最終的虛擬化身渲染在GPU上進(jìn)行。以上步驟需要在整個(gè)內(nèi)存子系統(tǒng)中高效傳輸數(shù)據(jù),盡可能在芯片上保存數(shù)據(jù)。這一個(gè)人助手演示利用了高通AI引擎上的所有多樣化處理器,以高效處理生成式和傳統(tǒng)AI工作負(fù)載。ASRASRWhisper語音Llama2開源TTS融合變形動(dòng)畫染 UEMetaHuamn圖8AI引擎的所有多樣化處理器。geeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI驍龍平臺(tái)領(lǐng)先的AI性能實(shí)現(xiàn)領(lǐng)先性能需要卓越的硬件和軟件。盡管每秒萬億次運(yùn)(TOPS數(shù)值能夠反映硬件性能潛力,但決定硬件可訪問性和總體利用率的是軟件。AI基準(zhǔn)測試可以更好的展示性能,但最終的評(píng)估方式還是在實(shí)際應(yīng)用中,測試峰值性能、持續(xù)穩(wěn)定性能和能效。由于生成式AI基準(zhǔn)測試和應(yīng)用仍處于起步階段,以下對當(dāng)前領(lǐng)先AI指標(biāo)的分析展示了驍龍平臺(tái)的領(lǐng)先性能。第三代驍龍8的領(lǐng)先智能手機(jī)上AI性能在MLCommonMLPerfMobileV.1基準(zhǔn)測試中,與其他智能手機(jī)競品相比,第三代驍龍8具有領(lǐng)先性能。例如,在生成式AI語言理解模型MobileBERT17%,比競品B高321%3AIMarkV4.3基準(zhǔn)測試中,第三代驍龍8的總分分別為競品B的5.7倍和競品C的7.9倍。在安兔兔AI基準(zhǔn)測試中,第三代驍龍8的總分是競品B的6.3倍。智能手機(jī)AI基準(zhǔn)測試AIrk3
I
MLCommonMLPerf推理:MobileV3.198765439876543210相關(guān)性能
第三代驍龍8競品A競品B競品C圖98在AIMarkAIu和MLPerf中具有領(lǐng)先的智能手機(jī)AI性能。高通技術(shù)公司在搭載驍龍和競品B平臺(tái)的手機(jī)上運(yùn)行和收集數(shù)據(jù)。競品A在2023年驍龍峰會(huì)上,高通演示過兩個(gè)生成式AI覺模型通用架構(gòu)的真實(shí)應(yīng)用性能。在第三代驍龍820個(gè)tokens的速度運(yùn)行Llama2-7BStableDiffusion能夠在0.6秒內(nèi)生成一張x512分辨率的圖像4。高通有著智能手機(jī)領(lǐng)域領(lǐng)先的Llama和Diffusion模型指標(biāo)。驍龍XElite的領(lǐng)先PC上AI性能驍龍XElite上集成的HexagonNPU算力達(dá)到45,大幅領(lǐng)先于友商最新X86架構(gòu)芯片NPU的算力數(shù)值。在面向Windows的ULProcyonAI基準(zhǔn)測試中,與其他PCXEliteXElite的基準(zhǔn)測試總分分別為X86架構(gòu)競品A的3.4倍和競品B的8.6倍。面向Windows的ULProcyonAI推理基準(zhǔn)測試14.00 12.00 10.00相關(guān)性能8.00相關(guān)性能6.004.002.00總分0.00總分
ResNet-50
MobileNetV3
ESRGAN驍龍XElite X86競品A X86競品B圖10XElite在Poon基準(zhǔn)測試中具有領(lǐng)先的筆記本電腦AI性能。在驍龍X2-7B模型能夠在高通OryonCPU上以高達(dá)每秒30個(gè)的速度運(yùn)行。在不損失太多精度的情況下,Stable能夠在0.9秒內(nèi)生成一張512x512Llama和StableDiffusion模型指標(biāo)。基于對比性語言-(CLIPgeeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI通過高通軟件棧訪問AI處理器僅有優(yōu)秀的AI硬件還不夠。讓開發(fā)者能夠獲取基于異構(gòu)計(jì)算的AI加速,對于終端側(cè)AI的規(guī)?;瘮U(kuò)展至關(guān)重要。高通AI軟件棧將我們的互補(bǔ)性AI軟件產(chǎn)品整合在統(tǒng)一的解決方案中。OEM廠商和開發(fā)者可在高通的產(chǎn)品上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,充分利用高通AI引擎的性能,讓開發(fā)者創(chuàng)建一次AI模型,即可跨不同產(chǎn)品隨時(shí)隨地進(jìn)行部署。AI框架AIruntimes高通神經(jīng)網(wǎng)絡(luò)處理SDK高通AIAI框架AIruntimes高通神經(jīng)網(wǎng)絡(luò)處理SDK高通AI引擎DirectDirectMLTFLiteExecuTorch數(shù)學(xué)庫 編譯器 虛擬平臺(tái)分析器和調(diào)試器 編程語言 核心庫系統(tǒng)接口 SoC加速器驅(qū)動(dòng) 仿真支持QualcommAIStudio高通AI軟件棧全面支持主流AI(PyTorchONNX和Keras和runtim(rwrweh和Xruntime,面向以上runtime的代理對象可通過高通AI引擎Direct(SDK直接進(jìn)行耦合,加快開發(fā)進(jìn)程。geeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI此外,高通AI軟件棧集成用于推理的高通神經(jīng)網(wǎng)絡(luò)處理SDK,包括面向Android、Linux和Windows的不同版本。高通開發(fā)者庫和服務(wù)支持最新編程語言、虛擬平臺(tái)和編譯器。ROS程序。我們還跨不同產(chǎn)品線支持廣泛的操作系統(tǒng)(包括AndroidWindowsLinux和QNX(比如PrometheusKubernetes和Doce對于的直接跨平臺(tái)訪問,我們支持和DirectML。由于易于編程且應(yīng)用于所有平臺(tái),通常是AI編程的首選,我們的LLVM編譯器基礎(chǔ)設(shè)施優(yōu)化可實(shí)現(xiàn)加速的高效AI推理。TFLiteTFLiteExecuTorchONNXRT 高通AI引擎Direct OpenCLCPU內(nèi)核GPU內(nèi)核Hexagon內(nèi)核圖2AI軟件棧支持關(guān)鍵框架和runtime。高通專注于AI模型優(yōu)化以實(shí)現(xiàn)能效和性能提升。快速的小型AI模型如果只能提供低質(zhì)量或不準(zhǔn)確的結(jié)果,那么將失去實(shí)際用處。因此,我們采用全面而有針對性的策略,包括量化、壓縮、條件計(jì)算、神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS和編譯,在不犧牲太多準(zhǔn)確度的前提下縮減AI模型,使其高效運(yùn)行。即使是那些已經(jīng)面向移動(dòng)終端優(yōu)化過的模型我們也會(huì)進(jìn)行這一工作。例如,量化有益于提升性能、能效、內(nèi)存帶寬和存儲(chǔ)空間。HexagonNPU原生支持IN4AI模型增效工具包(AIMET5提供基于高通AI研究技術(shù)成果開發(fā)的量化工具,能夠在降低位數(shù)精度的同時(shí)限制準(zhǔn)確度的損失。對于生成式AI于r(GPTm和Llama受到內(nèi)存的限制,在量化到8位或4位權(quán)重后往往能夠獲得大幅提升的效率優(yōu)勢。借助量化感知訓(xùn)練和/或更加深入的量化研究,許多生成式AI模型可以量化至INT4模型。事實(shí)上,已成為大語言模型的趨勢,并逐漸成為范式,尤其是面向開源社區(qū)和希望在邊緣終端上運(yùn)行大型參數(shù)規(guī)模模型的情況下。INT4支持將在不影響準(zhǔn)確性或性能表現(xiàn)的情況下節(jié)省更多功耗,與INT8相比實(shí)現(xiàn)高達(dá)90的性能提升和60的能效提升,能夠運(yùn)行更高效的神經(jīng)網(wǎng)絡(luò)。使用低位整數(shù)型精度對高能效推理至關(guān)重要??偨Y(jié)利用多種處理器進(jìn)行異構(gòu)計(jì)算,對于實(shí)現(xiàn)生成式AI應(yīng)用最佳性能和能效至關(guān)重要。與競品相比,專為持久穩(wěn)定的高性能AI推理而打造的HexagonNPU具有卓越性能、能效和面積效率。高通AI引擎包括HexagonNPUAdrenoGPUKryo或高通OryonCPU、高通傳感器中樞和內(nèi)存子系統(tǒng),能夠支持按需型用例、持續(xù)型用例和泛在型用例,為生成式AI提供業(yè)界領(lǐng)先的異構(gòu)計(jì)算解決方案。通過定制設(shè)計(jì)整個(gè)系統(tǒng),高通能夠做出恰當(dāng)?shù)脑O(shè)計(jì)權(quán)衡,并利用這些洞察打造更具協(xié)同性的解決方案。我們的迭代改進(jìn)和反饋循環(huán),使高通能夠基于最新神經(jīng)網(wǎng)高通AI(AIMET(QualcommInnovationCente,Inc.的產(chǎn)品。geeIhnUds通過NPU和異構(gòu)計(jì)算開啟終端側(cè)生成式AI絡(luò)架構(gòu),持續(xù)快速增強(qiáng)高通NPU和高通AI軟件棧。我們在面向智能手機(jī)和PC的AI基準(zhǔn)測試與生成式AI應(yīng)用中領(lǐng)先的性能表現(xiàn),是高通差異化解決方案和全棧AI優(yōu)化的結(jié)晶。高通AI軟件棧賦能開發(fā)者跨不同產(chǎn)品創(chuàng)建、優(yōu)化和部署AI應(yīng)用,使得高通AI引擎上的AI加速具備可獲取性和可擴(kuò)展性。通過將技術(shù)領(lǐng)導(dǎo)力、定制芯片設(shè)計(jì)、全棧AI優(yōu)化和生態(tài)系統(tǒng)賦能充分結(jié)合,高通技術(shù)公司在推動(dòng)終端側(cè)生成式AI開發(fā)和應(yīng)用方面獨(dú)樹一幟。 2024年3月生成式AI?生成式AI終端側(cè) 和混合 開啟生成式 的未終端側(cè) 和混合 開啟生成式 的未AI AI AIAIon-device終端側(cè) 和混合 開啟生成式 的未終端側(cè) 和混合 開啟生成式 的未AI AI AIUnlockingthegenerativeAIwithon-deviceandhybridAI摘要混合AI是AI的未來。隨著生成式AI正以前所未有的速度發(fā)展1以及計(jì)算需求的日益增長2AI處理必須分布在云端和終端進(jìn)行,才能實(shí)現(xiàn)AI的規(guī)?;瘮U(kuò)展并發(fā)揮其最大潛能正如傳統(tǒng)計(jì)算從大型主機(jī)和瘦客戶端演變?yōu)楫?dāng)前云端和邊緣終端相結(jié)合的模式。與僅在云端進(jìn)行處理不同,混合AI架構(gòu)在云端和邊緣終端之間分配并協(xié)調(diào)AI工作負(fù)載。云端和邊緣終端如智能手機(jī)、汽車、個(gè)人電腦和物聯(lián)網(wǎng)終端協(xié)同工作,能夠?qū)崿F(xiàn)更強(qiáng)大、更高效且高度優(yōu)化的AI。節(jié)省成本是主要推動(dòng)因素。舉例來說,據(jù)估計(jì),每一次基于生成式AI的網(wǎng)絡(luò)搜索查(query,其成本是傳統(tǒng)搜索的10倍,而這只是眾多生成式AI的應(yīng)用之一?;旌螦I將支持生成式AI開發(fā)者和提供商利用邊緣終端的計(jì)算能力降低成本?;旌螦I架構(gòu)或終端側(cè)AI能夠在全球范圍帶來高性能、個(gè)性化、隱私和安全等優(yōu)勢?;旌螦I架構(gòu)可以根據(jù)模型和查詢需求的復(fù)雜度等因素,選擇不同方式在云端和終端側(cè)之間分配處理負(fù)載。例如,如果模型大小、提示(prompt和生成長度小于某個(gè)限定值,并且能夠提供可接受的精確度,推理即可完全在終端側(cè)進(jìn)行。如果是更復(fù)雜的任務(wù),模型則可以跨云端和終端運(yùn)行?;旌螦I還能支持模型在終端側(cè)和云端同時(shí)運(yùn)行,也就是在終端側(cè)運(yùn)行輕量版模型時(shí),在云端并行處理完整模型的多個(gè)標(biāo)記(token,并在需要時(shí)更正終端側(cè)的處理結(jié)果。隨著強(qiáng)大的生成式AI模型不斷縮小,以及終端側(cè)處理能力的持續(xù)提升,混合AI的潛力將會(huì)進(jìn)一步增長。參數(shù)超過10億的AI模型已經(jīng)能夠在手機(jī)上運(yùn)行,且性能和精確度水平達(dá)到與云端相似的水平。不久的將來,擁有100億或更高參數(shù)的模型將能夠在終端上運(yùn)行?;旌螦I方式適用于幾乎所有生成式AI應(yīng)用和終端領(lǐng)域,包括手機(jī)、筆記本電腦、XR頭顯、汽車和物聯(lián)網(wǎng)。這一方式對推動(dòng)生成式AI規(guī)?;瘮U(kuò)展,滿足全球企業(yè)與消費(fèi)者需求至關(guān)重要。https:///chart/29174/time-to-one-million-users//2023/02/05/generative-ai-drives-explosion-compute-looming-need-sustainable-ai/生成式AI簡介和當(dāng)前趨勢ChatGPT激發(fā)了人們的想象力和好奇心。自2022年11月推出后,短短兩個(gè)月內(nèi)其月活用戶便達(dá)到1億,成為有史以來增長速度最快的消費(fèi)類應(yīng)用和第一個(gè)殺手級(jí)的生成式AI應(yīng)用。隨著創(chuàng)新節(jié)奏的加快,想要緊跟生成式AI的發(fā)展速度,難度越來越大。大型聚合網(wǎng)站的數(shù)據(jù)顯示,目前已有超過個(gè)可用的生成式AI應(yīng)用和特性4AI正迎來大爆發(fā)時(shí)期,就像此前電視、互聯(lián)網(wǎng)和智能手機(jī)的問世,而這僅僅是一個(gè)開始。ChatGPT和StableDiffusion等生成式AI模型能夠基于簡單的提示創(chuàng)作出全新的原創(chuàng)內(nèi)容,如文本、圖像、視頻、音頻或其他數(shù)據(jù)。這類模型正在顛覆傳統(tǒng)的搜索、內(nèi)容創(chuàng)作和推薦系統(tǒng)的方法通過從普通產(chǎn)業(yè)到創(chuàng)意產(chǎn)業(yè)的跨行業(yè)用例,在實(shí)用性、生產(chǎn)力和娛樂性方面帶來顯著增強(qiáng)。建筑師和藝術(shù)家可以探索新思路,工程師可以更高效地編寫程序。幾乎所有與文字、圖像、視頻和自動(dòng)化相關(guān)的工作領(lǐng)域都將受益。AI作為一項(xiàng)全新的生產(chǎn)力特性,它能夠利用生成式AI幫助編寫和總結(jié)文檔、分析數(shù)據(jù),或?qū)⒑唵蔚臅嫦敕ㄞD(zhuǎn)化為演示文稿,嵌入于WordExcelPowerPointOutlook和等微軟應(yīng)用中。生成式AI的出現(xiàn)也標(biāo)志著用戶開始向探索更加多樣化、個(gè)性化的數(shù)字世界邁出了第一步。由于3D設(shè)計(jì)師可以借助生成式AI工具更加快速高效地進(jìn)行內(nèi)容開發(fā),3D內(nèi)容創(chuàng)作有望得到普及。這不僅將加速沉浸式虛擬體驗(yàn)的創(chuàng)建,而且能夠降低個(gè)人創(chuàng)作者自主內(nèi)容制作的門檻。我們即將看到從生成式AI中涌現(xiàn)出各種各樣的全新企業(yè)級(jí)和消費(fèi)級(jí)用例,帶來超越想象的功能。GPT4和LaMDA等通用大語言模型(LLM作為基礎(chǔ)模型,所具備的語言理解、生成能力和知識(shí)范疇已達(dá)到了前所未有的水平。這些模型大多數(shù)都非常龐大,參數(shù)超過1千億,并通過API向客戶提供免費(fèi)或付費(fèi)服務(wù)?;A(chǔ)模型的使用推動(dòng)大量初創(chuàng)公司和大型組織利用文本、圖像、視頻、3D、語言和音頻創(chuàng)建應(yīng)用。例如,代碼生成GitbCopilot(Jasper、面向藝術(shù)家和(Midjurney(Chaacte.ai。截至2023年4月,生成式AI應(yīng)用和特性:/theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來據(jù)初步估計(jì)顯示,生成式AI市場規(guī)模將達(dá)到1萬億美元5,廣泛覆蓋生態(tài)鏈的各個(gè)參與方。為把握這一巨大機(jī)遇,并推動(dòng)AI成為主流,計(jì)算架構(gòu)需要不斷演進(jìn)并滿足大規(guī)模生成式AI日益增長的處理和性能需求。邊緣終端邊緣終端I/工具和平臺(tái) 基礎(chǔ)模型 到應(yīng)用程序成式(輔助應(yīng)用)使用自主模型垂直領(lǐng)域應(yīng)用的實(shí)現(xiàn)其他模型;通過API提供服務(wù)通用大LL和專業(yè)照片/)專用模/企業(yè)、基礎(chǔ)設(shè)施超大規(guī)模用戶數(shù)使用基礎(chǔ)模型)編寫代碼計(jì)等圖1:生成式AI生態(tài)鏈?zhǔn)箲?yīng)用數(shù)量激增2023年2月UOCO/VVV\UOCO/VVV\1at?tAiTa&at6Bft???a&O1of^?.?al>??Ai@theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來混合AI對生成式AI規(guī)?;瘮U(kuò)展至關(guān)重要擁有數(shù)十億參數(shù)的眾多生成式AI模型對計(jì)算基礎(chǔ)設(shè)施提出了極高的需求。因此,無論是為AI模型優(yōu)化參數(shù)的AI訓(xùn)練,還是執(zhí)行該模型的AI推理,至今都一直受限于大型復(fù)雜模型而在云端部署。AI推理的規(guī)模遠(yuǎn)高于AI訓(xùn)練。盡管訓(xùn)練單個(gè)模型會(huì)消耗大量資源,但大型生成式AI模頻率的增加而增加。在云端進(jìn)行推理的成本極高,這將導(dǎo)致規(guī)?;瘮U(kuò)展難以持續(xù)?;旌螦I能夠解決上述問題,正如傳統(tǒng)計(jì)算從大型主機(jī)和瘦客戶端演變?yōu)楫?dāng)前云端和PC、智能手機(jī)等邊緣終端相結(jié)合的模式。什么是混合AI?混合AI指終端和云端協(xié)同工作,在適當(dāng)?shù)膱鼍昂蜁r(shí)間下分配AI計(jì)算的工作負(fù)載,以提供更好的體驗(yàn),并高效利用資源。在一些場景下,計(jì)算將主要以終端為中心,在必要時(shí)向云端分流任務(wù)。而在以云為中心的場景下,終端將根據(jù)自身能力,在可能的情況下從云端分擔(dān)一些AI工作負(fù)載?;旌螦I的優(yōu)勢混合AI(或僅在終端側(cè)運(yùn)行AI,能夠在全球范圍帶來成本、能耗、性能、隱私、安全和個(gè)性化優(yōu)勢。成本隨著生成式AI模型使用量和復(fù)雜性的不斷增長,僅在云端進(jìn)行推理并不劃算。因?yàn)槌掷m(xù)增加。例如,當(dāng)前面向大語言模型推理的云計(jì)算架構(gòu),將導(dǎo)致無論規(guī)模大小的搜索引擎企業(yè)負(fù)擔(dān)更高運(yùn)營成本。試想一下,未來通過生成式AI大語言模型增強(qiáng)的互聯(lián)網(wǎng)搜索,比如GPT,其運(yùn)行參數(shù)遠(yuǎn)超1750億。生成式AI搜索可以提供更加出色的用戶體驗(yàn)theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來和搜索結(jié)果,但每一次搜索查詢(quer其成本是傳統(tǒng)搜索方法的10倍。目前每天有超過100億次的搜索查詢產(chǎn)生,即便基于大語言模型的搜索僅占其中一小部分,每年增量成本也可能達(dá)到數(shù)十億美元。6將一些處理從云端轉(zhuǎn)移到邊緣終端,可以減輕云基礎(chǔ)設(shè)施的壓力并減少開支。這使混合AI對生成式AI的持續(xù)規(guī)?;瘮U(kuò)展變得至關(guān)重要?;旌螦I能夠利用現(xiàn)已部署的、具備AI能力的數(shù)十億邊緣終端,以及未來還將具備更高處理能力的數(shù)十億終端。節(jié)省成本也是生成式AI生態(tài)系統(tǒng)發(fā)展的重要一環(huán),可以支持OEM廠商、獨(dú)立軟件開(ISV和應(yīng)用開發(fā)者更經(jīng)濟(jì)實(shí)惠地探索和打造應(yīng)用。例如,開發(fā)者可以基于完全在終端上運(yùn)行的StableDiffusion創(chuàng)建應(yīng)用程序,對于生成的每個(gè)圖像承擔(dān)更低的查詢成本,或完全沒有成本。能耗支持高效AI處理的邊緣終端能夠提供領(lǐng)先的能效,尤其是與云端相比。邊緣終端能夠以很低的能耗運(yùn)行生成式AI模型,尤其是將處理和數(shù)據(jù)傳輸相結(jié)合時(shí)。這一能耗成本差異非常明顯,同時(shí)能幫助云服務(wù)提供商降低數(shù)據(jù)中心的能耗,實(shí)現(xiàn)環(huán)境和可持續(xù)發(fā)展目標(biāo)。在混合AI架構(gòu)中,終端側(cè)AI處理十分可靠,能夠在云服務(wù)器和網(wǎng)絡(luò)連接擁堵時(shí),提供媲美云端甚至更佳的性能7。當(dāng)生成式AI查詢對于云的需求達(dá)到高峰期時(shí),會(huì)產(chǎn)生大量排隊(duì)等待和高時(shí)延,甚至可能出現(xiàn)拒絕服務(wù)的情況8。向邊緣終端轉(zhuǎn)移計(jì)算負(fù)載可防止這一現(xiàn)象發(fā)生。此外,混合AI架構(gòu)中終端側(cè)處理的可用性優(yōu)勢,讓用戶無論身處何地,甚至在無連接的情況下,依然能夠正常運(yùn)行生成式AI應(yīng)用。隱私和安全終端側(cè)AI從本質(zhì)上有助于保護(hù)用戶隱私,因?yàn)椴樵兒蛡€(gè)人信息完全保留在終端上。對于企業(yè)和工作場所等場景中使用的生成式AI,這有助于解決保護(hù)公司保密信息的難摩根士丹利,《HowLargearetheIncrementalAICosts...and4FactorstoWatchNext》,2023年2月https:///news/onq/2023/02/worlds-first-on-device-demonstration-of-stable-diffusion-on-androidhttps:///computing/chatgpt-is-at-capacity-and-is-frustrating-new-people-everywhere/從而消除如今眾多企業(yè)面臨的顧慮9。對于消費(fèi)者使用而言,混合AI模式”讓用戶能夠充分利用終端側(cè)AI向聊天機(jī)器人輸入敏感提示,比如健康問題或創(chuàng)業(yè)想法。此外,終端側(cè)安全能力已經(jīng)十分強(qiáng)大,并且將不斷演進(jìn),確保個(gè)人數(shù)據(jù)和模型參數(shù)在邊緣終端上的安全。個(gè)性化混合AI讓更加個(gè)性化的體驗(yàn)成為可能。數(shù)字助手將能夠在不犧牲隱私的情況下,根據(jù)用戶的表情、喜好和個(gè)性進(jìn)行定制。所形成的用戶畫像能夠從實(shí)際行為、價(jià)值觀、痛點(diǎn)、需求、顧慮和問題等方面來體現(xiàn)一個(gè)用戶,并且可以隨著時(shí)間推移進(jìn)行學(xué)習(xí)和演進(jìn)。它可以用于增強(qiáng)和打造定制化的生成式AI提示,然后在終端側(cè)或云端進(jìn)行處理。用戶畫像保留在終端內(nèi),因此可以通過終端側(cè)學(xué)習(xí)不斷優(yōu)化和更新。個(gè)性化不僅僅適用于消費(fèi)者,企業(yè)或機(jī)構(gòu)可以借助它標(biāo)準(zhǔn)化代碼的編寫方式,或者制作具有特殊語氣和聲音的公共內(nèi)容。AI工作負(fù)載的分布式處理機(jī)制我們期望打造能夠支持不同工作負(fù)載分流方式的混合AI架構(gòu),可以根據(jù)模型和查詢復(fù)雜度進(jìn)行分布式處理,并能持續(xù)演進(jìn)。例如,如果模型大小、提示和生成長度小于某個(gè)限定值,并且能夠提供可接受的精確度,推理即可完全在終端側(cè)進(jìn)行。如果是更復(fù)雜的任務(wù),模型則可以跨云端和終端運(yùn)行;如果需要更多最新信息,那么也可以連接至互聯(lián)網(wǎng)獲取。以終端為中心的混合AI在以終端為中心的混合AI架構(gòu)中,終端將充當(dāng)錨點(diǎn),云端僅用于分流處理終端無法充分執(zhí)行的任務(wù)。許多生成式AI模型可以在終端上充分運(yùn)行(參閱圖2說終端可通過運(yùn)行不太復(fù)雜的推理完成大部分處理工作。例如,用戶在筆記本電腦上運(yùn)行或必應(yīng)Chat時(shí),包含高達(dá)數(shù)百億參數(shù)的模型將在終端上運(yùn)行,而更復(fù)雜的模型將根據(jù)需求在云端進(jìn)行處理。對用戶來說,這種體驗(yàn)是無縫的,因?yàn)榻K端側(cè)神經(jīng)網(wǎng)絡(luò)或基于規(guī)則而運(yùn)行的判決器(arbiter將決定是否需要使用云端,無論是為了有機(jī)會(huì)使用更好的模型還是https:///news/samsung-software-engineers-busted-for-pasting-proprietary-code-into-chatgpttheAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來檢索互聯(lián)網(wǎng)信息。如果用戶對請求處理結(jié)果的質(zhì)量不滿意,那么再次嘗試發(fā)起請求時(shí)可能就會(huì)引入一個(gè)更好的模型。由于終端側(cè)AI處理能力隨著終端升級(jí)和芯片迭代不斷提升,它可以分流更多云端的負(fù)載。是是否終端側(cè)神經(jīng)網(wǎng)絡(luò)器圖2AIAI任務(wù)。對于各種生成式AI應(yīng)用,比如創(chuàng)作圖像或起草郵件,快速響應(yīng)式的推理更受青睞,即使它在準(zhǔn)確度上會(huì)稍有損失。終端側(cè)AI的快速反饋(即低時(shí)延可以讓用戶使用改進(jìn)的提示來快速迭代推理過程,直至獲得滿意的輸出結(jié)果?;诮K端感知的混合AI在基于終端感知的混合AI場景中,在邊緣側(cè)運(yùn)行的模型將充當(dāng)云端大語言模型(類似大腦的傳感器輸入端(類似眼睛和耳朵。例如,當(dāng)用戶對智能手機(jī)說話時(shí),Whisper等自動(dòng)語音識(shí)別(ASR的AI模型將在終端側(cè)運(yùn)行,將語音轉(zhuǎn)為文字,然后將其作為請求提示發(fā)送到云端。云端將運(yùn)行大語言模型,再將生成的文本回復(fù)發(fā)回終(TTS模型,提供自然免提回答。將自動(dòng)語音識(shí)別和文本生成語音模型工作負(fù)載轉(zhuǎn)移至終端側(cè)能夠節(jié)省計(jì)算和連接帶寬。隨著大語在更先進(jìn)的版本中,隱私將得到進(jìn)一步保護(hù),終端側(cè)AI能夠承擔(dān)更多處理,并向云端提供經(jīng)過改進(jìn)且更加個(gè)性化的提示。借助終端側(cè)學(xué)習(xí)和終端上的個(gè)人數(shù)據(jù),比如ochestato程序協(xié)作,基于更多情境信息提供更完善的提示。例如,如果用戶讓手機(jī)來安排與好友會(huì)面的時(shí)間并在喜愛的餐廳預(yù)訂座位,編排器程序了解上述個(gè)性化信息并能夠向云端大語言模型提供更佳提示。編排器程序可在大語言模型缺乏信息時(shí)設(shè)置護(hù)欄并幫助防止產(chǎn)生“AI端側(cè)運(yùn)行,而無需與云端交互,這類似于以終端為中心的混合AI。theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來圖像/視頻語音圖像/視頻語音ASR,CV,TTS文文本回答TTS本 LLM先進(jìn)模型 語音 改進(jìn)的提示圖像/視頻先進(jìn)模型 語音 改進(jìn)的提示
ASR,CV,TTS
LLM文本回答LLMTTS圖。終端與云端協(xié)同處理的混合AI終端和云端的AI計(jì)算也可以協(xié)同工作來處理AI負(fù)載,生成大語言模型的多個(gè)token就是一個(gè)例子。大語言模型的運(yùn)行都是內(nèi)存受限的,這意味著計(jì)算硬件在等待來自DRAM的內(nèi)存數(shù)據(jù)時(shí)經(jīng)常處于閑置狀態(tài)。大語言模型每次推理生成一個(gè)token,也就是基本等同于一個(gè)單詞,這意味著GPT-3等模型必須讀取全部1750億參數(shù)才能生成一個(gè)單詞,然后再次運(yùn)行整個(gè)模型來生成下一個(gè),完整的推理過程可以以此類推。鑒于內(nèi)存讀取是造成推理性能的瓶頸因素,更高效的做法就是同時(shí)運(yùn)行多個(gè)大語言模型以生成多個(gè)token,并且從DRAM一次性讀取全部參數(shù)。每生成一個(gè)token就要讀取全部參數(shù)會(huì)產(chǎn)生能耗和造成發(fā)熱,因此使用閑置的算力通過共享參數(shù)來推測性并行運(yùn)行大語言模型,可謂是在性能和能耗上實(shí)現(xiàn)雙贏。為了生成四個(gè)(比原始目標(biāo)大語言模型小7至10準(zhǔn)確性更低要在終端上按順序連續(xù)運(yùn)行四次才可以。終端向云端發(fā)送這四個(gè)云端高效運(yùn)行四次目標(biāo)模型來檢查其準(zhǔn)確度,而僅讀取一次完整的模型參數(shù)。在云端tokentoken作為輸入。這些token在被云端確認(rèn)或校正之前被認(rèn)為是“近似的過程將持續(xù)到完整的答案出現(xiàn)時(shí)為止。我們的早期實(shí)驗(yàn)和其他已發(fā)布結(jié)果10顯示,通過四個(gè)token的推測性解碼,平均兩到三個(gè)token是正確可被接受的,這會(huì)帶來單位時(shí)間內(nèi)生成token數(shù)的增加,并節(jié)省能耗。arXivpreprintarXiv:arXivpreprintarXiv:2211.17192(2022)theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來數(shù)12 1 2 3 434計(jì)算四個(gè)token1近似模型 接受 21
正確并被接受圖4AI的四個(gè)toen推測性解碼示例。UOCO/\/VV\UOCO/\/VV\ItìlAI$gC%AtheAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來終端側(cè)AI的演進(jìn)與生成式AI的需求密切相關(guān)終端側(cè)AI能力是賦能混合AI并讓生成式AI實(shí)現(xiàn)全球規(guī)?;瘮U(kuò)展的關(guān)鍵。如何在云端和邊緣終端之間分配處理任務(wù)將取決于終端能力、隱私和安全需求、性能需求以及商業(yè)模式等諸多因(參閱第3.3章節(jié)在生成式AI出現(xiàn)之前,AI處理便持續(xù)向邊緣轉(zhuǎn)移,越來越多的AI推理工作負(fù)載在手機(jī)、筆記本電腦、XR頭顯、汽車和其他邊緣終端上運(yùn)行。例如,手機(jī)利用終端側(cè)AI支持許多日常功能,比如暗光拍攝、降噪和人臉解鎖。AI處理的重心正在向邊緣轉(zhuǎn)移為實(shí)現(xiàn)規(guī)?;瘮U(kuò)展,5G成本 隱私 低時(shí)延可靠性網(wǎng)絡(luò)帶AI處理的重心正在向邊緣轉(zhuǎn)移為實(shí)現(xiàn)規(guī)?;瘮U(kuò)展,5G中心云 邊緣云 終端側(cè)混合AI圖5AI處理的重心正在向邊緣轉(zhuǎn)移。 UOCO/\/VV\ AIt!?§??¥f???AIt!?§??¥f???theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來4.1終端側(cè)處理能夠支持多樣化的生成式AI模型如今,具備AI功能的手機(jī)、PC和其他品類的便攜終端數(shù)量已達(dá)到數(shù)十億臺(tái)11,利用大規(guī)模終端側(cè)AI處理支持生成式AI有著廣闊前景,并且將在未來幾年穩(wěn)步增長。關(guān)鍵問題在于,哪些生成式AI模型能夠以合適的性能和準(zhǔn)確度在終端側(cè)運(yùn)行。好消息是,性能十分強(qiáng)大的生成式AI模型正在變小,同時(shí)終端側(cè)處理能力正在持續(xù)提升。圖6展示了可以在終端側(cè)運(yùn)行的豐富的生成式AI功能,這些功能的模型參數(shù)在10億至100億之間12。如StableDiffusion等參數(shù)超過10億的模型已經(jīng)能夠在手機(jī)上運(yùn)行,且性能和精確度達(dá)到與云端處理類似的水平。不久的將來,擁有100億或更多參數(shù)的生成式AI模型將能夠在終端上運(yùn)行。20242023文字生成圖像對話和NLP編程
0.1
1 10 模型規(guī)模(十億參數(shù))圖6AI模型可從云端分流到終端上運(yùn)行。https:///products/mobile/snapdragon/smartphones/mobile-ai假設(shè)使用INT4型的參數(shù)跨終端品類的生成式AI關(guān)鍵用例基于基礎(chǔ)模型的生成式AI迅速興起,正在驅(qū)動(dòng)新一輪內(nèi)容生成、搜索和生產(chǎn)力相關(guān)用例的發(fā)展,覆蓋包括智能手機(jī)、筆記本電腦和PCXR以及物聯(lián)網(wǎng)等終端品類。混合AI架構(gòu)將賦能生成式AI在上述這些終端領(lǐng)域提供全新的增強(qiáng)用戶體驗(yàn)。智能手機(jī):搜索和數(shù)字助手面對每日超過100億次的搜索量且移動(dòng)端搜索占比超過60%的情況13,生成式AI的應(yīng)用將推動(dòng)所需算力的實(shí)質(zhì)性增長,尤其是來自智能手機(jī)端的搜索請求。由于基于生成式AI的查詢能夠提供更令人滿意的答案,用戶的搜索方式已經(jīng)開始發(fā)生轉(zhuǎn)變。對話式搜索的普及也將增加總體查詢量。隨著對話功能不斷改進(jìn),變得更加強(qiáng)大,智能手機(jī)將成為真正的數(shù)字助手。精準(zhǔn)的終端側(cè)用戶畫像與能夠理解文字、語音、圖像、視頻和任何其他輸入模態(tài)的大語言模型相結(jié)合,讓用戶可以自然地溝通,獲取準(zhǔn)確、貼切的回答。進(jìn)行自然語言處理、圖像理解、視頻理解、文本生成文本等任務(wù)的模型將面臨高需求。筆記本電腦和PC生成式AI基于簡單提示就能快速生成優(yōu)質(zhì)內(nèi)容,它也正在憑借這項(xiàng)能力變革生產(chǎn)力。以筆記本電腦和PC上的MicrosoftOffice4億MicrosoftOffice365商業(yè)付費(fèi)席位和個(gè)人訂閱者,如果將生成式AI集成至用戶日常工作流將帶來重大影響14。此前需要數(shù)小時(shí)或數(shù)天的任務(wù),現(xiàn)在僅需幾分鐘就能完成。Microsoft365Copilot同時(shí)利用大語言模型的功能和MicrosoftGraph與Microsoft365應(yīng)用中的用戶數(shù)據(jù),能夠?qū)⑻崾巨D(zhuǎn)化為強(qiáng)大的生產(chǎn)力工具15。Office工作者可通過后臺(tái)運(yùn)行大語言模型,在Outlook中閱讀或撰寫電子郵件,在WordPowerPoint中創(chuàng)建演示文稿,在ExcelTeams會(huì)議中協(xié)作。生成式AI(和編程需要經(jīng)過海量處理,才能支持這些被重度使用的生產(chǎn)力任務(wù)。在以終端為中心的混合AI架構(gòu)中,大部分處理能夠在PC上進(jìn)行。微軟財(cái)報(bào)https:///statistics/297137/mobile-share-of-us-organic-search-engine-visits/微軟財(cái)報(bào)/blog/2023/03/16/introducing-microsoft-365-copilot-your-copilot-for-work/theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來汽車:數(shù)字助手和自動(dòng)駕駛得益于車內(nèi)和車輛周圍環(huán)境相關(guān)數(shù)據(jù)所提供的信息,如今AI驅(qū)動(dòng)的座艙能夠提供高度個(gè)性化的體驗(yàn)。類似于智能手機(jī)和PC,車載數(shù)字助手將能夠讓駕乘人員通過免提的友好用戶界面保持無縫互聯(lián),同時(shí)為生態(tài)系統(tǒng)創(chuàng)造全新的創(chuàng)收機(jī)會(huì)。(C-V2X等。企業(yè)API也支持第三方服務(wù)提供商集成他們的解決方案,將客戶關(guān)系延伸到車上。例如,主動(dòng)式駕駛輔助將大幅改善導(dǎo)航體驗(yàn),比如會(huì)影響駕駛員常用出行路線的交通和天氣信息更新,汽車充電或購買停車券提醒,此外,用戶可以通過簡單地請求即可用已綁定的信用卡預(yù)訂自己喜歡的美食。如果汽車能夠識(shí)別每位駕乘人員并提供定制化的音樂和播客等體驗(yàn)和內(nèi)容,座艙的媒體娛樂體驗(yàn)也將會(huì)變革。隨著車載AR應(yīng)用變得更加普遍,數(shù)字助手可以按照駕乘人員的偏好提供定制化的顯示。圖7AI可用于先進(jìn)駕駛輔助系統(tǒng)/(ADAS/ADUOCO/\/VV\UOCO/\/VV\¥i.?.Ph¥,??i.?.Ph??ItìlAI$gC%AtheAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來汽車維修保養(yǎng)和服務(wù)也將變得更加自主和無縫。通過分析傳感器輸入、維修保養(yǎng)歷史和駕駛行為等數(shù)據(jù),數(shù)字助手可以預(yù)測何時(shí)需要進(jìn)行保養(yǎng)。利用生成式AI,數(shù)字助手可針對汽車如何維修提供信息,或?yàn)橛脩籼峁┳稍?,找到合適的服務(wù)提供商,提高車輛可靠性,同時(shí)減少時(shí)間和成本。感知軟件棧從未遇到過的罕見或陌生物體,經(jīng)常會(huì)對高級(jí)駕駛輔助系統(tǒng)和自動(dòng)駕駛(ADAS/AD解決方案產(chǎn)生干擾。這種情況通常由光線不佳或惡劣天氣條件造成,會(huì)導(dǎo)致駕駛策略軟件棧產(chǎn)生難以預(yù)測、有時(shí)甚至很危險(xiǎn)的結(jié)果。為了在未來預(yù)防類似情況,必須妥善采集和標(biāo)記這些極端場景的數(shù)據(jù)并重新訓(xùn)練模型。這個(gè)循環(huán)可能耗時(shí)費(fèi)力,而生成式AI可以模擬極端場景,預(yù)測不同道路行為主體的軌跡和行為,比如車輛、行人、自行車騎行者和摩托車騎行者。規(guī)劃者可以利用這些場景確定車輛駕駛策略。駕駛策略軟件棧以及感知軟件棧始終在汽車的AI算力可支持的情況下本地運(yùn)行。嚴(yán)苛的時(shí)延要求決定了云端無法針對這些AI工作負(fù)載在決策過程中發(fā)揮任何作用。隨著ADAS/AD解決方案采用支持適當(dāng)后處理的生成式AI模型,汽車必然需要具備顯著高能效的AI計(jì)算能力。XR內(nèi)容創(chuàng)作和沉浸式體驗(yàn)AI能為XR帶來巨大前景。它有潛力普及3D內(nèi)容創(chuàng)作,并真正實(shí)現(xiàn)虛擬化身。下一代AI渲染工具將賦能內(nèi)容創(chuàng)作者使用如文本、語音、圖像或視頻等各種類型的提示,生成3D物體和場景,并最終創(chuàng)造出完整的虛擬世界。此外,內(nèi)容創(chuàng)作者將能夠利用文本生成文本的大語言模型,為能夠發(fā)出聲音并表達(dá)情緒的虛擬化身生成類人對話??偠灾?,這些進(jìn)步將變革用戶在XR設(shè)備上創(chuàng)造和體驗(yàn)沉浸式內(nèi)容的方式。生成式AI為XR提供的前景無疑令人興奮,但很難預(yù)測這些技術(shù)何時(shí)才能被廣泛采用。不過,根據(jù)近幾個(gè)月快速的創(chuàng)新步伐,可以肯定地說,我們可以期待在未來幾年內(nèi)取得重要進(jìn)展。對話式AI AI渲染工具模態(tài) 文本生成文本 像 文本生成3D 圖像生成3D 視頻生成3D示例 描述大語言利生成類人回2真的圖像轉(zhuǎn)化為3D模型e逼真的3D模型將模型執(zhí)行語音ASR*文本ChatGPT文本TTS**語音語音ASR文本StableDiffusion圖像游戲引擎3D紋理語音ASR文本Magic3D3D游戲引擎3D物體圖像(單/多張)NeRF游戲引擎3D物體3D場景3D虛擬化身視頻生成式AI3D游戲引擎3D場景3D世界的中D體3頭用戶的3D3D場景并最終*ASR=自動(dòng)語音識(shí)別 **TTS=文本生成語音游戲引擎=將生成式AI模型引入圖形渲染管線圖8AI模型將面向XR賦能對話式AI和全新渲染工具。對于沉浸式世界,Diffusion等文本生成圖像類的模型很快將賦能內(nèi)容創(chuàng)作者在3D物體上生成逼真的紋理。我們預(yù)計(jì),一年內(nèi)這些功能將在智能手機(jī)上實(shí)現(xiàn),并延伸到XR終端。XR中的部署需要“分布式處理”,即頭顯運(yùn)行感知和渲染軟件棧,與之配對的智能手機(jī)或云端運(yùn)行生成式AI模型。未來幾年,首批文本生成3D和圖像生成3D類的模型將可能實(shí)現(xiàn)邊緣側(cè)部署,生成高質(zhì)量的3D物體點(diǎn)云。幾年后,theAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來這些模型將通過提升,達(dá)到能夠從零開始生成高質(zhì)量3D紋理物體的水平。在大約十年內(nèi),模型將更進(jìn)一步,支持由文本或圖像生成的高保真完整3D空間和場景。未來,文本生成3D和視頻生成3D類的模型最終或能讓用戶踏入從零開始生成的3D虛擬世界,例如自動(dòng)構(gòu)建滿足用戶任何想象的3D虛擬環(huán)境。9I虛擬化身將遵循類似的發(fā)展過程。文本生成文本的模型,比如有130億參數(shù)的模型將為這些虛擬化身生成全新的紋理和服裝。未來幾年內(nèi),圖像生成3D和編/解物聯(lián)網(wǎng):運(yùn)營效率和客戶支持目前,鏈和資產(chǎn)管理。AI依靠近乎實(shí)時(shí)的數(shù)據(jù)采集和分析改進(jìn)決策質(zhì)量,優(yōu)化運(yùn)營效率,并賦能創(chuàng)新以打造差異化競爭優(yōu)勢。通過生成式AI,物聯(lián)網(wǎng)細(xì)分領(lǐng)域?qū)⑦M(jìn)一步從AI的應(yīng)用中受益?!敖ㄗh如何調(diào)整庫存和“建議如何調(diào)整庫存和衛(wèi)生間減 增加庫存 商場入口增加庫存減 增加庫存 商場入口增加庫存增加庫存少庫存收銀臺(tái)試衣間圖10AItheAIicendd終端側(cè)AI和混合AI開啟生成式AI的未來能源和公共設(shè)施領(lǐng)域也將受益于生成式AI。運(yùn)營團(tuán)隊(duì)可以創(chuàng)建極端負(fù)荷場景并預(yù)測電力需求,以及特殊情況下潛在的電網(wǎng)故障,比如農(nóng)村地區(qū)在炎熱的夏季出現(xiàn)強(qiáng)風(fēng)和局部火災(zāi)的情況,從而更好地管理資源、避免電力中斷。生成式AI也可以用于提供更好的客戶服務(wù),比如解答斷電或賬單計(jì)費(fèi)問題??偨Y(jié)混合AI勢不可擋。生成式AI用例將持續(xù)演進(jìn)并成為主流體驗(yàn),云端和其基礎(chǔ)設(shè)施需求將不斷增加。憑借終端側(cè)AI的先進(jìn)能力,混合AI架構(gòu)將規(guī)?;瘮U(kuò)展,以滿足企業(yè)和消費(fèi)者的需求,帶來成本、能耗、性能、隱私、安全和個(gè)性化的優(yōu)勢。云端和終端將協(xié)同工作,依托強(qiáng)大、高效且高度優(yōu)化的AI能力打造下一代用戶體驗(yàn)。 2023年5月高通在推動(dòng)混合 規(guī)?;瘮U(kuò)展方面獨(dú)具優(yōu)高通在推動(dòng)混合 規(guī)?;瘮U(kuò)展方面獨(dú)具優(yōu)AIisto高通在推動(dòng)混合 規(guī)?;瘮U(kuò)展方面獨(dú)高通在推動(dòng)混合 規(guī)?;瘮U(kuò)展方面獨(dú)具優(yōu)AIQualcommisuniquelypositionedtoscalehybridAI摘要正如白皮書第二部分所言,在云端和終端進(jìn)行分布式處理的混合AI才是AI的未來?;旌螦I架構(gòu),或僅在終端側(cè)運(yùn)行A,能夠在全球范圍帶來成本、能耗、性能、隱私、安全和個(gè)性化優(yōu)勢。高通正在助力實(shí)現(xiàn)隨時(shí)隨地的智能計(jì)算。高通技術(shù)公司作為終端側(cè)AI領(lǐng)導(dǎo)者,面向XR頭顯與眼鏡、PC和物聯(lián)網(wǎng)等邊緣終端提供行業(yè)領(lǐng)先的硬件和軟件解決方案,對推動(dòng)混合AI規(guī)?;瘮U(kuò)展獨(dú)具優(yōu)勢。高通的硬件解決方案具有行業(yè)基礎(chǔ)研究,以及跨AI應(yīng)用、模型、硬件與軟件的全棧終端側(cè)AI優(yōu)化,我們的持續(xù)創(chuàng)新讓公司始終處于終端側(cè)AI解決方案的最前沿。高通技術(shù)公司還專注于為全球數(shù)十億、由高通和驍龍?平臺(tái)支持的終端提供開發(fā)和部署的簡便性,從而賦能開發(fā)者。利用高通AI軟件棧,開發(fā)者可以在我們的硬件上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,一次編寫即能實(shí)現(xiàn)跨我們芯片組解決方案的不同產(chǎn)品和細(xì)分領(lǐng)域進(jìn)行部署。憑借技術(shù)領(lǐng)導(dǎo)力、全球化規(guī)模和生態(tài)系統(tǒng)賦能,高通技術(shù)公司正在讓混合AI成為現(xiàn)實(shí)。52高通AI高通AI領(lǐng)導(dǎo)力AI網(wǎng)絡(luò)研究利用深度學(xué)習(xí)研究人臉識(shí)別片與Google展開基于TensorFlow的合作Brain公司獲得1.14億美元融資網(wǎng)絡(luò)處理架構(gòu)高通研發(fā)立ff2通研究啟動(dòng)2007VisionAI研究項(xiàng)目a阿成立聯(lián)合yfer投入是產(chǎn)品領(lǐng)導(dǎo)力的基礎(chǔ)圖1AI研發(fā)投入是產(chǎn)品領(lǐng)導(dǎo)力的基礎(chǔ)。持續(xù)的AI研發(fā)網(wǎng)絡(luò)處理K驍龍660630(驍龍820第一代高通AI移動(dòng)平臺(tái))(驍龍835高通第二代AI引擎)https:///products/mobile/snapdragon/smartphones/mobile-ai驍龍和高通品牌產(chǎn)品是高通技術(shù)公司和/或其子公司的產(chǎn)品。53201720162013 20152009AI憑借賦能數(shù)十億邊緣終端的終端側(cè)AI領(lǐng)導(dǎo)力,高通技術(shù)公司正在助力打造混合AI新時(shí)代??蓴U(kuò)展的技術(shù)架構(gòu)讓我們能夠采用一個(gè)高度優(yōu)化的AI軟件棧即可在不同終端和模型上進(jìn)行工作。我們的AI解決方案旨在提供最佳能效,讓AI無處不在。高通AI引擎是我們終端側(cè)AI優(yōu)勢的核心,它在驍龍平臺(tái)和我們其他眾多產(chǎn)品中發(fā)揮了重要作用。高通AI引擎作為我們多年全棧AI優(yōu)化的結(jié)晶,能夠以極低功耗提供業(yè)界領(lǐng)先的終端側(cè)AI性能,賦能當(dāng)前和未來的用例。搭載高通AI引擎的產(chǎn)品出貨量已超過20XRPC1高通AI軟件棧將我們所有相關(guān)的AI軟件產(chǎn)品集成在統(tǒng)一的解決方案中。OEM廠商和開發(fā)者可在我們的產(chǎn)品上創(chuàng)建、優(yōu)化和部署AI應(yīng)用,充分利用高通AI引擎性能,讓AI開發(fā)者創(chuàng)建一次AI模型,即可跨不同產(chǎn)品部署。Net習(xí)的ImageNet比賽啟動(dòng)高通AI研究啟動(dòng)高通AI研究OX持的編譯實(shí)現(xiàn)和智能創(chuàng)新中心co、I開源StleDiffusion人員贏得ICLR智能平臺(tái)驍龍開具IIE)entyBN和ReservoirLabs驍龍座艙平臺(tái)驍龍665/730/平臺(tái)(第一代驍龍8)高通AI引擎(驍龍845)高通AI引擎(驍龍855)高通I引擎CludAI100(驍龍865)高通AI引擎高通AI引擎I龍8)(首高通QCS400個(gè)音頻SoC)(驍龍888)高通機(jī)器人RB5平臺(tái)高通AI研究是高通技術(shù)公司的機(jī)構(gòu)。542021 2022 2023202020192018istoaledAI持續(xù)創(chuàng)新我們開發(fā)的低功耗、高性能AI,已經(jīng)形成了一個(gè)跨智能手機(jī)、汽車、XRPC電腦以及企業(yè)級(jí)AI等現(xiàn)有市場和新興領(lǐng)域的龐大終端AI生態(tài)系統(tǒng)。多年來,我們在AI賦能芯片組產(chǎn)品、打造差異化優(yōu)勢,以獲得市場領(lǐng)先地位。我們AI技術(shù)的發(fā)展歷程高通深耕AI研發(fā)已超過15年。在高通AI研究2,我們的使命是實(shí)現(xiàn)AI基礎(chǔ)研究突破,并實(shí)現(xiàn)跨行業(yè)和用例的規(guī)?;瘮U(kuò)展。高通正在推動(dòng)AI進(jìn)步,讓感知、推理和行為等核心能力在終端上無處不在。我們的重要AI研究論文正在影響整個(gè)行業(yè),推動(dòng)高能效AI發(fā)展。通過匯聚領(lǐng)域內(nèi)的杰出人才,高通正在不斷突破AI可能性,塑造AI的未來。我們在終端側(cè)生成式AI領(lǐng)域的領(lǐng)導(dǎo)力多年來,高通AI研究團(tuán)隊(duì)一直在探索生成式AI。生成式AI可追溯到生成式對抗網(wǎng)絡(luò)(GA和變分自編碼器AE。最初,我們探索了生成式模型是否能夠很好地壓縮,并進(jìn)一步提升生成痕跡(rt的感知效果。我們利用E技術(shù)創(chuàng)建更好的視頻和語音編解碼器,將模型規(guī)??刂圃?億參數(shù)以下。我們還將生成式AI理念延伸到無線領(lǐng)域來替代信道模型,讓通信系統(tǒng)更加高效。億參數(shù)的生成式AI并計(jì)劃未來在終端側(cè)支持參數(shù)高達(dá)數(shù)百億的模型。我們不僅在研究如何將生成式AI模型用作通用代理來構(gòu)建計(jì)算架構(gòu)并使用語言來描述相關(guān)任務(wù)和行為,同時(shí)也正在研究如何能夠通過增加感知輸入(比如視覺和音頻,進(jìn)一步開拓這一能力以及環(huán)境交互能力,比如對機(jī)器人生成指令或運(yùn)行軟件。突破終端側(cè)和混合AI邊界高通技術(shù)公司具有獨(dú)特專長,我們能夠提供在邊緣側(cè)終端上低功耗運(yùn)行生成式AI所需(LLM等。若要讓生成式AI得到廣泛采用,就不能像目前這樣僅在云端進(jìn)行推理,還必須在終端側(cè)進(jìn)行大量AI處理。為了讓生成式AI融入日常生活,處理需要同時(shí)使用云端和終端。最終,能力將成為用戶選購下一款手機(jī)、PC或汽車的主要影響因素。通過AI硬件加速和簡化開發(fā)的軟件解決方案(比如高通AI軟件棧,高通已經(jīng)在引領(lǐng)終端側(cè)AI推理。目前,我們能夠支持在終端側(cè)運(yùn)行參數(shù)超過10億的模型,預(yù)計(jì)在未來幾個(gè)月,終端側(cè)將可以支持超過100億參數(shù)的模型。我們的AI加速架構(gòu)具備靈活性和穩(wěn)健
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 甘肅省白銀市靖遠(yuǎn)縣第一中學(xué)2024-2025學(xué)年高二上學(xué)期12月期末模擬語文試卷(含答案)
- 第8課 革命先行者孫中山(解析版)
- 燃?xì)夤艿拦こ毯贤踩珯z測
- 學(xué)校體育師資招聘合同范本
- 化工設(shè)備品牌租賃合約
- 醫(yī)藥行業(yè)財(cái)務(wù)管理辦法
- 訴訟保函協(xié)議書
- 圖書館車輛出入管理規(guī)定
- 酒店前臺(tái)主管聘用合同
- 2024房屋租賃分期付款合同范本
- TD汽車維修公司管理制度和崗位職責(zé)匯編-30頁
- 《從百草園到三味書屋》閱讀理解題
- 數(shù)字化設(shè)計(jì)與制造PPT課件
- 個(gè)人信息查詢使用授權(quán)書
- 工作證明(通用)
- 通達(dá)信-低位放量公式(已驗(yàn)證)
- 第四章 船舶動(dòng)力管路系統(tǒng)
- 全球?qū)嶒?yàn)室儀器耗材國際品牌簡介
- 空白數(shù)獨(dú)格子
- 特種設(shè)備日常運(yùn)行記錄表(共4頁)
- 扶壁式擋土墻監(jiān)理實(shí)施細(xì)則
評(píng)論
0/150
提交評(píng)論