AI+汽車智能化系列之五:智駕算法步入深水區(qū)頭部玩家有望持續(xù)領跑_第1頁
AI+汽車智能化系列之五:智駕算法步入深水區(qū)頭部玩家有望持續(xù)領跑_第2頁
AI+汽車智能化系列之五:智駕算法步入深水區(qū)頭部玩家有望持續(xù)領跑_第3頁
AI+汽車智能化系列之五:智駕算法步入深水區(qū)頭部玩家有望持續(xù)領跑_第4頁
AI+汽車智能化系列之五:智駕算法步入深水區(qū)頭部玩家有望持續(xù)領跑_第5頁
已閱讀5頁,還剩95頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

證券研究報告·行業(yè)研究·汽車與零部件AIAI+汽車智能化系列之五——汽車行業(yè)證券分析師:黃細里汽車行業(yè)證券分析師:楊惠冰.何謂“大模型”?大數據喂養(yǎng)神經網絡算法,設定規(guī)則機制使其自成長。1)多模態(tài)數據是基礎,包括文本/圖像/音頻/視頻等在內的多類型數據喂養(yǎng),驅動算法更好完成理解/生成等任務。2)Transformer是核心,Self-Attention機制強化算法抽象特征提取能力,并支持并行計算,高能且高效,衍生ViT/DiT支持多模態(tài)數據理解/生成。3)ChatGPT及Sora為代表應用,在大參數加持下,開發(fā)多模態(tài)自然語言處理以及文生視頻等功能。4)世界模型為未來方向,算法能力由數據驅動演變?yōu)檎J知驅動,模型具備反事實推理和理解物理客觀規(guī)律的能力,提升通用泛化特性。.大模型重塑車端算法架構,加速云端算法迭代;世界模型或為完全自動駕駛最優(yōu)解。智駕一階段(L2~L3)脫胎換骨:由場景驅動轉向數據驅動,大模型帶來底層架構質變;智駕二階段(L3~L4)厚積薄發(fā):由數據驅動轉向認知驅動,數據和算力逐步累計驅動能力提升,量變引起質變。1)車端:上層感知/規(guī)控應用層算法隨功能需求提升持續(xù)進化,“場景理解處理能力泛化”是核心訴求。L2~L3,感知端為升級核心,Transformer加持BEV+占用網絡算法落地感知端到端,解決長尾場景識別難題;L3~L4以規(guī)控算法升級為核心,精準識別并快速逐步取代Rule-base,端到端拉高場景處理能力的天花板。2)云端:數據閉環(huán)為前提,加速大數據有效利用,采集/標注/仿真/訓練/部署一體化。Transformer賦能自動標注,數據驅動場景仿真泛化,降低對有限的實際路測數據的依賴。3)世界模型【通用具身智能】或為自動駕駛最優(yōu)解。車端場景生成泛化,將自動駕駛問題轉化為預測視頻的下一幀,類人模式處理,實現泛化至數據場景以外的能力;并可快速生成標準化仿真數據,結合大算力加速云端訓練。.算法實現高壁壘+數據閉環(huán)硬要求,未來智駕算法產業(yè)格局趨于集中化。當前下游L3+高階算法方案以OEM自研為主,華為以“算法賦能,數據回傳”的形式深度綁定OEM;L3以下算法呈現OEM+獨立算法商+硬件商三足鼎立格局。我們認為,考慮高階智駕功能的提升對于算法能力/組織架構/超算中心/完整數據鏈等的要求,未來“掌握硬件的基礎上去發(fā)展軟件”或為主流,即掌握壁壘最高的硬件——芯片;提供性價比最高的硬件——傳感器;掌握粘性最強的硬件——整車。22投資建議:汽車AI智能化轉型大勢所趨,算法為主干,看好頭部算法玩家持續(xù)領先鑄就高壁壘。全行業(yè)加速智能化轉型,產業(yè)趨勢明確。下游OEM玩家+中游Tier供應商均加大對汽車智能化投入,大勢所趨;智駕核心環(huán)節(jié)【軟件+硬件+數據】均圍繞下游OEM展開,數據催化算法提效進而驅動硬件迭代。以特斯拉為代表,應用算法向全棧端到端-世界模型持續(xù)迭代,功能落地兌現。OEM整車廠商&核心芯片硬件廠商&智駕傳感器廠商&獨立算法商加速布局端到端算法開發(fā),場景驅動-數據驅動-認知驅動持續(xù)進化;智駕算法產業(yè)發(fā)展進入深水區(qū),高投入賦能【大算力+大數據】,方能走通L3有條件自動駕駛至L4完全自動駕駛之路??春弥邱{頭部車企以及智能化增量零部件:1)華為系玩家【長安汽車+賽力斯+江淮汽車】,關注【北汽藍谷】;2)頭部新勢力【小鵬汽車+理想汽車】;3)加速轉型【吉利汽車+上汽集團+長城汽車+廣汽集團】;4)智能化核心增量零部件:域控制器(德賽西威+經緯恒潤+華陽集團+均勝電子等)+線控底盤(伯特利+耐世特+拓普集團等)。風險提示:智能駕駛相關技術迭代/產業(yè)政策出臺低于預期;華為/小鵬等車企新車銷量低于預期。;;機器學習:以設定規(guī)則+數據喂養(yǎng)驅動算法自機器學習:以設定規(guī)則+數據喂養(yǎng)驅動算法自.機器學習>神經網絡>深度學習≈深度神經網絡。機器學習用于解決由人工基于if-else等規(guī)則開發(fā)算法而導致成本過高的問題,想要通過幫助機器“發(fā)現”它們“自己”解決問題的算法來解決;機器學習可以分為有監(jiān)督學習、無監(jiān)督學習和強化學習等三類。而神經網絡算法是機器學習模型的一個分支,包括卷積神經網絡CNN/循環(huán)神經網絡RNN等等,自注意力機制(Transformer)則是基于全連接神經網絡和循環(huán)神經網絡的衍生。始輸入中逐步提取更高層次更抽象的特征用于后續(xù)算法識別,處理大規(guī)模數據是其核心優(yōu)勢。當前,深度學習已經應用到包括圖像識別、自然語言處理、語音識別等各領域。 大模型:大規(guī)模參數賦能神經網絡,持續(xù)優(yōu)化大模型:大規(guī)模參數賦能神經網絡,持續(xù)優(yōu)化.AI大模型是指具有超大規(guī)模參數(通常在十億個以上)、超強計算資源的機器學習模型,其目標是通過增加模型的參數數量來提高模型的表現能力,它們能夠處理海量數據,完成各種復雜任務。AI大模型的原理是基于神經網絡和大量數據的訓練,模型通過模擬人腦的神經元結構,對輸入數據進行多層抽象和處理,從而實現對復雜任務的學習和預測。AI大模型的訓練主要分為:數據預處理、模型構建、橫型訓練、模型評估等幾大步驟,如下:11數據預處理 2構建神經網絡3前向傳播 4激活函數在神經網絡的每一層之后,通常會使用激活函數(如ReLU、Sigmoid或Tan 4激活函數在神經網絡的每一層之后,通常會使用激活函數(如ReLU、Sigmoid或Tanh等)對輸出進行非線性變換,以增加模型的表達能力。損失函數5根據損失函數,選擇重復執(zhí)行上述步驟,直到合適合適的優(yōu)化算法(如梯度下降、隨機梯度下降、Adam等)來更新神經網絡中的權重和偏置,以減小損失函數的值。這個過程稱為反向傳播。當模型在訓練集和驗證集上表現良好時,可以將數據模型進行部署和使用。為了衡量模型預測結果與真實目標之間的差距,需要定義一個損失函數。損失函數會計算預測誤差,并將其作為優(yōu)化目標。常見的損失函數有均方誤差(MSE)、交叉熵損能。為了防止過擬合,還需要在驗證集上評估模型的泛化能力。如果發(fā)現模型在驗證集上的表現不佳,可以調整網絡結構、超參數或訓練策略等。八個步驟失(Cross-EntropyLoss)等。66優(yōu)化算法77訓練與驗證88部署與使用 .AI大模型能夠處理以下幾類核心問題:1)自然語言處理:以GPT-3和BERT為例,AI大模型通過學習海量的語料庫和上下文,讓計算機更加準確地理解和處理自然語言,如翻譯、問答、分詞、文本生成等領域。2)計算機視覺:以ResNet和EficientNet為例,AI大模型通過學習大量的圖像數據和構建更深更復雜的神經網絡,使計算機能夠對圖像進行更加準確的識別和分析,包括目標檢測、圖像分類、語義分割等領域。3)語音識別和生成。通過以上幾類問題的解決,AI大模型可以進一步通過自動化和智能化的方式提高生產效率,在部分工業(yè)領域可以實現人機合作或自動化,優(yōu)點減少人力成本。圖:AI大模型的優(yōu)劣勢分析優(yōu)點1.1.更準確:AI大模型有更多的參數,能夠處理更復雜的信息和更深入的上下文,提高了精度和準確性。2.更智2.更智能:AI大模型能夠模擬人類的思維和學習模式,通過大量的訓練數據,從而提高人工智能的智能性3.3.更具通用性:AI大模型能夠自適應不同的工作和環(huán)境,可以適應各種不同的自然語言、視覺和聲音數據。4.更加4.更加高效:AI大模型通過并行計算和分布式訓練,大大提高了計算效率,能夠在短時間內處理大量的數據。 .Transformer是本輪大模型顛覆全行業(yè)算法架構的核心,也是多模態(tài)模型相比之前單一文本理解模型提升的關鍵,Transformer賦予算法更精準的特征提取能力,強化理解和識別功能,其獨特的自注意力機制是靈魂,即Attentionisallyouneed。.Transformer的優(yōu)勢在于:1)自注意力機制賦予的長依賴語義問題(捕捉間隔較遠的詞之間的語義聯系問題2)支持并行計算,可極大的提升大模型數據處理效率。自注意力機制:查詢/定位,賦予權重(即注意力),多頭即多個維度計算相似度特征,保優(yōu)勢:自注意力機制不同于RNN,無主次先后,可支持并行計算,同時利用位置編碼和權重賦予進行定位和篩選。?????inputembedding是編碼器的輸入,outputembedding是解碼器的輸入PositionalEncoding代表位置編碼,記住順序Encoder和Decoder分別有6層(blocksEncoder負責特征提取,Decoder則利用特征來完成識別、分類、回歸等任務解碼后輸出結果 .由理解內容至生成內容,多模態(tài)大語言模型持續(xù)進化。多模態(tài)模型是一種能夠處理多種類型數據(如文本、圖像、音頻和視頻)的人工智能模型。這種模型的目標是通過結合不同類型的數據來提供更全面、更準確的信息。在自然語言處理(NLP)領域,多模態(tài)模型可以用于機器翻譯、情感分析、文本摘要等任務。在計算機視覺領域,多模態(tài)模型可以用于圖像分類、目標檢測、人臉識別等任務。多模態(tài)大語言(MM-LLMs)即是將多模態(tài)模型與具備強大推理和生成能力的大語言模型結合的產物,其難點在于如何對齊本不兼容的圖像/視頻/文本等的編碼器。視覺表征主框架由CNN切換Transformer,即ViT,其多頭自注意力機制賦予模型并行高效計算以及把握前后長時間依賴關系的能力,能夠同時接收來自文本/圖像/音頻/視頻的特征Token,并接入全鏈接層服務于下游的分類任務。ViT成功的秘訣在于大量的數據做預訓練,如果沒有這個過程,在開源任務上直接訓練,其效果仍會遜色于具有更強歸納偏置的CNN網絡。ViT步驟分為三大步:圖形切塊PatchEmbedding;位置編碼PositionEmbedding;特征提取ClassToken;注意力權重賦予TransformerEncoder;多頭輸出MLPHead。 .GPT1:用Transformer的解碼器和大量的無標簽樣本去預訓練一個語言模型,然后在子任務上提供少量的標注樣本做微調,就可以很大的提高模型的性能。.GPT2:Zero-shot,在子任務上不去提供任何相關的訓練樣本,而是直接用足夠大的預訓練模型去理解自然語言表達的要求,并基于此做預測。但GPT2性能差,有效性低。.GPT4:GPT1~3本質還是通過海量的參數學習海量力使得模型能夠收斂,因此不具備文本生成能力。ChatGPT則在此基礎上,依賴指令學習(InstructionLearning)和人工反饋強化學習(RLHF)進行訓練,對原有模型進行有監(jiān)督的微調(人工優(yōu)化數據集)+強化學習對模型生成結果進行打分,提高泛化能力,在此基礎上loss持續(xù)迭代,生成正確結果。相比GPT3規(guī)模大幅提升,從1750億提升至1.8萬億,算力需求大幅提升。omni,意為“全體”、“所有”或“全面的”,打通多模態(tài)間輸入交互,延遲降低并完全開放免費,并進一步增強推理能力。但其依然是基于Transformer架構去實現對于模態(tài)信息的理解和生成,因此并未有底層架構的創(chuàng)新。 Sora發(fā)揮DiT模型優(yōu)勢,利用大數據實現文生視頻.Sora模型充分利用擴散模型(DiffusionModel)精細化生成能力以及Transformer的前后文全局關系捕捉能力,實現視頻每一幀的圖像精確生成以及前后的時空一致性。.Sora可以理解為是OpenAI大模型技術的完全集成,其原理可以分為三步:1)首先,模型將視頻壓縮到低維潛在空間中,然后將其分解為patch(類似于GPT中的Token從而將視頻完全壓縮。2)其次,視頻patch在低維空間中訓練,擴散模型通過在訓練數據上逐步添加高斯噪聲并學習如何逆向去除噪聲的過程來生成新數據,并整合了Transformer的多頭注意力機制和自適應層歸一化,提升擴散模型在處理連續(xù)大規(guī)模視頻數據時的穩(wěn)定性和一致性。3)最后,模型通過對應解碼器,將生成的元素映射回像素空間,完成視頻生成任務。.Sora的核心DiT模型:Transformer架構取代原有UNet架構(本質為CNN卷積神經網絡提升長時間性能的同時具備可擴展性+靈活性,并支持跨領域擴展,或可應用至自動駕駛領域。 世界模型:通用人工智能世界模型:通用人工智能AGI,預測未來.視頻生成VideoGeneration是世界模型WorldModel的基礎,Sora的成功使得DiT擴散模型收斂為視頻生成的主導方式。基于對歷史信息的理解生成對于未來的預測進而合理表征,并結合可能的行為action進一步輔助預測可能的結果,可應用于包括直接的視頻生成以及自動駕駛和機器人等通用人工智能多個領域。.基于數據,超越數據。傳統(tǒng)大模型要適應新的精細任務時,必須基于數據對模型參數進行全面微調,依賴【預訓練】環(huán)節(jié),不同任務與不同數據一一對應,模型專業(yè)化。相比過往大模型強調的模態(tài)信息理解的能力,世界模型更加注重【因果和反事實推理、模擬客觀物理定律】等規(guī)劃和預測的能力,并具備強泛化和高效率等性能表現。圍繞Transformer/LSTM構建的世界模型運行.傳統(tǒng)的多子函數模塊化算法演變?yōu)槭澜缒P蛿祿]環(huán)訓練,持續(xù)優(yōu)化提升算法認知。世界模型在進行端到端訓練的過程為:.觀測值經過V(基于Transformer的VisionModel,圖中為早先采用的VAE架構)提取feature,然后經過M(基于LSTM的Memory)得到h(預測值),最后預測值和歷史信息合并至C(Controller)得到動作,基于動作和環(huán)境交互的結果產生新的觀測值,保障車輛做出合理行為。圖:傳統(tǒng)模塊化算法架構【V+M+C】轉變?yōu)槎说?二、車端:大模型重塑智駕算法架構二、車端:大模型重塑智駕算法架構智能駕駛軟件分類:底層調動支持+上層應用智能駕駛軟件分類:底層調動支持+上層應用.底層調動支持:1)異構化底層軟件配合SoC異構芯片支持不同類型的功能實現落地。用于智駕域控的SoC異構芯片是高度集成化的,除多核CPU外,還會集成DSP/NPU或其它專用計算加速單元。在此硬件上進行匹配的異構軟件,多核CPU經過虛擬化之后,可以在不同的虛擬機上運行不同的操作系統(tǒng),例如運行Linux來充分利用Linux社區(qū)豐富的軟件生態(tài),運行QNX/VxWorks來達到更好的實時性。2)SOA中間件提供標準化接口服務。SOA中間件能屏蔽不同服務間軟硬件異構平臺的差異性,一方面讓異構平臺都能夠以SOA的方式交互,另一方面讓通用的功能邏輯能在不同硬件平臺之間移植。比如將DSP或NPU的使用封裝在特定的庫中,對外呈現為標準SOA服務。3)軟件框架:即可復用的設計構件,它規(guī)定了應用的體系結構,代表已經完成項目的底層開發(fā)基礎搭建,可以在其基礎上差異化開發(fā)的半成品??梢宰屖褂谜邷p少很多重復的代碼、讓代碼的結構更加清晰,耦合度更低,后期維護方便。.上層應用賦能:算法:即解決某一類問題的特定策略機制,不同算法解決同一問題時的質量優(yōu)劣不同,這將影響程序的效率。一個算法的評價主要從時間復雜度和空間復雜度來考慮。多自研,匹配上層應用算法多采用第三方成熟系統(tǒng) .What:傳統(tǒng)汽車時代,狹義的操作系統(tǒng)指操作系統(tǒng)內核;當前智電汽車域控時代,系統(tǒng)更加復雜,因此需要基于內核進行大量工程優(yōu)化以后方可直接開發(fā)上層應用軟件,中間件和功能軟件即由工程優(yōu)化算法標準化后所得。當前廣義操作系統(tǒng)包括內核以及中間件和功能軟件等幾部分。.How:高性能、高安全、跨平臺、高效開發(fā)應用。操作系統(tǒng)要求較強實時性,系統(tǒng)任務調度時鐘周期在毫秒級;且提供高可靠性和較強功能安全。未來,行業(yè)艙駕一體化等集中式EE架構還要求操作系統(tǒng)保證合理共享算力資源,支持系統(tǒng)快速OTA迭代。.底層支持軟件相對標準化,通用性較強。1)操作系統(tǒng)內核(Kernel):即為狹義操作系統(tǒng),如OSEKOS、VxWorks、RT-Linux等。內核提供操作系統(tǒng)最基本的功能,負責管理系統(tǒng)的進程、內存、設備驅動程序、文件和網絡系統(tǒng),決定著系統(tǒng)的性能和穩(wěn)定性。2)中間件:處于應用和操作系統(tǒng)之間的軟件,實現異構網絡環(huán)境下軟件互聯和互操作等共性問題,提供標準接口、協(xié)議,具有較高的移植性,如POSIX/ARA(自適應AutoSAR運行時環(huán)境即中間件API接口)和DDS(分布式實時通信中間件)。3)功能軟件:主要指自動駕駛的核心共性功能模塊。QNX可靠性很好,協(xié)議棧、各種外設驅動穩(wěn)定,只是運行所需資源有些多Linux實時性較差,但軟件資源內容豐富VxWorks開發(fā)工具功能強大,使用方便,但是價格昂貴 上層應用算法:感知上層應用算法:感知-規(guī)控-執(zhí)行三大模塊.車端上層應用算法分為感知(Perception)/規(guī)控(PlanningandDecision)/執(zhí)行(Motionandcontrol)三大模塊。感知模塊的輸入可以是各種傳感器:攝像頭、激光雷達、毫米波雷達等,同時感知也會接受車身傳感器的信息來對感知結果進行修正。決策規(guī)劃模型又分為行為決策、軌跡規(guī)劃、軌跡生成等模塊。控制模塊主要分為橫向控制與縱向控制,橫向控制主要是控制轉向系統(tǒng),縱向控制涉及油門與剎車的控制。.模塊化的軟件算法早期具備可解釋性強、安全性強、靈活性高的優(yōu)點,但過于依賴先驗數據,無法實時更新,且窮舉法終究沒辦法覆蓋所有長尾場景,因此隨智駕等級提升,正逐漸被大模型端 .多模態(tài)數據喂養(yǎng)軟件算法,驅動功能進化。硬件端升級提供多樣化數據,智駕傳感器由單目視覺向雙目視覺以及視覺+雷達的方向演變,多傳感器支持對周圍環(huán)境的更精確識別,圖像/點云等數據呈現方式多樣化,數據賦能算法升級,支持智駕功能由L3級別以下向L3及以上迭代升級。.場景泛化是智駕能力提升的重要方向,數據需求量激增驅動算法由小模型切換為大模型。智駕軟件上層應用算法中,感知能力提升核心系場景識別能力的泛化,規(guī)控能力提升核心系場景處理邏輯的泛化,均以有效數據量為核心驅動,數據處理/利用等是瓶頸。DNN/CNN/RNN小模型切換為Transformer大模型賦能多模態(tài)數據處理,重塑車端算法架構,以支持更高級別智駕功能。.世界模型(自學習,強泛化,高效率)或為通向L4級完全自動駕駛的必由之路。數據賦能催化模型自學習,理解物理世界基礎運行規(guī)律,模型“認知能力”提升,或可實現完全自動駕駛。類型算法架構特征小模型DNN通過對像素級別進行逐個對比,通過圖像特征進行識別,精確,存儲簡單,但計算量較大CNN以“卷積-池化”的方式,將整幅圖按興趣區(qū)域ROI進行特征分割后,分別對ROI進行局部像素對比識別,相當于在DNN基礎上進行降維,特征提取降低計算量需求RNN在CNN基礎上引入循環(huán)核,便于處理時間序列圖像特征大模型Transformer基于特有的自注意力機制,能夠有效捕捉序列信息中長距離依賴關系并支持并行計算,適合處理大量且多類型的數據ResNet深度卷積神經網絡,為解決隨網絡層數增加帶來的網絡退化(梯度消失和梯度爆炸)現象,殘差網絡使用跳躍連接實現信號跨層傳播VQ-VAE以自編碼器將圖像壓縮為有限數量的向量集合,從而實現了高效的圖像表示和重構生成對抗網絡GANGAN由生成器和判別器組成,生成器經由輸入的噪聲向量輸出為假設圖像,判別器區(qū)分假設圖像和真實圖像并反饋訓練,驅動生成更加逼真的圖像世界模型(基于Transformer的復合)人工智能系統(tǒng)構建的對于現實世界的模擬與表達,模型充分理解物理世界的客觀運行規(guī)律 43與Learning-base結合形式來過渡2特斯拉HydraNet多頭任務處理加速數據訓練推理143與Learning-base結合形式來過渡2特斯拉HydraNet多頭任務處理加速數據訓練推理1功能維度:智駕功能迭代驅動,泛化是根本.產業(yè)對于智駕功能持續(xù)迭代的訴求驅動車端/云數據清洗標注后訓練,算法基于特定規(guī)則,場景泛化能力較差,數據以及標注工程師均為瓶頸。2)階段二:L3級別。Transformer賦能,大模型端到端算法落地,自動化標注多模態(tài)數據,并快速提升數據利用效率,數據與算法能力形成正循環(huán),場景識別的泛化能力提升。3)階段三:L3以上。車端算法完全端到端,Learning-base主導算法訓練,強化算法感知以及規(guī)控端的泛化能力,算法認知規(guī)劃能力提升,逐步支持完全自動駕駛。駛加速場景識別和處理邏輯的駛加速場景識別和處理邏輯的 數據來源:東吳證券研究所繪制21L2~L3:精準識別,人車共駕,感知為瓶頸L2~L3:精準識別,人車共駕,感知為瓶頸精確感知為躍升L3的瓶頸,BEV+Transformer架構上車支持產業(yè)化解決方案落地。L1-L2:智駕迭代主要集中在感知維度的升級,不包含規(guī)控以及執(zhí)行端底盤的變化。由L2-L3的過程,則是由以人為主體逐步切換為人車共駕,【外部環(huán)境的精確感知問題】為瓶頸。當前,低成本的軟件算法升級(BEV+Transformer)基本取代高成本解決方案(激光雷達+高精地圖推動產業(yè)化。傳統(tǒng)CV小模型架構下,感知能力升級更依賴硬件。依賴攝像頭+激光雷達/毫米波雷達等能夠感知三維深度的硬件實時描繪周圍環(huán)境,并配合高精度地圖提供的先驗信息輔助判斷;算法領域,以CNN卷積神經網絡進行圖像的特征提取和目標識別,RNN大規(guī)模記憶處理時間序列數據。 數據來源:汽車之心,東吳證券研究所22L2~L3:精準識別,人車共駕,感知為瓶頸L2~L3:精準識別,人車共駕,感知為瓶頸精確感知為躍升L3的瓶頸,BEV+Transformer架構上車支持產業(yè)化解決方案落地。BEV+Transformer大模型架構賦能精準感知【處理長距離依賴關系+并行計算+統(tǒng)一融合】。Transformer以自注意力機制完成時間/空間關聯,處理長序列數據信息同時支持并行計算,提高效率。1)高效對多模態(tài)數據進行特征提取,利用空間元素間的關聯關系進行全局建模,實現特征增強;2)利用元素與前后體之間的關聯關系,高效處理長序列信息,避免重復遞歸/卷積。BEVFusion統(tǒng)一框架,實現多模態(tài)信息的精確端到端融合。用獨立流程分別處理雷達和攝像頭數據,然后在鳥瞰視圖(BEV)層面進行融合,并擴展到多任務、多傳感器框架,兼顧信息完整度和效率,標準化框架也便于數據清洗標注。Attention(自注意力機制)原理統(tǒng)一特征級融合并行特征提取 數據來源:汽車之心,東吳證券研究所23L3~L4L3~L4:完全識別,自動駕駛,全面泛化是前提全面泛化為躍升L4的瓶頸,WorldModel世界模型(本質為模型基于對客觀世界物理規(guī)律的理解進行精準預測)或為終局解決方案。L4智駕要求完全自動駕駛,相比L3智駕,其對車輛運行過程中的場景識別以及預測規(guī)劃提出更高要求,強調【100%全面泛化】。因此,車輛自主控制階段的算法瓶頸轉變?yōu)椤救绾握_預測周圍環(huán)境變化并合理規(guī)劃行駛路徑】。世界模型或為L4完全自動駕駛終局解決方案,通過End-to-End算法+大數據閉環(huán)訓練,培養(yǎng)算法(Counterfactualreasoning也即對于數據中沒有見過的決策,在worldmodel中都能推理出決策的結果。圖:模塊化算法架構逐步迭代為端到端 數據來源:汽車之心,東吳證券研究所24WHYWHY端到端?學習+理解+進化,能力上限更高端到端架構將感知-規(guī)控-執(zhí)行模塊串聯統(tǒng)一訓練。優(yōu)點:1)結構簡單直接,算法工作量較低,減少維護成本;傳統(tǒng)策略基于完整規(guī)則進行控制,行為機械且代碼量大,據小鵬2022年,城市NGP代碼量是高速的88倍,端到端有明顯優(yōu)勢,架構和代碼方面一勞永逸,高度整合,省去獨立模塊開發(fā)以及數據人工標注和規(guī)則設計,降低成本。2)更利于追求“全局最優(yōu)解”,能力上限高,泛化能力更強,完美應對長尾場景;基于規(guī)則的方案遇到未學習過的場景時無法做出良好的處理策略,且基于已有數據難以保證100%的場景數據覆蓋,傳統(tǒng)模式的最優(yōu)解理論上無法達成,端到端是通過對場景的理解進行判斷,天花板更高。3)減少數據時延,便于車端迅速判斷,提升安全系數。缺點:數據的針對性更弱、模型訓練的信號更弱,意味著提升性能所需的數據量和算力規(guī)模更大。端到端的優(yōu)勢在數據量達到一定程度后性能顯著提高,但數據量較小時候性能上升緩慢,遠低于解耦的傳統(tǒng)基于專家模型的策略(特斯拉當前高速依然保留FSDv11的代碼)。 數據來源:汽車之心,東吳證券研究所25.UniAD(感知Perception+規(guī)劃Planning多個共享BEV特征的Transformer網絡將跟蹤+建圖+軌跡預測+占據柵格預測統(tǒng)一到一起,并且使用不依賴高精地圖的Planner作為一個最終的目標輸出,同時使用Plan結果作為整體訓練的loss來源。相比于特斯拉FSDv12的黑盒端到端,其在感知/規(guī)控等模塊間雖然一體化整合,但并非一個整體黑盒網絡,仍可以對各個模塊進行分別的監(jiān)測和優(yōu)化,各個模塊間有了相當的可解釋性,也有利于訓練和Debug,【解耦白盒】是核心。保存動態(tài)物體的軌跡。之后在仿真環(huán)境中,靜態(tài)物體作為整體世界背景,所有的動態(tài)物體根據軌跡轉換到世界坐標系中,進行世界環(huán)境的模擬。利用動靜態(tài)解耦的方式,為之后仿真物體的刪除和插入提供便利,同時對危險場景的模擬提供充足的自由度,保證場景泛化。 數據來源:汽車之心,東吳證券研究所26世界模型(仿真數據&世界模型(仿真數據&強化學習)更好支持端到端.WorldModel≠端到端,但或為實現端到端的理想方式。1)數據需求:端到端算法訓練需要大量低成本+高互動的標準化數據,世界模型可制造大量仿真數據,無需標注直接應用于算法訓練;2)利用數據大規(guī)模進行強化學習,培養(yǎng)模型的規(guī)律認知能力,類似于人類學車/開車的行為,完成感知/記憶/動作的連貫行為。.特斯拉早于2023年提出世界模型WorldModel,即通過神經網絡結構化表示事物,并預測未來,將自動駕駛決策問題轉為預測視頻的下一幀。世界模型用于理解世界,不僅能用于自動駕駛也能用于機器人,是特斯拉自身端到端智駕解決方案的基礎原理,自動駕駛是世界模型的具身智能。2727三、云端:大模型加速智駕算法迭代三、云端:大模型加速智駕算法迭代數據閉環(huán)是產業(yè)玩家高效利用數據的核心。智駕數據主要指車輛在行駛過程中由攝像頭/雷達/地圖等傳感器感知到的周遭環(huán)境以及車輛自身狀態(tài)響應等信息,其為智駕算法模型的學習反饋和迭代提供了必備的“良師”。數據記錄:將車身傳感器感知到的信息轉化為數字信號,通常上傳至云端,便于訪問管理。數據處理:將基于不同傳感器感知的數據進行預處理、濾波和融合,生成高質量統(tǒng)一格式的數據。數據標注:即數據信息歸類,包括目標檢測(特征提?。?軌跡生成/優(yōu)化等,將智駕面臨的不同場景一一歸類,是算法預訓練前最為繁瑣的環(huán)節(jié)之一。數據仿真:模擬真實的交通場景和車輛行駛狀態(tài),方便對車輛的算法和系統(tǒng)進行測試和驗證。模型訓練和算法部署:基于已有數據對智駕算法進行云端訓練,并裁剪部署至車端實時推理應用。 數據來源:汽車之心,東吳證券研究所29.“場景驅動”是小模型時代智駕算法能力的重要特征,體現為數據的人工標注。傳統(tǒng)CV小模型時代,智駕覆蓋廣度的提升依賴于長尾場景CornerCase的持續(xù)完善,工程師需要手動區(qū)分場景信息中的新增部分并人工分類標注,進一步修改“if-else”規(guī)則下的規(guī)控算法,“補丁”式小碎步提升。21年之前特斯拉數據標注團隊規(guī)模在千人級別,工程師數量是限制算法迭代的瓶頸之一。.基于Transformer的SAM等自動標注算法打開智駕算法數據利用的天花板。其原理在于:首先基于少量的人工處理構建標注真值系統(tǒng),進而將未標注的數據應用至真值系統(tǒng)得到標注結果,以SAM為例的標注算法即是基于Transformer機制完成批量化特征提取和標注。特斯拉2021年AIday宣布裁撤旗下千人左右的數據標注團隊,正式大規(guī)模應用基于大模型的自動標注,并可于一周內實現人工標注幾個月時間才能完成的一萬個片段的標注任務。 .數據仿真是云端算法訓練的重要組成部分。智駕仿真測試,即以建立車輛模型并將其應用場景進行數字化還原,建立盡可能接近真實世界的系統(tǒng)模型,如此通過軟件仿真即可對自動駕駛系統(tǒng)和算法進行測試。其包含了虛擬的駕駛場景、車輛的動力學系統(tǒng)、感知系統(tǒng)、并預留對接ADAS/自動駕駛系統(tǒng)的通信接口?,F實世界路測數據搜集【長尾場景信息不全+耗時且成本高昂】的短板極大促進了場景仿真技術的發(fā)展。.從基于模型設計到數據驅動迭代,以場景真實性作為方向。仿真系統(tǒng)包括靜態(tài)場景搭建+動態(tài)場景搭建+車輛動力學仿真+傳感器仿真幾大部分。傳統(tǒng)仿真多依據V-Shape流程,以動力學仿真為主,基于車控進行建模,隨L2發(fā)展,“弱動力,重場景”的建模方式逐步被引入。但L3級別智駕所需的場景數目以及代碼量飛速增長,以數據驅動的“場景重建”仿真技術成為主流:基于游戲引擎開發(fā),以實現對靜態(tài)場景的高保真渲染和物理模擬。例如英偉達的DRIVESim即是一種基于Omniverse引擎構建的仿真工具,應用OmniverseReplicator以縮小仿真到真實的域差距。 .世界模型有望提供真實且多樣化的仿真數據,即加速泛化,加速云端算法迭代。.1)當前智能駕駛仿真的主流技術方案為【NeRF+素材庫+游戲引擎,基于真實數據進行道路重建,并保證和真實場景的相似程度,再依靠交通元素的不同排列組合進行有條件泛化,最后通過游戲引擎輸出高質量的仿真畫面】。,覆蓋更多CornerCase,有效降低廠商對于真實數據的依賴程度,提升效率;但大模型的基礎前提決定其比較依賴大算力+大規(guī)模數據喂養(yǎng)持續(xù)訓練,方能避免出現違背客觀規(guī)律的情況。Tesla可以做到多個攝像頭同步聯合預測;并支持prompt嵌入,可以提出要求生成車輛直行或者對向車道視角的未來數據。Sora面世即是世界模型所代表的場景生成的新范式代表。 以華為為例,盤古大模型實現數據閉環(huán)加速云訓練以華為為例,盤古大模型實現數據閉環(huán)加速云訓練.云服務為基,搭建數據閉環(huán)堅實底座。華為云ModelArts平臺提供DataTurbo、TrainTurbo、InferTurbo3層加速,分別提供數據加載、模型訓練、模型推理三方面服務,能夠助力數據讀取時間縮短50%、訓練效率提升40%+。統(tǒng)一的數據湖讓數據存儲成本下降20%、冷數據下沉率最高96%。華為云服務能夠完整覆蓋數據閉環(huán)各個環(huán)節(jié),提供數據管理平臺、AI模型訓練平臺、仿真評測平臺等,形成全棧式研發(fā)工具鏈。串聯互通的工具,增強了業(yè)務連續(xù)性,縮短了模型訓練時間,大大減少了調試成本和人力成本,提升研發(fā)效率。;;;;鏈 鏈 力.高階智駕算法持續(xù)升級,產業(yè)趨勢明確;數據/算力為壁壘。北美特斯拉以及國內市場華為/小鵬等玩家引領,Transformer賦能多模態(tài)感知融合(FSDv10)及更進一步的端到端(FSDv11/12)驅動產品功能體驗持續(xù)升級,低時延+強泛化,同時也明確產業(yè)升級方向。端到端方案依賴大算力+極多高質量數據訓練,同時要求玩家數據鏈閉環(huán),保證數據采集/存儲/清洗/標注更加高效。.算法實現高壁壘+數據閉環(huán)硬要求,未來智駕算法產業(yè)格局趨于集中化。當前整車下游L3高階智駕算法方案以OEM自研為主,華為以“算法賦能,數據回傳”的形式深度綁定OEM;L3以下智駕算法呈現OEM+硬件商+獨立算法商三足鼎立格局,OEM玩家/硬件商占據行業(yè)主導位置。.我們認為,考慮高階智駕功能的實現對于算法能力、組織架構、超算中心、完整數據鏈等的要求,未來“掌握硬件的基礎上去發(fā)展軟件”或為主流,即掌握壁壘最高的硬件——芯片;提供性價比最高的硬件——傳感器;掌握粘性最強的硬件——整車。 數據來源:華為官網,東吳證券研究所354.14.1OEM玩家及相關企業(yè)外采轉自研,特斯拉FSD引領全球智駕軟外采轉自研,特斯拉FSD引領全球智駕軟.2020年為特斯拉“硬件為先,軟件隨后”策略的重要窗口,【大的核心抓手?!綡ydraNet/FSD芯片+Transformer/Dojo】等6次硬件變化升級+3次軟件架構的重大創(chuàng)新變革,均體現特斯拉第一性原理的經營思想。2014.102016.102017.072019.042021.072022.042023Q22024Q1邊緣端FSD歷史重要階段(軟Autopilot1.0Autopilot2.0Autopilot3.0FSDBetav9v10.11v11.3FSDv12硬件解決方案名稱HW1.0HW2.0HW2.5HW3.0HW4.0芯片MobileyeQ3英偉達drivePX2英偉達drivePX2+自研FSD1.0自研FSD2.0,算力五倍傳感器1攝像頭+1毫米波雷達+12超聲波雷達8攝像頭+1毫米波雷達達8攝像頭+1毫米波雷達+12超聲波雷達12攝像頭+1毫米波雷達軟件解決方案標注人工標注BEV+Transformer架構,數據驅動深度學習,使得自動標注落地感知外采Mobileye黑盒自研圖像識別+多傳感器后融合策略HydraNet驅動多頭任務實現,進一步提效BEV+Transformer上實現感知大模型,無圖城市領航功能上車占用網絡上車,泛化能力增強,功能維度統(tǒng)一高速與城市領航輔助感知+規(guī)控全追求具身智能規(guī)控自研rule-baserule為主,開發(fā)learning-base備注2015.04開啟自研軟件2017.03自研算法,硬件升級但功能降級2018年開發(fā)更好實現多傳感器融合的策略硬件儲備完成感知能力升級驅動無圖化泛化能力增強驅動傳感器簡化步升級北美開放,即將入華云端-2021年8月官宣Dojo,利用海量的數據,做無監(jiān)督的標注和仿真訓練,更好驅動大模型;世界模型加速大模型仿真 .HydraNet賦能多傳感器融合,特斯拉基于全自研軟硬件實現有限范圍的智能領航輔助駕駛,追平行業(yè)。2016年起特斯拉自研軟件算法上車,2D網絡的CNN架構+人工數據標注的迭代模式下,特斯拉智駕功能表現遜于長期深耕的Mobileye;2019年4月配合自研FSD芯片,HydraNet九頭蛇架構實現更好的特征提取以及多頭任務并行,催化特斯拉追平MobileyeL2+級別智駕功能。賦能2D圖像升維實現BEV轉換,占用網絡(加入時序的BEV)進一步泛化異形場景,實現無高精度地圖化及傳感器精簡化;2)特征級融合取代后融合,減少信息損耗,還原更真實的場景信息;3)人工標準轉向自動標注,龐大數據預訓練大模型,進行云端預標注,車端蒸餾落地。.FSD升級,全棧端到端落地。車端感知規(guī)控全融合,大模型覆蓋范圍深化,數據賦能加速迭代。智駕路線方向趨同,國內智駕路線方向趨同,國內OEM玩家快速追趕智能駕駛軟件算法架構歷經兩次框架變化:1)2D+CNN小模型向Transformer大模型進化,智駕迭代由工程師驅動轉為數據驅動:2020年特斯拉BEV上車,數據后融合變?yōu)樘卣骷壢诤?,提升數據利用效率和結果準確性,同時數據標注由人工轉為模型自動,迭代提效;2022年占用網絡落地,泛化能力進一步增強,實現感知維度端到端;2023年數據驅動算法持續(xù)迭代,規(guī)控環(huán)節(jié)端到端落地,rule-base比例降低,能力優(yōu)化。2)模塊化端到端進化為全棧端到端,WorldModel逐步完善,數據驅動變?yōu)檎J知驅動,向L4迭代。特斯拉FSDv12起轉向智駕環(huán)節(jié)全棧端到端,數據閉環(huán)后WorldModel逐步演化完善,基于歷史數據去理解未來的范式進步為基于常識和規(guī)律自我學習進化的范式,實現無接管的L4智駕。底層感知邏輯算法架構對應智駕功能對應FSD版本行業(yè)玩家掌握程度傳統(tǒng)CV地和研究宣發(fā)為準,不代表車企自身的內部非公開研發(fā)規(guī)劃;3)特斯拉FSD版本算法架構對應智駕功能對應落地時間FSDBetav9~v10BEV+Transformer城市領航落地2021.07之后小米FSDBetav10.11占用網絡城市領航快速鋪開2022.04理想/蔚來/百度FSDBetav11.3感知端到端,規(guī)控環(huán)節(jié)rule-base比例降低城市+高速+泊車等全場景貫通2023Q2華為/小鵬FSDv12世界模型下全棧端到端全場景貫通且逐步迭代為零接管2024Q124H2起華為/小鵬陸續(xù)迭代方向(規(guī)劃階段,尚未落地) 數據來源:汽車之心,東吳證券研究所繪制39模型化,實現感知維度端到端,在感知硬件逐步簡化的同時支持無圖模式城市NCA加速開放;2024年華為重磅迭代模塊化端到端,覆蓋感知及規(guī)控環(huán)節(jié),全場景貫通。版本ADS1.0ADS2.0ADS3.0發(fā)布時間2021.42023.42024.4軟件架構模塊化模塊化,感知端到端感知GOD大網,規(guī)控決策PDP端到端BEV網絡BEV網絡+GOD網絡GOD大網,輸入PDP端到端落地感知方式圖識別異形障礙物,無圖化,泛化能力提升全面的物理世界理解,感知場景語義增強功能L2級別LCC城區(qū)道路NAC、LAEB、GAEB、ELKA、城區(qū)LCCPLUS、哨兵模式全場景貫通NCA,CAS3.0、ESA、車位到車位NCA、窄空間泊車硬件視覺傳感器13顆11顆,前擋風減少2顆攝像頭+雷達全融合毫米波雷達升級為4D毫米波雷達,性能提升35%激光雷達3顆,華為等效96線半固態(tài)前保1顆+前保側面2顆1顆,速騰聚創(chuàng)(車頂)192線,增強全天候、小目標檢測能力云端算力2.8EFLOPS(截至2023年11月)3.5EFLOPS智駕功能定位L3-L5解決方案全系標配全系標配中高端:含1/3顆激光雷達+4D毫米波雷達入門級:視覺ADS,支持高速NCA應用車型北汽極狐α、阿維塔問界/智界/享界全系- 數據來源:華為官網,汽車之家,東吳證券研究所40軟件維度:小鵬Xpilot/XNGP/XNGP+迭代圍繞【增加learning-base使用率,端到端全覆蓋】的目標架構,XNGP落地BEV+Transformer架構實現感知維度端到端,規(guī)控環(huán)節(jié)逐步引入learning-base;2024年XNGP+有望在rule-base基礎上實現感知-規(guī)控模塊化端到端XBrain。Xbrain:XNet2.0融合了行業(yè)最高精度的純視覺占據網絡,可實現動/靜態(tài)BEV、占據網絡三網合一;基于神經網絡的XPlanner可結合分鐘級以上的時序連續(xù)動機,并依據周邊環(huán)境信息及時變通,生成最佳運動軌跡。5月OTA上車的XNGP+將實現上述感知大模型升級和規(guī)控大模型上車。 數據來源:小鵬汽車2023年1024科技日,東吳證券研究所41理想:感知端到端落地,規(guī)則驅動向認知驅動演變理想:感知端到端落地,規(guī)則驅動向認知驅動演變2024年理想預計完成規(guī)控環(huán)節(jié)端到端落地,實現全技術??捎柧毜摹岸说蕉四P突?。展望未來,理想基于【認知模型】(即特斯拉世界模型)做預研,目標是開發(fā)L4場景,基于1.4EFLOPS云端算力,更充分的利用多模態(tài)AIGC,短期進行場景重建和衍生,加速仿真數據生成和算法訓練;中長期做到知識驅動形式的“場景理解”,真正實現L4覆蓋100%的CornerCase。圖:理想未來智駕算法迭代的思維框架 數據來源:英偉達GTC大會2024,東吳證券研究所42蔚來自NT2.0平臺起加速自研算法迭代,24年4月底迭代全域領航NOP+,對標FSDv10+。硬件維度:蔚來自NT2.0平臺起全系切換英偉達,標配4*OrinX芯片(2主控/1冗余/1訓練)以及1激光雷達/11攝像頭+5毫米波雷達+12超聲波雷達,標配硬件支持3.8EFLOPS端云一體化算力。功能維度:蔚來于23年初上車自研高速NOP領航智駕,23年中/底分別將BEV/占用網絡架構迭代上車,23年底/24Q1城市領航分別開城6/20萬km,24年4月底實現全域領航輔助NOP+推送。軟件維度:落地感知維度端到端,全域推送NOP。蔚來打造NADArch智能駕駛架構,該架構包過數據驅動的規(guī)劃網絡,使全域領航輔助NOP+擁有更細膩的交互能力。表:蔚來NT2.0平臺車型智駕功能迭代歷史版本新增智駕內容2022/8/19Banyan1.1.0視覺融合泊車SAPA、前向碰撞預警FCW、自動緊急制動AEB2022/12/20Banyan1.2.0ET7車輛近距召喚2023/3/17Banyan1.3.023年元旦試運行,3月底向全量用戶推送高速領航:NOP+Beta增強領航輔助功能優(yōu)化、全車型近距召喚、視覺融合泊車增強、緊急車道保持2023/6/30Banyan2.0.0動態(tài)環(huán)境模擬現實2.0(ESD)、輔助遙控泊車(RPA)、全新BEV升級NOP+連續(xù)性2023/11/15Banyan2.2.0高速領航輔助駕駛”零接管“成為可能、泊車高頻一把泊入2023/11/22Banyan2.3.0更名為“全域領航輔助NOP+”,開城6萬km2024/1/27Banyan2.4.04D路況舒適領航、GOA通用障礙物預警、輔助Beta通用障礙物識別、全向AEB2024/4/30Banyan2.6.0全域領航輔助NOP+全量推送:增強車道居中輔助、全場景誤加速抑制輔助、GOA通用障礙物預警及輔助 數據來源:蔚來官網,東吳證券研究所43極越以吉利+百度合作賦能,利用百度自研LD車道級地圖,堅持純視覺智駕方案,迅速追趕。硬件維度:極越外采英偉達雙Orin芯片,采用11攝像頭/5毫米波雷達/12超聲波雷達感知硬件,通過無激光雷達的視覺方案實現L3高階智駕功能;同時云端百度2.2EFLOPS算力加速算法訓練。功能維度:極越于2024年初OTAV1.3實現北上深杭廣五城高精地圖加持下的城市PPA,預計24H1開放300城,24年全年實現全國覆蓋(有百度地圖的地方均可使用)。軟件維度:1)大模型通用純視覺方案上車,類比特斯拉FSDv10+階段:百度VTA視覺大模型實現感知端到端,OCC感知模型實現占用網絡+Transformer加持后對通用異形障礙物的檢測。2)LD智駕車道地圖形成差異化:由視覺大模型端到端生成,保留必要精度基礎上增加經驗地圖+安全圖層+實時圖層,目前已覆蓋全國360城,支持PPA全國都能開。迭代歷程時間功能OTAV1.32024.01.14深杭,泊車效率優(yōu)化,行車邏輯優(yōu)化OTAV1.4.02024.03.251、視覺大模型發(fā)布上車,升級靜態(tài)檢測、時序跟蹤、實時建圖、場景理解等能力,新增開城廣州;2、推出百度LD車道智駕地圖OTAV2.0即將上線全國都能開的PPA 數據來源:極越官網,東吳證券研究所44長城毫末持續(xù)深耕智駕大模型DriveGPT雪湖·海若充分展現公司在數據的篩選挖掘、自動標注、生成仿真以及認知可解釋性等領域的技術積累,算法領域聚焦感知/認知(即規(guī)控)大模型車云一體端到端,感知端引入多模態(tài),認知端借助外部大語言模型LLM的海量知識來輔助給出駕駛決策。產品維度,毫末已推出三代七款智能駕駛產品,可滿足高、中、低價位不同車型的量產需HP570三款千元級輔助駕駛產品,已陸續(xù)進入交付狀態(tài)。 數據來源:小鵬汽車2023年1024科技日,東吳證券研究所454.24.2第三方智駕算法公司MomentaMomenta:兩條腿走路,閉環(huán)數據驅動算法迭代.Momenta,成立于2016年,以“BetterAL,Bett完成大數據&大模型平臺建設、感知規(guī)控全流程算法構建、不同級別智駕軟件解決方案三階段。案,廣泛應用于出租車和私家車等場景;2)Mpilot是針對私家車前裝可量產的高度自動駕駛全棧式解決方案,主要的核心產品包括MpilotX等端到端的全場景,連續(xù)的高度自動駕駛解決方案,并可通過OpenSolution適配英偉達、高通等主流芯片硬件和傳感器平臺,逐步落地端到端。數據來源:公司官網,東吳證券研究所47.商湯科技于2016年開始布局車輛業(yè)務,聚焦艙駕兩面,2022年底推出基于5R11V方案的高速NOA,而后持續(xù)發(fā)展布局城市等全場景道路。.2024年商湯絕影UniAD方案首秀,將感知、決策、規(guī)劃等模塊都整合到一個全棧Transformer端到端模型,實現感知決策一體化,不需要對感知數據進行抽象和逐級傳遞,“所見即所得”,將原始信息直接輸入到端到端模型中,然后以自車軌跡規(guī)劃為準進行指令輸出。算力層面,商湯當前布局1.2EFLOPS的云端算力,支持更好的數據利用和更快的算法迭代。.DriveAGI:數據驅動轉向認知驅動的起點。類似于世界模型定義,DriveAGI具備對世界規(guī)律更進一步的深入理解,具備更強的推理能力、決策能力以及交互能力,是目前自動駕駛中最貼近人類思維模式、最能理解人類意圖并有最強解決駕駛困難場景能力的技術方案;同時,商湯利用DriveAGI進一步打破座艙和智駕的界限,推動艙駕一體的架構變革。數據來源:公司官網,東吳證券研究所48.量產產品維度:商湯絕影針對32

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論