特斯拉FSD自動駕駛分析

上傳人：白*** IP屬地：湖南上傳時間：2025-02-28 格式：DOCX 頁數(shù)：7 大?。?7.29KB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

特斯拉FSD自動駕駛分析特斯拉FSD架構(gòu)詳解FSD為一套包含感知/規(guī)控/執(zhí)行的全鏈路自動駕駛軟硬件架構(gòu)FSD架構(gòu)：在數(shù)據(jù)、算法、算力等各個層面打造了一套包含感知、規(guī)控、執(zhí)行在內(nèi)的全鏈路自動駕駛軟硬件架構(gòu)。規(guī)劃（Planning）:本質(zhì)是解決多物體關(guān)聯(lián)路徑規(guī)劃問題，處理自我和所有對象的行進軌跡，指導汽車完成相應(yīng)的執(zhí)行動作。神經(jīng)網(wǎng)絡(luò)（NeuralNetworks）：通過分析視頻流等信息，輸出完整的運動學狀態(tài)（位置/速度/加速度/顛簸）控制車輛。訓練數(shù)據(jù)（TrainingData）：通過最新的4D自動標注技術(shù)、升級模擬仿真及云端計算資源，形成數(shù)據(jù)閉環(huán)。訓練基礎(chǔ)設(shè)施（TrainingInfra）：包括CPU、GPU、神經(jīng)網(wǎng)絡(luò)加速器單元（NeuralNetworkAccelerator）、AI編譯器等，其中AI編譯器能夠支持神經(jīng)網(wǎng)絡(luò)所需的新操作，將它們映射到最佳的底層硬件資源上。AI編譯與推理（AICompiler&Inference）：即如何在計算機上運行神經(jīng)網(wǎng)絡(luò)。當前的推理引擎能夠?qū)蝹€神經(jīng)網(wǎng)絡(luò)的執(zhí)行分配到兩個獨立的芯片系統(tǒng)上執(zhí)行，可以理解為有兩臺獨立的計算機在同一臺自動駕駛計算機內(nèi)相互連接?；赩ectorSpace的FSD路徑規(guī)劃，能夠快速產(chǎn)生最優(yōu)解具體解決路徑：從一組視覺測量開始，包括車道、占用率、移動物體等（這些都表現(xiàn)為稀疏的抽象和潛在特征），感知得到的VectorSpace，通過VectorSpace規(guī)劃出后續(xù)潛在目標狀態(tài)，進一步考慮細分互動，得到?jīng)Q策規(guī)劃的路徑。對于未知及不確定性（cornercase）的決策——通過OccupancyNetwork對可視區(qū)域進行建模用來處理未知不可見場景。需要根據(jù)這些假想的參與者做相應(yīng)的保護性駕駛，將控制反應(yīng)與存在可能性函數(shù)相協(xié)調(diào)，得到非常類似人的行為。至此，特斯拉FSD最終架構(gòu)浮出水面：首先，通過視覺感知網(wǎng)絡(luò)生成三維向量空間，對于僅有唯一解的問題，可直接生成明確的規(guī)控方案，而對于有多個可選方案的復雜問題，使用向量空間和感知網(wǎng)絡(luò)提取的中間層特征，訓練神經(jīng)網(wǎng)絡(luò)規(guī)劃器，得到軌跡分布。其次，融入成本函數(shù)、人工干預(yù)數(shù)據(jù)或其他仿真模擬數(shù)據(jù)，獲得最優(yōu)的規(guī)控方案。最終生成轉(zhuǎn)向、加速等控制指令，由執(zhí)行模塊接受控制指令實現(xiàn)自動駕駛。HydraNets（九頭蛇網(wǎng)絡(luò)）為視覺感知網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)—九頭蛇網(wǎng)絡(luò)（HydraNets）由主干（Backbone）、頸部(Neck)）與多個分支頭部(Head）共同組成。主干層將原始視頻數(shù)據(jù)通過殘差神經(jīng)網(wǎng)絡(luò)(RegNet)及多尺度特征融合結(jié)構(gòu)(BiFPN)完成端到端訓練，提取出頸部層的多尺度視覺特征空間(multiscalefeatures），最后在頭部層根據(jù)不同任務(wù)類型完成子網(wǎng)絡(luò)訓練并輸出感知結(jié)果。優(yōu)勢一：特征共享(FeatureSharing)。使用同一主干網(wǎng)絡(luò)提取特征并共享給頭部使用，可以在測試階段分攤在車上運行的前向判斷，避免不同任務(wù)之間重復計算現(xiàn)象，提升網(wǎng)絡(luò)運行效率。優(yōu)勢二：任務(wù)解耦（De-CouplesTasks）。不同類型子任務(wù)之間可以進行解耦，這樣可以單獨處理每一項任務(wù)，對單項任務(wù)的升級不必驗證其他任務(wù)是否正常，升級成本更低。優(yōu)勢三：特征緩存（RepresentationBottleneck）。因為這里存在頸部，可以將特征緩存到硬盤，具有較強的擴展性。通過端到端的感知訓練模型，從數(shù)據(jù)輸入到空間向量輸出Step1圖像輸入（ImageInput）：校準每個相機的圖片，將原始12位RGB圖像（而非典型的8位）輸送給網(wǎng)絡(luò)。多了4位信息能夠使得動態(tài)范圍提升16倍，同時減少延遲（無需在循環(huán)中運行圖像信號處理ISP）。Step2圖像校準（Rectify）：通過不同的汽車采集到的數(shù)據(jù)共同構(gòu)建一個通用感知網(wǎng)絡(luò)架構(gòu)，不同汽車由于攝像頭安裝外參的差異，可能導致采集的數(shù)據(jù)存在微小偏差，為此特斯拉在感知框架中加入了一層“虛擬標準相機(virtualcamera)”，引入攝像頭標定外參將每輛車采集到的圖像數(shù)據(jù)通過去畸變、旋轉(zhuǎn)等方式處理后，統(tǒng)一映射到同一套虛擬標準攝像頭坐標中，從而實現(xiàn)各攝像頭原始數(shù)據(jù)校準，消除外參誤差，確保數(shù)據(jù)一致性，將校準后的數(shù)據(jù)傳輸給主干神經(jīng)網(wǎng)絡(luò)進行訓練。Step3特征提取（ImageFeaturizers）：用一組RegNet（特定殘差網(wǎng)絡(luò)，specificclassofresnets）和BiFPN（加權(quán)雙向特征金字塔網(wǎng)絡(luò)）作為提取圖像空間特征的主干。Step4構(gòu)造空間位置（SpacialAttention）：將攝像頭采集到的數(shù)據(jù)通過【BEV空間轉(zhuǎn)換層】構(gòu)造一組3D位置，同時將圖像信息作為鍵(key)值(value)，輸入給一個注意力模型（核心模塊是【Transformer神經(jīng)網(wǎng)絡(luò)】）。注意力模型的輸出是高維空間特征，這些高維空間特征與車輛上的里程數(shù)據(jù)進行暫時協(xié)調(diào)，來推導出運動。該方案厲害之處在于可以將地面坡度、曲率等幾何形狀的變化情況內(nèi)化進神經(jīng)網(wǎng)絡(luò)的訓練參數(shù)中。Step5時間對齊（TemporalAlignment）：上述高維空間暫時特征經(jīng)過一組反卷積，產(chǎn)生最終的占用率和占用率流輸出。它們生成的是固定尺寸塊的網(wǎng)格，為了提高精度，模型還生成了pervolexfeatureMAP輸入到MLP中，借助3D空間點查詢（query）來獲取任意點的位置和語義信息基于3DOccupancy迭代車道線及障礙物感知模型早期，將車道檢測問題建模為一個圖像空間內(nèi)實時分割的任務(wù)，只能從幾種不同的幾何形狀中辨別車道。具體而言，可以分別出當前車道、相鄰車道，能特別處理一些交叉和合并的情況，然后用粗略的地圖數(shù)據(jù)對其進行增強。這種簡化模型對高速這種高度結(jié)構(gòu)化的路是有效的。當前，引入MapComponent，使用了低精度地圖中關(guān)于車道線幾何/拓撲關(guān)系的信息（車道線數(shù)量/寬度、特殊車道屬性等），并將這些信息整合起來進行編碼，與視覺感知到的特征信息一起生成車道線（DenseWorldTensor）給到后續(xù)VectorLane模塊。由2D手工標注逐步升級為4D自動標注，數(shù)據(jù)閉環(huán)趨于完善做法：在2D圖像上標注出各種物體，具體表現(xiàn)為在單個物體上繪制出一些多邊形和折線，用以描繪出邊界框（BoundingBoxes）。缺點：數(shù)據(jù)量很大的情況下，工作量極大，標注效率低。含義：在三維或四維空間中，為不同的時間點和空間位置賦予獨特的標簽或標識符。做法：直接在向量空間中進行標注，將其投影到相機圖像中。優(yōu)點：能夠支持大量數(shù)據(jù)標注；由于只需要在空間中標注一次，然后自動投影，標注效率大幅提升。如何進行仿真模擬？——五大步驟Step1準確的傳感器仿真（AccurateSensorSimulation）:由于FSD的感知系統(tǒng)是基于純攝像頭，因此需要對攝像頭的各種屬性進行軟硬件建模，如傳感器噪聲、曝光時間、光圈大小、運動模糊、光學畸變等。Step2逼真的視覺渲染（PhotorealisticRendering）：為了更真實的模擬現(xiàn)實世界場景，需要仿真渲染盡可能做到逼真。特斯拉利用神經(jīng)網(wǎng)絡(luò)視覺技術(shù)提升視覺渲染效果，同時用光線追蹤的方法模擬逼真的光照效果。Step3多元化的交通參與者與地理位置（DiverseActors&Locations）：為了避免仿真環(huán)境過于單一，導致感知系統(tǒng)過擬合的問題，特斯拉對仿真環(huán)境參與物進行了充分建模，包括多元化的交通參與者和靜態(tài)物體。Step4大規(guī)模場景生成（ScalableSensorGeneration）：由計算機通過調(diào)整參數(shù)生成不同的場景形態(tài)。同時由于大量的仿真場景可能是的無用的，為了避免浪費計算資源，引入MLB等神經(jīng)網(wǎng)絡(luò)尋找故障點，重點圍繞故障點進行仿真數(shù)據(jù)創(chuàng)建，反哺實際規(guī)劃網(wǎng)絡(luò)，形成閉環(huán)。Step5場景重現(xiàn)（SensorRecontruction）:在完成真實世界片段的自動標注重建后，疊加視覺圖像信息，生成與真實世界“孿生”的虛擬世界，復現(xiàn)真實世界中FSD失敗的場景，實現(xiàn)在仿真環(huán)境下的優(yōu)化迭代后再反哺汽車算法模型，實現(xiàn)“數(shù)據(jù)閉環(huán)”。FSDV12展望FSDV12或?qū)⑼耆D(zhuǎn)向端到端自動駕駛技術(shù)方案23年8月26日，特斯拉CEO馬斯克開啟了一場路測特斯拉FSDV12的直播。直播全程45分鐘，馬斯克只有一次駕駛干預(yù)，這發(fā)生在一個繁忙的十字路口，馬斯克所駕駛的特斯拉試圖闖紅燈，他立即控制了車輛。直播中儀表盤中的實時道路場景可以看出，V12保留了當前FSD輸出的感知結(jié)果。以UniAD為例，利用多組query實現(xiàn)了全棧Transformer的端到端模型。圖中UniAD由2個感知模塊，2個預(yù)測模塊以及一個規(guī)劃模塊組成。其中感知和預(yù)測模塊是通過Transformer架構(gòu)進行預(yù)測，每個模塊輸出的特征會傳遞到之后的模塊來輔助下游任務(wù)，這樣的模型結(jié)構(gòu)實現(xiàn)了端到端可導，顯著提升了模型的可解釋性。端到端方案中神經(jīng)網(wǎng)絡(luò)是關(guān)鍵，有望實現(xiàn)全局最優(yōu)解原理：與模塊化方案相比，端到端自動駕駛方案將感知、規(guī)劃、控制各環(huán)節(jié)一體化，去除了各模塊基于規(guī)則的代碼，將傳感器收集到的信息直接輸入神經(jīng)網(wǎng)絡(luò)，經(jīng)過處理后能夠直接輸出自動駕駛指令，使得整個系統(tǒng)端到端可導。優(yōu)點：能夠降低對激光雷達、高精地圖、人工的依賴，減少中間環(huán)節(jié)的成本；模型上限高，可以得到近似全局最優(yōu)解。缺點：模型能力起步較慢，解釋簡單場景不如模塊化架構(gòu)，模型下限低；中間“黑盒”解釋性差。感知端率先落地，BEV本質(zhì)上是一種端到端感知解決方案傳統(tǒng)感知模型：2D圖像被輸入感知模塊以生成2D結(jié)果，然后利用傳感器融合對多個攝

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

特斯拉FSD自動駕駛分析

文檔簡介

溫馨提示

最新文檔

評論

特斯拉FSD自動駕駛分析

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔