




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
星海系列:處理上廣泛應(yīng)用,還擴(kuò)展至圖像、視頻、音頻等多模態(tài)任務(wù)。諸如Stable通過(guò)大規(guī)模的視覺(jué)-語(yǔ)言預(yù)訓(xùn)練,將視覺(jué)識(shí)別與低級(jí)機(jī)器人控制結(jié)合,實(shí)現(xiàn)了機(jī)器人在復(fù)雜任務(wù)和未見(jiàn)環(huán)境中的強(qiáng)大泛化能力。RoboCat則基于Gato模型,展示了多任務(wù)和多具身平臺(tái)上的自我迭代學(xué)習(xí)能力,能夠快速適應(yīng)新任務(wù)并生成跨任務(wù)策略。英偉達(dá)的MimicGen自動(dòng)生成大量模仿學(xué)習(xí)數(shù)據(jù),有效減少了人工干預(yù),提升了機(jī)器人學(xué)習(xí)的效率。Transformer模型,走向了數(shù)據(jù)驅(qū)動(dòng)的模型范式,2024年初FSDV12完全采用神經(jīng)網(wǎng)絡(luò)進(jìn)行車(chē)輛控制,從機(jī)器視覺(jué)到驅(qū)動(dòng)決策都將由神經(jīng)網(wǎng)絡(luò)進(jìn)行控制。FSDV12能夠模擬人類(lèi)駕駛決策,成為自動(dòng)駕駛領(lǐng)域全新發(fā)展路徑。>英偉達(dá)Robocasa:具體智能關(guān)鍵節(jié)點(diǎn),首次論證real-sim-real。通過(guò)升級(jí)模擬平臺(tái)并構(gòu)建模擬框架,基于廚房場(chǎng)景和原子任務(wù)、復(fù)合任務(wù)、真實(shí)世界三個(gè)場(chǎng)景收集行為數(shù)據(jù)集并進(jìn)行結(jié)果評(píng)估。說(shuō)明模擬器的豐富多樣性以及視覺(jué)和物理真實(shí)性顯著改善了模擬效果,實(shí)驗(yàn)結(jié)果首次論證了real-sim-real可行。一種針對(duì)機(jī)器人操作任務(wù)的新型空間和時(shí)間約束表示方法,提供了一種三環(huán)的解決方案。通過(guò)關(guān)鍵點(diǎn)約束解構(gòu)機(jī)器人行為,將操作行為分為多階段,并構(gòu)建子目標(biāo)約束和路徑約束,基于此提出一種三任務(wù)閉環(huán)的解決方案。同時(shí),融入大型視覺(jué)模型和視覺(jué)-語(yǔ)言模型,利用VLM和GPT-40生成Rekep約束,避免了手動(dòng)指定Rekep的需要。2)1x世界模型:首證擴(kuò)展定律,能通過(guò)大量學(xué)習(xí)理解周?chē)h(huán)境。通過(guò)大量的真實(shí)數(shù)據(jù)學(xué)習(xí)和模擬,機(jī)器人能夠預(yù)測(cè)復(fù)雜的物體互動(dòng),理解周?chē)h(huán)境,并靈活應(yīng)對(duì)日常任務(wù)。1x的進(jìn)展首次在機(jī)器人上證明了擴(kuò)展機(jī)器人大模型,憑借大規(guī)模視頻預(yù)訓(xùn)練和多模態(tài)學(xué)習(xí)技術(shù),展示了卓越的泛化能力與多任務(wù)通用性。4)數(shù)字表親:機(jī)器人訓(xùn)練法優(yōu)化,以更低的成本獲取更好的泛化能力。在保留數(shù)字孿生優(yōu)勢(shì)的基礎(chǔ)上,數(shù)字表親表現(xiàn)出了更強(qiáng)的適應(yīng)能力和魯棒性,成功實(shí)現(xiàn)了從模擬到現(xiàn)實(shí)的零樣本遷移,為機(jī)器人學(xué)習(xí)在復(fù)雜、多變的真實(shí)環(huán)境中的應(yīng)用開(kāi)辟了新的可能性。等;3)關(guān)注其他產(chǎn)業(yè)鏈可延伸公司。>風(fēng)險(xiǎn)提示:機(jī)器人算法迭代進(jìn)步速度不及預(yù)期,人形機(jī)器人落地場(chǎng)景實(shí)際需求不及預(yù)期MINSHENGSECURITIES2024年11月07日出??臻g廣闊-2024/10/20內(nèi)有望新設(shè)產(chǎn)線-2024/10/13設(shè)備受益-2024/09/30拖占比提升大勢(shì)所趨-2024/09/215.揚(yáng)帆系列:船舶需求分析(二):干散貨船需求與測(cè)算-2024/09/18本本民生證券目錄1Transformer模型的演進(jìn):從語(yǔ)言翻譯到多模態(tài)智能的前沿探索 31.1開(kāi)篇:Robot+AI的核心時(shí)間線與關(guān)鍵節(jié)點(diǎn)結(jié)論 3 31.3語(yǔ)言、圖片、視頻大模型的出現(xiàn) 41.4多模態(tài)、跨模態(tài)大模型的難點(diǎn) 61.5ScalingLaw的存在 6 82.1谷歌RT-2:具身智能學(xué)習(xí) 82.2英偉達(dá)MimicGen:自動(dòng)化數(shù)據(jù)生成系統(tǒng) 2.3谷歌RoboCat:多任務(wù)具身智能 3特斯拉FSD:端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵 3.1FSDV12:全新的端到端自動(dòng)駕駛 3.2FSD的前世今生 3.3FSD架構(gòu)變革:Transformer模型的引入 3.4FSD端到端:感知決策一體化 4端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵 4.1端到端算法:直接連接數(shù)據(jù)輸入與控制指令輸出 4.2端到端算法相比傳統(tǒng)的技術(shù)架構(gòu)的優(yōu)勢(shì) 4.3自動(dòng)駕駛端到端算法遷移至人形機(jī)器人的優(yōu)勢(shì) 4.4機(jī)器人端到端算法的關(guān)鍵問(wèn)題 4.5特斯拉grok模型:模擬思維鏈思考過(guò)程 5.1英偉達(dá)Robocasa:基于廚房場(chǎng)景的模擬數(shù)據(jù)收集 6.1李飛飛團(tuán)隊(duì)Rekep:一種針對(duì)機(jī)器人操作任務(wù)的新型空間和時(shí)間約束表示方法,提供了三任務(wù)閉環(huán)的解決方案 6.21x世界模型:首證擴(kuò)展定律,能通過(guò)大量學(xué)習(xí)理解周?chē)h(huán)境 6.3字節(jié)GR-2:高效動(dòng)作預(yù)測(cè)與泛化能力 436.4數(shù)字表親:機(jī)器人訓(xùn)練法優(yōu)化,以更低的成本獲取更好的泛化能力 7投資建議 8風(fēng)險(xiǎn)提示 插圖目錄 本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械智能的前沿探索下圖是機(jī)器人和transformer模型結(jié)合的重點(diǎn)時(shí)間線及關(guān)鍵節(jié)點(diǎn)突破。>生成”>生成”Robot訓(xùn)練數(shù)據(jù)”的方法>>>!其他大模型和機(jī)器人動(dòng)作的結(jié)合>>>!Real-sim-real的閉環(huán)實(shí)驗(yàn)>>>可擴(kuò)展性+scailinglaw2023年6月:谷歌RT-2(VLA)2023年10月:英偉達(dá)MimicGen核心貢獻(xiàn):快速分割生成數(shù)據(jù)2023年12月:谷歌RoboCat2024年1月:特斯拉發(fā)布FSDV12+端到端2024年6月:英偉達(dá)Robocasa2024年8月:特斯拉發(fā)布Grok2;模仿GPT40加入思考鏈12024年10月:李飛飛“數(shù)字表親”2024年9月:李飛飛Rekep+空間智能核心貢獻(xiàn):提供一種問(wèn)題3任務(wù)閉環(huán)的解決方案------------------2-C--2024年9月:1xRobotWorldModel核心貢獻(xiàn):提供一種問(wèn)題3任務(wù)閉環(huán)的解決方案2024年10月:字節(jié)GR2核心貢獻(xiàn):回答至問(wèn)題3可擴(kuò)展性----------------------資料來(lái)源:AnthonyBrohan《RT-2:Vision-Language-ActionModelsTransferWebKnowledgetoDemonstrations》,KonstantinosBousmalis《RoboCat:ASelf-ImprovingGeneralistAgentforRoboticManipulation》,tesla,TianyuanDai《ACDC:AutomatedCreationofDigitalCousinsforRobustPolicyModelwithWeb-ScaleKnowledgeforRobotManipulation》,SoroushNasiriany《RoboCasa:Large-Scale1.2Transformer網(wǎng)絡(luò)架構(gòu)的提出這篇文章中提出了Transformer網(wǎng)絡(luò)結(jié)構(gòu)。其一開(kāi)始的提出是為了解決翻譯問(wèn)題,僅僅依賴于注意力機(jī)制就可處理序列數(shù)據(jù),從而擯棄了RNN或CNN。這個(gè)新的網(wǎng)絡(luò)結(jié)構(gòu),刷爆了各大翻譯任務(wù),同時(shí)創(chuàng)造了多項(xiàng)新的記錄(英-德的翻譯任務(wù),相比之前的最好記錄提高了2個(gè)BLEU值)。而且,該模型的訓(xùn)練耗時(shí)短,并且對(duì)大數(shù)據(jù)或者有限數(shù)據(jù)集均有良好表現(xiàn)。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械ProbabiesNxPositionalEncodingOutputEmbeddingOutputs(shiftedright)模型的核心架構(gòu)的示意圖如上。Transf都包含6個(gè)block。Transformer將所有的單詞向量化,通過(guò)矩陣編譯的方法開(kāi)始翻譯以及預(yù)測(cè),在翻譯上一個(gè)詞的同時(shí)對(duì)后續(xù)的單詞進(jìn)行預(yù)測(cè),達(dá)到語(yǔ)句通順的效果。其實(shí)際上是一個(gè)編碼器-解碼器結(jié)構(gòu),其中編碼器將原始語(yǔ)言的句子作為輸入并生成基于注意力的表征,而解碼器關(guān)注編碼信息并以回歸方式生成翻譯的句子,和之前的RNN相同。不同的是,Transformer模型引入了注意力機(jī)制和殘差鏈接,也就是所謂"AttentionIsAllYouNeed",最終輸出結(jié)果。Transformer的意義體現(xiàn)在它的長(zhǎng)距離依賴關(guān)系處理和并行計(jì)算,而這兩點(diǎn)效捕捉序列信息中長(zhǎng)距離依賴關(guān)系,相比于以往的RNNs,它在處理長(zhǎng)序列時(shí)的表現(xiàn)更好。而自注意力機(jī)制的另一個(gè)特點(diǎn)時(shí)允許模型并行計(jì)算,無(wú)需RNN一樣t步驟的計(jì)算必須依賴t-1步驟的結(jié)果,因此Transformer結(jié)構(gòu)讓模型的計(jì)算效率更高,加速訓(xùn)練和推理速度。圖3:自注意力機(jī)制示意圖LnesCorcatLnesCorcatAttention多頭注意力計(jì)算步驟資料來(lái)源:AshishVaswani,NoamShazeer《AttentionIsAllYouNeed》,民生證券研究院本本民生證券MINSHENGSECURITIES語(yǔ)言,圖片,視頻大模型以大語(yǔ)言模型為基礎(chǔ),將強(qiáng)大的大語(yǔ)言模型作為大腦來(lái)執(zhí)行多模態(tài)任務(wù)。但LLM只能理解離散文本,在處理多模態(tài)信息時(shí)不具有通用性。另一方面,大型視覺(jué)基礎(chǔ)模型在感知方面進(jìn)展迅速,但推理方面發(fā)展緩慢。這兩者的優(yōu)缺點(diǎn)形成了巧妙的互補(bǔ)。由于上述不同點(diǎn)中的互補(bǔ)性,單模態(tài)LLM和視覺(jué)模型同時(shí)朝著彼此運(yùn)行,結(jié)合上部分的圖像、視頻和音頻等等模態(tài),最終帶來(lái)了MLLM的新領(lǐng)域。形式上,它指的是基于LLM的模型,該模型能夠接收多模態(tài)信息并對(duì)其進(jìn)行推理。從發(fā)展人工通用智能的角度來(lái)看,MLLM可能比LLM向前邁出一步。MLLM更加符合人類(lèi)感知世界的方式,提供了更用戶友好的界面(可以多模態(tài)輸入),是一個(gè)更全面的任務(wù)解決者,不僅僅局限于NLP任務(wù)。圖4:MLLM的模型結(jié)構(gòu)NFNet-F6StableDiffusionCLPVITHxQ-FormerC-FormerP-FormerHuBERTMQ-FormerAudioLDMChinchillaASxTinyTransformerFlan-T5ChatGLMLinearProjectorEva-CUPVITTexttPxUL2FMultimodalUnderstandingMultimodalGenerationFigure2:ThegeneralmodelarchitectureofMM-LLMsandtheimplementationchoicesforeachcomponent.資料來(lái)源:DuzhenZhang《MM-LLMs:RecentAdvancesinMultiModalLargeLanguageModels》,民生證券研究院上圖包含了通用多模態(tài)模型結(jié)構(gòu)的五個(gè)組件部分,以及每個(gè)組件部分的常用ModalityEncoder:負(fù)責(zé)將不同模態(tài)的輸入數(shù)據(jù)編碼為模型可理解的表示,目前技術(shù)可以實(shí)現(xiàn)輸入圖片、視頻、音頻文件,對(duì)于圖像而言,可能涉及到將像素?cái)?shù)據(jù)轉(zhuǎn)換成一個(gè)特征向量,該向量捕捉了圖像中的重要信息;InputProjector:將不同模態(tài)的輸入數(shù)據(jù)映射到共享的語(yǔ)義空間,這意味著無(wú)論輸入數(shù)據(jù)的形式如何,它們都會(huì)被轉(zhuǎn)換成一個(gè)統(tǒng)一的格式,以便模型可以在一個(gè)統(tǒng)一的框架中處理它們;LLMS:大型語(yǔ)言模型,用于處理文本數(shù)據(jù),可以將不同模態(tài)的信息對(duì)齊到一個(gè)共同的語(yǔ)義空間中,整合由前面兩個(gè)部分轉(zhuǎn)換后輸入的信息,融合后再生成一個(gè)統(tǒng)一的、豐富的語(yǔ)義表示,可能是相應(yīng)的指導(dǎo)性文本或腳本,與專(zhuān)門(mén)的生成模型協(xié)同工作,實(shí)現(xiàn)高質(zhì)量的圖片和音頻生成;OutputProjector:將模型生成的輸出映射回原始模態(tài)的空間,如果模型的輸出是文本,那么輸出投影器將確保生成的文本與輸入數(shù)據(jù)的語(yǔ)義空間相匹配;ModalityGenerator:根據(jù)輸入數(shù)據(jù)生成對(duì)應(yīng)的輸出數(shù)據(jù),將模型的內(nèi)部表本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械示轉(zhuǎn)換成最終的輸出形式,如生成圖像、文本或音頻。多模態(tài)理解主要是前三個(gè)部分。(模態(tài)對(duì)齊)訓(xùn)練期間,encoder,LLMBackbone和generator一般保持凍結(jié)。主要優(yōu)化輸出和輸出的projector。由于Projector是輕量級(jí)的模塊,MM-LLMs中可以訓(xùn)練的參數(shù)比例和總參數(shù)相比非常小(2%左右),模型的總體參數(shù)規(guī)模取決于LLM部分。由此,Transformer模型隨著LLM的廣泛應(yīng)用而成為了目前多模態(tài)大模型的核心思想和目前較為先進(jìn)的網(wǎng)絡(luò)架構(gòu)。截至2024年10月,中國(guó)移動(dòng)在多模態(tài)大模型領(lǐng)域取得了顯著進(jìn)展,其九天善智多模態(tài)基座大模型表現(xiàn)尤為突出。該模型可以處理長(zhǎng)文本的智能化解析,全雙其一是異質(zhì)化數(shù)據(jù)的處理與整合存在困難:多模態(tài)大模型中,由于輸入輸出的數(shù)據(jù)具有多樣性,面臨的主要問(wèn)題包括數(shù)據(jù)的異質(zhì)性導(dǎo)致的表示難題、不同模態(tài)以及如何在不同模態(tài)間進(jìn)行知識(shí)遷移的協(xié)同學(xué)習(xí)挑戰(zhàn)。需要綜合應(yīng)用多元化多樣化的模型對(duì)其進(jìn)行處理,將各個(gè)異質(zhì)性的數(shù)據(jù)再整合規(guī)劃,才能真正讀懂要求,輸出數(shù)據(jù).其二是訓(xùn)練過(guò)程挑戰(zhàn)重重:獲取跨多個(gè)模態(tài)的充足數(shù)據(jù)可能非常困難和昂貴,且數(shù)據(jù)可能會(huì)偏向于某些模態(tài),導(dǎo)致模型產(chǎn)生偏見(jiàn),從而導(dǎo)致模型偏向于數(shù)據(jù)量更多或特征更強(qiáng)的模態(tài),導(dǎo)致模型產(chǎn)生偏見(jiàn);同時(shí)由于特定于模態(tài)的編碼器通常分別訓(xùn)練,他們聲稱(chēng)的表示是存在差異的,對(duì)投影/對(duì)齊模塊的有效學(xué)習(xí)過(guò)于依賴。在這其中,值得關(guān)注的是語(yǔ)言模型的scalinglaw。大模型的ScalingLaw是OpenAl在2020年提出的概念,可以概括為“預(yù)測(cè)即壓縮、壓縮即泛化、泛化即智能”將大語(yǔ)言模型用在別的領(lǐng)域之后,從計(jì)算理論的角度,聯(lián)合壓縮多模態(tài)數(shù)據(jù)理應(yīng)獲得比單模態(tài)更好的理論最優(yōu)壓縮器。對(duì)于所有的模態(tài)來(lái)說(shuō),他們都必須要服從的scalinglaw是,隨著數(shù)據(jù)規(guī)模的提升,模型的表現(xiàn)也會(huì)隨之提升,如果法則正確,那么要想使得模型更好,只需要搭建好算法和框架,不斷收集數(shù)據(jù)就可以了。一旦證明scalinglaw的存在和有效性,就可以預(yù)測(cè)模型性能與規(guī)模的關(guān)系,投入恰當(dāng)規(guī)模的數(shù)據(jù)集,使得計(jì)算資源可以更高效的應(yīng)用。多模態(tài)模型會(huì)變得更加可預(yù)測(cè)和可計(jì)算,其不確定性就極大的降本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械圖5:ScalingLaw的效果圖示TestTestLoss資料來(lái)源:JaredKaplan《ScalingLawsforNeuralLanguageModels》,民生證券研究院在此基礎(chǔ)上,本文想要按時(shí)間線和核心milestone貢獻(xiàn),來(lái)幫助大家拆解最沿的,以transformer為基礎(chǔ)的模型到本本MINSHENGSECURITIES行業(yè)深度研究/機(jī)械2.1谷歌RT-2:具身智能學(xué)習(xí)大語(yǔ)言模型可以實(shí)現(xiàn)流暢的文本生成、問(wèn)題解決、創(chuàng)意寫(xiě)作以及代碼生成,視覺(jué)-語(yǔ)言模型(VLM)則能夠?qū)崿F(xiàn)開(kāi)放詞匯的視覺(jué)識(shí)別。以上能力對(duì)于現(xiàn)實(shí)環(huán)境中的通用型機(jī)器人非常有用,然而它們?nèi)绾潍@得這些能力還是未知。如何將大型預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型直接集成到低級(jí)機(jī)器人控制中,以促進(jìn)泛化并實(shí)現(xiàn)緊急語(yǔ)義推理,成為了機(jī)器人下一步發(fā)展的方向。Google提出的RobotTransformer(RT)系列使用了更大規(guī)模的語(yǔ)言模型和使用預(yù)訓(xùn)練的EfficientNet-B3網(wǎng)絡(luò)初始化,以機(jī)器人狀態(tài)和歷史圖片作為輸入,Mode3HzTokenLeamerTransformerAmBe?0■■■■■■■工InstructionEfficientNetRT-1將機(jī)器人動(dòng)作的每個(gè)維度進(jìn)行均勻離散化,并將動(dòng)作詞元化,然后使用監(jiān)督學(xué)習(xí)的損失進(jìn)行訓(xùn)練。為了使視覺(jué)-語(yǔ)言模型能夠控制機(jī)器人,還差對(duì)動(dòng)作即文本token,并與Web規(guī)模的視覺(jué)-語(yǔ)言數(shù)據(jù)集一起進(jìn)行訓(xùn)練。如下圖所示,該研究將機(jī)器人動(dòng)作表示為文本字符串,這種字符串可以是機(jī)器人動(dòng)作token編號(hào)的序列,例如[1128912415101127217」。Terminate△PosXorcontinuePositionalRotationalGripperchange資料來(lái)源:AnthonyBrohan《RT-1:ROBOTICSTRANSF民生證券研究院本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械RT-2在機(jī)器人任務(wù)上展示了更強(qiáng)的泛化能力,以及對(duì)超出其接觸的機(jī)器人數(shù)直接訓(xùn)練視覺(jué)-語(yǔ)言模型以實(shí)現(xiàn)開(kāi)放詞匯視覺(jué)問(wèn)答和視覺(jué)對(duì)話,輸出低級(jí)機(jī)器人動(dòng)作,同時(shí)解決其他互聯(lián)網(wǎng)規(guī)模的視覺(jué)語(yǔ)言任務(wù)。相較于RT-1,RT-2模型在機(jī)器人理解新任務(wù),并通過(guò)執(zhí)行基本推理來(lái)響應(yīng)用戶命令,例如推理物體類(lèi)別或高級(jí)描述等方面具有更大的優(yōu)勢(shì)。與RT-1模型的泛化能力相比,RT-2的目標(biāo)是訓(xùn)練機(jī)器人從觀測(cè)到動(dòng)作的端提出一個(gè)在機(jī)器人軌跡數(shù)據(jù)和互聯(lián)網(wǎng)級(jí)別的視覺(jué)語(yǔ)言任務(wù)聯(lián)合微調(diào)視覺(jué)-語(yǔ)言模型的學(xué)習(xí)方式。這類(lèi)學(xué)習(xí)方法產(chǎn)生的模型被稱(chēng)為視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,具有泛化到新對(duì)象的能力、解釋命令的能力以及根據(jù)用戶指令思維推理的能力。RT-2算法整體使用大規(guī)模預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型結(jié)構(gòu),模型參數(shù)可以達(dá)到55B的參數(shù)量,遠(yuǎn)超RT-1的參數(shù)規(guī)模,同時(shí)利用大規(guī)模預(yù)訓(xùn)練視覺(jué)-語(yǔ)言模型模型中編碼的豐富視覺(jué)問(wèn)答知識(shí)來(lái)幫助具身模型的訓(xùn)練。RT-2將輸出的動(dòng)作進(jìn)行和RT-1相同的離散化操作后將詞元加入視覺(jué)-語(yǔ)言模型原先的詞表中,可以把動(dòng)作2已經(jīng)在海量的視覺(jué)問(wèn)答任務(wù)中進(jìn)行預(yù)訓(xùn)練,在對(duì)圖片和任務(wù)指令的理解上有更加豐富的經(jīng)驗(yàn),在任務(wù)集合上具有更強(qiáng)的泛化能力。RT-2能夠運(yùn)用其大規(guī)模預(yù)訓(xùn)練的視覺(jué)問(wèn)答經(jīng)驗(yàn)進(jìn)行泛化,在現(xiàn)實(shí)世界的任務(wù)中進(jìn)行推廣,實(shí)現(xiàn)推理、理解和識(shí)別。例如在下圖的拾取、移動(dòng)、放置等具體任務(wù)中,智能體能夠精準(zhǔn)識(shí)別任務(wù)需求并且以過(guò)往訓(xùn)練經(jīng)驗(yàn)為基礎(chǔ)準(zhǔn)確地完成。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械本本圖8:RT-2能夠推廣到各種需要推理、符號(hào)理解和人類(lèi)識(shí)別的現(xiàn)實(shí)世界情況placeplaceorangeinmovecokecantoTaylorSwiftmovesoccerballtobasketballmovecokecantoXstrawberrythecorrectbowlabouttofallpickanimalwithmovecuptothewinebottlemovebananatothesumoftwomovebananatoGermanymoveappletoDenverNuggetsmovebagtoGoogleplusoneControl》,民生證券研究院RT-2的核心方法是采用視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)與聯(lián)合微調(diào)。具體步驟(例如"1128912415101")。在此過(guò)程中,機(jī)器人動(dòng)作被離散化為多個(gè)參數(shù)(如位移和旋轉(zhuǎn)),每語(yǔ)言token共用同一表示空間。步驟二:RT-2將任務(wù)指令和圖像信息結(jié)合,通過(guò)de-tokenize轉(zhuǎn)化為具體的機(jī)器人動(dòng)作序列。此過(guò)程使用大語(yǔ)言模型(LLM)解析任務(wù),像自然語(yǔ)言處理那樣,動(dòng)作模塊使用tokenizer來(lái)處理這串token轉(zhuǎn)成對(duì)應(yīng)的機(jī)器人動(dòng)作,將視覺(jué)信息和任務(wù)指令解碼為具體的機(jī)器人動(dòng)作序列(如平移和旋轉(zhuǎn)參數(shù)),進(jìn)而分析這串字符串對(duì)應(yīng)的開(kāi)始符、命令、停止符。步驟三:在執(zhí)行任務(wù)的過(guò)程中,模型同步實(shí)時(shí)進(jìn)行聯(lián)合微調(diào)(Co-Fine-Tuning):機(jī)器人根據(jù)傳感器和攝像頭反饋的最新圖像信息,判斷任務(wù)執(zhí)行的狀態(tài)和完成情況。如果任務(wù)執(zhí)行過(guò)程中出現(xiàn)誤差或環(huán)境發(fā)生變化,模型會(huì)利用新的視覺(jué)數(shù)據(jù)重新規(guī)劃動(dòng)作,直至任務(wù)完成??偠灾?,語(yǔ)言模型負(fù)責(zé)持續(xù)理解任務(wù)場(chǎng)景和需求,而動(dòng)作模塊根據(jù)視覺(jué)反饋實(shí)時(shí)調(diào)整操作,確保任務(wù)順利完成。完成訓(xùn)練與微調(diào)后,RT-2被部署到機(jī)器人系統(tǒng)中,并具備了在復(fù)雜環(huán)境下執(zhí)行多任務(wù)的能力,實(shí)現(xiàn)高效的閉環(huán)控制。民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械Internet-ScaleVQA+RobotActiInternet-ScaleVQA+RobotActiQ:Whatishappeningintheimage?Agreydonkeywalksdownthestreet.Q:Quepuis-jefaireaveccesobjets?Fairecuireungateau.△T=[0.1,-02,0]A:132114128525156△Translation=[0.1,-0.2,0]Co-Fine-TuneDeployforRobotControlLargeLanguageModelQ:Whatshouldtherobotdoto<task>?Q:WhatshouldtherobotClosed-Loop△Rotation=[10;25;-7"]Vision-Language-ActionModelsControl》,民生證券研究院2.1.3核心結(jié)論+未來(lái)進(jìn)展RT-2展示了視覺(jué)-語(yǔ)言模型(VLMs)可以轉(zhuǎn)變?yōu)閺?qiáng)大的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,通過(guò)結(jié)合VLM預(yù)訓(xùn)練和機(jī)器人數(shù)據(jù),直接控制機(jī)器人。RT-2基于PaLM-E和PaLI-X的兩種VLA模型,提高了機(jī)器人策略的完成率,并且繼承了視覺(jué)語(yǔ)言數(shù)據(jù)預(yù)訓(xùn)練的優(yōu)勢(shì),具有更好的泛化能力和涌現(xiàn)能力。這不僅是對(duì)現(xiàn)有視覺(jué)-語(yǔ)言模型的有效改進(jìn),也展示了通用型機(jī)器人的發(fā)展前景。未來(lái)的機(jī)器人能夠進(jìn)行推理、解決問(wèn)題,并進(jìn)行高級(jí)規(guī)劃和低級(jí)指令控制,在現(xiàn)實(shí)世界中執(zhí)行大量多樣化的任務(wù)。RT-2也具有局限性。該模型對(duì)于泛化能力的強(qiáng)化并沒(méi)有提高機(jī)器人執(zhí)行新動(dòng)作的能力,智能體知識(shí)學(xué)會(huì)了以新的方式部署學(xué)習(xí)到的技能。同時(shí),由于高頻控制的設(shè)置應(yīng)用場(chǎng)景,實(shí)時(shí)推斷可能成為主要瓶頸。未來(lái)工作的方向主要集中于如何通過(guò)新的數(shù)據(jù)收集范式(如人類(lèi)視頻)獲得新技能,同時(shí)開(kāi)發(fā)出更多的開(kāi)元模型以支撐高速率和低成本的運(yùn)作。2.2英偉達(dá)MimicGen:自動(dòng)化數(shù)據(jù)生成系統(tǒng)人研究依賴大量的人工演示數(shù)據(jù)來(lái)訓(xùn)練模型,但這些數(shù)據(jù)的收集非常昂貴。的系統(tǒng)。該系統(tǒng)通過(guò)將人類(lèi)演示數(shù)據(jù)適應(yīng)于新場(chǎng)景,生成多達(dá)50,000條演示數(shù)據(jù),覆蓋18項(xiàng)任務(wù),從而顯著降低了人工數(shù)據(jù)收集的需求。這一方法能夠加速機(jī)器人學(xué)習(xí)的進(jìn)展,使得機(jī)器人能夠在復(fù)雜場(chǎng)景中表現(xiàn)出本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械更強(qiáng)的泛化能力,尤其是在長(zhǎng)時(shí)間任務(wù)和高精度任務(wù)(如多部件裝配、咖啡準(zhǔn)備)中表現(xiàn)出色。研究結(jié)果表明,利用MimicGen生成的數(shù)據(jù)進(jìn)行模仿學(xué)習(xí)能夠取得與傳統(tǒng)人工數(shù)據(jù)收集相媲美的效果。圖10:MimicGen從原始人類(lèi)演示數(shù)據(jù)到生成的廣泛數(shù)據(jù)集的過(guò)程LargeLarge,broaddatasetgeneratedautomaticallywithMimicGenDiversesceneconfigurationsDemo2HumanDemonstrations》,民生證券研究院MimicGen的設(shè)計(jì)來(lái)源于模仿學(xué)習(xí)與數(shù)據(jù)增強(qiáng)兩個(gè)技術(shù)背景。模仿學(xué)習(xí)是一種通過(guò)觀察人類(lèi)示范來(lái)訓(xùn)練機(jī)器人的方法。MimicGen利用這一理念,通過(guò)生成多樣化的示范來(lái)擴(kuò)展模仿學(xué)習(xí)的應(yīng)用范圍。數(shù)據(jù)增強(qiáng)技術(shù)被廣泛應(yīng)用于提高模型的泛化能力。通過(guò)對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行變換或修改來(lái)生成新訓(xùn)練樣本的技術(shù),旨在提高模型的泛化能力和魯棒性。常見(jiàn)的數(shù)據(jù)增強(qiáng)方法包括旋轉(zhuǎn)、縮放、平移等,這些變換可以在不改變數(shù)據(jù)標(biāo)簽的情況下生成新的樣本。MimicGen的核心方法是數(shù)據(jù)分割與重組。將少量人類(lèi)演示數(shù)據(jù)分割成以物體為中心的子任務(wù),然后在新的場(chǎng)景中通過(guò)空間變換和軌跡生成,自動(dòng)生成新的演示數(shù)據(jù)。傳統(tǒng)方法中,數(shù)據(jù)生成通?;陟o態(tài)場(chǎng)景的回放,或通過(guò)復(fù)雜的模擬器進(jìn)通過(guò)“對(duì)象中心片段”的變換和拼接,將少量的人類(lèi)演示數(shù)據(jù)轉(zhuǎn)化為大規(guī)模的多樣化數(shù)據(jù)。這種方法可以直接融入現(xiàn)有的模仿學(xué)習(xí)管道中,適用于各種長(zhǎng)時(shí)間、高精度的任務(wù),并且能夠生成比單純回放方法更加多樣和有效的數(shù)據(jù)。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械Subtask1Subtask1Subtask2.SubtaskMDemo1Demo2DemoNPipelineforgeneratingObtainreferencesegmenttominceCurrentObservationExecutesegmertGeneratesegmentIntorpolatstostatDemonstrations》,民生證券研究院通過(guò)對(duì)比使用MimicGen生成的數(shù)據(jù)集與傳統(tǒng)人類(lèi)示范數(shù)據(jù)集的結(jié)果可以得出,機(jī)器人在使用MimicGen生成的數(shù)據(jù)集后成功率顯著上升。研究團(tuán)隊(duì)通過(guò)對(duì)MimicGen的實(shí)驗(yàn),評(píng)估了其在不同任務(wù)中的表現(xiàn),具體測(cè)驗(yàn)任務(wù)主要包括StackThree(堆疊三個(gè)物體)、Square(方形物體插入和對(duì)齊)、Threading(機(jī)器人在穿線或穿孔時(shí)的精細(xì)操作能力)、Kitchen(長(zhǎng)時(shí)間多步驟任務(wù))等十項(xiàng)。(a)StackThree(b)Square(c)Threading(d)3Pc.Assembly(e)PickPlace(f)Kitchen(g)CoffeePrep(h)MobileKitchen(i)GearAssemblyj)FrameAssembly結(jié)果顯示使用MimicGen后機(jī)器人成功率顯著提升,例如"Square"任務(wù)的成功率從11.3%提升至90.7%,"Threading"任務(wù)的成功率從19.3%提升至98.0%。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械D?D?Stack26.0±1.6100.0±0.099.3±0.9StackThree0.7±0.992.7±1.986.7±3.4Square11.3±0.990.7±1.973.3±3.449.3±2.5Threading98.0±1.660.7±2.538.0±3.3Coffee74.0±4.3100.0±0.090.7±2.577.3±0.9ThreePc.Assembly1.3±0.982.0±1.662.7±2.513.3±3.8HammerCleanup59.3±5.7100.0±0.062.7±4.7MugCleanup12.7±2.580.0±4.964.0±3.354.7±8.4100.0±0.076.0±4.3NutAssembly0.0±0.0533±1.90.0±0.050.7±6.697.3±0.942.0±0.0MobileKitchen2.0±0.046.7±18.4Nut-and-BoltAssembly8.7±2.592.7±2.57±4.1GearAssembly14.7±5.298.7±1.974.0±2.856.7±1.9FrameAssembly10.7±6.882.0±4.37±2.5MimicGen在機(jī)器人系統(tǒng)(尤其是機(jī)械臂)中的應(yīng)用潛力巨大。通過(guò)利用少量人類(lèi)演示(少于200個(gè)),MimicGen可自動(dòng)生成超過(guò)50,000個(gè)覆蓋18種任務(wù)的高質(zhì)量數(shù)據(jù),有效減少人工干預(yù),提升生產(chǎn)效率。其靈活性使其能夠適應(yīng)不同機(jī)器人硬件和復(fù)雜操作環(huán)境,為工業(yè)自動(dòng)化、醫(yī)療和服務(wù)機(jī)器人等領(lǐng)域提供廣泛的應(yīng)用前景。MimicGen的核心優(yōu)勢(shì)包括:顯著提升任務(wù)表現(xiàn)、良好的廣泛適應(yīng)性、跨物體和硬件適用性、適用于復(fù)雜移動(dòng)操作任務(wù)、模擬器無(wú)關(guān),精度表現(xiàn)卓支持非專(zhuān)家演示。圖14:MimicGen操作機(jī)械臂完成毫米級(jí)精度接觸任務(wù)示意圖MimicGen依賴于任務(wù)開(kāi)始時(shí)已知的對(duì)象位姿和操作步驟,這在完全未知或動(dòng)態(tài)環(huán)境中存在局限性。此外,僅通過(guò)任務(wù)成功與否來(lái)篩選生成數(shù)據(jù),可能導(dǎo)致數(shù)據(jù)集存在偏差,影響模型泛化能力。其應(yīng)用場(chǎng)景主要限于準(zhǔn)靜態(tài)任務(wù),并假設(shè)新對(duì)本本民生證券MINSHENGSECURITIES象與已有對(duì)象同類(lèi),限制了其在動(dòng)態(tài)環(huán)境和異構(gòu)對(duì)象上的推廣能力。未來(lái)研究應(yīng)進(jìn)一步提升系統(tǒng)對(duì)復(fù)雜場(chǎng)景的理解和分割能力,減少對(duì)人類(lèi)參與的依賴。擴(kuò)展MimicGen在更多物體類(lèi)別、機(jī)器人硬件和任務(wù)類(lèi)型中的應(yīng)用能力。10humandemos1000generateddemos1000generateddemos1000generateddemos(Panda)(Sawyer)(IIWA)(UR5e)資料來(lái)源:AjayMandlekar《MimicGen:ADataGenerationSystemfor2.3谷歌RoboCat:多任務(wù)具身智能在機(jī)器人領(lǐng)域,如何大規(guī)模利用異構(gòu)機(jī)器人數(shù)據(jù)仍然是機(jī)器人領(lǐng)域的難題,大多數(shù)現(xiàn)實(shí)中的機(jī)器人學(xué)習(xí)研究集中于一次開(kāi)發(fā)一個(gè)任務(wù)的智體。在機(jī)器人技術(shù)領(lǐng)域,近期研究專(zhuān)注于通過(guò)訓(xùn)練有語(yǔ)言條件的Transformer策略來(lái)解決具有相同觀測(cè)和動(dòng)作空間的多個(gè)簡(jiǎn)單、視覺(jué)多樣化的任務(wù),從而彌合大型預(yù)訓(xùn)練語(yǔ)言模型和視覺(jué)基礎(chǔ)操作之間的差距。Google曾經(jīng)提出RobotTransformer,采集了移動(dòng)機(jī)器人完成日常任務(wù)的軌跡片段,構(gòu)成了真實(shí)移動(dòng)機(jī)器人的專(zhuān)家數(shù)據(jù)集,包含了700多個(gè)任務(wù),如移動(dòng)RGBimage,300×300Frontalview.Pre-manipulationpose資料來(lái)源:AnthonyBrohan《RT1:ROBOT民生證券研究院本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械100~1000個(gè)示教樣本就能完成快速策略泛化。通過(guò)RoboCat,Google能成功展示其在新任務(wù)和不同機(jī)器人平臺(tái)上的泛化能力,以及通過(guò)后續(xù)迭代利用大模型輔助具身智能數(shù)據(jù)生成,從而為構(gòu)建一個(gè)自主改進(jìn)循環(huán)提供基本的構(gòu)建板塊。隨著訓(xùn)練數(shù)據(jù)的增長(zhǎng)和多樣化,RoboCat不僅表現(xiàn)出了跨任務(wù)遷移的跡象,也能更有效地適應(yīng)新任務(wù)。TrainingEmbodimentsHeld-OutEmbodimentManipulation》,民生證券研究院2.3.2RoboCat:以數(shù)據(jù)集為基礎(chǔ)實(shí)現(xiàn)任務(wù)的快速適應(yīng)RoboCat的最終目標(biāo)是創(chuàng)建一個(gè)能夠通過(guò)大量機(jī)器人情景經(jīng)驗(yàn)進(jìn)行訓(xùn)練的基礎(chǔ)智能體,使其能夠通過(guò)微調(diào)快速適應(yīng)廣泛的新下游任務(wù)。為了實(shí)現(xiàn)這一目標(biāo),RoboCat擁有一個(gè)非常豐富的多樣化操控行為數(shù)據(jù)集并在此基礎(chǔ)上進(jìn)行訓(xùn)練。RoboCat基于Gato架構(gòu),使用在廣泛圖像集上預(yù)訓(xùn)練過(guò)的VQ-GAN編碼器(Esser,2021),在涵蓋多個(gè)領(lǐng)域和具身的廣泛數(shù)據(jù)集上進(jìn)行訓(xùn)練,通過(guò)視覺(jué)目標(biāo)條件來(lái)指定任務(wù)。這種編碼器的選擇使得訓(xùn)練和迭代更加快速,這種訓(xùn)練方式也具有理想的自動(dòng)事后目標(biāo)生成屬性,即軌跡中的任何圖像都可以被標(biāo)記為所有導(dǎo)致它的所有時(shí)間步驟的有效“后見(jiàn)目標(biāo)”(Andrychowicz,2017)。這意味著現(xiàn)有數(shù)據(jù)中的后見(jiàn)目標(biāo)可以在沒(méi)有額外人為監(jiān)督的情況下提取。此外,視覺(jué)目標(biāo)提供了一個(gè)直觀的界面,用于指示機(jī)器人應(yīng)該執(zhí)行什么任務(wù)。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械圖18:目標(biāo)圖像示例:圖1、2為虛擬環(huán)境,圖3-8為現(xiàn)實(shí)世界RGBstackingGearinsertionRGBtowerVegetableGearinsertionFruitinsertionShapeinsertionGearlifting(Sawyer7-DoF)(Panda7-DoF)(Sawyer5-DoF)lifting(Panda7-DoF)(Panda7-DoF)(Panda7-DoF)(KUKA14-(Sawyer5-DoF)DoF)Manipulation》,民生證券研究院RoboCat能進(jìn)行自我微調(diào)和迭代。首先智能體將在初始使用多樣化的訓(xùn)練集進(jìn)行訓(xùn)練,可以通過(guò)100-1000次演示微調(diào)以適應(yīng)新任務(wù),然后部署在真實(shí)機(jī)器人上,生成更多數(shù)據(jù)。其次,將生成軌跡添加進(jìn)入下一次迭代的訓(xùn)練數(shù)據(jù)集中,從而提高跨任務(wù)的性能。RoboCat的自我改進(jìn)過(guò)程如圖所示:主要以架構(gòu)和預(yù)訓(xùn)練、微調(diào)和自我改進(jìn)、真實(shí)世界部署作為全流程。TrainTrainRoboCat:amulti-task,multi-embodiment,visualgoal-conditionedagentforanewtask/robottospecialisetothenewtask/robotFine-tunedagentself-generatesmuchmoretrainingdatatrainingdatasetwithadiversesetoftasksandrobotsExpandthisdatasetwithnewly-generateddataManipulation》,民生證券研究院2.3.3機(jī)器人未來(lái)發(fā)展展望未來(lái)機(jī)器人的研究工作將著眼于更靈活的多模態(tài)任務(wù)規(guī)劃。首先是將現(xiàn)有的公開(kāi)可獲取的數(shù)據(jù)集與注釋語(yǔ)言相結(jié)合,以語(yǔ)言為媒介的任務(wù)規(guī)劃和視覺(jué)目標(biāo)相輔相成,得以實(shí)現(xiàn)對(duì)不同任務(wù)的更精準(zhǔn)定位。此外,盡管當(dāng)前研究主要關(guān)注視覺(jué)目標(biāo)條件反射以及基于視覺(jué)-前饋模型(VFM)的基線研究,但仍在圖像推理方面表現(xiàn)出色;同時(shí),語(yǔ)言條件反射和LLM/VLM基線研究可能提供更好的時(shí)間推理能力。本本民生證券行業(yè)深度研究/機(jī)械3特斯拉FSD:端到端算法成為研究主流,數(shù)據(jù)集成為關(guān)鍵FSD全稱(chēng)FullSelf-Driving(完全自動(dòng)駕駛),是特斯拉研發(fā)的自動(dòng)化輔助圖21:自動(dòng)駕駛的六個(gè)等級(jí)圖21:自動(dòng)駕駛的六個(gè)等級(jí)L0L1L2L3完全人類(lèi)駕駛輔助駕駛部分自動(dòng)駕駛有條件的自動(dòng)駕駛高度自動(dòng)駕駛完全自動(dòng)駕駛能夠獲得輔助。誓車(chē)輛。來(lái)別的自動(dòng)駕駛汽車(chē)中駕駛員車(chē)輛擔(dān)全部駕駛?cè)蝿?wù),無(wú)*速和制動(dòng)。和制動(dòng)。FSDV12(Supervised)是全新的“端到端自動(dòng)駕駛”,模型架構(gòu)發(fā)生了重絡(luò)由數(shù)百萬(wàn)個(gè)視頻片段訓(xùn)練而成,取代了超過(guò)30萬(wàn)行的C++代碼。FSDV12根據(jù)特斯拉發(fā)布2024Q2的自動(dòng)駕駛報(bào)告,自動(dòng)駕駛大幅減少事故率:開(kāi)啟Autopilot的情況下,平均每行駛1107.2萬(wàn)公里(688萬(wàn)英里)會(huì)發(fā)生一起事故,而未開(kāi)啟平均每行駛233.3萬(wàn)公里(145萬(wàn)英里)會(huì)發(fā)生一起事故。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械■FSDV12Miles■2021202120210.0資料來(lái)源:Tesla,民生證券研究院●未開(kāi)啟Autopilot自動(dòng)輔助駕駛功能的特斯拉車(chē)輛●美國(guó)平均值車(chē)輛在事故發(fā)生前行駛百萬(wàn)英里2024年第二季度2024年第一季度2023年第四季度2023年第三季度2023年第二季度2023年第一季度資料來(lái)源:特斯拉官網(wǎng),民生證券研究院3.2FSD的前世今生早期特斯拉自動(dòng)駕駛采用外部合作方式,合作廠商包括Mobileye和英偉達(dá)等。在2019年特斯拉步入自研時(shí)代,首次推出自研自動(dòng)駕駛芯片HW3.0。HW3.0采用特斯拉全棧自研的FSD芯片。2020年10月,特斯拉小范圍推送FSDBeta,對(duì)Autopilot基礎(chǔ)架構(gòu)進(jìn)行了重大重寫(xiě)。2021年7月,特斯拉開(kāi)始推送FSDBetaV9,該版本采用純視覺(jué)自動(dòng)駕駛方案,摒棄了傳統(tǒng)的毫米波雷達(dá)和超聲波雷達(dá),是特斯拉在自動(dòng)駕駛技術(shù)的重要發(fā)展節(jié)點(diǎn)。時(shí)間2014年10月基于Mobileye的EyeQ3平臺(tái)打造2016年10月配置NvidiaDrivePX2計(jì)算系統(tǒng)2019年4月Hardware3.0搭載自研自動(dòng)駕駛芯片F(xiàn)SD2021年7月FSDBeta(測(cè)試版)9.0確定純視覺(jué)方案,取消毫米波雷達(dá)及超聲波雷達(dá)2024年1月端到端神經(jīng)網(wǎng)絡(luò)2024年2月Hardware4.0搭載ModelY算力提升5倍資料來(lái)源:汽車(chē)財(cái)經(jīng),IT之家,易車(chē)網(wǎng),中國(guó)新聞周刊,新浪網(wǎng),民生證券研究院2024年1月,特斯拉FSDV12正式向用戶推送,將城市街道駕駛堆棧升級(jí)為端到端神經(jīng)網(wǎng)絡(luò)。2024年2月,特斯拉ModelY迎來(lái)HW4.0自動(dòng)輔助駕駛硬件升級(jí),與HW3.0相比,HW4.0算力提升5倍,在硬件設(shè)計(jì)上實(shí)現(xiàn)并行處理能力增強(qiáng)、內(nèi)存管理優(yōu)化和專(zhuān)用加速器集成等多項(xiàng)創(chuàng)新。從最初的輔助駕駛系統(tǒng),到全棧自研自動(dòng)駕駛技術(shù),特斯拉持續(xù)引領(lǐng)智能駕駛技術(shù)發(fā)展浪潮。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械復(fù)盤(pán)FSD歷史,最重大的架構(gòu)變革莫過(guò)于2020年引入Transformer模型(基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)),算法得以從重人工、規(guī)則驅(qū)動(dòng),轉(zhuǎn)向重Al,數(shù)據(jù)驅(qū)動(dòng)。FSD主要分為感知和規(guī)劃模塊,在兩個(gè)模塊中都運(yùn)用到了Transformer模型,神經(jīng)網(wǎng)絡(luò)的介入使得端到端模型逐步實(shí)現(xiàn)。2022年特斯拉FSD感知模塊即形成了BEV+Transformer+Occupancy為規(guī)劃模塊決策提供支持。特斯拉FSD規(guī)劃模塊在2021年引入基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃模塊和蒙特卡洛樹(shù)搜索,最終FSD規(guī)劃模塊由基于顯性規(guī)則的規(guī)劃模塊和基于神經(jīng)網(wǎng)絡(luò)的規(guī)劃模塊構(gòu)成。Planning&資料來(lái)源:特斯拉2021AIDay,民生證券研究院HydraNets是特斯拉開(kāi)發(fā)的一種深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)。這個(gè)網(wǎng)絡(luò)的特點(diǎn)在于它能夠?qū)⒍鄠€(gè)任務(wù)集成到一個(gè)網(wǎng)絡(luò)中,例如車(chē)道線檢測(cè)、行人檢測(cè)與追蹤、交通信號(hào)燈檢測(cè)等,這些任務(wù)對(duì)于自動(dòng)駕駛汽車(chē)來(lái)說(shuō)至關(guān)重要。HydraNets的核心在于其共享的主干網(wǎng)絡(luò),該主干網(wǎng)絡(luò)通過(guò)分支成多個(gè)"頭",可以同時(shí)輸出多個(gè)預(yù)測(cè)張量,每個(gè)“頭”負(fù)責(zé)不同的任務(wù)或?qū)ο箢?lèi)別。此外,這種架構(gòu)的優(yōu)勢(shì)在于其能夠有效地利用可用的計(jì)算資源,并且通過(guò)端到端的訓(xùn)練和推斷,提高了處理不同視覺(jué)信息的效率。HydraNets能夠?qū)?lái)自多個(gè)攝像頭的視覺(jué)內(nèi)容轉(zhuǎn)換為向量空間和道路特征,這對(duì)于構(gòu)建車(chē)輛周?chē)木C合視圖至關(guān)重要。本本民生證券行業(yè)深度研究/機(jī)械Nimge(Nimages)MutkamFislon(reanstormersVideoModuletrajectorydetectiontrajectorydetectionVideoModuleMadMLPNormExtralearnableNorm資料來(lái)源:特斯拉2022CVPR,民生證券研究院TransformersforImageRecognitionatScale》,民生證券研究院Dojo是特斯拉公司開(kāi)發(fā)的一套高性能計(jì)算系統(tǒng),用于處理和訓(xùn)練自動(dòng)駕駛系統(tǒng)產(chǎn)生的海量數(shù)據(jù)。ProjectDOJO的負(fù)責(zé)人GaneshVenkataramanan表示,將會(huì)使人工智能擁有更高速的學(xué)習(xí)能力,從而使Autopilot更加強(qiáng)大。ExploitSpatial&TemporalL資料來(lái)源:特斯拉2021AlDay,民生證券研究院FSDV12為首個(gè)端到端自動(dòng)駕駛系統(tǒng),實(shí)現(xiàn)感知決策一體化。特斯拉FSDv12采用端到端大模型,消除了自動(dòng)駕駛系統(tǒng)的感知和定位、決策和規(guī)劃、控制和執(zhí)行之間的斷面,將三大模塊合在一起,形成了一個(gè)大的神經(jīng)網(wǎng)絡(luò),直接從原始傳感器數(shù)據(jù)到車(chē)輛操控指令,簡(jiǎn)化了信息傳遞過(guò)程,因而減少了延遲和誤差,提高了系統(tǒng)的敏捷性和準(zhǔn)確性。FSDV12能夠模擬人類(lèi)駕駛決策,成為自動(dòng)駕駛領(lǐng)域全新發(fā)民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械展路徑。FSDV12也被稱(chēng)為"BabyAGI(嬰兒版通用人工智能)",旨在感知和理解現(xiàn)實(shí)世界的復(fù)雜性。資料來(lái)源:特斯拉2021AIDay,民生證券研究院本本民生證券行業(yè)深度研究/機(jī)械4.1端到端算法:直接連接數(shù)據(jù)輸入與控模塊化自動(dòng)駕駛分為傳感器數(shù)據(jù)輸入、感知模塊、定位模塊、規(guī)劃模塊和控制指令輸出五部分。而端到端算法則通過(guò)單一神經(jīng)網(wǎng)絡(luò)直接連接傳感器數(shù)據(jù)輸入與控制指令輸出。與傳統(tǒng)的模塊化自動(dòng)駕駛相比,端到端自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)逐漸接管了系統(tǒng)的各個(gè)部分,其架構(gòu)設(shè)計(jì)簡(jiǎn)單,減少中間數(shù)據(jù)降維的成本,同時(shí)減小誤差以達(dá)到全局最優(yōu)。端到端的優(yōu)勢(shì)在數(shù)據(jù)量達(dá)到一定程度后性能顯著提高,但是缺點(diǎn)是數(shù)據(jù)量較小時(shí)候性能上升緩慢,遠(yuǎn)低于解耦的傳統(tǒng)基于專(zhuān)家模型的策略。圖30:端到端算法與模塊化系統(tǒng)框架對(duì)比①①…及黜Contol①《公;隅①《公;隅旦AutonomousDrivingusingDeepLearning:ASurvey》,民生證券研究院圖31:端到端模型與基于規(guī)則模型表現(xiàn)曲線對(duì)比資料來(lái)源:2023年CVPR,民生證券研究院端到端算法實(shí)現(xiàn)自動(dòng)駕駛有兩種主要方法:通過(guò)強(qiáng)化學(xué)習(xí)探索和改進(jìn)駕駛模型、使用模仿學(xué)習(xí)以監(jiān)督的方式訓(xùn)練它模仿人類(lèi)駕駛行為。通過(guò)與環(huán)境的相互作用,隨著時(shí)間的推移最大化累積獎(jiǎng)勵(lì),網(wǎng)絡(luò)根據(jù)自己的行為做出驅(qū)動(dòng)決策,以獲得獎(jiǎng)勵(lì)或懲罰。它在利用數(shù)據(jù)方面的效率較低。而模仿學(xué)習(xí)是在專(zhuān)家演示中學(xué)習(xí)駕駛風(fēng)格,因此需要大量的實(shí)際駕駛場(chǎng)景來(lái)作為模型的訓(xùn)練樣例,數(shù)據(jù)集的規(guī)模與多樣性成為關(guān)鍵問(wèn)題。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械VisualObservation(e.g.,Segmentation)BehaviorReflex(ActionProposals)AutonomousDrivingusingDeepLearning:ASurvey》,民生證券研究院4.2.1更容易解決cornercase在傳統(tǒng)的決策規(guī)劃框架中,研發(fā)人員會(huì)根據(jù)不同的ODD定義好規(guī)則,面對(duì)特定場(chǎng)景時(shí)找到對(duì)應(yīng)的規(guī)則,然后調(diào)用相應(yīng)的規(guī)劃器生成控制軌跡。這種架構(gòu)需要事先寫(xiě)好大量的規(guī)則,故稱(chēng)為“重決策方案”。重決策方案較易實(shí)現(xiàn),在簡(jiǎn)單場(chǎng)景下也堪稱(chēng)高效,但在需要拓展ODD、或把不同的ODD連接起來(lái)時(shí),就需要大量的手寫(xiě)規(guī)則來(lái)查缺補(bǔ)漏,從而實(shí)現(xiàn)更連續(xù)的智駕體驗(yàn)。當(dāng)遇到未學(xué)習(xí)過(guò)的場(chǎng)景,即cornercase時(shí),系統(tǒng)會(huì)表現(xiàn)得不夠智能甚或無(wú)法應(yīng)對(duì)。端到端是通過(guò)對(duì)場(chǎng)景的理解進(jìn)行判斷,比如環(huán)境車(chē)輛動(dòng)態(tài)、車(chē)道線、交通燈、轉(zhuǎn)向燈燈,通過(guò)多維度的元素,甚至是人類(lèi)沒(méi)有意識(shí)到的要素進(jìn)行綜合分析,判斷意圖,所以其理解的天花板更高。資料來(lái)源:長(zhǎng)城汽車(chē)測(cè)試城市NOA自動(dòng)駕駛加塞場(chǎng)景,民生證券研究院民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械4.2.2擬人化自動(dòng)駕駛傳統(tǒng)智駕通過(guò)橫向策略和縱向策略進(jìn)行車(chē)輛的行為控制,基于確定的規(guī)則和精確的控制參數(shù),導(dǎo)致車(chē)輛動(dòng)作機(jī)械化,要做到擬人駕駛需要開(kāi)展大量工作,定義控車(chē)曲線和匹配場(chǎng)景。端到端的本質(zhì)是學(xué)習(xí),所以其可以模仿人類(lèi)駕駛汽車(chē)的行為,直接輸出包括方向盤(pán)轉(zhuǎn)角、方向盤(pán)轉(zhuǎn)速、油門(mén)踏板開(kāi)度、制動(dòng)踏板開(kāi)度等,從而實(shí)現(xiàn)接近人類(lèi)駕駛的習(xí)慣進(jìn)行任務(wù)的過(guò)程控制。資料來(lái)源:Tesla,民生證券研究院4.2.3全局最優(yōu),成本低且泛用性強(qiáng)傳統(tǒng)“分而治之”的模塊化架構(gòu),可能圄于局部最優(yōu)解而難以達(dá)到全局最優(yōu)。由于每個(gè)任務(wù)相對(duì)獨(dú)立,人工標(biāo)注使數(shù)據(jù)的針對(duì)性強(qiáng),監(jiān)督學(xué)習(xí)使模型訓(xùn)練的信號(hào)強(qiáng),因此Al模型能迅速提升性能,有利于快速實(shí)現(xiàn)一個(gè)完整的產(chǎn)品。但在到達(dá)"局部最優(yōu)解”之后,這些模型難以進(jìn)一步提升,且串在一起之后形成累積誤差,不利于追求全局最優(yōu)解。與傳統(tǒng)的模塊化自動(dòng)駕駛系統(tǒng)相比,端到端自動(dòng)駕駛系統(tǒng)設(shè)計(jì)難度低,硬件成本較小,并且通過(guò)多樣性的數(shù)據(jù),能夠獲得在不同場(chǎng)景下的泛用性。所以從算法架構(gòu)設(shè)計(jì)的角度,其具有高度的整合度和一體化,省去了多個(gè)模塊的獨(dú)立架構(gòu)設(shè)計(jì)和算法開(kāi)發(fā),降低代碼量和運(yùn)行所調(diào)度的模塊數(shù)量。另一方面,由于模型直接從原始數(shù)據(jù)中學(xué)習(xí),而不需要依賴于人工設(shè)計(jì)的特征或規(guī)則,所以刪去了枯燥的標(biāo)注工作。最重要的還有一點(diǎn)就是省去了后期無(wú)窮盡的規(guī)則補(bǔ)充和場(chǎng)景補(bǔ)充,從而減少了人工維護(hù)和升級(jí)的成本。本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械(a)ClassicalApproachBoundingboxTrajectoryPerceptionPredictionPlanning(b)End-to-endParadigm(ThisSurvey)backpropagationfeature4.3自動(dòng)駕駛端到端算法遷移至人形機(jī)器人的優(yōu)勢(shì)自動(dòng)駕駛端到端算法代表了一種數(shù)據(jù)驅(qū)動(dòng)的學(xué)習(xí)范式,這種范式同樣適用于機(jī)器人領(lǐng)域。通過(guò)大量的數(shù)據(jù)訓(xùn)練,模型能夠?qū)W習(xí)到復(fù)雜的駕駛或操作行為,從而實(shí)現(xiàn)高度的智能化。自動(dòng)駕駛系統(tǒng)在道路上收集的數(shù)據(jù),以及通過(guò)仿真和合成數(shù)據(jù)技術(shù)獲取的數(shù)據(jù),都可以為人形機(jī)器人的訓(xùn)練提供有力支持。ScenarioSemanticSpaceDrivingScenariosDrivingScenariosRepresentationSpace完全端到端算法采用"Bev(鳥(niǎo)瞰視角)+Transformer(預(yù)訓(xùn)練)+Teacher-student(知識(shí)蒸餾)"方式實(shí)現(xiàn)力位的雙控,典型代表是特斯拉的Optimus人形機(jī)器人,根據(jù)上文所述,特斯拉人形機(jī)器人采用了相同的算法架構(gòu)。端到端算法從汽車(chē)自動(dòng)駕駛遷移至人形機(jī)器人幾乎不需要做太多額外工作,車(chē)本身就是一種機(jī)器人。早期的特斯拉Optimus機(jī)器人使用了與汽車(chē)完全相同的計(jì)算機(jī)和攝像頭,通過(guò)讓汽車(chē)的神經(jīng)網(wǎng)絡(luò)在機(jī)器人上運(yùn)行,它在辦公室里走動(dòng)時(shí)仍試圖識(shí)別“可駕駛空間”,而實(shí)際上它應(yīng)該識(shí)別的是“可行走空間”。這種通用化能力表明了很多技術(shù)是可以遷移的,雖然需要一些微調(diào),但大部分系統(tǒng)和工具都是本本民生證券MINSHENGSECURITIES行業(yè)深度研究/機(jī)械感知、預(yù)測(cè)和規(guī)劃等任務(wù)整合到一個(gè)模型中。通過(guò)輸入感知信息(如攝像頭、雷達(dá)等傳感器數(shù)據(jù)),模型能夠直接輸出軌跡或控制信號(hào),實(shí)現(xiàn)類(lèi)似人類(lèi)的駕駛行為。自動(dòng)駕駛端到端算法能夠?qū)W習(xí)到人類(lèi)駕駛的擬人化行為,如平滑的轉(zhuǎn)向、加速和減這種擬人化行為在人形機(jī)器人上同樣重要,可以提升機(jī)器人的交互能力和用戶體驗(yàn)。通過(guò)遷移自動(dòng)駕駛的擬人化算法范式,人形機(jī)器人可以更加自然地與人類(lèi)進(jìn)行交互,如理解人類(lèi)手勢(shì)、面部表情等。4.4機(jī)器人端到端算法的關(guān)鍵問(wèn)題端到端算法需要大量連續(xù)時(shí)序的駕駛行為視頻進(jìn)行標(biāo)注,這種數(shù)據(jù)收集、標(biāo)注及閉環(huán)驗(yàn)證的過(guò)程在人形機(jī)器人上同樣困難。人形機(jī)器人需要面對(duì)更加復(fù)雜的環(huán)境和任務(wù),因此數(shù)據(jù)收集的難度和成本都更高。同時(shí),由于人形機(jī)器人的操更高的風(fēng)險(xiǎn)性,因此數(shù)據(jù)標(biāo)注的準(zhǔn)確性也要求更高。人形機(jī)器人需要大量實(shí)際人類(lèi)真實(shí)的數(shù)據(jù)集給機(jī)器人進(jìn)行訓(xùn)練。動(dòng)作捕捉技術(shù)和VR遠(yuǎn)程操作是實(shí)現(xiàn)人形機(jī)器人擬人化動(dòng)作數(shù)據(jù)采集的有效途徑。動(dòng)作捕捉技術(shù)通過(guò)在人體關(guān)鍵部位貼上反光標(biāo)記點(diǎn)或使用慣性傳感器等方式,捕捉人體的運(yùn)動(dòng)姿態(tài)和動(dòng)作數(shù)據(jù)。VR遠(yuǎn)程操控技術(shù)是人類(lèi)戴著VR眼鏡和手本本民生證券行業(yè)深度研究/機(jī)械套,通過(guò)遠(yuǎn)程操作的方式來(lái)采集機(jī)器人數(shù)據(jù)。這些數(shù)據(jù)可以被用于訓(xùn)練人形機(jī)器人的動(dòng)作模型,使其能夠模擬出類(lèi)似人類(lèi)的動(dòng)作和行為。資料來(lái)源:武漢零智妙境科技VR,民生證券研究院由于擴(kuò)展法則(ScalingLaw)的存在,機(jī)器人的數(shù)據(jù)集大小決定了其性能的好壞,真實(shí)數(shù)據(jù)的采集消耗較大的人力物力成本,合成數(shù)據(jù)僅依賴AI算法實(shí)現(xiàn)數(shù)據(jù)生成,數(shù)據(jù)采集快并且成本低廉。同時(shí)人形機(jī)器人面臨著場(chǎng)景復(fù)雜性與模型泛化能力的問(wèn)題,合成數(shù)據(jù)構(gòu)建的世界模型就起到了很大的作用。自動(dòng)駕駛場(chǎng)景相對(duì)結(jié)構(gòu)化,主要操作在可預(yù)測(cè)和規(guī)對(duì)泛化能力的要求遠(yuǎn)高于自動(dòng)駕駛汽車(chē)?;谑澜缒P蜕筛哔|(zhì)量的動(dòng)作視頻和規(guī)劃策略,在仿真環(huán)境中模擬各種復(fù)雜場(chǎng)景,就能夠提升系統(tǒng)的魯棒性。合成數(shù)據(jù)生成的關(guān)鍵問(wèn)題是保持?jǐn)?shù)據(jù)集的熵和多樣性,避免生成的數(shù)據(jù)與真實(shí)數(shù)據(jù)差距過(guò)大或者樣式單一。SyntheticSyntheticData2020本本民生證券MINSHENGSECURITIES
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 材料力學(xué)與智能制造工藝重點(diǎn)基礎(chǔ)知識(shí)點(diǎn)
- 材料疲勞裂紋擴(kuò)展數(shù)據(jù)處理原理重點(diǎn)基礎(chǔ)知識(shí)點(diǎn)
- 集合概念的實(shí)際應(yīng)用試題及答案
- 常見(jiàn)火災(zāi)事故應(yīng)急預(yù)案(3篇)
- 行政法學(xué)知識(shí)點(diǎn)梳理與試題及答案匯編
- 低壓室火災(zāi)應(yīng)急預(yù)案(3篇)
- 發(fā)展戰(zhàn)略與市場(chǎng)預(yù)測(cè)的關(guān)系試題及答案
- 火災(zāi)撲滅瞬間應(yīng)急預(yù)案(3篇)
- 計(jì)算機(jī)程序設(shè)計(jì)入門(mén)考試題及答案
- 2025軟考網(wǎng)絡(luò)運(yùn)營(yíng)管理試題及答案
- 2025年年中考物理綜合復(fù)習(xí)(壓軸特訓(xùn)100題55大考點(diǎn))(原卷版+解析)
- -《經(jīng)濟(jì)法學(xué)》1234形考任務(wù)答案-國(guó)開(kāi)2024年秋
- 2025上海房屋租賃合同模板
- T-SCSTA001-2025《四川省好住房評(píng)價(jià)標(biāo)準(zhǔn)》
- 2025-2030全球及中國(guó)可持續(xù)飛機(jī)能源行業(yè)市場(chǎng)現(xiàn)狀供需分析及市場(chǎng)深度研究發(fā)展前景及規(guī)劃可行性分析研究報(bào)告
- TCGIA0012017石墨烯材料的術(shù)語(yǔ)定義及代號(hào)
- 西紅門(mén)鎮(zhèn)生活垃圾轉(zhuǎn)運(yùn)站及環(huán)衛(wèi)停車(chē)場(chǎng)工程報(bào)告表
- 2025年信息系統(tǒng)監(jiān)理師考試題(附答案)
- 農(nóng)村留守兒童教育支持體系構(gòu)建研究
- 車(chē)場(chǎng)管理考試試題及答案
- 福建省三明市2025年普通高中高三畢業(yè)班五月質(zhì)量檢測(cè)物理(三明四檢)
評(píng)論
0/150
提交評(píng)論