計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:大模型引領(lǐng)具身智能新發(fā)展_第1頁(yè)
計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:大模型引領(lǐng)具身智能新發(fā)展_第2頁(yè)
計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:大模型引領(lǐng)具身智能新發(fā)展_第3頁(yè)
計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:大模型引領(lǐng)具身智能新發(fā)展_第4頁(yè)
計(jì)算機(jī)行業(yè)市場(chǎng)前景及投資研究報(bào)告:大模型引領(lǐng)具身智能新發(fā)展_第5頁(yè)
已閱讀5頁(yè),還剩17頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

%%%%目

錄01

什么是具身智能?02

本輪大模型進(jìn)步對(duì)具身智能影響03

巨頭的布局和行動(dòng)04

投資關(guān)注點(diǎn)%%3%%%%%具身智能技術(shù)演進(jìn)邏輯大模型高泛化性思維鏈能力需要應(yīng)對(duì)從未見過的場(chǎng)景需要拆解復(fù)雜任務(wù)以及根據(jù)環(huán)境變化調(diào)整動(dòng)作具身智能機(jī)器人相關(guān)廠商:特斯拉Optimus、宇樹智能、云深處、優(yōu)必選等相關(guān)廠商:達(dá)闥、優(yōu)必選等服務(wù)場(chǎng)景機(jī)器人勞動(dòng)場(chǎng)景機(jī)器人短期方案:LLM+感知算法+決策控制算法短期方案:感知算法+復(fù)雜決策控制算法改良方案:微軟ChatGPTforRobotics中期方案:多模態(tài)大模型+控制算法當(dāng)前已有項(xiàng)目:谷歌PaLM-E當(dāng)前已有項(xiàng)目:遠(yuǎn)期方案:VLA大模型谷歌RT-2資料:長(zhǎng)江證券研究所。4%%%%01什么是具身智能?%%5%%%%%01

具身智能有哪些特點(diǎn)?

具身智能機(jī)器人需要以第一人稱的身份融入周邊環(huán)境具身的含義不是身體本身,而是與環(huán)境交互以及在環(huán)境中做事的整體需求和功能。第三人稱只能做到旁觀式學(xué)習(xí),而第一人稱可以主動(dòng)與現(xiàn)實(shí)世界互動(dòng),通過物理形態(tài)的互動(dòng)中汲取新知識(shí)。第一人稱與第三人稱交互方式第一人稱與第三人稱智能資料:機(jī)器之心,長(zhǎng)江證券研究所。6%%%%01

具身智能需要高泛化性

具身智能機(jī)器人需要與復(fù)雜世界進(jìn)行互動(dòng),因此決策控制系統(tǒng)需要高泛化性當(dāng)前機(jī)器人的感知、決策、控制系統(tǒng)由大量傳統(tǒng)算法組合而成,如SLAM算法、路徑規(guī)劃算法等;而傳統(tǒng)算法模型即使經(jīng)歷大量的訓(xùn)練,仍存在較多小概率場(chǎng)景(corner

case)難以覆蓋,泛化能力較低。以特斯拉自動(dòng)駕駛系統(tǒng)Copilot為例,2021年特斯拉輔助自動(dòng)駕駛系統(tǒng)錯(cuò)誤地把卡車的白色貨廂識(shí)別成了天空,導(dǎo)致Model

Y撞上貨車發(fā)生車禍。純白的貨車停在十字路口屬于小概率場(chǎng)景,自動(dòng)駕駛算法由于沒有經(jīng)過同場(chǎng)景訓(xùn)練,所以無(wú)法生成對(duì)應(yīng)決策。傳統(tǒng)機(jī)器人規(guī)劃算法較為復(fù)雜早期特斯拉自動(dòng)駕駛功能難以應(yīng)對(duì)小概率場(chǎng)景,造成車禍資料:CSDN,新智元,長(zhǎng)江證券研究所。%%7%%%%%01

具身智能需要思維鏈能力

具身智能需要拆解復(fù)雜任務(wù)以及根據(jù)環(huán)境變化不斷調(diào)整自己的動(dòng)作和任務(wù)目標(biāo),因此需要思維鏈能力在現(xiàn)實(shí)世界中,機(jī)器人難以一次性完成整個(gè)復(fù)雜動(dòng)作,因此需要將復(fù)雜動(dòng)作拆解成多個(gè)簡(jiǎn)單步驟完成;此外,由于現(xiàn)實(shí)世界遠(yuǎn)比機(jī)器人訓(xùn)練場(chǎng)景復(fù)雜,機(jī)器人不是唯一客體,所以在任務(wù)過程中會(huì)受到各種干擾,環(huán)境也會(huì)不斷變化;因此具身智能機(jī)器人需要較強(qiáng)的思維鏈能力。以下圖為例,向PaLM-E機(jī)器人發(fā)出任務(wù)指令:“把零食從抽屜中拿給我”,機(jī)器人將其拆解為5個(gè)步驟。在執(zhí)行過程中,人類把機(jī)械臂抓取的零食打落回抽屜。搭載PaLM-E的機(jī)械臂仍能調(diào)整任務(wù)目標(biāo),完成任務(wù)。PaLM-E機(jī)器人把任務(wù)拆解成多個(gè)步驟完成資料:《PaLM-E:

An

Embodied

Multimodal

Language

Model》Danny

Driess

etal.,長(zhǎng)江證券研究所。8%%01

大模型是具身智能機(jī)器人的必備選項(xiàng)

大模型具備高泛化性與思維鏈能力,因此成為具身智能系統(tǒng)必備選項(xiàng)%%大模型的出現(xiàn)有望徹底顛覆機(jī)器人的軟件開發(fā)范式。預(yù)訓(xùn)練賦予了大模型知識(shí)壓縮的能力,因此預(yù)訓(xùn)練后的大模型具備較高的泛化能力,可以應(yīng)對(duì)從未見過的任務(wù)場(chǎng)景。有較高泛化能力的系統(tǒng)可以應(yīng)對(duì)小概率場(chǎng)景(corner

case),有望大幅度降低了算法開發(fā)的復(fù)雜度。當(dāng)模型的參數(shù)擴(kuò)大到一定的量級(jí),大模型會(huì)涌現(xiàn)出思維鏈能力。因此大模型是具身智能機(jī)器人的必備選項(xiàng)。大模型通過預(yù)訓(xùn)練+調(diào)參提高泛化性預(yù)訓(xùn)練+調(diào)參=目標(biāo)模型參數(shù)量擴(kuò)大涌現(xiàn)出思維鏈能力大規(guī)模無(wú)標(biāo)注數(shù)據(jù)任務(wù)特定訓(xùn)練數(shù)據(jù)數(shù)據(jù)模型預(yù)訓(xùn)練(Pre-training)模型微調(diào)(Fine-tuning)最終模型泛用性增強(qiáng)根據(jù)場(chǎng)景調(diào)整得到特定所需資料:清華NLP團(tuán)隊(duì),openBMB,《Chain-of-Thought

Prompting

Elicits

Reasoning

in

Large

Language

Models》Jason

Weiet

al,長(zhǎng)江證券研究所。%%9%%%%01

具身智能是大模型的終極應(yīng)用場(chǎng)景

從文本到圖像再到現(xiàn)實(shí)世界,具身智能是大模型的終極應(yīng)用場(chǎng)景%目前大模型技術(shù)已從單純的大語(yǔ)言模型(LLM)發(fā)展到圖像-語(yǔ)言多模態(tài)模型(VLM);隨著谷歌圖像-語(yǔ)言-動(dòng)作多模態(tài)模型(VLA)的推出,大模型有望在人形機(jī)器人場(chǎng)景快速滲透。從文本到圖像再到現(xiàn)實(shí)世界,大模型的數(shù)據(jù)模態(tài)逐漸豐富,數(shù)據(jù)規(guī)模的數(shù)量級(jí)迅速增長(zhǎng),大模型的應(yīng)用場(chǎng)景和價(jià)值量也成比例擴(kuò)張,具身智能有望在未來成為大模型終極應(yīng)用場(chǎng)景。大模型的進(jìn)化圖像-語(yǔ)言-動(dòng)作大語(yǔ)言模型文本處理圖像-語(yǔ)言多模態(tài)模型文生圖、圖生文多模態(tài)模型具身智能模態(tài)數(shù)據(jù)規(guī)模應(yīng)用場(chǎng)景擴(kuò)大模態(tài)數(shù)據(jù)規(guī)模應(yīng)用場(chǎng)景擴(kuò)大ChatGPT、Claude、LLaMA、訊飛星火PaLM-E、DALL-ERT-2資料:長(zhǎng)江證券研究所。10%%%%02本輪大模型進(jìn)步對(duì)具身智能的影響?%%11%%%%02

人形機(jī)器人可以分為服務(wù)型和勞動(dòng)型

按照使用場(chǎng)景的不同,人形機(jī)器人可以分為服務(wù)型機(jī)器人和勞動(dòng)型機(jī)器人%服務(wù)型機(jī)器人主要用于客服與接待場(chǎng)景,此類場(chǎng)景對(duì)人機(jī)交互有較高需求,因此服務(wù)型機(jī)器人通常外表高度擬人,配備了人機(jī)交互系統(tǒng),有成熟的語(yǔ)言識(shí)別、合成算法;但往往機(jī)械硬件配置較低,機(jī)動(dòng)性差,難以完成精細(xì)動(dòng)作。服務(wù)型機(jī)器人的主機(jī)廠有達(dá)闥、優(yōu)必選等。勞動(dòng)型主要用于工業(yè)、電力巡檢、安防等場(chǎng)景,可以將人力從簡(jiǎn)單重復(fù)勞動(dòng)或者重體力勞動(dòng)中解放出來。勞動(dòng)型機(jī)器人重視精準(zhǔn)動(dòng)作控制,通常配備高性能電機(jī)、高強(qiáng)度關(guān)節(jié),機(jī)動(dòng)性較強(qiáng),但難以完成復(fù)雜的人機(jī)交互。勞動(dòng)型機(jī)器人的主機(jī)廠有特斯拉、云深處、宇樹科技等。服務(wù)型機(jī)器人:達(dá)闥CloudGinger2.0勞動(dòng)型機(jī)器人:特斯拉Optimus資料:達(dá)闥官網(wǎng),特斯拉官網(wǎng),長(zhǎng)江證券研究所。12%%%%02

服務(wù)型機(jī)器人-短期方案

服務(wù)型機(jī)器人的短期方案:大語(yǔ)言模型(LLM)+感知算法+決策控制算法大語(yǔ)言模型的出現(xiàn)給服務(wù)型機(jī)器人帶來了巨大的技術(shù)供給。在大模型出現(xiàn)之前,服務(wù)型機(jī)器人的人機(jī)交互主要靠深度學(xué)習(xí)模型完成,但深度學(xué)習(xí)沒有文本生成能力,所以針對(duì)不同的問題只能給出固定答案,且由于泛化性較低只能解決常見問題。在大模型出現(xiàn)之后,機(jī)器人人機(jī)交互能力大幅度提高,只需在大模型下游搭配語(yǔ)音算法即可解決覆蓋絕大部分服務(wù)場(chǎng)景。機(jī)器人的大模型系統(tǒng)搭載于云端,全部語(yǔ)言交互由云端計(jì)算生成。在運(yùn)動(dòng)控制方面,由于服務(wù)型機(jī)器人不需要精準(zhǔn)動(dòng)作行為,所以決策控制算法相比勞動(dòng)型機(jī)器人較為簡(jiǎn)單。服務(wù)型機(jī)器人的大模型僅僅用于人機(jī)交互方面,無(wú)法對(duì)機(jī)器人的決策控制產(chǎn)生影響。交互能力:大模型+語(yǔ)音算法動(dòng)作控制:機(jī)器視覺+決策控制算法語(yǔ)音解析算法語(yǔ)音輸入傳感器圖像/位置輸入文本輸入LLM感知算法決策算法控制算法電機(jī)云端計(jì)算本地計(jì)算人類外界環(huán)境文本輸出語(yǔ)音合成算法語(yǔ)音輸出動(dòng)作輸出資料:長(zhǎng)江證券研究所。%%13%%%%%02

勞動(dòng)型機(jī)器人-短期方案

勞動(dòng)型機(jī)器人的短期方案:感知算法+復(fù)雜決策控制算法短時(shí)間內(nèi),由于多模態(tài)大模型發(fā)展尚不成熟,大模型僅能在人機(jī)交互方面為機(jī)器人賦能,在運(yùn)動(dòng)控制方面仍需技術(shù)迭代。所以在動(dòng)作控制方面,勞動(dòng)型機(jī)器人的動(dòng)作由感知算法配合復(fù)雜的決策控制算法共同完成。由于機(jī)器視覺技術(shù)仍存在短板,所以機(jī)器人往往還需要激光/IMU等傳感器配合其感知環(huán)境。常見的感知算法常見的規(guī)劃算法常見的控制算法資料:CSDN,長(zhǎng)江證券研究所。14%%%%02

人型機(jī)器人中期方案

人型機(jī)器人的中期方案:圖像-語(yǔ)言大模型(VLM)+控制算法VLM大模型將文本數(shù)據(jù)與圖像數(shù)據(jù)混合編碼喂入深度神經(jīng)網(wǎng)絡(luò)架構(gòu)訓(xùn)練,得到了具有圖像邏輯思維能力的多模態(tài)大模型。和傳統(tǒng)的感知決策控制算法相比,VLM可以參與人形機(jī)器人的決策,僅控制部分需要傳統(tǒng)算法參與。此方案在決策方面有較強(qiáng)的泛化能力,可以應(yīng)對(duì)從未見過的場(chǎng)景,并且具備邏輯推理能力。目前該技術(shù)方案的瓶頸在于圖像-語(yǔ)言多模態(tài)大模型尚未發(fā)展成熟,預(yù)計(jì)仍需要1-3年時(shí)間VLM才能在機(jī)器人場(chǎng)景獲得較高的滲透率。谷歌PaLM-E多模態(tài)大模型資料:《PaLM-E:

An

Embodied

Multimodal

Language

Model》Danny

Driess

etal.,長(zhǎng)江證券研究所。%%15%%%%%02

人型機(jī)器人遠(yuǎn)期方案

人型機(jī)器人的遠(yuǎn)期方案:圖像-語(yǔ)言-動(dòng)作多模態(tài)大模型(VLA)VLA模型是人形機(jī)器人觸及具身智能的關(guān)鍵因素。相比于圖像-語(yǔ)言模型,VLA把機(jī)器人動(dòng)作數(shù)據(jù)也作為一種模態(tài)融入大模型算法,因此可以用單個(gè)模型完成感知、決策、控制全流程計(jì)算。將動(dòng)作數(shù)據(jù)作為模態(tài)融入后,機(jī)器人動(dòng)作將成為思維鏈的一環(huán),因此決策與控制的銜接更流暢,更具邏輯性。目前VLA方案的瓶頸在于機(jī)器人動(dòng)作數(shù)據(jù)難以匹配其他兩種模態(tài)的數(shù)據(jù)規(guī)模,所以三種模態(tài)的同步數(shù)據(jù)較為稀少,需要VLM中期方案的長(zhǎng)期積累。VLA方案預(yù)計(jì)需要2-5年時(shí)間才能獲得較高滲透率。VLA模型需要將機(jī)器人動(dòng)作作為模態(tài)編入大模型資料:谷歌RT-2官網(wǎng),《RT-2:

Vision-Language-Action

ModelsTransfer

WebKnowledge

toRobotic

Control》,Brohan

et

al.,長(zhǎng)江證券研究所。16%%%%03巨頭的布局和行動(dòng)?%%17%%%%%03

短期:決策控制算法改良-ChatGPTforRobotics

微軟推出了ChatGPTforRobotics模式,可以大幅度提高算法開發(fā)效率在人類用自然語(yǔ)言指派任務(wù)后,ChatGPT可以迅速根據(jù)要求生成相應(yīng)的代碼,機(jī)器人會(huì)根據(jù)代碼完成對(duì)應(yīng)任務(wù)。以往面對(duì)新任務(wù)時(shí)需要人工開發(fā)算法,ChatGPTforRobotics模式可以大幅度降低新任務(wù)的算法開發(fā)難度。ChatGPTforRobotics模式缺點(diǎn):本質(zhì)上決策還是由人類來做,需要人實(shí)時(shí)監(jiān)督,所以距離具身智能仍有一段距離;決策過程需要人與ChatGPT的多輪互動(dòng),所以動(dòng)作延遲較大。ChatGPTforRobotics可以根據(jù)自然語(yǔ)言生成控制代碼資料:微軟官網(wǎng),長(zhǎng)江證券研究所。18%%%%03

中期VLM方案:PaLM-E

中期方案目前的典型產(chǎn)品為谷歌研發(fā)的PaLM-E大模型PaLM-E大模型有5620億參數(shù),可以通過簡(jiǎn)單指令自動(dòng)規(guī)劃計(jì)劃步驟,實(shí)現(xiàn)在兩個(gè)不同實(shí)體上的執(zhí)行規(guī)劃以及長(zhǎng)距離的任務(wù)。顛覆以往機(jī)器人只能實(shí)現(xiàn)固定路徑行為或者需要人工協(xié)助才能完成的長(zhǎng)跨度任務(wù)。PaLM-E具備較強(qiáng)的思維鏈能力和無(wú)樣本學(xué)習(xí)能力,可實(shí)現(xiàn)基于圖像內(nèi)容的邏輯推理。谷歌PaLM-E大模型具備較高泛化性和邏輯推理能力資料:《PaLM-E:

An

Embodied

Multimodal

Language

Model》Danny

Driess

etal.,長(zhǎng)江證券研究所。%%19%%%%03

遠(yuǎn)期VLA方案:谷歌RT-2大模型

遠(yuǎn)期方案的典型產(chǎn)品為谷歌推出的RT-2模型%RT-2是首個(gè)用視覺-語(yǔ)言-動(dòng)作(VLA)模態(tài)來控制機(jī)器人的大模型。RT-2模型控制的機(jī)器人具備符號(hào)理解(Symbol

understanding)、推理(Reasoning)和人類識(shí)別(Human

recognition)三大能力。RT-2將機(jī)器人運(yùn)動(dòng)數(shù)據(jù)作為一種模態(tài),混合編入PaLI-X多模態(tài)大模型和PaLM-E多模態(tài)大模型的語(yǔ)言-圖像大模型(VLM),并通過聯(lián)合調(diào)參的方式構(gòu)建出VLA模型。調(diào)參得到的RT-2大模型展現(xiàn)出了較強(qiáng)的性能,符號(hào)理解、推理和人類識(shí)別的能力相比于采用VLM的RT-1模型的性能提升了約2-3倍。此外RT-2還具備較強(qiáng)的思維鏈能力,可以完成多步驟邏輯推理;模型在輸入圖像數(shù)據(jù)后會(huì)首先輸出語(yǔ)言規(guī)劃結(jié)果,再把語(yǔ)言規(guī)劃結(jié)果分解成機(jī)械臂動(dòng)作完成。RT-2可以將復(fù)雜任務(wù)拆成簡(jiǎn)單多步驟完成RT-2具備較強(qiáng)的視覺符號(hào)理解、推理、人類識(shí)別能力資料:《RT-2:

Vision-Language-Action

Models

Transfer

WebKnowledge

toRobotic

Control》,Brohan

etal.,長(zhǎng)江證券研究所。20%%%%03

特斯拉人形機(jī)器人

特斯拉Optimus2022年9月特斯拉在AI

DAY上發(fā)布了人形機(jī)器人Optimus

原型機(jī)。2023年5月特斯拉股東會(huì)上視頻展示迭代后的Optimus,相比上一次亮相,迭代后的Optimus在電機(jī)扭矩和力度控制等方面更精確,并能探索和記憶環(huán)境,算法與人形機(jī)器人底層模塊的耦合性大為改善,并進(jìn)入了特斯拉工廠執(zhí)行簡(jiǎn)單的任務(wù)。在軟件系統(tǒng)方面,Optimus機(jī)器人繼承了特斯拉的FSD智能駕駛系統(tǒng),算力芯片復(fù)用了HW3.0。預(yù)計(jì)量產(chǎn)后的Optimus機(jī)器人單價(jià)有望低于20000美元。特斯拉OptimusOptimus部分硬件參數(shù)資料:特斯拉官網(wǎng),Verge,長(zhǎng)江證券研究所。%%21

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論