Pika 1.0再掀AI視頻熱潮多模態(tài)技術(shù)路徑仍有探索空間_第1頁
Pika 1.0再掀AI視頻熱潮多模態(tài)技術(shù)路徑仍有探索空間_第2頁
Pika 1.0再掀AI視頻熱潮多模態(tài)技術(shù)路徑仍有探索空間_第3頁
Pika 1.0再掀AI視頻熱潮多模態(tài)技術(shù)路徑仍有探索空間_第4頁
Pika 1.0再掀AI視頻熱潮多模態(tài)技術(shù)路徑仍有探索空間_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

目錄TOC\o"1-2"\h\z\u一、文視頻Pika1.0布,AI影熱潮起 4二、視模型術(shù)路未確定多模技術(shù)前景廣闊 5AI+視頻更新迭代迅速,術(shù)路線尚未收斂 5多模態(tài)能感知真實物理界,應(yīng)用前景更加廣闊 5投資建與投標(biāo)的 風(fēng)險提示 圖表目錄圖1:Pika支持視頻生成和頻實時編輯 4圖2:PikaLabs是G!lab電工業(yè)化實驗室的戰(zhàn)略合作伙伴 4圖3:近期AI視頻領(lǐng)域更新 5圖4:FSDv12采用端到端AI自動駕駛 6圖5:多模態(tài)大模型和端到端自動駕駛基本的應(yīng)用架構(gòu) 7圖6:波士頓動力機器狗接入ChatGPT能力后能與人類交互 7圖7:波士頓動力機器狗可以扮演不同性格的導(dǎo)游 7圖8:GPT-4V可以與環(huán)境進(jìn)行正確交互 8圖9:多模態(tài)技術(shù)在安防領(lǐng)域視覺問答場景應(yīng)用 9圖10:多模態(tài)技術(shù)在交通監(jiān)場景應(yīng)用 9表1:近期機器人大模型領(lǐng)域的知名算法 9一、文生視頻Pika1.0發(fā)布,AI影像熱潮再起11月29日,AI文生視頻軟件Pika1.0版本發(fā)布,熱度迅速席卷全網(wǎng)。Pika1.0Pika吸引到了無數(shù)的關(guān)注。Pika7月,Pika1.03D動畫、動漫、卡通和電影,還能夠支持對于視頻的實時編輯和修改。圖1:Pika支持視頻生成和視頻實時編輯數(shù)據(jù)來源:Pika,Pika42億美元。PikaChenlinMeng2022RunwayAIRunway和AdobePhotoshopPikaPika3輪,估值超2Pika50萬用戶。Pika是G!lab電影工業(yè)化實驗室的戰(zhàn)略合作伙伴。113》正式召開發(fā)布會,郭帆導(dǎo)演工作室總經(jīng)理在會上宣布正式升級G!lab電影工業(yè)化實驗室,打造專業(yè)“劇組”團(tuán)隊。在電3.0的新時代,PikaLabsG!labPikaAI圖2:PikaLabs是G!lab電影工業(yè)化實驗室的戰(zhàn)略合作伙伴數(shù)據(jù)來源:中華網(wǎng),二、視頻模型技術(shù)路線尚未確定,多模態(tài)技術(shù)應(yīng)用前景廣闊2.1AI+視頻更新迭代迅速,技術(shù)路線尚未收斂近期AI+視頻方向更新頻發(fā)11AI113日,Runway發(fā)布Gen-24K1120切物體動起來;1116日,MetaEmuVideo18PixelDance,在生成視頻的動態(tài)性上得到了顯著提升;1121日,StabilityAIStableVideoDiffusion3D合成。圖3:近期AI視頻領(lǐng)域更新數(shù)據(jù)來源:量子位,站長之家,搜狐網(wǎng),大語言模型技術(shù)路徑已收斂,而視頻生成模型仍處于探索期。從海外風(fēng)險投資者的角度看,目前語言模型層面能夠挖掘的機會已經(jīng)不多,在OpenAI的技術(shù)方向引領(lǐng)下,目前語言模型的技術(shù)路徑基本就是GPT——預(yù)訓(xùn)練Transformer這一條路,在市面上已經(jīng)有OpenAI、Anthropic、Inflection、Cohere等比較成熟的語言模型廠商的情況下,很難再去大量投入資金去探索別的語言模型技術(shù)路徑。而多模態(tài)技術(shù)方面,目前沒有一家公司處于絕對領(lǐng)先地位,技術(shù)路徑仍存在探索的可能。AI視頻的生成面臨流暢性、幀生成邏輯、協(xié)調(diào)性等等問題,模型需要生成每一幀發(fā)生的事情,而用戶的prompt都導(dǎo)致了目前AI視頻生成技術(shù)仍無法做到非常完美,技術(shù)路線也多種多樣,比如擴散模型、MaskedModel等,PikaDiffusionAI視頻生成的ChatGPT時刻有望到來AIGPT-2發(fā)展的時期,大家仍在探索模型的架構(gòu)。按照這樣的發(fā)展邏輯,AI視頻生成的ChatGPTAI的更快。未來的視頻生成模型將有望能以更加自由的方式生成任意長度的視頻。 2.2多模態(tài)感真實物世界用前景加廣闊 有關(guān)分析師的申明,見本報告最后部分。其他重要信息披露見分析師申明之后部分,或請與您的投資代表聯(lián)系。并請閱讀本證券研究報告最后一頁的免責(zé)申明。語言模型是對物理世界的抽象描述,多模態(tài)數(shù)據(jù)能夠更真實反映物理世界屬性。語言作為一種精煉的表述載體,可以對物理世界進(jìn)行抽象描述,例如文生圖和文生視頻中,用戶都可以用簡短的一句話或者幾句話來對想要生成的圖像或視頻進(jìn)行描述。但是從承載的信息量來講,語言所能承AI頻,因為用戶prompt音頻、振動等信息,則更加能反映出物理世界的真實屬性,是真正對于物理世界狀態(tài)的感知,與人類感知世界的方式更加接近。能感知真實物理世界的多模態(tài)模型應(yīng)用前景更加廣闊。我們認(rèn)為,未來的多模態(tài)模型將能夠真正實現(xiàn)對世界狀態(tài)的完整感知,也因此能具備更多的應(yīng)用場景。智能駕駛端到端訓(xùn)練有望成為智能駕駛的未來方向FSD目前已經(jīng)進(jìn)化到v12的端到端自動駕駛。以往的自動駕駛基本都是分成了導(dǎo)航、定位、感知、預(yù)測、規(guī)劃、控制等多FSDv12數(shù)據(jù)輸入到神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)直接輸出車輛的控制指令(如轉(zhuǎn)向、加速、制動等),更像是一個人類的大腦,99%的決策都是由神經(jīng)網(wǎng)絡(luò)給出的,不需要高精地圖、不需要激光雷達(dá),僅僅依靠車身的攝像頭視覺輸入,就能分析思考,輸出控制策略。馬斯克在直播試駕中表示,F(xiàn)SDv12AI實現(xiàn),v12C++2000v1130萬行。圖4:FSDv12采用端到端AI自動駕駛數(shù)據(jù)來源:Twitter,多模態(tài)技術(shù)是實現(xiàn)端到端自動駕駛的重要手段。端到端自動駕駛主要依靠車身周圍的攝像頭對外部世界進(jìn)行感知來作為算法的輸入,AI模型如何處理攝像頭提供的圖像、視頻、聲音等不同格式的數(shù)據(jù)就需要多模態(tài)技術(shù)的應(yīng)用。在端到端自動駕駛算法中加入多模態(tài)大模型能力還能提升算法的可解釋性、魯棒性和泛化能力,有效處理多種感知信息。通過多模態(tài)模型的處理,給出對于車身各個部件的控制參數(shù)并進(jìn)行控制,實現(xiàn)端到端的自動駕駛。圖5:多模態(tài)大模型和端到端自動駕駛基本的應(yīng)用架構(gòu)數(shù)據(jù)來源:Fan,etal《ADriver-I:AGeneralWorldModelforAutonomousDriving》,人形機器人/具身智能具身智能將會是多模態(tài)的下一重點突破場景,人形機器人對多模態(tài)模型要求更高。具身智能是指一種智能系統(tǒng)或機器能夠通過感知和交互與環(huán)境(物理世界)產(chǎn)生實時互動的能力,AI+機器人4月,AILevatasChatGPT和Spot機器狗,成功實現(xiàn)與人類的交互??梢哉f,ChatGPTChatGPT為代表的語言大模型能夠?qū)崿F(xiàn)近似人一樣的自然語言交互,多模態(tài)大模型則能讓人形機器人能夠通過“視覺”去與環(huán)境交互??梢哉f,大模型賦予了人形機器人一個通識大腦,從而能夠順暢地和外界對話,還可以增加任務(wù)理解、拆分和邏輯推理等“決策”能力。圖6:波士頓動力機器狗接入ChatGPT能力后能與人類交互 圖7:波士頓動力機器狗可以扮演不同性格的導(dǎo)游數(shù)據(jù)來源:cybernews, 數(shù)據(jù)來源:cybernews,以GPT-4為首的多模態(tài)大模型已經(jīng)具備成為通用性人形機器人核心大腦的初步條件。OpenAI10月正式上線GPT-4V(ision)GPT-4新增了語音與圖像功能。現(xiàn)在用戶可以直GPT-4VGPT-4VGPT-4V的詳細(xì)評測,GPT-4V有作為具身機器人的理解核心的潛力。在微軟的測試案例中,GPT-4V可以扮演一名家庭機器人,閱讀咖啡機的操作界面并給出正確的指令操作;或者通過房間圖片的GPT-4V規(guī)劃出去廚房冰箱取物品的路線,GPT-4VGPT-4VGPT-4GPT-4GPT-4具身智能。圖8:GPT-4V可以與環(huán)境進(jìn)行正確交互數(shù)據(jù)來源:微軟《TheDawnofLLMs》,基于大模型的具身智能體也成為學(xué)術(shù)界重點研究方向。具身智能被斯坦福大學(xué)計算機科學(xué)家李飛飛定義為AI領(lǐng)域的下一個“北極星問題”之一,在大模型流行起來之后,關(guān)于以大模型為基礎(chǔ)構(gòu)造的具身智能體的研究也逐漸變多。今年內(nèi),谷歌、微軟、英偉達(dá)、Meta等科技巨頭都紛紛加入了這條技術(shù)路線的探索中來,試圖找到一條適合于通用機器人的算法道路。能夠看到,多模態(tài)技術(shù)是機器人模型中非常核心的一個部分。表1:近期機器人大模型領(lǐng)域的知名算法公司時間算法主要特點微軟2023.03ChatGPTforRoboticsChatGPT給出了一套適合為機器人任務(wù)編寫提示方法的設(shè)計原則谷歌2023.03PaLM-E5620億參數(shù),全球最大具身多模態(tài)視覺語言模型,能夠接收多模態(tài)信息并輸出決策文本谷歌2023.07RT-2首個視覺-語言-動作多模態(tài)大模型,能夠端到端直接輸出機器人的控制,具有學(xué)習(xí)長期規(guī)劃和簡易技能的能力斯坦福2023.07VoxPoser從大模型LLM和視覺-語言模型中提取可行性和約束構(gòu)建3D仿真環(huán)境中的值地圖,用于零樣本地合成機器人操縱任務(wù)的軌跡,從而實現(xiàn)在真實世界中的零樣本機器人操縱Meta2023.08RoboAgent用7500個操作軌跡的小數(shù)據(jù)集訓(xùn)練實現(xiàn)了機器人通用技能,提升數(shù)據(jù)效率谷歌2023.10RT-XOpenEmbodimentRT-X性能表現(xiàn)大幅提升英偉達(dá)2023.10Eureka能夠自動訓(xùn)練機器人執(zhí)行新任務(wù),結(jié)合生成式AI來實現(xiàn)了人類水平的獎勵算法設(shè)計數(shù)據(jù)來源:Arxiv,智能安防安防領(lǐng)域豐富的感知設(shè)備和數(shù)據(jù)維度是AI大模型等前沿技術(shù)落地的優(yōu)質(zhì)場景斷更新與發(fā)展,其能夠感知到的數(shù)據(jù)維度也日漸豐富,諸如圖像、視頻、聲音、振動、溫度、濕20236全產(chǎn)品博覽會上,諸多安防公司也展示了多模態(tài)大模型和安防場景的結(jié)合產(chǎn)品,能夠支撐視覺問答、交通監(jiān)測等場景。圖9:多模態(tài)技術(shù)在安防領(lǐng)域視覺問答場景應(yīng)用 圖10:多模態(tài)技術(shù)在交通監(jiān)場景應(yīng)用 數(shù)據(jù)來源:澎湃, 數(shù)據(jù)來源:澎湃,多模態(tài)是生成式AI下一步重點方向,百花齊放的應(yīng)用場景有望探索AI能力,才能真正打通物理世界和數(shù)字世界的障壁,用最基礎(chǔ)的感知世界能力直接生成操作,實現(xiàn)與物理世界最自然的交互。因此,基于多模態(tài)的應(yīng)用場景仍需不斷探索,AI視頻生成僅僅是多模態(tài)技術(shù)路徑中的一個小方向,多模態(tài)領(lǐng)域的ChatGPT時刻還未到來。投資建議與投資標(biāo)的我們認(rèn)為,在多模態(tài)模型應(yīng)用場景上具備良好布局和卡位的公司值得關(guān)注。建議關(guān)注??低?002415,買入)(電子組覆蓋)、大華股份(002236,買入)(電子組覆蓋)、螢石網(wǎng)絡(luò)(688475,未評級)(電子組覆蓋)、中科創(chuàng)達(dá)(300496,買入)、虹軟科技(688088,未評級)、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論