信息服務(wù)-AI Agent(智能體):從技術(shù)概念到場景落地_第1頁
信息服務(wù)-AI Agent(智能體):從技術(shù)概念到場景落地_第2頁
信息服務(wù)-AI Agent(智能體):從技術(shù)概念到場景落地_第3頁
信息服務(wù)-AI Agent(智能體):從技術(shù)概念到場景落地_第4頁
信息服務(wù)-AI Agent(智能體):從技術(shù)概念到場景落地_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

證券研究報告市場表現(xiàn)信息服務(wù)海通綜指3.07%-5.49%-14.05%-22.62%-31.18%-39.74%2023/72023/102024/12024/4相關(guān)研究l思維鏈鑄就智能體,多體交互拓展應(yīng)用:早在上世紀(jì)50年代,阿蘭圖靈把“高度智能有機體”擴展到了人工智能。如今隨著大模型的快速發(fā)展,這個概念又被重新拾起。大模型成為了智能體目前最完美的載體,有望完成從概念到實際應(yīng)用的蛻變。用戶在Agent(智能體)模式中給AI設(shè)臵目標(biāo)和身份,并提供Prompt(提示詞)。AI自主拆分任務(wù)、使用工具、完成工作,用戶僅負責(zé)設(shè)立目標(biāo)、提供工具資源和監(jiān)督結(jié)果。l賦能兩類實體領(lǐng)域,成本與效益的博弈:AIAgent目前的應(yīng)用大多都在概念層面,但隨著大模型競爭加快、政策鼓勵研發(fā)投入、更多企業(yè)參與AI研究等因素,應(yīng)用層面的AIAgent推進速度加快。智能體大致可以分為六類,根據(jù)他們被設(shè)計出的特點,可以作用在不同的應(yīng)用領(lǐng)域上。不同類別的智能體給予應(yīng)用層面上更多研發(fā)方向,像目前關(guān)注度較高的自動駕駛技術(shù)、智能電網(wǎng)控制、能源管理等都能被垂類智能體覆蓋。結(jié)合多模態(tài)大模型,自動化和情感需求類智能體已落地。但商業(yè)化智能體仍需考慮成本問題,由于智能體之間的交互過程可能出現(xiàn)錯誤循環(huán)且輸出結(jié)果不一定符合需求,tokens成本遠高于普通LLMs。l人工智能發(fā)展迅猛,智能體商業(yè)化落地:未來多方面推動人工智能發(fā)展,應(yīng)用級別智能體有望快速落地。國內(nèi)各地相繼出臺關(guān)于人工智能的發(fā)展政策,推動其為重要的研究方向。預(yù)計2026年國內(nèi)人工智能市場規(guī)模超過260億美元,全球人工智能市場規(guī)模2025年超6萬億美元。海外以美國為例,相關(guān)政策出臺時間較早,人工智能領(lǐng)域發(fā)展更加成熟,許多智能體應(yīng)用已在服務(wù)各類企業(yè)。并且美國有意與人工智能強國組成戰(zhàn)略伙伴,共同發(fā)展AI科技。智能體發(fā)展能推動政府、金融、制造、能源、醫(yī)療、零售等行業(yè)的智能化應(yīng)用向多模態(tài)和跨模態(tài)轉(zhuǎn)變。l投資建議:我們認為未來智能體(AIAgent)的前景十分廣闊,隨著大模型的發(fā)展,智能體將從概念走向?qū)嶋H應(yīng)用,成為各行業(yè)的重要助力。通過多模態(tài)大模型,智能體能夠整合圖片、語音等異構(gòu)數(shù)據(jù),提高任務(wù)處理效率,并解決跨行業(yè)、跨領(lǐng)域的問題。技術(shù)方面,智能體具備長期和短期記憶、自主規(guī)劃、工具使用和自動執(zhí)行任務(wù)的能力。這些能力不僅能提高工作效率,還能為用戶提供更好的體驗。單智能體通過試錯學(xué)習(xí)適用于簡單任務(wù),而多智能體則在復(fù)雜環(huán)境中通過合作或競爭調(diào)整最佳策略。當(dāng)前,智能體主要應(yīng)用在自動化和情感需求等領(lǐng)域,但商業(yè)化進程仍面臨成本挑戰(zhàn),特別是在智能體交互過程中出現(xiàn)的錯誤循環(huán)和高token消耗問題。另外,中國政府積極推動人工智能的發(fā)展,各地相繼出臺相關(guān)政策。預(yù)計到2026年,中國人工智能市場規(guī)模將超過260億美元,將在政府、金融、制造、能源、醫(yī)療、零售等多個領(lǐng)域?qū)崿F(xiàn)智能化應(yīng)用。結(jié)合國家政策支持以及各大企業(yè)的積極投入,智能體技術(shù)將不斷進步,特別是在算力快速增長的背景下,AIAgent的發(fā)展前景更加可期。多模態(tài)智能體的出現(xiàn),將進一步推動各行業(yè)智能化應(yīng)用的升級,智能體的商業(yè)化將迎來新的突破。l建議關(guān)注:AI算力、模型和應(yīng)用:寒武紀(jì)-U、海光信息、景嘉微、龍芯中科、浪潮信息、中科曙光、神州數(shù)碼、軟通動力、中國長城、科大訊飛、中控技術(shù)、??低暋⒋笕A股份、商湯-W、賽意信息、寶信軟件、萬興科技、虹軟科技、新致軟件、新國都l風(fēng)險提示:1.大模型發(fā)展不及預(yù)期;2.AI智能體發(fā)展不及預(yù)期;3.智能體下游需行業(yè)研究〃信息服務(wù)行業(yè)21.原理解析:思維鏈鑄就智能體,多體交互拓展應(yīng)用 61.1Agent模式架構(gòu)解析 61.2單智能體vs多智能體 71.3Prompt提示詞的藝術(shù) 82.應(yīng)用場景:賦能兩類實體領(lǐng)域,成本與效益的博弈 82.1自動化類:微軟智能體AutoGen 92.2情感需求類:陪伴型智能體 2.3效能討論:成本與價值間的博弈 3.未來展望:人工智能發(fā)展迅猛,智能體商業(yè)化落地 3.1海內(nèi)外政策推動人工智能發(fā)展加速 3.2算力規(guī)模高增,企業(yè)對AIGC的投入意愿強 3.3多模態(tài)智能體有望實現(xiàn)大規(guī)模商業(yè)化 3.4全球智能體市場增速加快 4.潛在標(biāo)的:Agent企業(yè)千帆競發(fā),垂類應(yīng)用引人期待 4.1LeewayHertz:提供多領(lǐng)域解決方案 4.2Markovate:提供多模態(tài)智能體解決方案 214.3Replika:情感類智能體熱度不減 224.4CharacterAI:自研大模型,打造智能體社區(qū) 234.5星火智能體:布局智能體平臺,發(fā)布垂類智能體 244.6SkyAgents:自研模型降低成本 254.7商湯:聯(lián)合清華、上海人工智能實驗室打造GITM 264.8字節(jié)跳動:豆包聊天助手 274.9騰訊:AppAgent 285.投資建議 316.風(fēng)險提示 32行業(yè)研究〃信息服務(wù)行業(yè)3 圖1人類與AI的交互模式 6圖2AIAgent智能體工作原理 7圖3單智能體強化學(xué)習(xí)原理圖 7圖4多智能體強化學(xué)習(xí)原理圖 7圖5CrewAI整體框架 8圖6AutoGen運作模式圖解 9圖7Agent交流模式展示 圖8AutoGen實驗數(shù)據(jù)對比 圖9林間聊愈室產(chǎn)品介紹 圖10OpenAI不同模型tokens消耗價目表 圖11單次運行Agent對Tokens的消耗 圖12單次運行Agent的實際成本 圖13中國人工智能市場規(guī)模預(yù)測 圖14全球人工智能市場規(guī)模預(yù)測 圖15美國增強型人工智能研發(fā)投資2015-2030 圖16美國及其AI盟友 圖17中國智能算力規(guī)模及預(yù)測 圖18企業(yè)AIAgent使用情況 圖19專注于橫向應(yīng)用的Al代理初創(chuàng)企業(yè)率先獲得融資 圖20多模態(tài)大模型發(fā)展 圖21全球自主人工智能和智能體市場規(guī)模 圖22中國前五大人工智能市場應(yīng)用 圖23LeewayHertz公司發(fā)展歷程與合作公司 圖24LeewayHertz的智能體產(chǎn)品架構(gòu) 20圖25LeewayHertz為私募股權(quán)提供的AIAgent解決方案 20圖26Character.ai智能體架構(gòu) 21圖27ShopSpot用戶界面展示 21圖28ShopSpot庫存管理系統(tǒng) 21圖29ShopSpot多模態(tài)智能體圖片識別功能展示 22圖30Replika付費模式 22行業(yè)研究〃信息服務(wù)行業(yè)4圖31截止2024年8月Replika各年齡段用戶占比 23圖32截止2024年8月Replika用戶全球分布 23圖33Character.AI用戶界面 23圖34Character.ai2024年7月每日訪問量 24圖35Character.AI各年齡段用戶占比 24圖36Character.AI用戶全球分布 24圖37科大訊飛星火智能體介紹 25圖38部分星火AI智能體展示 25圖39天工大模型能力展示 26圖40天工Agent計費模式 26圖41RL架構(gòu)對比GITM創(chuàng)新架構(gòu) 27圖42解鎖科技樹的成功率(藍色是GITM) 27圖43各模型完成任務(wù)成功率對比 27圖44豆包智能體的對話界面 28圖45騰訊AppAgent展示軟件操作 29圖46AppAgent的App探索學(xué)習(xí)階段 30圖47AppAgent的實際部署階段 31行業(yè)研究〃信息服務(wù)行業(yè)5表1AIAgent類型盤點以及具體應(yīng)用 9表2國內(nèi)政策推動人工智能發(fā)展 表3海外政策推動人工智能發(fā)展 行業(yè)研究〃信息服務(wù)行業(yè)6早在上世紀(jì)50年代,阿蘭圖靈把“高度智能有機體”擴展到了人工智能。如今隨著大模型的快速發(fā)展,這個概念又被重新拾起。大模型成為了智能體目前最完美的載體,有望完成從概念到實際應(yīng)用的蛻變。用戶在Agent(智能體)模式中給AI設(shè)臵目標(biāo)和身份,并提供Prompt(提示詞)。AI自主拆分任務(wù)、使用工具、完成工作,用戶僅負責(zé)設(shè)立目標(biāo)、提供工具資源和監(jiān)督結(jié)果。OpenAI定義的智能體具有長期和短期記憶、自主規(guī)劃、工具使用和自動執(zhí)行任務(wù)的能力,能提高工作效率和用戶體驗。另外,智能體也分為單智能體和多智能體。單智能體通過試錯學(xué)習(xí)在單一環(huán)境中行動,追求最大獎勵,多用于簡易任務(wù)。多智能體在博弈環(huán)境中行動,追求長期累積獎勵,多用于復(fù)雜測試。Agent有效減少人類工作總量,人與AI協(xié)作才是最終形態(tài)。人類與AI交互可大致分為三種模式。Embedding模式中大模型可以填補一些信息缺失,完成少量子任務(wù),例如總結(jié)信息等等。用戶最終會整合挑選AI提供的信息,并自主完成任務(wù)。Copilot模式則更加智能化,AI可根據(jù)用戶設(shè)定的流程去執(zhí)行任務(wù)。例如讓AI根據(jù)寫一段稿件或者根據(jù)需求編程,但其對Prompt的要求也更高。在AI完成流程后,用戶需要對內(nèi)容結(jié)果進行調(diào)整并自主結(jié)束工作。Agent智能體模式的AI參與度更高,但也不是完全由AI代理。用戶需要給AI設(shè)計一個目標(biāo)和身份,以及需要使用的工具。配上更為復(fù)雜的Prompt,AI能自主進行任務(wù)拆分,使用工具并結(jié)束任務(wù)。用戶只負責(zé)設(shè)立目標(biāo)、提供資源、監(jiān)督以LLM為核心,四模塊鑄造AIAgent。從OpenAI的定義來看,智能體以大語言模型為核心,其擁有長期和短期記憶、自主規(guī)劃能力、能自動化執(zhí)行復(fù)雜任務(wù)、能夠使用工具等四個特點。1)記憶模塊:智能體像人類一樣,能留存學(xué)到的知識以及交互習(xí)慣等,這樣的機制能讓智能體在處理重復(fù)工作時調(diào)用以前的經(jīng)驗,從而避免用戶進行大量重復(fù)交互。短期記憶適用于所有上下文的學(xué)習(xí),類似平常我們與ChatGPT溝通的模式;長期記憶則保留知識和交互回憶,例如智能體在特定行業(yè)積累的大量數(shù)據(jù)和經(jīng)驗,則能提供更專業(yè)、更具深度和個性化的回答,提升用戶體驗。2)規(guī)劃模塊:將復(fù)雜任務(wù)分解成子目標(biāo)并逐一解決,完成任務(wù)后進行反思總結(jié)。例如反思自己大量輸出重復(fù)內(nèi)容或在單一子目標(biāo)耗時過長等問題,將經(jīng)驗存入長期記憶以規(guī)避類似錯誤。3)工具模塊:智能體可利用工具來彌補自身短板,通過調(diào)用外部API來實現(xiàn)功能拓展。例如調(diào)用連接互聯(lián)網(wǎng)的API去搜索實時信息。4)行動模塊:智能體會形成完整的計劃流程。例如先讀取以前工作的經(jīng)驗和記憶,之后規(guī)劃子目標(biāo)并使用相應(yīng)工具去處理問題,最后輸出給用戶并完成反思。行業(yè)研究〃信息服務(wù)行業(yè)7單智能體與多智能體各具優(yōu)勢,適配于不同垂直領(lǐng)域。單智能體的強化學(xué)習(xí)原理是基于馬爾可夫決策來完成的,簡單來說可以分為狀態(tài)集S、行動集A、獎勵R,下一時刻的狀態(tài)和獎勵只與上一時刻的行動有關(guān),與更早之前的狀態(tài)無關(guān)。其模型原理就是讓智能體用試錯的方式來學(xué)習(xí),若某個策略能得到獎賞,則智能體產(chǎn)生該行為的策略就會加強。其目的就是在單一環(huán)境中行動,盡可能得到最大的獎勵。應(yīng)用領(lǐng)域目前也較為廣泛,例如賽車游戲中連續(xù)動作的訓(xùn)練:控制方向盤、油門、剎車等動作,可由DDPG、A3C、PPO算法來決策。一些離散動作的訓(xùn)練例如圍棋智能體AlphaGo,可通過Q-Learning等算法決策。多智能體的決策不僅與自身行動相關(guān),還與系統(tǒng)內(nèi)其他智能體的行動所關(guān)聯(lián)。一個多智能體系統(tǒng)中會有兩個以上的智能體,他們一般存在著合作或競爭關(guān)系。這樣模型稱為馬爾科夫博弈,其狀態(tài)轉(zhuǎn)換符合馬爾可夫決策,關(guān)系符合博弈。在多智能體模型中,每個智能體的目標(biāo)是找到最優(yōu)策略來使它在任意狀態(tài)下獲得最大的長期累積獎勵。由于其模型更為復(fù)雜,干擾因素較多等原因,目前多智能體模型商業(yè)化產(chǎn)品較少。CrewAI是世界領(lǐng)先的多智能體框架之一,在多智能體領(lǐng)域用于協(xié)調(diào)角色扮演型自主AI智能體。通過促進協(xié)作智能,CrewAI使智能體能夠無縫協(xié)作并處理復(fù)雜任務(wù)。在編寫程序時,用戶需要賦予每一位Agent角色、任務(wù)、以及背景故事。行業(yè)研究〃信息服務(wù)行業(yè)8Prompt是一種基于自然語言處理的交互方式,它通過機器對自然語言的解析,實現(xiàn)用戶與機器之間的溝通??梢岳斫鉃槭且欢谓o定的文本或語句,用于啟動和引導(dǎo)機器學(xué)習(xí)模型生成類型、主題或格式的輸出。在自然語言處理領(lǐng)域中,Prompt通常由一個問題或任務(wù)描述組成,例如“幫我寫一篇有關(guān)人工智能的文章”,“幫我編寫一段可以整理數(shù)據(jù)的程序”等等。一個優(yōu)秀的Prompt應(yīng)該包含1)明確目標(biāo):能夠定義任務(wù),以及想要達到的效果;2)具體指導(dǎo):給予模型明確的指導(dǎo)和約束,舉一些例子或明確回復(fù)邊界;3)簡潔明了:使用簡練、清晰的語言表達Prompt;4)迭代優(yōu)化:一次Prompt輸出可能達不到想要的結(jié)果,用戶需要根據(jù)智能體的回答來改變提示詞,持續(xù)調(diào)整優(yōu)化。AIAgent目前的應(yīng)用大多都在概念層面,但隨著大模型競爭加快、政策鼓勵研發(fā)投入、更多企業(yè)參與AI研究等因素,應(yīng)用層面的AIAgent推進速度加快。智能體大致可以分為六類,根據(jù)他們被設(shè)計出的特點,可以作用在不同的應(yīng)用領(lǐng)域上。不同類別的智能體給予應(yīng)用層面上更多研發(fā)方向,像目前關(guān)注度較高的自動駕駛技術(shù)、智能電網(wǎng)控制、能源管理等都能被垂類智能體覆蓋。結(jié)合多模態(tài)大模型,自動化和情感需求類智能體已落地。但商業(yè)化智能體仍需考慮成本問題,由于智能體之間的交互過程可能出現(xiàn)錯誤循環(huán)且輸出結(jié)果不一定符合需求,tokens成本遠高于普通LLMs。行業(yè)研究〃信息服務(wù)行業(yè)9權(quán)衡價格與成本?;谀繕?biāo)的Agent會評估和規(guī)劃行動,生集體行為。對于這種Agent程序來說,協(xié)作是關(guān)鍵。微軟研發(fā)的AutoGen是一種多智能體溝通的模型,這些智能體通過對話完成任務(wù)。實驗發(fā)現(xiàn)這種多智能體溝通模式可以有效提高AI解決問題的準(zhǔn)確性以及成果的完整性。使用AutoGen,開發(fā)者可以靈活定義智能體交互行為。微軟的研究證明了該框架在包括解決數(shù)學(xué)、編碼、問題解答、運籌學(xué)、在線決策、娛樂等問題上的有效性。AutoGen需要兩個以上的智能體形成交流模式,其中智能體可以由大語言模型LLMs、人類、工具來扮演。當(dāng)一個需求被提出,智能體會開始靈活交流,他可以是多個智能體向需求人匯報的模式(HierarchicalChat)或者是像研討會一樣隨意討論(JointChat)。在官方給出的示例中,智能體之間的溝通確實減少了人工交互,其有能力自己修復(fù)出現(xiàn)的問題并給出滿意的答案。資料來源:EnablingNext-GenLLM行業(yè)研究〃信息服務(wù)行業(yè)10在AutoGen智能體程序中,人類充當(dāng)需求發(fā)起者,智能體通過不斷使用工具并在相互交流中解決陸續(xù)出現(xiàn)的問題從而得到最終答案。在智能體交流過程中,人類可隨時介入其中,若用戶對最終結(jié)果不滿意,可以重新提出需求,智能體就會繼續(xù)優(yōu)化答案。資料來源:EnablingNext-GenLAutoGen在四項實戰(zhàn)應(yīng)用的表現(xiàn)測試中均勝過單一大語言模型,實驗發(fā)現(xiàn)智能體能增加AI完成任務(wù)的成功率以及模型的穩(wěn)定性。1)數(shù)學(xué)計算:分別測試了AI在完成整個數(shù)學(xué)題庫和隨機120道題目的表現(xiàn),AutoGen的成功率遠超各類語言模型。2)數(shù)據(jù)庫檢索問答:先建立一個RAG數(shù)據(jù)庫,然后對智能體進行問答測試,看其能否追蹤到正確的答案。其F1-score越高,說明模型更穩(wěn)定;Recall體現(xiàn)了分類模型對樣本的識別能力。Recall越高,說明模型對樣本的識別能力越強。從數(shù)據(jù)看出純AutoGen模型的表現(xiàn)略高于其他組合。3)ALFWorld(AdaptiveLearningFrameworkWorld)研究:ALFWorld是專門用于研究和開發(fā)智能體的仿真環(huán)境,在其虛擬世界中,包含了各種場景、任務(wù)和智能體需要完成的挑戰(zhàn)。ALFWorld實驗發(fā)現(xiàn)3個智能體的成功率高于2個智能體,說明隨著交互的智能體變多,智能體間互相糾錯的能力有所提升。但對于AutoGen的實驗也提到多智能體可能會導(dǎo)致錯誤循環(huán)(智能體之間反饋錯誤但一直無法解決這也是降低成功率的因素之一。4)OptiGuide:是專門設(shè)計來通過自然語言處理,解讀和指導(dǎo)復(fù)雜供應(yīng)鏈優(yōu)化決策。在用不同語言模型運行OptiGuide的時,發(fā)現(xiàn)多智能體協(xié)作模式的成績顯著高于單智能體。其中多GPT4智能體協(xié)作運行OptiGuide時,F(xiàn)1-score和Recall分別能達到96%和98%。行業(yè)研究〃信息服務(wù)行業(yè)11圖8AutoGen實驗數(shù)據(jù)對比資料來源:EnablingNext-GenLLMApplicationsvi智能體另一大應(yīng)用領(lǐng)域就是提供擬人情感陪伴類服務(wù)。陪伴類的智能體擁有長期記憶,讓用戶與其聊天中產(chǎn)生熟悉且親切的感覺。隨著大模型不斷迭代,陪伴類智能體更加立體,能提供更高的情緒價值。目前國內(nèi)情緒消費類市場潛力較大,在如今緊湊的生IndustryAnalysts)的研究,DennyYin提出該行業(yè)規(guī)模預(yù)計到2024年增長到1000億美元,到2026年增長到2000億美元。情感溝通類智能體上線,收獲大量用戶好評。在大模型出現(xiàn)之前,一些利用心理學(xué)CBT溝通技術(shù)的產(chǎn)品已經(jīng)在市面上廣泛存在,例如Weobot、wysa等。隨著大模型的發(fā)展和迭代,智能體已經(jīng)能被打造成心理咨詢師或塔羅師的角色。用戶通過傾訴生活中的煩惱,并在與智能體溝通中尋求情緒宣泄。目前一款治愈系的軟件“林間聊愈室”上線后獲得了大量好評,AppStore評分4.7,多數(shù)用戶給出了五星好評。其中產(chǎn)品使用小動物的角色設(shè)定降低了用戶的戒備心,加上治愈的畫風(fēng)和場景設(shè)計,打造獨特的用戶體行業(yè)研究〃信息服務(wù)行業(yè)12打造智能體并不是0成本,大語言模型的token消耗就是最直觀的成本展示。由于智能體的運行機制內(nèi)包含反思和深度學(xué)習(xí),這使得其在token消耗方面比傳統(tǒng)大語言模型高。相比于單智能體,多智能體又多了一層交互端的消耗,當(dāng)多個智能體討論且進入錯誤循環(huán)中,無效成本將會顯著提升。所以在效能方面,對智能體進行成本討論以及優(yōu)化策略十分重要。在商用智能體中,更先進的大語言模型代表更好的用戶體驗,但隨之而來的是極速上升的成本。目前GPT4的價格是GPT3.5turbo的十倍,而且由于智能體之間交互的特性,在輸出過程中往往伴隨著更高的token消耗。若最終輸出的長度超出模型token限制,則不得不調(diào)用更高版本的模型例如GPT4-32K,成本又是GPT4的兩倍。在實際測試中,使用搭載GPT4的智能體模型查找新聞并進行總結(jié)梳理。這部分的單次消耗是42000個tokens,成本是1.5美元。在實際應(yīng)用中,假設(shè)一天需要統(tǒng)計的股票新聞大約有120家公司,則成本為35.8美元,按照匯率1:7.14折合人民幣255.5元。而且智能體并不是完美的,在運行過程中出現(xiàn)幻覺或錯誤循環(huán)也是常事。例如智能體在找不到合適新聞的時候會進行大量重復(fù)的內(nèi)容輸出,人工介入糾錯又會增加一定成行業(yè)研究〃信息服務(wù)行業(yè)13商業(yè)化智能體在成本和最終產(chǎn)品中會有一定博弈,若將智能體運用到股票交易等對精準(zhǔn)度需求極高的行業(yè)中,產(chǎn)品或引入更多智能體進行協(xié)作以提高模型的穩(wěn)定性,則成本上升。如果運行成本高于其創(chuàng)造的價值時,該智能體模型就失去了商業(yè)化的能力。目前多數(shù)智能體應(yīng)用僅停留在測試階段,市場中的用戶需要更理性的看待智能體商業(yè)發(fā)中能帶來的效益。未來多方面推動人工智能發(fā)展,應(yīng)用級別智能體有望快速落地。國內(nèi)各地相繼出臺關(guān)于人工智能的發(fā)展政策,推動其為重要的研究方向。預(yù)計2026年國內(nèi)人工智能市場規(guī)模超過260億美元,全球人工智能市場規(guī)模2025年超6萬億美元。海外以美國為例,相關(guān)政策出臺時間較早,人工智能領(lǐng)域發(fā)展更加成熟,許多智能體應(yīng)用已在服務(wù)各類企業(yè)。并且美國有意與人工智能強國組成戰(zhàn)略伙伴,共同發(fā)展AI科技。多模態(tài)大模型利用異構(gòu)數(shù)據(jù)提升應(yīng)用效率,促進AIAgent發(fā)展。將智能體賦能于圖片+語音的多模態(tài)大模型中,可以減少使用工具和交互的過程,使智能體完成更多復(fù)雜任務(wù),解決跨行業(yè)、跨領(lǐng)域的問題。智能體發(fā)展能推動政府、金融、制造、能源、醫(yī)療、零售等行業(yè)的智能化應(yīng)用向多模態(tài)和跨模態(tài)轉(zhuǎn)變。多地陸續(xù)出臺關(guān)于人工智能發(fā)展的指導(dǎo)文件,2024年政府與企業(yè)的投入資金有望迎來大幅增長。國務(wù)院在《2024政府工作報告》中提出,要開展“人工智能+”行動,實施數(shù)字化轉(zhuǎn)型。智能體作為人工智能應(yīng)用領(lǐng)域的重要研究方向,相信眾多企業(yè)和研究部門會開展更多研究工作。另外,像上海、杭州、廣東、北京等省市也出臺了相關(guān)政策,其中杭州市推出“算力券”約2.5億用于支持本地的算力發(fā)展。廣東省也將算力作為重點發(fā)展方向,預(yù)測2025年的人工智能核心產(chǎn)業(yè)規(guī)模超過3000億元?!渡虾J型苿尤斯ぶ悄艽竽>哂袊H競爭力的大模型,鼓勵形成數(shù)據(jù)飛輪,加速模果的予以專項獎勵。實施大模型示范應(yīng)用推進計劃。重物醫(yī)藥、集成電路、智能化教育教學(xué)、科技金融、設(shè)計深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用,開展“人工智能+”行動,打造具有國際應(yīng)用,推進服務(wù)業(yè)數(shù)字化,建設(shè)智慧城市、數(shù)字鄉(xiāng)村行業(yè)研究〃信息服務(wù)行業(yè)141)支持算力技術(shù)攻關(guān)。鼓勵企業(yè)開展算力關(guān)鍵技術(shù)研發(fā)攻關(guān),市級科技研發(fā)計劃給予專項支持。鼓勵企業(yè)承擔(dān)國家、省重點杭州市人民《關(guān)于支持人工智能全產(chǎn)業(yè)鏈高質(zhì)量發(fā)展的補充意見》(征求意見稿)每年設(shè)立“算力券”總額提升至2.5億元,新增算力券支持企業(yè)廣東省人民《廣東省關(guān)于人工智能賦能億元。到2027年,全省人工智能產(chǎn)業(yè)底座進一步夯實,算力規(guī)模超過使用的智能終端產(chǎn)品,人工智能核心產(chǎn)業(yè)規(guī)模超過4400億元;聚資料來源:上海市經(jīng)濟和信息化委員會,國務(wù)院,杭州市人民政府,廣東省人民政府,中國政府網(wǎng),新中國人工智能市場份額穩(wěn)定增長,未來AI實體項目增多利好智能體發(fā)展。根據(jù)IDC預(yù)測,國內(nèi)人工智能市場規(guī)模預(yù)計在2026年達到264.4億美元,2021年到2026年期間的CAGR超20%。根據(jù)增長率計算,從2022年開始,每年市場規(guī)模會保持20%左右的穩(wěn)定增長態(tài)勢。根據(jù)澎湃新聞援引德勤統(tǒng)計,未來2025年世界人工智能市場規(guī)模將超過6萬億美元,2017年-2025年期間復(fù)合增長率將超30%。AI高速發(fā)展中或利好更多實體企業(yè),專門提供智能體產(chǎn)品服務(wù)的廠商規(guī)模也將快速擴張。美國相關(guān)政策落地較早,人工智能發(fā)展已成規(guī)模。在2021年3月,大模型還未進入公眾視野時,美國人工智能國家安全委員會已經(jīng)發(fā)布了對該領(lǐng)域未來發(fā)展的規(guī)劃。文件中寫到了美國堅定在人工智能領(lǐng)域的投入,且規(guī)定了研發(fā)投入資金的比重。另外,在2023年5月,美國白宮發(fā)布《國家人工智能研發(fā)戰(zhàn)略計劃》,對之前提出的8項重點戰(zhàn)略目標(biāo)進行了優(yōu)化和完善,同時強調(diào)了人工智能領(lǐng)域國際交流的重要性。另外,文件還行業(yè)研究〃信息服務(wù)行業(yè)15對比了2020年發(fā)布計劃中的各項指標(biāo)與實際指標(biāo)差距,并針對細分領(lǐng)域加強研發(fā)投入?!秶胰斯ぶ悄苎邪l(fā)戰(zhàn)略計》該計劃是對2016、2019年版《國劃》的實施情況。資料來源:清華大學(xué)人工智能國際治理研究院,美國增強型人工智能投資研發(fā)保持高增速,AI戰(zhàn)略聯(lián)盟強大。2024年美國在該方面的投入預(yù)計為15億美元,NSCAI希望在2025年把這一數(shù)字提高到80億美元,增幅高達433%。且在2025年之后,保持每年投入增長80億美元的趨勢。最高預(yù)計在2030年投入高達350億美元。美國強調(diào)了AI盟友的概念,與澳大利亞、加拿大、英國、日本等國家構(gòu)建人工智能戰(zhàn)略伙伴關(guān)系,未來將會吸引更多AI強國加入聯(lián)盟當(dāng)中。2021年中國的智能算力規(guī)模為155.2EFLOPS(每秒百億億次浮點運算)。據(jù)IDC預(yù)測,規(guī)模將在2026年達到ZFLOPS級別(每秒十萬億億次浮點計算)。預(yù)計在2021-2026年期間,智能算力增長的CAGR為52.3%。隨著算力規(guī)模的大幅增長,將會帶動AI技術(shù)快速發(fā)展。根據(jù)中國信通院的測算,每在算力中投入1元,將帶動3-4元的經(jīng)濟產(chǎn)出。在智能體發(fā)展中,更強的算力能支持更復(fù)雜的模型計算并且給予其更快的響應(yīng)速度。當(dāng)大模型能快速迭代,AIAgent將會有更強力的基座,相同運行模式下或能顯著提升F1-score和Recall水平。行業(yè)研究〃信息服務(wù)行業(yè)16根據(jù)IDC統(tǒng)計,2023年已有34%的企業(yè)在AI中的投入已見成效,AI能力正在穩(wěn)步發(fā)展。AIAgent目前多為企業(yè)自研,僅有少部分企業(yè)將Agent融入真正工作中,若AIAgent能在未來用低成本撬動高效益,則會引起越來越多的企業(yè)重視。定制化AIAgent或成為一片藍海市場,擁有成熟技術(shù)和一攬子解決方案的企業(yè)能占據(jù)大量市場份額。風(fēng)險投資青睞的智能體初創(chuàng)企業(yè)聚焦于橫向應(yīng)用領(lǐng)域,廣泛涉及銷售、客戶支持及企業(yè)級與常規(guī)生產(chǎn)力工作流程優(yōu)化。當(dāng)前市場上專注于垂直行業(yè)特定應(yīng)用的初創(chuàng)公司仍屬少數(shù),大部分代理技術(shù)開發(fā)的新興企業(yè)主要面向企業(yè)客戶,而非個人消費者。這些Agent初創(chuàng)公司希望用技術(shù)取代SDR、軟件工程師、合規(guī)分析專家、客戶服務(wù)專員等多個職位的職能。這一趨勢的影響力將極為廣泛且深遠,不僅限于日常工作中對公司員工的增加或取代,更會改變公司面向外界客戶的交互形象,或使企業(yè)的運營方式與客戶體驗發(fā)生改變。行業(yè)研究〃信息服務(wù)行業(yè)17多模態(tài)大模型能利用大量異構(gòu)的數(shù)據(jù)資源提升應(yīng)用的效率和能力上限,同時也利好AIAgent發(fā)展。多模態(tài)的概念或能提高智能體的工作效率,例如將其賦能于一個能形成圖片+語音的多模態(tài)大模型中,單個智能體能完成更多復(fù)雜的任務(wù),有效的減少智能體數(shù)量和任務(wù)中的交互次數(shù)。多模態(tài)智能體有望解決跨行業(yè)、跨領(lǐng)域的復(fù)雜問題和各類長目前,研究開發(fā)的核心領(lǐng)域已經(jīng)包括多模態(tài)信息識別與理解技術(shù)以及群體智能技術(shù),這些將有望加速人工智能從感知向認知的轉(zhuǎn)變。這些技術(shù)成果還能夠解決其他單項技術(shù)領(lǐng)域(如自然語言處理和計算機視覺)所面臨的瓶頸問題,例如視覺領(lǐng)域的盲區(qū)和遮擋問題。此外,自動駕駛的激光點云、時空感知與測繪信息等更多類型的模態(tài)數(shù)據(jù)也將被整合到大模型中。未來,政府、金融、制造、能源、醫(yī)療、零售等多個行業(yè)的智能化應(yīng)用將逐步轉(zhuǎn)向多模態(tài)和跨模態(tài)的形式。行業(yè)研究〃信息服務(wù)行業(yè)18根據(jù)marketsandmarkets的數(shù)據(jù)顯示,2019年全球自主智能體(AutonomousAgent)市場份額為3.45億美元,預(yù)計2024年將達到29.92億美元,期間CAGR為54%。機構(gòu)預(yù)測2023年全球自主人工智能和自主智能體的市場規(guī)模在2028年能達到285億美元,期間CAGR為43%。智能體的需求增長迅速,企業(yè)希望用到最先進的AI科技來實現(xiàn)快速創(chuàng)收,未來智能體軟件公司有很高發(fā)展?jié)摿?。圖21全球自主人工智能和智能體市場規(guī)模行業(yè)研究〃信息服務(wù)行業(yè)19各行業(yè)用戶正積極探索生成式AI的應(yīng)用場景,開發(fā)數(shù)字化產(chǎn)品和服務(wù),挖掘數(shù)據(jù)要素的潛在價值,并嘗試智能化商業(yè)模式。根據(jù)IDC的數(shù)據(jù),軟件和信息服務(wù)、銀行以及通訊行業(yè)在人工智能方面的投資最為突出,預(yù)計到2027年,這三大行業(yè)的投資占比分別為23.8%、9.7%和9.4%。IDC的調(diào)查顯示,近一半(43%)的受訪組織正在研究生成式AI的潛在應(yīng)用,其中2023年有55%的金融機構(gòu)和電信公司投資了生成式AI技術(shù)。這些技術(shù)正在幫助金融和電信行業(yè)提升反犯罪和監(jiān)控能力,提供個性化的投資建議,并減少人工成本。LeewayHertz公司在人工智能Agent開發(fā)方面取得了長足進步,以創(chuàng)建定制化人工智能解決方案的專長而聞名。目前已在醫(yī)療保健、金融和物流等多個領(lǐng)域成功實施了人工智能智能體應(yīng)用。他們致力于提供量身定制的人工智能解決方案,這使LeewayHertz站在了智能體應(yīng)用的最前沿。其中公司持續(xù)與各類行業(yè)的頭部企業(yè)達成協(xié)作,提供各類數(shù)字解決方案,商業(yè)模式較為成熟。圖23LeewayHertz公司發(fā)展歷程與合作公司行業(yè)研究〃信息服務(wù)行業(yè)20其公司的智能體業(yè)務(wù)旨在通過自動化任務(wù)和簡化流程來提高運營效率,從而擴大業(yè)務(wù)成果。公司使用AutoGenStudio、VertexAIAgent生成器和crewAI等一流工具,根據(jù)業(yè)務(wù)需求量身打造以任務(wù)為中心、高性能且可靠的AIAgent。利用LLM的高級功能和全面的技能庫,LeewayHertz的人工智能Agent在研究、分析、代碼生成、審查、審計、在線搜索和細分等各種任務(wù)中表現(xiàn)出色。資料來源:LeewayHertz公司官網(wǎng)AIAgent產(chǎn)品界面,海通證券研究所公司提供了一系列AIAgent產(chǎn)品解決方案,例如私募股權(quán)智能體。這些智能體是能夠分析和解釋復(fù)雜數(shù)據(jù)的智能助手,幫助私募股權(quán)公司:1)獲得洞見:AI智能體可以在大型數(shù)據(jù)集中發(fā)現(xiàn)隱藏的模式和趨勢,幫助私募股權(quán)公司識別有前途的投資機會或潛在風(fēng)險。2)做出更好的決策:AI智能體生成的洞見使得投資決策更加知情和數(shù)據(jù)驅(qū)動。3)提高效率:通過自動化重復(fù)性任務(wù),AI智能體讓人類分析師可以專注于更高價值的活動,如建立關(guān)系和戰(zhàn)略規(guī)劃。智能體通過戰(zhàn)略決策進行推理并行動,提升私募股權(quán)公司的投資成果和運營效率。公司為私募股權(quán)打造智能體的架構(gòu)分為三個層面。首先智能體捕獲和處理與私募股權(quán)相關(guān)的各種輸入,包括財務(wù)數(shù)據(jù)、市場趨勢、投資者情緒和監(jiān)管更新。它可以處理文本、數(shù)字和圖形格式的輸入,以便為戰(zhàn)略決策和行動提供信息。其次,認知功能(大腦)內(nèi)又包含了:a)角色定義:確定Agent在私募股權(quán)操作中的角色,使任務(wù)與投資策略和客戶目標(biāo)保持一致。b)記憶:存儲和檢索過去的投資決策、市場行為和客戶互動,促進自適應(yīng)學(xué)習(xí)和知情決策。c)知識:存儲私募股權(quán)操作中關(guān)鍵的領(lǐng)域特定信息,如財務(wù)分析、風(fēng)險評估模型和監(jiān)管框架。d)規(guī)劃:根據(jù)當(dāng)前市場狀況、投資組合目標(biāo)和監(jiān)管要求制定投資策略和運營計劃。最后執(zhí)行層面中,智能體使用預(yù)測分析、投資組合管理軟件和合規(guī)自動化工具來執(zhí)行計劃策略。這確保了投資策略的精確實施、投資組合表現(xiàn)的優(yōu)化以及私募股權(quán)操作中對監(jiān)管標(biāo)準(zhǔn)的遵守。行業(yè)研究〃信息服務(wù)行業(yè)21Markovate公司為企業(yè)開發(fā)人工智能Agent,以提高業(yè)務(wù)流程、決策和運營效率。這些智能體是先進的數(shù)字助理,可自動執(zhí)行任務(wù)、分析數(shù)據(jù)和提供見解,并與企業(yè)系統(tǒng)無縫集成。Markovate使用AutoGenStudio、VertexAI和GPT-4o等工具定制智能體,以滿足特定的業(yè)務(wù)需求。Markovate打造了一款由智能體集成驅(qū)動的虛擬助理零售庫存管理解決方案ShopSpot。結(jié)合AI智能體提供了徹底改變零售業(yè)的庫存管理的方案,通過整合先進的機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò),它可以提供精確的需求預(yù)測和庫存水平優(yōu)化,有效地應(yīng)對現(xiàn)代零售業(yè)的挑戰(zhàn)。在整個解決方案中包含了幾個重要模塊:1)聊天機器人和智能體:使用大量的客戶互動數(shù)據(jù)對這些智能體模型進行訓(xùn)練,確保智能體能夠提供準(zhǔn)確和有用的回復(fù),從而提高用戶參與度和效率,開發(fā)能夠理解和響應(yīng)各種庫存相關(guān)查詢的人工智能模型。2)動態(tài)數(shù)據(jù)可視化:結(jié)合了先進的圖形工具,設(shè)計了動態(tài)數(shù)據(jù)可視化功能,用戶能通過熱圖和散點圖等可視化工具來直觀地探索和理解復(fù)雜的庫存數(shù)據(jù)。3)聚類分析:設(shè)計聚類分析功能涉及創(chuàng)建算法,根據(jù)購買模式和行為的相似性對產(chǎn)品或客戶進行分組,為不同的細分市場量身定制庫存策略。多模態(tài)智能體通過結(jié)合圖像識別系統(tǒng),分析產(chǎn)品圖像、貨架狀況和倉庫環(huán)境,有助于快速評估庫存水平、識別損壞情況并有效地進行產(chǎn)品分類。行業(yè)研究〃信息服務(wù)行業(yè)22Replika是一款陪伴類智能體,她的創(chuàng)始人將自己與朋友大約8000條聊天記錄輸入谷歌的神經(jīng)網(wǎng)絡(luò),創(chuàng)建了一個AI智能體,讓用戶獲得更加擬人的交流體驗。創(chuàng)始人表示約有40%的用戶用這款智能體創(chuàng)造戀人角色。2017年3月Replika首次公測,吸引了10萬名用戶參與,同年9月正式面向大眾,在不到一年的時間里,積累了250截止到2023年1月,Replika的產(chǎn)品全球流水可以達到200萬美元/月,在安卓系統(tǒng)已累計1000萬次下載,用戶平均每天會與其中的智能體聊天70條左右,花費時間2-3小時。目前用戶滿意度為92%,有超過一半的人愿意為后續(xù)產(chǎn)品付費。其付費模式分為按月付款(19.99美元按年付款(69.96美元以及終身會員(299.99美元)。開通ReplikaPro之后可以解鎖更高版本的語言模型、無限的語音消息、圖片生成等。Replika吸引歐美中年男性居多。根據(jù)similarweb截止2024年8月份的統(tǒng)計,Replika男性用戶約占64.67%,女性用戶占35.33%。其中25-34歲的用戶群體居多,占比約28.49%。前五地區(qū)的用戶分別是美國、墨西哥、印度、英國、德國。行業(yè)研究〃信息服務(wù)行業(yè)23資料來源:similarweb受眾人口板塊,海通證券研究所資料來源:similarweb地理板塊,海通證券研究所Character.ai是一種神經(jīng)語言模型聊天智能體,其較大特點是自主研發(fā)的Beta語言模型。用戶可以創(chuàng)建智能體并根據(jù)參數(shù)塑造他們的個性,然后將創(chuàng)建好的智能體發(fā)布到社區(qū)中與其他用戶進行交互。另外,有些角色可以扮演助手模式,例如幫助你進行創(chuàng)意寫作或打造一個文字冒險游戲等。用戶不僅可以與單個智能體進行交流,還可以創(chuàng)建包含多智能體的群聊,這些智能體可以互相交談且用戶也能參與其中。2023年3月,Character.AI完成了一筆1.5億美元的融資,估值達到10億美元,由a16z領(lǐng)投。公司的創(chuàng)始人NoamShazeer曾是谷歌首席軟件工程師,也是Transformer論文的作者之一。公司將這筆融資用于拓展模型的計算能力并提高其回答精度和推理能力。圖33Character.AI用戶界面截止2024年7月,網(wǎng)站月平均訪問量為2.15億,且其訪問量仍保持增長態(tài)勢。據(jù)2024年7月30日的報道數(shù)據(jù),Character.AI在已擁有1700萬的月度活躍用戶。截止2024年4月全球用戶達到2.33億人。網(wǎng)站目前的變現(xiàn)方式主要通過升級訂閱服務(wù),每月收費9.9美元,功能包括不限制聊天次數(shù)、擁有更快的反饋速度。行業(yè)研究〃信息服務(wù)行業(yè)24網(wǎng)站吸引年輕男生和女生,活躍用戶粘性較大。網(wǎng)站受眾人口的男女比率約為51%和49%,其中18-24歲的用戶占比超過56%。前五地區(qū)的用戶分別是美國、印度尼西亞、墨西哥、菲律賓和印度。其中活躍用戶每天約進行240輪對話,平均時長在2個小時。目前網(wǎng)頁端的DAU/MAU比例為23%,APP端DAU/MAU比例為41%。公司通過自研模型減少成本,智能體研發(fā)技術(shù)先進。由于是自主研發(fā)的模型,其高效的LLM算法大大降低了成本,根據(jù)foresightnews援引海外獨角獸團隊測算,每個Query的推理成本是chatgpt的5%以下。早在2023年2月份,Character.AI就使用了八位整型做計算,比16或32位浮點數(shù)效率有4倍-2倍的提升,這也歸功于創(chuàng)始人NoamShazeer對AI技術(shù)的獨特理解。成本方面,根據(jù)foresightnews援引海外獨角獸團隊測算character每次交互的成本為0.000027美元,一個MAU的單月成本可以控制在不到0.1美元。星火智能體平臺目前由三大核心模塊組成,分別是智能體、任務(wù)鏈和知識庫。智能體模塊事先配備了預(yù)先設(shè)臵,能夠自主規(guī)劃并調(diào)用工具執(zhí)行任務(wù)。任務(wù)鏈?zhǔn)菫橹悄荏w提供執(zhí)行任務(wù)所需要的各類工具,能快速鏈接企業(yè)內(nèi)部的知識、IT系統(tǒng)和外部信源。知識庫模塊能讓用戶更快捷的查詢垂類知識,讓智能體更好的解決專業(yè)類知識,支撐其高效行業(yè)研究〃信息服務(wù)行業(yè)252024年6月,科大訊飛發(fā)布了星火大模型V4.0及相關(guān)落地應(yīng)用。在去年11月份,訊飛星火App的用戶已經(jīng)累計開發(fā)了3.7萬+的個性化AI助手,可以滿足職場、營銷、創(chuàng)作等多場景需求。目前App已經(jīng)累計在安卓市場下載1.31億次,在國內(nèi)通用大模型App中排名第一。另外,訊飛星火首批上線面向特定場景打造專屬助手。例如垂類智能體“訊飛曉醫(yī)”,其覆蓋了1600種常見疾病,2800種藥物以及6000種醫(yī)學(xué)檢驗,其滿足了用戶的一些醫(yī)療建議需求。風(fēng)險提示:大模型發(fā)展不及預(yù)期,智能體下游需求不足。天工SkyAgents是基于昆侖萬維天工大模型平臺打造的,其具有從感知到?jīng)Q策,從決策到執(zhí)行的自主學(xué)習(xí)和獨立思考能力。用戶能夠通過自然語言創(chuàng)建一個或多個智能體,并將不同任務(wù)模塊化。通過操作系統(tǒng)模塊,可以執(zhí)行包括問題預(yù)設(shè)、指定回復(fù)、知識庫創(chuàng)建與檢索、意圖識別、文本提取和http請求等任務(wù)。其中天工大模型的MoE架構(gòu)能讓AI獲得更快的響應(yīng)速度且面對復(fù)雜任務(wù)的處理能力更強。行業(yè)研究〃信息服務(wù)行業(yè)26SkyAgents智能體擁有成本優(yōu)勢,tokens價格低于OpenAI。天工大模型3.0版本0.01元/千tokens,2.0版本0.005元/千tokens,價格普遍比GPT4o更加劃算,但天工3.0價格略貴于GPT3.5turbo。若按照2000個inputtokens,輸出1000個outputtokens來計算,GPT4o花費0.175元(匯率按照1:7GPT3.5turbo花費0.028元,天工3.0模型花費0.030元,2.0模型花費0.015元。商湯、清華大學(xué)和上海人工智能實驗室等機構(gòu)的研究者們提出了一種名為GhostintheMinecraft(GITM)的通才AI智能體。GITM能夠在《我的世界》中表現(xiàn)優(yōu)異,顯著減少訓(xùn)練時間和資源。這一突破標(biāo)志著通用人工智能(AGI)研究的重大進展,AGI的目標(biāo)是開發(fā)能夠在開放世界環(huán)境中進行感知、理解和交互的智能體。GITM通過自主學(xué)習(xí),解鎖了《我的世界》主世界的262個物品,相較于之前智能體僅解鎖的78個物品大幅提升。此外,GITM在“獲取鉆石”任務(wù)上的成功率從OpenAI提出的VPT方法的20%提升至67.5%。GITM訓(xùn)練僅需一個CPU節(jié)點兩天完成,訓(xùn)練步數(shù)比之前方法減少了萬分之一,大大低于OpenAI和DeepMind提出的其他方法所需的GPU天數(shù)。此項研究為機器人和自動駕駛等產(chǎn)業(yè)帶來了巨大的潛力和突破。行業(yè)研究〃信息服務(wù)行業(yè)27傳統(tǒng)RL智能體在shangh將復(fù)雜任務(wù)映射到底層鍵盤鼠標(biāo)操作時面臨困難,而GITM采用大型語言模型(LLM)作為核心,打破了這一傳統(tǒng)架構(gòu)。GITM由LLMDecomposer、LLMPlanner和LLMInterface三部分組成,逐步將復(fù)雜任務(wù)分解為子任務(wù)、結(jié)構(gòu)化動作,直至最底層的鍵盤鼠標(biāo)操作。LLMDecomposer利用外部知識將復(fù)雜任務(wù)分解為簡單子任務(wù);LLMPlanner為每個子任務(wù)規(guī)劃結(jié)構(gòu)化動作,并根據(jù)反饋信息調(diào)整規(guī)劃,不斷總結(jié)成功經(jīng)驗;LLMInterface通過鍵盤鼠標(biāo)操作執(zhí)行結(jié)構(gòu)化動作,并在與環(huán)境交互中獲取觀察信息。GITM在《我的世界》主世界中實現(xiàn)了100%的任務(wù)覆蓋率,成功解鎖了完整的科技樹,而此前所有智能體總和只能覆蓋30%。在備受關(guān)注的“獲取鉆石”任務(wù)上,GITM的成功率達到67.5%,比目前最佳成績(OpenAIVPT)的20%提高了47.5%。GITM的訓(xùn)練效率也顯著提升,所需環(huán)境交互步數(shù)僅為已有方法的萬分之一,單個CPU節(jié)點訓(xùn)練2天即可完成,相比之前OpenAIVPT所需的6480個GPU天或DeepMindDreamerV3所需的17個GPU天,取得了巨大的進步。風(fēng)險提示;智能體商業(yè)化不成熟,智能體下游需求不足。在中國的AI聊天機器人競爭中,字節(jié)跳動已搶占先機。其最新推出的AI對話服務(wù)豆包在下載量和活躍用戶數(shù)上均超越了百度的文心一言。根據(jù)華爾街見聞援引互聯(lián)網(wǎng)分析公司SensorTower的數(shù)據(jù),自去年8月推出至今年4月,豆包在iOS系統(tǒng)上的下載量近900萬次,領(lǐng)先于文心一言的800萬次。在月活躍用戶數(shù)方面,豆包在iOS端也已超過400萬用戶,顯著高于文心一言。相比之下,OpenAI的ChatGPTApp在美國的月活躍用戶數(shù)量為670萬。根據(jù)2024年5月的數(shù)據(jù)顯示,豆包PC、iOS平臺月活躍用戶總數(shù)已達到2600萬。行業(yè)研究〃信息服務(wù)行業(yè)28相比市面上的收費大模型,豆包有價格優(yōu)勢。目前普通用戶可以免費使用豆包,其大模型的API定價也相對較低。按Tokens實際使用量計算費用的“后付費”模式下,豆包通用模型-pro和豆包通用模型-lite的32k及以下窗口版本,模型限流為10KRPM和800KTPM(以RPM和TPM其中之一達到上限為準(zhǔn))。相比之下,國內(nèi)其他主流模型的TPM限額多在100K到300K之間,RPM則在60到120區(qū)間,輕量級模型的RPM限額相對較高,但僅在300到500之間。字節(jié)跳動宣布企業(yè)市場定價為0.0008元/千Tokens(約1500多個漢字比行業(yè)標(biāo)準(zhǔn)便宜99.3%。風(fēng)險提示:智能體商業(yè)化不成熟,智能體下游需求不足。AppAgent通過模仿人類行為,完成與智能手機的交互。騰訊的AppAgent的智能Agent能力可以用于操作任何App,它在50個復(fù)雜手機任務(wù)上展示了強大的能力。根據(jù)ChiZhang等人的論文《AppAgent:MultimodalAgentsasSmartphoneUsersAppAgent》介紹,這項技術(shù)通過引入一種基于大型語言模型(LLMs)的多模態(tài)智能Agent(Agent)框架,使智能體能夠操作智能手機應(yīng)用程序。與傳統(tǒng)的智能助手如Siri不同,AppAgent并不依賴系統(tǒng)后端訪問,而是通過模擬人類的點擊和滑動操作,直接與手機應(yīng)用的圖形用戶界面(GUI)互動。這種獨特的方法不僅提高了安全性和隱私性,還確保了智能體能夠適應(yīng)應(yīng)用界面的變化和更新。行業(yè)研究〃信息服務(wù)行業(yè)29AppAgent的實驗環(huán)境基于命令行界面(CLI使Agent能夠與安卓系統(tǒng)上的智能手機應(yīng)用進行交互。Agent接收兩種關(guān)鍵輸入:實時屏幕截圖展示應(yīng)用界面,以及詳細描述交互元素的XML文件。為了提升Agent識別和交互這些元素的能力,每個元素都被賦予了一個唯一標(biāo)識符。標(biāo)識符要么來源于XML文件中的資源ID(如果提供要么通過結(jié)合元素的類名、大小和內(nèi)容來構(gòu)建。這些元素的標(biāo)識符以半透明數(shù)字形式覆蓋在屏幕截圖上,幫助Agent在不需指定精確位臵的情況下準(zhǔn)確互動,從而提高控制手機的精確度。動作空間模擬了人類與智能手機的常見交互方式,包括點擊和滑動。設(shè)計了四個基兩個系統(tǒng)級功能:返回(Back)和退出(Exit)。這些預(yù)定義動作旨在簡化Agent的交互流程,并減少對精確屏幕坐標(biāo)的依賴,解決了語言模型在準(zhǔn)確預(yù)測中可能遇到的挑戰(zhàn)。行業(yè)研究〃信息服務(wù)行業(yè)30AppAgent框架的核心是探索階段。Agent通過自主交互或觀察人類演示來學(xué)習(xí)應(yīng)用程序的功能和特性。在自主交互模式下,Agent被分配一個任務(wù)并開始與UI元素進行自主互動。Agent嘗試不同的動作,并觀察應(yīng)用界面的變化以理解其工作原理。Agent通過分析每個動作前后的屏幕截圖,了解UI元素的功能和特定動作的效果。所有這些信息都會被記錄成文檔,詳細記錄下不同元素所執(zhí)行動作的效果。如果某個UI元素被多次操作,Agent會根據(jù)之前的文檔和當(dāng)前的觀察來更新信息,以提高認知質(zhì)量。AppAgent專注重要操作,提高探索效率。如

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論