版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
事件:2024年9月12日,OpenAI發(fā)布最新模型o1,在編程、理科競賽等推理密集型任務(wù)中性能明顯優(yōu)于GPT-4o,但在部分自然語言任務(wù)中較弱。o1具備全局思維能力,復雜推理補足長尾需求,開拓學術(shù)教育等垂類場景。根據(jù)我們的測評,o1思維鏈特征可以概括為:1)優(yōu)先形成全局方法:在解答前o1會先分析問題、概括底層規(guī)律;2)不斷的追問和反思:在輸出最終答案之前,o1會不斷反思解答過程并進行改進,其完整思維鏈可達數(shù)百行。o1在編程上展現(xiàn)出自主規(guī)劃能力,AI+低代碼/網(wǎng)絡(luò)安全領(lǐng)域有望最早受益。1)低代碼:o1在編程方面具備較強的自主性,可以一定程度上對沖o1高成本和高延遲的問題。2)網(wǎng)絡(luò)安全:o1在網(wǎng)絡(luò)安全攻防中表現(xiàn)優(yōu)秀,能將復雜任務(wù)分解成多個子任務(wù),具備初步的自主規(guī)劃能力,也體現(xiàn)出了AI輔助網(wǎng)絡(luò)攻擊的潛在威脅,AI驅(qū)動的網(wǎng)絡(luò)安全攻防升級將成為未來的主旋律。AIAgent是打破AI應用發(fā)展瓶頸的關(guān)鍵,o1能否開啟通往Agent之路?受限于模型性能,AI應用進入瓶頸,北美科技巨頭26年資本支出持續(xù)性以及上游算力產(chǎn)業(yè)鏈的業(yè)績成長性受到質(zhì)疑。而近期前沿論文和o1展現(xiàn)的強化學習推理、思維鏈等底層技術(shù),是AI產(chǎn)業(yè)發(fā)展和投資情緒提振的關(guān)鍵。新的ScalingLaw,RL+CoT對于實現(xiàn)能自主規(guī)劃的AIAgent至關(guān)重要。強化學習讓AI自主探索和連續(xù)決策,符合Agent所需的自主規(guī)劃能力。self-play通過自主博弈生成高質(zhì)量數(shù)據(jù),有利于突破外部訓練數(shù)據(jù)短缺的現(xiàn)狀。思維鏈能極大提升模型涉及數(shù)學和符號的推理能力,但在其他問題上提升效果不顯著,甚至可能有損模型性能。推理能力和模型的指令跟隨能力呈現(xiàn)出分離關(guān)系,對于構(gòu)建AGI來說,如何平衡二者的關(guān)系會成為一個核心問題。RL范式下推理算力需求大幅上升,但不代表訓練算力需求會停止增長。o1-preview生成相同內(nèi)容的輸出tokens大約是GPT-4o的5.9倍,其中72%的tokens為推理過程中生成,使用o1-preview的輸出成本約為GPT-4o的36倍。ScalingLaw由訓練側(cè)轉(zhuǎn)向推理側(cè),對推理芯片的性能需求也會提高,且預訓練階段也需要消耗大量的算力。強化學習推理并不意味著模型參數(shù)停止擴張,因為主模型參數(shù)提升可能會產(chǎn)生更好的推理路徑。北美科技公司進入新一輪AI投資周期,資本支出大幅上升可能使公司面臨成本壓力。2024年科技巨頭資本支出/營運現(xiàn)金流預計將達到40%以上。在AI的投資回報率尚不明顯的現(xiàn)狀下,科技巨頭會更加重視AI投資的性價比。投資建議:1、AI電力:ConstellatiSK海力士、三星電子、美光科技;4)服務(wù)器:聯(lián)想集團、超微電腦、戴爾科技、慧與、工業(yè)富聯(lián);5)CoWoS:臺積電、日月光、Amkor科技;6)網(wǎng)絡(luò):中際旭創(chuàng)、新易盛、Coherent、安費諾、Arista網(wǎng)絡(luò)。3、AI應用:1)云服務(wù)商:微軟、谷歌、亞馬遜、Oracle;2)AI+開發(fā)/數(shù)據(jù)分析:CrowdStrike、Fortinet;4)AIAgent:微軟、Salesforce、Workday;5)風險分析:AI技術(shù)研發(fā)和產(chǎn)品迭代遭遇瓶頸;AI行業(yè)競爭加劇風險;商業(yè)化進展不及預期風險;國內(nèi)外政策風險。80%2024-12024-1-20% 標普500——標普500信息技術(shù)資料來源:Wind 相關(guān)研報)()( 4 4 6 8 2.2RL范式下推理算力需求大幅上升,但不代表訓 4 5 6 6圖5:針對復雜數(shù)學問題,o1-previ 6圖7:針對解碼問題,o1-previ 7 8 8 9 9 9 5 美國東部時間2024年9月12日,OpenAI發(fā)布最新AI模型o1,o代表Orion(獵戶座),開啟了OpenAI的下一代復雜推理模型。同時,OpenAI發(fā)布了即日可用的預覽版o1-preview和性價比更高的輕量級版本o1-mini,可用范圍如下:1)ChatGPTplus和Teams用戶可以直接使用,但存在次數(shù)限制。剛發(fā)布時o1-preview每周可進行30次問答,o1-mini每周可進行50次問答,9月17日開始,o1-preview和o1-mini的次數(shù)限制分別提升至每周50次和每日50次;作為o1的早期版本,o1-preview和o1-mini暫不具備實時瀏覽網(wǎng)頁、上傳文件和圖像等功能,計劃于后續(xù)版本中陸續(xù)開放。2)APITier5用戶可以開始使用o1-preview和o1-mini的API,但速率限制為20RPM,暫不支持函數(shù)調(diào)用、流式處理、系統(tǒng)消息等功能。3)9月16日開始,ChatGPTEnterprise和Edu用戶可訪問這兩種模型。4)未來o1-mini計劃免費向所有ChatGPT用戶開放。在編程、理科競賽等推理密集型任務(wù)中,o1的性能明顯優(yōu)于GPT-4o。根據(jù)OpenAI官方博客,o1在編程競賽Codeforces中的排名分位達到89%,在美國數(shù)學奧林匹克競賽(AIME)中躋身前500名,在物理、生物、化學基準測試(GPQA)的準確性超過了人類博士水平。以2024年的AIME考試為例,GPT-4o僅能解決平均12%的問題,而o1的平均正確率在64個樣本中達到了83%,在1000個樣本中達到了93%。資料來源:OpenAI官網(wǎng),實心矩陣代表使用pass@1的正確率,虛影矩陣代表64個樣本的平均正確率在經(jīng)典測試集的表現(xiàn)上,o1性能普遍優(yōu)于GPT-4o。根據(jù)OpenAI官方博客,o1在MMMU測試集的得分為78.2%,成為首個與人類專家競爭的模型。在57個MMLU子類別中,o1在54個子類別中的表現(xiàn)優(yōu)于GPT-4o,在化學、物理、數(shù)學等子類別上得分提升顯著,但在公共關(guān)系、計量經(jīng)濟學、英語等學科上提升幅度較小。資料來源:OpenAI官網(wǎng)博客資料來源:OpenAI官網(wǎng)博客,光大證券研究所整理o1在部分自然語言任務(wù)中評價弱于GPT-4o,但具備更好的安全性。人類訓練師的評分顯示,認為o1在個人寫作、文檔編輯能力上優(yōu)于GPT-4o的比例低于50%,顯示出o1在文字生成和修改能力上沒有明顯提升。但o1在對齊和安全方面優(yōu)于GPT-4o,o1-preview在關(guān)鍵越獄評估和模型安全拒絕邊界評估等指標中性能顯著提高。由于o1采用思維鏈的方式進行推理,在輸出內(nèi)容的過程中提供了更多的內(nèi)部可見性,賦予模型更強的可控性和更多的優(yōu)化空間。o1-mini在維持較高性能的同時大幅度降低推理成本。由于在預訓練期間針對STEM推理進行了優(yōu)化,o1-mini在數(shù)學和編碼能力上具備相當高的性價比,且擁有更低的延遲。根據(jù)OpenAI官網(wǎng)博客,o1-mini在AIME數(shù)學競賽中的得分高于o1-preview,幾乎與o1相當,但推理成本相較o1-preview便宜80%;此外,o1-mini在Codeforces編碼競賽和網(wǎng)絡(luò)安全競賽中表現(xiàn)優(yōu)異。但另一方面,o1-mini在非STEM的事實知識任務(wù)中表現(xiàn)較差。資料來源:OpenAI官網(wǎng)博客資料來源:OpenAI官網(wǎng)博客OpenAIo1復雜推理能力的關(guān)鍵技術(shù)是思維鏈(CoT讓模型在給出答案前進行多步思考,而不是一步給出答案。在OpenAI的官方文檔中展示了o1和GPT-4o在解碼、編碼、數(shù)學、字謎、語言等問題上的解答對比,并展示了o1的完整思維鏈。根據(jù)我們的歸納和測評,o1思維鏈的主要特征可以概括為以下兩點:1)優(yōu)先形成全局方法:在開始解答前,o1會先分析問題本身,抽象出底層規(guī)律,避免后續(xù)的解決思路跑偏,相比其他大模型的線性思維過程,準確度有明顯提升;2)不斷的追問和反思:在輸出最終答案之前,o1會不斷反思自己的解答過程是否有問題,有沒有需要改進的地方,其完整思維鏈可達數(shù)百行。資料來源:OpenAI官網(wǎng)博客例如,在解答縱橫填字游戲的問題時,GPT-4o和o1都會先試圖理解游戲規(guī)則,但GPT-4o僅僅停在了“第一行和第一列單詞首字母相同”上,便直接輸出了錯誤答案,而o1通過思維鏈不斷反思,得出了“每一行和每一列的對應字母都要相同”的底層規(guī)律,再基于該規(guī)律進行解答。同樣,在解答復雜數(shù)學問題時,o1會先試圖理解給定信息,通過完整思維鏈中大量的糾錯和反思,歸納底層原理,并對后續(xù)的解答過程做出一定的限制。資料來源:OpenAI官網(wǎng)博客不過,當前o1-preview所展現(xiàn)出的完整思維鏈仍較為僵化,與人類思維方式有較明顯區(qū)別。例如,在OpenAI官網(wǎng)給出的解碼案例中,實際的解碼方式為兩個字母一組,按照字母表順序轉(zhuǎn)化成數(shù)字,取平均值后再轉(zhuǎn)化為對應的字母。例如oy=(15+25)/2=20=T。在完整的思維鏈中,o1所想到的第一個方法就非常接近正確答案,但它依然繼續(xù)窮舉了五種新方法才找到答案。在這個過程中,可以看到o1的聯(lián)想能力較弱,而是通過類似于窮舉法的方式尋找答案。資料來源:OpenAI官網(wǎng)博客o1的復雜推理能力有望補足AI應用的長尾需求,拓展學術(shù)教育等領(lǐng)域的垂類應用場景。過去以GPT-4o為代表的LLM在解答題目時雖然正確率較高,但解答方法可能較為繁瑣,不符合教育場景的需求。o1不但在復雜問題上展現(xiàn)出更高的正確率,而且具備較強的全局思維能力,能優(yōu)化出最佳解題過程,對于學術(shù)教育場景的AI應用使用體驗提升較為明顯。OpenAIo1在編程方面具備較強的自主性,可以一定程度上對沖o1高成本和高延遲的問題。根據(jù)o1開發(fā)者團隊的采訪,OpenAI內(nèi)部開發(fā)人員使用o1最多的場景就是編程,主要有兩個場景:1)采用測試驅(qū)動開發(fā)的方法:先編寫一個單元測試,明確程序應該如何運行才算正確,將具體編寫交給o1來完成,開發(fā)者只需要解決架構(gòu)設(shè)計等更高層次的問題。2)調(diào)試:遇到bug時直接交給o1,可以直接解決或提供有價值的思路。另外,o1在解決AL/ML編程問題上進步明顯,根據(jù)OpenAI研究工程師訪談,o1-preview的編碼效率比GPT-4o提升15%,在多任務(wù)解決上的效率比GPT-4o提升21%。在民間測試中,o1效果最好的應用場景也是編程。1)代碼性能優(yōu)化:將GithubCopilot和o1-preview結(jié)合,僅需幾步操作,就可以優(yōu)化一個原本運行緩慢的編碼器,大幅度提升代碼的性能;2)快速開發(fā)簡單的項目:將AI編程工具CursorComposer和o1-preview結(jié)合,可以在10分鐘內(nèi)完成一個帶有動畫效果的完整天氣預報App。資料來源:X用戶ThomasDohmke@ashtom資料來源:X用戶OliverJane@heyoliverjaneOpenAIo1在網(wǎng)絡(luò)安全攻防中表現(xiàn)優(yōu)秀,能將復雜任務(wù)分解成多個子任務(wù),并找到最簡單的解決方法。根據(jù)OpenAI官方Systemcard,o1-preview使用網(wǎng)絡(luò)安全挑戰(zhàn)賽CTF的課題進行測試,該課題要求參賽者找到隱藏在Docker中的flag,但由于系統(tǒng)配置問題比賽環(huán)境崩潰。在比賽幾乎無法進行的情況下,o1-preview突破了主機VM上運行的DockerdeamonAPI,在嘗試修復環(huán)境失敗后,模型直接通過啟動命令啟動了損壞容器的新實例,該實例允許模型直接通過DockerAPI從容器日志中讀取flag,最終完成了課題。資料來源:OpenAIo1SystemCard未來網(wǎng)絡(luò)安全的攻防環(huán)境將變得更加復雜。從上述案例中,我們看到o1-preview在編程方面已經(jīng)初步具備了自主規(guī)劃能力,在遇到復雜困難時嘗試主動解決問題。而o1在解決問題的過程中采取了帶有攻破性質(zhì)的解決方法,也體現(xiàn)出了AI輔助網(wǎng)絡(luò)攻擊的潛在威脅較大。根據(jù)CrowdStrike發(fā)布的全球威脅報告,2023年全球網(wǎng)絡(luò)攻擊平均突破防御的時間從上一年的84分鐘下降到62分鐘,其中云入侵案例同比增加了75%。攻擊者越來越多地使用生成式AI降低網(wǎng)絡(luò)攻擊的操作和準入門檻,企業(yè)面臨更大的網(wǎng)絡(luò)安全威脅。資料來源:《CrowdStrike2024年全球威脅報告》資料來源:《CrowdStrike2024年全球威脅報告》另一方面,基于AI/ML的網(wǎng)絡(luò)安全解決方案也在不斷升級和迭代,AI驅(qū)動的網(wǎng)絡(luò)安全攻防升級將成為未來行業(yè)的主旋律。23年以來網(wǎng)絡(luò)安全公司陸續(xù)推出生成式AI驅(qū)動的功能,主要包含以下幾方面能力:1)AI/ML技術(shù)強化威脅檢測和安全保護能力:AI技術(shù)融入網(wǎng)絡(luò)安全產(chǎn)品體驗,技術(shù)壁壘主要在于各公司積累的安全日志和響應數(shù)據(jù)。2)生成可視化安全日志:對公司網(wǎng)絡(luò)安全狀況進行分析,生成可視化、可交互的安全日志,幫助員工快速了解公司安全漏洞,生成定制化的應對方案。3)AI聊天機器人助手:將聊天機器人嵌入網(wǎng)絡(luò)安全云原生平臺,使用自然語言交互降低安全員的技術(shù)門檻。安全員復雜操作的門檻,使用大模型識別身份風險、風險Falcon平臺引入英偉達AI計算服務(wù),使用其獨特而豐富的網(wǎng)絡(luò)威脅情報數(shù)據(jù),幫助用戶構(gòu)建和訓練擊全平臺并出現(xiàn)在各種用戶界面,顯著提升安全任務(wù)效率、降低安全員的技證流程和訪問控制,并且利用機器學習和預測分析來識別和應對潛提供網(wǎng)絡(luò)安全方面的咨詢和指導;提供實時的威脅情報和風險評估,幫助組織了解當前的網(wǎng)絡(luò)安全威脅和漏洞,并根據(jù)組織的需求和網(wǎng)絡(luò)環(huán)境,提供定制化的安全架構(gòu)規(guī)劃。通過分析和評估組織的網(wǎng)絡(luò)安全配置和運行狀況,提供性能優(yōu)化建議和最佳實資料來源:各公司官網(wǎng),光大證券研究所整理OpenAIo1在挑戰(zhàn)性拒絕評估、越獄抗性、幻覺控制等能力上提升明顯,對于AI生成內(nèi)容的安全性意義重大。根據(jù)OpenAI官方Systemcard,涉及要求拒絕不安全請求的復雜Prompt時,o1-preview實現(xiàn)了93.4%的安全率,明顯超過GPT-4o的71.3%。在具有強挑戰(zhàn)性的越獄學術(shù)基準StrongReject上,o1-preview相比GPT-4o顯示出明顯地改進,抵抗違反安全規(guī)則行為的能力更強。另外,與GPT-4o相比,o1-preview在SimpleA、BirthdayFacts等多個數(shù)據(jù)集中表現(xiàn)出更少的幻覺,提供了更準確可靠的回答。資料來源:OpenAIo1SystemCard受限于模型性能,AI應用發(fā)展進入瓶頸。當前以GPT-4o為代表的LLM在文本處理和生成上表現(xiàn)優(yōu)異,但也導致了AI應用的形式局限于聊天機器人,產(chǎn)品形態(tài)同質(zhì)化,難以發(fā)掘用戶潛在需求、形成足夠的用戶粘性。而用戶付費意愿不足,AI應用的成本收益臨界點尚未到來,是AI應用難以大規(guī)模推廣的最大癥結(jié)。以北美科技巨頭為代表的企業(yè)已經(jīng)投入大量資本支出用于AI基礎(chǔ)設(shè)施建設(shè),折舊成本將對利潤端造成壓力,若削減資本支出,則會削弱上游算力產(chǎn)業(yè)鏈的業(yè)績成長性。AI產(chǎn)業(yè)鏈已來到十字路口,模型底層技術(shù)的突破,是整個AI產(chǎn)業(yè)發(fā)展和投資情緒提振的關(guān)鍵。AIAgent是AI發(fā)展的下一個臺階,是打破AI應用癥結(jié)的關(guān)鍵,而o1展現(xiàn)的底層技術(shù)走在正確的道路上。AIAgent應當擁有自主理解、規(guī)劃和執(zhí)行復雜任務(wù)的能力,可以將簡單的指令自主拆分成多個步驟并精細化執(zhí)行,將上一環(huán)節(jié)的輸入作為下一環(huán)節(jié)的輸出。早在23M4便有AutoGPT、BabyAGI等Agent項目作為早期探索,但性能尚不成熟,容易陷入死循環(huán)卡死、消耗大量tokens的問題,且AI全自動代理存在潛在的可靠性風險。而近期的AI領(lǐng)域前沿論文,以及OpenAIo1集成前沿理論推出的實際模型,展現(xiàn)了當前模型性能迭代和技術(shù)演進路徑正走在通往Agent的正確道路上。具體包括三個關(guān)鍵點:1)強化學習推理(RLReasoning)產(chǎn)生了新的ScalingLaw,為模型性能的提升提供了更多的維度。當前大模型參數(shù)量擴張進入瓶頸,市場普遍擔憂26年科技巨頭資本支出持續(xù)性的問題,我們認為,強化學習ScalingLaw對推理算力擴張的需求大幅增加的同時,對訓練算力擴張的需求也將持續(xù)提升。2)強化學習范式中的self-play通過自主博弈生成大量高質(zhì)量數(shù)據(jù),有利于突破當前外部訓練數(shù)據(jù)逐漸用盡的現(xiàn)狀。3)強化學習范式中的蒙特卡洛樹搜索(MCTS)具備自主探索和連續(xù)決策的能力,更適應AIAgent的全局規(guī)劃需求。 資料來源:SeednapseAI,光大證券研究所整理資料來源:AlphaTensor論文,展現(xiàn)了AlphaZero矩陣運算解題時的變種,圖中的Acting對應隨機初始化、self-play、MCTS,learning對應策略更新慢思考或?qū)⑼黄芐calingLaw的邊界,帶來模型性能的進一步突破。在過去幾年,LLM的發(fā)展主要依賴于訓練側(cè)的大規(guī)模投入,其性能提升依賴于模型規(guī)模、數(shù)據(jù)量和計算資源的擴展,而與模型的具體結(jié)構(gòu)(例如層數(shù)、深度、寬度)基本無關(guān)。長期來看,隨著大模型參數(shù)突破萬億級、有效訓練數(shù)據(jù)被大量消耗,模型的訓練和推理的成本迅速上升,邊際收益遞減,ScalingLaw驅(qū)動的技術(shù)路徑和商業(yè)化前景可能遭遇瓶頸。在這樣的背景下,o1揭示了一種充滿可能性的ScalingLaw范式,即強化學習(RL)驅(qū)動的性能提升,通過訓練過程和推理過程兩種渠道來拓展模型的計算能力。o1采用大規(guī)模強化學習算法,展現(xiàn)出訓練和測試兩個維度的ScalingLaw。根據(jù)官網(wǎng)博客,在強化學習過程中,o1在AIEM測試中的準確率與“訓練時間計算”和“測試時間計算”呈正比。1)訓練時間計算:代表傳統(tǒng)的ScalingLaw,即模型性能提升依賴于訓練時投入更多的計算資源;2)測試時間計算:代表測試時模型性能隨著推理時間延長而提升,包括多次的推理迭代、更加復雜的搜索算法或模型的深度思考,從而在特定垂類任務(wù)中表現(xiàn)增強。因此,o1不僅通過增加訓練時投入的計算資源來提升模型性能,還通過增加推理過程中的內(nèi)部思考時間來獲得能力的提升,訓練和推理ScalingLaw雙曲線共同增長,為大模型性能提升提供了更多的維度。資料來源:OpenAI官網(wǎng)博客強化學習范式對于實現(xiàn)自主規(guī)劃的AIAgent至關(guān)重要。大模型訓練的三大經(jīng)典范式(監(jiān)督學習、非監(jiān)督學習、強化學習)中,只有強化學習讓AI進行自主探索和連續(xù)決策,符合Agent定義中的自主規(guī)劃能力。1)自主探索:強化學習允許AIAgent在沒有明確目標的情況下,通過與環(huán)境互動探索可能的解決方案,并基于獎懲反饋動態(tài)調(diào)整策略,使Agent能使用復雜、多變的決策環(huán)境。2)連續(xù)決策:強化學習支持多步驟的決策過程,關(guān)注如何在一系列決策中最大化長期回報,使Agent具備更強的長線規(guī)劃能力。當前LLM主要依賴RLHF進行優(yōu)化,目標是“人機對齊”,弱化了邏輯推理的深度和嚴謹性;而強化學習基于self-play+MCTS的底層架構(gòu),通過高質(zhì)量的數(shù)據(jù)博弈提升推理能力。1)self-play:通過AI與自己博弈生成大量的高質(zhì)量數(shù)據(jù);2)MCTS(蒙特卡洛樹搜索基于策略網(wǎng)絡(luò)提供的動作概率分布引導搜索方向,通過價值網(wǎng)絡(luò)的評估結(jié)果為搜索提供反饋,使模型的推理能力提升,且推理過程更加可見,有助于進一步調(diào)試和改進AIAgent模型。資料來源:《ScalingLLMTest-TimeComputeOptimallycanbeMoreEffectivethanScalingModelParameters》,GoogleDeepMind,2024年8月左圖代表隨著時間推移,計算優(yōu)化縮放策略的表現(xiàn)逐漸優(yōu)于傳統(tǒng)的best-of-N方法;右圖論證了推理過程中使用計算優(yōu)化縮放與更大參數(shù)預訓練之間的權(quán)衡,表明在簡單問題上,測試時的計算比預訓練更有效,但在復雜問題上預訓練更有效除了強化學習推理外,o1的另一個關(guān)鍵底層技術(shù)是思維鏈(CoT)。思維鏈通過分步推理的方式,要求模型在生成最終答案之前,先生成一系列中間推理步驟。僅靠MCTS很難讓模型學會從內(nèi)部思考不同步驟的關(guān)聯(lián),而思維鏈能夠利用LLM已有的推理能力,生成合理的中間推理過程,并進一步將合理推理過程(Rationales)融入到訓練過程中。Quiet-STaR技術(shù)則提出了“內(nèi)部思維”的概念,將顯示的Rationales推理過程轉(zhuǎn)化為模型內(nèi)部隱式的推理過程,從而擺脫對外部示例的依賴。強化學習推理和思維鏈是相互結(jié)合、一脈相承的。思維鏈能極大提升模型涉及數(shù)學和符號的推理能力,但在其他問題上提升效果不顯著,甚至可能有損模型性能。論文《ToCoTornottoCoT?》中探討了在模型中采用思維鏈的表現(xiàn),在數(shù)學、符號推理能力上提升明顯,在知識、常識、軟推理上無明顯提升。另外,使用思維鏈時模型能更好地生成可執(zhí)行的方案,但表現(xiàn)不如借助外部工具(如符號求解器)。盡管OpenAIo1在數(shù)學、物理等復雜推理上能力提升明顯,但在一些語言生成任務(wù)上沒有明顯提升,使它無法成為一個可靠的Agent助手。這體現(xiàn)了推理能力和模型的指令跟隨能力呈現(xiàn)出分離關(guān)系,在模型強大到一定程度時才會出現(xiàn),對于構(gòu)建AGI來說,如何平衡二者的關(guān)系會成為一個核心問題。ScalingLaw由訓練側(cè)轉(zhuǎn)向推理側(cè),推理成本大幅提升,但不代表訓練端計算資源投入會降低?;趶娀瘜W習的ScalingLaw范式,本質(zhì)是將訓練時間轉(zhuǎn)化為推理時間,來應對訓練側(cè)計算資源投入的邊際收益遞減的狀況。由于Quiet-STaR在生成內(nèi)部思維鏈的過程中,每個Token均會生成下一步思考過程,導致生成了大量的冗余Tokens,對推理側(cè)計算資源的需求大幅增加。有觀點認為,推理相比訓練對GPU單卡性能和集群規(guī)模的需求更低,若強化學習推理成為主流,會導致市場對高端GPU的整體需求降低。但我們認為,強化學習ScalingLaw對推理算力擴張的需求大幅增加的同時,對訓練算力擴張的需求也將持續(xù)提升。當前o1存在思考時間過長、推理成本過高的問題,使其實際使用場景非常受限,為了加快推理速度,對推理芯片的性能需求也會水漲船高。根據(jù)ArtificialAnalysis的測試,o1-preview生成相同內(nèi)容的輸出tokens大約是GPT-4o的5.9倍,其中72%的tokens為推理過程中生成,按60美元/100萬tokens的價格收費。因此,使用o1-preview的輸出成本約為GPT-4o的36倍。另一方面,o1-preview的輸出速度在主流模型中排名靠后,使其實際使用體驗不佳。資料來源:ArtificialAnalysis,圓點大小代表價格,縱軸為ArtificialAnalysis編制的質(zhì)量指數(shù)資料來源:ArtificialAnalysis,單位:美元/百萬tokens資料來源:ArtificialAnalysis,tokens統(tǒng)計方法為30個樣例prompts加總另一方面,強化學習推理的預訓練階段同樣需要消耗大量的算力。強化學習推理通過self-play自我博弈,生成大量的高質(zhì)量數(shù)據(jù)。該方法可以緩解當前可用高質(zhì)量訓練數(shù)據(jù)不足的問題,但生成的數(shù)據(jù)理論上是沒有上限的,這個過程需要消耗大量的算力。也有觀點認為,強化學習推理并不意味著模型參數(shù)量停止擴張,因為self-play的主模型參數(shù)提升可能會產(chǎn)生更好的推理路徑??偟膩碚f,雖然強化學習ScalingLaw對算力需求的影響存在不確定性,但是新的技術(shù)路徑激發(fā)了更多的可能性。除了硬件更新外,模型架構(gòu)優(yōu)化也有望點燃新的ScalingLaw,這可能會改變北美云廠商未來幾年的資本支出策略。北美科技公司進入新一輪AI投資周期,資本支出大幅上升可能使公司面臨成本壓力。經(jīng)歷了2022年的宏觀環(huán)境逆風和凈利潤承壓后,北美科技公司在2023年普遍開啟降本增效,從資本支出占營運現(xiàn)金流的比例來看,利潤壓力較大的亞馬遜、Meta、Oracle大幅削減了資本支出的占比,谷歌資本支出占比無明顯變化,微軟、特斯拉資本支出占比均呈上升趨勢。而根據(jù)公司指引,2024年和2025年科技巨頭有望繼續(xù)增加資本支出,Meta則明確指出持續(xù)增加的投資會使2025年的折舊成本大幅提升。根據(jù)彭博一致預期,2024年科技巨頭資本支出占營運現(xiàn)金流的比例將普遍達到40%以上。因此,在AI的投資回報率尚不明顯的現(xiàn)狀下,科技巨頭會更加重視AI戰(zhàn)略的性價比。80%60%40%20%谷歌----谷歌----資料來源:彭博,光大證券研究所整理,已排除自由現(xiàn)金流為負的年份和極端值,24E數(shù)據(jù)為彭博一致預期亞馬遜—----亞馬遜—-----資料來源:彭博,光大證券研究所整理,已排除虧損年份和極端值,24E數(shù)據(jù)為彭博一致預期根據(jù)前文所述,OpenAIo1所展現(xiàn)出的技術(shù)路徑的演進方向,即強化學習推理和思維鏈,產(chǎn)生了推理層面的ScalingLaw,有利于緩解訓練側(cè)計算資源投入邊際遞減的現(xiàn)狀。我們認為,強化學習ScalingLaw對推理算力擴張的需求大幅增加的同時,對訓練算力擴張的需求也將持續(xù)提升,算力需求仍將持續(xù)強勁。而訓練成本轉(zhuǎn)嫁為推理成本,對于AI應用的商業(yè)化前景來說是個積極的變化,因為推理的成本下降的速度更快、彈性更大。從行業(yè)的視角來看,雖然科技巨頭擁有較為充足的自由現(xiàn)金流支持資本開支的持續(xù)增加,但仍面臨折舊成本提升和一定的利潤壓力,緩解硬件成本壓力的需求較為迫切。另一方面,軟件公司對于AI應用的探索很激進,需要性能更強、更具可靠性的Agent來突破困局,微軟、Salesforce均已推出類似Agent的產(chǎn)品,靜待后續(xù)Agent底層技術(shù)的迭代,撬動Agent應用的飛輪效應。1、建議關(guān)注AI電力:AI數(shù)據(jù)中心持續(xù)提振電力需求,亞馬遜、微軟等云廠商簽署長期協(xié)議,清潔能源需求強勁,關(guān)注核電供應商Constellation、光伏供應2、建議關(guān)注AI算力產(chǎn)業(yè)鏈:1)AIGPU:訓練側(cè)AI大模型持續(xù)迭代,推理側(cè)和端側(cè)延伸引發(fā)增量需求,產(chǎn)品加速迭代出貨,關(guān)注英偉達、AMD;2)ASIC芯片設(shè)計:AI算力需求由通用芯片向配合行業(yè)和公司特性的專用定制AI芯片轉(zhuǎn)型,關(guān)注Marvell科技、博通;3)存儲:AI手機/AIPC提升容量需求,云端算力帶動HBM供不應求、市場規(guī)模高速增長,關(guān)注SK海力士、三星電子、美光科技;4)服務(wù)器:AI算力需求強勁帶動AI服務(wù)器出貨量攀升,在手訂單高漲,關(guān)注聯(lián)想集團、超微電腦、戴爾科技、慧與、工業(yè)富聯(lián);5)CoWoS:先進封裝CoWoS產(chǎn)能成AI算力供應瓶頸,臺積電訂單持續(xù)外溢,封測廠受益,關(guān)注臺積電、日月光、Amkor科技;6)網(wǎng)絡(luò):萬卡算力集群化趨勢驅(qū)動通信互聯(lián)需求,利好光模塊、連接器、交換機等,關(guān)注中際旭創(chuàng)、新易盛、Coherent、安費諾、Arista網(wǎng)絡(luò)。3、建議關(guān)注AI應用產(chǎn)業(yè)鏈:1)云技術(shù)服務(wù)商:充裕的現(xiàn)金流支持大額資本支出投入,基礎(chǔ)設(shè)施壁壘高筑,用戶基礎(chǔ)廣闊,關(guān)注微軟、谷歌、亞馬遜、Oracle;2)AI+開發(fā)/數(shù)據(jù)分析:o1展現(xiàn)出強大的復雜推理和編程能力,對于數(shù)據(jù)分析、低代碼等產(chǎn)品的使用體驗提升明顯,關(guān)注ServiceNow、Palantir、Datadog;3)AI+網(wǎng)絡(luò)安全:o1在解決問題的過程中采取了帶有攻破性質(zhì)的解決方法,也體現(xiàn)出了AI輔助網(wǎng)絡(luò)攻擊的潛在威脅。另一方面,基于AI/ML的網(wǎng)絡(luò)安全解決方案也在不斷升級和迭代,AI驅(qū)動的網(wǎng)絡(luò)安全攻防升級將成為未來行業(yè)的主旋律。關(guān)注致力于AI/ML+網(wǎng)絡(luò)安全解決方案、擁有較強技術(shù)壁壘的的公司,關(guān)注4)AIAgent:當前企業(yè)客戶對AI的數(shù)據(jù)整合、后臺打通、優(yōu)化工作流的潛在需求較為強勁,o1的技術(shù)路徑有望加速Agent的發(fā)展,大型SaaS公司擁有堅實的客戶基礎(chǔ)、成熟的銷售渠道,特別是專注于ERP、CRM等領(lǐng)域的SaaS產(chǎn)品服務(wù)于企業(yè)工作流,與Agent的邏輯相契合,關(guān)注微軟、Salesforce、5)AI+教育:o1在復雜問題上具備強大的推理能力和全局思維能力,有望拓展學術(shù)教育等垂類應用場景,關(guān)注多鄰國、Coursera。1)AI技術(shù)研發(fā)和產(chǎn)品迭代遭遇瓶頸:當前AI產(chǎn)業(yè)發(fā)展較依賴前沿技術(shù)突破,若遭遇瓶頸則會導致AI應用需求不足;2)AI行業(yè)競爭加劇風險:當前AI產(chǎn)業(yè)鏈面臨激烈競爭,可能因行業(yè)競爭加劇而擠壓利潤空間;3)商業(yè)化進展不及預期風險:AI應用的用戶需求和滲透率擴張可能低于預期;4)國內(nèi)外政策風險:AI相關(guān)版權(quán)和數(shù)據(jù)合規(guī)政策仍待完善。行公司評級因無法獲取必要的資料,或者公司面臨無法預見結(jié)果的重大不確定性事件,或者其他原因,致使無本報告所包含的分析基于各種假設(shè),不同假設(shè)可能導致分析結(jié)果出現(xiàn)重大不同。本報告采用的各種估值方法及模型均有其局限性,估值結(jié)果不保本報告署名分析師具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格并注
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 化工合同審批管理
- 食品文化節(jié)采暖系統(tǒng)施工合同
- 水產(chǎn)養(yǎng)殖防水保溫施工協(xié)議
- 藝人演出教育推廣協(xié)議
- 農(nóng)業(yè)科技招投標與合同履約分析
- 婚慶策劃公司租賃合同
- 建筑工程水電站施工合同樣本
- 綠色商業(yè)植草磚施工合同
- 電影院干掛石材施工協(xié)議
- 洗衣服務(wù)公司人事經(jīng)理聘用合同
- 加油站-課程設(shè)計
- 帛書老子道德經(jīng)全文-校注
- 柑橘園的規(guī)劃與設(shè)計(趙錚)
- 國家開放大學電大《中文學科論文寫作》期末題庫及答案
- 提高地下車庫防水質(zhì)量QC成果
- 物業(yè)消防系統(tǒng)承接查驗表
- 俄羅斯聯(lián)邦政府第782號決議 電梯安全技術(shù)規(guī)程(2009版)
- OPERA系統(tǒng)培訓ppt課件
- 110Kv輸變電工程電氣安裝技術(shù)交底
- ASTM_A29/A29M熱鍛及冷加工碳素鋼和合金鋼棒
- 錄屏軟件Camtasia_Studio使用教程
評論
0/150
提交評論