




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
行行業(yè)動態(tài)跟蹤報告行行業(yè)報告復雜推理大模型OpenAIo1亮相,數(shù)學與代碼能力飛躍強于大市(維持)行情走勢圖強于大市(維持)行情走勢圖相關研究報告【平安證券】行業(yè)動態(tài)跟蹤報告*計算機*AI動態(tài)跟蹤系列(二):英偉達GTC2024AI軟件與應用有哪些看點?*強于大市20240327【平安證券】行業(yè)動態(tài)跟蹤報告*計算機*AI動態(tài)跟蹤系列(一Duolingo4Q23業(yè)績超預期,持續(xù)關注AI+教育應用前景*強于大市20240305證券分析師閆磊投資咨詢資格編號S1060517070006YANLEI511@黃韋涵投資咨詢資格編號S1060523070003HUANGWEIHAN235@研究助理相關研究報告【平安證券】行業(yè)動態(tài)跟蹤報告*計算機*AI動態(tài)跟蹤系列(二):英偉達GTC2024AI軟件與應用有哪些看點?*強于大市20240327【平安證券】行業(yè)動態(tài)跟蹤報告*計算機*AI動態(tài)跟蹤系列(一Duolingo4Q23業(yè)績超預期,持續(xù)關注AI+教育應用前景*強于大市20240305證券分析師閆磊投資咨詢資格編號S1060517070006YANLEI511@黃韋涵投資咨詢資格編號S1060523070003HUANGWEIHAN235@研究助理王佳一一般證券從業(yè)資格編號S1060123070023業(yè)領域能力:GPQAdiamond測試(專門用于評估模型在化學、類專家的表現(xiàn),成為首個在GPQAdiamond基王佳一一般證券從業(yè)資格編號S1060123070023WANGJIAYI446@OpenAI介紹到,類似于人類在回答困難問題驟分解為更簡單的步驟,學會了在當前方法不起作用時嘗試不同的方法,o1-preview解答復雜問題的邏輯推理過程,o1-preview在過程中逐步顯行業(yè)報告行業(yè)報告復雜推理大模型OpenAIo1亮相,數(shù)學與代碼能力飛躍行業(yè)動態(tài)跟蹤報告證券研究報告平安證券計算機·行業(yè)動態(tài)跟蹤報告請通過合法途徑獲取本公司研究報告,,請慎重使用并注意閱讀研究報告尾頁的聲明內(nèi)容。3/10也達到新高度。OpenAI的動向始終引平安證券計算機·行業(yè)動態(tài)跟蹤報告一、OpenAI計數(shù)器重置回1,o1系列開啟復雜推理序幕根據(jù)OpenAI官網(wǎng),o1系列模型o1-preview(預覽版)作為o1系列的早期版本,還不具備ChatGPT的許多有用功能,例如瀏覽網(wǎng)頁獲取信息、上傳文件和圖像等,因此對于許多常見情境,GPT-4o在短期內(nèi)可能會更有能力。圖表1OpenAI上線o1-preview和o1-mini前的科學、編碼和數(shù)學模型更難的問題。OpenAI的大規(guī)模強化學習算法,教會模型如何在數(shù)據(jù)高度有效的訓練過程中利用提高。不過這種方法的Scaling受到的限制與普通預訓練有很大不同,OpenAI正在繼續(xù)研究。圖表2隨著訓練時計算和測試時計算的增加,o1性能平穩(wěn)提高平安證券計算機·行業(yè)動態(tài)跟蹤報告除了o1-preview,OpenAI還發(fā)布了一款擅長STEM且更快、更便宜的推理模型o1-mini。OpenAI表o1-mini和o1-preview都正確回答,且o1-mini找到答案的速度大約快了3-5倍。價格方面,OpenAI提供給tier5API用mini作為o1-preview的替代品,具有更高的速率限制和更低的延圖表3o1-mini在數(shù)學基準測試上表現(xiàn)對標o1,同時推理成本低二、o1基準表現(xiàn)明顯優(yōu)于GPT-4o,數(shù)學與編碼能力實現(xiàn)飛躍為了突出相對于GPT-4o的推理性能改進,OpenAI在一系列不同的人類考試和機器學習基準測試中測試了o1模型。OpenAI實驗結果表明,在絕大多數(shù)推理任務中,o1的表現(xiàn)明顯優(yōu)于GPT-4o。樣本上達成共識的情況下,o1準確率為83%(12.5/15在使用學習評(13.9/1513.9分的成績相當于躋身美國前500名學生之列,高于AIME的分數(shù)線。2)編碼能力:在競爭性編程問3)特定專業(yè)領域能力:GPQAdiamond測試專門用于評估模型在化學、物理和生物學等領域的專業(yè)知識水平,o1不僅成功完成了測試,更是超越了人類專家的表現(xiàn),成為首個在GPQAdiamond基準上擊敗人類專家的AI模型。OpenAI表示,這一突破性成就標志著AI在特定專業(yè)領域的能力已經(jīng)達到了一個新的高度。平安證券計算機·行業(yè)動態(tài)跟蹤報告圖表4在具有挑戰(zhàn)性的推理類基準上,o1較GPT-4o有了顯著改進(%)測試中得分為78.1%,成為首個能夠與人類專家在該領域展開競爭的AI模型。在MMLU(大規(guī)模多任務語言理解)測試中,o1的表現(xiàn)更是令人矚目。在總計57個子類別中,o1在54個類別上都超越了GPT-4o的表現(xiàn),這一結果充分證明了o1在廣泛的知識領域和任務類型中的全面優(yōu)勢。圖表5o1在廣泛的基準測試中優(yōu)于GPT-4o(%)注:57個MMLU子類別上o1在54個的表現(xiàn)優(yōu)于GPT-4o,圖表僅展示7個示例平安證券計算機·行業(yè)動態(tài)跟蹤報告三、o1引入思維鏈優(yōu)化邏輯推理,助力模型性能與安全提升長時間,o1在嘗試解決問題時會使用思維鏈。通過強化學習,o1學會打磨其思維鏈并改進它所使用的策略。o1學會了識系統(tǒng)II思考。人們已經(jīng)發(fā)現(xiàn),提示模型「一步步思考」可以提升性能。但是通過試錯來訓練模型,從頭到尾這樣做,則更為可靠,并且——正如我們在圍棋或Dota等游戲中所見——可以產(chǎn)生極其令人印象深刻的結果?!痹贠penAI的一個官方演示中展示了o1-preview解答復雜問題的邏輯推理過程。題目為“當公主的年齡是王子的兩倍時,我們看到模型緩沖了約30秒,過程中逐步顯示思考、翻譯問題、定義變量、理解問題、構建方程、解方程等與人類推理相似的步驟,最終輸出結論,公主的年齡是某個自然數(shù)k的6倍,圖表6OpenAI視頻展示o1-preview解答復雜推理問題OpenAI認為思維鏈推理也為大模型安全性的提升提供了新思路。OpenAI發(fā)現(xiàn),將模型行為策略整合到推理模型的思維鏈中,可以高效、穩(wěn)健地傳輸人類的價值觀和原則。通過向模型教導自己的安全規(guī)則以及如何在上下文中推理它們,OpenAI發(fā)現(xiàn)推理能力直接有利于模型穩(wěn)健性的證據(jù):o1-preview在關鍵越獄評估和用于評估模型安全拒絕邊界的最嚴格內(nèi)部基準平安證券計算機·行業(yè)動態(tài)跟蹤報告圖表7o1-preview在安全性測試基準上好于GPT-4o四、投資建議多數(shù)基準表現(xiàn)不僅明顯超越GPT-4o,而且在數(shù)學與編碼能力上實現(xiàn)了重要飛躍,在理化生等專業(yè)領域的知識水平也達到新提出了更大需求,同時也將賦能下游AI應用(如編程面,推薦工業(yè)富聯(lián)、浪潮信息、中科曙光、萬興科技、福昕軟件、同花順、彩訊股份;4)網(wǎng)絡安全方面,強烈推薦啟明星辰。五、風險提示芯片的迭代速度不達預期,將影響我國AI算力的發(fā)展,進而制約大模型的突破。平安證券計算機·行業(yè)動態(tài)跟蹤報告和C端應用場景持續(xù)落地,如果產(chǎn)品的市場拓展不及預期,我國大模型產(chǎn)品的應用落地將存在低于預期的風險。國產(chǎn)大模型廠商的追趕進度存在不達預期的風險。平安證券研究所投資評級:強烈推薦(預計6個月內(nèi),股價表現(xiàn)強于市場表現(xiàn)20%以上)推薦(預計6個月內(nèi),股價表現(xiàn)強于市場表現(xiàn)10%至20%之間)中性(預計6個月內(nèi),股價表現(xiàn)相對市場表現(xiàn)在±10%之間)回避(預計6個月內(nèi),股價表現(xiàn)弱于市場表現(xiàn)10%以上)行業(yè)投資評級:強于大市(預計6個月內(nèi),行業(yè)指數(shù)表現(xiàn)強于市場表現(xiàn)5%以上)中性(預計6個月內(nèi),行業(yè)指數(shù)表現(xiàn)相對市場表現(xiàn)在±5%之間)弱于大市(預計6個月內(nèi),行業(yè)指數(shù)表現(xiàn)弱于市場表現(xiàn)5%以上)負責撰寫此報告的分析師(一人或多人)就本研究報告確認:本人具有中國證券業(yè)協(xié)會授予的證券投資咨詢執(zhí)業(yè)資格。平安證券股份有限公司具備證券投資咨詢業(yè)務資格。本公司研究報告是針對與公司簽署服務協(xié)議的簽約客戶的專屬研究產(chǎn)品,為該類客戶進行投資決策時提供輔助和參考,雙方對權利與義務均有嚴格約定。本公司研究報告僅提供給上述特定客戶,并不面向公眾發(fā)布。未經(jīng)書面授權刊載或者轉發(fā)的,本公司將采取維權措施追究其侵權責任。證券市場是一個風險無時不在的市場。您在進行證券交易時存在贏利的可能,也存在虧損的風險。請您務必對此有清醒的認識,認真考慮是否進行證券交易。市場有風險,投資需謹慎。此報告旨為發(fā)給平安證券股份有限公司(以下簡稱“平安證券”)的特定客戶及其他專業(yè)人士。未經(jīng)平安證券事先書面明文批準,不得更改或以任何方式傳送、復印或派發(fā)此報告的材料、內(nèi)容及其復印本予任何其他人。此報告所載資料的來源及觀點的出處皆被平安證券認為可靠,但平安證券不能擔保其準確性或完整性,報告中的信息或所表達觀點不構成所述證券買賣的出價或詢價,報告內(nèi)容僅供參考。平安證券不對因使用此報告的材料而引致的損失而負上任何責任,除非法律法規(guī)有明確規(guī)定??蛻舨⒉荒軆H依靠此報告而取代行使獨立判斷。平安證券可發(fā)出其它與本報告所載資料不一致及有不同結論的報告。本報告及該等報告反映編寫分析員的不同設想、見解及分析方法。報告所載資料、意見及推測僅反映分析員于發(fā)出此報告日期當日的判斷,可隨時更改。此報告所指的證券價格、價值及收入可跌可升。為免生疑問,此報告所載觀點并不代表平安證券的立場。平安證券在法律許可的情況下可能參與此報告所提及的發(fā)行商的投資銀行業(yè)務或投資其發(fā)行的證券。平安證券股份有限公司2024版權所有。保留一切權利。平安證券平安證券研究所電話:400886
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 20130-2025自屏蔽電子束輻射加工裝置
- 火災人身傷害應急預案(3篇)
- 加油車火災應急預案(3篇)
- 信息處理技術員考試實操題目及答案
- 活動室火災應急疏散預案(3篇)
- 行政法規(guī)與內(nèi)部管理規(guī)章關系試題及答案
- 行政法學備考過程中的情緒管理技巧:試題及答案
- 企業(yè)文化與戰(zhàn)略執(zhí)行的協(xié)同試題及答案
- 行政管理中客戶關系與法律服務的整合試題及答案
- 平臺即服務與基礎設施即服務試題及答案
- 小小科學家《物理》模擬試卷A(附答案)
- 體能科學訓練方法智慧樹知到期末考試答案2024年
- 四川民歌智慧樹知到期末考試答案2024年
- 休克的超聲評估
- 高中生物必修二全套課件
- 安踏案例分析
- 四年級下冊語文文言文閱讀理解專項精選練習
- 五年級人教PEP版英語下冊連詞成句專項積累練習
- T_CHES 18-2018 農(nóng)村飲水安全評價準則
- 歐盟RoHS2.0指令附件III及附件IV豁免清單(45頁)
- 關于民主評議市衛(wèi)健委工作的評議報告
評論
0/150
提交評論