人工智能行業(yè)AI投資策略:把握AI大時代算力需求確定數(shù)據(jù)價值重構(gòu)下半年應用井噴_第1頁
人工智能行業(yè)AI投資策略:把握AI大時代算力需求確定數(shù)據(jù)價值重構(gòu)下半年應用井噴_第2頁
人工智能行業(yè)AI投資策略:把握AI大時代算力需求確定數(shù)據(jù)價值重構(gòu)下半年應用井噴_第3頁
人工智能行業(yè)AI投資策略:把握AI大時代算力需求確定數(shù)據(jù)價值重構(gòu)下半年應用井噴_第4頁
人工智能行業(yè)AI投資策略:把握AI大時代算力需求確定數(shù)據(jù)價值重構(gòu)下半年應用井噴_第5頁
已閱讀5頁,還剩130頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

本報告由中信建投證券股份有限公司在中華人民共和國(僅為本報告目的,不包括香港、澳門、臺灣)提供。在遵守適用的法律法規(guī)情況下,本報告亦可能由中信建投(國際)證券有限公司在香港提供。同時請參閱最后一頁的重要聲明。2022/5/92022/6/92022/7/92022/8/92022/9/92022/10/92022/11/92022/12/92023/1/92022022/5/92022/6/92022/7/92022/8/92022/9/92022/10/92022/11/92022/12/92023/1/92023/2/92023/3/92023/4/9159231SAC編號:S1440518040002SFC編號:BNS315451607SAC編號:S1440522030001證券研究報告·行業(yè)深度定,數(shù)據(jù)價值重構(gòu),下半年應用井噴核心觀點以ChatGPT為代表的生成式AI算法取得突破,其通用性能力幫助人類在文字等工作上節(jié)省了大量時間,在Transformer新架構(gòu)下,多模態(tài)大模型也取得新的突破,文生圖、文生視頻等功能不斷完善。大模型作為將來重要的基礎(chǔ)技術(shù)底座,將創(chuàng)造巨大的商業(yè)價值,同時也要關(guān)注數(shù)據(jù)要素的重要性。在AI大時代下,我們重點關(guān)注算力和應用的相關(guān)投資機會,算力端,建議關(guān)注英偉達、AI服務器、光模塊、液冷等領(lǐng)域,以及國產(chǎn)算力替代機會。在應用端,建議關(guān)注海外業(yè)務占比高的應用相關(guān)公司,以及能夠通過大模型有效實現(xiàn)降本增收的相關(guān)公司。摘要正式推出ChatGPT后,用戶量大幅增長,圍繞ChatGPT相關(guān)的應用層出不窮,其通用性能力幫助人類在文字等工作上節(jié)省了大量時間。同時在Transformer新架構(gòu)下,多模態(tài)大模型也取得新的突破,文生圖、文生視頻等功能不斷完善,并在廣告、游戲等領(lǐng)域取得不錯的進展。生成式AI算法將是未來幾年最重要的生產(chǎn)力工具,并深刻改變各個產(chǎn)業(yè)環(huán)節(jié)。海內(nèi)外大模型加速推進。以O(shè)penAI為代表,基于TransformerPT模型爆發(fā)出強大的應用潛力,OpenAI也開始其商業(yè)化布局。微軟23Q3財報顯示,F(xiàn)Y23Q3AzureOpenAI已有2500個服務客戶,Azure云下個季度中有1%的收入增長來自于人工智能,隨著生成式AI應用的不斷普及,算力需求開始快速增長。谷歌方面,其在模型算法、算力芯片、應用場景等多個環(huán)節(jié)均有完整布局,并且首次將Transformer應用于CV領(lǐng)域—ViT算法,23年4月,谷歌推出了ViT的220億參數(shù)量的版本,和GPT-2到GPT-3的變化趨勢相似,其具備了強大的Zero-shot圖像分類泛化能力,CV領(lǐng)域也將迎來大模型時代。Meta也是AI領(lǐng)域重要玩家之一,旗OPT、LLaMA、SAM、DINOv2,同時Meta也在不斷開源其大模型,進一步加速產(chǎn)業(yè)發(fā)展。國內(nèi),包括百度、阿里、三六零、天工、商湯、科大訊飛也都在不斷推進自己的大模型,相關(guān)模型已有不少進行開放性測試,整體上已經(jīng)處于GPT3至GPT,隨著模型進一步迭代,國內(nèi)大模型距離商業(yè)化已經(jīng)越來越近。技術(shù)演進趨勢:多模態(tài)大模型蓬勃發(fā)展。Transformer顛覆了傳統(tǒng)深度學習模型,不局限于文本,ViT打通了Transformer與市市場表現(xiàn)75%55%35%%-5% 計算機上證指數(shù)相關(guān)研究報告人人工智能頁的重要聲明CV領(lǐng)域的壁壘,BEiT模型將生成式預訓練引入CV領(lǐng)域,基于ViT的多模態(tài)模型涌現(xiàn)?,F(xiàn)有的多模態(tài)預訓練大模型通常在視覺和語言兩種模態(tài)上進行預訓練,未來可以獲取更多模態(tài)進行大規(guī)模預訓練,包括圖像、文本、音頻、時間、熱圖像等,基于多種模態(tài)數(shù)據(jù)的預訓練大模型具有更廣闊的應用潛力。其次,未來多模態(tài)大模型多模態(tài)已經(jīng)在多個領(lǐng)域中得到廣泛應用,各式應用持續(xù)推動多模態(tài)模型的演進。大模型公司(包括多模態(tài)大模型):大模型作為將來重要的基礎(chǔ)技術(shù)底座,可以通過會員訂閱費、API許可費進行收費。根據(jù)路透社報道,OpenAI在2022年收入數(shù)千萬美元,并預計2023、2024年收入為2億、10億美元。隨著應用以及用戶越來越多,大模型公司將呈現(xiàn)高速增長,尤其是重點關(guān)注大模型公司中有業(yè)務場景的。重點關(guān)注:科大訊飛、商湯、昆侖萬維、三六零。數(shù)據(jù)要素賣給大模型:以Reddit為代表,開始準備向使用他們數(shù)據(jù)的大模型公司進行收費。另外,歐盟的《人工智能法》協(xié)議要求開發(fā)ChatGPT等生成式人工智能工具的公司必須披露他們是否在系統(tǒng)中使用了受版權(quán)保護的材料。數(shù)據(jù)質(zhì)量和體量決定了大模型的優(yōu)劣,展望未來,圍繞著數(shù)據(jù)產(chǎn)權(quán)將有進一步的價值劃分,重點關(guān)注:同方股份(知網(wǎng))、中國科傳(萬方)和部分中文小說網(wǎng)站公司。其次多模態(tài)大模型的背景下,視頻未來也有望可以賣給大模型公司。大模型+專業(yè)數(shù)據(jù)要素+細分行業(yè):主要在B端,部分公司擁有行業(yè)中非公開的、高價值的專業(yè)化數(shù)據(jù),結(jié)合大模型能力,增加客戶服務范圍和ARPU值。由于龍頭公司手中數(shù)據(jù)更多,并且行業(yè)卡位明顯,結(jié)合AI的產(chǎn)品有望進一步構(gòu)筑行業(yè)龍頭壁壘。算力公司:算力的需求來自三方面:模型越來越大+滲透率加速提升+技術(shù)演進。第一,模型參數(shù)量越大,推理效果越好,單個大模型對于算力需求隨著參數(shù)量增長而增長;第二,各家都開發(fā)大模型,訓練需求大幅增長,之后大量的應用部署,推理需求進一步爆發(fā);第三,文生圖、文生視頻的需求,每增加一個維度,算力需求就進一步增加。重點關(guān)注:英偉達、英偉達供應鏈中的AI服務器(浪潮信息、工業(yè)富聯(lián))、光模塊、液冷等領(lǐng)域。國產(chǎn)算力替代:各地加速推進智算中心,國產(chǎn)AI芯片進行國產(chǎn)替代,重點關(guān)注寒武紀、海光信息、華為昇騰供應鏈等。海外應用:海外業(yè)務占比高,跟Chatgpt率先結(jié)合,創(chuàng)造出新應用,萬興科技、福昕軟件均有跟生成式AI結(jié)合的產(chǎn)品推出,并取得了不錯的效果。國內(nèi)應用(降本線):生成式AI能很好地節(jié)省人力,典型的如廣告、影視等領(lǐng)域,可以顯著降低成本,而且降本節(jié)奏最快,目前在電商、廣告、游戲、影視等領(lǐng)域都可以看到生成式AI應用后所帶來的成本降低。國內(nèi)應用(增收線):產(chǎn)品壁壘較高的公司,在接入大模型后,提升用戶數(shù)量以及增加ARPU值,重點關(guān)注金山辦公、同花順等。風險提示:國際環(huán)境變化影響供應鏈及海外拓展;芯片緊缺可能影響相關(guān)公司的正常生產(chǎn)和交付,公司出貨不及預期;疫情影響公司正常生產(chǎn)和交付,導致收入及增速不及預期;信息化和數(shù)字化方面的需求和資本開支不及預期;市場競爭加劇,導致毛利率快速下滑;主要原材料價格上漲,導致毛利率不及預期;匯率波動影響外向型企業(yè)的匯兌收益與毛利率;人工智能技術(shù)進步不及預期;人工智能技術(shù)可能存在倫理風險;汽車與工業(yè)智能化進展不及預期等;半導體擴產(chǎn)不及預期。 人人工智能頁的重要聲明1一、大模型概要梳理OpenAI是目前全球估值最高的AI初創(chuàng)公司,22年擁有375名員工,根據(jù)路透社報道,OpenAI在2022年收入數(shù)千萬美元,并預計2023、2024年收入為2億、10億美元。OpenAI成立于2015年12月,其研究方向大致聚焦在三個領(lǐng)域:強化學習領(lǐng)域、自然語言處理領(lǐng)域、多模態(tài)模型領(lǐng)域。截止2022年,OpenAI擁有大約375名員工,主要面向以下三個方面:Capabilities,不斷的提高AI的功能和能力;Safety,確保這些AI系統(tǒng)擁有和人類一致的價值觀念;Policy,確保這些AI系統(tǒng)能夠得到適當?shù)闹卫?。截?023年4月29日,OpenAI歷史融資額超200億美元,當前估值為290億美元,是全球估值最高的AI初創(chuàng)公司。OpenAI的主要盈利模式包括:會員訂閱費、API許可費、與微軟合作帶來的商業(yè)收入。nAI資料來源:OpenAI,中信建投資料來源:OpenAI,中信建投從時間維度上看,OpenAI的研究方向大致聚焦在三個領(lǐng)域:強化學習領(lǐng)域、自然語言處理領(lǐng)域、多模態(tài)領(lǐng)域。在強化學習領(lǐng)域,OpenAI采用通用的強化學習策略來幫助AI應對靈活多變的困難問題;在自然語言處理領(lǐng)域,OpenAI開辟自回歸建模路徑,大語言模型無需在特定領(lǐng)域微調(diào)也有出色的任務表現(xiàn);在多模態(tài)模型領(lǐng)域,OpenAI圍繞Transformer主架構(gòu)不斷增強多模態(tài)能力。OpenAI的研究方向始終關(guān)注問題的通用性解決方案,而不是聚焦在特定問題之上,與其通用人工智能的研究目標契合。人人工智能頁的重要聲明2023015資料來源:OpenAI,中信建投OpenAI開辟自回歸建模路徑。用于翻譯任務的Transformer模型是自然語言處理領(lǐng)域的基礎(chǔ)模型,基于Transformer模型衍生出三條路徑,分別為BERT、T5、GPT路徑。BERT采用掩碼建模策略,利用雙向文本信息學習語言信息,在文本理解、情感分析方面具備一定優(yōu)勢;GPT采用自回歸的建模策略,通過對上文文本學習預測下文,在零樣本或者少樣本的生成方面表現(xiàn)優(yōu)異。AttentionisAllYouNeed投OpenAI是大語言模型的技術(shù)先驅(qū)。OpenAI基于Transformer模型開辟自回歸建模路徑,發(fā)布了GPT系列模型。GPT-1開啟了自然語言預訓練時代,GPT-2證明大模型無需微調(diào)也可以完成廣泛下游任務,GPT-3證實了無監(jiān)督預訓練路線的正確性,ChatGPT引入強化學習機制增強人機對話表現(xiàn),GPT-4擁有卓越的文本處理能力,并且初步融合多模態(tài)能力。ChatGPT引入強化學習機制增強人機對話表現(xiàn)。在GPT-3.5版本的基礎(chǔ)上,通過3個步驟實現(xiàn)基于人類反饋的強化學習微調(diào)(RLHF),得到人機對話模型ChatGPT。RLHF觸發(fā)了大語言模型的多項能力,其中包括:應盡翔實的回應、公正的答復、拒絕不當問題等,通過與人類答案的對齊過程,顯著提升了大模型的人機對話人人工智能頁的重要聲明3資料來源:OpenAI,中信建投資料來源:TraininglanguagemodelstofollowinstructionswithhumanGPT-4具備卓越的文本處理能力,初步融合多模態(tài)能力,能力再度升級。2023年3月15日,OpenAI發(fā)布多模態(tài)預訓練大模型GPT-4,相較于過去的GPT系列模型,提升包括幾個方面:1)具備多模態(tài)信息處理能力,能夠接受圖像和文本兩種模態(tài)的輸入,再通過文字給出正確的文本答復。GPT-4不僅擁有圖像閱讀能力,還可以從圖像中提取邏輯,進行分析思考。以左圖為例:問:如果把圖中的繩子剪掉會怎么辦?GPT-4:氣球會飛走。給出一道物理題和相應的示意圖,GPT-4可以給出具體的解題步驟和相應的答案。GPT-4對圖片的理解能力、分析邏輯能力、物理等學科的知識儲備都賦予了這個模型強大資料來源:OpenAI,中信建投資料來源:OpenAI,中信建投2)文本處理能力更為出色,在為機器學習設(shè)計的模型評判標準和為人類設(shè)計的專業(yè)測試中均取得良好表現(xiàn)。在為機器學習模型設(shè)計的傳統(tǒng)基準上,GPT-4的表現(xiàn)大大優(yōu)于了目前的最好的語言模型,以及大多數(shù)SOTA模型(目前最好的模型)。相較于GPT-3.5以及當前最好的語言模型,GPT-4在機器學習模型學術(shù)基準數(shù)據(jù)集上的表現(xiàn)實現(xiàn)了全面突破,在7項數(shù)據(jù)集中的測試均優(yōu)于當前最優(yōu)的語言模型。在為人類設(shè)計的各種專業(yè)測試和學術(shù)基準數(shù)據(jù)集中,GPT-4展現(xiàn)出媲美甚至優(yōu)于人類的水平。GPT-3.5模型在一些相對簡單的人類專業(yè)測試中已經(jīng)展現(xiàn)出不錯的性能,但當任務的復雜度上升后其便難以處理。而GPT-4模型在一些相對困難的任務中也已經(jīng)取得相當優(yōu)異的性能,例如其在模擬律師考試中取得了應試者中前10%的成績,而GPT-3.5模型只有倒數(shù)10%的成績。GPT-4模型在SAT、LSAT、美國高中數(shù)學競賽中表現(xiàn)均超越了人類平人人工智能頁的重要聲明4資料來源:OpenAI,中信建投資料來源:AGIEval:AHuman-CentricBenchmarkforEvaluating3)模型訓練結(jié)束之后進行了大量的規(guī)范性調(diào)試,提升了回答的可控性和安全性。在內(nèi)部評估中,GPT-4回答可能生成有害內(nèi)容的可能性降低了82%,產(chǎn)生符合事實回復的可能性高出40%。GPT-4主要通過三方面增強了回答的可控性和安全性:引入人類反饋進行訓練;從實際使用中不斷提升,OpenAI定期更新和改進GPT-4;GPT-4協(xié)助進行安全方面的研究。資料來源:OpenAI,中信建投資料來源:OpenAI,中信建投4)GPT-4構(gòu)建了用于模型性能預測的深度學習堆棧。深度學習堆棧能夠在模型訓練早期,在僅有1/1000?1/10000訓練計算量情況下外推實現(xiàn)GPT-4模型某些方面性能的準確預測,降低了模型訓練過程中的試錯成本,縮短了整體訓練周期。人人工智能頁的重要聲明5GPT523757329288GPT523757329288資料來源:OpenAI,中信建投資料來源:OpenAI,中信建投OpenAI的成功源于技術(shù)路線的長期堅持。在GPT-1模型發(fā)布后4個月,Google發(fā)布了自己的語言模型BERT,其采用編碼器作為模型主體且采用雙向編碼結(jié)構(gòu)。從性能上看,與GPT-1模型參數(shù)規(guī)模相當?shù)腂ERTBASE性能超越GPT-1,參數(shù)量更大的BERTLARGE更是形成了壓倒性優(yōu)勢,雙向結(jié)構(gòu)的BERT模型很快得到了學術(shù)界的廣泛歡迎。GPT可能是一條難度更高、同時天花板更高的技術(shù)路徑。直到1750億參數(shù)量的GPT-3模型誕生,在各類下游任務中無需微調(diào)便可取得良好成績,越來越多的企業(yè)和研究機構(gòu)才開始轉(zhuǎn)向GPT技術(shù)路線,BERT路線的影響力開始逐漸轉(zhuǎn)弱。OpenAI在自然語言模型方面的領(lǐng)先得益于公司對于其技術(shù)路徑的長期堅持,即使早期并未得到學術(shù)界的廣泛認可。GPT-1GPT-2GPT-3BERTGPT-1BERT63995BERT010000200003000040000500006000070000資料來源:HarnessingthePowerofLLMsinPractice:ASurvey資料來源:WebofScience,中信建投OpenAI在多模態(tài)領(lǐng)域也取得了豐富的成績。2021年3月發(fā)布了圖文配對模型CLIP,目前已經(jīng)成為多模態(tài)領(lǐng)域的基石性模型。DALL·E模型實現(xiàn)文本到圖像的跨模態(tài)生成,DALL·E2圖像質(zhì)量進一步升級。著眼于通用人工智能的發(fā)展目標,我們預計,OpenAI的研究會沿著兩個方向進一步延升:多模態(tài)能力不斷提升;大模型充當AI代理、能力范圍不斷擴大。多模態(tài)能力不斷提升。GPT-4初步融入了多模態(tài)能力,具備了圖像的識別和理解能力,OpenAI在圖像生成方面也頗有建樹,預期未來在大語言模型基礎(chǔ)之上,也會融入圖像生成等多模態(tài)能力。大模型充當AI代理,通過調(diào)用各種專業(yè)化工具進一步擴大能力范圍。大語言模型未來將與搜索引擎、代人人工智能頁的重要聲明6碼編程工具、實體機器人等專業(yè)化工具進一步深化融合,打造更強大高效的多任務解決方案,為現(xiàn)實世界中的復雜任務提供全面的支持,讓大模型成為日常生活中的個人助理,充分釋放個人創(chuàng)造力。OpenAI商業(yè)化初探,大模型全面賦能微軟傳統(tǒng)業(yè)務。大語言模型所需要的龐大算力是OpenAI成立之時始料未及的,2019年開始OpenAI從非營利性企業(yè)轉(zhuǎn)變?yōu)榫哂欣麧櫳舷薜臓I利實體OpenAILP。隨著GPT模型爆發(fā)出強大的應用潛力,OpenAI也開始其商業(yè)化布局。OpenAI在個人辦公應用領(lǐng)域與微軟加深合作,大模型全面賦能微軟傳統(tǒng)業(yè)務,與OpenAI的相關(guān)合作對其Azure云、Office365、Dynamics365均起到了相當程度的促進作用。微軟23Q3財報顯示,F(xiàn)Y23Q3AzureOpenAI已有2500個服務客戶,Azure云下個季度中有1%的收入增長來自于人工智能。在上一輪深度學習的AI革命中,AI逐步達到了與人類媲美,甚至超越人類(部分場景)的水平,逐步走入大眾視野,而Google和Deepmind是其中的的引領(lǐng)者。由Google和Deepmind提出的Word2Vec、AlphaGo等模型以及sequencetosequence、深度強化學習等技術(shù)是上一輪AI革命乃至這一輪AI浪潮的開創(chuàng)性、奠基性工作,推動著AI技術(shù)的成熟與發(fā)展。在這一輪預訓練大模型的AI浪潮中,AI展現(xiàn)出在更多具體場景中強大的應用性能,逐步從學術(shù)研究走向商業(yè)化落地,Google和Deepmind也面臨著了更多競爭者的挑戰(zhàn)。Google提出的Transformer模型是這一輪預訓練大模型的技術(shù)基礎(chǔ),其強大能力推動了各個AI細分領(lǐng)域的快速發(fā)展。在后續(xù)基于Transformer研究與應用中,OpenAI率先布局的Decoder-only成為更主流的路線,同時包括Meta和Amazon也先后推出自己的大模型,Google面臨著更多強勁競爭者的挑戰(zhàn)。IAI資料來源:ZetaAlpha,中信建投資料來源:ZetaAlpha,中信建投在NLP方面,Google提出Transformer,引領(lǐng)AI領(lǐng)域變革。Google于2017年推出Transformer,其基于Encoder-Decoder的核心架構(gòu),最早在翻譯任務上取得了良好性能。但其對AI領(lǐng)域的影響遠遠超過了翻譯乃至NLP的細分領(lǐng)域中,其將殘差網(wǎng)絡(luò)和注意力機制結(jié)合的模型結(jié)構(gòu)應用成為了近年來人工智能領(lǐng)域應用最為廣泛的基礎(chǔ)模型結(jié)構(gòu),引領(lǐng)了包括NLP、CV等多個細分領(lǐng)域的變革。從Encoder-Decoder到DecoderOnly,Google在日益激烈的競爭中逐步調(diào)整發(fā)展方向。在Transformer的Google018年基于Encoder架構(gòu)推出了Bert,打造了廣泛下游任務中的最優(yōu)性能,而后在2019年推出了性能更強、下游應用更廣泛的T5。但隨著Decoder-only的GPT-3展現(xiàn)出強大的性能,Google也逐步探索并推出了一系列的Decoder-only的模型,如FLAN、LaMDA、PaLM等。人人工智能頁的重要聲明7Google在2022年4月推出了PaLM模型,其具有5400億參數(shù),基于Transformer的Decoder設(shè)計。PaLM模型具備較高的訓練效率,其在6144個芯片上完成訓練,是迄今為止最大的基于TPU的系統(tǒng)配置。同時PaLM通過結(jié)合分布式并行運算和Transformer模塊的重新組合實現(xiàn)了46.2%的訓練效率(模型FLOPs利用率)。PaLM模型在多個下游任務中具有優(yōu)異性能。經(jīng)測試,PaLM(540B)在29個NLP主流下游任務(如完形填空、問題回答等)中超過了過去的SOTA。同時在許多新興的下游任務中PaLM也實現(xiàn)了超過人類平均水平的性能,同時還展現(xiàn)出隨模型進一步擴大而實現(xiàn)更優(yōu)性能的可能。PaLMScalingLanguageModelingwithPathways料來源:Google,中信建投在CV領(lǐng)域,Google通過ViT將Transformer引入CV領(lǐng)域。盡管Transformer網(wǎng)絡(luò)結(jié)構(gòu)在NLP領(lǐng)域展現(xiàn)出了強大的性能和能力,但在ViT之前,其在CV領(lǐng)域中的效果仍遠不如CNN網(wǎng)絡(luò)結(jié)構(gòu)。Google在2021年推出了ViT,其通過將圖片劃分為不同的部分的方式構(gòu)建出了類似于文本的序列輸入和詞向量,進而可以通過Transformer結(jié)構(gòu)對圖像特征進行提取和分析。最終在大規(guī)模的訓練數(shù)據(jù)集中展現(xiàn)出相較于CNN結(jié)構(gòu)的模型更加強大的性能。其提出標志著Transformer模型在CV領(lǐng)域的應用落地。近年來,Google進一步探索在CV領(lǐng)域中預訓練大模型的能力邊界。2021年的研究中,其中最大版本的ViT模型(ViT-Huge)參數(shù)量為6.32億。2023年4月,谷歌在模型架構(gòu)方面進行了升級,推出了ViT的220億參數(shù)量的版本(ViT(22B))。和GPT-2到GPT-3的變化趨勢相似,其具備了強大的Zero-shot圖像分類泛化能力(如下圖所示,在兩個下游任務中都比小參數(shù)模型更強大)。同時引入了人類反饋來使模型的能力與人類的目標相對齊,并且成功將模型公平性和穩(wěn)健型控制在了一個合理的范圍。資料來源:《ANIMAGEISWORTH16X16WORDS:TRANSFORMERSFOR資料來源:《ScalingVisionTransformersto22BillionIMAGERECOGNITIONATSCALE》,中信建投Parameters》,中信建投,在多模態(tài)領(lǐng)域,谷歌和柏林工業(yè)大學的團隊在2023年3月推出PaLM-E,具有5620億參數(shù)量,其是一個人人工智能頁的重要聲明8多模態(tài)具身視覺語言模型(VLM),且將多模態(tài)技術(shù)拓展到機器人控制領(lǐng)域。相較于之前的多模態(tài)模型,其不僅可以理解和生成圖像/語言,如下左圖所示,輸入可以為文本、圖像等不同模態(tài)信息,還能夠融合不同模態(tài)的知識進而生成復雜的機器人指令,例如,“從抽屜中拿取薯片”是一個包含了多個計劃任務,需要機器人攝像頭和機械手相互反饋配合的任務,PaLM-E模型可以將其分解為走到抽屜旁;打開最上面的抽屜;從最上面的抽屜里拿起綠色的薯片;放在柜臺上等多個步驟來完成。diedMultimodalLanguageModel在技術(shù)發(fā)展方面,Google在AI方面的布局完善程度是各家科技巨頭中最高的。核心環(huán)節(jié)如人工智能芯片的自研,一方面可以與算法模型的研發(fā)相互配合實現(xiàn)協(xié)同發(fā)展,另一方面將有效避免AI競爭加劇后的算力供應風險。同時,隨著GoogleBrain和DeepMind的合并,兩大世界級AI團隊將共同探索AI技術(shù)的上限。在商業(yè)Google、穩(wěn)定且成熟的應用生態(tài),包括有Google搜索、Chrome瀏覽器、安卓、YouTube等互聯(lián)網(wǎng)時代重要的流量入口,將賦能AI發(fā)展與應用落地。一方面,這將給谷歌的AI發(fā)展提供海量的數(shù)據(jù),加速相關(guān)AI技術(shù)的成熟和商業(yè)化落地,另一方面,谷歌成熟的AI技術(shù)也可以為谷歌生態(tài)中的不同環(huán)節(jié)深度賦能,增強谷歌整體業(yè)務的競爭力,例如將AIGC技術(shù)引入到谷歌的廣告業(yè)務中幫助營銷人員制造廣告材料,以及Workspace、GoogleDocs和Gmail等應用中。展望谷歌在這一輪AI浪潮中的發(fā)展,我們認為谷歌依舊是下一輪人工智能變革中不可忽視的科技巨頭,相關(guān)進展值得密切關(guān)注。資料來源:Google,中信建投資料來源:Google,中信建投,人人工智能頁的重要聲明9Meta是生成式AI大模型中強有力的競爭者,旗下模型包括OPT、LLaMA、SAM等。OPT(OpenPre-trainedTransformerLanguageModels)模型是由MetaAI提出的一系列開源的大型因果語言模型,旨在向公眾開源高性能大型語言模型(LLM)。OPT提供了一整套LLM,大小從1.25億到1750億個參數(shù)不等,以及用于訓練這些模型的代碼。值得注意的是,最大的OPT模型——OPT-175B在性能方面,不管是zero-shot還是multi-shot中都取得了與GPT-3可比的成績。資料來源:OPT,中信建投資料來源:OPT,中信建投OPT模型的訓練數(shù)據(jù)共計1800億個字符,超過800GB的文本數(shù)據(jù),在模型結(jié)構(gòu)方面,OPT與GPT系列模型均采用了Transformer-Decoder結(jié)構(gòu),在解碼時自左向右進行自回歸的預測。TOPT模型在多個場景下都有較為不錯的表現(xiàn)。在仇恨語言檢測、刻板印象偏見識別、對話安全評估等多個OPTBGPT-3的表現(xiàn)。LLaMA:2月25日,Meta官網(wǎng)公布了一個新的大型語言模型LLaMA(LargeLanguageModelMetaAI),從參數(shù)規(guī)模來看,Meta提供有70億、130億、330億和650億四種參數(shù)規(guī)模的LLaMA模型,并用20種語言進行訓練。與現(xiàn)有的最佳LLM相比,這一模型的性能具有競爭力。Meta推出的LLaMA參數(shù)規(guī)模有70億(7B)、130億(13B)、330億(33B)和650億(65B)四種。LLaMA-13B在大多數(shù)基準測試中,參數(shù)僅為十分之一,但性能優(yōu)于OpenAI的GPT-3(175B),而且能跑在單個GPU上。LLaMA-65B與DeepMind700億參數(shù)頁的重要聲明的Chinchilla-70B和谷歌5400億參數(shù)的PaLM-540B不相上下。SAM:2023年4月5日,Meta發(fā)布SAM模型(SegmentAnythingModel),是CV圖像分割領(lǐng)域的基礎(chǔ)模型。SAM由一個圖像編碼器、一個提示編碼器和一個掩碼解碼器組成,具有以下特點:1)使用提示工程進行任務學習,交互式點擊、選擇框甚至文本操作進行物體分割;2)具有模糊感知功能,面對分割對象存在歧義時,可以輸出多個有效掩碼;3)與ChatGPT類似,SAM巧妙的將人工標注與大數(shù)據(jù)結(jié)合(數(shù)據(jù)引擎),最終實現(xiàn)了“分割一切”的功能。SAM在邊緣檢測、objectproposalgeneration、實體分割、texttomask等下游場景表現(xiàn)依舊出眾,雖然某些領(lǐng)域下不如最優(yōu)模型的表現(xiàn),但其良好的zero-shot泛化能力依舊證明該模型性能的強悍。資料來源:SAM,中信建投頁的重要聲明DINOv2:DINOv2是Meta在2023年4月17日發(fā)布的第一種使用自監(jiān)督學習來訓練計算機視覺模型方法。使用DINOv2方法的模型,可在任何圖像集上進行訓練,在提供強大的性能的同時,不需要對模型進行微調(diào),適合用作許多不同計算機視覺任務的骨干。由于自監(jiān)督特征學習和輕量化特定任務執(zhí)行模塊的加入,DINOv2在深度估計方面的表現(xiàn)明顯優(yōu)于其他算法。測試結(jié)果顯示,DINOv2對分類、分割和圖像檢索等任務的非常強大的預測能力。同時,該模型在圖像網(wǎng)絡(luò)分類、視頻分類、目標識別、密集識別任務等場景下,較其他模型表現(xiàn)更加優(yōu)秀。資料來源:DINOv2,中信建投資料來源:DINOv2,中信建投內(nèi)大模型梳理百度自然語言技術(shù)積淀深厚,形成知識圖譜的核心技術(shù)競爭力。從2010年的百度搜索開始,百度成立了自017年推出智能客服。長期的布局和發(fā)展中百度構(gòu)建了完整的語言與知識技術(shù)布局,包括知識圖譜、語言理解與生成技術(shù),以及上述技術(shù)所支持的包含智能搜索、機器翻譯、對話系統(tǒng)、智能寫作、深度問答等在內(nèi)的的應用系資料來源:Github,中信建投人人工智能頁的重要聲明2023年3月16日,百度發(fā)布了生成式人工智能大模型“文心一言”。作為文心大模型家族的新成員,文心一言在文心知識增強大模型ERNIE及對話大模型PLATO的基礎(chǔ)上研發(fā)。文心一言包含六大核心技術(shù)模塊,包括:1)有監(jiān)督精調(diào);2)基于人類反饋的強化學習;3)提示;4)知識增強;5)檢索增強;6)對話增強,前三類技術(shù)在目前流行的對話大模型如ChatGPT中都有所應用,而后三類技術(shù)則是百度基于自身技術(shù)積累的再創(chuàng)新,它們共同構(gòu)成了模型的技術(shù)基礎(chǔ)。資料來源:百度,中信建投文心一言模型具備文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、多模態(tài)生成等多方面的能力。在文學創(chuàng)作方面,文心一言可以總結(jié)出小說《三體》的內(nèi)容,也可以從哲學角度對《三體》進行續(xù)寫;在商業(yè)文案創(chuàng)作方面,文心一言可以根據(jù)公司業(yè)務類型為公司取名,生成slogan或撰寫幾百字的新聞稿;在數(shù)理邏輯推算方面,文心一言可以完成雞兔同籠問題的計算;在多模態(tài)生成方面,基于文心大模型的通用且可控的文生圖系統(tǒng),文心一言具備圖片生成的能力,同時具備語音生成、視頻生成能力。從百度承認文心一言的存在到發(fā)布會當天,已有超過650家合作伙伴宣布加入文心一言生態(tài),商業(yè)化落地前景廣闊。資料來源:百度,中信建投資料來源:百度,中信建投文心大模型實現(xiàn)AI場景全覆蓋,工具和平臺降低大模型應用門檻。百度文心大模型包括自然語言大模型、機器視覺大模型、跨模態(tài)大模型、生物計算大模型和行業(yè)大模型,自然語言大模型中典型代表如“文心一言”、鵬程·百度·文心,跨模態(tài)生成中典型代表如文生圖模型ERNIE-ViLG,文心大模型中豐富的模型選擇實現(xiàn)AI場景全覆蓋。工具與平臺中包括大模型API、大模型套件、零門檻AI開發(fā)平臺EasyDL、全功能AI開發(fā)平臺BML,讓企業(yè)和開發(fā)者更加方便、快速地使用大模型的最新能力。人人工智能頁的重要聲明百度AI產(chǎn)業(yè)打造全棧式布局,構(gòu)建完整產(chǎn)業(yè)生態(tài)和獨有技術(shù)優(yōu)勢。百度是目前全球少有的在“芯片-框架-模型-應用”四個層面上均有所布局的人工智能公司,芯片層有高端芯片昆侖芯,框架層有飛槳深度學習框架,模型層有文心預訓練大模型,應用層有百度智能云、百度自動駕駛、小度智能語音助手等應用。百度AI全棧布局的優(yōu)勢在于,可以在技術(shù)棧的四層架構(gòu)中實現(xiàn)端到端優(yōu)化,大幅提升效率。尤其是框架層和模型層之間,有很強的協(xié)同作用,可以幫助構(gòu)建更高效的模型,并顯著降低成本。例如,為了支持海量參數(shù)模型的高效分布式訓練,百度飛槳專門研發(fā)了4D混合并行技術(shù)。后續(xù)“芯片-框架-模型-應用”四個層面將形成高效的閉環(huán)反饋,推動百度人工智能持續(xù)迭代升級。資料來源:百度人工智能創(chuàng)新和專利白皮書2023,中信建投華為在大模型研發(fā)領(lǐng)域積累深厚,有望快速實現(xiàn)商業(yè)化。華為盤古大模型發(fā)展,其基礎(chǔ)大模型、行業(yè)大模型、細分場景模型已經(jīng)在不同領(lǐng)域率先取得成功。人人工智能頁的重要聲明華為云團隊于2020年立項AI大模型,并且于2021年4月發(fā)布“盤古大模型”。自“盤古大模型”發(fā)布以來,已經(jīng)發(fā)展出L0、L1、L2三大階段的成熟體系持續(xù)進化。所謂L0是指NLP大模型、CV大模型等五大水平領(lǐng)域的基礎(chǔ)大模型;而L1指行業(yè)大模型,比如氣象、礦山、電力等行;L2指面向各行業(yè)中細分場景的模型,比如電力行業(yè)的無人機巡檢。資料來源:華為云,中信建投基礎(chǔ)大模型研發(fā)與迭代能力強勁,持續(xù)創(chuàng)新推動大模型發(fā)展。NLP大模型方面,作為一個擁有萬億參數(shù)的語言模型,2023年3月發(fā)布的盤古-Σ大模型是一個具有稀疏架構(gòu)的大型語言模型,包含1.085萬億個參數(shù),模型訓練方面,該模型的訓練基于分布式Ascend910AI計算芯片和MindSpore代碼框架,訓練數(shù)據(jù)量達3290億token。其實現(xiàn)NLP在多個領(lǐng)域和下游任務的SOTA水平。在效率方面,其是在適度的算力集群上訓練具有最強系統(tǒng)性能的萬億參數(shù)模型。在可用性方面,其可擴展到各種領(lǐng)域或任務,無需從頭開始重新訓練模型。在模型部署中,其可在各種具體應用場景中輕松定制和部署。在CV領(lǐng)域,盤古CV大模型擁有30億參數(shù),能同時滿足底層圖像處理與高層語義的理解需求。在多模態(tài)領(lǐng)域,華為發(fā)布FILIP,其通過更細粒度的信息學習提升多模態(tài)Transformer的能力。此外,華為開源首個億級中文多模態(tài)數(shù)據(jù)集-悟空,填補中文社區(qū)數(shù)據(jù)空白。人人工智能頁的重要聲明UTOWARDSTRILLIONPARAMETERMODELWITHSPARSEHETEROGENEOUSCOMPUTING》,中信建投LANGUAGEMODELWITHSPARSEHETEROGENEOUS多行業(yè)、多場景成功驗證模型能力。盤古預訓練大模型能力已經(jīng)在包括能源、零售、金融、工業(yè)等領(lǐng)域得到驗證。例如,在電力領(lǐng)域,華為云團隊在盤古CV大模型的基礎(chǔ)上,利用海量無標注電力數(shù)據(jù)進行預訓練,并結(jié)合少量標注樣本微調(diào)的高效開發(fā)模式,提出了針對電力行業(yè)的預訓練模型,巧妙地解決了數(shù)據(jù)標注的問題。應用盤古大模型之后,樣本篩選效率提升約30倍,篩選質(zhì)量提升約5倍,以永川每天采集5萬張高清圖片為例,可節(jié)省人工標注時間170人/天。在掘進場景中,基于盤古礦山大模型的掘進作業(yè)序列智能監(jiān)測,動作規(guī)范識別準確率超過95%,用規(guī)范的AI流程來替代不確定的人工流程,讓AI成為礦工規(guī)范作業(yè)的好幫手,保障井下作業(yè)安全。在氣象預測方面,盤古氣象大模型在一張V100顯卡上只需要1.4秒就能完成24小時的全球氣象預報,相比傳統(tǒng)數(shù)值預報提速10000倍以上。華為藥物分子大模型則生成了1億個創(chuàng)新的類藥物小分子篩選庫,其結(jié)構(gòu)新穎性為99.68%,并且可以有效地生成理化性質(zhì)相似的新化合物,為發(fā)現(xiàn)新藥創(chuàng)造可能性。盤古OCR金融大模型則能夠覆蓋通用文字識別場景性能佳資料來源:華為云,中信建投資料來源:華為云,中信建投多年來,阿里巴巴達摩院一直深耕多模態(tài)預訓練,并率先探索通用統(tǒng)一大模型。自2021年起,阿里達摩院先后發(fā)布多個版本的多模態(tài)及語言大模型,在超大模型、低碳訓練技術(shù)、平臺化服務、落地應用等方面實現(xiàn)突破,引領(lǐng)了中文大模型的發(fā)展。具體來看,通義-大模型整體分為三個層次,分別為行業(yè)模型、通用模型與模型型“通義-視覺”;多模態(tài)模型“通義-M6”;AI大模型“通義千問”。3)行業(yè)模型層:深入電商、醫(yī)療、娛樂、設(shè)計、金融、工業(yè)、制造業(yè)等行業(yè)。人人工智能頁的重要聲明資料來源:阿里達摩院,中信建投通義-M6已經(jīng)從2020年6月的3億參數(shù)基礎(chǔ)模型逐漸發(fā)展到2021年10月的10萬億參數(shù)全球最大預訓練模型再到2022年1月的業(yè)界首個通用統(tǒng)一大模型M6-OFA。2020年1月,阿里巴巴達摩院啟動中文多模態(tài)預訓練模型M6項目,同年6月推出3億參數(shù)的基礎(chǔ)模型。2021年1月,模型參數(shù)規(guī)模到達百億,已經(jīng)成為世界上最大的中文多模態(tài)模型。2021年3月,千億參數(shù)模型發(fā)布。2021年5月,具有萬億參數(shù)規(guī)模的模型正式投入使用,追上了谷歌的發(fā)展腳步。2021年10月,M6的參數(shù)規(guī)模擴展到10萬億,成為當時全球最大的AI預訓練模型。2022年1月,業(yè)界首個通用的統(tǒng)一大模型M6-OFA發(fā)布。資料來源:阿里達摩院,中信建投通義-Alicemind語言大模型體系:2021年3月,阿里發(fā)布通義-AliceMind,為阿里達摩院開源的深度語言模型體系,該體系包含了通用語言模型StructBERT、生成式語言模型PALM、結(jié)構(gòu)化語言模型StructuralLM、超大中文理解與生成模型PLUG、多模態(tài)StructVBERT、多語言VECO、對話SPACE1.0/2.0/3.0和表格STAR1.0/2.0,過程中形成了從文本PLUG到多模態(tài)mPLUG再到模塊化統(tǒng)一模型演化趨勢。通義-AliceMind的領(lǐng)先之處:1)覆蓋全面:覆蓋多語言、多模態(tài)、結(jié)構(gòu)化等多個預訓練語言模型;2)技術(shù)領(lǐng)先:多個模型在世界榜單中排名靠前;3)開放普惠:將圍繞Pre-training+Fine-tuning(“預訓練+精調(diào)”)語言模型持續(xù)進行生態(tài)性的技術(shù)開源。通義-視覺大模型:通義-視覺大模型自下往上分為了底層統(tǒng)一算法架構(gòu)、中層通用算法和上層產(chǎn)業(yè)應用。在底層通義算法架構(gòu)方面,通義-視覺大模型基于兩個基礎(chǔ)模型,覆蓋語言、文本等多種要素的編碼與生成;在中層通用算法方面,通用-視覺大模型能夠?qū)崿F(xiàn)視頻處理、視覺問答、視覺算數(shù)等多種算法;在上層產(chǎn)業(yè)應用方人人工智能頁的重要聲明面,目前通義-視覺大模型可以在電商行業(yè)實現(xiàn)圖像搜索和萬物識別等場景應用,并在文生圖以及交通和自動駕駛領(lǐng)域發(fā)揮作用。資料來源:阿里達摩院,中信建投通義千問大模型:在2023年4月11日的阿里云峰會上,阿里正式宣布推出大語言模型“通義千問”,并開始邀請用戶測試體驗。“通義千問”是一個超大規(guī)模的語言模型,由阿里云智能首席技術(shù)官周靖人領(lǐng)銜的團隊自主研發(fā),功能包括多輪對話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語言支持等。同時,“通義千問”可通過API插件實現(xiàn)AI能力的泛化,不僅可以通過實現(xiàn)續(xù)寫小說,編寫郵件和生成會議摘要等功能幫助用戶提升工作效率,還可以通過調(diào)用差旅接口推薦差旅產(chǎn)品,作為智能購物助手自動推薦品牌和產(chǎn)品提升用戶購物體驗??傮w來說,“通義千問”是一場“AI+云計算”的全方位競爭,超萬億參數(shù)的大模型研發(fā),并不僅僅是算法問題,而是囊括了底層龐大算力、網(wǎng)絡(luò)、大數(shù)據(jù)、機器學習等諸多領(lǐng)域的復雜系統(tǒng)性工程,需要有超大規(guī)模AI基礎(chǔ)設(shè)施的支撐。資料來源:2023阿里云峰會,中信建投資料來源:2023阿里云峰會,中信建投未來,阿里所有產(chǎn)品將接入大模型實現(xiàn)全面升級。2023年4月17日,阿里巴巴集團董事會主席兼CEO、阿里云智能集團CEO張勇在云峰會上表示,阿里巴巴所有產(chǎn)品未來將接入“通義千問”大模型,進行全面改造。他認為,面向AI時代,所有產(chǎn)品都值得用大模型重新升級。以釘釘為例,接入通義千問后,可實現(xiàn)近10余項人人工智能頁的重要聲明2)在釘釘群聊中:可以幫助自動總結(jié)未讀群聊信息中的要點;3)在釘釘會議中:隨時生成會議記錄并自動總結(jié)會議紀要、生成待辦事項。未來十年,阿里云將全面擁抱智能化時代。張勇表示,智能化時代帶來算力的爆發(fā),同時也提出了更高的要求,阿里云將為AI時代提供好算力基礎(chǔ)和大模型能力,全面服務智能化進程。為此,阿里云要做好核心兩件事:讓算力更普惠、讓AI更普及。資料來源:2023阿里云峰會,中信建投三六零在通用人工智能大模型領(lǐng)域堅持“兩翼齊飛”的發(fā)展戰(zhàn)略。一方面全方位、最大化調(diào)用公司的資源進行自有大模型的持續(xù)迭代,另一方面發(fā)揮場景的優(yōu)勢迅速進行商業(yè)化落地占據(jù)用戶心智。用戶飛輪的高速運轉(zhuǎn)將在資金層面和數(shù)據(jù)語料層面反哺自有大模型的訓練,達到“加速向前跑”的正反饋效應。2023年4月9日,三六零發(fā)布基于自研生成式通用大模型360GPT的產(chǎn)品矩陣“360智腦”。360智腦首先落地搜索場景,并于4月16日對企業(yè)用戶開放內(nèi)測。從測試結(jié)果來看,360智腦能夠很好回答時效性較強的打辦公套件”和“企業(yè)即時通訊工具—推推”等。面向大B端用戶,360已將核心數(shù)字安全能力融入安全AI模型,計劃結(jié)合數(shù)字安全業(yè)務推出企業(yè)私有化AI服務,滿足客戶對私有知識、資產(chǎn)的索引需求。資料來源:搜狐,中信建投資料來源:量子位,中信建投人人工智能頁的重要聲明三六零在數(shù)據(jù)積累、用戶流量和商業(yè)化場景、技術(shù)和工程化等多領(lǐng)域具有優(yōu)勢。360搜索是中國搜索引擎的Top2,市場份額約為35%,日均搜索點擊量超過10億次,具有國內(nèi)領(lǐng)先的數(shù)據(jù)抓取經(jīng)驗和完整的數(shù)據(jù)優(yōu)化數(shù)據(jù)集,360百科和360問答積累了近2000萬詞條和逾6億問答對數(shù)據(jù)。在技術(shù)方面,360的人工智能研究院從2019年開始一直在包括通用大模型在內(nèi)的人工智能技術(shù)上有持續(xù)性的投入,相關(guān)技術(shù)應用已有效提升公司內(nèi)部生產(chǎn)效率。在安全領(lǐng)域,隨著通用人工智能大模型的廣泛應用,其相關(guān)產(chǎn)品研發(fā)和使用的安全風險持續(xù)上升,未來必將對內(nèi)容安全、數(shù)據(jù)安全甚至國家安全產(chǎn)生深遠影響。公司作為國內(nèi)互聯(lián)網(wǎng)安全領(lǐng)域龍頭已有多年積累,在AI安全領(lǐng)域具有強大的先天優(yōu)勢。隨著大模型時代的來臨,越來越多的國內(nèi)公司意識到大模型對于生產(chǎn)力的巨大提升,紛紛推出了自己的大模型。國內(nèi)擁有大模型研發(fā)能力的公司集中在擁有充足資金和數(shù)據(jù)積累、研發(fā)能力突出、應用場景成熟的大型公司,自研大模型具有較高的門檻。無論是華為還是三六零,在模型算法、應用場景等多個環(huán)節(jié)具有完整布局,部分產(chǎn)品展現(xiàn)出了良好的性能,在國內(nèi)大模型研發(fā)中占據(jù)了一定優(yōu)勢。但同時也應承認,國內(nèi)大模型研發(fā)與OpenAI為代表的美國公司相比仍有一定差距,無論是人才密度、模型算法還是算力芯片均有較大的的進步空間。與此同時,下游應用場景的成熟將對大模型的商業(yè)化落地起到至關(guān)重要的作用,目前大模型的商業(yè)模式仍處于探索階段,打造成熟商業(yè)模式將反哺大模型研發(fā),促進飛輪效應的形成。2023年4月10日,商湯SenseTime舉辦技術(shù)交流日活動,分享了以“大模型+大算力”推進AGI(通用人工智能)發(fā)展的戰(zhàn)略布局,并公布了商湯在該戰(zhàn)略下的“日日新SenseNova”大模型體系,推出自然語言處理、內(nèi)容生成、自動化數(shù)據(jù)標注、自定義模型訓練等多種大模型及能力。依托自研千億級參數(shù)自然語言模型,商湯數(shù)字人視頻生成平臺“如影SenseAvatar”,大模型的數(shù)據(jù)標注平臺“明眸”,以及針對空間場景和小物體的3D內(nèi)容生成平臺“瓊宇SenseSpace”和“格物SenseThings”。依托自研千億級參數(shù)自然語言模型,商湯科技發(fā)布了中文語言大模型應用平臺“商量SenseChat”。"商量SenseChat"是由商湯科技研發(fā)的一款基于自然語言處理技術(shù)的人工智能大語言模型,具備較強的語言理解、生成能力,可以解決復雜問題,提供定制化建議,還能輔助創(chuàng)作文本,同時具備不斷學習進化的特性。商湯“大醫(yī)”是基于海量醫(yī)學知識和真實醫(yī)患互動對話數(shù)據(jù)打造的中文醫(yī)療語言大模型,可以通過多輪對話的方式提供導診、問診、健康咨詢、輔助決策等多場景下的幫助,持續(xù)賦能醫(yī)院診療效率并提升醫(yī)患體驗。商湯"AI代碼助手",人人工智能頁的重要聲明具備代碼生成、代碼補全、代碼修正、注釋代碼等功能,幫助程序員提升編程效率,簡化開發(fā)流程。資料來源:商湯,中信建投“秒畫SenseMirage”包含商湯自研AIGC大模型和便捷的LoRA訓練能力,并提供第三方社區(qū)開源模型加速推理的創(chuàng)作平臺,為創(chuàng)作者提供更加便利、完善的內(nèi)容生產(chǎn)創(chuàng)作工具。秒畫“SenseMirage”不僅融合了超10億參數(shù)的商湯自研文生圖生成模型,支持針對非自研模型的推理加速優(yōu)化,結(jié)合自研模型及訓練能力,免除了本地化部署流程,并基于自訓練LoRA模型,高效地生成更多樣的內(nèi)容。"如影"是商湯科技推出的以數(shù)字人物生成技術(shù)為核心,基于商湯多種AI生成能力打造的應用平臺。包括文NeRF傳一段真人視頻素材,就可以生成聲音及動作自然、口型準確、多語種精通的數(shù)字人。"如影"可以讓用戶擺脫專業(yè)拍攝設(shè)備的束縛,快速打造各種視頻創(chuàng)作;在直播帶貨場景,打造獨屬的直播間和百變虛擬主播?;谏窠?jīng)輻射場技術(shù),商湯發(fā)布針對空間場景和小物體的3D內(nèi)容生成平臺“瓊宇”和“格物"?!碍傆睢本邆涑鞘屑壌蟪叨鹊目臻g重建生成能力,通過海量高精度數(shù)字資產(chǎn)的生產(chǎn),滿足影視創(chuàng)作、建筑設(shè)計、商品營銷、數(shù)字孿生管理運營等行業(yè)需求,生成的各類3D內(nèi)容支持平臺上再編輯再創(chuàng)作。"格物"具備物體的精細化3D生成能力,可還原物體復雜的幾何結(jié)構(gòu)、紋理、材質(zhì)、光澤等細節(jié)信息,做到實時高逼真渲染。"明眸"是基于商湯自研大模型的數(shù)據(jù)標注平臺。"明眸"內(nèi)置10余個通用大模型和行業(yè)專用大模型,支持智能駕駛、智慧交通、智慧城市等多種場景的2D分類、檢測和3D檢測的智能標注;相比傳統(tǒng)人工標注和小模型標注模式,具有標注效果好,效率高,成本低等核心優(yōu)勢??梢酝ㄟ^標準API,底層調(diào)度商湯大裝置海量算力,支撐大規(guī)模標注需求。商湯科技打造了AI基礎(chǔ)設(shè)施、AI開發(fā)平臺、AI專家服務三位一體的解決方案。商湯在大模型領(lǐng)域積淀深厚,打造了AI基礎(chǔ)設(shè)施、AI開發(fā)平臺、AI專家服務三位一體解決方案。AI基礎(chǔ)設(shè)施以商湯人工智能計算中心 AIDCGPUpp,AIDC支持大規(guī)模彈性云原生多級異構(gòu)調(diào)度,最大單任務3200卡訓練,為大模型的訓練和推理提供了充足的算力支撐;AI開發(fā)平臺提供數(shù)據(jù)、推理、訓練全棧式工具,實現(xiàn)大模型微調(diào)、自動化模型部署、一鍵推理服務,加速大模型研發(fā);AI專家服務依托過去積累的模型開發(fā)和訓練經(jīng)驗,為客戶提供大模型算法的開發(fā)、優(yōu)化服務。人人工智能頁的重要聲明二、大模型算法演進2.1NLP算法演進NLP算法演進主要經(jīng)歷了基于規(guī)則的方法、基于統(tǒng)計的方法和基于神經(jīng)網(wǎng)絡(luò)的方法三個階段。在1950年到1980年間,主要是基于規(guī)則的方法,即模型基于語言學家制定的規(guī)則完成相關(guān)任務。其優(yōu)點在于,規(guī)則可以自由設(shè)計,靈活性強;不存在對于訓練數(shù)據(jù)的依賴,但也存在著研究強度大,泛化能力差;實踐性差,無法從訓練數(shù)據(jù)中學習和迭代等缺點。而后在1980年到2000年間,基于統(tǒng)計的方法逐漸興起,其核心邏輯在于將語言問題轉(zhuǎn)化為概率問題進行模型構(gòu)建,也因此具有數(shù)據(jù)驅(qū)動和更強的模型泛化能力的優(yōu)勢,但當時的統(tǒng)計計算規(guī)則較為簡單,缺乏對于語言知識的考慮,因而模型的可解釋性較差,同時也會受到訓練數(shù)據(jù)集較大的影響。資料來源:easyAI,medium,中信建投資料來源:CSDN,中信建投,2000年以來,神經(jīng)網(wǎng)絡(luò)方法逐步發(fā)展,成為當下NLP算法的主流。其具備更強的數(shù)據(jù)驅(qū)動力和更強的泛人人工智能頁的重要聲明化能力,也能更深度的挖掘語言文本中的知識。但也因此導致了更高的數(shù)據(jù)需求,更高的訓練成本和更低的解釋性。四大核心進展推動了自然語言理解走向大模型,推動了語義理解和生成的大幅提高,并在更多場景落地應用:對詞向量的關(guān)注明確了訓練目標,構(gòu)建起語義信息和數(shù)據(jù)之間的橋梁LSTM/注意力機制增強上下文理解能力,提高語義信息學

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論