科技行業(yè)先鋒系列報(bào)告:美國(guó)科技巨頭,大模型演進(jìn)方向_第1頁(yè)
科技行業(yè)先鋒系列報(bào)告:美國(guó)科技巨頭,大模型演進(jìn)方向_第2頁(yè)
科技行業(yè)先鋒系列報(bào)告:美國(guó)科技巨頭,大模型演進(jìn)方向_第3頁(yè)
科技行業(yè)先鋒系列報(bào)告:美國(guó)科技巨頭,大模型演進(jìn)方向_第4頁(yè)
科技行業(yè)先鋒系列報(bào)告:美國(guó)科技巨頭,大模型演進(jìn)方向_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

科技先鋒系列報(bào)告260從美國(guó)科技巨頭布局看大模型演進(jìn)方向2023年3月29日一、美股科技巨頭、軟件企業(yè)在AI領(lǐng)域的布局21.1美股科技巨頭近期在AI領(lǐng)域的動(dòng)作美股科技巨頭近期在AI領(lǐng)域的動(dòng)作公司時(shí)間事件2022.11.22023.1.22023.1.282023.1.302023.2.32023.2.62023.2.92023.3.8推出AI寫作工具LaMDA

Wordcraft推出基于文本生成圖像的AI模型“Muse”發(fā)布生成式AI音樂(lè)模型MusicLM向人工智能初創(chuàng)公司Anthropic

AI投資約3億美元“未來(lái)幾周或幾個(gè)月”推出類似ChatGPT的基于人工智能的大型語(yǔ)言模型谷歌谷歌宣布將推出一款聊天機(jī)器人—Bard谷歌表示將推出由人工智能驅(qū)動(dòng)的新搜索和地圖功能谷歌發(fā)布五千億參數(shù)語(yǔ)言大模型PaLM,并微調(diào)出跨模態(tài)模型PaLM-E2023.1.232023.2.2開(kāi)啟對(duì)OpenAI的第三輪投資宣布將OpenAI相關(guān)產(chǎn)品導(dǎo)入旗下云計(jì)算、Office、Bing、Viva

Sales等產(chǎn)品中2023.2.7正式推出由ChatGPT支持的最新版本Bing(必應(yīng))搜索引擎和Edge瀏覽器2023.2.22宣布為iPhone和Android發(fā)布新的必應(yīng)和Edge預(yù)覽版應(yīng)用程序,其中包括語(yǔ)音搜索和訪問(wèn)其AI聊天機(jī)器人等新功能微軟宣布將發(fā)布集成ChatGPT能力的Office,并已經(jīng)開(kāi)始在Azure公有云服務(wù)中提供OpenAI模型OpenAI公開(kāi)發(fā)布大型多模態(tài)模型GPT-4,與ChatGPT所用的模型相比,GPT-4不僅能夠處理圖像內(nèi)容,且回復(fù)的準(zhǔn)確性有所提高微軟公司宣布將通過(guò)Microsoft

365

Copilot將下一代AI的強(qiáng)大功能引入其工作場(chǎng)所生產(chǎn)力工具微軟2023.3.82023.3.142023.3.163資料:各公司官網(wǎng),中信證券研究部1.1

美股科技巨頭近期在AI領(lǐng)域的動(dòng)作

微軟三次投資OpenAI,推進(jìn)公司人工智能水平。微軟于2023年1月23日宣布將向OpenAI開(kāi)展“多年、百億級(jí)美元”的投資,此前在2019年微軟已經(jīng)投資10億美元,并在2021年再次投資。此次合作后,微軟將增加對(duì)超級(jí)計(jì)算系統(tǒng)的投資,在Azure中部署OpenAI程序,包括GPT、DALLE、Codex,同時(shí)微軟將作為OpenAI的獨(dú)家云提供商,Azure將為OpenAI提供所有的工作負(fù)載。

旗下產(chǎn)品與ChatGPT深度融合,未來(lái)有望加速AI產(chǎn)業(yè)化落地。此次合作中,微軟宣布將把OpenAI的相關(guān)產(chǎn)品介入到旗下云及其他產(chǎn)品中,我們認(rèn)為此舉對(duì)微軟云計(jì)算以及其他業(yè)務(wù)的發(fā)展具備重要意義:1)強(qiáng)化Azure在AI領(lǐng)域的能力,豐富微軟在語(yǔ)義等領(lǐng)域的實(shí)力。2)與旗下Office產(chǎn)品達(dá)成更強(qiáng)的協(xié)同,以ChatGPT為代表的相關(guān)產(chǎn)品對(duì)文字補(bǔ)寫、代碼輔助編輯等具備特殊優(yōu)勢(shì)。3)引入bing搜索,優(yōu)化體驗(yàn)。微軟將其引入搜索后,將對(duì)搜索結(jié)果的匹配以及體驗(yàn)帶來(lái)改善。微軟投資OpenAI歷史微軟戰(zhàn)略布局AI的意義201920212023???微軟宣布投資OpenAI10億美元,此時(shí)OpenAI更新GPT2模型,將參數(shù)從1.24億提升至7.74億。???強(qiáng)化Azure在AI領(lǐng)域的能力,豐富微軟在語(yǔ)義等領(lǐng)域的實(shí)力。云微軟對(duì)OpenAI追加第二輪投資,OpenAI發(fā)布基于GPT3的能夠連接圖像與穩(wěn)步的神經(jīng)網(wǎng)絡(luò)CLIP,發(fā)布從文標(biāo)題創(chuàng)建圖像的模型DALL·E。與旗下Office產(chǎn)品達(dá)成更強(qiáng)的協(xié)同,以ChatGPT為代表的相關(guān)產(chǎn)品對(duì)文字補(bǔ)寫、代碼輔助編輯等具備特殊優(yōu)勢(shì)。Office微軟宣布將向OpenAI開(kāi)展“多年、百億級(jí)美元”的投資。引入Bing搜索,優(yōu)化體驗(yàn)。微軟將其引入搜索后,將對(duì)搜索結(jié)果的匹配以及體驗(yàn)帶來(lái)改善。Bing搜索4資料:OpenAI官網(wǎng),微軟官網(wǎng),中信證券研究部資料:OpenAI官網(wǎng),微軟官網(wǎng),中信證券研究部1.1

美股科技巨頭近期在AI領(lǐng)域的動(dòng)作

谷歌一直致力于AI技術(shù)的研發(fā)與實(shí)踐,是該領(lǐng)域的領(lǐng)先者。2016年3月,谷歌DeepMind研發(fā)的AlphaGo在圍棋人機(jī)大賽中戰(zhàn)勝韓國(guó)職業(yè)九段棋手李世石,成為AI領(lǐng)域發(fā)展的標(biāo)志性事件之一。從論文數(shù)量看,2021年谷歌有177篇論文被NeurlPS(目前人工智能算法的最高期刊)接收并發(fā)表,數(shù)量遙遙領(lǐng)先。

TPU

+

Tensorflow軟硬一體,構(gòu)筑AI護(hù)城河。谷歌基于早期技術(shù),在DistBelief基礎(chǔ)上創(chuàng)造了Tensorflow的AI框架;同時(shí),公司研發(fā)出專屬Tensorflow的運(yùn)算芯片TPU,以軟件+硬件的形式,實(shí)現(xiàn)獨(dú)特的AI技術(shù)能力。在神經(jīng)網(wǎng)絡(luò)算法方面,2017年谷歌推出的Transformer也逐漸成為了主流,為大模型的訓(xùn)練提供技術(shù)支持。谷歌TPU技術(shù)能力全球商用AI框架市場(chǎng)份額結(jié)構(gòu)(2021)發(fā)布日期40.0%35.0%30.0%25.0%20.0%15.0%10.0%5.0%芯片名稱性能應(yīng)用深度學(xué)習(xí)推理TPU201628nm制程,主頻700MHz機(jī)器學(xué)習(xí)訓(xùn)練與推理,可以在Google

computer

engine運(yùn)行180TFLOPs浮點(diǎn)運(yùn)算,64GB

HBMTPUv2TPUv32017420TFLOPs浮點(diǎn)運(yùn)算,128GB

HBM更廣泛的深度學(xué)習(xí)訓(xùn)練和推理20182018EdgeTPU企業(yè)級(jí)機(jī)器學(xué)習(xí)任務(wù),主要為AI推理高吞吐量串流資料每秒11.5千萬(wàn)億次浮點(diǎn)運(yùn)算、4TB

HBM、二維環(huán)面網(wǎng)狀網(wǎng)絡(luò)TPUv2Pod20192019深度學(xué)習(xí)推理深度學(xué)習(xí)推理0.0%TPUv3Pod超過(guò)100千萬(wàn)億次浮點(diǎn)運(yùn)算、TensorflowOpenCVPyTorchKerasOthers32TB

HBM5資料:智東西,谷歌TPU網(wǎng)站,中信證券研究部資料:AIwatch,中信證券研究部測(cè)算1.2主流軟件企業(yè)廣泛布局AI領(lǐng)域主流軟件企業(yè)廣泛布局AI領(lǐng)域子領(lǐng)域公司應(yīng)用Five9在其云聯(lián)絡(luò)中心利用人工智能作為虛擬客服,實(shí)時(shí)傳遞客戶請(qǐng)求。RingCentralZoom對(duì)話式人工智能AI

SmartAssist分析客戶需求并幫助客戶更快地獲得響應(yīng)。發(fā)布虛擬客服,建立全渠道聯(lián)絡(luò)中心,幫助客戶將其人力用于更復(fù)雜的疑問(wèn)。使用對(duì)話智能技術(shù)來(lái)幫助企業(yè)達(dá)成交易并改善他們的銷售流程。NLP(自然語(yǔ)言處理)ZoomInfoQualtricsSprinklrAppian利用文本情感分析,通過(guò)其管理平臺(tái)和應(yīng)用程序,根據(jù)用戶生成的數(shù)據(jù)創(chuàng)建報(bào)告。其客戶體驗(yàn)管理(CXM)平臺(tái)對(duì)來(lái)自多個(gè)渠道的非結(jié)構(gòu)化數(shù)據(jù)利用人工智能進(jìn)行文本情感分析,以了解客戶是如何看待一個(gè)品牌的。利用計(jì)算機(jī)視覺(jué)進(jìn)行圖像處理和信息&數(shù)據(jù)提取,打通工作流程自動(dòng)化的全流程計(jì)算機(jī)視覺(jué)AdobeSensei將計(jì)算機(jī)視覺(jué)進(jìn)一步擴(kuò)展到設(shè)計(jì)空間,作為Adobe

Experience和Creative

Cloud平臺(tái)中的AI應(yīng)用層通過(guò)其自動(dòng)化引擎(包括RPA

Hub和文檔智能應(yīng)用程序)

,允許用戶實(shí)現(xiàn)人工智能驅(qū)動(dòng)的計(jì)算機(jī)視覺(jué)任務(wù)監(jiān)控和工作流自動(dòng)化。ServiceNow6資料:各公司官網(wǎng),中信證券研究部1.2主流軟件企業(yè)廣泛布局AI領(lǐng)域主流軟件企業(yè)廣泛布局AI領(lǐng)域子領(lǐng)域公司應(yīng)用Zeta在Zeta數(shù)據(jù)云上構(gòu)建預(yù)測(cè)建模應(yīng)用程序,允許用戶全面收集客戶信息,并全面分析留存行為等。利用其人工智能產(chǎn)品Einstein,通過(guò)銷售云平臺(tái)為銷售團(tuán)隊(duì)提供了廣泛的預(yù)測(cè)建模用例。預(yù)測(cè)模型SalesforceDatadogSplunk其Watchdog引擎自動(dòng)檢測(cè)關(guān)鍵運(yùn)行狀況性能異常,通過(guò)自動(dòng)化分析解決代碼問(wèn)題并確定問(wèn)題依賴關(guān)系,還可以修復(fù)工作流問(wèn)題并發(fā)現(xiàn)延遲異常值。自動(dòng)關(guān)聯(lián)事件以縮短其平均解決時(shí)間;提供異常檢測(cè)以在問(wèn)題影響性能之前預(yù)測(cè)和預(yù)防問(wèn)題;其機(jī)器學(xué)習(xí)工具包為用戶提供了監(jiān)控和生成警報(bào)的能力。異常檢測(cè)Elastic使用AI/ML分析最終用戶、基礎(chǔ)設(shè)施和應(yīng)用程序監(jiān)控?cái)?shù)據(jù)來(lái)檢測(cè)異常,并加速問(wèn)題解決。Palo

Alto

Networks

在安全方面使用異常檢測(cè)技術(shù),為云提供防火墻和保護(hù)產(chǎn)品。CrowdStrike利用AI/ML進(jìn)行異常檢測(cè),以實(shí)現(xiàn)網(wǎng)絡(luò)安全解決方案。7資料:各公司官網(wǎng),中信證券研究部1.3

AI產(chǎn)業(yè)結(jié)構(gòu)AI產(chǎn)業(yè)結(jié)構(gòu)硬件云服務(wù)基建層算法ResNetOPT-175BMake-A-VideoGPT-3CodexDALL-E2AlphaZeroAlphaFoldGatoBERTViTDreamFusionConstitutional

AI模型獲取數(shù)據(jù)準(zhǔn)備模型訓(xùn)練模型評(píng)估模型部署模型監(jiān)控工作流大語(yǔ)言模型多模態(tài)模型智能控制:機(jī)器人、自動(dòng)駕駛、邊緣計(jì)算&聯(lián)邦學(xué)習(xí)自然語(yǔ)言:NLP開(kāi)發(fā)、文案生成(電商/新聞/法律)、對(duì)話機(jī)器人(銷售客服/情感陪伴)、筆記圖片:圖片生成、圖片識(shí)別、3D建模生成AL

for

science:醫(yī)學(xué)、物理、化學(xué)、材料科學(xué)應(yīng)用音視頻:音頻識(shí)別、音視頻剪輯、音視頻生成、Avatar生成AI安全:模型安全、可控生成、AI可解釋性機(jī)器語(yǔ)言:代碼生成(關(guān)注RPA交互生成問(wèn)題)、8資料:海外獨(dú)角獸微信公眾號(hào),中信證券研究部1.3

AI產(chǎn)業(yè)結(jié)構(gòu)機(jī)器學(xué)習(xí)工作流拆解數(shù)據(jù)準(zhǔn)備模型訓(xùn)練模型部署產(chǎn)品整合Data

Opsoutput:矩陣(X,y)role:數(shù)據(jù)工程師o(wú)utput:模型f(X,y)role:數(shù)據(jù)科學(xué)家output:f(X_hat)→y_hatrole:算法工程師o(wú)utput:產(chǎn)品生產(chǎn)環(huán)境role:后端工程師工作流管理:Prefect,Airflow數(shù)據(jù)標(biāo)注(y)Sacle,Snorkel特征倉(cāng)庫(kù)(X)Tecton,FeastML

APIsOpenAI,Cohere,AWS,AzureDataInfraETL模型庫(kù)Hugging

Face產(chǎn)品數(shù)據(jù)科學(xué)平臺(tái)Jupyter,Databricks,Sagemaker,ColabBI

Tools查詢工具:Hive,Presto數(shù)據(jù)科學(xué)工具:Spark,Numpy,Pandas實(shí)驗(yàn)管理(模型性能)Weight

and

Bias,Neptune模型部署和serving(使用性能)BentoML,OctoML,Tensorflow/Pytorch/Ray

ServingML框架:Scikit-learn,XGBoostDL框架:Tensorflow,PyTorchRL框架:Gym,Dopamine向量搜索數(shù)據(jù)庫(kù)Pinecone模型監(jiān)控(模型可用性與解釋性)Arise,Fiddler,Arthur,WhyLab分布式計(jì)算:Ray(Anyscale),Dask9資料:海外獨(dú)角獸微信公眾號(hào),中信證券研究部二、科技巨頭大模型比較及格局推演102.1ChatGPT:加入人類反饋學(xué)習(xí),優(yōu)化問(wèn)題、答案之間匹配精準(zhǔn)度ChatGPT發(fā)展歷程2018.62019.12020.52022.12022.112023.3GPT-1GPT-2GPT-3InstructGPTChatGPTGPT-41.17億15億1750億13億未公布未公布參數(shù)量在大規(guī)模數(shù)據(jù)上對(duì)Transformer

模型進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練,再在小規(guī)模有監(jiān)督數(shù)據(jù)集

解決零次學(xué)習(xí)問(wèn)題上精細(xì)調(diào)節(jié)。

(zero-shot),使得該模型在測(cè)試常識(shí)推

模型更具通用性。理和閱讀理解的數(shù)據(jù)集上獲得了最先進(jìn)的結(jié)果數(shù)據(jù)量指數(shù)級(jí)增加,可利用少量樣本學(xué)習(xí),貼近人腦學(xué)習(xí)模式。在數(shù)據(jù)收集設(shè)置上優(yōu)化連接大量真實(shí)語(yǔ)料庫(kù),能夠支持多輪對(duì)話、結(jié)果修正,人機(jī)交互效果更好、更快、更高效。模型處理復(fù)雜問(wèn)題的能力進(jìn)一步提升,同時(shí)解決了部分對(duì)于辦公軟件最重要的多模態(tài)輸入問(wèn)題。引入RLHF,微調(diào)后能更好地遵循用戶意圖,泛化能力極大提升。此外,基于GPT-3模模型更新型微調(diào)在其他領(lǐng)域包括代碼生成、圖像生成、數(shù)學(xué)算數(shù)等產(chǎn)生了應(yīng)用。11資料:OpenAI,中信證券研究部2.1ChatGPT:加入人類反饋學(xué)習(xí),優(yōu)化問(wèn)題、答案之間匹配精準(zhǔn)度ChatGPT的技術(shù)邏輯:RLHF的主要改變?cè)谟谌斯けO(jiān)督數(shù)據(jù)與調(diào)整后的獎(jiǎng)勵(lì)模型12資料:OpenAI,中信證券研究部2.1ChatGPT:加入人類反饋學(xué)習(xí),優(yōu)化問(wèn)題、答案之間匹配精準(zhǔn)度Real

Toxicity數(shù)據(jù)集likehoodTruthfulQA

數(shù)據(jù)集likehood0.240.230.220.210.20.450.40.350.30.250.20.150.10.190.180.170.050GPTInstructGPTGPTInstructGPT有監(jiān)督微調(diào)有監(jiān)督微調(diào)資料:OpenAI,中信證券研究部

注:縱軸為與真實(shí)答案的最大相似度資料:OpenAI,中信證券研究部

注:縱軸為與真實(shí)答案的最大相似度Hallucination數(shù)據(jù)集likehoodCustomer

Assistant

Appropriate數(shù)據(jù)集likehood0.450.40.920.90.350.30.880.860.840.820.80.250.20.150.10.780.760.050GPTInstructGPTGPTInstructGPT有監(jiān)督微調(diào)有監(jiān)督微調(diào)資料:OpenAI,中信證券研究部

注:縱軸為與真實(shí)答案的最大相似度資料:OpenAI,中信證券研究部

注:縱軸為與真實(shí)答案的最大相似度132.1GPT-4:增強(qiáng)求解能力、多模態(tài)、安全性GPT-4相比于3.5在大多數(shù)AP考試科目上都取得了顯著進(jìn)步加入了更多人類生成數(shù)據(jù)以及專家數(shù)據(jù)多模態(tài)能力成為GPT-4加入的新亮點(diǎn)安全性提升與編造內(nèi)容的減少資料:本頁(yè)所有圖片均來(lái)自O(shè)penAI2.2

微軟的商業(yè)化途徑:云計(jì)算層面

微軟提供OpenAI

Service服務(wù),提供OpenAI系列Model的Fine

Tuning、部署、推理、監(jiān)控等全方位服務(wù),而Azure與AI相關(guān)的機(jī)器學(xué)習(xí)平臺(tái)、數(shù)據(jù)湖倉(cāng)等工具亦將配合產(chǎn)生作用。我們認(rèn)為,與OpenAI的全面合作將有助于快速提升公司在AI

PaaS領(lǐng)域的市場(chǎng)份額,推動(dòng)相關(guān)收入和整體利潤(rùn)率提升。微軟AI在自身的商業(yè)化資料:微軟官網(wǎng)152.2

微軟的商業(yè)化途徑:軟件層面

會(huì)議產(chǎn)品-Teams

premium:Teams

Premium定價(jià)為10美元/User,在2023年7月前提供30%的折扣。相較于基礎(chǔ)版本產(chǎn)品,Teams

Premium最大的亮點(diǎn)就是Chat

GPT能力的融入。

代碼托管&編寫-GitHub:GitHub

Copilot由OpenAI

Codex模型進(jìn)行賦能,伴隨GPT模型的持續(xù)更新,Copilot底層的模型能力亦將快速迭代升級(jí),一方面將加速Copilot功能的滲透;另一方面將有利于Devops流程向GitHub平臺(tái)的遷移,使微軟在Devops環(huán)節(jié)獲得更大份額。

文檔編輯-Office:OpenAI

GPT模型和Office

Word、Outlook和PowerPoint等套件的整合將加速客戶向E3/E5版本的遷移進(jìn)程,進(jìn)而加速Office

365客戶ARPU的提升。每10%

Office

365

E3席位向E5席位的轉(zhuǎn)化將帶來(lái)50億美元以上的業(yè)績(jī)?cè)龊瘛?/p>

ERP&CRM產(chǎn)品-Dynamics

365:Viva

sales定價(jià)為40

USD/用戶/月。集成ChatGPT能力后,Viva

sales能夠?yàn)楦黝悎?chǎng)景自動(dòng)生成建議的郵件回復(fù)內(nèi)容,這種集成將助力Viva

sales的推廣,進(jìn)而提升微軟在CRM市場(chǎng)的整體競(jìng)爭(zhēng)力。軟件:AI滲透率每提升10%預(yù)計(jì)對(duì)應(yīng)百億美元收入增長(zhǎng)1、產(chǎn)品Githuboffice

365Teamspower

apps合計(jì)功能付費(fèi)用戶數(shù)(億)用戶AI能力訂閱費(fèi)用/月(美元)代碼托管&編寫文檔編輯0.9542.8110101010視頻會(huì)議流程自動(dòng)化等8.752、敏感性測(cè)試:用戶AI訂閱率1%微軟年新增收入(億美元)11212%5%5310%15%20%10515821016資料:微軟公司財(cái)報(bào),中信證券研究部測(cè)算2.2微軟的商業(yè)化途徑:在線搜索層面微軟上線新版Bing搜索引入GPT能力

搜索廣告份額每提升1pcts,則對(duì)應(yīng)收入增長(zhǎng)20億美元。2022年,全球整個(gè)數(shù)字廣告市場(chǎng)超過(guò)5萬(wàn)億美元,微軟最大的兩個(gè)數(shù)字

業(yè)

務(wù)

及LinkedIn。根據(jù)emarketer數(shù)據(jù),全球在線搜索&新聞廣告市場(chǎng)規(guī)模在2000億美元以上,未來(lái)若Bing在在線搜索市場(chǎng)份額每提升1pct,預(yù)計(jì)對(duì)應(yīng)增厚公司廣告收入約20億美元,與當(dāng)前公司在全球搜索市場(chǎng)大約3%的市占率相比,遠(yuǎn)期空間值得期待。資料:Bing,中信證券研究部瀏覽器Edge下載量爆發(fā)式增長(zhǎng),Bing份額提升值得期待17資料:七麥數(shù)據(jù)2.3谷歌:大模型儲(chǔ)備豐富,有待商業(yè)化落地谷歌大型語(yǔ)言模型總結(jié)LLM描述主要用途基于Transformer的雙向編碼器表示;2019年首次推出,并整合到谷歌搜索。BERTLaMDAPaLM改進(jìn)的自然語(yǔ)言處理,以回答更復(fù)雜的搜索查詢基于開(kāi)放式對(duì)話的文本生成對(duì)話應(yīng)用語(yǔ)言模型;建立在Transformer上的神經(jīng)語(yǔ)言模型,基于對(duì)話的文本進(jìn)行訓(xùn)練,能夠進(jìn)行更多開(kāi)放式對(duì)話;在谷歌

I/O

2021首次亮相,LaMDA

2在一年后(谷歌

I/O

2022)亮相。基于谷歌提出的下一代

AI

架構(gòu)Pathways訓(xùn)練,支持泛化任務(wù)的處理;單一模型能夠很好的支持語(yǔ)言理解和生成、推理、模式識(shí)別、翻譯、代碼生

使單個(gè)模型具備領(lǐng)域泛化和任務(wù)泛化能力成等不同功能。在互聯(lián)網(wǎng)文本數(shù)據(jù)上進(jìn)行訓(xùn)練并針對(duì)對(duì)話進(jìn)行優(yōu)化;與用戶交談并回答問(wèn)題,同時(shí)實(shí)時(shí)使用谷歌搜索出相關(guān)的信息來(lái)支持它的答案Sparrow利用RLHF來(lái)改善其行為并出現(xiàn)降低不正確答案的風(fēng)險(xiǎn)。18資料:Google,中信證券研究部2.3微軟vs谷歌OpenAI與Google大型語(yǔ)言模型研發(fā)歷程2018年6月2022年3月OpenAI發(fā)布基于TransformerDeconder的GPT-1,1.1億參數(shù)OpenAI發(fā)布2019年2月OpenAI發(fā)布GPT-

OpenAI發(fā)布GPT-2,15億參數(shù)

3,1750億參數(shù)2020年5月InstructGPT,用到Instruction

Tuning和RLHF2022年12月OpenAI發(fā)布ChatGPT2017年6月Google發(fā)布Transformer,成為后來(lái)所有LLM的基礎(chǔ)架構(gòu);DeepMind提出RLHF方法2018年10月Google發(fā)布編碼器的BERT(最大3.5億參數(shù)),用于微調(diào)下游任務(wù)2019年10月Google發(fā)布基于TransformerDecoder的T5,兼容BERT和GPT的下游任務(wù)2021年10月

2021年11月2022年1月2022年4月2022年9月Google發(fā)布FLAN,轉(zhuǎn)向DeepMind發(fā)表Gopher(2800億

(1370億參數(shù)),稱

(5400億參數(shù),

Sparrow,加入Google再發(fā)LaMDA

Google發(fā)布PaLM

DeepMind發(fā)布decoder-only,

參數(shù)),加LLM

其具有“意識(shí)”提出Instruction

大戰(zhàn)Tuningdecoder-only),

RLHF和Retrival提出神奇的思維鏈

(GoogleSearch)19資料:Google,OpenAI,中信證券研究部2.3微軟vs谷歌OpenAI與Google部分大型語(yǔ)言模型對(duì)比LaMDASparrowChatGPT/

InstructGPT組織GoogleDeepMindOpenAI能否公開(kāi)訪問(wèn)否有限否參數(shù)量1370700億1700億/13億億預(yù)訓(xùn)練語(yǔ)料庫(kù)大?。ㄔ~數(shù))模型是否可以訪問(wèn)網(wǎng)絡(luò)有監(jiān)督微調(diào)2.81T是1.4T是未知否有有有RLHF有有無(wú)人為制定的安全規(guī)則有無(wú)有20資料:Google,OpenAI,中信證券研究部2.3微軟vs谷歌為什么不是谷歌關(guān)鍵因素技術(shù)路徑OpenAI谷歌同一路線,資源聚焦:明星眾多,內(nèi)部賽馬,資源分散:從

18

沿

GPT

續(xù)

發(fā)

,

過(guò)GPT1/2/3/3.5,InstructGPT的不斷技術(shù)探索。采用賽馬制,多個(gè)模型的團(tuán)隊(duì),方向分散以產(chǎn)品為導(dǎo)向,形成數(shù)據(jù)飛輪:注重發(fā)論文,成果未做產(chǎn)品化:在研發(fā)過(guò)程中未引入真實(shí)用戶數(shù)據(jù),而是科研人員自己編寫的指令。積極推出產(chǎn)品,迅速獲取用戶,獲取用戶反饋數(shù)據(jù)訓(xùn)練出更好的模型,實(shí)現(xiàn)良性循環(huán)。OpenAI發(fā)布GPT-3后迅速開(kāi)放商用API服務(wù),獲取真實(shí)

模型路線選擇:科研思維用戶數(shù)據(jù)。發(fā)布了很多模型:語(yǔ)言模型PaLM、GLaM、對(duì)話模型ChatGPT的訓(xùn)練過(guò)程:LaMDA、LaMDA2等,但都未產(chǎn)品化。

采用GPT-3API獲取的真實(shí)用戶請(qǐng)求微調(diào)基礎(chǔ)模型DeepMind以前重點(diǎn)關(guān)注AI4S,2021年才重視大模型方向,研發(fā)的基礎(chǔ)語(yǔ)言模型Gogher、Chinchilla和對(duì)話模型Sparrow均未產(chǎn)品化。引入RLHF訓(xùn)練機(jī)制,采用人工標(biāo)注的數(shù)據(jù),通過(guò)人類的反饋,針對(duì)性地進(jìn)行模型優(yōu)化。資料:智源研究院,中信證券研究部212.4產(chǎn)業(yè)影響:向傳統(tǒng)搜索引擎為主+大語(yǔ)言模型為輔演變

目前ChatGPT的技術(shù)路徑難以在較短時(shí)間內(nèi)解決搜索成本的問(wèn)題,因此從分場(chǎng)景限制用量的思路出發(fā),中短期內(nèi)ChatGPT可以通過(guò)部分技術(shù)改進(jìn)輔助傳統(tǒng)搜索引擎實(shí)現(xiàn)用戶體驗(yàn)大幅提升。ChatGPT的成功不會(huì)給搜索產(chǎn)業(yè)帶來(lái)顛覆性的新入局者,但會(huì)推動(dòng)谷歌等搜索巨頭加快迭代大語(yǔ)言模型輔助傳統(tǒng)搜索引擎的新格局。將ChatGpt以側(cè)欄模式作為對(duì)傳統(tǒng)搜索引擎的補(bǔ)充將答案產(chǎn)生的引用注明給用戶,使其快速檢驗(yàn)回答的可靠性資料:Google,中信證券研究部資料:Deepmind,中信證券研究部222.4產(chǎn)業(yè)影響:使AI算法模型邁向新階段

ChatGPT的成功一改往日大模型依靠堆積數(shù)據(jù)量的訓(xùn)練方式,RLHF(人類反饋強(qiáng)化學(xué)習(xí))和Reward

model(獎(jiǎng)勵(lì)模型)是其核心訓(xùn)練邏輯。ChatGPT的成功推動(dòng)AI算法模型展現(xiàn)出更加明晰的發(fā)展脈絡(luò),使行業(yè)邁向了兼顧經(jīng)濟(jì)性與可使用性的新發(fā)展階段,展望未來(lái),模型開(kāi)放+快速優(yōu)化迭代或?qū)⒊蔀锳I實(shí)現(xiàn)大規(guī)模應(yīng)用落地的終極發(fā)展形態(tài)。AI算法模型發(fā)展歷史及對(duì)應(yīng)表現(xiàn)23資料:中信證券研究部繪制2.4產(chǎn)業(yè)影響:有望加快AI產(chǎn)業(yè)商業(yè)化落地進(jìn)程OpenAI商業(yè)模式:目前以API調(diào)用、出售Token等為主GPT-4ModelPromptComletion8Kcontext32Kcontext$0.03/1K

tokens$0.06/1K

tokens$0.06/1K

tokens$0.12/1K

tokensChatModelUsagegpt-3.5-turbo$0.002/1K

tokensInstructGPTAda(Fastest)Babbage$0.0004/1K

tokens$0.0005/1K

tokens$0.0020/1K

tokens$0.0200/1K

tokensCurieDavinci(Most

powerful)Fine-tuningmodelsModelTrainingUsageAda$0.0004/1K

tokens$0.0006/1K

tokens$0.0030/1K

tokens$0.0300/1K

tokens$0.0016/1K

tokens$0.0024/1K

tokens$0.0120/1K

tokens$0.1200/1K

tokensBabbageCurieDavinciEmbedding

modelsModelAdaUsage$0.0004/1K

tokens24資料:OpenAI,中信證券研究部2.5、格局演變:技術(shù)資本積累豐厚,科技巨頭有望占據(jù)主導(dǎo)地位

開(kāi)源vs閉源:由于具有資本、研發(fā)、用戶等多個(gè)維度的領(lǐng)導(dǎo)地位,科技巨頭一般引領(lǐng)基礎(chǔ)大模型的發(fā)展,一般情況下科技巨頭會(huì)選擇將落后一個(gè)版本的模型開(kāi)源(比如GPT-2開(kāi)源,GPT-3則為閉源);此外其他一些創(chuàng)業(yè)團(tuán)隊(duì)或者科研組織也有可能會(huì)貢獻(xiàn)開(kāi)源模型,在HuggingFace這類開(kāi)源社區(qū)供開(kāi)發(fā)者調(diào)用。整體上來(lái)說(shuō),由科技巨頭主導(dǎo)的閉源模型在技術(shù)上更為領(lǐng)先,而開(kāi)源模型由于能夠靈活調(diào)整、自行優(yōu)化也會(huì)有對(duì)應(yīng)的需求(比如國(guó)內(nèi)多數(shù)互聯(lián)網(wǎng)廠商基于BERT進(jìn)行開(kāi)發(fā))。

科技巨頭vs創(chuàng)業(yè)公司:由于能夠在模型、算法層面實(shí)現(xiàn)引領(lǐng),同時(shí)在基礎(chǔ)設(shè)施等層面優(yōu)勢(shì)巨大,科技巨頭將主導(dǎo)AI產(chǎn)業(yè)的發(fā)展。而創(chuàng)業(yè)公司有望憑借下游細(xì)分場(chǎng)景下獨(dú)特的數(shù)據(jù)優(yōu)勢(shì)實(shí)現(xiàn)差異化的應(yīng)用創(chuàng)新,比如基于生物醫(yī)藥的數(shù)據(jù)輔助進(jìn)行醫(yī)療類文檔的生成等等。開(kāi)源社區(qū)追趕LLM模型時(shí)間線閉源模型開(kāi)源模型2022年5月OPT(175B)2021年9月FLAN(137B)年

月2022

3年

月2022

8GLM(130B)Chinchilla

70B()2020年6月GPT-3(175B)2022年1月LaMDA(280B)2022年4月GPT-NeoX(20B)2022年6月BLOOM(176B)25資料:海外獨(dú)角獸微信公眾號(hào),中信證券研究部2.5、格局演變:技術(shù)資本積累豐厚,科技巨頭有望占據(jù)主導(dǎo)地位ChatGPT產(chǎn)業(yè)結(jié)構(gòu)下游應(yīng)用算法模型算力基礎(chǔ)Apps下游應(yīng)用沒(méi)有專有模型的面向最終用戶的B2B和B2C應(yīng)用程序End-to-End

Apps如:Jasper,

Github

Copilot具有專有模型的面向最終用戶的應(yīng)用程序模型中心共享與托管模型閉源基礎(chǔ)模型通過(guò)API公開(kāi)的大規(guī)模預(yù)訓(xùn)練模型如:GPT-3

(OpenAl)如:Hugging

Face,

Replicate算法模型如:Midjourney,

Runway開(kāi)源基礎(chǔ)模型如:StableDiffusion

(Stability)云計(jì)算平臺(tái)在云部署模型中向開(kāi)發(fā)人員公開(kāi)的計(jì)算硬件如:

AWS,

GCP,

Azure,

Coreweave算力基礎(chǔ)計(jì)算硬件針對(duì)模型訓(xùn)練和推理工作負(fù)載優(yōu)化的芯片如:GPUs(Nvidia),

TPUs

(Google)26資料:a16z,中信證券研究部附錄:美股科技公司財(cái)報(bào)中AI相關(guān)表述27美股科技巨頭財(cái)報(bào)表述:微軟微軟財(cái)報(bào)中相關(guān)表述

戰(zhàn)略:我們正在見(jiàn)證基礎(chǔ)模型能力的非線性改進(jìn),我們正在將其作為平臺(tái)能力提供。隨著客戶選擇他們的云供應(yīng)商并投資于新的工作負(fù)載,我們完全有能力抓住成為AI領(lǐng)導(dǎo)者的機(jī)會(huì)。我們?cè)谠贫藫碛凶顝?qiáng)大的人工智能超算基礎(chǔ)設(shè)施,OpenAI等客戶和合作伙伴正在使用它來(lái)訓(xùn)練最先進(jìn)的模型和服務(wù),包括ChatGPT。

平臺(tái):就在上周,我們宣布了Azure

OpenAI服務(wù)的公開(kāi)可用,已經(jīng)有超過(guò)兩百多個(gè)客戶開(kāi)始使用,我們將很快添加對(duì)于ChatGPT的支持。合作:我們宣布完成了與OpenAI的下一階段協(xié)議,很高興成為他們的獨(dú)家云供應(yīng)商。隨著公司繼續(xù)推動(dòng)人工智能最先進(jìn)的技術(shù),公司將在消費(fèi)者和企業(yè)產(chǎn)品中部署OpenAI的模型。

應(yīng)用:GitHub

Copilot是為這一時(shí)代構(gòu)建的第一個(gè)大規(guī)模AI產(chǎn)品,從根本上改變了開(kāi)發(fā)人員的生產(chǎn)力。到目前為止,已有100多萬(wàn)人使用了Copilot。本季度,我們將Copilot引入企業(yè),我們看到了Duolingo、Lemonade和大眾汽車等公司的強(qiáng)烈興趣和早期采用。應(yīng)用:我們?cè)赗PA方面處于領(lǐng)先地位,Power

Automate擁有45000多名客戶(同比增長(zhǎng)超過(guò)50%),我們正在讓所有人都更容易實(shí)現(xiàn)重復(fù)任務(wù)的簡(jiǎn)化,引入新的人工智能功能,將自然語(yǔ)言提示轉(zhuǎn)化為復(fù)雜的工作流程。基礎(chǔ)設(shè)施:我們從根本上相信,下一波大的浪潮將是人工智能主導(dǎo);我們還認(rèn)為,只要能夠抓住這些浪潮,然后讓這些浪潮影響我們技術(shù)堆棧的每個(gè)部分,并創(chuàng)造新的解決方案和新機(jī)會(huì),就能創(chuàng)造更多企業(yè)價(jià)值。在過(guò)去3-4年,我們一直在非常努力的構(gòu)建訓(xùn)練基礎(chǔ)設(shè)施,現(xiàn)在也在構(gòu)建推理基礎(chǔ)設(shè)施。因?yàn)橐坏┠阍趹?yīng)用程序中使用AI,它就從繁重的訓(xùn)練任務(wù)變成了推理任務(wù)。因此,Core

Azure本身正在為核心基礎(chǔ)設(shè)施業(yè)務(wù)的演進(jìn)而進(jìn)行轉(zhuǎn)型。資料:微軟2022Q4財(cái)報(bào)業(yè)績(jī)發(fā)布會(huì),中信證券研究部28美股科技巨頭財(cái)報(bào)表述:谷歌谷歌財(cái)報(bào)中相關(guān)表述

領(lǐng)先地位:人工智能是我們今天正在研究的最深刻的技術(shù)。隨著人工智能達(dá)到拐點(diǎn),我們才華橫溢的研究人員、基礎(chǔ)設(shè)施和技術(shù)使我們處于非常有利的位置。6年多前,我第一次談到谷歌是一家AI-first

company。事實(shí)上,我們2017年提出并發(fā)布的Transformer,以及我們?cè)跀U(kuò)散模型方面的開(kāi)創(chuàng)性工作,是許多生成式人工智能應(yīng)用的基礎(chǔ)。近期動(dòng)作:將這些技術(shù)飛躍轉(zhuǎn)化為幫助數(shù)十億人的產(chǎn)品,是我們公司一直在努力的目標(biāo)。我們將在符合原則和標(biāo)準(zhǔn)的前提下大膽地開(kāi)展這項(xiàng)工作,在接下來(lái)的幾個(gè)月里,您將看到我們?cè)谌箢I(lǐng)域的巨大機(jī)遇:

1)大模型,我們此前已經(jīng)發(fā)布了LaMDA和PaLM的研究成果,其中PaLM是業(yè)界最大、最復(fù)雜的模型。在接下來(lái)的幾個(gè)月內(nèi),我們將從LaMDA開(kāi)始陸續(xù)提供這些語(yǔ)言模型,人們從而能夠直接參與其中。這樣就能夠幫助我們持續(xù)獲得真實(shí)世界的反饋、測(cè)試并安全地改進(jìn)模型。在搜索方面,BERT和MUM等語(yǔ)言模型已經(jīng)改進(jìn)了4年的搜索能力,包括顯著優(yōu)化了搜索排名及融入Google

Lens等多模態(tài)搜索。很快,人們將能夠與我們最新、最強(qiáng)大的語(yǔ)言模型直接交互,以實(shí)驗(yàn)和創(chuàng)新的方式作為搜索伴侶。

2)開(kāi)發(fā)工具,公司將為開(kāi)發(fā)人員、創(chuàng)作者、合作伙伴提供全新的工具和API。這將使得他們能夠創(chuàng)新和構(gòu)造自己的應(yīng)用程序,并在我們的語(yǔ)言、多模態(tài)和其他人工智能模型之上發(fā)現(xiàn)人工智能新的可能性。3)其他方面,谷歌云正在通過(guò)Cloud

AI平臺(tái)向客戶提供領(lǐng)先的技術(shù)輸出,包括基礎(chǔ)設(shè)施和Vertex

AI等為開(kāi)發(fā)者和數(shù)據(jù)科學(xué)家提供的工具。我們還為制造業(yè)、生命科學(xué)和零售業(yè)等行業(yè)提供特定的AI解決方案。Workspace用戶也將受益于AI驅(qū)動(dòng)的功能,比如用于協(xié)作的Smart

Canvas和用于創(chuàng)作的Smart

Compose。我們正在努力將大模型融入Gmail和Docs,我們還將提供從編碼到設(shè)計(jì)等其他有用的生成功能。

DeepMind:谷歌人工智能和DeepMind將是“AI-first

future”不可或缺的組成部分。為了反映DeepMind與谷歌服務(wù)、谷歌云和Other

Bets合作的日益加強(qiáng)。從Q1開(kāi)始,DeepMind將不在Other

Bets中報(bào)告,而將作為Alphabet公司成本的一部分報(bào)告。

搜索集成:在搜索方面,現(xiàn)在我們可以在搜索中集成更多直接的LLM用例。我認(rèn)為這是一個(gè)重新思考和重新想象的機(jī)會(huì),并推動(dòng)搜索為用戶解決更多、更好的用例。所以在早期,你會(huì)看到我們很大膽的發(fā)布,得到反饋、不斷迭代,讓事情變得更好。

是資料:谷歌2022Q4財(cái)報(bào)業(yè)績(jī)發(fā)布會(huì),中信證券研究部29美股科技巨頭財(cái)報(bào)表述:MetaMeta財(cái)報(bào)中相關(guān)表述

AI

discovery

engine:Facebook和Instagram的推薦內(nèi)容正在從僅圍繞你關(guān)注的人和賬戶,轉(zhuǎn)向越來(lái)越多地展示我們的人工智能系統(tǒng)推薦的相關(guān)內(nèi)容。生成式AI:生成式AI是一個(gè)令人興奮的新領(lǐng)域,有很多不同的應(yīng)用。我對(duì)Meta的目標(biāo)之一是在我們研究的基礎(chǔ)上,除了我們?cè)谕扑]AI方面的領(lǐng)先工作外,也能成為生成式AI的領(lǐng)導(dǎo)者。

我們有很多貫穿各類產(chǎn)品的業(yè)務(wù)流程都在使用新技術(shù),特別是LLM大語(yǔ)言模型和用于生成圖像、視頻、3D資產(chǎn)等的擴(kuò)散模型,致力于能夠真正增強(qiáng)創(chuàng)作者在應(yīng)用中的生產(chǎn)力和創(chuàng)作力的事情。

我知道這里存在著一些令人非常興奮的東西,但我想強(qiáng)調(diào)的是不要太過(guò)超前于它的發(fā)展。所以我想今年大家會(huì)看到我們會(huì)推出一些不同的東西,我們會(huì)談?wù)撍麄儾⒎窒硭麄兊淖钚逻M(jìn)展。我確實(shí)預(yù)計(jì)這個(gè)領(lǐng)域?qū)⒛軌蜓杆侔l(fā)展,我想我們會(huì)學(xué)到很多關(guān)于什么是有效的、什么是無(wú)效的。

在生成式AI領(lǐng)域很多東西都很昂貴,比如生成圖像、視頻或聊天互動(dòng)。所以一個(gè)巨大的、有趣的挑戰(zhàn)是我們將如何擴(kuò)大規(guī)模,使這項(xiàng)工作更有效率,從而我們可以將它帶到更大的用戶群中。但我認(rèn)為,只要我們能夠走到,就會(huì)有許多令人興奮的用例產(chǎn)生。我們將在未來(lái)幾個(gè)月分享更多的細(xì)節(jié)。

資本投入:我們?nèi)栽谟?jì)劃大幅提高AI能力,目前資本開(kāi)支的激增實(shí)際上是由于人工智能基礎(chǔ)設(shè)施的建設(shè)。我們會(huì)衡量這些AI開(kāi)支的投資回報(bào)率并為未來(lái)的開(kāi)支提供信息。我們的意圖仍然是降低資本開(kāi)支占收入的比例,但最近的時(shí)間內(nèi),這實(shí)際上將部分取決于收入前景和我們?yōu)橥顿Y未來(lái)而進(jìn)一步建設(shè)AI能力的需求。資料:Meta2022Q4財(cái)報(bào)業(yè)績(jī)發(fā)布會(huì),中信證券研究部30美股科技巨頭財(cái)報(bào)表述:英偉達(dá)英偉達(dá)財(cái)報(bào)中相關(guān)表述

H100:僅在第二季度,H-100的營(yíng)收就遠(yuǎn)高于A100,而A100的營(yíng)收則連續(xù)下滑。這證明了H-100的卓越性能,在訓(xùn)練方面比A100快9倍,在基于transformer的大型語(yǔ)言模型推理方面快30倍。H-100將服務(wù)于大型語(yǔ)言模型推理的開(kāi)發(fā)和規(guī)?;H斯ぶ悄埽喝斯ぶ悄艿膽?yīng)用正處于一個(gè)轉(zhuǎn)折點(diǎn)。Open

AI

ChatGPT

已經(jīng)引起了全世界的興趣,這些新型的神經(jīng)網(wǎng)絡(luò)模型可以在廣泛的任務(wù)中提高生產(chǎn)率,無(wú)論是生成文本(如營(yíng)銷文案)、匯總文檔、為廣告或視頻游戲創(chuàng)建圖像,還是回答客戶問(wèn)題,創(chuàng)成式人工智能應(yīng)用將幫助幾乎每一個(gè)行業(yè)做得更快。具有超過(guò)1000

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論