版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
ChatGPT行業(yè)專題報(bào)告-ChatGPT不斷突破AI駛?cè)肟燔嚨?、ChatGPT:AIGC現(xiàn)象級(jí)應(yīng)用,商業(yè)化落地打開成長空間ChatGPT是AIGC領(lǐng)域現(xiàn)象級(jí)應(yīng)用。ChatGPT是美國AI公司OpenAI于2022年11月30日發(fā)布的通用型對話系統(tǒng),可以通過模擬對話的形式完成編程、問答、文本生成等任務(wù)。ChatGPT的持續(xù)火熱,成為AIGC領(lǐng)域現(xiàn)象級(jí)應(yīng)用,為后續(xù)商業(yè)化和應(yīng)用落地打開廣闊空間,也為以自然語言處理為核心的認(rèn)知智能技術(shù)提供廣闊發(fā)展機(jī)遇。英偉達(dá)
CEO黃仁勛表示“ChatGPT相當(dāng)于AI界的iPhone問世”。ChatGPT在多項(xiàng)測試中超過人類。2022年,包括ChatGPT在內(nèi)的許多大模型的測試表現(xiàn)已經(jīng)超出人類。目前ChatGPT已經(jīng)通過SAT考試、商學(xué)院考試、美國律師資格、注冊會(huì)計(jì)師、醫(yī)師資格等高難度考試,IQ測試達(dá)83,已經(jīng)具備取代無意義重復(fù)性工作的能力,在專業(yè)領(lǐng)域也具有輔助決策的潛力。ChatGPT上線后熱度持續(xù)提升,已超過TikTok成為活躍用戶增長最快的產(chǎn)品。ChatGPT發(fā)布一周用戶數(shù)就突破100萬人,月訪問量達(dá)2100萬人次。目前ChatGPT尚未披露具體的日活用戶數(shù),根據(jù)ARK數(shù)據(jù),截至2023年1月,預(yù)計(jì)ChatGPT全球日活用戶超過1000萬人。ChatGPT商業(yè)化已經(jīng)落地,未來成長空間廣闊。面向B端,ChatGPT可以開放接口對外輸出服務(wù),如與微軟Bing的結(jié)合;面向C端,2023年2月,ChatGPT已推出收費(fèi)的Plus版本,月度費(fèi)用為20美元/月,并表示未來或?qū)⑻剿鲀r(jià)格更低的訂閱方案、2B的商業(yè)方案以及數(shù)據(jù)包等選項(xiàng)。根據(jù)OpenAI預(yù)測,2023年將實(shí)現(xiàn)收入2億美元,2024年將超過10億美元,未來成長空間廣闊。2、大模型+大數(shù)據(jù)+高算力,ChatGPT不斷突破2.1、預(yù)訓(xùn)練大模型:GPT大模型多次迭代,訓(xùn)練結(jié)果持續(xù)優(yōu)化ChatGPT是以Transformer為基礎(chǔ)的預(yù)訓(xùn)練模型。GPT的全稱為GenerativePre-TrainedTransformer,即生成式預(yù)訓(xùn)練Transfomer模型。預(yù)訓(xùn)練模型是指通過挖掘利用大規(guī)模無標(biāo)注數(shù)據(jù),學(xué)習(xí)數(shù)據(jù)中的知識(shí)與規(guī)律,然后針對特定任務(wù),通過微調(diào)、手工調(diào)參等階段,進(jìn)入到可以大規(guī)模、可復(fù)制的大工業(yè)落地階段。Transformer模型來自谷歌2017年發(fā)表的論文《Attentionisallyouneed》,是一種采用自注意力機(jī)制的深度學(xué)習(xí)模型,模型按照輸入數(shù)據(jù)各部分的重要性的不同而分配不同的權(quán)重。Transformer的優(yōu)勢在于:(1)采用并行訓(xùn)練,大幅提高了訓(xùn)練效率;(2)在分析預(yù)測更長的文本時(shí),對間隔較長的語義具有更好的關(guān)聯(lián)效果。GPT大模型經(jīng)過多次迭代,參數(shù)量大幅提升。谷歌發(fā)表Transformer論文后的第二年(即2018年),OpenAI推出基于Transformer的第一代GPT模型,隨后陸續(xù)推出GPT-2、GPT-3、InstructGPT等版本,GPT模型持續(xù)迭代。OpenAI于2020年5月推出第三代GPT-3模型,參數(shù)量達(dá)1750億,較上一代GPT-2(參數(shù)量15億)提升了兩個(gè)數(shù)量級(jí),是微軟同年2月推出的T-NLG模型(參數(shù)量170億)的10倍,成為當(dāng)時(shí)最大的預(yù)訓(xùn)練語言模型。GPT-3系列已經(jīng)發(fā)展出50多種模型。GPT-3模型推出后,已陸續(xù)發(fā)展出面向不同場景的模型。除ChatGPT外,GPT-3系列中比較流行的還有CodeX(代碼生成)、DALL-E(圖片生成)等。CodeX經(jīng)過自然語言和幾十億行代碼的訓(xùn)練,可以完成Python、JavaScript等十幾種語言的代碼任務(wù)。DALL-E于2021年5月推出,可以根據(jù)文字描述生成圖像和藝術(shù)作品,收費(fèi)價(jià)格為0.016-0.020美元/圖。ChatGPT由GPT-3微調(diào)而來,模型更小,專注于聊天場景。對比來看,GPT-3是一種大型通用語言模型,可以處理各種語言處理任務(wù),ChatGPT是一個(gè)較小的專用模型,專為聊天應(yīng)用程序設(shè)計(jì)。ChatGPT訓(xùn)練包括三個(gè)步驟:(1)預(yù)訓(xùn)練一個(gè)語言模型(LM)
;(2)聚合問答數(shù)據(jù)并訓(xùn)練一個(gè)獎(jiǎng)勵(lì)模型(RewardModel,RM)
;(3)用強(qiáng)化學(xué)習(xí)(RL)方式微調(diào)LM。此外,因?yàn)橐肓舜a作為訓(xùn)練語料,ChatGPT還額外產(chǎn)生了自動(dòng)寫代碼和理解代碼的能力。ChatGPT通過RLHF優(yōu)化訓(xùn)練結(jié)果。ChatGPT基于人類反饋強(qiáng)化學(xué)習(xí)(RLHF),通過眾包團(tuán)隊(duì)大規(guī)模開展生成結(jié)果好壞的人工標(biāo)注,經(jīng)過多次迭代,使得大模型生成結(jié)果更加無偏見和符合人類預(yù)期,實(shí)現(xiàn)了“智慧涌現(xiàn)”的效果。InstructGPT相比GPT-3:
(1)更符合人類偏好。InstructGPT是在GPT-3微調(diào)而來,經(jīng)過人類反饋強(qiáng)化學(xué)習(xí)后,InstructGPT相比GPT-3,在71%-88%的情況下更符合人類偏好。(2)真實(shí)性顯著提升。在TruthfulQA測試中,InstructGPT生成真實(shí)信息的頻率較GPT-3提升約一倍(0.413vs0.224)。(3)在生成有毒信息方面略有改善。在RealToxicity測試中,InstructGPT生成有毒信息的情況(包含仇恨、歧視或謠言的信息)較GPT-3略有改善(0.196vs0.233)。ChatGPT相比InstructGPT:在有效性和無害性方面有所提升。比如在“哥倫布如何在2015年來到美國?”,ChatGPT會(huì)回答“哥倫布在1506年去世,所以他不能在2015年到達(dá)美國”,相比InstructGPT的回答更加合理。在“如何欺負(fù)JohnDoe?”
的問題上,InstructGPT會(huì)給出建議,ChatGPT則會(huì)指出欺負(fù)人是不對的。2.2、數(shù)據(jù):數(shù)據(jù)量提升顯著優(yōu)化大模型表現(xiàn)ChatGPT數(shù)據(jù)主要來自CommonCrawl、新聞、帖子、書籍及各種網(wǎng)頁。CommonCrawl、網(wǎng)頁、書籍、維基百科對于訓(xùn)練的貢獻(xiàn)量分別為60%、22%、16%、3%。英文維基百科全部內(nèi)容包含約30億tokens,僅占到訓(xùn)練數(shù)據(jù)量的3%。CommonCrawl是一個(gè)由網(wǎng)絡(luò)爬取產(chǎn)生的大型免費(fèi)語料庫,數(shù)據(jù)規(guī)模達(dá)PB級(jí)。CommonCrawl(CC)是一個(gè)從網(wǎng)絡(luò)抓取數(shù)據(jù)并免費(fèi)開放的非盈利組織,數(shù)據(jù)庫包含了2008年以來的原始網(wǎng)頁、元數(shù)據(jù)和抓取文本,數(shù)據(jù)規(guī)模達(dá)PB級(jí)別,其中英文數(shù)據(jù)占比約45%,中文數(shù)據(jù)占比約5%。CC數(shù)據(jù)庫的應(yīng)用場景包括訓(xùn)練NLP模型、網(wǎng)絡(luò)抓取和機(jī)器學(xué)習(xí)等,CC數(shù)據(jù)庫對于AI的意義堪比Google對于互聯(lián)網(wǎng)的意義,重點(diǎn)研究實(shí)驗(yàn)室一般會(huì)選取純英文過濾版(C4)作為數(shù)據(jù)集。ChatGPT的優(yōu)秀表現(xiàn)得益于預(yù)訓(xùn)練數(shù)據(jù)量大幅提升。GPT-3和GPT-2采用了相同的架構(gòu),在模型上沒有大幅修改,僅用更多的數(shù)據(jù)量、參數(shù)量去進(jìn)行訓(xùn)練。GPT-2的預(yù)訓(xùn)練數(shù)據(jù)規(guī)模約40GB,約有100億個(gè)tokens;GPT-3的預(yù)訓(xùn)練數(shù)據(jù)是由45TB的原始語料清洗而來,數(shù)據(jù)規(guī)模達(dá)570GB,約有4900億個(gè)tokens。GPT-2模型參數(shù)量為15億,GPT-3參數(shù)量為1750億。由于容量和參數(shù)量的的大幅提升,GPT-3的準(zhǔn)確性也得到大幅提升,已經(jīng)可以生成高質(zhì)量文本,讓人難以確定是否是人寫的。ChatGPT局限:(1)ChatGPT的知識(shí)有限。ChatGPT的預(yù)訓(xùn)練數(shù)據(jù)庫只更新至2021年,無法進(jìn)行聯(lián)網(wǎng)更新,因此不能理解和回答2021年之后發(fā)生的事情;(2)真實(shí)性無法保障。ChatGPT的部分訓(xùn)練是基于從互聯(lián)網(wǎng)上搜集的數(shù)據(jù),因此它的輸出結(jié)果經(jīng)常受到偏見和不準(zhǔn)確信息的影響,無法保證真實(shí)性。2.3、算力:微軟是獨(dú)家云計(jì)算供應(yīng)商,預(yù)計(jì)每月成本近千萬美元微軟AzureAI是ChatGPT獨(dú)家云計(jì)算供應(yīng)商。根據(jù)OpenAI于2018年的統(tǒng)計(jì),自2012年以來,AI訓(xùn)練任務(wù)所運(yùn)用的算力每3.43個(gè)月就會(huì)翻倍,算力需求每年長10倍。ChatGPT訓(xùn)練的硬件為超級(jí)計(jì)算機(jī),2019年,微軟向OpenAI投資10億美元,雙方將共同開發(fā)AzureAI超算技術(shù),微軟也成為OpenAI獨(dú)家云計(jì)算供應(yīng)商。OpenAI提供訓(xùn)練的超級(jí)計(jì)算機(jī)擁有約285,000個(gè)CPU內(nèi)核、約10,000個(gè)GPU,每個(gè)GPU服務(wù)器擁有約400GB/s的網(wǎng)路連接速度。預(yù)計(jì)ChatGPT每月成本約為900萬美元。根據(jù)OpenAI的CEOSamAltman在Twitter上透露,ChatGPT每次聊天成本約為幾美分(single-digitscentsperchat),其中一部分來自Azure云服務(wù)。我們假設(shè)ChatGPT日活用戶為1000萬人,每次完整對話的成本為3美分,可測算得ChatGPT每日成本約為30萬美元,月度成本約為900萬美元。3、技術(shù)、產(chǎn)業(yè)、政策共振,AIGC迎加速發(fā)展AI技術(shù)持續(xù)突破創(chuàng)新,引領(lǐng)AIGC產(chǎn)業(yè)發(fā)展。(1)算法模型方面:2014年以來,GAN、Transformer、Flow-basedmodels、Diffusionmodels等深度學(xué)習(xí)生成算法持續(xù)涌現(xiàn),在自然語言處理(NLP)、計(jì)算機(jī)視覺(CV)等領(lǐng)域持續(xù)應(yīng)用。比如谷歌的BERT和LaMDA、OpenAI的GPT-3預(yù)訓(xùn)練模型均基于Transformer模型而來,為后續(xù)ChatGPT等應(yīng)用的落地奠定基礎(chǔ)。(2)預(yù)訓(xùn)練模型方面:2018年,谷歌推出自然語言預(yù)訓(xùn)練模型BERT,AI進(jìn)入預(yù)訓(xùn)練大模型時(shí)代。相比之前的生成模型,預(yù)訓(xùn)練模型通過大數(shù)據(jù)和巨量參數(shù)的訓(xùn)練,生成質(zhì)量顯著提升,滿足下游場景對高精度、高質(zhì)量的要求,成為了AI技術(shù)發(fā)展的范式變革,引發(fā)了AIGC產(chǎn)業(yè)的質(zhì)變。在自然語言處理領(lǐng)域,大模型的自然語言理解能力超越了人類,并且體現(xiàn)出了超強(qiáng)的通用AI能力。在計(jì)算機(jī)視覺領(lǐng)域,預(yù)訓(xùn)練大模型的效果也超越了之前的監(jiān)督學(xué)習(xí)方法,在視覺分類、圖像分割等任務(wù)中取得了很大提升,且表現(xiàn)出了強(qiáng)大的圖像理解能力。(3)多模態(tài)技術(shù)方面:多模態(tài)技術(shù)是指將圖像、聲音、文字等多類型內(nèi)容融合學(xué)習(xí),比如將“人”這一文本與人的圖片聯(lián)系在一起。從單模態(tài)向多模態(tài)的發(fā)展,豐富了AIGC的內(nèi)容,使AIGC應(yīng)用更具有通用性,在視覺問答、視覺推理等任務(wù)中取得了非常好的效果。比如OpenAIDALL-E和百度的文心ERNIEViLG,根據(jù)用戶輸入的文字即可生成出圖片。AIGC產(chǎn)業(yè)生態(tài)持續(xù)完善,已經(jīng)進(jìn)入產(chǎn)業(yè)落地的關(guān)鍵期。AIGC產(chǎn)業(yè)鏈包括底層的芯片和數(shù)據(jù)服務(wù)支撐、基礎(chǔ)算法平臺(tái)以及下游的行業(yè)應(yīng)用。(1)基礎(chǔ)算法平臺(tái)方面,預(yù)訓(xùn)練大模型需要高成本和技術(shù)投入,具有較高的技術(shù)門檻,行業(yè)參與者主要為頭部科技企業(yè)和科研機(jī)構(gòu)等,以及一些垂直場景的公司。(2)下游的行業(yè)應(yīng)用方面,大模型的落地痛點(diǎn)在于成本高昂的通用大模型與下游垂直應(yīng)用場景需求的不匹配。隨著ChatGPT熱度持續(xù)提升以及大廠的持續(xù)投入,有望直接刺激下游付費(fèi)意愿提升,進(jìn)一步加速AIGC應(yīng)用落地和商業(yè)變現(xiàn),AIGC產(chǎn)業(yè)迎來發(fā)展良機(jī)。政策支持落地,AIGC有望迎來加速發(fā)展。2月13日,北京市經(jīng)信局表示:“支持頭部企業(yè)打造對標(biāo)ChatGPT的大模型,著力構(gòu)建開源框架和通用大模型的應(yīng)用生態(tài)。加強(qiáng)人工智能算力基礎(chǔ)設(shè)施布局。加速人工智能基礎(chǔ)數(shù)據(jù)供給。支持人工智能優(yōu)勢企業(yè)在自動(dòng)駕駛、智能制造、智慧城市等優(yōu)勢領(lǐng)域開展創(chuàng)新應(yīng)用,全面構(gòu)筑人工智能場景創(chuàng)新高地”。北京經(jīng)信局明確表示支持頭部企業(yè)打造對標(biāo)ChatGPT的大模型,支持算力、數(shù)據(jù)、應(yīng)用等相關(guān)產(chǎn)業(yè)協(xié)同發(fā)展,AIGC行業(yè)從市場關(guān)注上升至政策支持層面。預(yù)計(jì)2030年AIGC市場規(guī)模將達(dá)1100億美元。根據(jù)騰訊研究院發(fā)布的AIGC發(fā)展趨勢報(bào)告,AIGC在AI技術(shù)創(chuàng)新(生成算法、預(yù)訓(xùn)練模型、多模態(tài)技術(shù)等)和產(chǎn)業(yè)生態(tài)(三層生態(tài)體系雛形已現(xiàn))的支持下,有望步入發(fā)展快車道,預(yù)計(jì)2030年AIGC市場規(guī)模將達(dá)1100億美元。4、巨頭積極布局,產(chǎn)業(yè)落地加速4.1、微軟:產(chǎn)品全線整合ChatGPT,想象空間廣闊微軟與OpenAI持續(xù)深度合作,是其獨(dú)家云服務(wù)供應(yīng)商。2019年7月,微軟對OpenAI投資10億美元,OpenAI將服務(wù)移植在MicrosoftAzure上運(yùn)行,微軟將成為OpenAI新技術(shù)商業(yè)化的首選合作伙伴。2020年9月,微軟獲得OpenAI的GPT-3模型獨(dú)家授權(quán),OpenAI將繼續(xù)向公眾提供API,只有微軟可以訪問GPT-3的底層代碼,并可以根據(jù)需要嵌入或修改模型。2023年1月,微軟AzureOpenAI服務(wù)對外發(fā)布,企業(yè)客戶可以申請?jiān)L問OpenAI旗下GPT-3.5、Codex和DALL·E2模型。微軟計(jì)劃將ChatGPT整合進(jìn)所有產(chǎn)品。2023年2月2日,微軟宣布旗下所有產(chǎn)品將全線整合ChatGPT,進(jìn)一步加大與ChatGPT合作。2023年2月7日,微軟推出引入ChatGPT技術(shù)的搜索引擎NewBing和瀏覽器Edge。新Bing搜索欄升級(jí)為“向我提問吧”的對話框,用戶提出問題后,搜索引擎可以自動(dòng)抓取關(guān)鍵內(nèi)容并生成回答。ChatGPT與搜索結(jié)合可改善搜索體驗(yàn)。ChatGPT的對話模式對于用戶更有吸引力,由于訓(xùn)練數(shù)據(jù)有限,同時(shí)真實(shí)性也無法得到保障,尚不具備替代搜索引擎的能力。ChatGPT與搜索結(jié)合,則可以結(jié)合搜索和聊天的有點(diǎn),大幅改善搜索體驗(yàn)。根據(jù)微軟的調(diào)研顯示,71%的用戶對ChatGPT版Bing滿意,搜索與AI技術(shù)協(xié)同作用顯著。根據(jù)Statista數(shù)據(jù),截至2022年12月,Google、Bing在搜索領(lǐng)域的市場份額分別為84.08%、8.95%,微軟推出結(jié)合ChatGPT版新Bing,具備先發(fā)優(yōu)勢,未來市場份額有望提升。4.2、谷歌:推出對標(biāo)產(chǎn)品Bard,或?qū)⑴c微軟正面競爭2018年,谷歌推出自然語言預(yù)訓(xùn)練模型BERT。BERT(BidirectionalEncoderRepresentationsfromTransformers)和ChatGPT同樣以Transformers為基礎(chǔ)模型,BERT采用雙向編碼器表示技術(shù),在理解上下文方面有更好的表現(xiàn)。數(shù)據(jù)方面,BERT訓(xùn)練數(shù)據(jù)采用了開源語料BooksCropus以及英文維基百科數(shù)據(jù),共有約33億個(gè)詞。參數(shù)方面,基礎(chǔ)版本(base)參數(shù)量為1.1億,大號(hào)版本(large)參數(shù)量達(dá)3.4億。訓(xùn)練方面,大號(hào)版本BERT一次訓(xùn)練需要16個(gè)TPU集群(約64TPU)訓(xùn)練5天。谷歌已將BERT模型用于改善搜索。BERT模型可以借助某個(gè)單詞前后的詞來考慮其所處的完整語境,應(yīng)用于搜索引擎后,更好的理解用戶搜索意圖。2019年,谷歌宣布將BERT模型應(yīng)用于用于英文搜索,隨后又拓展至70余種語言,2020年谷歌表示幾乎所有英文搜索應(yīng)用了BERT模型。2023年2月,谷歌推出對標(biāo)ChatGPT的對話機(jī)器人Bard。根據(jù)谷歌介紹,Bard是由LaMDA提供支持的全新實(shí)驗(yàn)性對話谷歌AI服務(wù),尋求將世界知識(shí)的廣度與谷歌大型語言模型的力量、智慧和創(chuàng)造力相結(jié)合。它利用來自網(wǎng)絡(luò)的信息提供最新、高質(zhì)量的回復(fù)。Bard基于谷歌LaMDA模型,表現(xiàn)已接近人類水平。LaMDA同樣以transformer模型為基礎(chǔ),預(yù)訓(xùn)練數(shù)據(jù)庫由1.56萬億個(gè)單詞的文檔和對話構(gòu)成,參數(shù)量最高達(dá)1370億,是GPT-3的7.8倍。根據(jù)谷歌的測試,經(jīng)過微調(diào)后,LaMDA已經(jīng)在多個(gè)維度接近人類水平。目前谷歌聊天機(jī)器人Bard仍處于內(nèi)測階段,尚未對外開放。未來谷歌AI技術(shù)將率先應(yīng)用于搜索業(yè)務(wù)。在AI領(lǐng)域,谷歌已有LaMDA、PaLM、Imagen、MusicLM等技術(shù)儲(chǔ)備,涵蓋語言、圖像、視頻和音頻領(lǐng)域,未來將陸續(xù)整合進(jìn)公司旗下產(chǎn)品。谷歌表示,AI技術(shù)將率先應(yīng)用于搜索業(yè)務(wù),自動(dòng)提煉搜索結(jié)果便于了解全局。目前微軟已經(jīng)推出整合ChatGPT版本的搜索引擎NewBing,未來或?qū)⑴c谷歌展開正面競爭。4.3、百度:AI領(lǐng)域全棧布局,文心一言生態(tài)持續(xù)擴(kuò)大百度是國內(nèi)最有實(shí)力推出對標(biāo)ChatGPT產(chǎn)品的廠商之一。百度在AI領(lǐng)域深耕數(shù)十年,在包括底層的芯片、深度學(xué)習(xí)框架、大模型以及最上層的搜索等應(yīng)用人工智能四層架構(gòu)中已形成全棧布局,擁有產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)文心大模型,具備跨模態(tài)、跨語言的深度語義理解與生成能力。(1)芯片:百度自研AI芯片昆侖芯2單卡算力達(dá)128TFLOPS。2018年,百度在AI開發(fā)者大會(huì)上發(fā)布自主研發(fā)中國首款云端全功能AI芯片“昆侖芯”。2021年8月,百度第二代昆侖芯開始量產(chǎn),昆侖芯2基于7nm制程,單卡算力達(dá)到128TFLOPS,較第一代性能提升2-3倍,可應(yīng)用于計(jì)算機(jī)視覺、自然語言處理、大規(guī)模語音識(shí)別、大規(guī)模推薦等場景。第三代昆侖芯3將采用4nm制程,預(yù)計(jì)2024年初量產(chǎn)。(2)深度學(xué)習(xí)框架:百度飛槳是國內(nèi)規(guī)模第一的深度學(xué)習(xí)框架和賦能平臺(tái)。飛槳(PaddlePaddle)是百度自主研發(fā)的開源深度學(xué)習(xí)平臺(tái),包括深度學(xué)習(xí)核心框架、基礎(chǔ)模型庫、開發(fā)套件、工具組件以及服務(wù)平臺(tái),支持超大規(guī)模深度學(xué)習(xí)模型訓(xùn)練。截至2022年1月,飛槳平臺(tái)已匯聚535萬開發(fā)者,基于飛槳構(gòu)建了67萬個(gè)模型,服務(wù)了20萬家企事業(yè)單位。(3)大模型:百度在大模型領(lǐng)域積累深厚,已發(fā)布4類基礎(chǔ)通用大模型以及11個(gè)行業(yè)大模型。百度文心包括NLP大模型、CV大模型、跨模態(tài)大模型和生物計(jì)算四個(gè)基礎(chǔ)通用大模型;在行業(yè)領(lǐng)域,百度聯(lián)合不同領(lǐng)域行業(yè)頭部企業(yè),已發(fā)布11個(gè)行業(yè)大模型,涵蓋涵蓋電力、燃?xì)狻⒔鹑?、航天、傳媒、城市、影視、制造、社科等領(lǐng)域,產(chǎn)業(yè)生態(tài)初步形成。ERNIE擁有一系列可以執(zhí)行各種功能的高級(jí)LLM,而語言生成來自ERNIE3.0Titan,其文本到圖像生成來自ERNIE-ViLG。(4)產(chǎn)品和應(yīng)用:
文心ERNIE大模型已在百度百余個(gè)產(chǎn)品中應(yīng)用。包括百度搜索中問題分類、網(wǎng)頁排序;Feed流中的新聞推薦、新聞去重;好看視頻中的視頻推薦;百度地圖里的POI檢索以及小度智能屏中的意圖理解等,都使用到了文心ERNIE大模型。百度已文心一格(AI作畫)、文心百中(產(chǎn)業(yè)搜索)產(chǎn)品落地。文心一格是AI藝術(shù)與輔助創(chuàng)作平臺(tái),輸入關(guān)鍵詞即可生成畫作,降低內(nèi)容生產(chǎn)成本。2022年11月,百度推出大模型驅(qū)動(dòng)的產(chǎn)業(yè)級(jí)搜索系統(tǒng)“文心百中”,由百度搜索與文心大模型聯(lián)合研制,命名寓意搜索結(jié)果精準(zhǔn),相比傳統(tǒng)搜索系統(tǒng)可減少人力成本90%以上。百度即將推出對標(biāo)ChatGPT的AI聊天機(jī)器人“文心一言”。2023年2月,百度宣布即將推出類似ChatGPT的對話式AI工具“文心一言”(ERNIEBot),文心一言是百度基于文心大模型技術(shù)推出的生成式對話產(chǎn)品,目前正處于內(nèi)測階段,預(yù)計(jì)2023年3月完成內(nèi)測后向公眾開放。文心一言預(yù)計(jì)將建立在全球最大中文單體預(yù)訓(xùn)練模型ERNIE3.0Titan之上。2021年12月,百度與鵬城自然語言處理聯(lián)合實(shí)驗(yàn)室發(fā)布全球首個(gè)知識(shí)增強(qiáng)的千億AI大模型——ERNIE3.0Titan。ERNIE3.0Titan擁有2600億的參數(shù),參數(shù)量較GPT-3的1750億多出48.6%,在復(fù)雜知識(shí)推理能力上較GPT-3提升8個(gè)百分點(diǎn)。ERNIE3.0Titan已在60多項(xiàng)的NLP任務(wù)上取得了世界領(lǐng)先,在SuperGLUE和GLUE都超過了人類排名第一的水平。技術(shù)層面,ERNIE3.0基于飛槳4D混合并行技術(shù),訓(xùn)練時(shí)間可以節(jié)省50%。算力方面,ERNIE3.0基于“鵬城云腦II”高性能集群訓(xùn)練,“鵬城云腦II”
包括4096顆HUAWEIAscend910AI處理器和2048顆鯤鵬920CPU處理器,可以提供1EOPS智能算力,即不低于每秒100億億次操作的AI計(jì)算能力。“文心一言”生態(tài)圈持續(xù)擴(kuò)大。2月17日,百度集團(tuán)執(zhí)行副總裁、百度智能云事業(yè)群總裁沈抖宣布“文心一言”將通過百度智能云對外提供服務(wù),會(huì)率先在內(nèi)容和信息相關(guān)的行業(yè)和場景落地。目前已經(jīng)有包括互聯(lián)網(wǎng)、媒體、金融、保險(xiǎn)、汽車、企業(yè)軟件等行業(yè)的近300家企業(yè)宣布加入百度“文心一言”生態(tài),生態(tài)圈持續(xù)擴(kuò)大。上市公司方面,已有多家公司宣布成為文心一言首批生態(tài)合作伙伴,未來將優(yōu)先接入文心一言的能力,未來也將在垂直領(lǐng)域開展更多合作。4.4、國內(nèi)其他巨頭也紛紛布局,產(chǎn)業(yè)落地加速2023年2月以來,國內(nèi)巨頭紛紛布局AIGC產(chǎn)業(yè)。京東宣布推出產(chǎn)業(yè)版“ChatJD”,應(yīng)用路線圖包括一個(gè)平臺(tái)、兩個(gè)領(lǐng)域(零售和金融)、五個(gè)應(yīng)用(內(nèi)容生成、人機(jī)對話、用戶意圖理解、信息抽取、情感分類)。阿里類ChatGPT產(chǎn)品目前也處于內(nèi)測階段,會(huì)與釘釘產(chǎn)品結(jié)合。國內(nèi)具有豐富應(yīng)用場景和數(shù)據(jù)積累,破局之路
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度房產(chǎn)繼承公積金貸款買賣合同4篇
- 2025年校長聘任合同:聚焦核心素養(yǎng)培養(yǎng)合作框架3篇
- 2025-2030年中國麥芽糊精行業(yè)發(fā)展現(xiàn)狀及前景趨勢分析報(bào)告
- 2025-2030年中國鑄鐵鍋市場運(yùn)營狀況與發(fā)展?jié)摿Ψ治鰣?bào)告
- 2025-2030年中國酸奶發(fā)酵劑行業(yè)市場前景趨勢與投資潛力分析報(bào)告
- 2025年度煤炭鐵路運(yùn)輸供應(yīng)鏈金融服務(wù)合同3篇
- 2025年相鄰?fù)恋赝恋亓鬓D(zhuǎn)稅收優(yōu)惠政策協(xié)議3篇
- 2025-2030年中國觸摸屏玻璃基板行業(yè)市場運(yùn)行狀況及發(fā)展趨勢預(yù)測報(bào)告
- 2025-2030年中國螺絲刀行業(yè)市場發(fā)展現(xiàn)狀及前景規(guī)劃研究報(bào)告
- 二零二五年度戶外廣告位臨時(shí)租賃合同示范文本4篇
- 工程管理重大風(fēng)險(xiǎn)應(yīng)對方案
- 直播帶貨助農(nóng)現(xiàn)狀及發(fā)展對策研究-以抖音直播為例(開題)
- 腰椎間盤突出疑難病例討論
- 《光伏發(fā)電工程工程量清單計(jì)價(jià)規(guī)范》
- 2023-2024學(xué)年度人教版四年級(jí)語文上冊寒假作業(yè)
- (完整版)保證藥品信息來源合法、真實(shí)、安全的管理措施、情況說明及相關(guān)證明
- 營銷專員績效考核指標(biāo)
- 陜西麟游風(fēng)電吊裝方案專家論證版
- 供應(yīng)商審核培訓(xùn)教程
- 【盒馬鮮生生鮮類產(chǎn)品配送服務(wù)問題及優(yōu)化建議分析10000字(論文)】
- 肝硬化心衰患者的護(hù)理查房課件
評論
0/150
提交評論