軟件與服務(wù)行業(yè)月之暗面:長文本能力點(diǎn)亮國產(chǎn)大模型發(fā)展之路_第1頁
軟件與服務(wù)行業(yè)月之暗面:長文本能力點(diǎn)亮國產(chǎn)大模型發(fā)展之路_第2頁
軟件與服務(wù)行業(yè)月之暗面:長文本能力點(diǎn)亮國產(chǎn)大模型發(fā)展之路_第3頁
軟件與服務(wù)行業(yè)月之暗面:長文本能力點(diǎn)亮國產(chǎn)大模型發(fā)展之路_第4頁
軟件與服務(wù)行業(yè)月之暗面:長文本能力點(diǎn)亮國產(chǎn)大模型發(fā)展之路_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

目錄月之暗面:國產(chǎn)AI獨(dú)角獸 4技術(shù)身公創(chuàng)人術(shù)背深厚 4從學(xué)到業(yè)明團(tuán)打造之面 6KimiChat:長文本技術(shù)世界領(lǐng)先 8如何看待KIMI的長文本能力躍升? 風(fēng)險(xiǎn)提示 14圖表目錄圖1:月之暗面發(fā)展歷程 4圖2:楊植麟與兩位博士導(dǎo)師RuslanSalakhutdinov(最右WilliamCohen(最左)合影 4圖3:楊植麟文章被大量引用 5圖4:XLNet架構(gòu) 6圖5:楊植麟個人經(jīng)歷 6圖6:楊植麟在華為云全球技術(shù)峰會介紹盤古NLP大模型 7圖7:北京月之暗面科技有限公司股權(quán)情況 8圖8:KimichatVSGPT4:搜索總結(jié) 9圖9:KimichatVSGPT4:論文總結(jié) 9圖10:KimichatVSGPT4:財(cái)報(bào)解析 10圖chat上市至今已經(jīng)歷4輪迭代 10圖12:按200萬字測算,Kimichat長文本處理能力或領(lǐng)先全球 10圖13:對比其他大模型,KimiChat文本處理能力接近GPT4 圖14:KimiChat在長文本摘要、多選問答兩個環(huán)節(jié)得分領(lǐng)先 圖15:長文本能力使得KIMI能依據(jù)更長的Prompt進(jìn)行推理 12圖16:KIMI-Chat鼓勵用戶嘗試超長文本的任務(wù) 13圖17:KIMI在長文本任務(wù)中有較好的表現(xiàn) 13表1:楊植麟?yún)⑴c的部分學(xué)術(shù)論文(截至2024年3月21日) 5表2:月之暗面創(chuàng)始股東學(xué)術(shù)背景 7表3:月之暗面融資情況 8表4:主要大模型定價及上下文窗口對比 請閱讀后評說明重要明 3/16AI獨(dú)角獸月之暗面迅猛發(fā)展已成為國內(nèi)大模型領(lǐng)域的領(lǐng)軍企業(yè)之一。月之暗面(Moonshot2023310KimiChattoC為發(fā)展2024318Kimi200AI圖1:月之暗面發(fā)展歷程資料來源:澎湃新聞,IT之家,技術(shù)立身,公司創(chuàng)始人學(xué)術(shù)背景深厚公司創(chuàng)始人楊植麟師從中美各路AI大拿。Felow2015(P)研究全球排名第一的卡內(nèi)基梅隆大學(xué)語言技術(shù)研究所攻讀博士,師從知名學(xué)者RuslanSalakhutdinov與WilliamCohen。圖2RuslanSalakhutdinov(WilliamCohen()合影資料來源:騰訊云,楊植麟與多位圖靈獎得主合作發(fā)表論文,學(xué)術(shù)成果頗豐。據(jù)不完全統(tǒng)計(jì),楊植麟曾在ICLR、NeurIPS、ICML、ACL、EMNLP20余篇。他曾與圖靈獎得主BengioHotpotQA,并以一作身份發(fā)表《XLNet:Generalizedautoregressivepretrainingforlanguageunderstanding》和《Transformer-XL:Attentivelanguagemodelsbeyondafixed-lengthcontextNLPNeurIPS2019ACL2019202431LtoogeScolr940ransforer-L圖3:楊植麟文章被大量引用資料來源:GoogleScholar,表1:楊植麟?yún)⑴c的部分學(xué)術(shù)論文(截至2024年3月21日)論文題目 發(fā)表時間 發(fā)布刊物 引用次數(shù)論文題目 發(fā)表時間 發(fā)布刊物 引用次數(shù)第幾作者Xlnet:Generalizedautoregressivepretrainingfor 2019 Xlnet:Generalizedautoregressivepretrainingfor 2019 NIPS'19:Proceedingsofthe33rdInternationalConference 9840一作Transformer-xl:Attentivelanguagemodels 2019 AnnualMeetingoftheAssociationforComputational 3829共同一作Revisitingsemi-supervisedlearningwithgraph 2016 ICML'16:Proceedingsofthe33rdInternationalConference 2006一作HotpotQA:Adatasetfordiverse,explainable 2018 Procmulti-hopquestionansweringeedingsofthe2018ConferenceonEmpiricalMethods 1636一作GPTunderstands,too2023AIOpen986通訊作者beyondafixed-lengthcontext Linguisticsembeddings onInternationalConferenceonMachineLearninginNaturalLanguageProcessingGlm:Generallanguagemodelpretrainingwithautoregressiveblankinfilling

2021 Proceedingsofthe60thAnnualMeetingoftheAssociationforComputationalLinguistics

638 通訊作者M(jìn)ulti-taskcross-lingualsequencetaggingfromscratch

2016 arXiv 626 一作P-tuningv2:Prompttuningcanbecomparableto 2021 P-tuningv2:Prompttuningcanbecomparableto 2021 Proceedingsofthe60thAnnualMeetingoftheAssociation 617通訊作者Differentiablelearningoflogicalrulesfor 2017 NIPS'17:Proceedingsofthe31stInternationalConference 615二作Goodsemi-supervisedlearningthatrequiresa 2017 NIPS'17:Proceedingsofthe31stInternationalConference 545共同一作knowledgebasereasoning onNeuralInformationProcessingSystemsbadgan onNeuralInformationProcessingSystems資料來源:GoogleScholar,ACM,SemanticScholar,ACLAnthology,ScienceDirect,arXiv,楊植麟曾在谷歌就大模型長文本識別問題做出重要研究成果。讀博后期,他曾在Facebook人工智能研究院和GoogleBrain研究院工作,GoogleBrain創(chuàng)始成員QuocLe也同時參與《XLNet》和《Transformer-XL》兩篇論文的研究。Transformer-XLTransformerTransformer-XL下文碎片化問題,同時利用相對位置編碼機(jī)制解決可能出現(xiàn)的時序混淆問題。請閱讀后評說明重要明 5/16XLNet使用了《Transformer-XLPermutationLanguageModel(PLM)AR(Auto)AEAuto)相結(jié)合以更好地捕捉上文信息并改善了模型對長距離依賴性的處理能力。NLPKimi圖4:XLNet架構(gòu)資料來源:《Xlnet:Generalizedautoregressivepretrainingforlanguageunderstanding》,楊植麟等人,楊植麟深度參與了多個國產(chǎn)大模型的研發(fā)工作,是中國大模型產(chǎn)業(yè)的業(yè)界領(lǐng)袖之一。悟道大模型是智源研究院副院長、清華大學(xué)教授唐杰帶頭研發(fā)的我國最早的大模型之一,楊植麟作為唐杰的得意門生、智源青年科學(xué)家,深度參與項(xiàng)目研發(fā),是多篇關(guān)鍵論文的AIGLMNLP大模型。圖5:楊植麟個人經(jīng)歷資料來源:Github,汕頭發(fā)布,清華大學(xué)官網(wǎng),AI科技評論公眾號,從學(xué)術(shù)到實(shí)業(yè),明星團(tuán)隊(duì)打造月之暗面楊植麟在創(chuàng)立月之暗面之前,已積累了一定創(chuàng)業(yè)經(jīng)驗(yàn)。2016curent.iI2021NLPBertGPT系列的效果。圖6:楊植在華云全球技峰會紹古NLP大型 資料來源:華為云,penIGoogleGemini、GoogleBardNLP心技術(shù)被GooglePaLM、MetaLLaMA、StableDiffusion等主流產(chǎn)品采用。職位 學(xué)術(shù)背景表2:月之暗面創(chuàng)始股東學(xué)術(shù)背景職位 學(xué)術(shù)背景楊植麟 創(chuàng)始人實(shí)控

CMUAISalakhutdinovFacebookAIResearchGoogleBrainICLR、NIPSICML、KDD、ACLAI(State-of-the-art)。清華大學(xué)計(jì)算機(jī)博士,師從清華大學(xué)計(jì)算機(jī)系副系主任、數(shù)據(jù)挖掘頂級專家唐杰教授;曾作為核心開發(fā)張宇韜 聯(lián)合創(chuàng)人,CTO者研發(fā)全球名的技大據(jù)析平臺AMiner,產(chǎn)品務(wù)于等科技頭及家科部等科研管理機(jī)構(gòu)。周昕宇 聯(lián)合創(chuàng)人 清華學(xué)級科生畢業(yè)選擇加曠視以共一作身撰寫《ShuffleNet:AnExtremelyEfficientConvolutionalNeuralNetworkforMobileDevices》,中標(biāo)CVPR。畢業(yè)于清華大學(xué)與卡耐基梅隆大學(xué),曾獲2018年歐洲計(jì)算機(jī)視覺會議(ECCV)最佳論文提名。他是吳育昕 聯(lián)合創(chuàng)人汪箴 創(chuàng)始成員資料來源:36Kr,量子位,

Meta(Facebook)員工,系公司人工智能實(shí)驗(yàn)室FAIR團(tuán)隊(duì)的一員,曾和隊(duì)員何愷明共同提出了組歸一化(GroupNormalization,簡稱GN)的方法。AIGoogle/AI/圖7:北京月之暗面科技有限公司股權(quán)情況資料來源:,AI20233321025司已成為國內(nèi)大模型領(lǐng)域的頭部企業(yè)之一。表3:月之暗面融資情況時間投資方金額企業(yè)估值2023年6月紅杉中國、真格基金超2億美元超15億美元2023年10月紅杉資本、今日資本、礪思資本近20億人民幣2024年2月阿里、紅杉中國、小紅書、美團(tuán)等超10億美金約25億美金資料來源:36Kr,KimiChat:長文本技術(shù)世界領(lǐng)先KimiChatC端用戶提供服務(wù)。KimiChat(PDFExcelCSV、PPT、TXT、圖片等)PDF文件解析、等任務(wù)環(huán)節(jié),Kimichat表現(xiàn)與GPT4接近,顯示出較好的文本處理能力與交互效果。圖8:KimichatVSGPT4:搜索總結(jié)資料來源:Moonshot官網(wǎng),OpenAI,圖9:KimichatVSGPT4:論總結(jié) 資料來源:Moonshot官網(wǎng),OpenAI,圖10:KimichatVSGPT4:財(cái)報(bào)解析資料來源:Moonshot官網(wǎng),OpenAI,技術(shù)迭代助力性能躍升,KimiChatChat2023102042024318日,MoonshotAI20010API11.5-21.5200133Kimihatemii15r(10okesade(20萬okens)P-4urbo(12.8okes,為全球領(lǐng)先水平。圖chat上市今已歷4輪迭代 圖12:按200字測,Kimichat長本處能力領(lǐng)先球0

1000200 2001000200 200128 12832 30 8

上下文窗口(千Tokens)資料來源:Moonshot官方公眾號, 資料來源:各公司官網(wǎng),(注:moonshot-v1最大上下文窗口假設(shè)為1Token=1.5字)chatchat在生成長文本摘要、多選問答上要優(yōu)于其他模型,而在代碼與數(shù)學(xué)的能力上moonshot-v1-128ktokens的60(L4P4urbo圖13:比其大模,KimiChat文處理力近GPT4 圖14:KimiChat在長本摘多選問兩個節(jié)得領(lǐng)先資料來源BenchExtendingLongContextEvaluationBeyond100KTokens》(Zhangetal,2024),

資料來源BenchExtendingLongContextEvaluationBeyond100KTokens》(Zhangetal,2024),表4:主要大模型定價及上下文窗口對比模型提供商區(qū)域輸入價格(元/Mtokens)輸出價格(元/Mtokens)上下文窗口Claude3OpusAnthropic國外107533200KGPT4turboOPENAI國外71213128KClaude3SonnetAnthropic國外21107200KGLM-4智譜AI國內(nèi)100100128Kmoonshot-v1-128kMoonshot國內(nèi)6060128Kqwen-plus阿里巴巴國內(nèi)202030K文心-4.0-8K百度國內(nèi)12128K混元-標(biāo)準(zhǔn)版騰訊國內(nèi)1010-Claude3HaikuAnthropic國外29200KGemini1.0ProGoogle國外13-資料來源:,Anthropic,OpenAI,Moonshot,阿里巴巴,百度,騰訊,Google,智譜AI,(注:美元與人民幣換算為7.10

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論