版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2024年計算機行業(yè)專題報告:大模型進展2.0大模型群雄并起,Kimi打破競爭格局月之暗面發(fā)布Kimi,長文本成為破局關(guān)鍵月之暗面成為國產(chǎn)大模型新星。2023年10月,清華大學(xué)楊植麟及其AI團隊“月之暗面”發(fā)布了Kimi,擁有優(yōu)秀的長文本處理能力,可處理20萬漢字輸入。同時,利用LongContext可以大幅減少fine-tune的成本,實現(xiàn)模型應(yīng)用的“多、快、好、省”。例如可以先用5萬字定制一個模型的能力,剩余還有大量文字窗口,也足夠日常交互使用。而fine-tune需要構(gòu)造數(shù)據(jù)并訓(xùn)練,時間較長且需要較高的復(fù)雜度,單位token的成本也更高。公司選擇用LongContext方式來解決90%的問題,更好向前向后兼容,也成為公司最高優(yōu)先級的技術(shù)突破方向?!按蠛漆槨睖y試驗證了Kimi長文本能力。長文本能力是實現(xiàn)人類與AI之間無損理解的基礎(chǔ),它使AI可以更準確地理解人類的復(fù)雜、感性思維,從而在多種應(yīng)用場景中更有效地服務(wù)于人類。根據(jù)近一年全球各個大模型迭代方向,上下文窗口的“長文本”再持續(xù)升級。其中,在文本持續(xù)變長過程中,大型是否會忽略掉部分細節(jié)內(nèi)容的問題一直是“長文本”能力的關(guān)鍵。因此有開發(fā)者進行了一項名為“大海撈針”的大模型長文本性能測試,即在文本中加入一句與該文本內(nèi)容不相關(guān)的句子,測試大模型是否能通過Prompt把這句話準確提取出來。月之暗面的工程師在2023年12月也進行了測試,選取模型為Kimichat(支持20萬漢字輸入),GPT-4Turbo(支持128K上下文窗口),Claude2.1(支持200K上下文窗口)。根據(jù)測試結(jié)果,Kimichat在“大海撈針”中的表現(xiàn)明顯好于GPT-4Turbo和Claude2.1.Sora開創(chuàng)AI視頻生成新紀元OpenAI發(fā)布Sora大模型,通過Patches和ScalingTransformers革新視頻生成技術(shù)。多模態(tài)融合與Patches技術(shù):OpenAl通過將視覺數(shù)據(jù)轉(zhuǎn)換為Patches的方法,仿照語言模型中token的應(yīng)用,實現(xiàn)了文本多模態(tài)的統(tǒng)一,涵蓋了代碼、數(shù)學(xué)和自然語言等多種形式。Patches作為一種高效且可擴展的表示方法,在生成視頻和圖像的模型訓(xùn)練中展現(xiàn)了其獨特價值。通過時空Patches高效生成視頻:OpenAl創(chuàng)新性地開發(fā)了一套減少視覺數(shù)據(jù)維度的網(wǎng)絡(luò)技術(shù),這項技術(shù)可以把原始視頻變成一個既在時間上也在空間上被壓縮的潛在格式。Sora模型正是在這個壓縮后的潛在空間中接受訓(xùn)練,從而能夠生成新視頻。為了將這些潛在的視頻表示重新轉(zhuǎn)化為清晰的圖像,OpenAl還專門訓(xùn)練了一個解碼器模型。通過對輸入視頻進行壓縮并將其分解為一系列的時空Patches,這些Patches便成了Transformer模型的輸入單位。這種方法使得Sora模型能夠處理不同分辨率,持續(xù)時間和寬高比的視覺內(nèi)容。在生成視頻時,OpenAl能夠通過在特定的網(wǎng)格中排列這些隨機初始化的Patches,從而有效控制生成視頻的大小和形狀。這一策略同樣適用于圖像處理,因為可以將圖像看作是靜態(tài)的單幀視頻。Sora采用ScalingTransformer提升模型效率:OpenAl通過應(yīng)用ScalingTransformers的技術(shù),成功地擴展了視頻生成模型的能力。ScalingTransformers是指一系列旨在提高Transformer模型規(guī)模和效率的技術(shù)和方法,以便處理更大的數(shù)據(jù)集、更復(fù)雜的任務(wù)或在更大規(guī)模上運行,同時提高性能。在使用固定的初始條件(種子)和輸入數(shù)據(jù)進行視頻樣本的訓(xùn)練過程中,OpenAl展示了通過增加訓(xùn)練過程中的計算量(例如,使用更多的計算資源或進行更多次的訓(xùn)練迭代)可以顯著提高生成的視頻樣本的質(zhì)量。OpenAI新一代模型能力有望大幅提升SamAltman透露新一代大模型相關(guān)進展,模型能力大幅提升。2024年1月,OpenAI首席執(zhí)行官SamAltman先后受邀參加了《UnconfuseMe》、達沃斯經(jīng)濟論壇,透露新一代大模型相關(guān)進展:1)大模型進展:目前OpenAI首要任務(wù)是推出下一代大模型,可能不命名為GPT-5,展望未來兩年,人工智能有望在推理能力和可靠性、多模態(tài)(語音輸入/輸出、圖像、視頻)、可定制化和個性化三個領(lǐng)域大幅提升,其認為至少在未來5-10年內(nèi),AI大模型技術(shù)將處于一個非常陡峭的成長曲線上。2)新一代大模型架構(gòu)和能力提升:OpenAI新一代模型將是一個多模態(tài)大模型,支撐語音、圖像、代碼和視頻,并在個性化和定制化方面實現(xiàn)重大更新,具備更強的推理能力和更高的準確性;SamAltman認為如果GPT-4解決了人類任務(wù)的10%,則新一代大模型有望解決人類任務(wù)的15%或20%;同時,AI大模型的幻覺問題有望在新一代大模型中解決。3)通往AGI之路:大模型能力提升不在于解決具體的問題,而是廣泛意義的通用性在逐步增強。PixVerse定位全球視頻多模態(tài)應(yīng)用,引領(lǐng)AI創(chuàng)新潮流愛詩科技有限公司成立于2023年,是一家迅速崛起的AI視頻生成大模型及應(yīng)用企業(yè)。2024年1月,公司推出海外產(chǎn)品Pixverse,具備文生視頻、圖生視頻等多種功能,目前已在海外AI視頻生成領(lǐng)域占據(jù)一席之地,成為全球用戶量最大的國產(chǎn)AI視頻生成產(chǎn)品。To創(chuàng)作者和To消費者的雙重策略,目標在2024年底做到大規(guī)模的C端應(yīng)用落地。公司認為AI視頻生成產(chǎn)品的第一階段是To創(chuàng)作者,理解創(chuàng)作者動機;第二階段將直面消費者。公司希望打通ToC市場的AI視頻生成全鏈路,持續(xù)推進國內(nèi)外產(chǎn)品迭代,目標在24年底實現(xiàn)大規(guī)模C端應(yīng)用。訪問量快速增長,PixVerse成國產(chǎn)AI視頻之光。目前PixVerse已初步搭建了穩(wěn)定的創(chuàng)作者生態(tài),并根據(jù)用戶反饋進行模型迭代,在未來有望成為現(xiàn)象級、端到端的AlNative應(yīng)用。據(jù)Similarweb統(tǒng)計,PixVerse在24年2月用戶訪問量已突破124萬次,環(huán)比增長120%;2月訪問量增速超越海外競爭對手Pika、Runway等,躋身全球AI視頻生成工具第一梯隊。大模型引領(lǐng)全球AI算力需求重估Kimi火爆拉動算力需求增長Kimi大模型推理算力測算推理過程:主要包括分詞(Tokenize)、嵌入(Embedding)、位置編碼(PositionalEncoding)、Transformer層、Softmax。推理主要計算量在Transfomer解碼層,對于每個token、每個模型參數(shù),需要進行2x1Flops=2次浮點運算,則單詞推理算力消耗為模型參數(shù)量x(提問Tokens+回答Tokens)x2。推理算力計算假設(shè)及結(jié)果:模型參數(shù)量:如上文所述,假設(shè)Kimi大模型參數(shù)量為2000億。推理單次Token量:正常用戶對話通常在1000Token左右,假設(shè)推理單次Token量為1000。多模態(tài)大模型拉動AI訓(xùn)練、推理算力需求增長大模型訓(xùn)練算力測算:訓(xùn)練過程可分前向傳播(ForwardPass)和反向傳播(BackwardPass)。前向傳播:輸入數(shù)據(jù)(例如圖像、文本等)通過神經(jīng)網(wǎng)絡(luò)的各層進行傳遞,以得到輸出結(jié)果,包含輸入數(shù)據(jù)與權(quán)重矩陣相乘、應(yīng)用激活函數(shù)等操作,目的為將計算網(wǎng)絡(luò)預(yù)測輸出,并將其與實際目標值比較,計算損失函數(shù)(LossFunction)的值。反向傳播:一種高效計算梯度算法,從輸出層開始,沿著網(wǎng)絡(luò)層次結(jié)構(gòu)向輸入層反向傳播,計算每個權(quán)重的梯度(注:梯度表示權(quán)重對損失函數(shù)貢獻的大?。?;同時,在計算出所有權(quán)重的梯度后,使用優(yōu)化算法更新權(quán)重,達到減小損失函數(shù)值的目的。視頻模態(tài)拉動AI算力需求增長Image-to-Video模塊需要視頻數(shù)據(jù)進行訓(xùn)練。根據(jù)ZeLiu等著《VideoSwinTransformer(2021)》,輸入一個尺寸為T×H×W×3的視頻(此處T選取32,代表從視頻中采樣得到32幀,采樣方法可自行選擇,通常為等間隔采樣,視頻長度通常約10s;每幀包含H×W×3個像素),通過3DPatchPartition可以得到(T/2)*(H/4)*(W/4)個3DPatch(尺寸為2*4*4*3),即為Tokens,之后再經(jīng)過VideoSwinTransformer和PatchMerging獲得多幀數(shù)據(jù)的高維特征,完成視頻數(shù)據(jù)訓(xùn)練。根據(jù)《Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning(Pablo等著,2022年)》披露數(shù)據(jù),Youtube每分鐘大約上傳500小時視頻,則我們可以得到Y(jié)outube一年增量視頻數(shù)據(jù)為500×3600×24×365=157.68億秒。美國限制對華云服務(wù),看好國產(chǎn)算力需求提升美國將限制云廠商對華客戶提供AI云服務(wù)。美國商務(wù)部部長GinaRaimondo宣布,美國政府正推出一項提案,阻止外國實體,特別是來自中國的實體,使用美國的云計算進行AI大模型的訓(xùn)練。美方認為這是保障國家安全和美國技術(shù)優(yōu)勢的一項努力。根據(jù)2024年1月29日美國BIS部門發(fā)布的相關(guān)文件,提到“requiringU.S.InfrastructureasaService(IaaS)providersofIaaSproductstoverifytheidentityoftheirforeigncustomers,alongwithproceduresfortheSecretarytograntexemptions.(要求提供IaaS產(chǎn)品的IaaS廠商確認其外國客戶身份,遵循安全部門豁免程序)”。國內(nèi)領(lǐng)先大模型廠商影響有限,看好國產(chǎn)算力需求提升。國內(nèi)領(lǐng)先大模型廠商大多自建智算中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 學(xué)生處工作計劃
- 幼兒園保教工作計劃大全
- 買賣合同范文七篇
- 幼兒教育工作計劃集合七篇
- 中國卡座連接器項目投資可行性研究報告
- 棉花姑娘教案四篇
- 網(wǎng)絡(luò)對戰(zhàn)小游戲課程設(shè)計
- 產(chǎn)科護士一天的工作計劃
- 全新大一軍訓(xùn)心得筆記10篇
- 畢業(yè)生自我介紹(15篇)
- 2024年北京市學(xué)業(yè)水平合格性地理試卷(第一次)
- 黑龍江哈爾濱六中2025屆高三第六次模擬考試數(shù)學(xué)試卷含解析
- GB/T 36547-2024電化學(xué)儲能電站接入電網(wǎng)技術(shù)規(guī)定
- 會議記錄培訓(xùn)教材課件幻燈片
- 期末 (試題) -2024-2025學(xué)年人教PEP版(2024)英語三年級上冊
- 2025年高考政治時政熱點 延遲退休政策(知識銜接+練習(xí)+解析)
- 2.1 網(wǎng)絡(luò)改變世界 (教案) -2024-2025學(xué)年道德與法治八年級上冊 統(tǒng)編版
- 中華傳統(tǒng)文化之戲曲瑰寶學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 裝飾裝修設(shè)備表
- 基于老舊小區(qū)加裝電梯特殊安全及風(fēng)險控制的研究
- 甘肅省蘭州市(2024年-2025年小學(xué)三年級語文)人教版綜合練習(xí)(上學(xué)期)試卷(含答案)
評論
0/150
提交評論