2024中國開源開發(fā)者報告-OSCHINAGitee_第1頁
2024中國開源開發(fā)者報告-OSCHINAGitee_第2頁
2024中國開源開發(fā)者報告-OSCHINAGitee_第3頁
2024中國開源開發(fā)者報告-OSCHINAGitee_第4頁
2024中國開源開發(fā)者報告-OSCHINAGitee_第5頁
已閱讀5頁,還剩207頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

Part1:中國開源開發(fā)者生態(tài)數(shù)據(jù)04|Gitee數(shù)據(jù)篇15|OSSCompassInsightPart2:TOP101-2024大模型觀點21|2024年中國開源模型:崛起與變革26|開源模型未必更先進,但會更長久30|大模型撞上“算力墻”,超級應用的探尋之路36|AI的三岔路口:專業(yè)模型和個人模型40|2024年AI編程技術與工具發(fā)展綜述45|RAG的2024:隨需而變,從狂熱到理性51|大模型訓練中的開源數(shù)據(jù)和算法:機遇及挑戰(zhàn)57|2024年AI編程工具的進化62|AI開發(fā)者中間件工具生態(tài)2024年總結66|AIAgent逐漸成為AI應用的核心架構68|談開源大模型的技術主權問題72|2024:大模型背景下知識圖譜的理性回歸77|人工智能與處理器芯片架構89|大模型生成代碼的安全與質量93|2024年AI大模型如何影響基礎軟件行業(yè)中的「開發(fā)工具與環(huán)境」98|推理中心化:構建未來AI基礎設施的關鍵Part3:國內GenAI生態(tài)高亮瞬間104|中國GenAI消費應用人氣榜Top10106|AI創(chuàng)新應用開發(fā)大賽獲獎作品編委會局長,OSCHINA副主編肖瀅,OSCHINA副主編李澤辰,Gitee主編高瞻,GiteeAI運營設計:張琪<part中國開源開發(fā)者生態(tài)數(shù)據(jù)開發(fā)者是開源生態(tài)的重要支柱。本章結合Gitee&GiteeAI平平臺、Osscompass的數(shù)據(jù)分析,勾勒2024年中國開源開發(fā)者的整體畫像趨勢輪廓,主要反映中國開源開發(fā)者使用開源大模型概況、開源項目/組織健康度,以及中國開源社區(qū)的生態(tài)評估等情況。開發(fā)者是社區(qū)的力量源泉160000001400000016000000140000001200000013,500,00012,000,00010,000,0008,000,0006,000,0004,000,0003,000,0002,000,0001,000,000500,000200,000100000002024年Gitee2024年Gitee總用戶數(shù)60000006000000400000020000002024年Gitee2024年Gitee新增用戶數(shù)2014年2015年2016年2017年2018年2019年2020年2021年2022年2023年2024年2014-2024Gitee用戶數(shù)增長曲線開發(fā)者是社區(qū)的力量源泉4000000035,000,000300000002024年Gitee2024年Gitee總倉庫數(shù)20000000100000002024年Gitee2024年Gitee新增倉庫數(shù)030,000,00025,000,00020,000,00015,000,0005,000,0003,000,000140,0001,000,000140,0002014年2015年2016年2017年2018年2019年2020年2021年2022年2023年2024年和開源共同體擁抱開放透明2024年Gitee開源組織數(shù)量2024年,Gitee上的開源組織數(shù)量達到了40萬個,越來越多的開發(fā)者選擇凝聚在一起,共同擁抱開放透明的組織協(xié)同。450000400,000400000380,000350000330,000300000250000200,000200000160,000150000110,00010000070,0005000025,00001002403,00020142015201620172018201920202021202220232024本年度最受開發(fā)者關注的開源組織2024年,技術大廠及其大型項目依然備受關注,它們推動著技術的快速發(fā)展和廣泛應用。同時,「民間」開源組織雖然在關注度上不及大廠主導的項目,但它們在某些技術細分領域中卻擁有非常強的影響力和活躍的開發(fā)者社區(qū)。兩者的不同發(fā)展模式相互補充,共同推動了國內開源生態(tài)的繁榮與多樣化。本年度最受開發(fā)者喜愛的開源組織收獲Star數(shù)方面,更加注重創(chuàng)新和技術探索「民間」開源組織更加「接地氣」,受到了更多開發(fā)者的喜愛。雖然面臨資源的挑戰(zhàn),但它們的靈活性和社區(qū)驅動力使得它們獲得了更多開發(fā)者的支持。本年度最活躍的開源組織不同開源組織在Issue解決和PR不同開源組織在Issue解決和PR處理數(shù)量上的差異,反映了它們在開發(fā)活躍度、社區(qū)參與度和技術成熟度上的不同戰(zhàn)略。技術大廠主導的項目往往具有較高的資源投入和社區(qū)管理效率,而民間組織則可能更注重技術問題的快速解決,并逐步吸引更多的開發(fā)者參與貢獻。 201320142015201320142015201620172018201920202021202220232024JavaJavaScriptPHPC#CTypeScriptNodeJS2024年,Gitee上的編程語言依然由Java、JavaScript、Python引領潮流。與此同時變化也在悄然進行中:憑借AI開發(fā)熱潮,C與C++依然在今年煥發(fā)著生命力,流行度已與十年前不相上下。TypeScript依然強勢增長,隨著越來越多的開發(fā)者從JavaScript轉向TypeScript,其未來的發(fā)展更值得期待。本年度增長最快編程語言TypeScriptYAMLVisualBasicTypeScriptYAMLVisualBasicCC#35.71%33.04%30.09%27.93%22.94%21.03%Gitee年度增長最快編程語言(2023年增長率為49.04%同樣持續(xù)強勢的還有Rust以及22.94%21.03%19.69%19.56%17.86%此外,Dart及Arduino首次上榜,19.56%17.86%16.91%16.91%15.63%15.41%本年度最常用開源許可證LGPL-3.00.81%LGPLLGPL-3.00.81%LGPL-2.10.71%1.48%5.62%GPL-2.05.62%BSD-3-Clause3.24%33.91%AGPL-3.033.91%GPL-3.08.55%MulanPSL-2.011.70%Apache-2.027.28%Apache-2.0MulanPSL-2.0GPL-3.0AGPL-3.0BSD-3-ClauseGPL-2.0AFL-3.0LGPL-3.0LGPL-2.1開源許可證方面,MIT及Apache-2.0依然是Gitee開發(fā)者最常用的開源許可證,使用它們作為開源許可證的倉庫占比超過了61%。木蘭寬松許可證第二版(MulanPSL-2.0)緊隨其后,獲得了越來越多國內開發(fā)者的認可的MulanPSL-2.0已經(jīng)連續(xù)兩年成為了Gitee最常用開源許可證的前列??梢灶A見,在未來的國內開源生態(tài)中,木蘭寬松許可證將會越來越主流。本年度使用率增長最多的開源許可證BSL-1.0BSD-3-Clause-ClearMulanPubL-2.0BSD-3-Clause73.70%62.96%60.64%BSL-1.0BSD-3-Clause-ClearMulanPubL-2.0BSD-3-Clause73.70%62.96%60.64%59.55%57.06%CC、Zlib等寬松許可證依然增長迅速。CC-BY-SA-4.0LGPL-2.1AGPL-3.0BSD0.00LGPL-2.1AGPL-3.0BSD0.00BSD-2-Clause53.11%40.01%37.22%35.19%31.97%31.56%30.56%AGPL這樣大家熟知的較為嚴格的許可證外,相比于木蘭寬松許可證更加嚴格的木蘭公共許可證第二版(MulanPubL-2.0)也在40.01%37.22%35.19%31.97%31.56%30.56%LGPL-3.0AFL-3.0OSSCompass平臺相關公開數(shù)據(jù)型LLM開發(fā)技術棧作為切入點,將深入探討以下中國AIAgent,以及檢索增強生成(RAG)等多個關鍵技術棧。估體系,希望通過這些數(shù)據(jù)洞察中國開源開發(fā)者在領域的活躍度、生產(chǎn)力和創(chuàng)新能力。的生態(tài)評OSSCompass提供了一個公共的平臺用來評估開源項目和社區(qū)的健康度,該平臺對整個社區(qū)開放,支持GitHub和Gitee等平臺托管的開源項目。開發(fā)基礎設施,本部分圖表中的開發(fā)框架、向量數(shù)據(jù)庫、開發(fā)平臺、大模型均表現(xiàn)出色,代表著它們的代碼提交頻率、參與者、代碼合并比率等協(xié)作開發(fā)工作保持著較高的水平。作為AI開發(fā)生態(tài)中的關鍵組成部分,本部分圖表中的開發(fā)框架、大模型及相關工具在活躍度的表現(xiàn)各有千秋。如應用開發(fā)平臺Dify受行業(yè)技術更新影響較小,其活躍度始終保持著較高水平;而大語言模型MOSS則較易受技術更新影響,活躍度隨時間整體呈下滑趨勢。開源組織的活躍程度成為衡量社區(qū)生態(tài)建設是否繁榮的重要指標之一。本部分圖表中的多個組織在社區(qū)活躍度上表現(xiàn)各有差異。如某些組織在開源項目中長期保持較高的貢獻水平,展現(xiàn)出其對生態(tài)建設的持續(xù)支持;而部分組織的活躍度則隨時間推移逐漸下降,可能受到內部資源調整或技術方向變化的影響。<part2:TOP101-2024大模型觀點本章匯集了來自不同領域專家和開發(fā)者對開源大模型和人工智能技術的深刻見解,不僅涵蓋了技術層面的深入探討,也觸及了社會、倫理和政策層面的廣泛議題。從對中國開源模型崛起的分析,到對開源模型持久性的思考,再到對超級應用探尋之路的探索,每篇文章都為我們提供了獨特的視角,幫助我們理解開源大模型在AI技術領域的作用和影響。2024年,中國在開源人工智能模型領域的崛起和變革成為全球矚目的焦點:從學術到產(chǎn)業(yè),從技術到生態(tài),中國通過自主研發(fā)和協(xié)同創(chuàng)新,逐步完成了從“追隨者”到“引領者”的轉變。這種轉變不僅是技術實力的體現(xiàn),更是中國人工智能生態(tài)系統(tǒng)快速完善的真實寫照。以下,我們將從崛起與變革兩個維度,探討中國開源模型在這一年取得的重大成就和未來展望。從“追隨者”到“引領者”2024年,中國學術界和產(chǎn)業(yè)界大力推進自主研發(fā),在技術創(chuàng)新和模型能力上實現(xiàn)了顯著飛躍,并在全球范圍內取得了顯著成就。HuggingFaceOpenLLM排行榜數(shù)據(jù)顯示,從智譜的GLM系列、阿里巴巴的Qwen系列到深度求索的DeepSeek系列,這些自主研發(fā)的模型在國內外各項評測中表現(xiàn)卓越。每個月來自中國主要研究機構和公司的開源模型/數(shù)據(jù)集數(shù)量。圖片源自HuggingFace中文社區(qū)模型社群:https://huggingface.co/spaces/zh-ai-community/zh-model-rel其中,Qwen系列憑借靈活的多尺寸選項,強大的多語言支持以及友好的模型授權功能,贏得了社區(qū)開發(fā)者的高度評價。DeepSeek通過引入多頭潛在注意力(Multi-headLatentAttention,MLA)技術,在性能和成本上實現(xiàn)了革命性突破,開創(chuàng)高性價比的AI新紀元。智譜的CogVideoX系列文生視頻模型,成為全球首批開源的文生視頻模型之一,不僅在技術方面讓中國視頻生成模型列入領先梯隊,強化了中國模型在全球范圍的競爭力,也為國際開源生態(tài)的發(fā)展產(chǎn)生了積極的影響,為全球開發(fā)者提供了更多創(chuàng)新和應用的可能。中國開源模型從最初的質疑中崛起,逐步贏得了廣泛認可。這不僅彰顯了中國開源模型從追隨者到行業(yè)引領者的跨越式成長,也為全球人工智能發(fā)展注入了新的活力與動力。中國開源模型的成功并非偶然。在政府對人工智能產(chǎn)業(yè)的持續(xù)支持以及國內人工智能行業(yè)對模型研發(fā)的巨額投入下,從基礎算法到行業(yè)應用、從算力基礎設施到數(shù)據(jù)資源整合,中國人工智能生態(tài)體系正在迅速完善。這一趨勢表明,未來中國有可能在全球人工智能領域占據(jù)更為核心的地位。開源生態(tài)的繁榮與協(xié)作隨著開源模型影響力的提高,中國開源社區(qū)的活躍度也明顯提升。無論是企業(yè)、研究機構還是個體開發(fā)者都更加積極地參與到開源工作中。以阿里巴巴的通義千問Qwen為例,據(jù)不完全統(tǒng)計,截止2024年9月,全球已有近8萬基于Qwen的衍生模型,超越了Meta的Llama。該系列模型已被集成到HuggingFaceTransformers、HuggingChat和阿里自家的百煉平臺中,極大促進了全球開發(fā)者的交流和協(xié)作,形成了國際化開源生態(tài)。北京智源研究院和上海人工智能實驗室等研究機構,通過與企業(yè)和高校合作及開源平臺的建設,建立了更完善的協(xié)作機制,從而在開源模型(如InternLM)和數(shù)據(jù)集(如域貢獻了大量有影響力的基礎工作和資源。2024年,中國開源社區(qū)涌現(xiàn)出眾多高質量的自發(fā)研究成果。其中,MAP團隊推出的全開源模型MapNeo引人矚目。該模型在訓練數(shù)據(jù)、腳本以及模型對齊工作上實現(xiàn)了全面公開,成為國內少有的真正意義上完全開源的項目。而InstantX團隊的InstantID則作為中國模型在國際開源社區(qū)的2024年首秀,一經(jīng)發(fā)布便獲得了廣泛關注,為中國模型在全球開源生態(tài)中贏得了更多認可。平衡發(fā)展與合規(guī)創(chuàng)新中國在推動人工智能技術發(fā)展的同時,也在監(jiān)管層面努力建立了完善、透明的治理機制。這種監(jiān)管創(chuàng)新為開源模型的發(fā)展提供了穩(wěn)定的政策環(huán)境,同時確保技術應用符合社會價值導向。比如《人工智能示范法2.0(專家建議稿)》對于免費且已開源方式提供人工智能研發(fā)的個人和組織給予減輕或免承擔法律責任;《生成式人工智能服務管理暫行辦法》則明確了人工智能技術的使用和合規(guī)要求,促進了開源模型在合規(guī)框架下良性發(fā)展。端上模型的興起與隱私保護隨著小型模型的性能逐步增強,更多高級AI正轉向在個人設備上運行。這一趨勢不僅顯著降低了云端推理成本,還提升了用戶隱私控制。中國AI社區(qū)在這一領域也做了重要貢獻,推出了如Qwen2-1.5B、MiniCPM系列和DeepSeekJanus等多款移動友好型模型。其中,最新發(fā)布的GLMEdge1.5B模型通過與高通GenAI擴展的聯(lián)合優(yōu)化,在搭載驍龍8Gen4處理器的手機上實現(xiàn)了每秒65個tokens的推理速度,接近人類語音的平均輸出速率。盡管存在電池續(xù)航和內存占用過大等挑戰(zhàn),端上模型代表了AI技術隱私保護和成本優(yōu)化的未來方向。中國在這一領域的探索,為行業(yè)提供了寶貴經(jīng)驗。推理擴展法則的潛力釋放通過推理擴展法則,模型性能可通過延長“思考時間”而進一步優(yōu)化。這一技術模擬了人類“深思熟慮”的過程,顯著提升了模型在邏輯推理和復雜任務中的表現(xiàn)。中國開源社區(qū)在邏輯推理領域推出了許多創(chuàng)新項目,包括阿里巴巴國際的Macro-o1、通義千問團隊的QwQ、上海人工智能實驗室的LLaMA-O1和清華大學的Llama-3.2V-11B-cot。這些模型不僅在技術上各具特色,還通過開源策略分享了大量研究細節(jié),為整個開源社區(qū)提供了豐富的資源,在這一過程中,小模型不僅在推理能力上有了顯著提升,也推動了行業(yè)整體技術水平的進步。結合當前人工智能產(chǎn)業(yè)界的“人工智能+”計劃,小模型在特定任務優(yōu)化上的優(yōu)勢愈發(fā)突出,預計將在金融、醫(yī)療和工業(yè)自動化等熱門領域發(fā)揮引領作用,以更高效、更精準的方式滿足多樣化需求,幫助人工智能在實際應用場景中落地。開源多元化與應用細分中國開源模型的發(fā)展不僅體現(xiàn)在技術突破上,還在生態(tài)建設中展現(xiàn)出巨大的活力。中國開源模型從競爭激烈的“百模大戰(zhàn)”逐步邁向多元化和深度細分,國內社區(qū)在今年發(fā)布了大量高質量開源模型,尤其是多模態(tài)理解與生成模型:多模態(tài)理解:Qwen2-VL、Ovis、InternVL2、DeepSeekJanusFlow、GOT-OCR2_0;圖片生成:PixArt、Lumina、Kolors、Hunyuan-DiT、VAR、Meissonic;TTS:GPT-SoVITS、ChatTTS、CosyVoice、FishAudio、MaskGCT、F5-TTS。這一趨勢表明,模型的競爭已經(jīng)從單純的規(guī)模比拼轉向應用場景細化。為了更好地展現(xiàn)這一演進路徑,我們在HuggingFace的中文模型社群中對各個領域的開源模型進行了系統(tǒng)整理。展望2024年,中國開源模型的發(fā)展展現(xiàn)了技術、生態(tài)和社會價值之間的深度協(xié)同。無論是從技術創(chuàng)新到社區(qū)建設,還是從行業(yè)實踐到合規(guī)探索,中國開源生態(tài)體系的完善正在為全球人工智能發(fā)展注入源源不斷的動力。在HuggingFace,我們堅信開源是推動人工智能技術進步和生態(tài)繁榮的核心力量。開源不僅能夠打破技術壁壘,促進全球開發(fā)者之間的協(xié)作與創(chuàng)新,還能推動技術的普惠化,讓更多的人能夠平等地享受人工智能帶來的便利與機遇。在未來,中國開源模型有望繼續(xù)引領全球技術進步,為全人類的智能化生活提供更豐富的解決方案與可能性。我們希望看到更多來自中國的開源AI團隊“出?!保e極融入和參與全球人工智能生態(tài),勇于在全球市場發(fā)聲,通過開放協(xié)作推動技術邊界的不斷拓展,共同構建一個更加包容、多元與可持續(xù)發(fā)展的人工智能的未來?!伴_源”是指采用符合OSI官方認可的軟件許可證進行軟件發(fā)布的行為。目前大模型的“開源”與傳統(tǒng)的開源定義并不相同。我所說的開源策略是指以開源發(fā)布軟件為起點,用戶/開發(fā)者運營為途徑的軟件產(chǎn)品推廣策略。我的觀點是,開源策略是大模型最好的競爭策略。接下來讓我們從頭捋一捋推導過程。我們先看大模型賽道的整體狀況:大模型是一項相對較新的技術。盡管OpenAI早在2019年就發(fā)布了第一個重要的就與微軟合作發(fā)布了開源大模型LLaMA-2。這個賽道的主要玩家在技術和商業(yè)化上有差距,但沒有到翻盤無望的程度。大模型賽道不但包括模型的訓練,也包括模型服務。訓練是軟件的制作成本,而服務是軟件的長期運行成本。大模型賽道的市場化程度非常高。算法、算力、數(shù)據(jù)、人才,這些構建大模型的基礎要素并不為權力機構壟斷,大多要從市場上獲得。大模型作為一項令人激動的技術,商業(yè)化場景覆蓋了對企業(yè)(2B)與對個人(2C)兩個大方向。大模型賽道在海外是“一超多強”,在國內則是“多頭并舉”,兩種典型的競爭格局都全了。以上,大模型賽道的元素非常豐富,各種商業(yè)化方法的排列組合都不缺,為我們的分析與推演提供了可貴的素材。對軟件商業(yè)化問題感興趣的朋友一定要長期關注這個賽道。只有這樣的對象才能更有力地說明開源策略的重要性。C端用戶基數(shù),依賴這個軟件的生態(tài)系統(tǒng)大小等等。其中哪個更關鍵一點?技術先進是好事,但大模型領域的先進技術遠沒有達到能為大模型企業(yè)帶來可觀收入的程度。整個大模型賽道還處在商業(yè)化的摸索階段。這個時間點上的“技術先進性”更多是用于公關宣傳的素材??紤]到數(shù)據(jù)獲取、加工的成本,模型訓練的成本,這是一種相當昂貴的宣傳方式。C端用戶指那些把大模型當成智能個人助理來使用的普通個人用戶。OpenAI在ChatGPT上一個重要且成功的操作就是把大模型從學術界、工業(yè)界直接推向了普通個體,讓C端用戶切實感受到了大模型的可能性與魅力。這一點被國內的大模型廠商廣泛學習。在B站刷視頻,國內知名的那幾個大模型廠商的廣告,你一個也不會落下。受到大家的認可與喜愛固然重要,但對于C端用戶,有兩個需要時刻牢記的問題:一是C端用戶是沒有忠誠度的,誰免費就用誰,誰給補貼就用誰;二是某一個大模型對C端用戶比較難產(chǎn)生獨特的粘性。第一個問題的例證太多了,百團大戰(zhàn)、滴滴快的、社區(qū)團購、pdd。大模型廠商維系C端流量的成本可能是個無底洞。第二個問題則涉及兩個方面,一是大模型賽道本身的極度內卷,技術上拉不開差距;二是普通用戶的使用隨意性很強,準確性要求也不高,最終各家大模型的基礎能力都足以應付。一個大模型的生態(tài)系統(tǒng)的大小,也就是指有多少開發(fā)者在基于這個大模型構建應用。我認為這是一個更靠譜的評價指標,是某個大模型最終能勝出的關鍵所在。構建開發(fā)者生態(tài)通常有兩種做法,一種是提供API云服務,對注冊開發(fā)者進行一定的云資源補貼;另一種是“開源”的方法,提供大模型免費下載,免費商用(一定條件下)。兩種方法各有支持者。閉源大模型一般會采用第一種方法,其中的代表有OpenAI、Anthropic等(為避免麻煩,國內廠商的名字就不提了)。能用第二種方法的,必然是某種程度上的“開源”模型,以Meta的Llama2、Llama3模型為首。前段時間李彥宏在Create2024百度AI開發(fā)者大會上放言“開源模型會越來越落后”。前文我有提到,此時此刻的技術先進性并不重要。甚至在計算機發(fā)展史上,很多領域中笑到最后的產(chǎn)品,并不是技術上最先進的。拋開成本和易用性,空談技術先進性是最常見的錯誤。那么具體到大模型領域,閉源與開源,兩種方法孰優(yōu)孰劣?我的回答是采取什么方法因人而異,但開源會更有優(yōu)勢。大模型賽道的核心制約條件是成本太高——訓練成本高,運行成本高。如何盡可能降低成本,比對手堅持得更久一些是確保長期成功的必要條件?,F(xiàn)在的宏觀環(huán)境下,一味靠融資來支撐自己的高成本支出不是長久之計。閉源大模型廠商必須維持一定的云資源,工程師資源來支撐小額的開發(fā)者調試需求。投入產(chǎn)出上恐怕是算不過來的。即便閉源廠商愿意持續(xù)地補貼開發(fā)者,他們最終會發(fā)現(xiàn)大模型對開發(fā)者的粘性也非常有限,沒比在C端用戶那邊好到哪里去。大模型這一產(chǎn)品形態(tài)實在是太特殊了——大多以自然語言為交互方式。因此大模型API云服務的接口是非常簡單的,高度一致的。在這種情況下,如果開發(fā)者構建的大模型應用只是調用大模型的API,那么大模型應用與某個具體的大模型之間很難形成強綁定。也就是說,面對各種大模型云服務,主動權在開發(fā)者這里。與之相對,開源的方法至少可以相當程度地省去為了拓展開發(fā)者生態(tài)而付出的大模型運行成本。開發(fā)者免費下載大模型以后,會在自己的計算機資源上進行大模型應用的開發(fā)和調試。大模型廠商提供一些技術支持即可。同時因為大模型運行在本地,開發(fā)者在構建大模型應用時,為了物理部署上的便利,很可能會在應用與模型之間創(chuàng)造出物理部署上的耦合性。當然這種“開源策略”不是進攻的方法,而是“先為不可勝,以待敵之可勝”。目標是以最小的代價,盡可能多地消耗閉源對手的資源與心氣。顧鈞近日,大模型教父SamAltman在Reddit上的評論透露出GPT-5難產(chǎn)的隱憂,直言有限的算力約束讓OpenAI面臨迭代優(yōu)先級的艱難抉擇,在通往AGI的道路上一路高歌猛進的領頭羊似乎撞上了“算力墻”。除此之外,能耗、資金,難以根除的幻覺,有限的知識更新速率、有限的上下文寬度、高昂的運營成本等等,都讓外界對大模型的發(fā)展憂心忡忡。面對棘手的困境與難題,大模型的未來,又該何去何從呢?下一代“明星產(chǎn)品”“算力墻”下,模型效果邊際收益遞減,訓練和運營成本高昂,在這個時間節(jié)點,最好的AI產(chǎn)品會是什么?奧特曼、蓋茨、小扎、吳恩達、李彥宏等一眾大佬給出了一致的答案——智能體(AIAgent)。2025,將會是智能體元年。什么是智能體?目前業(yè)界一致認可的公式是“智能體=LLM+記憶+規(guī)劃+工具”:大模型充當智能體的“大腦”,負責對任務進行理解、拆解、規(guī)劃,并調用相應工具以完成任務。同時,通過記憶模塊,它還能為用戶提供個性化的服務。智能體為什么是“算力墻”前AI產(chǎn)品的最優(yōu)解決方案?這一問題的底層邏輯包含兩個方面。1.LLM是目前已知最好的智能體底層技術。智能體作為學術術語由來已久,從上世紀的“符號、專家系統(tǒng)”【1】,到十年前風頭無兩的強化學習(代表作AlphaGo【3】再到現(xiàn)在的LLM,agent底層技術經(jīng)歷了三個大的階段。符號系統(tǒng)的缺點在于過于依賴人工定義的“符號”和“邏輯”,強化學習苦于訓練數(shù)據(jù)的匱乏和“模態(tài)墻”,而LLM一次性解決這些問題。人類語言就是一種高度抽象、跨模態(tài)、表達力充分的符號系統(tǒng),同時它作為知識的載體,自然地存在大量數(shù)據(jù)可用于訓練,還蘊含了人類的思維模式。在此基礎上訓練得到的LLM,自然具備被誘導出類人思考的潛力。在COT(思維鏈)【4】、TOT(思維樹)【5】等技術的加持下,大模型正在學習拆解自己的“思維”,OpenAI的o1就是典型案例,強化了推理能力的同時,也大大緩解了幻覺問題。2.大模型做不到的,“現(xiàn)存工具”強勢補位。無法持續(xù)更新的知識庫,可以通過RAG(RetrievalAugmentedGeneration,檢索增強生成)來解決。RAG的出現(xiàn),讓各界越來越深刻地認識到,大模型沒必要存儲那么多知識,只需要如何使用搜索引擎這個外部工具即可。大模型可以在搜索結果上做進一步的信息篩選和優(yōu)化,而搜索引擎彌補了大模型的知識缺陷,實現(xiàn)了1+1>=2的效果。RAG可以被理解為智能體的最簡單形式。未來的智能體可以實現(xiàn)多種工具的混合使用,甚至多智能體協(xié)作,這不是猜想,我們已經(jīng)在學術界看到了驚艷的早期方案【6,7】?!八陌谚€匙”解鎖潛力1.領域模型小型化、平臺化會成為新趨勢。雖然各有所長,但實際體驗越來越讓大家分不出差異,基座模型作為智能體核心,決定了智能體效果下限,人人訓練基座的可能性越來越低,“基座服務化”很可能是最合理的商業(yè)模式。甚至,在錯誤不敏感的應用領域,出現(xiàn)一個開源、無商業(yè)限制的基座的可能性也很高。小應用開發(fā)商很可能很容易獲得一個低成本serving的“量化小基座”?!?B”是一個magicnumber!無論是RAG里的向量表征模型,還是文生圖、文本識別(OCR)、語音合成(TTS)、人臉識別等等垂直領域,一個1B~7B的小模型已經(jīng)可以滿足很多生產(chǎn)、應用需要,并且效果也在逐步推高【8,9,10】。這些模型,作為智能體的“三頭六臂”,不需要太“大”。同時,從學術角度來講,各種領域專用模型的技術最優(yōu)解也在逐漸趨同。應用開發(fā)者越來越不需要了解模型的底層技術,只需要懂得如何設計自己應用的任務流,懂一點點COT系列的promptengineering的技巧,就可以利用Maas(Modelasaservice)、Aaas(Agentasaservice)這樣的平臺,如玩樂高一般搭建自己的AI云原生應用。2.算力層深挖定制化、低能耗的可能性,但固化transformer可能不是最優(yōu)解雖說智能體不需要太大的模型,但其運營成本(模型推理計算成本)仍然較高。在短時間算力、能源仍然會是大模型領域令人頭疼的高墻。根據(jù)報告【1】,能源消耗將會是2030模型scaling最卡脖子的因素。也就是說,在算力到達瓶頸之前,首先可能會出現(xiàn)電能供應不足甚至交不起電費的問題。因此,算力層可以根據(jù)大模型底層技術的特性,產(chǎn)出針對性的芯片,尤其是加速運算和降低能耗。這是未來AI芯片領域的最優(yōu)競爭力。那么,把transformer“焊死”到板子上就是最佳方案嗎?我知道你很急,但你先別急。大模型底層框架還存在底層路線之爭。我們知道,Transformer架構呈現(xiàn)了O(n2)的理論計算復雜度,這里的n指的是大模型輸入序列的token數(shù)量,但其前任語言模型擔當RNN只有O(n)的理論計算復雜度。最近,以Mamba、RWKV為代表的類RNN結構死灰復燃,公開挑戰(zhàn)transformer地位。在這個方向的持續(xù)投入下,我們很可能會迎接一個介于RNN和Transformer之間的“新王”。因此,算力層短時間內的主題仍然是“半通用化”“高算力”“低能耗”。3.合成數(shù)據(jù)驅動新產(chǎn)業(yè)鏈早有機構預測,人類社會可利用訓練數(shù)據(jù)會在2026年耗盡。這可能還是一個樂觀估計。光頭哥TiborBlaho還曾爆料,OpenAI用于訓練“獵戶座“的數(shù)據(jù)中,已經(jīng)包含了由GPT-4和O1產(chǎn)出的合成數(shù)據(jù)。這不僅是因為自然存在的高質量文本的匱乏,還因為智能體所需的數(shù)據(jù)很可能需要顯式地蘊含任務思考和規(guī)劃的拆解信息。然而,針對合成數(shù)據(jù)的問題,學術界早有預警,模型可能會在合成數(shù)據(jù)上的持續(xù)訓練中崩壞【14】。這是因為合成數(shù)據(jù)往往攜帶“錯誤”和“幻覺”,在一些冷門的知識上尤甚。因此,合成數(shù)據(jù)的實用秘訣是“去粗取精”,需要一定程度的“人機協(xié)同”。在如何構造大批量、高質量的合成數(shù)據(jù),讓智能體能夠在持續(xù)地與用戶的交互中自我優(yōu)化而不是劣化,將會成為眾多無機器學習技術背景的開發(fā)者的頭號難題。因此,面向數(shù)據(jù)進行定制化合成、評估、測試、標注、人機協(xié)同的“純數(shù)據(jù)”產(chǎn)業(yè),有可能會走上越來越重要的位置,不僅僅是服務于基座模型廠商。4.多模態(tài)對齊很可能給基座模型帶來質的提升最新研究發(fā)現(xiàn),在沒有預先約束和約定下,不同模態(tài)領域的最強模型正在向著某個世界模型認知領域表征)會逐步趨同,構建對這個世界的統(tǒng)一認知。這也符合我們人類對世界的認知:人類通過語言文字這種符號,將不同模態(tài)的信號統(tǒng)一地表達,并在腦中構建了某種受限于當前科技水平的統(tǒng)一模型,這是人類意識、社會溝通的前提。從這個角度理解,多模態(tài)大模型很可能是通向真正AGI的必經(jīng)之路。將多模態(tài)信號統(tǒng)一對齊,是智能體與這個世界“無障礙”交互的前提,換個新潮的詞匯,就是我們期待的“具身智能”。誰不想擁有一臺自己專屬的“Javis”呢?而多模態(tài)大模型的突破,也同樣依賴前文所述的算力和數(shù)據(jù)上的沉淀。傅聰在頂會和期刊TPAMI、KDD、VLDB、IJCAI、EMNLP、CIKM等發(fā)表十余篇論文,同時也是Tpami、TKDE、KDD、ICLR、AAAI、IJCAI、EMNLP、ICLR等會議的審稿人。2024年大模型真正開始落地,大多數(shù)科技工作者在工作中至少使用一款大模型提升效率,很多國民級應用和手機廠商也接入了大模型。大模型開始往專業(yè)(Professional)模型和個人(Personal)模型兩個方向分化。專業(yè)模型是旨在提升生產(chǎn)力的模型,例如AI輔助編程、寫作、設計、咨詢、教育等。一旦模型能力達到門檻,專業(yè)模型將帶來很高的附加值。2024年,專業(yè)模型已經(jīng)在很多領域落地。例如,AI輔助編程可以提升開發(fā)效率一倍以上,僅用每月數(shù)十美元的API調用成本,就相當于每月上萬美元的工程師。AI生成圖片、播客、直播等,可以上百倍提升畫師、配音員、主播的工作效率。AI在心理、法律、醫(yī)療等領域的咨詢服務可達到初級專業(yè)人士水平,每小時收費相比模型成本也高上百倍。AI虛擬外教已經(jīng)可以媲美真人外教,由于發(fā)音標準,效果甚至超過大多數(shù)國內英語老師。專業(yè)模型是通用大模型和垂直領域數(shù)據(jù)、工作流的結合。這里通用大模型的基礎能力是關鍵,一個世界領先的通用大模型加上RAG(搜索增強生成)行業(yè)知識庫,做出的專業(yè)模型效果往往超過開源模型加上一些垂直領域數(shù)據(jù)微調得到的行業(yè)模型。因此,專業(yè)模型雖然訓練、推理成本都較高,但考慮到較高的溢價空間,投入是值得的。由于通用大模型的通用性,難以建立差異化壁壘,也難以形成網(wǎng)絡效應,因此基礎模型公司的競爭將非常激烈,算力將成為長期競爭力的關鍵。對于大公司而言,能否集中算力、數(shù)據(jù)和人才,保持組織高效很關鍵。創(chuàng)業(yè)公司需要更多的資金支持,或者與云計算平臺或芯片廠商深度合作,才能競爭專業(yè)模型的最高水平。一個例外是圖片、視頻等基于擴散模型的生成模型,在創(chuàng)作需求簡單的情況下,未必需要通用語言模型這么大,是一個差異化競爭的機會。隨著專業(yè)模型編程能力的提升和AIAgent工作流進一步成熟,低代碼編程將成為可能,很多人心中的想法將可以快速轉化成應用,應用創(chuàng)業(yè)的試錯成本已經(jīng)大幅降低,未來甚至可能出現(xiàn)SamAltman所說的“僅有一個人的10億美金公司”。由于定制化開發(fā)、知識收集整理的成本降低,大量現(xiàn)實世界中的工作流和行業(yè)知識將轉化為行業(yè)應用和行業(yè)數(shù)據(jù),傳統(tǒng)行業(yè)數(shù)字化轉型中的定制化開發(fā)難題有望解決。對程序員而言,需求表達能力、溝通能力等軟技能和系統(tǒng)架構設計等硬核能力將越來越重要,因為AI就像今天的基層程序員,需要人表達清楚需求才能做好,復雜系統(tǒng)的架構設計和問題解決也還是要靠人。專業(yè)模型是通向AGI的必經(jīng)之路。AnthropicCEO預測,未來5年專業(yè)模型將達到人類頂尖專家水平,將人類科研進展加速10倍,15年后人類壽命有望達到150最大的不確定性在于技術和資金。技術方面,一些頭部大模型公司已經(jīng)發(fā)現(xiàn)Transformer能力“撞墻”,現(xiàn)有高質量語料基本都被用過了,進一步提升模型智力需要強化學習等新方法。資金方面,一些智庫預測,AGI將需要上萬億美元的投資,芯片的能耗也將使人類的能源消耗增加一倍。如果AGI達成,將顯著改變國際競爭格局和人類生活方式。相比更類似“阿波羅計劃”的專業(yè)模型,個人模型不需要那么大訓練投入,也更容易變現(xiàn)。個人模型旨在幫助普通人提升生活質量,例如生活助手、旅行助手、電話助手等,把《Her》等科幻電影中的場景變?yōu)楝F(xiàn)實。目前國內的頭部AI公司也已接近個人模型的技術目標。但目前端到端多模態(tài)模型和推理模型的成本仍然較高,且在一些場景下還不夠穩(wěn)定。但2023年以來,模型知識密度有每8個月提升一倍的“類摩爾定律”趨勢,加上硬件的摩爾定律和推理框架的優(yōu)化,一到兩年后,個人模型的成本將達到可以讓用戶隨時使用的水平,就像互聯(lián)網(wǎng)應用一樣,通過廣告和少數(shù)訂閱即可盈利。類似o1的強推理能力模型也不一定需要很大,未來將成為個人模型的標配,經(jīng)常算錯數(shù)的模型將被淘汰。手機、PC和空間計算設備的端側個人模型將足夠滿足大多數(shù)日常需求,智能汽車可能成為家庭計算中心。云端模型將作為端側模型的補充,用于處理較復雜的任務和處理大量數(shù)據(jù)。模型的多模態(tài)能力將使AR/VR等空間計算設備成為更自然的人機交互入口。推理能力將使得模型可以可靠處理復雜任務,真正節(jié)約用戶時間,甚至做到人力不能及的信息采集和分析。多模態(tài)和推理能力也將使具身智能真正具備通用的感知、規(guī)劃、控制能力。頂級的專業(yè)模型公司有最高質量的數(shù)據(jù),因此可以蒸餾出知識密度最高的個人模型。但由于個人模型的推理成本較低,知識密度稍低的模型未必沒有市場。由于訓練成本較低,未來個人模型將百花齊放,AI公司很難單靠模型本身建立護城河,產(chǎn)品的重要性將高于模型能力。面向個人生活和娛樂的AI產(chǎn)品關鍵是用戶交互,目前優(yōu)秀的AI應用已經(jīng)不簡單是生成文字。在ClaudeArtifacts之后,AI生成代碼,再運行代碼,生成圖文并茂的回答,直觀的圖表,多模態(tài)帶講解的播客,甚至帶交互的小游戲、小應用,已經(jīng)成為AI應用的新范式。在個人模型成本尚未降低到可以隨意使用時,商業(yè)上成功的應用可能將有更高的“讀寫比”,也就是每次模型生成的內容可以被用戶多次使用,一種模式是內容社區(qū),創(chuàng)作者利用AI生成內容,大量的用戶訪問這些內容;另一種模式是用戶的問題有很高比例是重復的,例如拍照搜題、生成調研報告等??傮w來說,目前AI應用尚處于“iPhone1”時代,模型能力、應用生態(tài)、用戶習慣都在快速進化中。所謂“AI一天,人間一年”,即使是AI專家,也很難跟上所有最新的科研進展。大模型的時代才剛剛開始,預測未來的最好方式就是持續(xù)學習、探索、利用AI能力,創(chuàng)造未來。李博杰SIGCOMM、SOSP、NSDI、PLDI等頂級2024年8月下旬,一款AI代碼編輯器——Cursor火爆全球,火到一位8歲小女孩拿著它學編程,幾十分鐘內搭起來一個聊天機器人,其演示吸引來180萬人在線圍觀。這導致有人大膽預言,未來編程只需要狂按Tab就夠了。Cursor確實好用,包括新推出的“光標位置預測”功能。但是AI編程發(fā)展沒有那么快,在國內生成代碼采納率還比較低,根據(jù)《2024軟件研發(fā)應在2024年,我們還看到了“AI程序員”Devin的誕生,Devin能夠獨立完成復雜的編碼和調試任務、自主查找和修復代碼庫中的錯誤,構建和部署應用程序。在SWE-bench編碼基準測試中,Devin能夠解決GitHub中13.86%的真實問題,有了很大提升。說起SWE-bench編碼基準測試(/2024年進步很快,以OpenAI建立的verified子集(500個問題)為例,4月開始時,成功率只有2.8%,到現(xiàn)在已提升到53%,這表明AI在編程能力方面取得了顯著的進步。這一提升反映了AI編程幾個關鍵因素,正好用來總結2024年AI編程的進展。3.5Sonnet、Claude3.5Haiku,大模型自身的能力不斷提升,使得模型能夠更好地理解和解決復雜的編程問題。智能體(AIagent)的引進:智能體可以收集和學習與任務相關的知識,可以直接調用靜態(tài)代碼分析工具、直接調用搜索引擎和API為編程任務服務,并通過構建代碼倉庫知識圖來幫助大模型全面理解軟件倉庫的結構和依賴關系,從而更好地定位問題根源并生成有效的代碼補丁。智能體還可以動態(tài)獲取代碼片段和問題相關的信息,并分析和總結收集到的信息,以便規(guī)劃出更好的解決方案。例如從RAG+GPT4(1106)的2.8%提升到SWE-agent+GPT4(1106)的22.4%、從RAG+Claude3Opus的7%提升到SWE-agent+Claude3Opus的18.2%,效果都比較顯著。多模態(tài)能力:多模態(tài)LLM使智能體能夠綜合利用視覺和文本信息,可以理解軟件用戶界面、處理的圖表、可視化數(shù)據(jù)、語法高亮和交互映射等內容,更好地理解任務陳述以及獲取任務相關的產(chǎn)品信息、開發(fā)過程信息,從而更全面地理解和解決問題。目前排在SWE-benchverified前4位都使用了Claude-3.5-Sonnet,而它是多模態(tài)的、具備處理文本和視覺信息的能力,使其能夠理解和修復包含圖像或其他視覺元素的GitHub問題。和工具集成的框架:可以支持智能體在處理復雜任務時進行更好的任務管理和執(zhí)行,并促進不同AI模型和工具之間的協(xié)作。例如ComposioSWE-Kit集成文件操作、代碼分析、Shell命令執(zhí)行、知識庫管理和數(shù)據(jù)庫操作等工具或能力,優(yōu)勢互補,將SWE-benchverified大幅度提升到48.6%。再比如OpenHands+CodeActv2.1將智能體的行為整合到統(tǒng)一代碼行動空間的框架,允許OpenHands在編程任務中扮演全方位的智能助手角色,目前排在SWE-benchverified第一位基于代碼大模型的自身進化,以及RAG技術、智能體的有力支持,從而LLM有更好的上下文感知能力。例如,在代碼大模型預訓練時,其訓練語料中加入抽象語法樹(AST)、代碼依賴關系等數(shù)據(jù),新的代碼生成模型則具有更強的上下文感知能力。在此基礎上,基于AI的編程工具能夠根據(jù)給定的上下文(如函數(shù)名、注釋、部分代碼等)檢索出最相關的代碼片段和文檔,能夠提供完整的函數(shù)或代碼塊建議。這也使得LLM能夠參考海量的代碼庫和技術文檔,這不僅能緩解大模型的幻覺問題,顯著提升代碼生成與理解的準確性,而且能符合上下文的代碼,更能滿足開發(fā)的業(yè)務需求。未來,研發(fā)人員和多個智能體、工具協(xié)同工作來完成編程工作,如論文Flows:BuildingBlocksofReasoningandCollaboratingAI所描述的(圖2所示構成一個復合競爭性編碼流程,研發(fā)人員更多是提需求,由LLM和智能體實現(xiàn)自主編程的過程。隨著大模型技術的迅速發(fā)展,在今年,我們明顯能感到,AI已從單一的輔助工具,逐漸演變?yōu)檐浖_發(fā)人員不可或缺的助手或伙伴。除了前面已介紹的Cursor、ComposioSWE-Kit、OpenHandsCodeAct等工具之外,國內主要使用chatGPT、GitHubcopilot、通義靈碼、CodeGeeX、文心快碼、螞蟻CodeFuse等編程工具,國外還出現(xiàn)一些受歡迎的、新的編程工具,如CodeiumIDECascade、Solverai、這些工具讓我們能感受到AI卓越的生成能力和理解能力,幫助我們更高效地完成代碼生成、代碼評審、代碼解釋到單測生成、缺陷定位、代碼優(yōu)化等任務。這種進步也體現(xiàn)在今年國內企業(yè)一些落地實踐中:在一些大廠,LLM已經(jīng)實際應用到代碼審查或CI/CD流程中(如pullrequest),自動識別代碼質量問題并提出改進建議。有些企業(yè)結合智能體和相關工具的支持,讓基于LLM的研發(fā)平臺生成代碼流程圖和類圖,輔助自然語言解釋,使得開發(fā)者更直觀地理解代碼結構和執(zhí)行流程,增強智能編程的可視性和交互性。有些開發(fā)團隊借助智能體和RAG技術檢索歷史上已知的代碼缺陷模式和已知問題,從而比較準確地識別潛在的缺陷和安全漏洞,甚至能夠分析代碼的功能意圖,全面提升代碼評審的能力。有些團隊,根據(jù)UI設計圖,讓LLM自動生成相應的前端代碼,大大減少了手動編碼的時間,加快了從設計到實現(xiàn)的流程。從應用效果看,前面調研的數(shù)據(jù)可供參考。在國內AI編程開展比較好的大廠,超過80%的工程師在使用AI編程工具完成日常的編程工作,近30%入庫的代碼由AI生成,生成代碼平均采納率超過40%,有些產(chǎn)品線達到60%。僅僅在編程這一項工作(雖然只占開發(fā)人員20-30%的工作量)上,研發(fā)效率能提升20-30%。當然,我們不能局限于這一個編程環(huán)境,最好要從需求開始就應用大模型。ATDD(驗收測試驅動開發(fā))是大模型時代軟件研發(fā)的正確打開方式,讓大模型幫我們生成需求及其驗收標準,業(yè)務約束更明確了,上下文更清楚了,在此基礎上分別由不同的模型生成產(chǎn)品代碼和測試代碼,再讓它們之間相互驗證和博弈(如圖4所示最終交付高質量的軟件。未來,隨著AI技術的不斷成熟和創(chuàng)新,AI編程工具將進一步提升智能化和可解釋性,支持更多的編程語言和平臺,并通過強化學習實現(xiàn)自適應優(yōu)化。為了全面發(fā)揮AI編程技術的潛力,開發(fā)團隊需要不斷學習和適應新技術,優(yōu)化開發(fā)流程,確保AI工具的有效應用和高質量輸出。朱少民同濟大學特聘教授、CCF杰出會員、CCFTF軟件質量工程SIG主席、CCF2023杰出演講者、軟件綠色聯(lián)盟標準評測組組長、QEConIEEEICST、QRS等程序委員、《軟件學報》和《計算機學報》審轉眼到了2024年尾,和小伙伴一起創(chuàng)立TorchV也接近一年。雖然這一年做了很多事情,但從技術層面上來說,RAG肯定是不得不提的,所以今天分享一下作為大模型應用創(chuàng)業(yè)者所感知的這一年,RAG市場環(huán)境的變化。2024這一年,RAG技術對應的市場需求變化也是挺大的。在講變化之前,我覺得有必要分享一下為什么RAG是目前市場上不可或缺的一種大模型應用的技術實現(xiàn)方式,它的優(yōu)點是什么?以及它和主要競爭技術之間的現(xiàn)狀是怎么樣的?RAG最開始被大家熱推,更多是因為以下三個原因:可以避開大模型的上下文窗口長度的限制;可以更好地管理和利用客戶專有的本地資料文件;可以更好地控制幻覺。這三點到現(xiàn)在來看依然還是成立的,但上下文窗口這個優(yōu)勢已經(jīng)慢慢淡化了,因為各大模型的上下文窗口都在暴漲,如Baichuan2的192K,doubao、GLM-4的128K,過10萬tokens的上下文窗口長度已經(jīng)屢見不鮮,更別說一些特長的模型版本,以及月之暗面這樣用長文本占據(jù)用戶心智的模型。雖然這些模型是否內置了RAG技術不好說,但是RAG解決上下文窗口長度限制的特點已經(jīng)不太能站得住腳。但是第二點管理和利用專屬知識文件,以及第三點控制幻覺,現(xiàn)在反而是我認為RAG最大的殺手锏。(一)專屬知識文件管理因為RAG這種外掛文件的形式,我們便可以構建一個知識文件管理的系統(tǒng)來維護系統(tǒng)內的知識,包括生效和失效時間,知識的協(xié)作,以及便捷地為知識更新內容等。RAG在知識維護上,既不需要像傳統(tǒng)NLP那樣由人工先理解再抽取問答對,也不需要像微調(fine-tune)那樣需要非常專業(yè)的技術能力,以及微調之后的繁瑣對齊(alignment)優(yōu)化。所以如果客戶的知識內容更新比較頻繁(假設每天需要追加、替換大量實時資訊內容特別是金融證券、企業(yè)情報等場景,RAG知識更新便捷的特性真的非常合適。RAG的幻覺控制是一個有爭議的話題,我之前寫過類似觀點,也有同學斬釘截鐵地認為RAG和幻覺控制八竿子打不著,但我現(xiàn)在依然堅持RAG可以有效控制幻覺這個觀點。首先我們可以來看看LLM幻覺產(chǎn)生的主要原因:(1)對于用戶的提問輸入,LLM內部完全沒有相應的知識來做應對。比如你問大模型,上周三我在思考一件事,但是現(xiàn)在想不起來,你幫我想想是什么。例子雖然夸張,但顯而易見,LLM也不知道,但是它會一本正經(jīng)給你一些建議,當然肯定不是你想要的;(2)當我們給LLM原始問題,以及多個模棱兩可或互相影響的參考材料,那么LLM給出的最終答案也會出錯。好,那么針對以上問題,是否我們解決好對原始問題的“理解-檢索-召回”,送到LLM的context足夠清晰(指的是沒有歧義內容、檢索相關度高結果就會非常準確?根據(jù)我們的實踐結果,答案是明確的:今年9月份我們對一些項目進行了槽位填充(消除模糊問答)和元數(shù)據(jù)輔助之后,問答準確率可達到98%以上。比直接把大文本扔進同一個LLM測試的問答準確率幾乎高出14個百分點。有同學會說,LLM幻覺的深層原因是temperature或者說概率引起的。就我純個人觀點來看,現(xiàn)當下的LLM參數(shù)足夠大、知識量足夠多,temperature引起的偏差對于最終結果的正確性影響已經(jīng)微乎其微了。你應該看出來了,在RAG和微調之間,我明顯站隊了,而且從一年前就開始站隊了,我們創(chuàng)業(yè)的技術方向也是如此。從今天來看,我覺得RAG在2024年的表現(xiàn)確實要強于微調。根據(jù)MenloVentures發(fā)布的市場調研報告顯示,RAG以51%的市場份額在企業(yè)市場份額中占據(jù)絕對優(yōu)勢,F(xiàn)ine-tune和Prompting工程均下降兩倍多。Agent今年屬于況還不錯,但在企業(yè)應用領域,多Agents的編排依然存在理解能力不足和生成幻覺等問題有待提高。如果去預測明年的企業(yè)級市場趨勢,我覺得應用(Application)可能會是最大的關鍵詞,甚至會超過Agent的熱度。其實今年下半年已經(jīng)能明顯的看出來,越來越多傳統(tǒng)大企業(yè)開始將大模型技術引入到業(yè)務中,而且他們的特點是要求高、需求剛、付費爽。而一旦大家開始在大模型的應用側競賽,RAG在整個業(yè)務流程中白盒流程多、易控等特點愈發(fā)會受到企業(yè)客戶和開發(fā)者的熱捧,優(yōu)勢進一步拉大。企業(yè)AI應用市場在2024年的變化2024年的上半年,AI市場充斥著激情,那種熱情似乎走在街上都會撲面而來,個人感覺最主要的推動者是自媒體和模型廠商。模型廠商的出發(fā)點很容易理解,快速打開市場嘛,但考慮到他們是要最終交付的,所以相對還是比較理性。但自媒體就不一樣了,整個上半年看過太多的文章,大家也都是把最好的一面呈現(xiàn)給了大眾,所以很多人會覺得我才幾個月沒關注,AI已經(jīng)發(fā)展到我不認識的地步了,AI已經(jīng)無所不能了。所以,在2024年上半年,我們接觸到的企業(yè)需求中,占主流的是那種大而全的需求,要用AI替代他們業(yè)務的全流程或基本流程,氣味中充滿了使用者的野望。但實際情況并不理想,AI或者大模型還真沒到這個程度,而且最關鍵的是范式轉換也還需時間。什么是范式轉換?最簡單的例子就是以前人們用笨重的蒸汽機推動主軸承轉動,帶動整車間的機器工作。但是換了電動機之后呢,工作方式變了,動力可是變得非常分散,比如你拿在手上吹頭發(fā)的吹風機。帶著微型電動機的吹風機和傳統(tǒng)的蒸汽機在工作范式上就完全不同,采用AI大模型之后,企業(yè)的業(yè)務流程也存在范式改造的過程,并非一朝一夕可以完成的。所以,上半年我遇到的、參與的或者聽說的那些大而全的AI項目,一半是在可行性推演中沒有被驗證,一半是交付之后效果很不理想,成功者寥寥。在今年7月份開始,陸續(xù)有一些傳統(tǒng)大企業(yè)找上門來,包括非常知名的企業(yè),以及世界500強和多家中國500強。如果從時間上來說,他們屬于AI投入相對較晚的了,但他們的優(yōu)勢是需求非常明確,要求也極高。比如有些企業(yè)僅僅就是解決一個咨詢服務的需求,在產(chǎn)品范圍上就是一個AI問答,但要求準確率接近100%,就像我們CTO在《AIGC時代的淘金者,TorchV這一年的心路歷程》說到社保咨詢一樣。小而難的好處很明顯,我能看到的是下面幾點:對企業(yè)現(xiàn)有業(yè)務流程改造相對較小,內部推動的阻力相對較小,企業(yè)客戶配合度高;切口小,需求明確,建設成果的考核清晰可量化;使用功能較小但可用性較高的AI產(chǎn)品,可以讓企業(yè)內部員工快速接受AI,做進一步業(yè)務流程改造的前期預熱;樂于承接大而全需求的合作廠商多半是外包性質的(這個觀點有點傷人,但確實是我看到的現(xiàn)狀而專業(yè)的、交付成功率更高的廠商往往更喜歡需求清晰且有難度的任務。我在上文中已經(jīng)有提到,2025年會有更多企業(yè)需求方采用AI技術,但企業(yè)永遠不會為你的技術買單,他們只會為他們自己的使用價值買單。比如可以幫助他們提升銷售額、業(yè)務流轉效率更高,或者和競爭對手的競爭中獲得優(yōu)勢,還有就是降低成本等等。所以,大模型應用端多端不夠,還需要生長出藤蔓圍繞著企業(yè)流程開花結果,這個任務最終會落在應用(Application)——內化了企業(yè)流程、借助了大模型能力的、帶有可交互界面的程序。2025年會成為大模型應用或AI應用之爭。另外還有一個趨勢也很明顯,就是知識管理和協(xié)作。我們都說這波AI浪潮把原來“沒用”的非結構化數(shù)據(jù)給激活了,所以我們馬上會看到那些原來堆在角落里面的“冷”文件和知識(類似wiki)會被大量啟用,“熱”文件和知識會爆炸性增長,知識的協(xié)作和管理會成為新的問題——就像你有再多的先進坦克和戰(zhàn)車,卻因為無序的交通都堵在阿登森林了。AI從業(yè)者觀察因為我看到的不代表真相,所以這一章節(jié)會很短,僅僅分享兩個發(fā)現(xiàn)。有兩個感受(非證據(jù))可以說明這一點。(1)關于AI大模型的自媒體數(shù)量在減少,從搜索引擎趨勢,加上我和幾個業(yè)內朋友的blog、公眾號以及X的閱讀量下降趨勢也可以佐證這一點,下半年雖然市場理性回歸,但整體熱度是在下降的。OpenAI不再持續(xù)放大招可能也是重要原因之一。(2)我前期接觸了很多因為AI熱潮而在企業(yè)內部抽調精干力量組成的AI小組、AI研究組和AI創(chuàng)新組等團隊的成員,但下半年有不少類似團隊已經(jīng)解散,人員回歸到原有崗位。還有一點就是上半年加我微信好友的很多獨立開發(fā)者或在職的個人,多半也已經(jīng)在尋覓了半年機會之后放棄了繼續(xù)探索,這一點在和他們交流,以及他們朋友圈的內容變化中可以明顯感知。但是這并不是壞事,上圖已經(jīng)告訴我們,這是必然規(guī)律。目前還奔跑在AI大模型應用賽道的公司,很多已經(jīng)開始創(chuàng)造出客戶價值,有了自己的優(yōu)勢。包括在海外風生水起的Dify,在內容提取端的合合,以及肯定會成為國內AI巨無霸的火山引擎。當然我們還看到了一些深耕垂直行業(yè)的優(yōu)秀團隊,特別是在法律、醫(yī)藥、教育等行業(yè)。我們也在今年6月份開始做了產(chǎn)品轉身,現(xiàn)在已經(jīng)不再煩惱人家問我們“你們和dify、fastgpt、ragflow有什么區(qū)別”,因為賽道已經(jīng)開始慢慢不一樣了,而且這個不一樣依然是產(chǎn)品層面的,和服務什么行業(yè)無關。盧向東大模型訓練中的開源數(shù)據(jù)和算法:機遇及挑戰(zhàn)隨著人工智能(AI)技術的迅猛發(fā)展,尤其是大模型(如GPT、OpenAIo1、Llama等)的崛起,開源數(shù)據(jù)和算法在大模型訓練中的重要性愈發(fā)顯著。開源數(shù)據(jù)集和算法不僅推動了AI研究的進步,也在應用層面帶來了深遠的影響。然而,伴隨這些機遇的還有諸多風險與挑戰(zhàn),如數(shù)據(jù)質量、版權問題和算法透明性等。本文將淺析大模型訓練過程中開源數(shù)據(jù)集和算法的重要性和影響,分析其在促進AI研究和應用中的機遇,并警示相關的風險與挑戰(zhàn)。任何方案都具有兩面性和在特殊環(huán)境下的討論的意義和前提,因此,本文不討論開源或對立面(閉源)的絕對取舍問題,僅對開源的有利之處加以淺析。重要的開源數(shù)據(jù)集和算法在大模型訓練中的角色開源數(shù)據(jù)集是大模型訓練的基石。沒有高質量的數(shù)據(jù),大模型的性能和應用場景將受到極大限制。ImageNet、COCO、Wikipedia和CommonCrawl是非常重要一批高質量的開源數(shù)據(jù)集。以下是這幾個數(shù)據(jù)集在大模型訓練歷程中的重要角色。ImageNet:ImageNet是計算機視覺領域最著名的開源數(shù)據(jù)集之一,包含數(shù)百萬張帶有標簽的圖像。它為圖像分類、物體檢測等任務提供了豐富的數(shù)據(jù)資源,使得模型能夠在視覺理解方面取得突破。它由普林斯頓大學的計算機科學家李飛飛(Fei-FeiLi)及其團隊在2009年創(chuàng)建。ImageNet包含超過1400萬張圖像,這些圖像分為超過2萬個類別,每個類別都與WordNet中的一個詞條對應。每個類別的圖像數(shù)量從數(shù)百到數(shù)千不等。ImageNet每年都會舉辦一個大型的視覺識別競賽,即ImageNetLargeScaleVisualRecognitionChallenge(ILSVRC)。該競賽吸引了全球眾多研究團隊參與,并在推動深度學習和卷積神經(jīng)網(wǎng)絡(CNN)技術的發(fā)展中發(fā)揮了重要作用。今年的諾貝爾物理學獎得主之一GeoffreyHinton帶領的團隊成員AlexNet在2012年的ILSVRC中取得了顯著的成功,使得深度學習在計算機視覺領域迅速崛起。也為如今我們看到的種類繁多的視覺大模型(VLMs)開啟了新的篇章。了數(shù)十萬張日常生活中的圖像,并附有詳細的標注信息。雖然COCO對比ImageNet具有更少的類別,但每一個類別擁有更多的實例,假定這能幫助復雜模型提高物體定位的準確率。它的設計初衷適用于具有上下文信息的圖片中的物體檢測和分割,目前在目標檢測、分割等任務中發(fā)揮了重要作用,推動了計算機視覺技術的進步。線百科全書,以文字為主,知識高度結構化,CommonCrawl是一個非營利組織,定期抓取互聯(lián)網(wǎng)公開網(wǎng)頁,生成大量的網(wǎng)頁數(shù)據(jù)集,可提供大量的互聯(lián)網(wǎng)用戶知識及非結構化數(shù)據(jù)。他們的共同點是為模型訓練提供了充沛的文字素材。這些大型文本數(shù)據(jù)集為自然語言處理(NLP)模型的訓練提供了豐富的語料庫。像GPT這樣的語言模型正是通過大規(guī)模爬取和處理這些數(shù)據(jù)集,才能在文本生成和理解方面表現(xiàn)出色。開源算法的角色開源算法是AI研究和應用的核心驅動力。開源算法的共享和復用使得研究者和開發(fā)者能夠在前人工作的基礎上迅速迭代和創(chuàng)新。以下是一些在這一輪AI大模型浪潮中扮演重要角色的的開源算法及其在大模型訓練中的角色:TensorFlow和PyTorch:這兩個深度學習框架是當前最流行的開源工具,提供了強大的計算能力和靈活的模型構建方式。它們?yōu)榇竽P偷挠柧毢筒渴鹛峁┝嘶A設施支持,使得復雜的AI模型得以實現(xiàn)。Transformer架構:Transformer架構是一種用于處理序列數(shù)據(jù)的開源算法,廣泛應用于NLP任務,也是作為這一輪AI浪潮推動者GPT模型的基礎算法?;赥ransformer的模型,如BERT和GPT,已經(jīng)成為自然語言理解和生成的事實標準。GAN(生成對抗網(wǎng)絡GAN是一種用于生成數(shù)據(jù)的開源算法,廣泛應用于圖像生成、數(shù)據(jù)增強等領域。它通過生成器和判別器的對抗訓練,能夠生成高質量的圖像和其他數(shù)據(jù)。除此以外,如果把Pre-Train之后的微調(Fine-Tuning)等環(huán)節(jié)也看做廣義“訓練”的一部分,還有一系列開源方法及配套的工具,例如比較常見的LoRA(Low-RankAdaptationofLargeLanguageModels)。機遇從上述開源數(shù)據(jù)和算法在模型訓練過程中所扮演的角色可以看到,大模型訓練中的開源數(shù)據(jù)和算法為AI研究和應用帶來了諸多機遇,在加速創(chuàng)新、促進合作、資源共享等方便提供了廣泛而可靠的基礎條件和資源,圍繞這些資源,技術人員得以進行更加開放的交流和合作,并展開更加深入的教育和培訓,以此不斷提升整個行業(yè)人才的技術水平。由于目前主流的模型訓練算法都需要依靠對訓練數(shù)據(jù)(樣本)的統(tǒng)計(概率因此,開放的數(shù)據(jù)和算法能夠在更大程度上確保樣本的質量,從而避免更多未知的風險。例如就在2024年12月1日,用戶發(fā)現(xiàn)ChatGPT在需要輸出“DavidMayer”這個名字的時候會突然提示拒絕:此事件一度被解讀為GPT模型在訓練過程中被植入了特定的樣本或算法,以避免討論特定的人名。雖然后續(xù)的一系列測試表明,這種限制似乎只存在于ChatGPT產(chǎn)品中,通過OpenAI對外提供的模型接口并不會觸發(fā)這樣的屏蔽機制。OpenAI在隨后周二(12月3日)立即確認“DavidMayer”這個名字已經(jīng)被內部隱私工具標記,其在一份聲明中說:“可能有些情況下,ChatGPT不提供關于人們的某些信息,以保護他們的隱私。”公司不會提供有關工具或流程的更多細節(jié)。無論真實的原因是什么,這個事件是一個反例,其顯示了封閉的系統(tǒng)以及中心化的模型提供者所具備的風險,也說明了不透明的處理環(huán)節(jié)對模型的輸出結果帶來更多的不確定性。類似的拒絕服務也是在模型服務過程中表現(xiàn)出來的另外一種偏見(Bias)行為,而偏見也是目前所有模型都在極力避免的情形,要進一步解決這個問題,使用更加開放的數(shù)據(jù)集和算法是一種更負責任的做法。種種事件的發(fā)生并不是壞事,這是所有技術在發(fā)展過程中接受實踐檢驗的必經(jīng)之路,通過種種嘗試和反饋,目前對于開源數(shù)據(jù)集和算法的呼聲正在越來越高漲。除了對于訓練集和算法的開源之外,對于模型的“開源”定義也經(jīng)受著各種議論。筆者比較認同的觀點是:開源模型不應該只把模型文件公布出來,同時應該把對應的訓練集和算法進行公開,并能夠提供相應的訓練流程,是所有人能夠對結果進行重現(xiàn)。這好比我們討論開源項目的時候,通常不會指我們只能夠下載某個應用程序,而是我們能夠查看源碼,甚至通過修改源碼編譯出自己想要的應用程序。在今年10月29日,開放源代碼促進會(OpenSourceInitiative,OSI)發(fā)布了關于“開源AI定義(OSAID)”1.0版本,其規(guī)定了AI大模型若要被視為開源必須具備三個三個:訓練數(shù)據(jù)透明性、完整代碼、模型參數(shù)。雖然對比目前市面上的“開源模型”,少有能力較高的模型能完全符合,但這種聲明本身就是一種開源開放態(tài)度的彰顯。我相信,在更加透明的數(shù)據(jù)集和算法的支持下,模型將在可控性上獲得更好的發(fā)展機遇,相關的技術社區(qū)也將迎來更大的發(fā)展。挑戰(zhàn)當然,大模型訓練中的開源數(shù)據(jù)和算法也伴隨著一定的風險和挑戰(zhàn),這些風險需要在模型開發(fā)和應用的過程中被認真對待和解決。例如前文提到的“偏見”問題,以及數(shù)據(jù)質量問題,可能是最顯著的風險。由于開源數(shù)據(jù)集質量參差不齊,雖然一些廣泛使用的數(shù)據(jù)集如開頭介紹的ImageNet和COCO被認為是高質量的數(shù)據(jù)集,但其他開源數(shù)據(jù)集可能包含噪聲、錯誤標簽和不完整的信息。這種數(shù)據(jù)質量問題會直接影響模型的訓練效果,導致模型性能的下降,甚至可能產(chǎn)生錯誤的預測結果。除此以外,在GPT爆火之后,由于相關法律和政策的滯后,已經(jīng)有大量大模型生成的文字、圖像、視頻、音頻內容被發(fā)布于互聯(lián)網(wǎng),當這些內容再次被作為開放數(shù)據(jù)被采集,并再次進行訓練,可能會帶來更大的數(shù)據(jù)質量問題。因此,筆者認為對AI生成的觀點進行標注再發(fā)布是一種更加負責任的做法,當然,在實際操作過程中,要實現(xiàn)仍然有極大的難度。開源數(shù)據(jù)集的版權問題也是一個需要重視的風險。盡管開源數(shù)據(jù)集通常是公開的,但其使用仍然受版權法的約束。未經(jīng)授權使用受版權保護的數(shù)據(jù),可能會導致法律糾紛。此外,某些數(shù)據(jù)集可能包含敏感信息,涉及個人隱私甚至危害公共安全。和美國的《健康保險可攜性和責任法案》(HIPAA)。在實際操作過程中,出于成本、工藝、能力、時間的制約,數(shù)據(jù)集的篩選和正確使用仍然將會是一個持久的挑戰(zhàn)。對于這個問題,閉源的數(shù)據(jù)集以及方法并不是不存在,只是更加隱蔽了。也可能會有人擔心,所有的數(shù)據(jù)集和算法開放后,模型是否會面臨更多被操控的風險?筆者認為,這確實是一個很大的問題,例如模型可能會更容易被“越獄”,從而被操控或輸出原本不應輸出的內容,這是一個需要尤其重點關注的風險點。在應對策略方面,這場攻防戰(zhàn)的“藍方”同時也獲得了更多的信息,可以再次加固相關能力,在這個過程中,模型得以進行更加充沛的發(fā)展,就如同當下的互聯(lián)網(wǎng)一樣。只有黑暗才能隱藏更多風險尤其中心化的控制風險,只有讓核心數(shù)據(jù)和算法經(jīng)受陽光的洗禮,并在所有人的監(jiān)督下不斷完善,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論