版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
盤古大模型預(yù)訓(xùn)練大模型白皮書引言PREFACE讓預(yù)訓(xùn)練大模型成為AI引言PREFACEAI走進(jìn)企業(yè)核心生產(chǎn)系統(tǒng)“2025AI86%(EIAI實(shí)踐:600+項(xiàng)目,30%進(jìn)入生產(chǎn)系統(tǒng),但是
封閉的作坊式的AI開發(fā)局限于特定的場(chǎng)景。特定的數(shù)據(jù)無(wú)法滿足AI快速落地行業(yè)的需求0707模型1定制專家專家專家模型1定制專家專家專家1模型2定制專家專家專家2模型3定制專家專家專家3AI進(jìn)入千行百業(yè)面臨諸多挑戰(zhàn)3行業(yè)普通AI模型攻擊、隱私、安全擔(dān)憂2行業(yè)知識(shí)與AI技術(shù)結(jié)合困難1場(chǎng)景碎片化,作坊式開發(fā)難以規(guī)模復(fù)制如果人們對(duì)電磁的理解停留在法拉第的電磁感應(yīng)層次而沒(méi)有麥克斯韋的電磁場(chǎng)理論,電氣革命是不可能發(fā)生的。如果刮風(fēng)下雨打雷甚至連溫度變化都會(huì)導(dǎo)致斷電,電怎么可能變成一個(gè)普惠性的產(chǎn)品,怎么可能變成社會(huì)基礎(chǔ)設(shè)施?近年來(lái),國(guó)內(nèi)的云計(jì)算市場(chǎng)增速明顯,企業(yè)上云明顯提速。客戶的需求逐步從“資源型需求”轉(zhuǎn)向“智能型需求”及“業(yè)務(wù)型需求”,意味著PaaS、SaaS等各行業(yè)各場(chǎng)景的云解決方案將受到更多關(guān)注。盡管該市場(chǎng)“一招鮮吃遍天”的套路相對(duì)于針對(duì)用戶需求定制化的解決方案已不具優(yōu)勢(shì),意味著在細(xì)分領(lǐng)域深耕的中小型友商也具有瓜分市場(chǎng)的競(jìng)爭(zhēng)力。因此,如何在保證市場(chǎng)占有率并支撐如此大量的業(yè)務(wù)的情況下,控制資源和成本、保證交付效率和保證產(chǎn)品質(zhì)量是云廠商要解決的核心難題。08另一方面,隨著工業(yè)生產(chǎn)越來(lái)越強(qiáng)調(diào)智能化,大量傳統(tǒng)行業(yè)開始積累領(lǐng)域數(shù)據(jù),并尋求人工智能算法以解決生產(chǎn)和研發(fā)過(guò)程中遇到的重復(fù)而冗雜的問(wèn)題。這就意味著,人工智能算法在落地的過(guò)程中,將會(huì)面對(duì)大量不同場(chǎng)景、不同需求的用戶。這對(duì)算法的通用性提出了很高的要求。然而我們注意到,當(dāng)前業(yè)界大部分人工智能開發(fā)者,正在沿用傳統(tǒng)的“小作坊模式”,即針對(duì)每個(gè)場(chǎng)景,獨(dú)立地完成模型選擇、數(shù)據(jù)處理、模型優(yōu)化、模型迭代等一系列開發(fā)環(huán)節(jié)。由于無(wú)法積累通用知識(shí),同時(shí)不同領(lǐng)域的調(diào)試方法有所不同,這樣的開發(fā)模式往往比較低效。特別地,當(dāng)前人工智能領(lǐng)域存在大量專業(yè)水平不高的開發(fā)者,他們往往不能掌握規(guī)范的開發(fā)模式和高效的調(diào)優(yōu)技巧,從而使得模型的精度、性能、可擴(kuò)展性等指標(biāo)都不能達(dá)到令人滿意的水平。我們將上述問(wèn)題,稱為人工智能算法落地的碎片化困境。超大的神經(jīng)網(wǎng)絡(luò) 強(qiáng)壯的網(wǎng)絡(luò)架構(gòu) 優(yōu)秀的泛化能力多模態(tài)大模型科學(xué)計(jì)算大模型多模態(tài)大模型科學(xué)計(jì)算大模型CV NLP型 大模型) (千億參數(shù)11流水線泛化復(fù)制22流水線華為云盤古大模型「AI工業(yè)化開發(fā)」預(yù)訓(xùn)練模型33流水線預(yù)訓(xùn)練&部署迭代 模型泛化極大節(jié)省訓(xùn)練投入流水線工具集成訓(xùn)練更快效率提升10-100倍更佳模型性能為了解決這個(gè)困境,預(yù)訓(xùn)練大模型應(yīng)運(yùn)而生。它收集大量圖像、文本等數(shù)據(jù),利用無(wú)監(jiān)督或者自監(jiān)督學(xué)習(xí)方法將數(shù)據(jù)中蘊(yùn)含的知識(shí)提取出來(lái),存儲(chǔ)在具有大量參數(shù)的神經(jīng)網(wǎng)絡(luò)模型中。遇到特定任務(wù)時(shí),只要調(diào)用一個(gè)通用的流程,就能夠?qū)⑦@些知識(shí)釋放出來(lái),并且與行業(yè)經(jīng)驗(yàn)結(jié)合,解決實(shí)際問(wèn)題。近年來(lái),預(yù)訓(xùn)練大模型相關(guān)研究和應(yīng)用呈井噴態(tài)勢(shì),大有一統(tǒng)人工智能領(lǐng)域的趨勢(shì)。不過(guò)我們也應(yīng)該看到,預(yù)訓(xùn)練大模型距離規(guī)?;纳虡I(yè)應(yīng)用,還有很長(zhǎng)的路要走,這里不僅包含技術(shù)的演進(jìn),也包含商業(yè)模式的進(jìn)化。按照我們的設(shè)想,大模型是未來(lái)AIAIAIAI開發(fā)更加規(guī)范化、平民化。我們希望通過(guò)編寫《預(yù)訓(xùn)練大模型白皮書》,將我們團(tuán)隊(duì)在研究和落地中獲得的經(jīng)驗(yàn)總結(jié)下來(lái),更好地促進(jìn)行業(yè)的進(jìn)步。09/09大模型是AI發(fā)展的必然趨勢(shì)人工智能發(fā)展史簡(jiǎn)介人工智能發(fā)展趨勢(shì)的總體研判/19盤古大模型家族介紹視覺大模型語(yǔ)音語(yǔ)義大模型多模態(tài)大模型科學(xué)計(jì)算大模型圖網(wǎng)絡(luò)大模型10/43盤古大模型應(yīng)用案例視覺大模型案例:TFDS圖像自動(dòng)識(shí)別語(yǔ)音語(yǔ)義大模型:賦能智慧銷售多模態(tài)大模型:一網(wǎng)統(tǒng)管事件工單分配圖網(wǎng)絡(luò)大模型:水泥生產(chǎn)系統(tǒng)的自動(dòng)控制圖網(wǎng)絡(luò)大模型:煉焦系統(tǒng)的自動(dòng)控制/55展望未來(lái),大模型的機(jī)遇與挑戰(zhàn)并存11大模型AI發(fā)展的必然趨勢(shì)PAGEPAGE12PAGEPAGE13人工智能發(fā)展史簡(jiǎn)介人工智能從1956年被正式提出以來(lái),經(jīng)歷了數(shù)十年的發(fā)展歷程。人工智能誕生初期,其研究主要分為三個(gè)流派,即邏輯演繹、歸納統(tǒng)計(jì)和類腦計(jì)算。其中,邏輯演繹方法局限性較強(qiáng),難以對(duì)建模復(fù)雜的實(shí)際問(wèn)題進(jìn)行建模;而類腦計(jì)算方法過(guò)多地依賴于生命科學(xué),特別是腦科學(xué)的研究,而后者的進(jìn)展難以滿足人工智能的一般要求。在進(jìn)入21世紀(jì)依賴,在大數(shù)據(jù)和大算力的支持下,歸納統(tǒng)計(jì)方法逐漸占據(jù)了人工智能領(lǐng)域的主導(dǎo)地位,并且催生出一系列方法論和應(yīng)用,深刻地影響和改變了人類社會(huì)。人工智能發(fā)展史人工智能的樂(lè)觀思潮人工智能的樂(lè)觀思潮反向傳播算法的提出深藍(lán)戰(zhàn)勝世界冠軍感知器算法和硬件化專家系統(tǒng)出現(xiàn)資金支持再次減少達(dá)特矛斯會(huì)議的召開對(duì)盲目樂(lè)觀的反思硬件需求大幅下降圖靈測(cè)試的提出DARPA終止資助專家系統(tǒng)的局限性通用計(jì)算機(jī)出現(xiàn)《Perceptron》出版統(tǒng)計(jì)學(xué)習(xí)受到重視神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型DARPA資金的支持再次獲得資金支持統(tǒng)計(jì)學(xué)習(xí)方法的應(yīng)用孕育期繁榮期Ⅰ低谷期Ⅰ 繁榮期Ⅱ低谷期Ⅱ繁榮期Ⅲ治乭AlphaGo戰(zhàn)勝李世大規(guī)模預(yù)訓(xùn)練模型1956 1974 1980 1987 19941956–1974年如上圖所示,人工智能的主要發(fā)展階段如下:1956–1974年第一次繁榮期1943–1956年孕育期1943–1956年這一時(shí)期的代表性成果,主要包括WarrenS.McCulloch和WalterPitts提出的人工神經(jīng)網(wǎng)絡(luò)的視覺模型,以及AlanM.Turing設(shè)想的驗(yàn)證人工智能的思想實(shí)驗(yàn)(即圖靈測(cè)試)。同時(shí),1946年出現(xiàn)的通用計(jì)算機(jī)ENIAC,也為人工智能的復(fù)雜演算提供了硬件支撐。
以1956年達(dá)特茅斯會(huì)議為標(biāo)志,人工智能被正式提出并且進(jìn)入第一次繁榮期。基于邏輯演繹的人工智能算法解決了某些特定領(lǐng)域的問(wèn)題(如證明數(shù)學(xué)定理),而基于亞符號(hào)系統(tǒng)的感知器算法1957年出現(xiàn)了專門用于模擬感知器的計(jì)算機(jī)MarkI時(shí)的學(xué)者對(duì)于人工智能抱有不切實(shí)際的樂(lè)觀幻想,包括MarvinL.Minsky(1969年圖靈獎(jiǎng)得主)HerbertA.Simon(1975年圖靈獎(jiǎng)得主在內(nèi)的多名學(xué)者,均預(yù)測(cè)人工智能將在20年內(nèi)獲得徹底解決。而以DARPA為代表的政府機(jī)構(gòu)和大型企業(yè),也為人工智能的研究注入了大量資金。
第一次低谷期1974–1980年研究者們很快意識(shí)到了第一代人工智能算法的極限。1969年,MarvinL.Minsky發(fā)表著作《Perceptrons》,(即人工神經(jīng)網(wǎng)絡(luò))方面的研究;同時(shí),基于邏輯演繹的算法也被證明需要指數(shù)級(jí)時(shí)間以解決大部分問(wèn)題。隨著DARPA等機(jī)構(gòu)撤出大部分投資,人工智能領(lǐng)域也開啟一波反思浪潮,其中有代表性的是JamesLighthill1973年發(fā)表的人工智能綜述報(bào)告JohnR.Searle1980年1974–1980年1980–1987年第二次繁榮期1980–1987年隨著專家系統(tǒng)的出現(xiàn)和盛行,人工智能算法開始在限定領(lǐng)域內(nèi)解決實(shí)際問(wèn)題。1975年出現(xiàn)的MYCIN算法,能夠在醫(yī)學(xué)領(lǐng)域完成血液傳染病的診斷工作。同Hopfield網(wǎng)絡(luò)為代表的新型神經(jīng)網(wǎng)絡(luò)和DavidE.Rumelhart發(fā)明的反向傳播算法,極大地增強(qiáng)了人工神1989YannLeCun(2018年圖靈獎(jiǎng)得主)使用五層神經(jīng)網(wǎng)絡(luò)識(shí)別手寫數(shù)字,該方法取得巨大成功并在2090年代識(shí)別了美國(guó)超過(guò)10%的手寫支票。以DARPA為代表的機(jī)構(gòu)再次行動(dòng)起來(lái),使得20世紀(jì)80年代后半段在人工智能領(lǐng)域的投入資金比起前半段增長(zhǎng)了數(shù)倍。
1987–1993年第二次低谷期1987–1993年然而,專家系統(tǒng)很快遇到了新的困境。研究者們發(fā)現(xiàn),即使在限定領(lǐng)域中,面對(duì)未知或者未定義的問(wèn)題時(shí),即使問(wèn)題十分簡(jiǎn)單,專家系統(tǒng)的表現(xiàn)也無(wú)法預(yù)測(cè)甚至控制。隨著支持人工智能研究資金的再度銳減,研究者們?cè)俅伍_始反思,并且將思路逐漸從符號(hào)系統(tǒng)(如歸納演繹方法)轉(zhuǎn)向亞符號(hào)系統(tǒng)(如統(tǒng)計(jì)學(xué)習(xí)方法)。這一時(shí)期,研究者們開始認(rèn)識(shí)到感知和交互的重要性,其中影響較大的觀點(diǎn)包括DavidMarr在其著作《Vision》中提出的視覺理解模型和RodneyA.Brooks提出的“模型可有可無(wú),世界即是描述自身最好的模型”等。
第三次繁榮期1993年至今隨著現(xiàn)代計(jì)算機(jī)的存儲(chǔ)能力和算力不斷增強(qiáng),統(tǒng)計(jì)學(xué)習(xí)方法逐漸成為人工智能領(lǐng)域的絕對(duì)主流。在人工智能的各個(gè)領(lǐng)域,如計(jì)算機(jī)視覺、語(yǔ)音識(shí)別、自然語(yǔ)言處理等,手工設(shè)計(jì)的模型都逐漸被統(tǒng)計(jì)學(xué)習(xí)模型所取代。從20111993年至今值得一提的是,深度學(xué)習(xí)并未解決人工智能的本質(zhì)問(wèn)題。未來(lái),業(yè)界很可能還要經(jīng)歷數(shù)次低潮與革新,方能達(dá)成真正的通用人工智能。在此之前,雖然存在著關(guān)于強(qiáng)/弱人工智能的討論和對(duì)科技奇異點(diǎn)的擔(dān)憂,但業(yè)界的重心依然是人工智能算法的研發(fā)。人工智能發(fā)展趨勢(shì)的總體研判有趣的是,有影響力的三大流派(邏輯演繹流派、歸納統(tǒng)計(jì)流派、類腦計(jì)算流派)從人工智能創(chuàng)立之初便存在,時(shí)至今日也未由其中一派徹底統(tǒng)一。三大流派各有優(yōu)劣勢(shì)。類腦計(jì)算流派的目標(biāo)最為宏遠(yuǎn),但在未得到生命科學(xué)的支撐之前,難以取得實(shí)際應(yīng)用。歸納演繹流派的思考方式與人類相似,具有較強(qiáng)的可解釋性。由于對(duì)數(shù)據(jù)和算力的依賴較少,歸納演繹流派成為人工智能前兩次繁榮的主角。隨著學(xué)界對(duì)人工智能困難程度AIAI值得強(qiáng)調(diào)的是,深度學(xué)習(xí)是時(shí)代的產(chǎn)物。如果沒(méi)有與大數(shù)據(jù)(存儲(chǔ)設(shè)備和移動(dòng)互聯(lián)網(wǎng)的發(fā)展)和大算力(尤GPU的飛速演進(jìn)為代表)的支持,深度學(xué)習(xí)就不可能在短短的3--5年間占領(lǐng)人工智能的大部分領(lǐng)域。而研究者們提出了層次化建模和分散表示的思想,使得復(fù)雜數(shù)據(jù)匹配的效率和精度獲得提升,從而大大促進(jìn)了特征學(xué)習(xí)。從技術(shù)的角度看,深度學(xué)習(xí)的核心是深度神經(jīng)網(wǎng)絡(luò):通用的骨干網(wǎng)絡(luò)配合特定目的的頭部網(wǎng)絡(luò),使得深度學(xué)習(xí)統(tǒng)一了各個(gè)子領(lǐng)域內(nèi)的不同問(wèn)題。例如,在計(jì)算機(jī)視覺領(lǐng)域,彼此十分相似的深度神經(jīng)網(wǎng)絡(luò)已經(jīng)成為圖像分類、物體檢測(cè)、實(shí)例分割、姿態(tài)估計(jì)等具體問(wèn)題的通用框架;而在自然語(yǔ)言處理領(lǐng)域,一種被Transformer的模塊也被大量使用,研究者們得以建立起通用的語(yǔ)言模型。然而,從本質(zhì)上看,深度學(xué)習(xí)依然沒(méi)有跳出統(tǒng)計(jì)學(xué)習(xí)的基本框架:特征抽取和模板匹配。相比于人類基于知識(shí)的推斷,這種方式無(wú)疑是低效的。在人工智能進(jìn)入千行百業(yè)的大背景下,這種設(shè)計(jì)理念必將導(dǎo)致人工智能算法的通用性受限,因?yàn)閷?duì)于任何新的概念乃至新的實(shí)體,算法都需要專門的訓(xùn)練數(shù)據(jù)來(lái)提供相關(guān)的信息,而在沒(méi)有基礎(chǔ)模型支撐的情況下,開發(fā)者們必須從頭開始完成收集數(shù)據(jù)、訓(xùn)練模型、調(diào)試模型、優(yōu)化部署等一系列操作。對(duì)于大部分人工智能開發(fā)者而言,這無(wú)疑是重大的挑戰(zhàn);同時(shí),這也使得人工智能算法的開發(fā)成本居高不下,難以真正惠及細(xì)分行業(yè),尤其是中小型企業(yè)。對(duì)大模型的研究,將有可能啟發(fā)下一個(gè)通用計(jì)算模型在下一個(gè)劃時(shí)代的計(jì)算模型預(yù)訓(xùn)練大模型是解決上述問(wèn)題的有效手段。預(yù)訓(xùn)練大模型是深度學(xué)習(xí)時(shí)代的集大成者,分為上游(模型預(yù)訓(xùn)練)和下游(模型微調(diào))兩個(gè)階段。上游階段主要是收集大量數(shù)據(jù),并且訓(xùn)練超大規(guī)模的神經(jīng)網(wǎng)絡(luò),以高效對(duì)大模型的研究,將有可能啟發(fā)下一個(gè)通用計(jì)算模型在下一個(gè)劃時(shí)代的計(jì)算模型根據(jù)實(shí)踐經(jīng)驗(yàn),預(yù)訓(xùn)練大模型加持下的人工智能算法(根據(jù)實(shí)踐經(jīng)驗(yàn),預(yù)訓(xùn)練大模型加持下的人工智能算法(包括計(jì)算機(jī)視覺、自然語(yǔ)言處理等),相比于普通開發(fā)者從頭搭建的算法,精度明顯上升、數(shù)據(jù)和計(jì)算成本明顯下降,且開發(fā)難度大大降低。以計(jì)算機(jī)視覺為例:100張圖像上訓(xùn)練基礎(chǔ)物體檢測(cè)算法,原8GPU5個(gè)小時(shí)、1名開發(fā)1個(gè)星期才能完成,而在預(yù)訓(xùn)練模型1GPU2個(gè)小時(shí),而幾乎不需要人力干預(yù)。綜合人力、算力開銷研判,上述案例的開發(fā)成本節(jié)約至原先的101%?;仡櫄v史,2011年前后,正是傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)方法的鼎盛時(shí)期,在計(jì)算機(jī)視覺領(lǐng)域甚至出現(xiàn)了參數(shù)量超過(guò)10億的詞袋分類模型——即使在2021年,10億參數(shù)的計(jì)算機(jī)視覺模型也足以被稱為大模型。然而,2012年左右,深度神經(jīng)網(wǎng)絡(luò)僅用6000萬(wàn)參數(shù),即徹底擊敗詞袋分類模型,引領(lǐng)計(jì)算機(jī)視覺發(fā)展至今。深度神經(jīng)網(wǎng)絡(luò)之于詞袋分類模型,本質(zhì)上是在特征匹配效率上產(chǎn)生了突破;我們猜測(cè),在大模型發(fā)展到一定程度時(shí),會(huì)產(chǎn)生另一個(gè)維度的突破,從而使得統(tǒng)計(jì)學(xué)習(xí)方法“進(jìn)化”至下一階段。目前看來(lái),這個(gè)突破有可能產(chǎn)生于大模型與知識(shí)的結(jié)合。綜上所述,預(yù)訓(xùn)練大模型是現(xiàn)階段人工智能的集大成者,代表了統(tǒng)計(jì)學(xué)習(xí)流派的最高成就。在新一代技術(shù)未出現(xiàn)前,它將是人工智能研究和開發(fā)的最強(qiáng)武器。事實(shí)上,圍繞大模型的研發(fā)和落地,中美之間已經(jīng)展開了新一輪的競(jìng)爭(zhēng)。美國(guó) 中
通過(guò)大模型構(gòu)筑AI技術(shù)競(jìng)爭(zhēng)壁壘是Turing-NLG(微軟,EN)參數(shù):170億數(shù)據(jù):1-5百GB資源:300-500GPUs
盤古(華為)NLP&CV&多模態(tài)&科學(xué)計(jì)算參數(shù):1000億數(shù)據(jù):40TB文本(更新)資源:鵬城云腦Ⅱ
當(dāng)前中美AI技術(shù)競(jìng)爭(zhēng)的熱點(diǎn)參數(shù):170億資源:10000V100GPUs
2.0(北京智源)NLP&參數(shù):1.75萬(wàn)億盤古大模型在商業(yè)落地走在最前列盤古工作流盤古大模型在商業(yè)落地走在最前列盤古工作流邊學(xué)邊用的使用模式ModelArts和智能體工作流能力,實(shí)現(xiàn)輕量化交付大模型TextSum.(OpenAI,EN)參數(shù):67億數(shù)據(jù):12萬(wàn)文章320GPU-DaysSwitch-C(谷歌,EN)參數(shù):1.6萬(wàn)億數(shù)據(jù):750GB資源:32TPU威震天(參數(shù):5300億PaLM(谷歌,EN)參數(shù):5400億數(shù)據(jù):--資源:4096TPU-v3
文心ERNIE3.0(百度)NLP參數(shù):100億數(shù)據(jù):4TB資源:384V100GPUsM6(阿里)多模態(tài)參數(shù):100億數(shù)據(jù):1.9TB文本292GB圖像資源:128A100GPUs紫東太初(中科院自動(dòng)化所)多模態(tài)參數(shù):千億級(jí)數(shù)據(jù):文本、圖像、音頻21盤古大模型家族介紹22PAGEPAGE23PAGEPAGE242020年立項(xiàng)AI2021年4(簡(jiǎn)稱《盤古大模型》)的名稱對(duì)外發(fā)布。盤古大模型集成了華為云團(tuán)隊(duì)在AI領(lǐng)域數(shù)十項(xiàng)研究成果,并且受益于華為的全棧式AI解決方案,與昇騰(Ascend)芯片、昇思(MindSpore)語(yǔ)言、ModelArts平臺(tái)深度結(jié)合。本章簡(jiǎn)要介紹盤古大模型的若干組成部分,剖析構(gòu)建大模型的關(guān)鍵技術(shù)。2.1視覺大模型計(jì)算機(jī)視覺的主要目標(biāo),是設(shè)計(jì)出能夠識(shí)別視覺信號(hào),并且對(duì)其進(jìn)行各種處理和分析的程序。換句話說(shuō),計(jì)算機(jī)視覺是研究計(jì)算機(jī)如何去“看”的學(xué)科。其中,較為典型的任務(wù)包括圖像分類、物體檢測(cè)、物體分割、物體追蹤、姿態(tài)估計(jì)等。下圖展示了圖像分類中最著名的ImageNet數(shù)據(jù)集(2萬(wàn)個(gè)物體類別)和MS-COCO數(shù)據(jù)集(包括檢測(cè)、分割等多種任務(wù))。TheImageNetdataset~15Mimages,~21Kcategories,~1.5TB
TheMS-COCOdatasetdetection,segmentation,poseestimation,etc.在計(jì)算機(jī)中,視覺信號(hào)一般以“密集采樣強(qiáng)度”的方式存儲(chǔ):不同方向入射的光線在每個(gè)信道(如紅綠藍(lán))上的強(qiáng)度被記錄下來(lái),用于呈現(xiàn)圖像的基本內(nèi)容。圖像中的每個(gè)基本單元被稱為像素——很顯然,這些像素并不能代表基本的語(yǔ)義信息,因而圖像的基本存儲(chǔ)形態(tài)和人類能夠理解的語(yǔ)義之間,存在很大的差距。在學(xué)界,這種差距被稱為“語(yǔ)義鴻溝”,這也是幾乎所有計(jì)算機(jī)視覺研究所需要處理的核心問(wèn)題。進(jìn)一步探究圖像的存儲(chǔ)形態(tài),我們會(huì)發(fā)現(xiàn)圖像信號(hào)的若干特點(diǎn): 內(nèi)容較復(fù)雜 內(nèi)容較復(fù)雜 圖像信號(hào)的基本單位是像素,但是單個(gè)像素往往不能表達(dá)語(yǔ)義。圖像識(shí)別的任務(wù),就是構(gòu)建特定函數(shù),使得像素級(jí)輸入能夠產(chǎn)生語(yǔ)義級(jí)輸出。這種函數(shù)往往非常復(fù)雜,很難通過(guò)手工方式定義。 信息密度低 圖像信號(hào)能夠忠實(shí)地反映事物的客觀表征;然而其中相當(dāng)部分的數(shù)據(jù)被用于表達(dá)圖像中的低頻區(qū)域(如天空)或者無(wú)明確語(yǔ)義的高頻(如隨機(jī)噪聲)區(qū)域。這就導(dǎo)致了圖像信號(hào)的有效信息密度較低,特別是相比于文本信號(hào)而言。 域豐富多變 圖像信號(hào)受到域的影響較大,而且這種影響通常具有全局性質(zhì),難以和語(yǔ)義區(qū)分開來(lái)。例如,同樣的語(yǔ)義內(nèi)容,在強(qiáng)度不同的光照下,就會(huì)體現(xiàn)出截然不同的表征。同時(shí),相同的姿態(tài)出現(xiàn),從而在像素上產(chǎn)生巨大差異,為視覺識(shí)別算法帶來(lái)困難。鑒于上述特點(diǎn),基于深度神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練大模型就成為了計(jì)算機(jī)視覺落地的最佳方案之一。預(yù)訓(xùn)練過(guò)程能夠一定程度上完成視覺信號(hào)的壓縮,深度神經(jīng)網(wǎng)絡(luò)能夠抽取層次化的視覺特征,而預(yù)訓(xùn)練結(jié)合微調(diào)的范式則能夠應(yīng)對(duì)豐富多變的域。以下,我們講述盤古視覺大模型的整體思路和技術(shù)方案。2.1.1數(shù)據(jù)收集圖像是一種復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),包含豐富的語(yǔ)義信息?,F(xiàn)如今,還沒(méi)有任何一種方法能夠?qū)D像數(shù)據(jù)的數(shù)學(xué)規(guī)律進(jìn)行準(zhǔn)確的描述,因而人們只能通過(guò)收集大量的數(shù)據(jù),來(lái)近似現(xiàn)實(shí)中圖像數(shù)據(jù)的分布。2009年出現(xiàn)的ImageNet數(shù)據(jù)集是計(jì)算機(jī)視覺領(lǐng)域的重要里程碑,它使得訓(xùn)練、評(píng)估大規(guī)模圖像處理方法成為可能。隨著計(jì)算機(jī)視覺技術(shù)的進(jìn)步和更多應(yīng)用的出現(xiàn),ImageNet數(shù)據(jù)集的局限性逐漸顯現(xiàn)出來(lái),包括規(guī)模、復(fù)雜性等。為了解決這一問(wèn)題,我們必須收集更大規(guī)模、更加復(fù)雜的圖像數(shù)據(jù),而這也是業(yè)界的一致趨勢(shì)。我們通過(guò)多種渠道收集圖像數(shù)據(jù),包括但不限于公共數(shù)據(jù)集合下載、自有數(shù)據(jù)集合擴(kuò)充、各搜索引擎關(guān)鍵字爬取、以圖搜圖、視頻圖像抽幀等。從這些原始數(shù)據(jù)中,我們篩除了低分辨率、低曝、過(guò)曝、簡(jiǎn)單背景等低質(zhì)量圖像數(shù)據(jù),再通過(guò)已有預(yù)訓(xùn)練視覺模型進(jìn)行重復(fù)圖像的判斷和去除,最終保留超過(guò)10億張高質(zhì)量圖像數(shù)據(jù),占據(jù)約40TB空間。10億+10億+圖像數(shù)據(jù)~40TB存儲(chǔ)空間覆蓋自動(dòng)駕駛,電力,鐵路,遙感等2.1.2預(yù)訓(xùn)練方法我們使用的神經(jīng)網(wǎng)絡(luò)模型覆蓋了計(jì)算機(jī)視覺領(lǐng)域最為常見的卷積網(wǎng)絡(luò)和transformer架構(gòu),兩者既可以分開使用,也可以按需結(jié)合以達(dá)到更好的效果。利用自動(dòng)機(jī)器學(xué)習(xí)算法,我們能夠支持并調(diào)用不同大小的神經(jīng)網(wǎng)絡(luò),其中最大的計(jì)算模型具有接近30億參數(shù),最小的模型只有數(shù)十萬(wàn)參數(shù),其大小相差超過(guò)1000倍,為適配不同的視覺任務(wù)提供了可能性。我們收集的訓(xùn)練數(shù)據(jù)大部分來(lái)自互聯(lián)網(wǎng),不僅具有相當(dāng)程度的噪聲,而且不包含準(zhǔn)確的語(yǔ)義標(biāo)簽。為了充分業(yè)界首創(chuàng)在對(duì)比度自監(jiān)督學(xué)習(xí)中引入等級(jí)化語(yǔ)義相似度,即挑選那些距離相應(yīng)聚類中心更近的最近鄰作為正樣本,并且在拉近語(yǔ)義相似樣本的時(shí)候引入了混合樣本增強(qiáng),以減少樣本選取過(guò)程中的噪聲影響。在此基礎(chǔ)上,我們拓展自監(jiān)督學(xué)習(xí)算法中正樣本的數(shù)目,使得正樣本集合能夠更加高效地被聚集,同時(shí)避免受到大量負(fù)樣本優(yōu)化的影響。我們采用的預(yù)訓(xùn)練算法(TPAMI上)的簡(jiǎn)略示意圖如下所示:MixedSampleEncoderqMixedSampleEncoderqBottleneckBottleneckMixAnchorSampleBottleneck MLPMLPEncoderKBottleneckBottleneckPositiveSampleticchanrSemSea
(注:基于等級(jí)化語(yǔ)義聚集的對(duì)比度自監(jiān)督學(xué)習(xí))2.1.3效果展示數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型1Aircraft(飛行器)90.4389.32盤古視覺大模型在ImageNet數(shù)據(jù)集的線性分類評(píng)估上,首次達(dá)到了與全監(jiān)督相比擬的結(jié)果。同時(shí),受益于更好的語(yǔ)義對(duì)齊效果,我們的方法在小樣本學(xué)習(xí)上表現(xiàn)優(yōu)異:使用數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型1Aircraft(飛行器)90.4389.32我們的方法達(dá)到了66.7和%的分類精度,均顯著超我們?cè)O(shè)計(jì)了具有10億參數(shù)量的基礎(chǔ)模型,并在超過(guò)10億張無(wú)標(biāo)注圖像組成的數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。所得到的模型,在ImageNet上達(dá)到了88.7的分類精度,而1%標(biāo)簽的半監(jiān)督學(xué)習(xí)精度也達(dá)到83.0%。同時(shí),盤古大模型在超過(guò)20項(xiàng)下游任務(wù)上進(jìn)行了測(cè)試,展現(xiàn)出良好的泛化能力,如下表所示。
數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型1數(shù)據(jù)集業(yè)界最佳模型盤古預(yù)訓(xùn)練模型1VOC(自然場(chǎng)景)72.276.62CUB-200-2011(鳥類)86.9091.803DTD(紋理)80.0585.004EuroSAT(衛(wèi)星圖塊)98.8598.985Flowers102(花)97.0799.696Food101(食物)92.2194.587Pets(動(dòng)物)95.2995.918SUN397(場(chǎng)景)71.5178.929StanfordCars(車)92.4894.0910StanfordDogs(狗)87.4191.2811Average89.2291.962Comic(風(fēng)格變換)35.638.03Clipart(風(fēng)格變換)57.561.04Watercolor(風(fēng)格變換)34.436.95DeepLesion(醫(yī)療)36.738.16Dota2.0(遙感)21.221.07Kitti(自動(dòng)駕駛)29.632.98WiderFace(人臉)35.336.39LISA(紅綠燈)43.542.710Kitchen(廚房場(chǎng)景)53.655.0average41.9643.85盤古預(yù)訓(xùn)練模型:檢測(cè)性能比較語(yǔ)音語(yǔ)義大模型自然語(yǔ)言,是人類進(jìn)化過(guò)程中形成的一種高效的存儲(chǔ)和交換信息的載體。人們?cè)谑褂米匀徽Z(yǔ)言交流時(shí),既可以使用“聽說(shuō)”的方式,也可以使用“讀寫”的方式。這就意味著,對(duì)自然語(yǔ)言的理解和使用可以分為兩個(gè)部分,即對(duì)于文字和音頻的處理,合成為語(yǔ)音語(yǔ)義處理。在人工智能領(lǐng)域,這兩個(gè)子課題分別被稱為自然語(yǔ)言處理和語(yǔ)音處理。與計(jì)算機(jī)視覺類似,語(yǔ)音語(yǔ)義處理的目標(biāo),就是讓機(jī)器學(xué)會(huì)像人一樣理解并使用文字和聲音,與人類或者其他智能體交流。如圖所示,自然語(yǔ)言處理和語(yǔ)音處理都可以分為理解和生成兩個(gè)部分。其中,“理解”的目標(biāo)是讓機(jī)器理解人類語(yǔ)言背后的語(yǔ)義信息,“生成”的目標(biāo)讓機(jī)器使用人類語(yǔ)言表達(dá)自己的意圖。自然語(yǔ)言處理和語(yǔ)音處理的區(qū)別在于,前者主要處理文本信息,后者主要處理音頻信號(hào)。大部分情況下,文本和音頻信號(hào)具有很強(qiáng)的關(guān)聯(lián)性,但是某些情況下,它們也可以表達(dá)各自擅長(zhǎng),而另一種載體難以表達(dá)的事物(如音樂(lè)難以用文本準(zhǔn)確表達(dá)出來(lái))。音頻文本床前明月光語(yǔ)義語(yǔ)義音頻床前明月光文本語(yǔ)音識(shí)(ASR) 音頻文本床前明月光語(yǔ)義語(yǔ)義音頻床前明月光文本語(yǔ)音合成(TTS) 文本生成語(yǔ)音語(yǔ)義處理的一個(gè)核心問(wèn)題,是將文字和聲音表達(dá)為機(jī)器容易理解和處理的形式。在深度學(xué)習(xí)誕生之前,人們主要使用特征工程的方式,通過(guò)人工定義一些特征函數(shù),將文字和聲音轉(zhuǎn)化為特征向量。這種方法依賴專家知識(shí),且特征很難擴(kuò)展,無(wú)法規(guī)?;瘧?yīng)用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,自動(dòng)學(xué)習(xí)語(yǔ)言的向量表示逐漸成為主流。對(duì)于“理解”任務(wù),通常使用一個(gè)神經(jīng)網(wǎng)絡(luò)作為編碼器,將語(yǔ)言映射到低維向量,用向量表達(dá)語(yǔ)義信息;而對(duì)于“生成”任務(wù),通常再使用一個(gè)神經(jīng)網(wǎng)絡(luò)作為解碼器,將低維向量映射到語(yǔ)言,將向量中蘊(yùn)含的信息表達(dá)出來(lái)。上述編碼器-解碼器框架,能夠用于處理文字和音頻信號(hào),其中文本編碼器和音頻編碼器具有較大的差異,而文本解碼器和音頻解碼器卻大致相同。在深度學(xué)習(xí)時(shí)代,如何設(shè)計(jì)編碼器和解碼器的網(wǎng)絡(luò)結(jié)構(gòu),以及如何學(xué)習(xí)編碼器和解碼器的參數(shù),是兩個(gè)關(guān)鍵的技術(shù)問(wèn)題。在小模型時(shí)代,CNN模型和RNN模型技術(shù)占據(jù)主流,尤其是RNN中的一類被稱為L(zhǎng)STM的模型,憑借其處理遠(yuǎn)距離依賴的能力大放異彩。然而,RNN模型的優(yōu)化不穩(wěn)定、且難以并行計(jì)算,這成為了構(gòu)建大規(guī)模語(yǔ)言模型的障礙。2017年,基于自注意力的Transformer模塊被提出,它結(jié)合了已有方法的優(yōu)點(diǎn),在速度和表達(dá)能力上都體現(xiàn)出巨大優(yōu)勢(shì),因而迅速占領(lǐng)了自然語(yǔ)言處理和語(yǔ)音識(shí)別領(lǐng)域。隨著大規(guī)模語(yǔ)料庫(kù)的出現(xiàn)和自監(jiān)督學(xué)習(xí)方法的成型,業(yè)界在2018年迎來(lái)了大規(guī)模預(yù)訓(xùn)練模型BERT并就此進(jìn)入大模型時(shí)代。如今,預(yù)訓(xùn)練大模型憑借其出色的泛化能力和在此基礎(chǔ)上發(fā)展的基于提示的微調(diào)技術(shù),大大簡(jiǎn)化了各種下游任務(wù)的實(shí)現(xiàn)方式,推動(dòng)了自然語(yǔ)言處理和語(yǔ)音識(shí)別領(lǐng)域的巨大發(fā)展,成為語(yǔ)音語(yǔ)義處理領(lǐng)域落地的最佳方案。以下,我們講述盤古語(yǔ)音語(yǔ)義大模型的整體思路和技術(shù)方案。2.2.1數(shù)據(jù)收集與計(jì)算機(jī)視覺領(lǐng)域類似,自然語(yǔ)言處理和語(yǔ)音識(shí)別也建立在大規(guī)模數(shù)據(jù)集的基礎(chǔ)上。所謂“讀書破萬(wàn)卷下筆如有神”,為了讓模型掌握強(qiáng)大的語(yǔ)言理解和生成能力,我們需要準(zhǔn)備海量的數(shù)據(jù)讓模型進(jìn)行學(xué)習(xí),覆蓋各個(gè)主題和領(lǐng)域。關(guān)于文本部分,我們從互聯(lián)網(wǎng)公開爬取了40TB原始網(wǎng)頁(yè)數(shù)據(jù),并且進(jìn)行解析和清洗。我們使用正則匹配等方式,過(guò)濾掉常見噪聲數(shù)據(jù),如網(wǎng)頁(yè)標(biāo)簽、特殊字符、錯(cuò)誤編碼等,并且使用哈希的方法對(duì)數(shù)據(jù)進(jìn)行去重,然后對(duì)數(shù)據(jù)的長(zhǎng)度進(jìn)行規(guī)范,舍棄太短的文章并切分太長(zhǎng)的文章,以確保輸入長(zhǎng)度在合理的范圍內(nèi)。最終,我們得到約647GB文本數(shù)據(jù),其組成如下圖所示。關(guān)于語(yǔ)音部分,我們從互聯(lián)網(wǎng)公開爬取了超過(guò)7萬(wàn)小時(shí)普通話音頻數(shù)據(jù),并將其轉(zhuǎn)換為音頻文件,共計(jì)約11TB。視頻來(lái)源包括新聞播報(bào)、影視劇、綜藝節(jié)目、動(dòng)畫等。270GB百科知識(shí)200GB新聞博客106GB文學(xué)作品71GB270GB百科知識(shí)200GB新聞博客106GB文學(xué)作品71GB社交媒體2.2.2預(yù)訓(xùn)練方法對(duì)于語(yǔ)義部分,我們使用的神經(jīng)網(wǎng)絡(luò)是基于Transformer結(jié)構(gòu)的編碼-解碼器模型。編碼器負(fù)責(zé)文本理解,使用雙向自注意力機(jī)制,讓每個(gè)詞充分“觀察”它兩邊的詞,以捕獲它在上下文中的語(yǔ)義信息。解碼器負(fù)責(zé)文本生成,使用單向自注意力機(jī)制,逐詞進(jìn)行生成,每個(gè)詞只能“看到”它前面的詞,根據(jù)上文的信息來(lái)預(yù)測(cè)下一個(gè)詞。為了讓模型從海量文本數(shù)據(jù)中學(xué)到語(yǔ)言知識(shí),需要設(shè)計(jì)合適的學(xué)習(xí)目標(biāo)。我們提出多任務(wù)融合的訓(xùn)練策略,以讓模型同時(shí)獲得理解能力和生成能力。針對(duì)理解能力,我們使用遮罩語(yǔ)言模型作為訓(xùn)練目標(biāo),即在原文中挖空,讓模型做完形填空任務(wù),例如對(duì)于“床前明月光疑是地上霜”這句話,我們從中隨機(jī)選取一些位置進(jìn)行挖空,如將“明月”和“霜”挖掉,模型的訓(xùn)練目標(biāo)是將挖掉的內(nèi)容預(yù)測(cè)出來(lái)。針對(duì)生成能力,我們使用回歸語(yǔ)言模型作為訓(xùn)練目標(biāo),即給定一句話的上半部分,讓模型預(yù)測(cè)下半部分,例如將“床前明月光”作為輸入,模型的訓(xùn)練目標(biāo)是將“疑是地上霜”預(yù)測(cè)出來(lái)。此外,為了讓模型具備零樣本推理能力,即直接處理下游任務(wù)的能力,我們還收集了超過(guò)100個(gè)下游任務(wù)訓(xùn)練數(shù)據(jù),涵蓋情感分類、意圖理解、語(yǔ)義匹配、實(shí)體識(shí)別等常見的自然語(yǔ)言任務(wù),將這些數(shù)據(jù)也加入預(yù)訓(xùn)練當(dāng)中。對(duì)于語(yǔ)音部分,其解碼器與文本類似,我們主要考慮其音頻編碼器。我們使用卷積與Transformer結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),底層用卷積神經(jīng)網(wǎng)絡(luò)提取局部信息,上層用Transformer網(wǎng)絡(luò)提取全局信息。我們使用對(duì)比學(xué)習(xí)的訓(xùn)練目標(biāo),將音頻中挖掉一個(gè)片段,再隨機(jī)采樣一些片段作為負(fù)例,讓模型從中找出正確的被挖掉的片段。多任務(wù)混合X明月Y霜編碼器解碼器遮罩語(yǔ)言模型編碼器解碼器床前X光疑是地上Y疑是地上霜編碼器解碼器回歸語(yǔ)言模型編碼器解碼器床前明月光軍事編碼器解碼器下游任務(wù)編碼器解碼器這段新聞:俄羅斯的 類別是什么2.2.3效果展示盤古的語(yǔ)義模型是業(yè)界首個(gè)千億中文大模型,發(fā)布時(shí)(2021年5月)在中文理解類榜單CLUE上獲得第一名。CLUE是中文理解類最權(quán)威的榜單,包括新聞分類、語(yǔ)義匹配、閱讀理解、成語(yǔ)完形填空、指代消解等10個(gè)任務(wù)。對(duì)于生成類任務(wù),我們?cè)贜LPCC2018文本摘要任務(wù)上取得了業(yè)界最佳成績(jī),超越第二名60%。由于多任務(wù)預(yù)訓(xùn)練,我們的模型具有強(qiáng)大的零樣本推理能力,相比于RoBERTa模型,零樣本推理準(zhǔn)確率提升超過(guò)50%。我們的語(yǔ)音模型是當(dāng)前最大的中文語(yǔ)音模型之一,擁有超過(guò)4億參數(shù),在自有數(shù)據(jù)上相比于基線模型字符錯(cuò)誤率相對(duì)降低10%。下圖展示了幾個(gè)典型的自然語(yǔ)言理解任務(wù),包括文本分類、閱讀理解、實(shí)體識(shí)別等。盤古大模型在基于提示的微調(diào)下,能夠輕松地在這些任務(wù)上取得很高的理解精度。文本分類任務(wù)輸入這件衣服款式一般,文本分類任務(wù)輸入這件衣服款式一般,但做工挺好的,價(jià)格也便宜,推薦購(gòu)買閱讀理解任務(wù)輸入明明明明明白白白喜歡他,但他就是不說(shuō),他很高冷。提問(wèn):誰(shuí)喜歡明明?實(shí)體識(shí)別任務(wù)輸入姚明出生在上海,曾致力于休斯頓火箭隊(duì) 輸出輸出輸出積極白白姚明-人物上海-地點(diǎn)休斯頓火箭隊(duì)-組織多模態(tài)大模型人類在理解外部世界時(shí),往往需要綜合考慮多種信息,如視覺、聽覺等。在人工智能領(lǐng)域,多模態(tài)任務(wù)的主要目標(biāo)就是處理和關(guān)聯(lián)多源異構(gòu)信息(如語(yǔ)音信息、文本信息、圖像信息、視頻信息等),通過(guò)設(shè)計(jì)相應(yīng)信息融合或交互方法來(lái)綜合提取多模態(tài)知識(shí)。因此,多模態(tài)任務(wù)與前述計(jì)算機(jī)視覺或者自然語(yǔ)言處理等處理單一模態(tài)的任務(wù)不同,需要在海量的多模態(tài)數(shù)據(jù)上完成預(yù)訓(xùn)練,然后將預(yù)訓(xùn)練的知識(shí)遷移到下游各項(xiàng)任務(wù)中,(譬如以文搜圖或以圖搜文視覺問(wèn)答(通過(guò)圖像內(nèi)部所提供的信息對(duì)相關(guān)問(wèn)題作答)、視覺定位(定位在一張圖像中一段話所描述的對(duì)應(yīng)區(qū)域),等。Amaninabrownshirtridesanelephantintothewater.Amanandaboyaretalkingaboutabicycleinastore.Amanwitharedhelmetonasmallmopedonadirtroad.Amaninabrownshirtridesanelephantintothewater.Amanandaboyaretalkingaboutabicycleinastore.Amanwitharedhelmetonasmallmopedonadirtroad.Apigeongreetsthreebicyclistsonaparkpath.Akidistoblowoutthesinglecandleinabowlofbirthdaygoodness.Womanonrightinwhiteshirt由于多模態(tài)數(shù)據(jù)具有多源異構(gòu)的特點(diǎn),理解任務(wù)的核心困難就在于如何將不同形態(tài)信息進(jìn)行統(tǒng)一化表示,從而使得計(jì)算機(jī)能夠處理完成多源異構(gòu)信息的交互與知識(shí)抽取。盤古大模型圍繞視覺(圖像)和語(yǔ)言(文本)這兩種最常見的模態(tài)展開研究,完成了一套預(yù)訓(xùn)練配合下游任務(wù)的流程。以下,我們將講述盤古大模型的整體思路和技術(shù)方案。2.3.1數(shù)據(jù)收集與視覺和語(yǔ)音語(yǔ)義大模型相同,多模態(tài)大模型必須在海量、高質(zhì)量的數(shù)據(jù)上進(jìn)行訓(xùn)練。我們采用了業(yè)界通用的做法,即從互聯(lián)網(wǎng)中爬取大量數(shù)據(jù),然后使用過(guò)濾算法消除其中不符合要求的部分,最終得到高質(zhì)量的圖文配對(duì)數(shù)據(jù),用于多模態(tài)大模型的預(yù)訓(xùn)練。具體地說(shuō),我們?cè)O(shè)定大量文本關(guān)鍵字,在搜索引擎上獲取排名靠前的圖像,并且將圖像對(duì)應(yīng)的文本(從元數(shù)據(jù)中獲得)存儲(chǔ)下來(lái),形成圖文配對(duì)數(shù)據(jù)池。去掉其中的重復(fù)數(shù)據(jù)后,我們進(jìn)一步篩除其中分辨率過(guò)低或者文本長(zhǎng)度過(guò)短的數(shù)據(jù),隨后利用已有的多模態(tài)預(yù)訓(xùn)練模型對(duì)這些配對(duì)的相似度進(jìn)行判斷,如果相似度太低,則將其文本描述丟棄并使用圖像自動(dòng)描述算法補(bǔ)充生成文本數(shù)據(jù)。經(jīng)過(guò)上述預(yù)處理過(guò)程,我們最終得到了約3.5億高質(zhì)量的圖文配對(duì)數(shù)據(jù),占據(jù)約60TB存儲(chǔ)空間。3.5億對(duì)3.5億對(duì)圖文數(shù)據(jù)60TB存儲(chǔ)空間2.3.2預(yù)訓(xùn)練方法多模態(tài)大模型預(yù)訓(xùn)練的關(guān)鍵,在于不同模態(tài)數(shù)據(jù)的高效交互和融合。當(dāng)前主流的多模態(tài)大模型架構(gòu)主要分為單塔架構(gòu)和雙塔架構(gòu)。其中單塔架構(gòu)只利用一個(gè)深度神經(jīng)網(wǎng)絡(luò)(一般是Transformer)結(jié)構(gòu)來(lái)完成圖像和文本之間的交互融合,本質(zhì)上屬于信息前融合方案;而雙塔架構(gòu)利用不同的神經(jīng)網(wǎng)絡(luò)來(lái)完成不同模態(tài)的信息抽取,然后僅在最后一層做信息交互和融合,因而屬于信息后融合方案。盤古大模型采用了雙塔架構(gòu),其具有模型獨(dú)立性強(qiáng)、訓(xùn)練效率高等優(yōu)勢(shì)。盤古大模型的實(shí)現(xiàn)方式很簡(jiǎn)單:分別使用相應(yīng)網(wǎng)絡(luò)抽取圖像和文本特征,然后將一個(gè)批次的圖像和文本特征送入判別器,在對(duì)比損失函數(shù)的作用下,使得配對(duì)的跨模態(tài)特征聚集在一起,而不配對(duì)跨模態(tài)特征被拉遠(yuǎn)。在大數(shù)據(jù)集上充分迭代后,模型就能學(xué)會(huì)將圖像和文本對(duì)齊到同一空間。此時(shí),圖像和文本的編碼器可以獨(dú)立用于各自下游任務(wù),或協(xié)同用于跨模態(tài)理解類下游任務(wù)。Phrase-RegionSemanticPhrase-RegionSemanticAlignmentSemantics-levelShapleyInteractionSemanticPhrasesSemanticRegionsAgirlinabluecoatislookingdownatadogledbyamaninofaSemanticRegionGenerationSemantics-levelShapleyInteraction[CLS]Text-ImageContrastiveLearning[CLS]PatchTokensTextEncoderTextEncoderEmbeddingsPatchEmbeddingsAgirlinabluecoatislookingdownatadogledbyamaninofaEfficientandSemantics-Sensitive然而,當(dāng)前大多數(shù)的多模態(tài)雙塔架構(gòu)方法僅僅進(jìn)行了全局的信息對(duì)齊,而對(duì)于文本和圖像內(nèi)容的細(xì)粒度知識(shí)卻缺乏考慮。譬如,一幅圖像中可能包含很多視覺實(shí)體區(qū)域,而對(duì)應(yīng)的文本描述中也包含了很多名詞短語(yǔ)。以更精細(xì)的粒度對(duì)齊這些視覺實(shí)體和名詞短語(yǔ),將有助于多模態(tài)大模型獲得更加強(qiáng)大的圖文配對(duì)能力。基于此,盤古團(tuán)隊(duì)提出了自研算法LOUPE(發(fā)表于NeurIPS2022會(huì)議)。該算法利用博弈論相關(guān)思路將圖像中的視覺實(shí)體區(qū)域和文本中的名詞短語(yǔ)提取出,并通過(guò)對(duì)比學(xué)習(xí)損失函數(shù)進(jìn)行細(xì)粒度對(duì)齊。使用這種方法訓(xùn)練出的多模態(tài)大模型,在多項(xiàng)下游任務(wù)中表現(xiàn)出了更好的精度。2.3.3效果展示盤古多模態(tài)大模型在多模態(tài)的各項(xiàng)下游任務(wù),如跨模態(tài)檢索、圖像描述自動(dòng)生成、視覺定位等任務(wù)上均取得了業(yè)界領(lǐng)先水平。采用LOUPE算法預(yù)訓(xùn)練所得的模型,在跨模態(tài)檢索數(shù)據(jù)集Flicker30k以及MS-COCO上取得了當(dāng)前業(yè)界最佳的圖文檢索精度,其中在MS-COCO的以文搜圖任務(wù)上超過(guò)業(yè)界標(biāo)桿算法CLIP達(dá)12.3%。此外,算法在開放域的物體檢測(cè)和視覺定位任務(wù)中也取得了良好的效果,示意結(jié)果如下:(a)ObjectDetection(a)ObjectDetection(b)VisualGrounding科學(xué)計(jì)算大模型視覺大模型、自然語(yǔ)言大模型和多模態(tài)大模型主要面向通用的人工智能問(wèn)題,例如音頻分析、圖像識(shí)別、語(yǔ)還存在許多人類也無(wú)法解決的問(wèn)題,如湍流模擬、天氣預(yù)報(bào)、大形變應(yīng)力建模等。這些問(wèn)題有著廣泛的應(yīng)用場(chǎng)景,如下圖所示:氣象醫(yī)藥游戲水務(wù)工業(yè)機(jī)械氣象醫(yī)藥游戲水務(wù)工業(yè)機(jī)械航天航空土木...地質(zhì)應(yīng)用領(lǐng)域應(yīng)用場(chǎng)景氣象預(yù)報(bào) 藥物性質(zhì) 碰撞模擬 海浪高度 電子器件 機(jī)器計(jì)算 計(jì)算 性能計(jì)算 控制飛行器 結(jié)構(gòu)應(yīng)力設(shè)計(jì) 分析熱力學(xué) 薛定諤 拉格朗日 譜平衡 麥克斯韋狀態(tài)方程 方程 方程 方程 方程歐拉角微分方程N(yùn)-S方程 本構(gòu)方程...地震探測(cè)...程函方程微分方程上述問(wèn)題很有價(jià)值,卻也非常復(fù)雜。在人工智能之前,科學(xué)家們通常通過(guò)分析實(shí)驗(yàn)數(shù)據(jù)與推演機(jī)理公式的方式提煉這些問(wèn)題的內(nèi)在規(guī)律。這些傳統(tǒng)方法,容易在大體量、高維度的數(shù)據(jù)處理上遇到困難。近年來(lái),隨著人工智能技術(shù)的飛速發(fā)展,業(yè)界涌現(xiàn)出了AI+科學(xué)計(jì)算類方法,即使用嵌入各類科學(xué)方程的深度神經(jīng)網(wǎng)絡(luò),從觀測(cè)數(shù)據(jù)和仿真數(shù)據(jù)中直接學(xué)習(xí)問(wèn)題蘊(yùn)含的規(guī)律,以對(duì)復(fù)雜的科學(xué)數(shù)據(jù)進(jìn)行分析,了解科學(xué)過(guò)程的內(nèi)部機(jī)理。...程函方程微分方程AIAI模型AI模型過(guò)去風(fēng)速未來(lái)風(fēng)速海浪高度藥物性質(zhì)AI模型AI模型氨基酸序列 蛋白質(zhì)結(jié)構(gòu)從預(yù)訓(xùn)練大模型的角度看,科學(xué)計(jì)算大模型與前述大模型存在若干相似之處。它們都建立在大規(guī)模數(shù)據(jù)集我們簡(jiǎn)單描述科學(xué)計(jì)算的獨(dú)特之處。2.4.1數(shù)據(jù)收集在AI+科學(xué)計(jì)算場(chǎng)景中,數(shù)據(jù)分為觀測(cè)數(shù)據(jù)和仿真數(shù)據(jù)兩類。其中觀測(cè)數(shù)據(jù)由觀測(cè)工具(傳感器等)產(chǎn)生,而仿真數(shù)據(jù)由仿真算法(對(duì)應(yīng)人類知識(shí))產(chǎn)生。這兩類數(shù)據(jù)及其融合數(shù)據(jù)和機(jī)理知識(shí),都AI模型的學(xué)習(xí)對(duì)象。不同科學(xué)計(jì)算場(chǎng)景的觀測(cè)數(shù)據(jù)往往相差巨大,觀測(cè)數(shù)據(jù)的收集往往需要特定領(lǐng)域的專業(yè)儀器與系統(tǒng)的實(shí)驗(yàn),例如蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)問(wèn)題中蛋白質(zhì)結(jié)構(gòu)的測(cè)定需要依賴于X射線衍射方法與核磁共振法、短臨降雨預(yù)報(bào)問(wèn)題中需要?dú)庀罄走_(dá)收集的雷達(dá)波反射率數(shù)據(jù)、植物表型分析問(wèn)題中數(shù)據(jù)則來(lái)自于實(shí)驗(yàn)員的收集,等等。在一些科學(xué)計(jì)算場(chǎng)景中,觀測(cè)數(shù)據(jù)的數(shù)據(jù)量非常龐大,例如氣象數(shù)據(jù)中的全球氣象站歷史數(shù)據(jù)、衛(wèi)星數(shù)據(jù)和雷達(dá)回波數(shù)據(jù)。也有一些場(chǎng)景中,觀測(cè)數(shù)據(jù)量相對(duì)較少,例如結(jié)構(gòu)應(yīng)力分析力傳感器收集的數(shù)據(jù)。仿真數(shù)據(jù)來(lái)自于數(shù)值仿真算法的輸出,蘊(yùn)含著豐富的數(shù)學(xué)物理信息,同一個(gè)問(wèn)題使用不同的仿真算法可以輸出不同的仿真數(shù)據(jù)。仿真數(shù)據(jù)不同于觀測(cè)數(shù)據(jù),其精度受限于使用仿真算法的準(zhǔn)確性和仿真計(jì)算的算力多少。相對(duì)于觀測(cè)數(shù)據(jù),仿真數(shù)據(jù)通常數(shù)據(jù)量更大(取決于仿真時(shí)使用的算力,同時(shí)缺省值較少,可以作為觀測(cè)數(shù)據(jù)的有效擴(kuò)充。在有些場(chǎng)景中,觀測(cè)數(shù)據(jù)和仿真數(shù)據(jù)由特定的機(jī)理知識(shí)結(jié)合在一起,生成融合數(shù)據(jù)。如氣象再分析數(shù)據(jù),再分析數(shù)據(jù)通常使用同化算法融合仿真數(shù)據(jù)和實(shí)驗(yàn)數(shù)據(jù)得到結(jié)構(gòu)化的數(shù)據(jù),根據(jù)不同同化算法與使用的仿真數(shù)據(jù)也可以有不同的結(jié)果。以下總結(jié)了若干場(chǎng)景的數(shù)據(jù)情況。數(shù)據(jù)量噪音數(shù)據(jù)結(jié)構(gòu)數(shù)據(jù)變化幅度準(zhǔn)確度收集方式數(shù)據(jù)特點(diǎn)應(yīng)用雷達(dá)回波數(shù)據(jù)GB~TB級(jí)別大(X,Y,Z,T)每一個(gè)空間點(diǎn)有對(duì)應(yīng)的雷達(dá)回波值中等中等氣象雷達(dá)原始數(shù)據(jù)是極坐標(biāo)形式,拼接雷達(dá)回波數(shù)據(jù)中有空白區(qū)域短臨降雨預(yù)報(bào)植物表型記錄數(shù)據(jù)MB~GB級(jí)別中等(N,C)每株植物每種特(如產(chǎn)量,株高)有對(duì)應(yīng)值較小高實(shí)驗(yàn)員手工收集或者高通量表型分析儀器數(shù)據(jù)收集難度較高,數(shù)據(jù)點(diǎn)較少植物表基因型關(guān)系分析氨基酸序列數(shù)據(jù)TB~PB級(jí)別小固定詞表的序列數(shù)據(jù)大高由測(cè)定的DNA序列推算出序列數(shù)據(jù),與文本數(shù)據(jù)相近蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)氣象中心預(yù)報(bào)數(shù)據(jù)TB~PB級(jí)別?。╔,Y,Z,T)較大低由氣象仿真算法得到仿真數(shù)據(jù)和實(shí)際場(chǎng)景的觀測(cè)數(shù)據(jù)有系統(tǒng)誤差氣象要素預(yù)報(bào)大氣資料再分析數(shù)據(jù)PB級(jí)別大(X,Y,Z,T)較大中等由氣象仿真算法與觀測(cè)算法融合得到和實(shí)際場(chǎng)景觀測(cè)數(shù)據(jù)有一定系統(tǒng)誤差,但是包含觀測(cè)數(shù)據(jù)的信息中長(zhǎng)期氣象預(yù)報(bào)2.4.2模型構(gòu)建根據(jù)輸入數(shù)據(jù)的性質(zhì),算法會(huì)選用不同的基礎(chǔ)模型用于訓(xùn)練。以海浪預(yù)測(cè)任務(wù)為例,其目標(biāo)為預(yù)測(cè)全球范圍內(nèi)海平面的實(shí)時(shí)浪高,輸入和輸出數(shù)據(jù)均為帶有時(shí)間戳的二維球面數(shù)據(jù),因此適合使用二維網(wǎng)絡(luò)模型。如果將預(yù)測(cè)范圍擴(kuò)展至三維空間,如進(jìn)行全球范圍內(nèi)的氣象預(yù)測(cè),輸出和輸出均為帶有時(shí)間戳的三維數(shù)據(jù)(包括高度),則適合使用三維網(wǎng)絡(luò)模型。二維網(wǎng)絡(luò)和三維網(wǎng)絡(luò)均可以借鑒計(jì)算機(jī)視覺領(lǐng)域的相應(yīng)模型,如使用卷積神經(jīng)網(wǎng)絡(luò)或者視覺Transformer作為骨干架構(gòu),配合大數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。成為某種約束性質(zhì)的偏微分方程組。如下圖所示,我們可以將此類方程組嵌入神經(jīng)網(wǎng)絡(luò)中,輔助模型架構(gòu)設(shè)計(jì)或成為額外的約束條件,與標(biāo)準(zhǔn)觀測(cè)或仿真數(shù)據(jù)一起,訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型。在良好的實(shí)現(xiàn)下,這類知識(shí)通常能夠增強(qiáng)模型的魯棒性,降低模型擬合訓(xùn)練數(shù)據(jù)的難度和不穩(wěn)定性。(注:左圖為嵌入偏微分方程的神經(jīng)網(wǎng)絡(luò)示意圖,右圖為海浪預(yù)報(bào)問(wèn)題使用的偏微分方程)2.4.3案例和效果展示以下,我們展示一個(gè)典型的科學(xué)計(jì)算案例,即全球海浪高度預(yù)測(cè)系統(tǒng)。傳統(tǒng)科學(xué)計(jì)算方法通過(guò)求解譜平衡方程計(jì)算波浪高度,通常需要使用超級(jí)計(jì)算機(jī)計(jì)算,同時(shí)消耗大量算力。由于計(jì)算無(wú)法做到實(shí)時(shí)完成,當(dāng)風(fēng)速等氣象要素改變時(shí),傳統(tǒng)方法無(wú)法給出實(shí)時(shí)的海浪預(yù)測(cè),存在一定時(shí)間延遲。海浪預(yù)測(cè)問(wèn)題的輸入輸出都是經(jīng)緯度網(wǎng)格點(diǎn)上的氣象要素?cái)?shù)據(jù),在數(shù)據(jù)形式上與視頻數(shù)據(jù)相似。不同之處在0-255海浪預(yù)測(cè)的輸出通常不是某種分類,而是連續(xù)的預(yù)測(cè)值,因此需要用回歸損失替換深度學(xué)習(xí)中常用的分類、例如繞地軸旋轉(zhuǎn),因此需要選定滿足特定不變性的CNNTransformer架構(gòu)。盤古海浪預(yù)測(cè)模型的主體是考慮了旋轉(zhuǎn)不變性的視覺Transformer架構(gòu),參數(shù)量約為五億。如上所述,神經(jīng)網(wǎng)絡(luò)的損失函數(shù)由兩部分組成,即實(shí)際數(shù)據(jù)上的預(yù)測(cè)誤差和海浪預(yù)測(cè)本身需要滿足的偏微分方程。通過(guò)爬取全球近10年的實(shí)時(shí)海浪高度數(shù)據(jù)進(jìn)行訓(xùn)練,模型在驗(yàn)證集上預(yù)測(cè)的平均誤差小于5cm,與傳統(tǒng)預(yù)測(cè)方法相當(dāng),完全可以滿足實(shí)際應(yīng)用需求。更重要的是,AI算法的預(yù)測(cè)時(shí)間較傳統(tǒng)方法大幅減少:在單張華為昇騰芯片上,1s之內(nèi)即可得到全球海浪高度預(yù)測(cè),1分鐘內(nèi)能夠完成超過(guò)100次海浪預(yù)測(cè)任務(wù),推理效率較傳統(tǒng)方法提升了4-5個(gè)數(shù)量級(jí)。使用AI算法,我們可以迅速得到不同可能的風(fēng)速條件下的海浪高度,從而進(jìn)行實(shí)時(shí)預(yù)測(cè)和未來(lái)情況模擬,對(duì)于漁業(yè)養(yǎng)殖、災(zāi)害防控等場(chǎng)景有極大的價(jià)值。使用昇騰AI芯片,AI模型可以在一秒內(nèi)給出成百上千組“隨機(jī)”風(fēng)速分布下的海浪分布圖:盤古海浪預(yù)測(cè)模型可以在短時(shí)間內(nèi)對(duì)數(shù)千組可能情況進(jìn)行模擬,得到與傳統(tǒng)科學(xué)計(jì)算方法相當(dāng)?shù)木葓D網(wǎng)絡(luò)大模型ERP數(shù)據(jù)(計(jì)劃、財(cái)務(wù)、銷售、采購(gòu))、分子基因、交通網(wǎng)絡(luò)、股票、點(diǎn)云,等。這些數(shù)據(jù)很難通過(guò)標(biāo)準(zhǔn)的卷積、Transformer等模塊進(jìn)行處理,因而需要適應(yīng)不同任務(wù)和不同模態(tài)的神經(jīng)網(wǎng)絡(luò),以達(dá)到量化的效果。我們以圖網(wǎng)絡(luò)的形式對(duì)通用數(shù)據(jù)進(jìn)行建模,以利用圖結(jié)構(gòu)來(lái)表達(dá)數(shù)據(jù)元素間的相關(guān)性。在上述背景下,盤古圖網(wǎng)絡(luò)大模型被設(shè)計(jì)出來(lái),它的目標(biāo)是統(tǒng)一大模型在通用數(shù)據(jù)域上的構(gòu)造方案,從而實(shí)現(xiàn)不同任務(wù)場(chǎng)景下端到端的大模型訓(xùn)練、優(yōu)化、微調(diào)和部署。盤古圖網(wǎng)絡(luò)大模型主要實(shí)現(xiàn)的目標(biāo)有:通過(guò)刪減、增加基模型,實(shí)現(xiàn)盤古圖網(wǎng)絡(luò)大模型的終身學(xué)習(xí)高泛化終身學(xué)習(xí)高精度高可解釋性冷啟動(dòng)在具體任務(wù)中,盤古圖網(wǎng)絡(luò)大模型可自適應(yīng)構(gòu)建不同基模型和圖網(wǎng)絡(luò),實(shí)現(xiàn)更高的精度盤古圖網(wǎng)絡(luò)大模型可基于圖網(wǎng)絡(luò)提供更強(qiáng)可解釋性,(如工業(yè)、醫(yī)療、金融等)的需求通過(guò)選擇基模型或者微調(diào)圖網(wǎng)絡(luò),直接將盤古圖網(wǎng)絡(luò)大模型遷移至新場(chǎng)景使用同時(shí),盤古圖網(wǎng)絡(luò)大模型還配備有其他適合部署的功能,如模型加密(使得模型在云、邊、端等不同場(chǎng)景下部署時(shí)收到產(chǎn)權(quán)保護(hù))和大規(guī)模數(shù)據(jù)訓(xùn)練(支持多節(jié)點(diǎn)并發(fā)訓(xùn)練),使得整套系統(tǒng)對(duì)實(shí)際應(yīng)用更加友好。13 4213 4213 42數(shù)13 4213 4213 42數(shù)據(jù)基模型\基模型\模態(tài)數(shù)據(jù)技術(shù):automlbaggingboosting圖網(wǎng)絡(luò)功能:中樞協(xié)同不同分布\模態(tài)模型技術(shù):graph,set,tree,mlp,transformer...優(yōu)勢(shì):對(duì)分區(qū)數(shù)量不敏感,更魯棒...圖:盤古圖網(wǎng)絡(luò)大模型整體架構(gòu)盤古圖網(wǎng)絡(luò)大模型的頂層設(shè)計(jì),主要分為基模型構(gòu)建和圖網(wǎng)絡(luò)融合兩個(gè)部分。在基模型構(gòu)建部分,模型會(huì)自動(dòng)使用超采樣的不同數(shù)據(jù)集來(lái)訓(xùn)練不同的基模型:在這個(gè)過(guò)程中,不同基模型的超參數(shù)通過(guò)AutoML的相關(guān)技術(shù)進(jìn)行搜索(圖中的不同顏色的箭頭表示不同的數(shù)據(jù)流,不同顏色的框中表示不同的基模型),減輕了開發(fā)者的調(diào)參壓力。而在圖網(wǎng)絡(luò)融合部分,每個(gè)基模型根據(jù)輸入數(shù)據(jù)進(jìn)行預(yù)測(cè),而不同的預(yù)測(cè)結(jié)果在圖網(wǎng)絡(luò)中被融合起來(lái),得到最終的輸出。該方案的優(yōu)勢(shì)在于,圖網(wǎng)絡(luò)中的基模型可以任意增減,而不管如何增減基模型,都不會(huì)對(duì)圖網(wǎng)絡(luò)的匯聚產(chǎn)生影響,因?yàn)閳D網(wǎng)絡(luò)本身對(duì)于輸入的基模型數(shù)量不敏感。為了讓開發(fā)者更方便地使用這套框架,盤古圖網(wǎng)絡(luò)大模型在代碼實(shí)現(xiàn)層面進(jìn)行了架構(gòu)的良好設(shè)計(jì),整體代碼結(jié)構(gòu)清晰,易于閱讀和維護(hù)。GNNBasemodelGNNBasemodelFinalOutputGNNadd_base_algorithmModeloutput1Modeloutput2Modeloutput3Modeloutput4Modeloutput5BasemodelselectionStackNetLayerOutputLayerOutputClassi?cationBasicAlgorithmXGBLGBRFMLP...XGBLGBRFMLP...圖:盤古圖網(wǎng)絡(luò)大模型代碼結(jié)構(gòu)示意圖上圖展示了盤古圖網(wǎng)絡(luò)大模型的基本代碼邏輯。系統(tǒng)整體由兩部分組成,基模型構(gòu)建和圖網(wǎng)絡(luò)融合。其中,BasicAlgorithm產(chǎn)生對(duì)應(yīng)算法池內(nèi)的對(duì)應(yīng)算法和搜索空間,之后使用HyperparamFind類進(jìn)StackNet訓(xùn)練該層的層次網(wǎng)絡(luò),并輸出結(jié)果。該結(jié)果將作為下一次的輸入重復(fù)進(jìn)行新的基模型選擇與超參搜索,在得到多個(gè)完整的基模型組成的層次網(wǎng)絡(luò)的輸出后,使用圖add_base_algorithm方便地加入其中,進(jìn)行圖網(wǎng)絡(luò)匯聚(1ModelOutput5),而不需要更改其他基模型、層次網(wǎng)絡(luò)以及圖神經(jīng)網(wǎng)絡(luò)。這樣的特點(diǎn),使得盤古圖網(wǎng)絡(luò)大模型能夠很容易地應(yīng)用于各種差異較大的任務(wù)。在下一章節(jié),我們會(huì)展示盤古圖網(wǎng)絡(luò)大模型的若干實(shí)際應(yīng)用案例。盤古大模型應(yīng)用案例視覺大模型案例:TFDS圖像自動(dòng)識(shí)別TFDS是TroubleofmovingFreightcarDetectionSystem的縮寫,即貨車故障軌旁圖像檢測(cè)系統(tǒng),由檢測(cè)信息采集、信息處理傳輸和列檢檢測(cè)中心等設(shè)備構(gòu)成,通過(guò)高速像機(jī)陣列,拍攝列車車底和側(cè)下部的全部可視信息,經(jīng)數(shù)字化處理后顯示于檢測(cè)中心的信息終端上,通過(guò)人機(jī)結(jié)合的方式,對(duì)抓拍后貨車車輛的圖像進(jìn)行分析,實(shí)現(xiàn)故障檢測(cè)功能。全路約有6000人動(dòng)態(tài)檢車員承擔(dān)著對(duì)TFDS檢測(cè)設(shè)備所拍攝車輛圖像的分析工作。龐大的檢車員數(shù)量造成每個(gè)路局的資金負(fù)擔(dān)。當(dāng)前,以人均年工資支出約為15萬(wàn)元計(jì)算,則全路每年在該領(lǐng)域的支出近10億元;同時(shí),車輛故障分析工作強(qiáng)度大、難度高,對(duì)車輛專業(yè)理論與實(shí)際運(yùn)用需要有很好的水平,要求動(dòng)態(tài)檢車員在短時(shí)間完成整列車的故障分析,確保整列車的運(yùn)行安全。TFDS圖像自動(dòng)識(shí)別從2007年就開始嘗試采用圖像自動(dòng)識(shí)別技術(shù)進(jìn)行研究,當(dāng)時(shí)從故障部件的邊緣及灰度面積進(jìn)行,受故障形態(tài)多變、圖像質(zhì)量差異大、車體污染等影響,識(shí)別結(jié)果一直不理想,而且只能對(duì)故障形態(tài)非常明顯的故障進(jìn)行識(shí)別,如:截?cái)嗳T手把關(guān)閉故障,并采SVM(支持向量機(jī))技術(shù),識(shí)別率才達(dá)到80%以上,但對(duì)于其他故障,一直沒(méi)有好的解決辦法。因此,當(dāng)前各路局車輛段都還是采用人工分析方式,TFDS的智能分析需求并沒(méi)有得到很好的滿足。部件定位部件目標(biāo)檢測(cè)行業(yè)預(yù)訓(xùn)練部件定位部件目標(biāo)檢測(cè)行業(yè)預(yù)訓(xùn)練部件位置信息基于先驗(yàn)的模板匹配部件丟失、錯(cuò)位、出現(xiàn)異常部件等部件故障分類形變、折斷、脫落等故障識(shí)別故障識(shí)別行業(yè)預(yù)訓(xùn)練關(guān)鍵點(diǎn)檢測(cè)角度、尺寸等故障局部故障檢測(cè)破損、裂縫盤古行業(yè)預(yù)訓(xùn)練模型 語(yǔ)義相似樣本聚集 等級(jí)化語(yǔ)義聚集
圖像質(zhì)量 增強(qiáng)圖評(píng)估
亮度特征提取 綜判別質(zhì)量評(píng)估模型判別
圖像正常
算法識(shí)別預(yù)報(bào)故障異常 檢測(cè) 異常檢異常檢測(cè) 行業(yè)預(yù)訓(xùn)練 大面積地板破損、異物、形變整車故障綜合分析整車綜合分析整車故障綜合分析基于盤古行業(yè)預(yù)訓(xùn)練模型的鐵路TFDS開發(fā)方案上圖展示了盤古視覺大模型在為TFDS定制的解決方案。依托于盤古行業(yè)預(yù)訓(xùn)練大模型,我們定制化地開發(fā)了整體解決方案,包括車型篩選、工位分類、配件篩選、圖像質(zhì)量評(píng)估、已與車型先驗(yàn)的模板匹配、多車級(jí)聯(lián)分析等模塊,其中盤古大模型核心解決方案包含以下組成部分:車輛拆分根據(jù)整列車圖像,定位出每輛車的圖像行業(yè)預(yù)訓(xùn)練模型利用百萬(wàn)級(jí)無(wú)標(biāo)注鐵路行業(yè)生成鐵路行業(yè)預(yù)訓(xùn)練模型自動(dòng)增強(qiáng)和評(píng)估車輛拆分根據(jù)整列車圖像,定位出每輛車的圖像行業(yè)預(yù)訓(xùn)練模型利用百萬(wàn)級(jí)無(wú)標(biāo)注鐵路行業(yè)生成鐵路行業(yè)預(yù)訓(xùn)練模型自動(dòng)增強(qiáng)和評(píng)估圖像進(jìn)行自動(dòng)評(píng)估,對(duì)正常圖像做進(jìn)一步故障識(shí)別,非正常圖像返回人工審核模板匹配根據(jù)已知的車型信息建立零部件的相對(duì)位置模板,預(yù)報(bào)部件位置異常(丟失、錯(cuò)位)故障定位、識(shí)別基于鐵路行業(yè)預(yù)訓(xùn)練大模型,結(jié)合目標(biāo)檢測(cè)、圖像識(shí)別框架,進(jìn)行部件定位、故障識(shí)別基于盤古視覺大模型的整體解決方案,在5T檢測(cè)車間集中作業(yè)分析的14條線路進(jìn)行了驗(yàn)證。在2021919202110205T檢測(cè)車間動(dòng)態(tài)檢車員預(yù)報(bào)并經(jīng)組長(zhǎng)確認(rèn)為提報(bào)故障的數(shù)據(jù)樣本(故障圖片)共計(jì)32007張。在測(cè)試環(huán)境下,這些故障圖片與大量正常圖片混合,送入盤古大模型進(jìn)行判斷。如下表所示,實(shí)測(cè)結(jié)果表明,當(dāng)前盤古大模型的識(shí)別精度已經(jīng)超過(guò)人類檢測(cè)員水平。攔停準(zhǔn)確預(yù)測(cè)119攔停準(zhǔn)確預(yù)測(cè)119漏報(bào)1故障總數(shù)120識(shí)別率99.17%重點(diǎn)準(zhǔn)確預(yù)測(cè)28280漏報(bào)506故障總數(shù)28786識(shí)別率98.24%一般準(zhǔn)確預(yù)測(cè)3084漏報(bào)17故障總數(shù)3101識(shí)別率99.45%PAGE50PAGE50PAGEPAGE51語(yǔ)音語(yǔ)義大模型:賦能智慧銷售銷售在許多行業(yè)中都是十分重要的角色,包括銀行、保險(xiǎn)、汽車、地產(chǎn)等,銷售的水平直接影響企業(yè)的業(yè)績(jī)。銷售要求具備優(yōu)秀的語(yǔ)言能力,一方面要理解客戶潛在的意圖,推薦客戶可能感興趣的產(chǎn)品,另一方面要運(yùn)用合理的表達(dá)方式,突出產(chǎn)品的優(yōu)點(diǎn),刺激客戶的購(gòu)買意向。在傳統(tǒng)銷售場(chǎng)景中,往往以結(jié)果作為唯一評(píng)價(jià)指標(biāo),無(wú)法對(duì)銷售的中間過(guò)程進(jìn)行監(jiān)測(cè),導(dǎo)致客戶的潛在購(gòu)買意圖沒(méi)有被充分挖掘,低水平銷售不清楚短板在哪里,難以找到提升方向,高水平銷售的成功經(jīng)驗(yàn)也難以總結(jié)。業(yè)務(wù)場(chǎng)景挑戰(zhàn)普通銷售人員和精英銷售人員業(yè)績(jī)差異相當(dāng)大企業(yè)缺乏有效手段及時(shí)發(fā)現(xiàn)每名銷售的短板并及時(shí)給予指導(dǎo),造成大量業(yè)績(jī)損失業(yè)務(wù)場(chǎng)景挑戰(zhàn)普通銷售人員和精英銷售人員業(yè)績(jī)差異相當(dāng)大企業(yè)缺乏有效手段及時(shí)發(fā)現(xiàn)每名銷售的短板并及時(shí)給予指導(dǎo),造成大量業(yè)績(jī)損失循環(huán)智能的解決方案和業(yè)務(wù)結(jié)果?數(shù)據(jù)采集執(zhí)行監(jiān)督?話術(shù)挖掘?qū)崟r(shí)輔助深入業(yè)務(wù)流程的銷售輔助閉環(huán)提升初級(jí)銷售的產(chǎn)能高達(dá)50%,中級(jí)銷售產(chǎn)能10%~30%線下銀行網(wǎng)點(diǎn)依然適用23在保險(xiǎn)的銷售場(chǎng)景,借助名單意向預(yù)測(cè)和產(chǎn)品推薦系統(tǒng),實(shí)現(xiàn)銷售轉(zhuǎn)化率2x~3x業(yè)務(wù)場(chǎng)景挑戰(zhàn)業(yè)務(wù)場(chǎng)景挑戰(zhàn)上浪費(fèi)了大部分精力,銷售轉(zhuǎn)化率難提升產(chǎn)品推薦完全基于人工經(jīng)驗(yàn),未經(jīng)數(shù)據(jù)驗(yàn)證循環(huán)智能的解決方案和業(yè)務(wù)結(jié)果創(chuàng)造性地基于過(guò)往溝通內(nèi)容與成單結(jié)果進(jìn)行意向預(yù)測(cè)通過(guò)未成交名單意向排序和已成交客戶增購(gòu)意向排序及產(chǎn)品2x~3x適用于電銷、網(wǎng)銷、代理人等多種銷售渠道依托于大模型的通用性和泛化性,我們可以將該系統(tǒng)遷移到各個(gè)行業(yè)中,性能保持穩(wěn)定。除B端場(chǎng)景外,語(yǔ)音語(yǔ)義大模型也瞄準(zhǔn)C端的多個(gè)場(chǎng)景進(jìn)行發(fā)力,包括語(yǔ)音助手、自動(dòng)問(wèn)答、對(duì)話生成等。由于在預(yù)訓(xùn)練中學(xué)習(xí)過(guò)海量的百科類數(shù)據(jù),模型中存儲(chǔ)了大量通用知識(shí),可以針對(duì)特定問(wèn)題生成合理的答案。如提問(wèn)“北京有哪些好玩的景點(diǎn)”,模型可以給出“故宮”、“長(zhǎng)城”、“798藝術(shù)區(qū)”等答案。此外,模型還具備聊天能力,可以生成合理的多輪對(duì)話回復(fù)。多模態(tài)大模型:一網(wǎng)統(tǒng)管事件工單分配一網(wǎng)統(tǒng)管事件工單分配是每個(gè)城市運(yùn)營(yíng)中必不可少的業(yè)務(wù)之一。通過(guò)對(duì)工單分配,可以有效地安排對(duì)應(yīng)部門處理城市當(dāng)中發(fā)現(xiàn)的問(wèn)題,縮小發(fā)現(xiàn)事件和處理事件之間的時(shí)間差。當(dāng)前,一網(wǎng)統(tǒng)管的事項(xiàng)類別分布十分廣泛,多達(dá)300類;此外,大規(guī)模城市往往每天都面臨著大規(guī)模事件工單進(jìn)行分發(fā),因此事件工單的智能分配是非常關(guān)鍵的問(wèn)題。(描述(文本描述而形成。在使用小模型時(shí),這些事件的分類精度較低,因而產(chǎn)生了大量錯(cuò)誤分類,導(dǎo)致事件沒(méi)有分配到對(duì)應(yīng)的處置單位中,嚴(yán)重影響事件的處理效率。此外,由于事件分類缺乏國(guó)家標(biāo)準(zhǔn),不同城市的事件類別也有一定的特異性;如果使用小模型,就會(huì)需要對(duì)每個(gè)城市做一次數(shù)據(jù)的重新收集和模型迭代訓(xùn)練,耗時(shí)耗力,并不便于城市功能智能分配系統(tǒng)的快速部署。盤古多模態(tài)大模型的出現(xiàn),給了城市事件工單智能分配統(tǒng)一解決方案?;谧匝兴惴ǎP古多模態(tài)大模型能夠在大規(guī)模通用圖文配對(duì)數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練。基于預(yù)訓(xùn)練模型,就可以在網(wǎng)格員或者市民上傳的圖片或者文本上抽取有效信息,進(jìn)而與相應(yīng)類別的圖像或者文本特征進(jìn)行相似度匹
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度草種交易平臺(tái)建設(shè)與運(yùn)營(yíng)合同2篇
- 2025年度汽車維修技師培訓(xùn)服務(wù)合同范本4篇
- 二零二五年度國(guó)有房產(chǎn)出售合同(含社區(qū)醫(yī)療中心)3篇
- 二零二五版數(shù)字經(jīng)濟(jì)年薪制與數(shù)據(jù)資產(chǎn)管理合同3篇
- 二零二五年度庭院租賃與餐飲服務(wù)合同
- 2025年消防工程維修及消防器材供應(yīng)合同3篇
- 二零二五年度可再生能源貸款擔(dān)保合同
- 二零二五年度綠色金融股權(quán)讓與擔(dān)保實(shí)施合同
- 二零二五年度彩鋼棚防火安全檢測(cè)與整改合同3篇
- 二零二五年度財(cái)稅代理與稅收優(yōu)惠申請(qǐng)合同
- 申根簽證申請(qǐng)表模板
- 企業(yè)會(huì)計(jì)準(zhǔn)則、應(yīng)用指南及附錄2023年8月
- 諒解書(標(biāo)準(zhǔn)樣本)
- 2022年浙江省事業(yè)編制招聘考試《計(jì)算機(jī)專業(yè)基礎(chǔ)知識(shí)》真題試卷【1000題】
- 認(rèn)養(yǎng)一頭牛IPO上市招股書
- GB/T 3767-2016聲學(xué)聲壓法測(cè)定噪聲源聲功率級(jí)和聲能量級(jí)反射面上方近似自由場(chǎng)的工程法
- GB/T 23574-2009金屬切削機(jī)床油霧濃度的測(cè)量方法
- 西班牙語(yǔ)構(gòu)詞.前后綴
- 動(dòng)物生理學(xué)-全套課件(上)
- 河北省衡水市各縣區(qū)鄉(xiāng)鎮(zhèn)行政村村莊村名居民村民委員會(huì)明細(xì)
- DB32-T 2665-2014機(jī)動(dòng)車維修費(fèi)用結(jié)算規(guī)范-(高清現(xiàn)行)
評(píng)論
0/150
提交評(píng)論