盤古多語言大模型-華為+商恒超-_第1頁
盤古多語言大模型-華為+商恒超-_第2頁
盤古多語言大模型-華為+商恒超-_第3頁
盤古多語言大模型-華為+商恒超-_第4頁
盤古多語言大模型-華為+商恒超-_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

盤古多語言大模型業(yè)務落地探索華為2012文本機器翻譯實驗室/商恒超提綱的實現(xiàn)的實現(xiàn)機器翻譯Lab業(yè)務與動機傳統(tǒng)模型時代:●支撐內(nèi)部(華為云、終端、資料)翻譯訴求大模型時代:泰語&阿語大模型現(xiàn)狀泰語&阿語大模型現(xiàn)狀●2022年OpenAIChatGPT的出現(xiàn),率先展現(xiàn)出大模型的無限潛力,掀起了Decode-Only架構大模型的研究浪潮心punishmetstoteachrk泰語&阿語大模型現(xiàn)狀●目前的大模型主要以英文、中文為主,對中低資源語種的支持較少●目前支持泰語的大模型●●ChatGPT/GPT-4、LLama3.1· ·支持阿語的大模型:泰語&阿語大模型現(xiàn)狀●泰語、阿語(低資源語種)大模型需求與發(fā)展的矛盾Percent0.07%0.06%0.04%0.04%0.03%0.03%Percent0.07%0.06%0.04%0.04%0.03%0.03%0.03%0.03%0.03%0.03%0.02%0.02%0.01%0.01%LanguageunknownfrSVes89.70%8.38%0.17%0.16%0.15%0.13%0.13%0.13%0.12%0.11%0.10%0.09%0.09%0.08%PercentLanguagecaaTable10:Languagedistributioninpretrainingdatawithpercentage>=0.005%.MostdataisinEnglish,meaningthatLLAMA2willperformbestforEnglish-languageusecases.Thelargeunknowncategoryispartiallymadeupofprogrammingcodedata.5法語印歐語系-羅曼語族7730萬1.993億32.766億56阿拉伯語亞非語系-閃米特語族2.74億7孟加拉語印歐語系-印度-雅利安語支2.285億53680萬2.652億7埃及阿拉伯語亞非語系-6830萬20意大利語羅曼語族6460萬310萬6770萬[21泰語壯侗語系2070萬4000萬6070萬[22古吉拉特語印度-雅利安語支5650萬420萬6070萬231泰語&阿語大模型現(xiàn)狀●泰語、阿語(低資源語種)大模型需求與發(fā)展的矛盾●單語數(shù)據(jù)稀缺,訓練資源昂貴●對話數(shù)據(jù)稀缺,尤其是多輪對話●人類偏好數(shù)據(jù)稀缺,RLHF訓練繁瑣●如何直接將高資源語言知識遷移至低資源語言?(泰語為例)●機器翻譯橋接--最樸素(NoTraining)●機器翻譯+高資源語種大模型泰英翻譯泰英翻譯英泰翻譯英泰翻譯Typhoon-7BTyphoon-7BSeaLLM-7B-ChatSEA-LION-7BChatGPTOpenThaiGPT-beta-7BWangChanGLM40··0ONETICTGATTPAT-1●只用泰語數(shù)據(jù)?英文知識會被遺忘,等同重訓●英文+泰語的混合注入泰語知識的同時,緩解災難性遺忘●基于Base模型做適配?泰語對話能力需要重新構建強英文對話能力可以服務于泰語●再次思考“翻譯橋接”●把機器翻譯做到LLM中,變成一種思維鏈(CoT)●Step1:LLM將泰語問題翻譯為英文問題·Step2:LLM·給出英文回答將英文答案翻譯為泰語答案Introduce?uliuiuaamnzu??uliuiuaamnzu?alwaj√實現(xiàn)泰語英語知識更好的對齊 模型結構與適配策略:●必要時擴展詞表●使用LoRA減少對基礎模型的擾動●多階段訓練,任務拆解LORAModulesExtendedInputEmbedding●階段1:擴展泰語詞表,泰語數(shù)據(jù)CPT ·階段2:英泰雙向翻譯+英文單語CPTSentSent_TH<EN>Sent_EN,Sent_EN<TH>Sent_TH MTMT-COT:Query_TH<EN>Query_EN<RESPONSE>Response_EN<TH>Response_TH·EN-THMT:Translationprompt(En,TH)(翻譯能力激活)·MT-COT的訓練配置√BaseLLM:Pangu13B-Instruct、Llama2/3√訓練平臺:華為云ModelArt+D910B*512將是11利息,即11×11×5泰銖=575泰銖,利息575泰銖x3年=1725泰銖的利率。·SFT:有2個月,共28天:二月。和十一月 ·CoT-MT:閏年沒有一個月有28天。常規(guī)日歷格式一年有365天,常規(guī)日歷格式閏年有366天。有28天的月份是二月?!駥嶒灲Y果 ●對話能力:單輪+多輪●翻譯能力Ntw/Tie(R=33%)Table2:AgreementbetweenGPT-4andhumans."R="denotestheexpectagreementbetweenrandomjudges.tENresultsarefromZhengetal.(2024).vs.ModelWinurn(%)WinTurn(%Llama-2ChatGPTLlama-3ChatGPT ·5個不同數(shù)據(jù)集上的單輪對話問題ModelHelpful-BaseVicunaAllNLLB-bridge·高質量多輪對話測試集:8大類別2.202.602.903.206.003.103.102.902.90 MathCodingExtractionSTEM|HumanitiesAllChatGPTChatGPTArabicGPT4ALLArabicGPT4ALL8.9/8.38.2/7.392%/88%writing9/8.69.2/7.7roleplay8.8/8.18.7/6.1reasoning8.5/7.57.7/6.7math9.1/7.29.3/8.77.1/7.2extraction8.3/8.47.5/7.89/8.79.5/8.5humanities9.1/98.6/9.0ThaiGPT4ALL7.9/7.38.2/7.4writing8.3/7.48.4/6.7roleplay7.6/7.3reasoning7.2/3.76.5/5.1math8.0/3.59.2/6.38.1/6.28.3/8.7extraction8.5/8.29.1/8humanities9.2/9 ModelMT-BenchFirstTurnMT-BenchSecondTurnw/oThaipre-trainw/omixtrainingw/orecoveryKDw/oLoRA第一輪:評價兩款智能手機的提綱,少于200字ChatGPT重復第一輪答案:A?57lun515:2aNallanausJǔoWLnNGuqninlrilLOnn1JiOursOurs成功改寫為打油詩:aallaAJNaUaJW?nLU16TNJllaiolauSure!Here'salimerickaboutthetwosmartphonesbeingcompared:Thereonceweretwosmartphonessofine,TheirTheircamerastookpicturessodear,Withfeaturesthatmadethemtrulydivine.Theirdisplayswerebrightandclear,模型語項英-泰英-泰盤古大模型英-泰模型語項泰-英泰-英盤古大模型泰-英ModelBypass(%)ChatGPTOursw/odistillationALLALLwritingroleplayreasoningmathhumanitiesALLALLwritingroleplayreasoningmathhumanities●聯(lián)合訓練提升了顯式能力?●語言Code-Switch:對話中Code-Switch的增強●泰國金融客戶:通過大模型更好的整理客戶Onebox,Sharepoint,Excel,andetc①①ContactContactCenterAgent(Manualcustomer2customer2多路召回多路召回排序&后處理問答安全排序前過濾排序后過濾重排關鍵詞檢排序前過濾排序后過濾重排關鍵詞檢索語義向量)檢索模型排序問題向量化盤古LLM盤古LLM大模型知識圖譜向量數(shù)據(jù)庫搜索語義模型向量數(shù)據(jù)庫Database●Query分類(2分類:業(yè)務QA+閑聊QA):F10.99(問題解決率):人工評測90%,可基本滿足業(yè)務需要(多輪能力):人工評測達GPT-4的80分位客戶需求>個性化商家推薦商家精確信息查詢方案拆解:讓大模型做擅長的事情DBSQL用戶輸入LM(NLU個性化排序后處理輸出需求接入層中間層需求接入層中間層基礎層36+用戶563+對接應用ALA會OMRPCloudDragon瀏覽器welink應用市場快譯視頻年翻譯字符數(shù)2000億+,穩(wěn)定增長中年翻譯字符3000億+,快速增長中通用翻譯領域翻譯低資源翻譯算法RNNSearchMTMTAl算力Al數(shù)據(jù)Al算力Al數(shù)據(jù)180億+多語言語料庫ICT專業(yè)術語庫/記憶庫180億+多語言語料庫ICT專業(yè)術語庫/記憶庫D910,D910bMindSpore文本機器翻譯Lab-研究創(chuàng)新華為翻譯中心3篇論文入選自然語言處理領域頂級會議ACL2023HWTSCHWTSC2023-05-0918:29Toronto,CanadaJuly9-14,20232023年5月2日,自然語言處理領域頂級會議ACL2023錄用結果公布,華為翻譯中心共3篇論文入選,其中論文“TextStyleTransferBack-Translation”被主會議錄用,論文“LexicalTranslationInconsistency-AwareDocument-LevelTranslationRepair”被子刊Findings錄用,論文“CollectiveHumanOpinionsinSemanticTextualSimilarity”被期刊TACL錄用并邀請至主華為翻譯中心兩篇論文入選語音技術領域頂級會議ICASSP2023華為翻譯中心HWTSC2023-05-1916:00ICASSP2023將于2023年6月4號至6月10號在涵蓋語音識別、語音合成、語音增強、自然語言處理、機器學習等多個領域。華為翻譯中心的兩篇論文被大會主會錄用。華為翻譯中心HWTSC2023年10月17日09:172023年10月6日,自然語言處理領域頂級會議EMNLP2023論文入選結果公布,華為翻譯中心共有3篇論文入選,其中1篇被主會錄用并受邀參加主會分享,另外2篇被Findings錄用。主會錄用論文:"ImprovedPseudoDataforMachineTranslationQualityEstimationwithConstrainedBeamSearch"Findings錄用論文:"SMARTSPANNER:MakingSPANNERRobustinLowResourceScenarios°和"INarlG:lterativeNon-autoregressiveInstructGenerationModelForWord-LevelAutoCompletion"文本機器翻譯Lab-學術競賽華為翻譯中心在ACL2024IWSLT語音翻譯競賽5個大項中斬獲冠軍HWTSCHWTSC2024年08月14日11:35IWSLT(InternationalConferenceonSpokenLanguageTranslation,國際口語機器翻譯比賽)是國際上最具影響力的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論