《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》編制說明

上傳人：1*** IP屬地：浙江上傳時間：2025-01-04 格式：PDF 頁數(shù)：6 大?。?87.98KB 積分：11 舉報 版權(quán)申訴

《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》編制說明_第2頁

《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》編制說明_第3頁

《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》編制說明_第4頁

《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》編制說明_第5頁

已閱讀5頁，還剩1頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

團(tuán)體標(biāo)準(zhǔn)

《機器翻譯服務(wù)質(zhì)量評價規(guī)范—中英雙向》編制說明

一、工作簡況

1.任務(wù)來源

本文件由中國質(zhì)量協(xié)會和華為技術(shù)有限公司聯(lián)合提出，2022年11月10日

正式列入中國質(zhì)量協(xié)會團(tuán)體標(biāo)準(zhǔn)年度制修訂項目計劃。

2.編制目的

隨著機器翻譯（machinetranslation,MT）技術(shù)的發(fā)展，機器翻譯已政府、

教育、企業(yè)等實體的公文、教育和外貿(mào)領(lǐng)域廣泛的應(yīng)用，成為翻譯領(lǐng)域的重要組

成部分。

國際上IBM、微軟、谷歌等均在機器翻譯上起步較早，特別是IBM首先提出

了機器翻譯質(zhì)量測試規(guī)則BLUE。國內(nèi)主要有華為、騰訊、360、阿里、百度等龍

頭信息技術(shù)公司從事機器翻譯的服務(wù)提供和研究。相應(yīng)的，部分高校將機器翻譯

做為人工智能的一部分進(jìn)行科研分類，如復(fù)旦大學(xué)、東北大學(xué)、哈工大等。但是

機器翻譯質(zhì)量參差不齊，服務(wù)和交付的標(biāo)準(zhǔn)不一，如何以統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行科學(xué)、

有效、高效的機器翻譯質(zhì)量評價，成為一個關(guān)鍵任務(wù)。目前機器翻譯主要需求者

是大篇幅翻譯采購者，包括政府、公司等單位，相應(yīng)的質(zhì)量驗收標(biāo)準(zhǔn)在合同中約

定較為模糊，并由服務(wù)提供者自行編制，缺乏公信力。

因此，中國質(zhì)量協(xié)會和華為技術(shù)公司期望通過整合行業(yè)的力量（包含領(lǐng)先的

公司和專家學(xué)者）制定一個統(tǒng)一的機器翻譯質(zhì)量評估標(biāo)準(zhǔn)，用于機器翻譯質(zhì)量評

價的方法和指標(biāo)，從而提升評價的準(zhǔn)確度、覆蓋度和效率，在有效指導(dǎo)機器翻譯

質(zhì)量改進(jìn)的同時，提高行業(yè)的交付質(zhì)量和標(biāo)準(zhǔn)。

翻譯語向眾多，不同語系之間存在較大差異，本文件聚焦使用最為廣泛的中

英雙向機器翻譯的質(zhì)量評價，為其他語向機器翻譯的質(zhì)量評價提供有益借鑒。

3.機器翻譯服務(wù)質(zhì)量評價相關(guān)背景

《計算機科學(xué)技術(shù)名詞》(第三版)將“機器翻譯評價”定義為：人工或自動

評價機器翻譯系統(tǒng)譯文質(zhì)量的過程、技術(shù)和方法。質(zhì)量評價是機器翻譯研究必不

可少的環(huán)節(jié)，無論是模型優(yōu)化、上線、公司競標(biāo)等，都涉及機器翻譯質(zhì)量評價的

工作。

當(dāng)前業(yè)界主流的評價方法分為自動評價和人工評價。自動評價方法，則運

用特定算法和程序自動生成度量指標(biāo)，對比機器翻譯譯文和參考譯文，自動完

成整個評價過程。自動評價的優(yōu)點在于快速、高效、可復(fù)現(xiàn)。人工評價方法基

于評價人員的專業(yè)能力，對機器翻譯譯文進(jìn)行打分，準(zhǔn)確反映出翻譯的質(zhì)量。

因人是機器翻譯的最終用戶，所以人工評價更有說服力，可解釋性更強。這兩

種評價方法，在CCMT（中國最負(fù)盛名的機器翻譯學(xué)術(shù)研討組織，每年召開一

次，/mt/conference）及WMT（全球最負(fù)盛名的機器

翻譯學(xué)術(shù)研討組織，每年召開一次，/wmt）競

賽活動、及企業(yè)對機器翻譯質(zhì)量自評估活動中廣泛使用。

自動評價方法中，起草組選取了BLEU1和COMET2兩個具體指標(biāo)。BLEU指標(biāo)

被WMT和CCMT采納，COMET被WMT采納，用于評價每年參賽機器翻譯模型的質(zhì)

量優(yōu)劣。BLEU是一種簡單高效的統(tǒng)計評價方法，2002年提出后已成為當(dāng)前學(xué)術(shù)

界、業(yè)界首選的自動評價方法。其論文至今被引用了23000+次。COMET是近年

來基于神經(jīng)網(wǎng)絡(luò)技術(shù)的新評價指標(biāo)，于2020年提出。其論文至今已被引用

400+次。COMET算法更能衡量機器翻譯譯文與參考譯文的語義相似度，與人工

評價的相關(guān)性更高3。因自動評價方法對標(biāo)人工翻譯的參考譯文，參考譯文的優(yōu)

劣會影響指標(biāo)的準(zhǔn)確性。除此之外，測試集構(gòu)成的合理性也會影響評價結(jié)果，

起草組在標(biāo)準(zhǔn)內(nèi)已說明測試集構(gòu)建標(biāo)準(zhǔn)。

人工評價方法中我們選用了直接打分法，該方法簡單高效，是WMT從2016

年開始沿用至今的評測方法。評價人員的雙語水平會影響打分的客觀性。因

此，起草組在本團(tuán)體標(biāo)準(zhǔn)中，對評價人員的能力做了明確要求。除此之外，同

自動評價，測試集構(gòu)成的合理性也會影響評價結(jié)果的客觀性。

綜上，我們采用的評價指標(biāo)與WMT設(shè)置一致，符合業(yè)界主流的機器翻譯質(zhì)

量評價要求。

4.主要編制過程

1）建立標(biāo)準(zhǔn)起草組

1Papineni,Kishore,etal."Bleu:amethodforautomaticevaluationofmachinetranslation."Proceedingsofthe

40thannualmeetingoftheAssociationforComputationalLinguistics.2002.

2Rei,Ricardo,etal."COMET:AneuralframeworkforMTevaluation."arXivpreprintarXiv:2009.09025(2020).

3KonstantinSavenkovandMichelLopez.2022.TheStateoftheMachineTranslation2022.InProceedingsofthe

15thBiennialConferenceoftheAssociationforMachineTranslationintheAmericas(Volume2:Usersand

ProvidersTrackandGovernmentTrack),pages32–49,Orlando,USA.AssociationforMachineTranslationinthe

Americas.

2022年11月10日標(biāo)準(zhǔn)立項后，華為技術(shù)有限公司翻譯中心和中國質(zhì)量協(xié)

會組織國內(nèi)外機器翻譯專家、人工翻譯專家、大模型研究性院校和知名企業(yè)從業(yè)

人員代表組成標(biāo)準(zhǔn)起草工作組。起草組組長劉群，華為諾亞方舟實驗室主任，華

為語音語義首席科學(xué)家，國內(nèi)機器翻譯開創(chuàng)人之一；起草組副組長江燕飛，華為

翻譯中心主任。

起草組制定了項目里程碑計劃，分四個階段完成。

2）形成標(biāo)準(zhǔn)草案

2022年12月至2023年7月，標(biāo)準(zhǔn)起草組按照分工在華為內(nèi)部機器翻譯服

務(wù)質(zhì)量評價有關(guān)文件的基礎(chǔ)上進(jìn)行標(biāo)準(zhǔn)起草工作，在標(biāo)準(zhǔn)立項申報草案（華為內(nèi)

部機器翻譯服務(wù)質(zhì)量評價SOP）的基礎(chǔ)上形成各階段標(biāo)準(zhǔn)DIS稿。起草組組織召

開多次現(xiàn)場和在線討論會，對相應(yīng)技術(shù)內(nèi)容描述、開放源歸屬、驗證方法等進(jìn)行

討論。

2023年6月16日，在第三屆華為機器翻譯論壇期間，標(biāo)準(zhǔn)起草組進(jìn)行了線

下討論和各機器翻譯主要提供商的協(xié)商工作。

3）形成征求意見稿

2023年7月，針對后續(xù)標(biāo)準(zhǔn)應(yīng)用、測試集歸屬、防作弊等進(jìn)行了線下討論，

形成公開征求意見稿。

5．主要起草人及所做工作

本系列標(biāo)準(zhǔn)起草單位：中國質(zhì)量協(xié)會數(shù)字化分會，負(fù)責(zé)標(biāo)準(zhǔn)化技術(shù)要求、前

言、引言部分；華為技術(shù)有限公司，負(fù)責(zé)范圍、規(guī)范性引用文件、評價過程、質(zhì)

量評價和全文統(tǒng)稿和技術(shù)把關(guān)；南京大學(xué)和東北大學(xué)（小牛翻譯）負(fù)責(zé)術(shù)語和定

義；騰訊技術(shù)有限公司和北京字節(jié)跳動科技有限公司，負(fù)責(zé)評價方式；小米技術(shù)

有限公司，負(fù)責(zé)評價過程。

在標(biāo)準(zhǔn)編制過程中，還有華為技術(shù)有限公司其他技術(shù)團(tuán)隊和中國中文信息學(xué)

會定期舉辦的全國年度學(xué)術(shù)會議（CCMT）等專家參與意見。

二、編制原則和確定標(biāo)準(zhǔn)主要內(nèi)容的依據(jù)

1.編制原則

按照GB/T1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草

規(guī)則》的要求和規(guī)定編寫本文件內(nèi)容。

遵循標(biāo)準(zhǔn)的先進(jìn)性，系統(tǒng)性、可行性原則。

2.確定標(biāo)準(zhǔn)主要內(nèi)容依據(jù)

本文件參考GB/T19363.1—2022《翻譯服務(wù)第1部分：服務(wù)要求》、GB/T

19682—2005《翻譯服務(wù)譯文質(zhì)量要求》、GB/T19000—2016《質(zhì)量管理體系基

礎(chǔ)和術(shù)語》（idtISO9000：2015）標(biāo)準(zhǔn)。

參考各起草單位多年在大語言模型，文本生成的約束和推理，機器翻譯服

務(wù)應(yīng)用方面獲得的能力驗證做法、行業(yè)機器翻譯評價的研究成果，及在業(yè)界實

際應(yīng)用情況，本團(tuán)體標(biāo)準(zhǔn)提出人工評價和自動評價相結(jié)合，既采用最為可靠的

人工評價，又通過工具快速計算出機器翻譯與參考譯文的相似度，同時度量語

義相似性，實現(xiàn)科學(xué)、而準(zhǔn)確的機器翻譯的質(zhì)量評價。

三、主要試驗、驗證分析

本文件基于評價華為內(nèi)部機器翻譯服務(wù)質(zhì)量評價作業(yè)指導(dǎo)書和其他起草單

位服務(wù)提供需求收集及能力驗證，結(jié)合全國機器翻譯大會（CCMT）以及相應(yīng)國際

和國內(nèi)機器翻譯比賽有關(guān)裁判要求，以及我國中英文機器翻譯商務(wù)服務(wù)過程中實

際可行做法和經(jīng)驗，確保本文件規(guī)范性、科學(xué)性、適用性及先進(jìn)性。

本團(tuán)標(biāo)已設(shè)置自動評價定量指標(biāo)（詳見團(tuán)標(biāo)7.1.1），以及人工評價定量指

標(biāo)（詳見7.1.2）。自動評價準(zhǔn)入基線值取行業(yè)商用引擎的80分位，人工評價基

線取行業(yè)慣例80分。

我們采用的自動評價開發(fā)集來自WMT2022年的公開測試集，網(wǎng)絡(luò)可獲取，

內(nèi)容新，質(zhì)量高，認(rèn)可度高，2023年發(fā)表的眾多論文4567都采用了該測試集衡量機

器翻譯質(zhì)量。而自動評價方法BLEU和COMET,均已在Github上開源，可直接下

載工具進(jìn)行評價，因此自動評價方法可復(fù)制性和可行性很高。BLEU和COMET評

價方法的合理性在各起草單位自身工作質(zhì)量評價（內(nèi)測）和專業(yè)比賽中進(jìn)行了驗

證，也可參見論文8和論文9。人工評價方法采用簡單的直接打分制，我們在標(biāo)準(zhǔn)

中也給出了每個分?jǐn)?shù)段的錯誤描述和評價人員的能力要求，符合要求的評價人員

根據(jù)標(biāo)準(zhǔn)快速上手。經(jīng)過WMT2016-2022年的實踐，基于成本、效果等多方面考

4Raunak,Vikas,etal."LeveragingGPT-4forAutomaticTranslationPost-Editing."arXivpreprint

arXiv:2305.14878(2023).

5Raunak,Vikas,etal."DoGPTsProduceLessLiteralTranslations?."arXivpreprintarXiv:2305.16806(2023).

6Lo,Chi-Kiu,andRebeccaKnowles."DataSamplingand(In)stabilityinMachineTranslationEvaluation."

FindingsoftheAssociationforComputationalLinguistics:ACL2023.2023.

7Hendy,Amr,etal."Howgoodaregptmodelsatmachinetranslation?acomprehensiveevaluation."arXiv

preprintarXiv:2302.09210(2023).

8Papineni,Kishore,etal."Bleu:amethodforautomaticevaluationofmachinetranslation."Proceedingsofthe

40thannualmeetingoftheAssociationforComputationalLinguistics.2002.

9Rei,Ricardo,etal."COMET:AneuralframeworkforMTevaluation."arXivpreprintarXiv:2009.09025(2020).

慮，直接打分法是現(xiàn)在行業(yè)上最佳的人工評測方法。

評價成本、投入方面，主要涉及測試集的構(gòu)建、人工評價所需人力。其中測

試集的構(gòu)建成本主要包含數(shù)據(jù)抽取及人工翻譯出參考譯文，測試集構(gòu)建完成后，

不公開，可在同一領(lǐng)域內(nèi)多次復(fù)用，進(jìn)行某領(lǐng)域機器翻譯服務(wù)質(zhì)量評價；人工評

價需要專業(yè)人員對所涉及機器翻譯系統(tǒng)進(jìn)行打分，每次人工評價活動均產(chǎn)生新的

人員投入成本。具體成本可參考行業(yè)人工翻譯、審校成本。

綜上，團(tuán)體標(biāo)準(zhǔn)有關(guān)技術(shù)內(nèi)容和指標(biāo)設(shè)定符合機器翻譯目前國內(nèi)（中英文互

譯）的通用技術(shù)水平，

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》編制說明

文檔簡介

溫馨提示

最新文檔

評論

《機器翻譯服務(wù)質(zhì)量評價規(guī)范-中英雙向》編制說明

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔