語料庫的創(chuàng)建與應(yīng)用-課件_第1頁
語料庫的創(chuàng)建與應(yīng)用-課件_第2頁
語料庫的創(chuàng)建與應(yīng)用-課件_第3頁
語料庫的創(chuàng)建與應(yīng)用-課件_第4頁
語料庫的創(chuàng)建與應(yīng)用-課件_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

語料庫的創(chuàng)建與應(yīng)用管新潮上海交通大學(xué)外國語學(xué)院2016-11-231)語料庫類型2)語料選取原則與操作標準3)語料庫規(guī)模4)語料句對齊標準5)語料庫的制作6)數(shù)據(jù)挖掘7)翻譯教學(xué)8)翻譯研究9)語料的版權(quán)10)語料的質(zhì)量11)語料庫與翻譯創(chuàng)造力12)語料庫的應(yīng)用1)語料庫類型平行語料庫:源語文本+目的語文本雙語平行語料庫:英語+漢語或德語+漢語多語平行語料庫:兩種以上語言雙向平行語料庫:英漢+漢英單向平行語料庫:英漢或漢英1)語料庫類型可比語料庫:語料具有可比性單語可比語料庫:翻譯文本+原創(chuàng)文本(政府工作報告英文版+美國國情咨文)雙語可比語料庫:無翻譯關(guān)系的雙語文本(德國有限責(zé)任公司法和中華人民共和國公司法——術(shù)語)語料可比性1)語料庫類型翻譯語料庫:翻譯文本口語語料庫:標注?(蒙特雷)2)語料選取原則與操作標準代表性或影響力原則可及性原則時間原則(胡開寶,2011:45-46)質(zhì)量原則專業(yè)分類原則2)語料選取原則與操作標準①原文與譯文呈一一對應(yīng)關(guān)系;②原文應(yīng)具備一定的文筆表現(xiàn)力;③譯文應(yīng)符合所在國的閱讀習(xí)慣和表述要求,同樣具備一定的文筆表現(xiàn)力,而且該譯文是經(jīng)過認可的;④按專題模塊匯集語料,使語料文本具有同質(zhì)性;⑤選用具有代表性的語料文本;⑥所選用的每一篇語料文本都是一個完整的單元。2)語料選取原則與操作標準例如:英漢醫(yī)學(xué)平行語料庫以圖書、論文、報告為主,專業(yè)方向涉及微生物學(xué)、生物化學(xué)、解剖學(xué)、病理學(xué)、藥理學(xué)、臨床診斷學(xué)、內(nèi)科學(xué)、外科學(xué)、婦產(chǎn)科學(xué)、兒科學(xué)、眼科學(xué)、耳鼻咽喉科學(xué)、口腔醫(yī)學(xué)、皮膚病學(xué)、神經(jīng)病學(xué)、精神病學(xué)、感染病學(xué)等。3)語料庫規(guī)模BNC(BritischNationalCorpus):超1億詞COCA(CorpusofContemporaryAmericanEnglish):4.5億詞DWDS(

DasDigitaleW?rterbuchderdeutschenSprache):25億詞3)語料庫規(guī)模北外漢英對應(yīng)語料庫:3000萬字詞中國法律法規(guī)漢英平行語料庫:2200萬字詞莎士比亞戲劇英漢平行語料庫:600萬字詞英漢醫(yī)學(xué)平行語料庫:1000萬字詞英漢科普平行語料庫(郭鴻杰):1000萬字詞中國英漢平行語料庫(王克非):1億字詞3)語料庫規(guī)模應(yīng)用于翻譯實踐的語料庫規(guī)模究竟要多大?4)語料句對齊標準學(xué)術(shù)研究翻譯實踐句子單位4)語料句對齊標準英文原文與中文譯文的句子對齊以一一對應(yīng)為主,但也允許語句一對多或多對一等情況的存在。一般以句號、分號、問號等為分句標記,但總有例外情形存在。這里最為重要的是,必須考慮到英文在句法邏輯上是一個完整的單元,中文語句與之相應(yīng)匹配。5)語料庫的制作WORDPDF紙質(zhì)版其他格式5)語料庫的制作語料的降噪處理:公式、表格、圖片“純”文本5)語料庫的制作對齊工具:WinAlignParaConcAbbyyAligner等等自行開發(fā)TMX-ParaConV5)語料庫的制作保存格式:例如TMX,TXT目的在于多用途5)語料庫的制作TM庫的制作:1)Word格式(WinAlign,AbbyyAligner)2)Xliff格式(新建記憶庫、更新記憶庫等)3)Excel格式(2007版或之前版本,2009版或之后版本)——TMXEditor5)語料庫的制作5)語料庫的制作制作語料庫的有效方式:ABBYYAligner+自編軟件+ParaConc等6)數(shù)據(jù)挖掘使用英文或漢語(須經(jīng)切分)單語導(dǎo)入WordSmith或AntConc進行詞頻排序進入雙語界面進行檢索查詢:ParaConc或Trados記憶庫界面6)數(shù)據(jù)挖掘6)數(shù)據(jù)挖掘?qū)I(yè)通用詞(GeneralWordsforSpecificPurposes)法律(action,award,damage)醫(yī)學(xué)(normal,management)海洋工程(high,sea)6)數(shù)據(jù)挖掘Article

14Anti-DumpingActiononBehalfofaThirdCountry第14條代表第三國的反傾銷訴訟(action=lawsuit)Hewasawarded$500damagesforinjuryhesufferedintheaccident.(award非“獎勵”,是“法定裁定”)(damage非“損壞”,是“賠償金”)6)數(shù)據(jù)挖掘Liverfunctiontestsgavenormalresults.肝功能檢驗均無異常發(fā)現(xiàn)。normalsaline生理鹽水6)數(shù)據(jù)挖掘Diseasemanagementisanapproachtocoordinateresourcesacrossthehealthcare.疾病管理是一種協(xié)調(diào)醫(yī)療衛(wèi)生系統(tǒng)資源的手段。Themortalityrateofpatientswithnochangeintheirantibioticmanagement抗生素治療未改變的患者死亡率6)數(shù)據(jù)挖掘ThelegalstatusofthewatersbeyondtheterritorialseasofStatesborderingstraitsasexclusiveeconomiczonesorhighseas海峽沿岸國領(lǐng)海以外的水域作為專屬經(jīng)濟區(qū)或公海的法律地位inhighseastatescanleadtolow-cyclefatigueinthepipe在狂浪海況下可導(dǎo)致管道產(chǎn)生低周期的疲勞應(yīng)力7)翻譯教學(xué)一、自主學(xué)習(xí):工具:WordSmith,ParaConc,Trados記憶庫語料庫:英漢雙向法律平行語料庫7)翻譯教學(xué)二、翻譯質(zhì)量控制1.72術(shù)語確認和檢索搭配檢索7)翻譯教學(xué)三、譯文文筆翻譯能力法律=醫(yī)學(xué)=海洋工程適應(yīng)面語料庫庫容8)翻譯研究語料庫翻譯學(xué)定義(胡開寶,2011):以語料庫為基礎(chǔ),以真實的雙語語料和翻譯語料為研究對象,以數(shù)據(jù)統(tǒng)計和理論分析為研究方法,依據(jù)語言學(xué)、文學(xué)和文化理論及翻譯學(xué)理論,系統(tǒng)分析翻譯本質(zhì)、翻譯過程和翻譯現(xiàn)象等內(nèi)容的研究8)翻譯研究翻譯共性:普遍性特征譯者風(fēng)格:譯者在語言應(yīng)用上所表現(xiàn)出的特體特征翻譯規(guī)范:譯者在選擇翻譯策略時應(yīng)遵循的規(guī)范8)翻譯研究例如,顯化與隱化顯化是翻譯文本將源。語文本中隱含的信息或表述不清晰的信息以明確的表述表達出來,以方便讀者理解。隱化是指源語文本中以詞匯手段明示的意義或信息在目的語文本中隱含于具體語境中。形式化程度高的語言翻譯成形式化程度較低的語言時,隱化趨勢遞增。8)翻譯研究翻譯實踐研究9)語料的版權(quán)用于研究的語料例如,香港城市大學(xué)用于公開發(fā)布的語料公司語料10)語料的質(zhì)量出版級別語料機器翻譯語料網(wǎng)絡(luò)爬蟲語料10)語料的質(zhì)量好翻譯的定義:譯文完全轉(zhuǎn)化了原文的含義、表述簡潔、易于理解,符合譯文所屬特定領(lǐng)域的要求以及語言文化方面的習(xí)慣表述要求,同時資深譯員在譯文校訂以及專業(yè)審讀在譯文審讀時都認為譯文已無需任何修改。11)語料庫與翻譯創(chuàng)造力KirstenMalmkj?r《語料庫與譯者培養(yǎng)》外研社200711)語料庫與翻譯創(chuàng)造力語料庫的使用關(guān)鍵在譯者語料庫質(zhì)量水平翻譯項目委托的各種苛刻要求根據(jù)不同的文體來對待翻譯實踐譯創(chuàng)(transcreation)12)語料庫的應(yīng)用Collins出版社語料庫證據(jù)在美國的法庭應(yīng)用JDEST學(xué)術(shù)英語語料庫航天局學(xué)生自學(xué)習(xí)“海洋工程圖書系列”翻譯等等翻譯能力+語料庫=樂趣和享受謝謝大家!1、字體安裝與設(shè)置如果您對PPT模板中的字體風(fēng)格不滿意,可進行批量替換,一次性更改各頁面字體。在“開始”選項卡中,點擊“替換”按鈕右側(cè)箭頭,選擇“替換字體”。(如下圖)在圖“替換”下拉列表中選擇要更改字體。(如下圖)在“替換為”下拉列表中選擇替換字體。點擊

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論