![蘭開(kāi)斯特漢語(yǔ)語(yǔ)料庫(kù)介紹_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/14/1e462885-31cb-4184-9e1c-6f9e7e427256/1e462885-31cb-4184-9e1c-6f9e7e4272561.gif)
![蘭開(kāi)斯特漢語(yǔ)語(yǔ)料庫(kù)介紹_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/14/1e462885-31cb-4184-9e1c-6f9e7e427256/1e462885-31cb-4184-9e1c-6f9e7e4272562.gif)
![蘭開(kāi)斯特漢語(yǔ)語(yǔ)料庫(kù)介紹_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/14/1e462885-31cb-4184-9e1c-6f9e7e427256/1e462885-31cb-4184-9e1c-6f9e7e4272563.gif)
![蘭開(kāi)斯特漢語(yǔ)語(yǔ)料庫(kù)介紹_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-1/14/1e462885-31cb-4184-9e1c-6f9e7e427256/1e462885-31cb-4184-9e1c-6f9e7e4272564.gif)
下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、(載中國(guó)英語(yǔ)教育2007年第3期。)“蘭卡斯特漢語(yǔ)語(yǔ)料庫(kù)”介紹 本研究為北京外國(guó)語(yǔ)大學(xué)校級(jí)課題(06012)“基于語(yǔ)料庫(kù)的話語(yǔ)研究”的部分成果。感謝肖忠華博士提供LCMC語(yǔ)料庫(kù)及相關(guān)資料。許家金(北京外國(guó)語(yǔ)大學(xué) 中國(guó)外語(yǔ)教育研究中心,北京 100089,北京)提要:本文介紹“蘭卡斯特漢語(yǔ)語(yǔ)料庫(kù)”(簡(jiǎn)稱LCMC)的取樣方案、文本構(gòu)成、標(biāo)注體系和應(yīng)用方面的概況。該語(yǔ)料庫(kù)是依照英國(guó)英語(yǔ)語(yǔ)料庫(kù)FLOB的取樣方案和規(guī)模創(chuàng)建的可比漢語(yǔ)語(yǔ)料庫(kù),適合開(kāi)展英、漢語(yǔ)對(duì)比研究,同時(shí)也適合漢語(yǔ)研究。關(guān)鍵詞:漢語(yǔ)語(yǔ)料庫(kù);LCMC;對(duì)比研究1.0 前言“蘭卡斯特漢語(yǔ)語(yǔ)料庫(kù)”(The Lancaster Corpus of
2、 Mandarin Chinese,簡(jiǎn)稱LCMC)系旅英學(xué)者肖忠華博士創(chuàng)建的現(xiàn)代漢語(yǔ)平衡語(yǔ)料庫(kù)。該語(yǔ)料庫(kù)嚴(yán)格按照FLOB(Freiburg-LOB Corpus of British English)模式編制,它的建成有助于開(kāi)展基于語(yǔ)料庫(kù)的漢語(yǔ)單語(yǔ)或漢英(英漢)雙語(yǔ)對(duì)比研究及漢語(yǔ)研究。2.0 LCMC語(yǔ)料庫(kù)概況LCMC語(yǔ)料庫(kù)是一個(gè)100萬(wàn)詞次(按每1.6個(gè)漢字對(duì)應(yīng)一個(gè)英文單詞折算)的現(xiàn)代漢語(yǔ)書(shū)面語(yǔ)通用型平衡語(yǔ)料庫(kù)。起先建立時(shí),它是作為英國(guó)經(jīng)社研究委員會(huì)資助項(xiàng)目Contrasting Tense and Aspect in English and Chinese的部分成果。肖忠華最初的設(shè)想是要將
3、其建成同F(xiàn)LOB和FROWN對(duì)應(yīng)的現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)?;I建這樣的一個(gè)語(yǔ)料庫(kù)的另一個(gè)動(dòng)因是:盡管已經(jīng)有很多漢語(yǔ)語(yǔ)料庫(kù)存在,但卻沒(méi)有一個(gè)完全免費(fèi)對(duì)公眾開(kāi)放的平衡的漢語(yǔ)語(yǔ)料庫(kù) “國(guó)家語(yǔ)委語(yǔ)料庫(kù)(13:8080/CpsQrySv.srf)”雖說(shuō)是通用型平衡語(yǔ)料庫(kù),但不能完全免費(fèi)使用;北京語(yǔ)言大學(xué)的漢語(yǔ)語(yǔ)料庫(kù)()語(yǔ)料產(chǎn)出時(shí)間較早,且不能完全免費(fèi)使用;北京大學(xué)漢語(yǔ)語(yǔ)言學(xué)研究中心語(yǔ)料庫(kù)(現(xiàn)代漢語(yǔ)子庫(kù))”( Corpus也是可免費(fèi)使用的平衡漢語(yǔ)語(yǔ)料庫(kù)。但是它只能代表臺(tái)灣地區(qū)的漢語(yǔ),無(wú)法反映中國(guó)大陸的漢語(yǔ)狀況。詳情可訪問(wèn)Sinica Corp
4、us官方網(wǎng)站.tw/ftms-bin/kiwi.sh。2.1 取樣模式與文本收集考慮到LCMC主要做對(duì)比研究之用,肖忠華創(chuàng)建語(yǔ)料庫(kù)之初就確定了對(duì)比的對(duì)象。一方面,在短期內(nèi)想要建成像BNC那樣的逾億詞次的語(yǔ)料庫(kù)并不現(xiàn)實(shí)。另一方面,要建立同LOB和Brown平行的語(yǔ)料庫(kù)的問(wèn)題在于很難找到1961年前后材料的電子文本。于是,最后對(duì)比目標(biāo)被鎖定在語(yǔ)料出版年份主要是1991、1992年的100萬(wàn)詞次的FLOB上。鑒于同時(shí)還有與FLOB對(duì)應(yīng)的美國(guó)英語(yǔ)語(yǔ)料庫(kù)Frown的存在,LCMC建成以后也可與美國(guó)英語(yǔ)進(jìn)行比較。最后,確定下來(lái)的方案是按FLOB的構(gòu)建模式,從15個(gè)文
5、體類型(見(jiàn)表1)中選取500篇2,000詞左右的樣本。樣本的出版日期基本在1991年前后。LCMC的籌建基本上是嚴(yán)格按照FLOB的取樣模式進(jìn)行,只在兩個(gè)方面做了微調(diào)。第一、FLOB的取樣范疇中,肖忠華將FLOB中第N類樣本的“西部和歷險(xiǎn)小說(shuō)”改成“武俠小說(shuō)”。一方面由于中國(guó)沒(méi)有所謂的“西部小說(shuō)”,另一方面,“武俠小說(shuō)”和“西部和歷險(xiǎn)小說(shuō)”從內(nèi)容性質(zhì)上同屬一類,且在中國(guó)這一類小說(shuō)中數(shù)量眾多,因此有充足理由將其收入LCMC中。表1:LCMC取樣范疇表代碼取樣類型代碼取樣類型A新聞報(bào)道J學(xué)術(shù)、科技B社論K一般小說(shuō)C新聞評(píng)論L偵探小說(shuō)D宗教M科幻小說(shuō)E技術(shù)、商貿(mào)N武俠小說(shuō)F通俗社會(huì)生活P愛(ài)情小說(shuō)G傳記
6、和雜文R幽默H其他:報(bào)告和公文等第二、由于受到文本來(lái)源的制約,肖忠華將樣本的出版年代擴(kuò)大至1991年前后各兩年(即1989到1993年)的跨度范圍(詳見(jiàn)表2)。他認(rèn)為前后兩年的幅度并不會(huì)影響整個(gè)語(yǔ)料的同質(zhì)性。為保證取樣內(nèi)容的同質(zhì)性,LCMC中選取的都是中國(guó)大陸的出版物。該語(yǔ)料庫(kù)是書(shū)面語(yǔ)語(yǔ)料庫(kù),選取文本時(shí)碰到圖表一般使用<gap>替代。為了保證所選文字是原汁原味的漢語(yǔ),如果在選文中遇到較長(zhǎng)的譯文或不是1989到1992年期間的引文,也采用<gap>來(lái)替代,以避免翻譯腔和時(shí)間跨度上的不一致。LCMC中的電子文本除了部分取自互聯(lián)網(wǎng),其他大部分語(yǔ)料取自超星圖書(shū)館()。肖忠華將超
7、星圖書(shū)館提供的PDG格式的電子文本經(jīng)過(guò)OCR識(shí)別后轉(zhuǎn)換成文本文件,由此產(chǎn)生的1-3%的識(shí)別錯(cuò)誤率再加以人工校對(duì)。超星圖書(shū)館是一個(gè)巨大的數(shù)字圖書(shū)館,但少有新聞報(bào)刊,因此,LCMC中新聞文體有三分之一的內(nèi)容用的是新華社新聞(取自Guo Jin編寫的PH PH語(yǔ)料庫(kù)包含的是1990年1月至1991年3月新華社出版的新聞。該語(yǔ)料庫(kù)規(guī)模為3,260,416字。通過(guò)ftp:/ftp.cogsci.ed.ac.uk/pub/chinese/可獲得該語(yǔ)料庫(kù)。語(yǔ)料庫(kù))。表2:LCMC的取樣時(shí)間跨度取樣類型19891990199119921993A22.7%72.7%2.3%2.3%B7.4%14.8%51.9%
8、3.70%22.2%C5.9%88.2%5.9%D5.9%17.6%41.2%11.8%23.5%E23.7%44.7%10.5%21.1%F6.8%25%29.513.6%25%G1.3%10.4%64.9%16.9%6.5%H100%J1.2%7.5%72.5%17.5%1.3%K79.3%13.8%6.9%L8.3%62.5%16.7%12.5%M100%N3.4%13.8%48.3%31.1%3.4%P10.3%6.9%55.2%20.7%6.9%R44.4%22.2%33.3%在計(jì)算LCMC語(yǔ)料庫(kù)的規(guī)模時(shí),經(jīng)測(cè)算,采用了1漢字:1英文單詞 = 1:1.6的計(jì)算方法。于是將FLOB的2
9、,000字的樣本大小折合成每個(gè)文本3,200個(gè)漢字。當(dāng)所選文本長(zhǎng)度不足3,200漢字時(shí),則選取同一類型的其他文本補(bǔ)足。如果超過(guò)3,200字(比如一本書(shū))則選取開(kāi)頭、中間、結(jié)尾湊足3,200字。在樣本的最末處,為保證句子的完整而不將句子人為切斷,因而樣本會(huì)比3,200字略多或略少。2.2 編碼和標(biāo)注(mark-up)方式LCMC采用Unicode (UTF-8)而沒(méi)有采用簡(jiǎn)體中文的GB2312和繁體中文的Big5編碼,原因有二:1、為保證與非中文操作系統(tǒng)和其他中文編碼形式的兼容性;2、這樣的話語(yǔ)料可以為一些通用索引軟件(像Xaira、WordSmith Tools 使用時(shí)需轉(zhuǎn)換成UTF-16。、
10、AntConc等)讀取。為了給非英語(yǔ)操作系統(tǒng)用戶避免讀取困難,肖忠華特意制作了完整的拼音版LCMC(也采取UTF-8編碼),與漢字版LCMC同時(shí)推出。漢字版和拼音版的LCMC中的15個(gè)文本類型分別存為一個(gè)單獨(dú)的文件并采取XML格式存儲(chǔ)。每個(gè)文件包括一個(gè)頭文件和文本本身。文本采取了五重標(biāo)注。見(jiàn)表3。表3:文本的XML標(biāo)注標(biāo)注層代碼代碼意義屬性含義1text文本類型TYPE根據(jù)表1的取樣范疇I(yíng)D根據(jù)表1的取樣代碼2file語(yǔ)料庫(kù)中的位置ID取樣代碼加上文本編號(hào)(從01開(kāi)始)3p段落4s句子n從0001算起5w單詞POS依據(jù)LCMC標(biāo)注集的語(yǔ)法標(biāo)注c標(biāo)點(diǎn)或其他符號(hào)gap省略這樣分層標(biāo)注以后,非常有利
11、于用戶在檢索時(shí)選擇整個(gè)語(yǔ)料庫(kù)或者一個(gè)子庫(kù)甚至某個(gè)文件進(jìn)行分析。詞性標(biāo)注(POS tagging)可以幫助檢索某些漢字的特定詞性的使用情況。利用詞性代碼的組合還可以檢索特定的語(yǔ)法結(jié)構(gòu),比如動(dòng)賓結(jié)構(gòu)。2.3 語(yǔ)料深加工對(duì)于LCMC語(yǔ)料庫(kù),肖忠華還做了兩重處理:即所有樣本文句都依詞斷開(kāi)(tokenization,這是成熟漢語(yǔ)語(yǔ)料庫(kù)必需的工作)并標(biāo)注詞性(見(jiàn)圖1)。對(duì)于漢語(yǔ)文本來(lái)說(shuō)切分至關(guān)重要,因?yàn)闈h語(yǔ)沒(méi)有類似英文的空格作為單詞分隔符。LCMC所采用的自動(dòng)切分工具是由中科院計(jì)算所開(kāi)發(fā)的“漢語(yǔ)詞匯分析系統(tǒng)”(ICTCLAS)。這一系統(tǒng)的核心是由一個(gè)有詞性和詞頻信息的8萬(wàn)字的詞庫(kù)。這一系統(tǒng)是基于最大匹配的
12、計(jì)算方法,包含漢字切分、詞性標(biāo)注和未登錄詞的識(shí)別等模塊。切分正確率可以達(dá)到97.58%。但這一系統(tǒng)對(duì)詞性的標(biāo)注卻不夠精準(zhǔn)。比如說(shuō)它無(wú)法區(qū)分介詞“在”和表示體態(tài)的“在”。于是最后肖忠華對(duì)語(yǔ)料進(jìn)行了大量的手工校對(duì),詞性標(biāo)注正確率基本可以達(dá)到98%以上。因?yàn)橐芯繚h語(yǔ)并對(duì)比漢英的時(shí)體標(biāo)記,肖忠華對(duì)“了”、“過(guò)”、“著”、“在”進(jìn)行了細(xì)致的校對(duì)。最后完成的語(yǔ)料全部保存為XML格式文件。<p><s n="0005"> <w POS="v">淡泊</w> <w POS="a">灑脫<
13、;/w> <c POS="w">:</c> <w POS="v">笑</w> <w POS="p">對(duì)</w> <w POS="n">人生</w> <w POS="v">便是</w> <w POS="v">淡泊</w> <w POS="u">的</w> <w POS="
14、vn">表現(xiàn)</w> <c POS="w">,</c> <w POS="v">淡泊</w> <w POS="a">灑脫</w> <w POS="v">能</w> <w POS="v">拓展</w> <w POS="m">一</w> <w POS="q">片</w>
15、 <w POS="a">寬松</w> <w POS="a">美好</w> <w POS="u">的</w> <w POS="n">天地</w> <c POS="w">,</c> <w POS="v">使</w> <w POS="n">人</w> <w POS="p"
16、>在</w> <w POS="v">開(kāi)放</w> <w POS="u">的</w> <w POS="n">田園</w> <w POS="f">里</w> <w POS="v">找</w> <w POS="a">準(zhǔn)</w> <w POS="r">自己</w> <w PO
17、S="u">的</w> <w POS="n">位置</w> <c POS="w">,</c> <w POS="v">使</w> <w POS="r">自己</w> <w POS="p">與</w> <w POS="n">同事</w> <w POS="ad">愉快&l
18、t;/w> <w POS="v">相處</w> <c POS="ew">。</c> </s></p>圖1: LCMC段落標(biāo)注示例LCMC語(yǔ)料庫(kù)要求用戶有可讀取XML的檢索工具像Xaira。在WordSmith Tools 4.0/5.0和AntConc隱藏或忽略標(biāo)注碼也可用于檢索LCMC。該語(yǔ)料庫(kù)完全免費(fèi)提供,在線檢索網(wǎng)址為:。網(wǎng)站上提供了全庫(kù)檢索和分語(yǔ)體檢索方式。后者可用于進(jìn)行語(yǔ)體變異的對(duì)比研究。3.0 相關(guān)研究成果自從語(yǔ)料庫(kù)建成以來(lái),利用LCMC進(jìn)行的研究產(chǎn)出了一系列研究成
19、果,包括肖忠華本人進(jìn)行的漢語(yǔ)單語(yǔ)研究,如Xiao & McEnery(2004)有關(guān)漢語(yǔ)體標(biāo)記的研究。和英漢對(duì)比研究,如英漢體標(biāo)記對(duì)比研究(McEnery, Xiao & Mo 2003;Xiao 2003),以及英漢否定對(duì)比研究(Xiao, McEnery & Qian 2006)。其他學(xué)者將LCMC作為漢語(yǔ)書(shū)面語(yǔ)參照語(yǔ)料的研究有胡顯耀(2007)和許家金(2008)等。4.0 語(yǔ)料的局限LCMC的語(yǔ)料規(guī)模和取樣方法屬于百萬(wàn)詞級(jí)的“布朗家族”(Brown family),現(xiàn)在看來(lái)規(guī)模仍然太小。對(duì)研究漢語(yǔ)中的高頻語(yǔ)言現(xiàn)象(比如,“的”字結(jié)構(gòu)、時(shí)體標(biāo)記、否定詞、指示詞等)
20、尚能適用;對(duì)相對(duì)不常見(jiàn)的語(yǔ)言現(xiàn)象(如漢語(yǔ)中動(dòng)結(jié)構(gòu))則幾乎檢索不到結(jié)果。另外,就LCMC中語(yǔ)料產(chǎn)生的時(shí)間來(lái)看,都在1991年前后,距今已過(guò)去16年多,很多新詞(短信、博客等)及新的用法其中也無(wú)法查到。因此在開(kāi)展研究之前我們應(yīng)當(dāng)認(rèn)識(shí)到語(yǔ)料自身的局限。參考文獻(xiàn)1 McEnery, A. & Z. Xiao. Lancaster Corpus of Mandarin Chinese. Published by the European Language Resources Association (Catalogue No. W0039) and the Oxford Text Archive
21、 (Catalogue No. 2474) DB/OL, 2003.2 McEnery, A., Z. Xiao & L. Mo. Aspect marking in English and Chinese: Using the Lancaster Corpus of Mandarin Chinese for contrastive language study J. Literary and Linguistic Computing, 2003(4): 361-378.3 Xiao, Z. Use of parallel and comparable corpora in language stud
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑工程施工合同合同風(fēng)險(xiǎn)預(yù)警與防范措施協(xié)議
- 2025年中國(guó)兩性霉素B行業(yè)市場(chǎng)全景監(jiān)測(cè)及投資策略研究報(bào)告
- 上海bim合同范本
- 農(nóng)場(chǎng)自建旅館合同范本
- 代理退稅合同范本
- 2025年度高新技術(shù)產(chǎn)業(yè)公司總經(jīng)理專項(xiàng)聘用合同
- 養(yǎng)殖競(jìng)標(biāo)合同范本
- 駕校教練車承包合同范本
- 2025年陶瓷化工填料項(xiàng)目可行性研究報(bào)告
- 第一章:公共政策理論模型
- 中藥審核處方的內(nèi)容(二)
- (完整)金正昆商務(wù)禮儀答案
- RB/T 101-2013能源管理體系電子信息企業(yè)認(rèn)證要求
- GB/T 10205-2009磷酸一銨、磷酸二銨
- 公司財(cái)務(wù)制度及流程
- 高支模專項(xiàng)施工方案(專家論證)
- 《物流與供應(yīng)鏈管理-新商業(yè)、新鏈接、新物流》配套教學(xué)課件
- 房地產(chǎn)標(biāo)準(zhǔn)踩盤表格模板
- 物聯(lián)網(wǎng)項(xiàng)目實(shí)施進(jìn)度計(jì)劃表
- MDD指令附錄一 基本要求檢查表2013版
評(píng)論
0/150
提交評(píng)論