詞匯與語(yǔ)料庫(kù)_第1頁(yè)
詞匯與語(yǔ)料庫(kù)_第2頁(yè)
詞匯與語(yǔ)料庫(kù)_第3頁(yè)
詞匯與語(yǔ)料庫(kù)_第4頁(yè)
詞匯與語(yǔ)料庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、Chapter 12 Chapter 12 語(yǔ)料庫(kù)語(yǔ)言學(xué)與英語(yǔ)詞匯研究語(yǔ)料庫(kù)語(yǔ)言學(xué)與英語(yǔ)詞匯研究高敏高敏20161208201114220161208201114212.2 12.2 語(yǔ)料庫(kù)與詞頻統(tǒng)計(jì)語(yǔ)料庫(kù)與詞頻統(tǒng)計(jì) 計(jì)算機(jī)生成語(yǔ)料庫(kù)可輸出的資料中重要的一項(xiàng)就是詞匯詞匯頻率表頻率表(word frequency list)。 詞頻表是指對(duì)語(yǔ)料庫(kù)中的詞匯使用頻率進(jìn)行列表,以確定語(yǔ)料庫(kù)中哪些詞匯和詞塊是常用的,而另外哪些詞匯和詞塊是相對(duì)比較少用的。 Wordsmith Tools和AntConc都具有生成單詞詞表和詞塊詞表的功能。 例如,Cambridge International Corpus

2、 (CIC)劍橋國(guó)際語(yǔ)料庫(kù)是一個(gè)收詞量超過(guò)10億的大型數(shù)據(jù)庫(kù),收集了多種權(quán)威口語(yǔ)和書面語(yǔ)口語(yǔ)和書面語(yǔ)語(yǔ)料資源。以33萬(wàn)個(gè)單詞為基礎(chǔ)生成的最常用50個(gè)詞匯。 詞頻統(tǒng)計(jì)的作用詞頻統(tǒng)計(jì)的作用 通過(guò)以上詞頻統(tǒng)計(jì)發(fā)現(xiàn):書面語(yǔ)詞頻表主要由功能詞(function words)組成,如代詞、限定詞、介詞、助動(dòng)詞、情態(tài)動(dòng)詞、連詞等,而口語(yǔ)詞頻表里面包含不少的實(shí)義詞,如know、well、got、think、right等。正如普通預(yù)想那樣,功能詞在兩個(gè)詞頻表中都占據(jù)多數(shù)。 詞頻表除了可以排列高頻詞的次序,還可以統(tǒng)計(jì)詞匯出現(xiàn)的次數(shù)、所占百分比、具體位置等。 例如,以歷任美國(guó)總統(tǒng)就職演說(shuō)為語(yǔ)料(總詞數(shù)133399)

3、所做詞頻表。 Wordsmith Tools所做為單詞詞表,AntConc所做為詞塊詞表。應(yīng)用應(yīng)用:詞語(yǔ)出現(xiàn)的頻率信息已經(jīng)開始出現(xiàn)在詞典中。例如,Longman Dictionary of Contemporary English(1995)標(biāo)注了一個(gè)詞是否屬于最常用的1000、2000或3000口語(yǔ)詞和書面語(yǔ)詞。頻率信息不光限于詞的形式,對(duì)于一個(gè)詞的不同意義的頻率也可以進(jìn)行統(tǒng)計(jì)分析,語(yǔ)料庫(kù)為詞典編撰提供意義頻度也只是一個(gè)時(shí)間問題了。12.3 12.3 語(yǔ)料庫(kù)與詞匯語(yǔ)義研究語(yǔ)料庫(kù)與詞匯語(yǔ)義研究 語(yǔ)料庫(kù)索引可以提供詞匯用法和意義的真實(shí)信息,通過(guò)索引,學(xué)習(xí)者可以體驗(yàn)詞匯或短語(yǔ)在不同語(yǔ)境語(yǔ)境中的確切

4、使用,以增加感性認(rèn)識(shí)。語(yǔ)料庫(kù)索引可給同義詞群提供豐富的用法和語(yǔ)境,使學(xué)習(xí)者能夠比較和掌握同義詞之間細(xì)微的語(yǔ)義、語(yǔ)用差異。 詞語(yǔ)檢索是對(duì)一個(gè)搜索項(xiàng)進(jìn)行檢索獲得的列表,把搜索詞或詞組按字母或頻率順序排列與其所在語(yǔ)境一同展示。詞語(yǔ)索引最常見的形式稱作KWIC(key words in context),即“語(yǔ)境中的關(guān)鍵詞”。以關(guān)鍵詞為中心,左右顯示的詞數(shù)構(gòu)成了該詞的跨距(word span)??缇嘀械脑~構(gòu)成了關(guān)鍵詞的微型語(yǔ)境微型語(yǔ)境。 下表顯示的是從British National Corpus (BNC)截取的帶有horde和people的詞匯索引:近義詞近義詞between vs. throug

5、h Kennedy(1991:95-110)運(yùn)用OCP檢索軟件在100萬(wàn)詞的LOB語(yǔ)料庫(kù)上對(duì)英語(yǔ)學(xué)習(xí)者常不易分辨的兩個(gè)介詞between vs. through進(jìn)行了檢索和分析。between左鄰搭配詞中的名詞比例大大超過(guò)through,而through左鄰搭配詞中的動(dòng)詞頻率卻大大超過(guò)between。between之后的名詞多為復(fù)數(shù)形式或者是由and組成的名詞短語(yǔ),如person and person, place and place, date and date等,而through后面的名詞多為單數(shù),如the window, her mind, the door, the house等。短語(yǔ)

6、的不同語(yǔ)義功能:1) between+noun/nouns的短語(yǔ)通常表示“地點(diǎn)、移動(dòng)、時(shí)間、分割、共享等意義”; 2) through+noun/nouns的短語(yǔ)通常表示“自由移動(dòng)、穿越障礙、對(duì)障礙的感知、時(shí)間、實(shí)施媒介工具關(guān)系、因果關(guān)系”。最常用的搭配詞:between的location功能中比較常見的名詞有channel,gap,space等,在through的unimpeded motion功能中較常見的動(dòng)詞有g(shù)o,pass,move等。 詞頻:詞頻:丁?。?008)。基于語(yǔ)料庫(kù)的美國(guó)總統(tǒng)就職演說(shuō)研究。天津外國(guó)語(yǔ)學(xué)報(bào),15,25-31。 以1933年至2005年19篇美國(guó)總統(tǒng)就職演說(shuō)為語(yǔ)

7、料,統(tǒng)計(jì)高頻人稱代詞:we使用頻率為889次, 占總單詞的2.61%;I的使用頻率為202次, 占0.59%。第二人稱代詞的使用頻率為88次, 占0.26%;第三人稱代詞的使用頻率為216 次, 占0.64%。第一人稱代詞的使用占絕對(duì)多數(shù), 為3.2%, 其次是第三人稱代詞, 第二人稱代詞則使用較少。 分析為什么第一人稱代詞,尤其we使用最多,而第三人稱、第二人稱代詞使用較少。探討了公眾演講人稱代詞使用技巧。 詞塊、語(yǔ)境詞塊、語(yǔ)境:羅建平(2011)。國(guó)總統(tǒng)就職演講主題詞的語(yǔ)料庫(kù)分析。浙江外國(guó)語(yǔ)學(xué)院學(xué)報(bào),5,46-50。 早期演講使用station、methods 等詞較多,后來(lái)的意義和用法發(fā)

8、生了變化?,F(xiàn)代英語(yǔ)station 是車站的意思,而早期演講指的是職務(wù)、職位等意思,如: for the station in which I am placed( 第1 任華盛頓) ,to be elected to a station( 第2 任亞當(dāng)斯) , to retire from this station( 第3 任杰弗遜) , for official station( 第14 任皮爾斯) 。到艾森豪威爾以后station 不再出現(xiàn),被position 取代。 至于methods( 和method) ,南北戰(zhàn)爭(zhēng)后頻繁使用,如: the only sure method of returning( 第18 任格蘭特) ,to seek public office by proper methods( 第2

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論