




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、3.5語料庫常用統(tǒng)計(jì)方法第3章前幾節(jié)對(duì)語料庫應(yīng)用中的幾種主要技術(shù)做了介紹。通過語料檢索、詞表和主題詞 表的生成,可以得到一定數(shù)量的句子、詞匯或結(jié)構(gòu)。為能更好說明所得到的結(jié)果的真正意義, 常常需要對(duì)它們加以統(tǒng)計(jì)學(xué)分析。本章主要介紹語料分析中的一些常用統(tǒng)計(jì)方法。3.5.1語料庫與統(tǒng)計(jì)方法介紹相關(guān)統(tǒng)計(jì)方法之前,首先需要了解為什么語料庫應(yīng)用中需要運(yùn)用統(tǒng)計(jì)方法。在2.1 節(jié)講到文本采集時(shí),我們知道文本或會(huì)話構(gòu)成了最終的語料庫樣本。這些樣本是通過一定的 抽樣方法獲得的。研究中,我們需要描述這些樣本的出現(xiàn)和分布情況。此外,我們還經(jīng)常需 要觀察不同語言項(xiàng)目之間在一定語境中共同出現(xiàn)(簡稱共現(xiàn))的概率;以及觀察某
2、個(gè)(些) 語言項(xiàng)目在不同文本之間出現(xiàn)多少的差異性。這些需要借助統(tǒng)計(jì)學(xué)知識(shí)來加以描寫和分析。理論上說,幾乎所有統(tǒng)計(jì)方法都可以用于語料庫分析。本章只擇其中一些常用方法做一 介紹。我們更注重相關(guān)統(tǒng)計(jì)方法的實(shí)際應(yīng)用,不過多探討其統(tǒng)計(jì)學(xué)原理。這一章我們主要介 紹語料分析中的頻數(shù)標(biāo)準(zhǔn)化(normalization).頻數(shù)差異檢驗(yàn)和搭配強(qiáng)度的計(jì)算方法。3.5.2頻數(shù)標(biāo)準(zhǔn)化基本原理通常語料檢索、詞表生成結(jié)果中都會(huì)報(bào)告頻數(shù)(frequency, freq或raw frequency)o那么 某詞(如many)在某語料庫中出現(xiàn)頻數(shù)為100次說明什么呢?這個(gè)詞在另一個(gè)語料庫中出 現(xiàn)頻數(shù)為105次,是否可以說many
3、在第二個(gè)語料庫中更常用呢?顯然,不能因?yàn)?05大于 100,就認(rèn)定many在第二個(gè)語料庫中更常用。這里大家很容易想到,兩個(gè)語料庫的大小未 必相同。按照通常的思維,我們可以算出many在兩個(gè)語料庫中的出現(xiàn)百分比,這樣就可比 了。這種情況下,我們是將many在兩個(gè)語料庫中的出現(xiàn)頻數(shù)歸到一個(gè)共同基數(shù)100之上, 即每100詞中出現(xiàn)多少個(gè)many。這里通過百分比得到的頻率即是一種標(biāo)準(zhǔn)化頻率。有些文 獻(xiàn)中標(biāo)準(zhǔn)化頻率也稱歸一頻率或標(biāo)稱頻率,即基于一個(gè)統(tǒng)一基準(zhǔn)得出的頻率。實(shí)例及操作頻數(shù)標(biāo)準(zhǔn)化,首先需要用某個(gè)(些)檢索項(xiàng)的實(shí)際觀察頻數(shù)(原始頻數(shù),raw frequency) 除以總體頻數(shù)(通常為文本或語料庫的
4、總詞數(shù)),這樣得到每一個(gè)單詞里會(huì)出現(xiàn)該檢索項(xiàng)多 少次。在頻數(shù)標(biāo)準(zhǔn)化操作中,我們通常會(huì)在此基礎(chǔ)上乘以1千(1萬、1百萬)得到平均每 千(萬、百萬)詞的出現(xiàn)頻率。即:標(biāo)準(zhǔn)化頻率(每千詞)=觀測頻數(shù)標(biāo)準(zhǔn)化頻率(每千詞)=觀測頻數(shù)總體頻數(shù)x 1000(注:觀測頻數(shù)即檢索詞項(xiàng)實(shí)際出現(xiàn)的次數(shù);總體頻數(shù)即語料庫的大小或總形符數(shù)。)例如,more在中國學(xué)生的作文里出現(xiàn)251次,在英語母語者語料中出現(xiàn)475次。兩個(gè) 語料庫的大小分別為37,655詞次和174,676詞次。我們可以根據(jù)上面的公式很容易計(jì)算出 251和475對(duì)應(yīng)的標(biāo)準(zhǔn)化頻率。另外,我們還可以利用Excel或SPSS等工具來計(jì)算標(biāo)準(zhǔn)化 頻率。比如,可
5、以將實(shí)際觀察頻數(shù)和語料庫大小如圖3.5.1輸入相應(yīng)的單元格,然后在C1 單元格里輸入=(A1/B1)*1000即可得到中國學(xué)生每千詞使用more約為6.67次。要得到母語 者more使用的每千詞頻率,只需點(diǎn)擊C1單元格,將光標(biāo)移至單元格右下角直至光標(biāo)變?yōu)?黑+時(shí),按住鼠標(biāo)左鍵,順勢下拉至C2格即可得到母語者每千詞使用more的次數(shù)約為2.72 次。如有更多頻數(shù)數(shù)據(jù)需要標(biāo)準(zhǔn)化處理,可依同樣方法求得。圖3.5.1頻數(shù)標(biāo)準(zhǔn)化3.5.3頻數(shù)差異檢驗(yàn)上節(jié),我們通過將頻數(shù)歸到一個(gè)共同的基數(shù),從而可以對(duì)不同頻數(shù)加以比較。然而,在 統(tǒng)計(jì)學(xué)中,常常需要對(duì)參與比較的數(shù)據(jù)之間的差異是否具有顯著性加以綜合檢驗(yàn)。在語料
6、庫 數(shù)據(jù)分析中,最常用的是卡方檢驗(yàn)(chi-square或2)和對(duì)數(shù)似然比(log-likelihood ratio, 常簡寫為LL)。兩種檢驗(yàn)方法的作用和實(shí)際操作類似,以下我們重點(diǎn)講解卡方檢驗(yàn)。這兩種 檢驗(yàn)方法也可以用作搭配強(qiáng)度計(jì)算?;驹砼c頻數(shù)標(biāo)準(zhǔn)化不同,卡方檢驗(yàn)除了考慮到某個(gè)檢索項(xiàng)在兩個(gè)不同語料庫中的出現(xiàn)頻數(shù)和 語料庫大小外,還考慮到檢索項(xiàng)在語料庫不出現(xiàn)的情況。例如,在1000詞的文本中the出 現(xiàn)50次,那么它不出現(xiàn)的情況就是余下的950次。類似的頻數(shù)數(shù)據(jù),我們用到的是2x2連 列表(contingency table)方法的卡方檢驗(yàn)。在統(tǒng)計(jì)學(xué)上,綜合該檢索項(xiàng)在兩個(gè)語料庫中出 現(xiàn)和不
7、出現(xiàn)的情況,統(tǒng)計(jì)學(xué)家提出了該檢索項(xiàng)理論上的預(yù)期頻數(shù),其算法是: 表3.5.1 2x2連列表某檢索項(xiàng)出 現(xiàn)頻數(shù)所有詞出現(xiàn) 頻數(shù)合計(jì)語料庫Aaba +b語料庫Bcdc + d合計(jì)a +cb + da +b + c + d其中:a =檢索項(xiàng)X在語料庫A中的實(shí)際頻數(shù)b =檢索項(xiàng)X在語料庫A中的不出現(xiàn)的頻數(shù)c =檢索項(xiàng)X在語料庫B中的實(shí)際頻數(shù)d =檢索項(xiàng)X在語料庫B中的不出現(xiàn)的頻數(shù)N = a + b +c + d =各項(xiàng)頻數(shù)總和,即兩個(gè)語料庫累計(jì)大小預(yù)期頻數(shù)=行頻數(shù)之和*列頻數(shù)之和 a + b + c + d而卡方檢驗(yàn)的基本公式為:X 2=Z(觀測頻數(shù)-預(yù)期頻數(shù))2 預(yù)期頻數(shù)卡方檢驗(yàn)的具體計(jì)算公式為:X
8、 2 =Z(0 - E)2(ad - bc)2* NE(a + b)*(a + c)*(b + d)*(c + d)實(shí)例及操作研究問題:有兩個(gè)語料庫,一個(gè)為口語語料庫,總詞數(shù)為1,714,443,另一個(gè)為書面語 語料庫,總詞數(shù)2,593,452。其中填充停頓(filled pause)詞er分別出現(xiàn)9,589次和9,307次。 那么9,589和9,307是否存在顯著性差異呢?這里可以采用卡方檢驗(yàn)的方法(參見圖3.5.2)。在配套光盤中,找到名為X2的Excel 文件。在打開的工作表中,按界面提示,分別輸入Corpus 1的總字?jǐn)?shù)1,714,443和Corpus 2 的總字?jǐn)?shù)2,593,452。
9、然后,在主體數(shù)據(jù)表框中Freq in Corpus 1和Freq in Corpus 2分別輸入 er分別的次數(shù)9,589和9,307。這時(shí),Chi-square列會(huì)自動(dòng)出現(xiàn)相應(yīng)的卡方值,這里是949.5474。 卡方值(自由度為1時(shí))如果大于臨界值3.83, 6.64和10.83,則表明該值在顯著性水平0.05, 0.01和0.001的情況下是有意義的,即參與比較的兩個(gè)數(shù)值(9,589和9,307)具有顯著性差 異。為便于辨識(shí)和解讀卡方值,我們將所得的卡方值對(duì)應(yīng)的顯著性水平的p值也同時(shí)提供, 并按所處的置信區(qū)間標(biāo)定星號(hào)(*),在0.05, 0.01和0.001顯著性水平下分別標(biāo)為*、*和*。
10、 表格最后一列的+”表明er在Corpus 1中使用頻數(shù)要多于其在Corpus 2中的頻數(shù),即我 們常說的頻數(shù)過多使用(overuse);反之,-”號(hào)為使用不足(underuse)?;氐轿覀兊膯栴}, er 一詞在兩個(gè)語料庫中的使用頻數(shù)具有顯著性差異,且er明顯在第一個(gè)口語語料庫較多使 用,可理解為屬于口語特征詞。為方便批量實(shí)施卡方檢驗(yàn),判別詞項(xiàng)在兩個(gè)語料庫中出現(xiàn)頻數(shù)的差異。該卡方檢驗(yàn)計(jì)算 器支持一次完成多個(gè)卡方檢驗(yàn)運(yùn)算。操作方法是,先輸入Corpus 1的總字?jǐn)?shù)和Corpus 2的 總字?jǐn)?shù),然后將某組詞項(xiàng)在Corpus 1和Corpus 2中的出現(xiàn)頻數(shù)分別拷貝到Freq in Corpus 1
11、 和Freq in Corpus 2列中,即可得到所有詞項(xiàng)跨語料庫差異的卡方值和顯著性水平。Chi-Square CalculatorCorpus 1Corpus 2Ccxrpus SizeWordf-req in Corpiri 1Freq in Corpus 2Chi-SqmiareSiciiiticHiiicc (/?)er95 筋49.54740-000 1 +die4牯177I4.84U30.0W 十ycdi220502B48F 1m物sO.OM卜aye12118S291.90110-000 2+rigJit6 636945286.01580 a +hundred1488251.30
12、2O-JOO 一 +陽1360S1I728S235.D03S0.000 E +179072D5.115S0.000 3 +two43475022170.70B60-000 3 +Ull 取17532我1德財(cái)埸O.OtW 十a(chǎn)2SSL819531J54.D6790.000 +tbiir2160145.65210-000 2 +圖3.5.2卡方檢驗(yàn)計(jì)算器界面配套光盤中同時(shí)附有對(duì)數(shù)似然比計(jì)算工具(Log-likelihood Ratio Calculator ),文件名為 LL.xlso也是檢驗(yàn)詞項(xiàng)跨語料庫差異顯著性的常用方法。其操作步驟與卡方檢驗(yàn)計(jì)算器相同, 數(shù)據(jù)的解讀方法也一樣。在此不贅述。3.
13、5.4搭配強(qiáng)度計(jì)算基本原理搭配分析的計(jì)算方法在實(shí)際應(yīng)用中主要有兩種處理方法:以Mike Scott的WordSmith 為代表的經(jīng)典搭配計(jì)算法,以及以Stefan Evert提出的BNCweb的搭配計(jì)算方法。兩種方法 的主要不同在于是否將跨距作為搭配的核心考查要素(WordSmith計(jì)算Z值時(shí)用到跨距, BNCweb的算法中多數(shù)都用到跨距)。計(jì)算搭配強(qiáng)度的主要算法包括:互信息(MI, mutual information 和 MI3)、Z 值(Z score)、T 值(T score)、Log-Log 值、卡方值(X)、對(duì)數(shù)似 然比(Log-likelihood)、Dice系數(shù)等。這些方法各有
14、優(yōu)劣。需要略加說明的是,卡方和對(duì)數(shù)似然比既可用作檢驗(yàn)單個(gè)詞項(xiàng)跨語料庫頻數(shù)差異的顯著 性。也可作為檢驗(yàn)兩個(gè)詞在同一個(gè)語料庫中,一定跨距內(nèi)的共現(xiàn)強(qiáng)度。以下對(duì)不同搭配強(qiáng)度計(jì)算方法的適用性做一簡介(這里以BFSU Collocator工具為例)。 更多相關(guān)介紹可參閱本章結(jié)尾處提供的相關(guān)參考文獻(xiàn)和網(wǎng)絡(luò)上有關(guān)collocation的討論。以下是利用BFSU Collocator工具提取的but 一詞的搭配情況。在下面的示例中,我們 選用的是光盤中NS_writtenraw文件夾下的TEXT001.txto Settings】中【Set Data Type選 的是【Raw】。點(diǎn)擊【Collocate】選項(xiàng)卡
15、后,跨距設(shè)為左5右5。點(diǎn)擊【Run】即可得結(jié)果。 圖3.5.3顯示的結(jié)果是以搭配詞的實(shí)際出現(xiàn)頻數(shù)排序的。雙擊搭配結(jié)果的每一行,界面窗口 下方即會(huì)顯示含節(jié)點(diǎn)詞和搭配詞的索引行。本節(jié)所舉實(shí)例使用的檢索詞(節(jié)點(diǎn)詞)為buto 搭配強(qiáng)度值小于0的情況,在BFSU Collocator工具里都?xì)w為零。g bpan = lD f(ft) = 510 1057 hfcBFSU CQlkcdtor 1.DAiwaNO ICollMBte | 住】I We) I帕l而&口泥TWm LoWg| Lng-likelih血915.347021103764470.692310.30063of6g bpan = lD f
16、(ft) = 510 1057 hfcBFSU CQlkcdtor 1.DAiwaNO ICollMBte | 住】I We) I帕l而&口泥TWm LoWg| Lng-likelih血915.347021103764470.692310.30063of6引614113.95614and57008D11 71825to510511913 5959a505211913.6110749996.636612.74939.901011.2735018B4 11.35830.5B20 12.32733465 2M3 1994 1500 1409l10.4740tha I 朋 I 遍I0 16.15019
17、.05922247 I860 375.M60 145.7304 331 5453 333.33971213151619in as that forWH1243129911900 08170.993912 2581 9.0929 1D.4215 13.0927 10.0874 0.73310.3905D.B4913.00212.47822.8B942 33577.1412 244 3100 5.1695 144.562 白 151.1306 215.9037 2in.6OB363.44B4D.3247D.33D21D7.S465.70394.92B0.aO7l95.00
18、1903.1957Fl1 nT.CENTER-L P| 1 DcftoyALL |-| 1.to dam the Yangtze foresters and the ecologists And on the various pou?&cful not of the civer ,1 J:二一but but but butcore Mi cd ft -11 did not use the occasion the public , and hence unseen cortimittees that sit a grimy offshoot of the t :U1T圖3.5.3按搭配詞頻數(shù)高
19、低排序的搭配結(jié)果從圖3.5.3可以看出BFSU Collocator工具運(yùn)行后可以一次同時(shí)得到MI、MI3、Z值、T 值、Log-log值和對(duì)數(shù)似然比。如果我們需要得到按互信息值排序的搭配詞時(shí),只需點(diǎn)擊 MI (或MI3列的標(biāo)題行即可,如果點(diǎn)擊第一次所列結(jié)果為升序排列,再點(diǎn)擊一次,則可獲 得降序排列的結(jié)果)。圖3.5.3中的結(jié)果顯示的是以第3列f(c),即搭配詞(collocates)的頻 數(shù)降序排列的,界面下方窗口顯示的是含but和最高頻搭配詞the的索引行?;バ畔?MI, mutual information 和 MI3)=BFSU CQllQCjirQI 1,5-EXSettysAimJ
20、tHle 5 5pan = ID f(ft) = 5101057 hfe$DetaiA - BOTH _S Kione-NO Collocatei(c) | f(n,c) _Ml |MI31 Z-Score T-Score Log-log| Log-likelihoodcannon2 I 2 I 5.22517.2291 I 0.1051 1.97651 2.9B6B 12dicrt225.22917.22910.1051.37852.38663piltd225.23917.22919.1051.3755 2.3066Asubstitu.225 22017 229101051 37B5 230
21、665162:t15.22915 22915.95200.973382*t115.22915 22915.9520D.97337?i)5-oagE)15.52915 22915.96230.9733S3-3)15.22915 22915.95290.97339utwould also t)ecome the125*)一1圖3.5.8按log-log值高低排序的搭配結(jié)果對(duì)數(shù)似然比-BFSU CQlldcaror- - r x隊(duì)0 以 )1 s* tpan= 10 f(ti) = 510 1057 hitsDeTaLlHI SQIti 回 回 .5 卜 None NOMl 惆百 石Se舶 T-SE
22、teLog-likelihood0.692310.300610.7400.0582012247.16B9I12131516IStoin net wivand that alsowere thiwith1206666W5052510512433465NOMl 惆百 石Se舶 T-SEteLog-likelihood0.692310.300610.7400.0582012247.16B9I12131516IStoin net wivand that alsowere thiwith1206666W5052510512433465&3614991494150057001B94223BOS&47710
23、12766 19 9B 4 112 11166865359巽48&05025333232胡0.933916.150113.9561 13G110 13 5959 13.0B27 12.74931.2497 12.705SQ.5620 12.3273住.* 置 12.2581018B4 11.35835.70394 CM如6.9824.21863.00212 47822.36942.30570.3905D.&!)ai1 B4201K718211 27352.04011I.3W7E7.06233.7343477691.025011.1144.16D72.922801800.8915 10.0915
24、2.6076Q .757510.75752.9S422.3106Q.0B171D.42150.32470.3302915.347S375.5460333.039733t5493200.307124.31002417403215.9097210.6083151.1306145.7364144 5820140.91139.7567129 0425123.367110L844BIIOC&tfER-L P| Dcftaym ri1.剝agonize about the world,butmiddle of this century/butinto a collcti-ve farmtmanvnals
25、, were investigatedrbutl to change it .their songs and rhymes the local peasantry frc in general these wet?e i - , n371&g.圖3.5.9按對(duì)數(shù)似然比高低排序的搭配結(jié)果對(duì)數(shù)似然比是被認(rèn)為比較好的一種搭配發(fā)現(xiàn)方法。然而,一般認(rèn)為各種搭配統(tǒng)計(jì)方法, 很難說哪種方法是最合理或最正確。我們建議一方面可根據(jù)研究實(shí)際選擇搭配統(tǒng)計(jì)方法;另 一方面,還可以兼顧不同的統(tǒng)計(jì)方法,關(guān)注不同統(tǒng)計(jì)方法中都排在前面的一些詞。3.5.5小結(jié)不同工具(WordSmith、AntConc、BNCweb、Co-occurrence Collocate、BFSU Collocator 等)得出的MI值、Z值、T值、值、對(duì)數(shù)似然比值常常有差別。這些差別一種情況是由 公式不同引起的,即我們上面提到的以Mike Scott的WordSmith為代表的經(jīng)典搭配計(jì)算法和 以Stefan Evert提出的BNCweb的搭配計(jì)算方法。在相同計(jì)算公式下,如果出現(xiàn)數(shù)值差別, 可能有如下原因:各軟件對(duì)形符或單詞的定義不一致,比如
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 個(gè)人購銷農(nóng)機(jī)合同范本
- 辦證合同范本模板
- 2025年黑龍江貨運(yùn)從業(yè)資格證模擬考試題目
- 2025年固原貨運(yùn)從業(yè)資格證考試試題
- 農(nóng)業(yè)招標(biāo)合同范本
- 供水項(xiàng)目施工合同范本
- 分級(jí)銷售合同范本
- 做布料生意合同范本
- 辦公花卉采購合同范本
- 鹿邑牛犢購買合同范本
- DeepSeek教案寫作指令
- 休學(xué)復(fù)學(xué)申請(qǐng)書
- 瓷磚鋪貼勞務(wù)承包協(xié)議書
- 2025年四川司法警官職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試近5年??及鎱⒖碱}庫含答案解析
- 新建污水處理廠工程EPC總承包投標(biāo)方案(技術(shù)標(biāo))
- 山東省德州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 《宏觀經(jīng)濟(jì)管理研究》課件
- 本人報(bào)廢車輛委托書
- 雙減政策與五項(xiàng)管理解讀
- 2025年道德與法治小學(xué)六年級(jí)下冊(cè)教學(xué)計(jì)劃(含進(jìn)度表)
- 過橋資金操作流程
評(píng)論
0/150
提交評(píng)論