語料庫常用統(tǒng)計(jì)方法

上傳人：b*** IP屬地：天津上傳時(shí)間：2022-10-06 格式：DOCX 頁數(shù)：12 大小：95.45KB 積分：20 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、3.5語料庫常用統(tǒng)計(jì)方法第3章前幾節(jié)對(duì)語料庫應(yīng)用中的幾種主要技術(shù)做了介紹。通過語料檢索、詞表和主題詞表的生成，可以得到一定數(shù)量的句子、詞匯或結(jié)構(gòu)。為能更好說明所得到的結(jié)果的真正意義，常常需要對(duì)它們加以統(tǒng)計(jì)學(xué)分析。本章主要介紹語料分析中的一些常用統(tǒng)計(jì)方法。3.5.1語料庫與統(tǒng)計(jì)方法介紹相關(guān)統(tǒng)計(jì)方法之前，首先需要了解為什么語料庫應(yīng)用中需要運(yùn)用統(tǒng)計(jì)方法。在2.1 節(jié)講到文本采集時(shí)，我們知道文本或會(huì)話構(gòu)成了最終的語料庫樣本。這些樣本是通過一定的抽樣方法獲得的。研究中，我們需要描述這些樣本的出現(xiàn)和分布情況。此外，我們還經(jīng)常需要觀察不同語言項(xiàng)目之間在一定語境中共同出現(xiàn)（簡稱共現(xiàn)）的概率；以及觀察某

2、個(gè)（些）語言項(xiàng)目在不同文本之間出現(xiàn)多少的差異性。這些需要借助統(tǒng)計(jì)學(xué)知識(shí)來加以描寫和分析。理論上說，幾乎所有統(tǒng)計(jì)方法都可以用于語料庫分析。本章只擇其中一些常用方法做一介紹。我們更注重相關(guān)統(tǒng)計(jì)方法的實(shí)際應(yīng)用，不過多探討其統(tǒng)計(jì)學(xué)原理。這一章我們主要介紹語料分析中的頻數(shù)標(biāo)準(zhǔn)化（normalization）.頻數(shù)差異檢驗(yàn)和搭配強(qiáng)度的計(jì)算方法。3.5.2頻數(shù)標(biāo)準(zhǔn)化基本原理通常語料檢索、詞表生成結(jié)果中都會(huì)報(bào)告頻數(shù)（frequency, freq或raw frequency）o那么某詞（如many）在某語料庫中出現(xiàn)頻數(shù)為100次說明什么呢？這個(gè)詞在另一個(gè)語料庫中出現(xiàn)頻數(shù)為105次，是否可以說many

3、在第二個(gè)語料庫中更常用呢？顯然，不能因?yàn)?05大于 100，就認(rèn)定many在第二個(gè)語料庫中更常用。這里大家很容易想到，兩個(gè)語料庫的大小未必相同。按照通常的思維，我們可以算出many在兩個(gè)語料庫中的出現(xiàn)百分比，這樣就可比了。這種情況下，我們是將many在兩個(gè)語料庫中的出現(xiàn)頻數(shù)歸到一個(gè)共同基數(shù)100之上，即每100詞中出現(xiàn)多少個(gè)many。這里通過百分比得到的頻率即是一種標(biāo)準(zhǔn)化頻率。有些文獻(xiàn)中標(biāo)準(zhǔn)化頻率也稱歸一頻率或標(biāo)稱頻率，即基于一個(gè)統(tǒng)一基準(zhǔn)得出的頻率。實(shí)例及操作頻數(shù)標(biāo)準(zhǔn)化，首先需要用某個(gè)（些）檢索項(xiàng)的實(shí)際觀察頻數(shù)（原始頻數(shù)，raw frequency）除以總體頻數(shù)（通常為文本或語料庫的

4、總詞數(shù)），這樣得到每一個(gè)單詞里會(huì)出現(xiàn)該檢索項(xiàng)多少次。在頻數(shù)標(biāo)準(zhǔn)化操作中，我們通常會(huì)在此基礎(chǔ)上乘以1千（1萬、1百萬）得到平均每千（萬、百萬）詞的出現(xiàn)頻率。即：標(biāo)準(zhǔn)化頻率（每千詞）=觀測頻數(shù)標(biāo)準(zhǔn)化頻率（每千詞）=觀測頻數(shù)總體頻數(shù)x 1000（注：觀測頻數(shù)即檢索詞項(xiàng)實(shí)際出現(xiàn)的次數(shù)；總體頻數(shù)即語料庫的大小或總形符數(shù)。）例如，more在中國學(xué)生的作文里出現(xiàn)251次，在英語母語者語料中出現(xiàn)475次。兩個(gè) 語料庫的大小分別為37,655詞次和174,676詞次。我們可以根據(jù)上面的公式很容易計(jì)算出 251和475對(duì)應(yīng)的標(biāo)準(zhǔn)化頻率。另外，我們還可以利用Excel或SPSS等工具來計(jì)算標(biāo)準(zhǔn)化頻率。比如，可

5、以將實(shí)際觀察頻數(shù)和語料庫大小如圖3.5.1輸入相應(yīng)的單元格，然后在C1 單元格里輸入=(A1/B1)*1000即可得到中國學(xué)生每千詞使用more約為6.67次。要得到母語者more使用的每千詞頻率，只需點(diǎn)擊C1單元格，將光標(biāo)移至單元格右下角直至光標(biāo)變?yōu)?黑+時(shí)，按住鼠標(biāo)左鍵，順勢下拉至C2格即可得到母語者每千詞使用more的次數(shù)約為2.72 次。如有更多頻數(shù)數(shù)據(jù)需要標(biāo)準(zhǔn)化處理，可依同樣方法求得。圖3.5.1頻數(shù)標(biāo)準(zhǔn)化3.5.3頻數(shù)差異檢驗(yàn)上節(jié)，我們通過將頻數(shù)歸到一個(gè)共同的基數(shù)，從而可以對(duì)不同頻數(shù)加以比較。然而，在統(tǒng)計(jì)學(xué)中，常常需要對(duì)參與比較的數(shù)據(jù)之間的差異是否具有顯著性加以綜合檢驗(yàn)。在語料

6、庫數(shù)據(jù)分析中，最常用的是卡方檢驗(yàn)(chi-square或2)和對(duì)數(shù)似然比(log-likelihood ratio，常簡寫為LL)。兩種檢驗(yàn)方法的作用和實(shí)際操作類似，以下我們重點(diǎn)講解卡方檢驗(yàn)。這兩種檢驗(yàn)方法也可以用作搭配強(qiáng)度計(jì)算?；驹砼c頻數(shù)標(biāo)準(zhǔn)化不同，卡方檢驗(yàn)除了考慮到某個(gè)檢索項(xiàng)在兩個(gè)不同語料庫中的出現(xiàn)頻數(shù)和語料庫大小外，還考慮到檢索項(xiàng)在語料庫不出現(xiàn)的情況。例如，在1000詞的文本中the出現(xiàn)50次，那么它不出現(xiàn)的情況就是余下的950次。類似的頻數(shù)數(shù)據(jù)，我們用到的是2x2連列表(contingency table)方法的卡方檢驗(yàn)。在統(tǒng)計(jì)學(xué)上，綜合該檢索項(xiàng)在兩個(gè)語料庫中出現(xiàn)和不

7、出現(xiàn)的情況，統(tǒng)計(jì)學(xué)家提出了該檢索項(xiàng)理論上的預(yù)期頻數(shù)，其算法是：表3.5.1 2x2連列表某檢索項(xiàng)出現(xiàn)頻數(shù)所有詞出現(xiàn) 頻數(shù)合計(jì)語料庫Aaba +b語料庫Bcdc + d合計(jì)a +cb + da +b + c + d其中：a =檢索項(xiàng)X在語料庫A中的實(shí)際頻數(shù)b =檢索項(xiàng)X在語料庫A中的不出現(xiàn)的頻數(shù)c =檢索項(xiàng)X在語料庫B中的實(shí)際頻數(shù)d =檢索項(xiàng)X在語料庫B中的不出現(xiàn)的頻數(shù)N = a + b +c + d =各項(xiàng)頻數(shù)總和，即兩個(gè)語料庫累計(jì)大小預(yù)期頻數(shù)=行頻數(shù)之和*列頻數(shù)之和 a + b + c + d而卡方檢驗(yàn)的基本公式為:X 2=Z（觀測頻數(shù)-預(yù)期頻數(shù)）2 預(yù)期頻數(shù)卡方檢驗(yàn)的具體計(jì)算公式為:X

8、 2 =Z(0 - E)2(ad - bc)2* NE(a + b)*(a + c)*(b + d)*(c + d)實(shí)例及操作研究問題：有兩個(gè)語料庫，一個(gè)為口語語料庫，總詞數(shù)為1,714,443，另一個(gè)為書面語語料庫，總詞數(shù)2,593,452。其中填充停頓（filled pause）詞er分別出現(xiàn)9,589次和9,307次。那么9,589和9,307是否存在顯著性差異呢？這里可以采用卡方檢驗(yàn)的方法（參見圖3.5.2）。在配套光盤中，找到名為X2的Excel 文件。在打開的工作表中，按界面提示，分別輸入Corpus 1的總字?jǐn)?shù)1,714,443和Corpus 2 的總字?jǐn)?shù)2,593,452。

9、然后，在主體數(shù)據(jù)表框中Freq in Corpus 1和Freq in Corpus 2分別輸入 er分別的次數(shù)9,589和9,307。這時(shí)，Chi-square列會(huì)自動(dòng)出現(xiàn)相應(yīng)的卡方值，這里是949.5474。卡方值（自由度為1時(shí)）如果大于臨界值3.83, 6.64和10.83，則表明該值在顯著性水平0.05, 0.01和0.001的情況下是有意義的，即參與比較的兩個(gè)數(shù)值（9,589和9,307）具有顯著性差異。為便于辨識(shí)和解讀卡方值，我們將所得的卡方值對(duì)應(yīng)的顯著性水平的p值也同時(shí)提供，并按所處的置信區(qū)間標(biāo)定星號(hào)（*），在0.05, 0.01和0.001顯著性水平下分別標(biāo)為*、*和*。

10、表格最后一列的+”表明er在Corpus 1中使用頻數(shù)要多于其在Corpus 2中的頻數(shù)，即我們常說的頻數(shù)過多使用（overuse）；反之，-”號(hào)為使用不足（underuse）?；氐轿覀兊膯栴}， er 一詞在兩個(gè)語料庫中的使用頻數(shù)具有顯著性差異，且er明顯在第一個(gè)口語語料庫較多使用，可理解為屬于口語特征詞。為方便批量實(shí)施卡方檢驗(yàn)，判別詞項(xiàng)在兩個(gè)語料庫中出現(xiàn)頻數(shù)的差異。該卡方檢驗(yàn)計(jì)算器支持一次完成多個(gè)卡方檢驗(yàn)運(yùn)算。操作方法是，先輸入Corpus 1的總字?jǐn)?shù)和Corpus 2的總字?jǐn)?shù)，然后將某組詞項(xiàng)在Corpus 1和Corpus 2中的出現(xiàn)頻數(shù)分別拷貝到Freq in Corpus 1

11、和Freq in Corpus 2列中，即可得到所有詞項(xiàng)跨語料庫差異的卡方值和顯著性水平。Chi-Square CalculatorCorpus 1Corpus 2Ccxrpus SizeWordf-req in Corpiri 1Freq in Corpus 2Chi-SqmiareSiciiiticHiiicc (/?)er95 筋49.54740-000 1 +die4牯177I4.84U30.0W 十ycdi220502B48F 1m物sO.OM卜aye12118S291.90110-000 2+rigJit6 636945286.01580 a +hundred1488251.30

12、2O-JOO 一 +陽1360S1I728S235.D03S0.000 E +179072D5.115S0.000 3 +two43475022170.70B60-000 3 +Ull 取17532我1德財(cái)埸O.OtW 十a(chǎn)2SSL819531J54.D6790.000 +tbiir2160145.65210-000 2 +圖3.5.2卡方檢驗(yàn)計(jì)算器界面配套光盤中同時(shí)附有對(duì)數(shù)似然比計(jì)算工具（Log-likelihood Ratio Calculator ）,文件名為 LL.xlso也是檢驗(yàn)詞項(xiàng)跨語料庫差異顯著性的常用方法。其操作步驟與卡方檢驗(yàn)計(jì)算器相同，數(shù)據(jù)的解讀方法也一樣。在此不贅述。3.

13、5.4搭配強(qiáng)度計(jì)算基本原理搭配分析的計(jì)算方法在實(shí)際應(yīng)用中主要有兩種處理方法：以Mike Scott的WordSmith 為代表的經(jīng)典搭配計(jì)算法，以及以Stefan Evert提出的BNCweb的搭配計(jì)算方法。兩種方法的主要不同在于是否將跨距作為搭配的核心考查要素（WordSmith計(jì)算Z值時(shí)用到跨距， BNCweb的算法中多數(shù)都用到跨距）。計(jì)算搭配強(qiáng)度的主要算法包括：互信息（MI, mutual information 和 MI3）、Z 值（Z score）、T 值（T score）、Log-Log 值、卡方值（X）、對(duì)數(shù)似然比（Log-likelihood）、Dice系數(shù)等。這些方法各有

14、優(yōu)劣。需要略加說明的是，卡方和對(duì)數(shù)似然比既可用作檢驗(yàn)單個(gè)詞項(xiàng)跨語料庫頻數(shù)差異的顯著性。也可作為檢驗(yàn)兩個(gè)詞在同一個(gè)語料庫中，一定跨距內(nèi)的共現(xiàn)強(qiáng)度。以下對(duì)不同搭配強(qiáng)度計(jì)算方法的適用性做一簡介（這里以BFSU Collocator工具為例）。更多相關(guān)介紹可參閱本章結(jié)尾處提供的相關(guān)參考文獻(xiàn)和網(wǎng)絡(luò)上有關(guān)collocation的討論。以下是利用BFSU Collocator工具提取的but 一詞的搭配情況。在下面的示例中，我們選用的是光盤中NS_writtenraw文件夾下的TEXT001.txto Settings】中【Set Data Type選的是【Raw】。點(diǎn)擊【Collocate】選項(xiàng)卡

15、后，跨距設(shè)為左5右5。點(diǎn)擊【Run】即可得結(jié)果。圖3.5.3顯示的結(jié)果是以搭配詞的實(shí)際出現(xiàn)頻數(shù)排序的。雙擊搭配結(jié)果的每一行，界面窗口下方即會(huì)顯示含節(jié)點(diǎn)詞和搭配詞的索引行。本節(jié)所舉實(shí)例使用的檢索詞（節(jié)點(diǎn)詞）為buto 搭配強(qiáng)度值小于0的情況，在BFSU Collocator工具里都?xì)w為零。g bpan = lD f(ft) = 510 1057 hfcBFSU CQlkcdtor 1.DAiwaNO ICollMBte | 住】I We) I帕l而&口泥TWm LoWg| Lng-likelih血915.347021103764470.692310.30063of6g bpan = lD f

16、(ft) = 510 1057 hfcBFSU CQlkcdtor 1.DAiwaNO ICollMBte | 住】I We) I帕l而&口泥TWm LoWg| Lng-likelih血915.347021103764470.692310.30063of6引614113.95614and57008D11 71825to510511913 5959a505211913.6110749996.636612.74939.901011.2735018B4 11.35830.5B20 12.32733465 2M3 1994 1500 1409l10.4740tha I 朋 I 遍I0 16.15019

17、.05922247 I860 375.M60 145.7304 331 5453 333.33971213151619in as that forWH1243129911900 08170.993912 2581 9.0929 1D.4215 13.0927 10.0874 0.73310.3905D.B4913.00212.47822.8B942 33577.1412 244 3100 5.1695 144.562 白 151.1306 215.9037 2in.6OB363.44B4D.3247D.33D21D7.S465.70394.92B0.aO7l95.00

18、1903.1957Fl1 nT.CENTER-L P| 1 DcftoyALL |-| 1.to dam the Yangtze foresters and the ecologists And on the various pou?&cful not of the civer ,1 J:二一but but but butcore Mi cd ft -11 did not use the occasion the public , and hence unseen cortimittees that sit a grimy offshoot of the t :U1T圖3.5.3按搭配詞頻數(shù)高

19、低排序的搭配結(jié)果從圖3.5.3可以看出BFSU Collocator工具運(yùn)行后可以一次同時(shí)得到MI、MI3、Z值、T 值、Log-log值和對(duì)數(shù)似然比。如果我們需要得到按互信息值排序的搭配詞時(shí)，只需點(diǎn)擊 MI (或MI3列的標(biāo)題行即可，如果點(diǎn)擊第一次所列結(jié)果為升序排列，再點(diǎn)擊一次，則可獲得降序排列的結(jié)果)。圖3.5.3中的結(jié)果顯示的是以第3列f(c)，即搭配詞(collocates)的頻數(shù)降序排列的，界面下方窗口顯示的是含but和最高頻搭配詞the的索引行?；バ畔?MI， mutual information 和 MI3)=BFSU CQllQCjirQI 1,5-EXSettysAimJ

20、tHle 5 5pan = ID f(ft) = 5101057 hfe$DetaiA - BOTH _S Kione-NO Collocatei(c) | f(n,c) _Ml |MI31 Z-Score T-Score Log-log| Log-likelihoodcannon2 I 2 I 5.22517.2291 I 0.1051 1.97651 2.9B6B 12dicrt225.22917.22910.1051.37852.38663piltd225.23917.22919.1051.3755 2.3066Asubstitu.225 22017 229101051 37B5 230

21、665162：t15.22915 22915.95200.973382*t115.22915 22915.9520D.97337?i)5-oagE)15.52915 22915.96230.9733S3-3)15.22915 22915.95290.97339utwould also t)ecome the125*）一1圖3.5.8按log-log值高低排序的搭配結(jié)果對(duì)數(shù)似然比-BFSU CQlldcaror- - r x隊(duì)0 以 )1 s* tpan= 10 f(ti) = 510 1057 hitsDeTaLlHI SQIti 回回 .5 卜 None NOMl 惆百石Se舶 T-SE

22、teLog-likelihood0.692310.300610.7400.0582012247.16B9I12131516IStoin net wivand that alsowere thiwith1206666W5052510512433465NOMl 惆百石Se舶 T-SEteLog-likelihood0.692310.300610.7400.0582012247.16B9I12131516IStoin net wivand that alsowere thiwith1206666W5052510512433465&3614991494150057001B94223BOS&47710

23、12766 19 9B 4 112 11166865359巽48&05025333232胡0.933916.150113.9561 13G110 13 5959 13.0B27 12.74931.2497 12.705SQ.5620 12.3273住.* 置 12.2581018B4 11.35835.70394 CM如6.9824.21863.00212 47822.36942.30570.3905D.&!)ai1 B4201K718211 27352.04011I.3W7E7.06233.7343477691.025011.1144.16D72.922801800.8915 10.0915

24、2.6076Q .757510.75752.9S422.3106Q.0B171D.42150.32470.3302915.347S375.5460333.039733t5493200.307124.31002417403215.9097210.6083151.1306145.7364144 5820140.91139.7567129 0425123.367110L844BIIOC&tfER-L P| Dcftaym ri1.剝agonize about the world,butmiddle of this century/butinto a collcti-ve farmtmanvnals

25、, were investigatedrbutl to change it .their songs and rhymes the local peasantry frc in general these wet?e i - , n371&g.圖3.5.9按對(duì)數(shù)似然比高低排序的搭配結(jié)果對(duì)數(shù)似然比是被認(rèn)為比較好的一種搭配發(fā)現(xiàn)方法。然而，一般認(rèn)為各種搭配統(tǒng)計(jì)方法，很難說哪種方法是最合理或最正確。我們建議一方面可根據(jù)研究實(shí)際選擇搭配統(tǒng)計(jì)方法；另一方面，還可以兼顧不同的統(tǒng)計(jì)方法，關(guān)注不同統(tǒng)計(jì)方法中都排在前面的一些詞。3.5.5小結(jié)不同工具(WordSmith、AntConc、BNCweb、Co-occurrence Collocate、BFSU Collocator 等)得出的MI值、Z值、T值、值、對(duì)數(shù)似然比值常常有差別。這些差別一種情況是由公式不同引起的，即我們上面提到的以Mike Scott的WordSmith為代表的經(jīng)典搭配計(jì)算法和以Stefan Evert提出的BNCweb的搭配計(jì)算方法。在相同計(jì)算公式下，如果出現(xiàn)數(shù)值差別，可能有如下原因：各軟件對(duì)形符或單詞的定義不一致，比如

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

語料庫常用統(tǒng)計(jì)方法

文檔簡介

溫馨提示

最新文檔

評(píng)論

語料庫常用統(tǒng)計(jì)方法

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔