版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第四章詞頻分布規(guī)律(齊普夫定律)漢字總數(shù):5-6萬字常用漢字:<1萬字(總數(shù)的20%-)1000個漢字:90%文獻2400個漢字:99%文獻3800個漢字:99.99%文獻66萬字的《毛澤東選集》四卷合訂本:2775個漢字,<1/10一、基本概念1、詞頻:某一個單詞在文章或講話中出現(xiàn)的次數(shù)2、單詞頻率:某詞出現(xiàn)的頻次與文集中所有詞出現(xiàn)的總次數(shù)之比3、詞頻字典:以詞頻多寡為序的詞典,顯示不同詞匯被人們運用程度的差異(每個詞有兩個參數(shù):頻次和序號)中國第一部詞頻字典:
1934,近代教育學(xué)家陳鶴琴(統(tǒng)計來源:55個萬個詞匯的文集,分析出單字4261個,但對詞頻未進行統(tǒng)計)世界上第一部詞頻字典:
1889,德國學(xué)者凱丁《德語頻率詞典》(統(tǒng)計來源:總字?jǐn)?shù)110萬詞匯的文集)1986,北京外國語學(xué)院《現(xiàn)代漢語頻率詞典》共1808114字詞其中:4574個單字---991字頻等級
31159單詞---757詞頻等級4、最省力法則:在各種運動中,人們有意無意地總是選擇一條最省力的途徑行事。
--------1949年,美國哈佛大學(xué)教授齊夫《人類行為與最省力原則--人類生態(tài)學(xué)引論》二、齊夫定律的研究背景假設(shè)有一個文集含N個詞匯,在N充分大的情形下,按照詞匯在文集中出現(xiàn)的頻次n遞減排列,可得一詞頻表:詞頻n1n2n3n4n5…..nr…….nL詞序12345……r……..nLnr*r=C1916年,德國速記專家艾思杜:1928年,美國電話公司物理學(xué)家貢東:logrlognrαnr*rtgα=Cnr*rβ=Cnr*r=Cnr=cr-1450nr/N=cr-1/N令:
fr=nr/Nc/N=K
fr=Kr-1K=0.102序號為1的單詞出現(xiàn)頻率1935年,齊夫驗證fr=Kr-1Pr=fr(實驗次數(shù)無限增加時)Pr=Kr-1P1=K=0.1(r=1)但是大多數(shù)語言等級序號為1的詞,其出現(xiàn)的頻率一般小于0.1,故K為參數(shù)而非常數(shù)。
0<K<0.1C值在0.03—0.11之間
4574字,991個字頻等級,172/4574(3.76%)31159單詞,755個詞頻等級,336/31159(1.08%)1、文字描述
如果將一篇較長的文章中的每個詞按其出現(xiàn)頻次遞減排列,并用自然數(shù)給這些詞編上等級序號,出現(xiàn)頻次最高的詞為1級,其次為2….這樣一直到D級,如果用f表示詞在文章中出現(xiàn)的頻次,用r表示詞的等級序號,則有f.r=c三、齊夫定律的基本內(nèi)容rfcrfc140040066639622004007584163133399850400410040094439658040010404002、圖像描述:rflnrlnf3、數(shù)學(xué)描述:f*r=c
齊夫原始狀態(tài),也稱單參數(shù)詞頻分布規(guī)律
(f*rβ=c而β=1)
β
為直線斜率,C為參數(shù)4、通用的齊夫定律:
f=cr-β
f:詞在文章中出現(xiàn)的頻次
r:詞的等級序號
β和C:參數(shù)雙參數(shù)詞頻分布規(guī)律朱斯修正等級序號r頻次fr*f199.02-3,2.5717.54-5,4.562765307-8,7.54309-11,1033012-32,2224433-75,54154適于描述中頻詞分布規(guī)律5、編秩方法平均編秩法隨機編秩法最大秩序法平均編秩法對于詞頻相同的詞,采用序號平均數(shù)來定義它們共同秩序的方法。詞A2411詞B2411詞C2411r=(10+11+12)/3=11隨機編秩法具有相同詞頻的不同單詞將被定義不同的秩序詞A2411詞B2412詞C2413字母順序漢語拼音筆劃順序Pb最大秩序法對于詞頻相同的詞,按秩序最大詞的秩給予其他同類詞相同的秩序。詞A2412詞B2412詞C24126、三參數(shù)詞頻分布規(guī)律50s,法國數(shù)學(xué)家孟戴爾布羅(r+m)B*f=c
f:詞頻
r:等級序號
B:與高頻詞的數(shù)量多少有關(guān)
C:與出現(xiàn)概率最多的詞的概率大小有關(guān)
m:與文集的詞匯總數(shù)N有關(guān)m=0fr*rB=c朱斯公式
B=1fr*r=c齊普夫定律7、布茨定律:齊夫第二定律1967年
In/I1=2/(n(n+1)(n=1,2,3,…)
In:出現(xiàn)n次的詞的數(shù)量
I1:出現(xiàn)1次的詞的數(shù)量
n:出現(xiàn)次數(shù),詞頻出現(xiàn)n次的詞的數(shù)量與出現(xiàn)1次的詞的數(shù)量之比與文集的大小及C值無關(guān),而只與頻次有關(guān)I2/I1I3/I1I4/I1I5/I1I6/I1I7/I1I8/I10I9/I1I10/I1理論值0.330.170.100.0710.0480.0360.0280.0220.018實測值0.360.170.100.070.0510.035.0280.0290.015適于描述低頻詞四、齊夫定律的主要應(yīng)用鍵盤設(shè)計碼長設(shè)計編制詞表自動標(biāo)引分析學(xué)科或?qū)n}研究動向和,主,產(chǎn),不,為,這行,讓,間,澡,煙,軍意,渦,肱,體,宏,寵編制詞表思路一根據(jù)齊夫定律的頻次分布方法,通過具體的標(biāo)引試驗,找出被標(biāo)引文獻中敘詞使用頻率的分布特征,最后決定合乎使用頻率的詞,編入敘詞表
文獻
集合標(biāo)引敘詞詞頻等級表確定詞頻入詞表編制詞表思路二完全根據(jù)對有關(guān)原始文獻中出現(xiàn)的術(shù)語進行詞頻統(tǒng)計的結(jié)果,初步選詞入表,再在實際標(biāo)引過程中不斷修改完善文獻集合詞頻統(tǒng)計確定頻率初步生成詞表標(biāo)引詞表修訂自動標(biāo)引:1958年,美國情報學(xué)家盧恩1、概念
概念1:利用計算機對文章進行自動標(biāo)引,自動加上標(biāo)識符的過程。
2、基本形式詞標(biāo)引:用計算機根據(jù)文獻中術(shù)語或詞的有關(guān)頻率分布規(guī)律進行自動標(biāo)引3、基本思路
**詞的分辨能力:識別文章主題的能力
(與詞的出現(xiàn)頻次有很大的關(guān)系,出現(xiàn)頻次過高,語法作用的詞,出現(xiàn)頻次過低,分辨能力往往很低)**有效詞:分辨能力較高,頻次適中,可被用于自動標(biāo)引的詞**詞頻分布與分辨能力之間的關(guān)系nf橫軸:單詞按詞頻遞減排列的等級序號縱軸:文集中單詞出現(xiàn)的頻次雙曲線:詞頻分布曲線鐘形曲線:詞的分辨力曲線**臨界值的確定帕歐(M.L.Pao):n±an=(√1+8I1-1)/2
例:I1=780n=3838±a臨界值范圍38±aa:與標(biāo)引深度或標(biāo)引要求有關(guān)關(guān)鍵詞1關(guān)鍵詞2關(guān)鍵詞3文獻1關(guān)鍵詞1關(guān)鍵詞2文獻2關(guān)鍵詞1關(guān)鍵詞2關(guān)鍵詞3關(guān)鍵詞4文獻3平均3個關(guān)鍵詞38±a設(shè)標(biāo)引深度為9?對于每篇文章,N,a可以自動測算對于大量文獻,a值可通過選擇一定的樣本測算能代表總體水平的外延范圍a值**標(biāo)引詞的確定
全部有效詞都被選作標(biāo)引詞用類名作為標(biāo)引詞人工配合**生成文摘句思路:根據(jù)有效詞或標(biāo)引詞在句子中的相對位置進行選擇要點:1、計算每個句子中標(biāo)引詞所占的比例ri
ri=Pi2/qi
Pi:句子中選出的標(biāo)引詞的數(shù)量
qi:句子中的總字?jǐn)?shù)
2、ri值最高的句子可視為該文章的代表句
3、ri值為一定值之上的句子,可選入文摘之中
概念2:利用計算機對給定的文獻,根據(jù)其內(nèi)容特征,經(jīng)過內(nèi)容分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年版在線教育平臺合作開發(fā)合同4篇
- 2025年度醫(yī)療衛(wèi)生機構(gòu)專業(yè)技術(shù)人員聘用合同4篇
- 二零二五年度殯葬服務(wù)與社區(qū)養(yǎng)老服務(wù)對接合同3篇
- 2025年度農(nóng)副產(chǎn)品線上線下銷售與物流一體化服務(wù)合同3篇
- 二零二五年度投資收益分成合同
- 2025版高端定制門窗工程承攬合同3篇
- 2025年度企業(yè)會計人員專項聘用合同范本
- 2025年度票據(jù)質(zhì)押資產(chǎn)證券化專項合同4篇
- 二零二五年度戶外木制品加工承包合同2篇
- 2025年度面粉行業(yè)二零二五年度面粉產(chǎn)品追溯體系共建合同3篇
- 江蘇省蘇州市2024-2025學(xué)年高三上學(xué)期1月期末生物試題(有答案)
- 銷售與銷售目標(biāo)管理制度
- 人教版(2025新版)七年級下冊英語:寒假課內(nèi)預(yù)習(xí)重點知識默寫練習(xí)
- 2024年食品行業(yè)員工勞動合同標(biāo)準(zhǔn)文本
- 2025年第一次工地開工會議主要議程開工大吉模板
- 全屋整裝售后保修合同模板
- 高中生物學(xué)科學(xué)推理能力測試
- GB/T 44423-2024近紅外腦功能康復(fù)評估設(shè)備通用要求
- 2024-2030年中國減肥行業(yè)市場發(fā)展分析及發(fā)展趨勢與投資研究報告
- 運動技能學(xué)習(xí)
- 單側(cè)雙通道內(nèi)鏡下腰椎間盤摘除術(shù)手術(shù)護理配合1
評論
0/150
提交評論