CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)_第1頁(yè)
CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)_第2頁(yè)
CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)_第3頁(yè)
CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)_第4頁(yè)
CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、關(guān)于CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)(如果時(shí)間緊張,可直接跳到最后的舉例部分?。?.1 CCL語(yǔ)料庫(kù)及其檢索系統(tǒng)為純學(xué)術(shù)非盈利性的。不得將本系統(tǒng)及其產(chǎn)生的檢索結(jié)果用于任何商業(yè)目的。CC口承擔(dān)由此產(chǎn)生的一切后果。1.2 本語(yǔ)料庫(kù)僅供語(yǔ)言研究參考之用。語(yǔ)料本身的正確性需要您自己加以核實(shí)1.3 語(yǔ)料庫(kù)中所含語(yǔ)料的基本內(nèi)容信息可以在“高級(jí)搜索”頁(yè)面上,點(diǎn)擊相應(yīng)的鏈接查看。比如:“作者列表”:列出語(yǔ)料庫(kù)中所包含的文件的作者“篇名列表”:列出語(yǔ)料庫(kù)中所包含的篇目名“類型列表”:列出語(yǔ)料庫(kù)中文章的分類信息“路徑列表”:列出語(yǔ)料庫(kù)中各文件在計(jì)算機(jī)中存放的目錄“模式列表”:列出語(yǔ)料庫(kù)中可以查詢的模式1.4 語(yǔ)料庫(kù)中的中

2、文文本未經(jīng)分詞處理。1.5 檢索系統(tǒng)以漢字為基本單位。1.6 主要功能特色: 支持復(fù)雜檢索表達(dá)式(比如不相鄰關(guān)鍵字查詢,指定距離查詢,等等); 支持對(duì)標(biāo)點(diǎn)符號(hào)的查詢(比如查詢”可以檢索語(yǔ)料庫(kù)中所有疑問(wèn)句); 支持在“結(jié)果集”中繼續(xù)檢索; 用戶可定制查詢結(jié)果的顯示方式(如左右長(zhǎng)度,排序等); 用戶可從網(wǎng)頁(yè)上下載查詢結(jié)果(text文件);二關(guān)于查詢表達(dá)式本節(jié)對(duì)CCL語(yǔ)料庫(kù)檢索系統(tǒng)目前支持的查詢表達(dá)式加以說(shuō)明。2.1特殊符號(hào)查詢表達(dá)式中可以使用的特殊符號(hào)包括8個(gè):|$#+-!:這些符號(hào)分為四組:Operator1:|Operator2:$#+-Operaotr3:!Delimiter:符號(hào)的含義如下

3、:(一)Operatori:Operatori是二元操作符,它的兩邊可以出現(xiàn)“基本項(xiàng)”(關(guān)于“基本項(xiàng)”的定義見(jiàn)2.2)(1) |相當(dāng)于邏輯中的“或”關(guān)系。(二)Operator2:Operator2是二元操作符,它的兩邊可以出現(xiàn)“簡(jiǎn)單項(xiàng)”(關(guān)于“簡(jiǎn)單項(xiàng)”的定義見(jiàn)2.3)(2) $表示它兩邊的“簡(jiǎn)單項(xiàng)”按照左邊在前、右邊在后的次序出現(xiàn)于同一句中。兩個(gè)“簡(jiǎn)單項(xiàng)”之間相隔字?jǐn)?shù)小于或等于Number(3) #表示它兩邊的“簡(jiǎn)單項(xiàng)”出現(xiàn)于同一句中,不考慮前后次序。兩個(gè)“簡(jiǎn)單項(xiàng)”之間相隔字?jǐn)?shù)小于或等于Number(4) +表示它兩邊的“簡(jiǎn)單項(xiàng)”按照左邊在前、右邊在后的次序出現(xiàn)于同一句中。兩個(gè)“簡(jiǎn)單項(xiàng)”之間

4、相隔字?jǐn)?shù)剛好等于Number(5)-表示它左邊的“簡(jiǎn)單項(xiàng)”出現(xiàn)于句子中,并且,在右邊相隔Number個(gè)字的范圍內(nèi),-號(hào)右邊的“簡(jiǎn)單項(xiàng)”不出現(xiàn)。(6)表示它左邊的“簡(jiǎn)單項(xiàng)”出現(xiàn)于句子中,并且,在左邊相隔Number個(gè)字的范圍內(nèi),號(hào)右邊的“簡(jiǎn)單項(xiàng)”不出現(xiàn)。(三)Operator3:Operator3是一元操作符。(7)!表示它后面的“簡(jiǎn)單項(xiàng)”是本次查詢的主關(guān)鍵字符串,顯示查詢結(jié)果時(shí)以該“簡(jiǎn)單項(xiàng)”作為中心來(lái)進(jìn)行定位。注意:Operator2后面的Number是必須的,不能省略。Number=0表示相鄰,Number=1表示間隔1個(gè)單位,其余依此類推。(四)Delimiter:西文冒號(hào):是分隔符(8)

5、:跟在path,author,nametype,pattern等關(guān)鍵字后面,用于分隔關(guān)鍵字和它們的取值。這樣形成的查詢式我們稱之為“過(guò)濾項(xiàng)”(見(jiàn)下面2.5)注意:上述特殊字符不能作為基本項(xiàng)在語(yǔ)料庫(kù)中進(jìn)行檢索。path,author等關(guān)鍵字可以作為基本項(xiàng)進(jìn)行檢索。2.2基本項(xiàng)指不包含特殊符號(hào)和空格的連續(xù)字符串2.3簡(jiǎn)單項(xiàng)簡(jiǎn)單項(xiàng)可以由以下三種形式的序列組成(1) 基本項(xiàng)(2) 基本項(xiàng)1Operatori基本項(xiàng)2Operatori.(3)(基本項(xiàng)1Operatori基本項(xiàng)2Operatori.)注意:在實(shí)際表達(dá)式中,Operatori前后不能有空格2.4 復(fù)雜項(xiàng)復(fù)雜項(xiàng)可以由以下三種形式的序列組成(D

6、簡(jiǎn)單項(xiàng)(2) 簡(jiǎn)單項(xiàng)iOperator2Number簡(jiǎn)單項(xiàng)2(3) 簡(jiǎn)單項(xiàng)iOperator2NumberOperator3簡(jiǎn)單項(xiàng)2其中第二種形式,等價(jià)于Operator3簡(jiǎn)單項(xiàng)iOperator2Number簡(jiǎn)單項(xiàng)2,換句話說(shuō),如果以第一個(gè)簡(jiǎn)單項(xiàng)作為查詢結(jié)果的顯示中心,!可以省略。注意:Number為0和正整數(shù)。Operator2,Operator3前后均不能有空格2.5 過(guò)濾項(xiàng)過(guò)濾項(xiàng)可以包含以下表達(dá)式:(1) author:簡(jiǎn)單項(xiàng)(2) name簡(jiǎn)單項(xiàng)(3) path:簡(jiǎn)單項(xiàng)(4) type:簡(jiǎn)單項(xiàng)(5) pattern:簡(jiǎn)單項(xiàng)("author:簡(jiǎn)單項(xiàng)”的含義是指“author:

7、"后面跟的表達(dá)式是上面2.3”簡(jiǎn)單項(xiàng)”所定義的字符串,其余類推)注意:通過(guò)指定過(guò)濾項(xiàng)中author(作者),name(篇名),path(文件路徑),type(文章類型),用戶可以縮小查詢語(yǔ)料的范圍。其中過(guò)濾項(xiàng)pattern專門用于查詢漢語(yǔ)中的各種模式,比如“AABB這樣的重疊形式,“AB不AB'這樣的反復(fù)問(wèn)形式,等等。比如:想查詢“老舍”的語(yǔ)料,在查詢表達(dá)式中輸入“author:老舍”即可;想查詢唐代語(yǔ)料,在查詢表達(dá)式中輸入“path:08唐”即可(唐代語(yǔ)料均放在包含“08唐”目錄下)。想查詢唐代語(yǔ)料中“給”的使用情況,可以在查詢表達(dá)式中輸入“path:唐給"。(“

8、path:唐”跟關(guān)鍵字“給”之間需有空格隔開(kāi))想查詢“老舍”先生的文章中“A來(lái)A去”的用法,在查詢表達(dá)式中輸入“author:老舍pattern:A來(lái)A去”即可。各過(guò)濾項(xiàng)的具體取值,用戶可以在“高級(jí)搜索”頁(yè)面中查到(參見(jiàn)上文1.2).下面是古代漢語(yǔ)語(yǔ)料一級(jí)目錄列表:01周02春秋03戰(zhàn)國(guó)04西漢05東漢06六朝07隋08唐09五代10北宋11南宋12元13明14清15民國(guó)筆記辭書大藏道藏二十五史蒙學(xué)讀物全宋詞全唐詩(shī)全元曲十三經(jīng)注疏諸子百家2.6 子旬子句可以是以下兩類表達(dá)式:(1) 復(fù)雜項(xiàng)(2) 過(guò)濾項(xiàng)2.7 查詢表達(dá)式查詢表達(dá)式可以是以下形式的序列:(1)子旬(2) 子旬1子旬2.(子旬和子

9、句之間需要以空格隔開(kāi),表示邏輯“AND關(guān)系)三關(guān)于查詢結(jié)果1每次查詢,網(wǎng)頁(yè)上最多列出5000條結(jié)果(分頁(yè)列出,每頁(yè)50條)。2用戶可以將查詢所得結(jié)果保存到自己本地計(jì)算機(jī)的磁盤上。在查詢結(jié)果顯示網(wǎng)頁(yè)上,用戶可以根據(jù)需要指定下載結(jié)果的條數(shù)(缺省為500條),點(diǎn)擊“下載”按鈕,查詢結(jié)果即以txt文件形式保存到本地磁盤上。每句之后在【】?jī)?nèi)注明了該句的出處、作者、路徑等信息。(如果條數(shù)較多,文件會(huì)比較大,下載速度緩慢,請(qǐng)耐心等待,不要重復(fù)提交下載請(qǐng)求)。3查詢結(jié)果以“旬”為單位輸出顯示,用戶可以指定查詢結(jié)果的顯示長(zhǎng)度(左右n個(gè)字范圍)。小提示:如果想顯示查詢關(guān)鍵字所在的整句,可以通過(guò)指定足夠大的顯示長(zhǎng)度

10、(比如1000)來(lái)實(shí)現(xiàn)。當(dāng)用戶指定的顯示長(zhǎng)度超過(guò)句長(zhǎng)時(shí),以句長(zhǎng)為限顯示結(jié)果。4關(guān)于查詢結(jié)果的“標(biāo)亮”和“定位”顯示標(biāo)亮詞:在句子中以紅顏色標(biāo)出的詞,可以有多個(gè);中心詞:是一個(gè)特殊的標(biāo)亮詞,顯示查詢結(jié)果的每個(gè)句子時(shí),以“中心詞”為網(wǎng)頁(yè)中心位置對(duì)齊。小提示:(1) 查詢表達(dá)式中的“復(fù)雜項(xiàng)”和“過(guò)濾項(xiàng)”中的pattern項(xiàng)目都可以作為“標(biāo)亮詞”。這里“標(biāo)亮詞”是指跟“標(biāo)亮詞”匹配的句子片斷。(2) 默認(rèn)的中心詞是第一個(gè)“標(biāo)亮詞”,即在用戶沒(méi)有用Operator2指定“中心詞”的情況下,系統(tǒng)自動(dòng)把第一個(gè)“標(biāo)亮詞”當(dāng)作“中心詞”。如果用戶用Operator2指定了“中心詞”,那么該詞為用戶指定的“中心詞

11、”。5關(guān)于查詢結(jié)果的“排序”用戶可以指定按照“中心詞”左邊字符串排序,或按照“中心詞”右邊字符串排序。排序方式為字符內(nèi)碼(G幽)降序。四在結(jié)果中查找對(duì)于復(fù)雜的查詢要求,可以嘗試通過(guò)多次查詢完成,即利用“在結(jié)果中查找”功能,逐次逼近檢索目標(biāo)。比如:您想查找“寧可,也”的例句,同時(shí)不希望“也”后面出現(xiàn)“不”這樣的否定詞。您可以先輸入查詢表達(dá)式“寧可$10也”,返回的結(jié)果是包含“寧可”和“也”,且二者相隔10字以內(nèi)的句子,然后您再輸入查詢表達(dá)式“也-4不”,這樣就可以把“也”后面4字范圍內(nèi)有“不”的句子剔除掉了。五舉例查詢式例子1:計(jì)算機(jī)硬件意思是:查出所有包含“計(jì)算機(jī)硬件”的句子。查詢式例子2:把

12、被意思是:查出所有包含“把”,同時(shí)也包含“被”的句子,即兩個(gè)關(guān)鍵字之間無(wú)次序限制,無(wú)距離限制,只需要在一句范圍內(nèi)。查詢式例子3:把|被意思是:查出含有“把”或“被”的句子,兩個(gè)關(guān)鍵字只需有一個(gè)在旬中出現(xiàn),就作為查詢結(jié)果輸出。查詢式例子4:把-4不意思是:查出含有“把”,但在“把”右邊4個(gè)字范圍內(nèi)不含“不”的句子。注意:-號(hào)屬于opertaor2,其后必須有數(shù)字,且不能有空格。查詢式例子5:給4把意思是:查出含有“給”,但在“給”左邊4個(gè)字范圍內(nèi)不含“把”的句子。注意:號(hào)屬于operator2,其后必須有數(shù)字,且不能有空格。查詢式例子6:與其$10不如意思是:查出同時(shí)含有“與其”和“不如”的句子

13、,并且“與其”在先,“不如”在后出現(xiàn),間隔10字以內(nèi)。查詢式例子7:能力#3大意思是:查出同時(shí)含有“能力”和“大”的句子,且“能力”和“大”之間的問(wèn)隔在3個(gè)字之內(nèi),二者的先后次序不受限制。查詢式例子8:吃+3虧意思是:查出同時(shí)含有“吃”和“虧”的句子,并且“吃”在先,“虧”在后出現(xiàn),二者之間剛好間隔3個(gè)字。查詢式例子9:被$10!給意思是:查出同時(shí)含有“被”和“給”的句子,并且“被”在先,“給”在后出現(xiàn),二者之間間隔10個(gè)字以內(nèi)。顯示查詢結(jié)果時(shí),以“給”為“中心詞”,即“給”居中對(duì)齊。查詢式例子10:(把|被)$10給意思是:查出同時(shí)含有“把”和“給”的句子,并且“把”在先,“給”在后出現(xiàn),二者之間間隔10個(gè)字以內(nèi)?;蛘撸槌鐾瑫r(shí)含有“被”和“給”的句子,并且“被”在先,“給”在后出現(xiàn),二者之間間隔10個(gè)字以內(nèi)。查詢式例子11:(把|被)$10!給意思是:查出同時(shí)含有“把”和“給”的句子,并且“把”在先,“給”在后出現(xiàn),二者之間間隔10個(gè)字以內(nèi)?;蛘?,查出

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論