版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
國(guó)家語(yǔ)委語(yǔ)料庫(kù)現(xiàn)代漢語(yǔ)通用平衡語(yǔ)料庫(kù)8800萬(wàn)字語(yǔ)料4500萬(wàn)字標(biāo)注語(yǔ)料庫(kù)(詞語(yǔ)切分詞類標(biāo)注)句法樹(shù)庫(kù)國(guó)家語(yǔ)委語(yǔ)料庫(kù)的管理由國(guó)家語(yǔ)委授權(quán)語(yǔ)言文字應(yīng)用研究所負(fù)責(zé)國(guó)家語(yǔ)委語(yǔ)料庫(kù)建設(shè)
1991年12月國(guó)家語(yǔ)委語(yǔ)言文字應(yīng)用管理司提出立項(xiàng)建議1992年4月國(guó)家語(yǔ)委語(yǔ)言文字應(yīng)用管理司在京組織召開(kāi)了現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)選材原則專家論證會(huì)1993年1月制訂《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)選材原則》1993年9月召開(kāi)了現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)選材專家審定會(huì)2001年底建成7000萬(wàn)字的生語(yǔ)料庫(kù)2003年底已完成4500萬(wàn)字語(yǔ)料的詞語(yǔ)切分和詞性標(biāo)注加工現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)的主要用途及選材規(guī)模主要用途語(yǔ)言文字的信息處理語(yǔ)言文字規(guī)范和標(biāo)準(zhǔn)的制定語(yǔ)言文字的學(xué)術(shù)研究語(yǔ)文教育語(yǔ)言文字的社會(huì)應(yīng)用選材規(guī)模規(guī)模較大的通用語(yǔ)料庫(kù),其選材字?jǐn)?shù)擬定在5000萬(wàn)字左右,包括抽樣材料和整篇材料。教材字?jǐn)?shù)另計(jì)。選材的分類
依據(jù)材料內(nèi)容,選材大體作如下分類:教材大中小學(xué)教材單作一類,約2000萬(wàn)字。不計(jì)入5000萬(wàn)字的語(yǔ)料之內(nèi)。人文與社會(huì)科學(xué)的語(yǔ)言材料,包括:政法(含哲學(xué)、政治、宗教、法律等);歷史(含民族等)社會(huì)(含社會(huì)學(xué)、心理、語(yǔ)言、教育、文藝?yán)碚?、新聞學(xué)、民俗學(xué)等);經(jīng)濟(jì);藝術(shù)(含音樂(lè)、美術(shù)、舞蹈、戲劇等);文學(xué)(含口語(yǔ));軍體;生活(含衣食住行等方面的普及讀物)。自然科學(xué)(含農(nóng)業(yè)、醫(yī)學(xué)、工程與技術(shù))報(bào)刊應(yīng)用文3.選材年限及密度教材類選取現(xiàn)在通用的教材為建庫(kù)的語(yǔ)言材料。中小學(xué)課本所選內(nèi)容涉及各個(gè)學(xué)科的基本知識(shí),一般為典范的現(xiàn)代漢語(yǔ)作品,具有相當(dāng)?shù)钠占靶?、代表性。人文與社會(huì)科學(xué)類以1919年為上限,選取五四以來(lái)的語(yǔ)言材料。對(duì)五四以來(lái)各個(gè)歷史時(shí)期的語(yǔ)料采取不等密度選用的方式。1919——1925年 鑒于五四時(shí)期的白話文仍留有文言痕跡,擬選用少量的對(duì)后世影響較大的代表性作品。被選用的作品在行文上要盡量符合現(xiàn)代漢語(yǔ)的規(guī)范。這部分語(yǔ)料擬占人文與社會(huì)科學(xué)類的5%。1926——1949年 白話文逐步脫離文言痕跡,現(xiàn)代漢語(yǔ)日趨成熟的時(shí)期。這部分語(yǔ)料擬占人文與社會(huì)科學(xué)類的15%。1950——1965年 中華人民共和國(guó)的成立給社會(huì)文化生活帶來(lái)巨大變化,新詞新語(yǔ)大量涌現(xiàn)。這部分語(yǔ)料擬占人文與社會(huì)科學(xué)類的25%。1966——1976年 文化大革命時(shí)期產(chǎn)生的作品,其中許多隨著文革的結(jié)束而僅作為歷史詞語(yǔ)存于現(xiàn)代漢語(yǔ)之中。這部分語(yǔ)料擬占人文與社會(huì)科學(xué)類的5%。1977—— 新時(shí)期的語(yǔ)料代表了現(xiàn)代漢語(yǔ)的最新發(fā)展。這部分語(yǔ)料擬占人文與社會(huì)科學(xué)類的50%。自然科學(xué)(含農(nóng)業(yè)、醫(yī)學(xué)、工程與技術(shù))類目前比較通用的中、小學(xué)各科教材。目前比較通用的具有通論性質(zhì)的大學(xué)各科基礎(chǔ)必修課程的教材。涉及自然科學(xué)各個(gè)門類的科普讀物?,F(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)選材字?jǐn)?shù)的分布人文與社會(huì)科學(xué)的語(yǔ)言材料占全部5000萬(wàn)字語(yǔ)料的60%,為3000萬(wàn)字。這3000萬(wàn)字在各個(gè)學(xué)科的分布見(jiàn)表一。文學(xué)的語(yǔ)言材料占人文與社會(huì)科學(xué)類的50%,共1500萬(wàn)字。這1500萬(wàn)字在不同體裁、題材的語(yǔ)料的分布見(jiàn)表二。長(zhǎng)、中、短篇小說(shuō)的選取比例大致為:長(zhǎng):中:短=1:2:3語(yǔ)料的通用性原則和描述性原則語(yǔ)料的通用性原則作為通用型語(yǔ)料庫(kù),現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)應(yīng)真實(shí)地反映現(xiàn)代漢語(yǔ)在文字、詞匯、語(yǔ)法、語(yǔ)義等方面的全貌。現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)在語(yǔ)料的選擇上,應(yīng)當(dāng)具有區(qū)別性特征。有別于專業(yè)性。有別于地域性。有別于純口語(yǔ)性。為確保5000萬(wàn)字語(yǔ)料的質(zhì)量,盡可能地提高所選語(yǔ)料在采字、采詞、采句和采義等方面的涵蓋量,選材不僅要考慮到語(yǔ)料的時(shí)間層次、文化層次和社會(huì)使用面層次,還應(yīng)采取“抓住中心,其他補(bǔ)充”的方式。時(shí)間層次。文化層次。以具有高中文化程度的人能夠閱讀的語(yǔ)料為主,其他文化程度為輔。社會(huì)使用面層次。以社會(huì)使用面較為廣泛的語(yǔ)料為主,其他語(yǔ)料為輔進(jìn)行補(bǔ)充;以人文與社會(huì)科學(xué)為主,自然科學(xué)為輔;以門類為主,以語(yǔ)體為輔,對(duì)門類進(jìn)行補(bǔ)充。語(yǔ)料的描述性原則從現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)建設(shè)的主要用途出發(fā),語(yǔ)料應(yīng)在必要的人工干預(yù)的前提下,做描述性選取,以便為語(yǔ)言文字的規(guī)范與科研提供客觀的科學(xué)依據(jù)。為了保證現(xiàn)代漢語(yǔ)的字、詞、句、義在語(yǔ)料中具有合理的出現(xiàn)頻率,語(yǔ)料的選擇應(yīng)在控制比例的前提下,盡量做到采樣廣泛。樣本原則
語(yǔ)言材料的多樣性選用政論性文章、新聞報(bào)道、各類文學(xué)藝術(shù)作品、科普讀物、通俗讀物、學(xué)術(shù)專論及各種應(yīng)用文語(yǔ)體等現(xiàn)代漢語(yǔ)作品。語(yǔ)言材料的完整性
2000字以下的文章原則上全篇采用。報(bào)紙可采取整篇文章、整版和整張相結(jié)合的方式。語(yǔ)言材料的遍歷性選材要注意各學(xué)科,各學(xué)科分支,各行各業(yè),以及社會(huì)生活各個(gè)領(lǐng)域的語(yǔ)言文字應(yīng)用的代表性。語(yǔ)料抽樣抽樣的數(shù)量與方式書(shū)籍抽樣數(shù)量一般占全書(shū)字?jǐn)?shù)的3——5%,字?jǐn)?shù)最多不超過(guò)10000字。樣本容量2000字,允許±500字的伸縮。報(bào)紙采用整版(4版或8版)選用的方式。不同的報(bào)紙選用不同的月份,以免內(nèi)容重復(fù)。報(bào)紙上的廣告、啟事等歸在應(yīng)用文類,不在報(bào)刊類語(yǔ)料的統(tǒng)計(jì)之列??锩勘究锷纤x的總字?jǐn)?shù)原則上不超過(guò)5000字。樣本容量2000字,允許±500字的伸縮。對(duì)同一版面的不同文章,按從上至下、從左到右的順序選取。一個(gè)樣本必為同一作者的同一篇文章,限字?jǐn)?shù)不限樣本數(shù)(報(bào)刊除外)。每個(gè)樣本之中必為連續(xù)的語(yǔ)料內(nèi)容。應(yīng)用文(包括廣告、說(shuō)明書(shū)等)2000字以內(nèi)的應(yīng)用文宜整篇選用。對(duì)于篇幅較長(zhǎng)的應(yīng)用文,所選樣本的容量為2000字,允許±500字的伸縮。補(bǔ)充以上有關(guān)選材年限及密度的規(guī)定是著眼于科學(xué)的整體發(fā)展而制定的。各個(gè)學(xué)科的發(fā)展在不同的年代并不是齊頭并進(jìn)的,可根據(jù)具體情況適當(dāng)調(diào)整依年限分布的比例、字?jǐn)?shù)。調(diào)整的理由、調(diào)整后的比例和字?jǐn)?shù)當(dāng)詳細(xì)說(shuō)明,并作為附件收于清單之后。大學(xué)教材門類以國(guó)家規(guī)定的大學(xué)基礎(chǔ)必修課為準(zhǔn)。避免選取文言色彩較重的篇章作語(yǔ)料,例如魯迅等作家的作品不宜用作語(yǔ)料。避免選取詩(shī)歌作語(yǔ)料;剔除篇章中詩(shī)歌形式的內(nèi)容。設(shè)計(jì)樣本分布表一:人文與社會(huì)科學(xué)類科
目比
例字?jǐn)?shù)1919-19251926-19491950-19651966-19761977-5%15%25%5%50%哲學(xué)8.3%25012.537.562.512.5125歷史8.3%25012.537.562.512.5125社會(huì)8.3%25012.537.562.512.5125經(jīng)濟(jì)8.3%25012.537.562.512.5125藝術(shù)8.3%25012.537.562.512.5125文學(xué)50%15007522537575750其他8.3%25012.537.562.512.5125設(shè)計(jì)樣本分布表二:文學(xué)類(含口語(yǔ))體題裁材比例1919-19251926-19491950-19651966-19761977-5%15%25%5%50%小說(shuō)30%45022.567.5112.522.5225散文(雜文)20%30015457515150傳記10%1501522.537.51575報(bào)告文學(xué)10%150
50
100科幻10%150
50
100口語(yǔ)20%300154575151501993年1月制訂《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)選材原則》具體選材任務(wù)分別由中國(guó)社會(huì)科學(xué)院語(yǔ)言所、北京師范大學(xué)中文系和中國(guó)人民大學(xué)中文系三個(gè)課題組承擔(dān)。選材工作自1992年底開(kāi)始,按照通用性、描述性、實(shí)用性等原則系統(tǒng)地抽樣選擇了1919-1992年的現(xiàn)代漢語(yǔ)語(yǔ)言材料7000萬(wàn)字,由人文與社會(huì)科學(xué)、自然科學(xué)及綜合三個(gè)大類約40個(gè)小類組成。1.人文與社會(huì)科學(xué)類劃分為8個(gè)大類和30個(gè)小類:(1)政法:哲學(xué)、政治、宗教、法律;(2)歷史:歷史、考古、民族;(3)社會(huì):社會(huì)學(xué)、心理、語(yǔ)言文字、教育、文藝?yán)碚摗⑿侣?、民俗;?)經(jīng)濟(jì):工業(yè)經(jīng)濟(jì)、農(nóng)業(yè)經(jīng)濟(jì)、政治經(jīng)濟(jì)、財(cái)貿(mào)經(jīng)濟(jì);(5)藝術(shù):音樂(lè)、美術(shù)、舞蹈、戲??;(6)文學(xué):小說(shuō)、散文、傳記、報(bào)告文學(xué)、科幻、口語(yǔ);(7)軍體:軍事、體育;(8)生活。2.自然科學(xué)劃分為6類:數(shù)理、生化、天文地理、海洋氣象、農(nóng)林、醫(yī)藥衛(wèi)生。3.綜合類語(yǔ)料由應(yīng)用文和難于歸類的其他語(yǔ)料兩部分組成。應(yīng)用文使用很廣泛,主要涉及以下6類:(1)行政公文:請(qǐng)示、報(bào)告、批復(fù)、命令、指示、布告、紀(jì)要、通知等;(2)章程法規(guī):章程、條例、細(xì)則、制度、公約、辦法、法律條文等;(3)司法文書(shū):訴訟、辯護(hù)詞、控告信、委托書(shū)等;(4)商業(yè)文告:說(shuō)明、廣告、調(diào)查報(bào)告、經(jīng)濟(jì)合同等;(5)禮儀辭令:歡迎詞、賀電、訃告、唁電、慰問(wèn)信、祝酒詞等;(6)實(shí)用文書(shū):請(qǐng)假條、檢討、申請(qǐng)書(shū)、請(qǐng)?jiān)笗?shū)等。語(yǔ)料來(lái)源包括教材、報(bào)紙、綜合性刊物、專業(yè)刊物、圖書(shū)等。每個(gè)樣本的容量為2000字左右,書(shū)籍的抽樣字?jǐn)?shù)一般占全書(shū)總字?jǐn)?shù)的3-5%,最多不超過(guò)10000字;每本刊物上所選的總字?jǐn)?shù)原則上不超過(guò)5000字。各類語(yǔ)料所占比例如下:
人文與社會(huì)科學(xué)類語(yǔ)料占語(yǔ)料總量的59.6%,自然科學(xué)類語(yǔ)料占語(yǔ)料總量的17.24%,綜合類語(yǔ)料占語(yǔ)料總量的9.36%,取材于報(bào)紙的語(yǔ)料,難于劃分門類和語(yǔ)體,因此單獨(dú)計(jì)算,報(bào)紙語(yǔ)料占語(yǔ)料總量的13.79%。另外,取材于教材的語(yǔ)料總量有2000萬(wàn)字,已經(jīng)按學(xué)科計(jì)入各類語(yǔ)料。當(dāng)前語(yǔ)料庫(kù)樣本分布-類別當(dāng)前語(yǔ)料庫(kù)樣本分布-
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電信行業(yè)薪資調(diào)研報(bào)告
- 旅游行業(yè)前臺(tái)接待工作總結(jié)
- 二年級(jí)班主任期中工作總結(jié)溫馨關(guān)懷成長(zhǎng)陪伴
- 秘書(shū)工作的職業(yè)素養(yǎng)培養(yǎng)計(jì)劃
- 公園服務(wù)員工作內(nèi)容
- 銀行柜員服務(wù)工作評(píng)價(jià)
- 2024年筍的秘密教案8篇
- 出賣房屋合同(2篇)
- 第17課 二戰(zhàn)后資本主義的新變化(分層作業(yè))(原卷版)
- 第2單元 古代歐洲文明(A卷·知識(shí)通關(guān)練)(原卷版)
- 流動(dòng)資金自動(dòng)測(cè)算表(內(nèi)自帶計(jì)算公式)
- 汽車整車廠和動(dòng)力總成廠房火災(zāi)危險(xiǎn)性分類
- 7實(shí)用衛(wèi)生統(tǒng)計(jì)學(xué)總-國(guó)家開(kāi)放大學(xué)2022年1月期末考試復(fù)習(xí)資料-護(hù)理本復(fù)習(xí)資料
- 精品資料(2021-2022年收藏)集團(tuán)各控股子公司董事會(huì)議事規(guī)則
- t-橋式起重機(jī)設(shè)計(jì)計(jì)算書(shū)
- 全口義齒印模及頜位關(guān)系記錄ppt課件
- 定點(diǎn)洗車協(xié)議書(shū)(共2頁(yè))
- 電除塵器計(jì)算
- 桿塔選型(高度、形式、基礎(chǔ))
- Q∕CR 9213-2017 鐵路架橋機(jī)架梁技術(shù)規(guī)程
- 加油站消防設(shè)計(jì)文件(范例)
評(píng)論
0/150
提交評(píng)論