語料庫和知識庫的研究現(xiàn)狀

上傳人：地*** IP屬地：山東上傳時間：2023-04-03 格式：DOC 頁數(shù)：10 大?。?2KB 積分：15 舉報 版權申訴

已閱讀5頁，還剩5頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

語料庫和知識庫的研究現(xiàn)狀語料庫和知識庫的研究現(xiàn)狀/語料庫和知識庫的研究現(xiàn)狀語料庫和知識庫研究現(xiàn)狀2015-12-9摘要：語料庫是語料庫語言學研究的基礎資源，也是經(jīng)驗主義語言研究方法的主要資源，它與自然語言辦理有著相輔相成的關系，是用統(tǒng)計語言模型的方法辦理自然語言的基礎資源。知識庫寬泛應用于信息檢索、機器問答系統(tǒng)、自動文摘、文本分類等領域，為進行大規(guī)模的真實性文本的語義解析供應了有利的支持，它也成為自然語言辦理不可以或缺的基礎資源。由于語料庫和知識庫的寬泛應用，此刻國內(nèi)外對語料庫和知識庫的研究給與高度的重視，經(jīng)過過去幾十年的發(fā)展，各國在語料庫和知識庫的建設和應用方面都獲取了很多成就。本文經(jīng)過對語料庫與知識庫相關文件資料的找尋整理，重點介紹當前國內(nèi)外在語料庫和知識庫方面的研究現(xiàn)狀。重點詞：語料庫；知識庫；研究現(xiàn)狀前言語料庫是指依照必然的語言學原則，運用隨機抽樣的方法，收集自然出現(xiàn)的連續(xù)的語言文本也許說話片段而建成的擁有必然容量的大規(guī)模電子文本庫[1]。而知識庫是知識工程中結構化、易操作使用，全面有組織的知識集群，是針對某一（或某些）領域問題求解的需要，采用某種（或若干）知識表示方式在計算機儲藏器中儲藏、組織、管理和使用的互相聯(lián)系的知識片會集。語料庫和知識庫在傳統(tǒng)語言研究、詞典編纂、語言授課、自然語言辦理等領域有重要作用，因此自從20世紀60年代第一個現(xiàn)代意義上的語料庫——美國布朗語料庫(BrownCorpus)出生開始，大批國內(nèi)外的專家學者致力于語料庫和知識庫的研究，近來幾年來國內(nèi)外對于語料庫知識庫的研究獲取了重要的打破，形成了規(guī)模不一的各種語料庫和知識庫，而且涌現(xiàn)了眾多相關語料庫和知識庫的專著、論文等。對于語料庫和知識庫發(fā)展現(xiàn)狀的總結研究，不但可以幫助人們清楚的認識語料庫和知識庫當前發(fā)展的形勢，對今后語料庫知識庫的發(fā)展擁有必然的指導作用，而且對于應用語料庫知識庫發(fā)展自然語言辦理等領域擁有重要意義。研究意義從現(xiàn)代意義上第一個語料庫出現(xiàn)以來,語料庫在國內(nèi)外的發(fā)展均有長足的進步,不僅其規(guī)模越來越大,加工深度越來越深,而且相關語料庫的應用也越來越寬泛[2]。語料庫的迅速發(fā)展對語言學研究領域和應用語言學領域產(chǎn)生了巨大的作用。在語言學研究領域,語料庫為語言研究者和使用者供應了豐富而全面的研究素材,有助于研究者依照大批的語言素材實質(zhì)得出客觀正確的結論。別的，語料庫的現(xiàn)代化使得語言學家可以利用語料庫解析軟件實現(xiàn)語料檢索和頻率統(tǒng)計，幫助人們觀察和掌握語言事實，更為正確的得出結論。在應用語言學領域，語料庫技術與應用語言學的結合也產(chǎn)生了大批的合用成就。比方，應用語料庫產(chǎn)生一系列基于語料庫的詞典，應用語料庫確定語言授課的教材大綱，供應外語授課與研究的優(yōu)異平臺等。而知識庫特別是語言知識庫，是幫助計算機認識人類語言的一個媒介和手段，也是讓計算機逐漸智能起來的物質(zhì)前提[3]。知識庫的成立對于自然語言辦理的發(fā)展擁有重要作用，可以滿足其對語言句子語義知識的要求，在信息檢索、機器問答系統(tǒng)、信息提取、機器翻譯、文本分類、自動文摘等方面獲取了寬泛的應用?；谝陨辖榻B的語料庫和知識庫在此刻研究中的重要作用，對于語料庫和知識庫發(fā)展現(xiàn)狀的研究總結，可以幫助人們更好地認識語料庫和知識庫的此刻已獲取發(fā)展成就和還沒有解決的問題，可以為人們對語料庫知識庫的進一步研究和應用供應必然的指導作用。國內(nèi)發(fā)展現(xiàn)狀語料庫的發(fā)展與現(xiàn)狀自1979年中國開始成立機器可讀的語料庫以來,國內(nèi)語料庫發(fā)展迅速，獲取了相當一部分的成就。（1）早期語料庫早期在中國成立的機器可讀語料庫主要包括：1979年武漢大學成立的漢語現(xiàn)代文學作品語料庫（527萬字）、1983年北京航天航空大學成立的現(xiàn)代漢語語料庫（2000萬字）、1983年北京師范大學成立的中學語文教材語料庫（106萬8千字）以及1983年北京語言學院成立的現(xiàn)代漢語詞頻統(tǒng)計語料庫（182萬字）。早期形成的這些語料庫，基本都是手工方式成立的，成本高、效率低。別的，在早期成立語料庫時，只形成了初步的國家語料庫的成立標準，在語料庫成立的一致規(guī)范方面問題比較突出。（2）國家級大型漢語語料庫在1991年，為了推進漢語的詞法、句法、語義和語用的研究，中國國家語言文字工作委員會開始成立計劃規(guī)模達7000萬漢字的國家級大型漢語語料庫。誠然該語料庫當時在漢語語料庫系統(tǒng)開發(fā)技術上擁有國際當先水平，而且在語料的可靠和注明的正確方面等享有聲威性，但是該語料庫依靠純手工成立，在選材方面也碰到了必然的限制。當前，該語料庫已經(jīng)擁有2000萬字的核心語料，經(jīng)過人們的加工辦理，其正在完成從生語料庫到熟語料庫的過分。（3）大規(guī)模真實文本語料庫隨著技術的進一步發(fā)展，大規(guī)模真實文本語料庫逐漸被成立起來。研究大規(guī)模真實文本語料庫的單位包括北京大學計算語言學研究所、清華大學、山西大學、哈爾濱工業(yè)大學、北京語言文化大學、東北大學、中科院軟件研究所、中科院自動化研究所、香港城市大學以及臺灣中央研究院等。其中代表性成就有：北京大學計算語言學研究所從1992年開始張開對現(xiàn)代漢語語料庫多級加工的研究，先后建成2600萬字的1998年《人民日報》的注明語料庫，2000萬字漢字、1000多萬英語單詞的篇章級英漢比較雙語語料庫以及8000萬字篇章級信息科學與技術領域的語料庫等。清華大學則在1998年景立了1億漢字的語料庫，它重視研究歧義切分的問題，此刻成立的生語料庫已達7-8億字[4]。（4）雙語語料庫在20世紀90年代前后，隨著外語授課的普及，先后出現(xiàn)了各種不同樣的雙語語料庫，比方：北大計算語言學研究所的雙語語料庫、哈爾濱工業(yè)大學的英漢雙語語料庫、東北大學的英漢雙語語段庫等英漢雙語語料庫，北京外國語大學的北京日本學研究中心成立漢語和日語并行語料庫、中國海洋大學語言文學院研制的《蝴蝶》德漢比較語料庫以及復旦大學計算機系成立的漢日英分類熟語料庫。在該時期，中國語料庫的發(fā)展進入到嶄新的蓬勃時期。雙語語料庫的迅速發(fā)展為外語授課供應了豐富的可用資源，對于外語授課的發(fā)展起到了巨大的推進作用。（5）少許民族語語言料庫由于我公民族眾多，民族語言資源豐富，因此近來幾年來，少許民族語語言料庫的發(fā)展獲取了大家的重視。比方，新疆大學從2002年起開始建設現(xiàn)代維吾爾語語料庫系統(tǒng)，當前已有生語料800萬詞；新疆師范大學成立了200萬詞的維吾爾語語料庫，擬發(fā)展到300萬詞；中國社會科學院民族研究所成立了500萬藏語字符的藏語語料庫；內(nèi)蒙古大學成立了帶有初步切分和注明的蒙古語語料庫[5]。誠然由于少許民族語言的特別性，少許民族語料庫的建設還存在一系列問題，但是少許民族語語言料庫的成立足以說明到當前為止我國語料庫的發(fā)展已經(jīng)達到了一個新的高度。知識庫的發(fā)展與現(xiàn)狀在國內(nèi)，此刻比較有名的知識庫是HowNet（知網(wǎng)）、基于WordNet框架開發(fā)的中文看法詞典（CCD）以及臺灣中研院的SinicaBow[6]等。從上世紀末開始，董振東先生就帶領一批專家學者開始成立知網(wǎng)（HowNet），它是一個以漢語和英語的詞語所代表的看法為描述對象，以揭穿看法與看法之間以及概念所擁有的屬性之間的關系為基本內(nèi)容的知識知識庫。知網(wǎng)的發(fā)展從1988年張開基礎研究開始到2008年宣布“知網(wǎng)在線”共經(jīng)歷了九個過程。現(xiàn)此刻，的發(fā)展比較成熟，已經(jīng)成為中國知識資源的總庫，供應了工業(yè)、農(nóng)業(yè)等眾多學科的知識。它不但為語言信息辦理的研發(fā)供應了豐富的知識資源，而且供應了一個進行漢語言計算機辦理的新思路，其在詞義注明、詞義消歧、信息過濾、詞義相似度的計算等好多領域獲取寬泛的應用。CCD是基于WordNet框架開發(fā)的，他不但繼承了WordNet的一部分方法技術，而且依照漢語的特點對WordNet進行了改進，經(jīng)過多年的努力，CCD已包括十萬左右的漢語同義詞集[7]。臺灣中研院開發(fā)的SinicaBow支持英漢雙語盤問；多重語義索引等，而且SinicaBow還包括了不同樣層次的詞匯知識，詞匯的可用資源豐富而全面。外國發(fā)展現(xiàn)狀語料庫的發(fā)展與現(xiàn)狀從20世紀60年代開始，語料庫從第一代逐漸發(fā)展到此刻的第三代，這么多年來，各國在語料庫的發(fā)展方面都獲取了不菲的成績。（1）第一代語料庫20世紀60年代Francis和Kucera在美國Brown大學成立美國布朗語料庫(BrownCorpus)，它是世界上第一個依照系統(tǒng)性原則收集樣本的標準語料庫，主要代表今世美國英語的，擁有100萬詞的規(guī)模。70年代初，英國Lancaster大學、挪威Oslo大學與

Bergen大學結合成立了與布朗語料庫規(guī)模相當?shù)?/p>

LOB

語料庫，它主要代表今世英國英語。

LLC口語語料庫

(London-LundCorpusofSpokenEnglish)

在1975年建成的，其規(guī)模為萬詞的而且?guī)в性敿毜捻嵚勺⒚?。整體來說，第一代語料庫的規(guī)模比較小，基本采用系統(tǒng)的抽樣方法而且基本都以語言研究為目的。（2）第二代語料庫COBUILD語料庫（CollinsBirminghamUniversityInternationalLanguageDatabase，科林斯英語語料庫）是從20世紀80年代開始由英國伯明翰（Birmingham）大學和柯林斯（Collins）初版社合作成立的主要應用于詞典編撰的一個大規(guī)模語料庫，當前它固定在億詞的規(guī)模，而且供應在線檢索。同樣在20世紀80年代朗文語料庫委員會還成立了應用于英語學習詞典編纂的Longman語料庫（朗文語料庫），當前其規(guī)模達5000萬詞次。由于技術的進步，第二代語料庫采用談心的光電符號鑒別技術，拜托了手工成立的麻煩，節(jié)約了語料庫成立的時間和成本，而且第二代語料庫的規(guī)模與第一代語料庫對照均有大幅度提高。（3）第三代語料庫美國計算機協(xié)會（ACL/DCI）建議倡導成立ACL/DCI語料庫，其收集的語料本源寬泛，而且采用了一致的標準通用注明語言和TEI文本編碼建議標準。在20世紀80年代末90年代初，美國賓州大學開始對百萬詞級的語料進行句法和語義注明，把線性的文本語料庫加工成為表示句子的句法和語義結構的樹庫，成立了賓州大學樹庫（PennTreeBank）。到1993年已經(jīng)完成了對300萬詞的英語句子進行了句法結構注明。別的在2000年，其完成了約10萬詞、4185個句子的初版中文樹庫。隨著發(fā)展，第三代語料庫的語料從開始的單語種發(fā)展到多語種，規(guī)模從開始的百萬級發(fā)展到億級、萬億級，采用的文本從抽樣發(fā)展到全文。經(jīng)過三個階段，現(xiàn)此刻除上述所列的語料庫，外國還包括好多其他的語料庫，整體來說，此刻不但中國的語料庫發(fā)展迅速，在外國語料庫也獲取了巨大的發(fā)展成就。知識庫的發(fā)展與現(xiàn)狀外國知識庫的發(fā)展過程中，形成了以描述聚合關系為主的WordNet，以描述組合關系為主的FrameNet[8]。本文將重視介紹WordNet，對于FrameNet不做詳細表達。為認識決詞典中同義信息的組織問題，美國美國普林斯頓大學(PrincetonUniversity)認知科學實驗室開發(fā)了WordNet[9]，它是在線詞匯的語義資源。其基本單元是同義詞會集，而且單元和單元之間主要依靠包括上下文關系、反義關系、整體部分關系等的聚合關系來連接。它包括95600個英語詞條，其中51500個簡單詞，44100個搭配詞，70100個同義詞級會集。其詳細可以應用于詞匯消歧，語義推理，語義理解等領域。存在問題及未來發(fā)展趨勢存在的問題語料庫的問題誠然國內(nèi)外語料庫的建設發(fā)展迅速，但是在語料庫的發(fā)展方面依舊存在很多的問題，主要包括：（1）語料庫建設的規(guī)范問題語料庫的規(guī)范問題主若是對語料加工而言的[10]。誠然在語料庫的發(fā)展過程中形成了《信息辦理用字符集漢字部件規(guī)范》、TEI（TextEncodingInitiative，文本編碼建議，1998年）、CES（CorpusEncodingStandard，語料庫編碼標準）及國際標準SGML(StandardGeneralizedMarkupLanguage，標準通用置口號言)等一系列約束語料庫的標準和規(guī)范，但是語料庫中建設的規(guī)范問題依舊比較嚴重，存在分詞的標準沒有完好確定和一致，文本屬性的規(guī)范未能完好成熟等問題。（2）產(chǎn)權保護和國家語料庫建設問題在此刻社會中，誠然人們寬泛關注語料庫的發(fā)展，重視國家語料庫的建設，但是沒有擬定出臺對于語料庫知識產(chǎn)權保護的法律法規(guī)，以正式初版物為資源的語料庫面對版權的問題，別的也沒有將國家語料庫的建設和保護上升到對于國家資源保護的高度。（3）語料庫的資源共享的問題誠然近來幾年來語料庫資源在較大范圍的共享已經(jīng)成為了可能，但是在資源共享方面依舊存在比較嚴重的問題。一方面，由于建設語料庫的目的不同樣，收集的語料信息也不同樣，這給資源的共享帶來了必然的限制。另一方面，好多語料庫資源的共享是盈利性質(zhì)的，這也限制了語料庫資源的共享。（4）語料庫加工中統(tǒng)計垃圾的問題此刻社會，由于計算機的普及，電子文本獲取寬泛使用，用于生成語料庫資源的越來越多，但是隨著語料庫容量的不斷增大，語料統(tǒng)計中的數(shù)據(jù)稀罕現(xiàn)象會越來越嚴重[11]。而在統(tǒng)計垃圾中可能會儲蓄著好多新的語言現(xiàn)象，因此應該正確的地對待統(tǒng)計垃圾，防備統(tǒng)計中的數(shù)據(jù)稀罕現(xiàn)象。（5）語料庫發(fā)展不平衡隨著語料庫的發(fā)展，語料庫在個領域發(fā)展不平衡的現(xiàn)象越來越嚴重。以中國為例，某些語料庫，比方英漢雙語語料庫，在此刻獲取了迅速的發(fā)展，形成的語料庫規(guī)格各異、數(shù)量眾多，但是在少許民族語言方面，形成的語料庫數(shù)量少，規(guī)模小。因此，我們應該著眼于全局，使得語料庫可以獲取全面平衡的發(fā)展。知識庫的問題誠然知識庫的建設各個國家的重視，但是知識庫依舊存在以下的一些問題：（1）知識獲取問題由于知識的提取技術不可以熟，若是采用機器自動提取知識成立知識庫會降低知識庫的質(zhì)量，而手工成立知識庫誠然保證了質(zhì)量但是效率低、成本高。因此，知識的獲取是阻攔知識庫發(fā)展的一個瓶頸。（2）保護困難由于知識的動向性，使得知識庫需要經(jīng)常的進行保護[12]，當知識庫規(guī)模特別大時，它的保護工作難以進行。未來發(fā)展趨勢誠然語料庫和知識庫的發(fā)展存在上述的一些問題，但是經(jīng)過近幾十年的發(fā)展，無論是在語料庫知識庫的利用還是研究方法上都獲取了長足的進步。而且隨著知識經(jīng)濟的發(fā)展，計算機語言學和自然語言辦理在學界也越來越碰到重視[13]，這也意味著作為其發(fā)展基礎的語料庫和知識庫也越來越獲取人們的重視?？v觀此刻現(xiàn)狀，由于計算機技術的迅速發(fā)展，建設語料庫的語料資源越來越豐富，越來越多的語言研究者依照自己需求成立語料庫，這使得語料庫的建設趨于多樣性、應用趨于多樣化。別的，學習者語料庫、口語語料庫、平行語料庫等應用性比較強的語料庫種類的發(fā)展趨勢可能更為樂觀。而知識庫則會出現(xiàn)本體化和多語化的大趨勢，它們將從不同樣方面填充詞匯語義知識庫在知識共享和知識交流上的不足，使其更好地為自然語言辦理服務[8]?？傊?，語料庫和知識庫在今后相當長的時間內(nèi)都擁有廣闊的發(fā)展空間?？偨Y語料庫主要用來研究語言的特點，隨著技術的現(xiàn)代化，語料庫在語言學研究中據(jù)有著越來越重要的地位。而語言知識庫則是自然語言辦理的基礎，在機器問答系統(tǒng)、信息檢索等方面發(fā)揮重視要的作用。本文大綱介紹了語料庫和知識庫的基本看法,研究語料庫和知識庫的意義、語料庫和知識庫當前存在的一些問題以及對語料庫和知識庫未來發(fā)展的展望，別的，本文重視介紹了國內(nèi)外語料庫以及知識庫的發(fā)展現(xiàn)狀。參照文件[1]劉美良.語料庫語言學綜述[J].科技信息,2010,21期(21):280-281.常寶

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語料庫和知識庫的研究現(xiàn)狀

文檔簡介

溫馨提示

最新文檔

評論

語料庫和知識庫的研究現(xiàn)狀

文檔簡介

溫馨提示

最新文檔

評論

相關文檔