




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
基于XML的清人小學(xué)注疏五種詞源研究語料庫的研制和應(yīng)用基于XML的清人小學(xué)注疏五種詞源研究語料庫的研制和應(yīng)用
?廣雅疏證》?說文解字注》?爾雅義疏》?方言箋疏》?釋名疏證補》這五部清代小學(xué)注疏作品,不僅保留了歷代探索字詞源流豐盛的詁訓(xùn)資料,而且能以“因聲求義〞之法疏解詞義、補證理據(jù)、說解詞源,堪稱傳統(tǒng)詞源研究的一座寶庫?,F(xiàn)代先進的信息技術(shù),為我們利用這些古籍發(fā)展現(xiàn)代詞源學(xué)研究提供了有力撐持。
我們利用XML標(biāo)注技術(shù)[1]建成了清人小學(xué)注疏五種詞源研究語料庫,該語料庫對清代五部小學(xué)注疏詞源研究成果的諸多方面有著準(zhǔn)確的反映。通過檢索該語料庫,研究者可以及時而分明地了解:1.各家對某組語詞是否同源的判斷;2.各家論證某組語詞同源關(guān)系所征引的文獻證據(jù)和語音證據(jù);3.各家研究古今字、通假字、異體字的情況。下文將對該語料庫的建設(shè)作詳細介紹。
二、電子文本的生產(chǎn)
清人小學(xué)注疏五種的電子文本由吾師尉遲治平教授及門下弟子共同完成,筆者為主要參與者之一。
五種文本均系手工錄入,所用底本之版本信息如下:
?廣雅疏證》(中華書局,王氏家刻本影印,1983年版)
?說文解字注》(上海古籍出版社,經(jīng)韻樓本影印,1981年版)
?爾雅義疏》(上海古籍出版社,郝氏家刻本影印,1983年版)
?方言箋疏》〔上海古籍出版社,仁和王文韶紅蝠山房??居坝。?983年版〕
?釋名疏證補》〔上海古籍出版社,光緒丙申刊本影印,1984年版〕
我們在制作以上電子文本的過程中,以“存真〞為根本原那么,盡量保持典籍原貌。
所有文本文件均采用支持超大字符集的“UTF-8編碼〞?!癠TF-8編碼〞是國際規(guī)范超大字符集統(tǒng)一碼“Unicode〞的一種變長字符編碼,又稱“萬國碼〞。用在網(wǎng)頁上,可以在同一頁面顯示簡體中文、繁體中文及其他語言,其顯示范圍遠大于“ANSI〞。[2]在字體選擇上,我們選擇了“宋體-方正超大字符集〞和“PMingLiU-ExtB〞字體,以保證絕大多數(shù)古籍漢字的正確錄入與顯示。即便如此,清人小學(xué)注疏五種中依然有少數(shù)古文字、俗字、別字、冷僻字等無法正常錄入和顯示。針對此問題,我們對古籍文本在堅持“存真〞的根本原那么下,用既有的漢字字形來組字造字,其組字規(guī)那么及例如如下:
表1:
所用符號字形結(jié)構(gòu)表明例如
*左右結(jié)構(gòu)明:日*月
/高低結(jié)構(gòu)皇:白/王
@包含結(jié)構(gòu)虎:虍@幾
《《增減部件虔:虎-幾+文
所有文本均系繁體字純文本,能夠進行字符串的全文檢索,并能夠供諸位學(xué)人根據(jù)自己需要作進一步加工或標(biāo)注。
三、清人小學(xué)注疏五種的數(shù)據(jù)建模
〔一〕構(gòu)建樹形結(jié)構(gòu)圖
清人小學(xué)注疏五種橫跨雅學(xué)、說文學(xué)兩大領(lǐng)域,性質(zhì)不同,體例不一,具體文檔結(jié)構(gòu)更是紛繁復(fù)雜?,F(xiàn)要匯合五種注疏,綜合利用,惟有求同存異,小而統(tǒng)之,粗分大類。
大致而言,五種注疏皆包含了序言、正文、附錄三個局部。正文局部包含了大量我們需要分析的語言學(xué)屬性。初步分析,五種注疏的正文局部都是篇目名和逐條小學(xué)注疏循環(huán)構(gòu)成的一個整體。
由小學(xué)原文和清人注疏構(gòu)成的單條小學(xué)注疏的內(nèi)部情況雖復(fù)雜多樣,但各個研究者都可以根據(jù)自己的研究目的,對其內(nèi)容作出自己的分析。因我們的研究主要關(guān)乎詞源研究,所以我們將單條小學(xué)注疏下面細分出一條條分析聲義同源的字詞關(guān)系斷語,字詞關(guān)系斷語下面又可以析分出數(shù)個聲義同源的同源字。
基于詞源學(xué)的研究初衷,我們畫出了清人小學(xué)注疏五種文檔的樹形結(jié)構(gòu)圖,如圖1:
圖1:文檔結(jié)構(gòu)樹形圖
〔二〕使用XSDSchema進行數(shù)據(jù)建模
1.設(shè)計標(biāo)記名
鑒于我們需要提取分析的語言屬性、語言知識都存儲在清人小學(xué)注疏五種文檔中的正文局部,為了文檔結(jié)構(gòu)層次的簡潔、經(jīng)濟,我們擬直接以清人小學(xué)注疏五種正文作為我們的根元素,序言、附錄等暫時被剝離,這不會影響我們工作的發(fā)展。另外,由于目前大量主流軟件尚不支持漢字標(biāo)記,我們便采用漢語拼音作為標(biāo)記。對根元素及各節(jié)點子元素的標(biāo)記分別定義如下:
清人小學(xué)注疏五種正文:qingrenxiaoxuezhushu
篇目名:pianmuming
疏證語段:zhushuquanwen
字詞關(guān)系斷語:ziciguanxiduanyu
同源字:tongyuanzi
2.編寫擴展名為“xsd〞的文件
Schema是強大而靈活的數(shù)據(jù)建模工具。XMLSchema的W3C的推薦規(guī)范叫作XSD,它可以準(zhǔn)確地描述文檔結(jié)構(gòu),即定義XML文件中允許哪些元素和屬性、哪些元素和屬性是必需的、哪些是可選的、允許的數(shù)據(jù)種類以及XML文件內(nèi)容和結(jié)構(gòu)的其他方面。使用XSD建模的成品是擴展名為“xsd〞的源文件。[3]該文件代表了上面我們對清人小學(xué)注疏五種文檔結(jié)構(gòu)分析的成果,既能夠鏈接到已有的XML文檔中,以驗證其文檔的有效性,也可以作為模式架構(gòu),添加到文本編輯器中,以實現(xiàn)XML標(biāo)記的自動標(biāo)注。其源代碼本文暫略。
四、清人小學(xué)注疏五種的標(biāo)注辦法
〔一〕添加架構(gòu)
Office2022聲稱全面支持XML,我們使用其組件Word2022中文版作為XML文檔的編輯器。雖然目前還有大量的處理XML文檔的專門軟件,但它們遠不及Word2022通用易得;特別是Word2022對超大字符集的支持功能在很多軟件中還未實現(xiàn),也促使我們選擇它作為我們工作的軟件平臺。[4]
首先,我們用Word2022翻開我們制作的清人小學(xué)注疏五種電子純文本。然后在“工具〞菜單上,單擊“模板和加載項〞,然后單擊“XML架構(gòu)〞選項卡。單擊“添加架構(gòu)〞,瀏覽并找到要添加到架構(gòu)庫中的XML架構(gòu)文件〔xsd文件〕,然后單擊“翻開〞。在“架構(gòu)設(shè)置〞對話框中,選擇所需的選項,在“別名〞框中鍵入架構(gòu)的名稱,最后點擊“確定〞完成。如圖2:
圖2:添加架構(gòu)的辦法
〔二〕半自動標(biāo)注
添加架構(gòu)后,Word2022編輯框右邊會出現(xiàn)如下“XML結(jié)構(gòu)〞任務(wù)窗格。我們可以依次在清人小學(xué)注疏五種文檔當(dāng)選擇相應(yīng)元素,然后在“XML結(jié)構(gòu)〞任務(wù)窗格的“選擇一種元素并應(yīng)用于當(dāng)前的選定內(nèi)容〞框中單擊一個元素,完成對該元素的標(biāo)注,已標(biāo)注的元素被圖3所示紅色光帶嵌套。標(biāo)注中或完成標(biāo)注后,如文檔結(jié)構(gòu)不合乎架構(gòu)規(guī)那么,將會在文檔中以紫色波浪線標(biāo)記出來,并在“XML結(jié)構(gòu)〞任務(wù)窗格中報告此違規(guī)錯誤。整個標(biāo)注界面如圖3所示:
圖3:標(biāo)注的辦法
〔三〕生成XML文檔
完成標(biāo)注,且通過架構(gòu)驗證的文檔可選擇“文件〞菜單上的“另存為〞命令,保留為“qingrenxiaoxuezhushu.xml〞文檔。為保證其他XML的軟件也能閱讀并處理我們保留為XML格式的文檔數(shù)據(jù),我們選擇“僅保留數(shù)據(jù)〞備選項。如圖4:
圖4:生成xml文檔
五、清人小學(xué)注疏五種的屬性提取辦法
〔一〕XML與XSL的整合
XML文檔中事先標(biāo)注過的元素和信息,都可利用XML的可擴展樣式表技術(shù)加以提取?,F(xiàn)欲提取“qingrenxiaoxuezhushu.xml〞文檔中的“字詞關(guān)系斷語〞和“同源字〞兩元素,可編寫“tongyuanzi.xsl〞文檔,其源代碼如下:
清人小學(xué)注疏同源字研究資料
清人小學(xué)注疏同源字研究資料
〕
已標(biāo)注的“qingrenxiaoxuezhushu.xml〞在鏈接上述“tongyuanzi.xsl〞文檔后,經(jīng)IE瀏覽器解析,可直接轉(zhuǎn)換成我們需要的詞源研究資料,包括我們教學(xué)中常用的各種同族詞、古今字、通假字、異體字等方面的珍貴材料。其轉(zhuǎn)換結(jié)果如圖5:
圖5:樣式表轉(zhuǎn)換結(jié)果
〔二〕HTML對XML的整合
超級文本標(biāo)記語言〔即HTML〕是一種超文本鏈接標(biāo)記語言,依據(jù)該規(guī)范創(chuàng)立的HTML文件具有極強的描述和鏈接下級文本的功能。
為此,我們創(chuàng)立了“清人小學(xué)注疏五種詞源研究語料庫.html〞文件。該文件可以順利地整合我們標(biāo)注好的五種清人小學(xué)注疏的XML文檔,并為瀏覽整個語料庫提供一個初始界面,該語料庫初始界面如圖6:
圖6:清人小學(xué)注疏五種詞源研究語料庫
六、結(jié)語
長期以來,在古漢語研究領(lǐng)域,人們最常用的計算機功能僅僅是能提高閱讀速度的全文檢索,但這無助于增進對古籍文本的理解。關(guān)系數(shù)據(jù)庫技術(shù)出現(xiàn)后,人們又將古籍文本的內(nèi)容分析為字段和記錄的形式以存儲,從而為人們獲得較系統(tǒng)的語言學(xué)知識開辟了新的途徑。但是關(guān)系數(shù)據(jù)庫往往會肢解原古籍文檔內(nèi)容的整體性,從而降低語言學(xué)典籍的可讀性。
XML有效防止了這些缺陷,它奉行數(shù)據(jù)存儲與數(shù)據(jù)顯示相別離
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 售前保密協(xié)議書范本
- 環(huán)保型產(chǎn)業(yè)園區(qū)廠房租賃及配套設(shè)施使用協(xié)議
- 草原生態(tài)旅游項目經(jīng)營權(quán)轉(zhuǎn)讓合同
- 財務(wù)會計人員職業(yè)健康與安全勞動合同范本
- 虛擬股轉(zhuǎn)股協(xié)議書范本
- 直銷團長協(xié)議書范本
- 退房款協(xié)議書范本
- 沙灘浴場場地租賃及經(jīng)營管理協(xié)議
- 展覽館產(chǎn)品陳列設(shè)計與實施協(xié)議
- 2024年拆遷安置房購房協(xié)議書范文(五篇)
- GB/T 19844-2005鋼板彈簧
- 湖南常德2022生地會考試卷及答案
- 2023年濟南綜??毓杉瘓F有限公司招聘筆試題庫及答案解析
- 電力拖動自動控制系統(tǒng)-運動控制系統(tǒng)(第5版)習(xí)題答案
- 禾川x3系列伺服說明書
- 細胞生物學(xué)(全套1047張課件)
- 魚丸生產(chǎn)加工項目可行性研究報告
- 架空乘人裝置專項設(shè)計(一采區(qū)運輸下山)
- 六年級下冊“快樂讀書吧”練習(xí)題試題及答案
- ★教導(dǎo)型組織-行動管理模式(三)
- 朗文英語2B英語復(fù)習(xí)資料
評論
0/150
提交評論