版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 全文檢索服務(wù)器 用 戶 手 冊(cè) 版本:v4.x 目目目 錄錄錄 關(guān)于本手冊(cè)關(guān)于本手冊(cè).1 讀者對(duì)象.1 手冊(cè)組織.1 用戶反饋.2 聯(lián)系地址.3 第一部分 系統(tǒng)概述 第第 1 章章 基本概念基本概念.4 1.1 用戶組.4 1.2 用戶.5 1.3 數(shù)據(jù)庫(kù).7 1.4 數(shù)據(jù)庫(kù)字段.11 1.5 視圖.14 1.6 視圖字段.15 1.7 數(shù)據(jù)格式.17 1.8 詞典.18 1.8.1 分詞詞典.20 1.8.2 附加分詞詞典.20 1.8.3 停用詞典.21 1.8.4 附加停用詞典.22 1.8.5 稀疏詞典.22 1.8.6 主題詞典.22 1.8.7 同義詞典.25 1.8.8 反義詞
2、典.25 1.8.9 其它詞典.26 第第 2 章章 字段與索引字段與索引.27 2.1 字段類型.27 2.1.1 日期型字段.27 2.1.2 數(shù)值型字段.28 2.1.3 字符串型字段.28 2.1.4 短語(yǔ)型字段.29 2.1.5 全文型字段.29 2.1.6 二進(jìn)制型字段.30 2.2 索引類型.30 2.3 索引策略.31 2.3.1 按詞索引策略.31 2.3.2 按字索引策略.32 2.3.3 按關(guān)鍵詞索引策略.32 2.3.4 二元組索引策略.33 第第 3 章章 權(quán)限權(quán)限.34 3.1 權(quán)限級(jí)別.34 3.1.1 用戶級(jí)權(quán)限.34 3.1.2 數(shù)據(jù)庫(kù)級(jí)權(quán)限.35 3.1.3
3、 字段級(jí)權(quán)限.36 3.1.4 記錄級(jí)權(quán)限.36 3.2 權(quán)限管理.37 3.3 權(quán)限檢查.38 3.3.1 用戶組操作.38 3.3.2 用戶操作.38 3.3.3 數(shù)據(jù)庫(kù)操作.38 3.3.4 數(shù)據(jù)庫(kù)字段操作.40 3.3.5 視圖操作.40 3.3.6 視圖字段操作.41 3.3.7 數(shù)據(jù)格式操作.42 3.3.8 詞典操作.42 第第 4 章章 數(shù)據(jù)庫(kù)加載與檢索數(shù)據(jù)庫(kù)加載與檢索.44 4.1 數(shù)據(jù)庫(kù)加載.44 4.2 數(shù)據(jù)庫(kù)檢索.44 4.2.1 運(yùn)算符.44 4.2.2 運(yùn)算符的等價(jià)關(guān)系.48 4.2.3 運(yùn)算符與字段的關(guān)系.49 4.2.4 統(tǒng)計(jì)函數(shù).51 4.2.5 檢索函數(shù).5
4、1 4.2.6 統(tǒng)計(jì)表達(dá)式.52 4.2.7 檢索表達(dá)式.53 4.2.8 檢索鍵值.55 4.2.9 特殊鍵值.59 第第 5 章章 系統(tǒng)配置系統(tǒng)配置.60 5.1 物理內(nèi)存數(shù).60 5.2 用戶實(shí)例最大空閑時(shí)間.60 5.3 用戶實(shí)例最小空閑時(shí)間.61 5.4 檢索超時(shí)時(shí)間.61 5.5 檢索結(jié)果記錄的排序限制.61 5.6 最大檢索歷史步數(shù).62 5.7 最大下載結(jié)果記錄數(shù).62 5.8 空閑狀態(tài)起止始時(shí)間.62 5.9 缺省數(shù)據(jù)庫(kù)屬性.63 5.10 缺省知識(shí)詞典集 .63 5.11 數(shù)據(jù)庫(kù)路徑集 .63 5.12 缺省數(shù)據(jù)庫(kù)備份設(shè)備 .63 5.13 臨時(shí)文件存放路徑 .63 第二部
5、分 系統(tǒng)安裝 第第 6 章章 服務(wù)器服務(wù)器在在 windows 下的安裝下的安裝 .67 6.1 trs 服務(wù)器目錄結(jié)構(gòu).67 6.2 安裝前的準(zhǔn)備工作.71 6.2.1 軟件及硬件環(huán)境.71 6.2.2 確認(rèn)安裝方式.71 6.3 安裝步驟.72 6.4 安裝后的工作.77 6.4.1 啟動(dòng)服務(wù)器.77 6.4.2 關(guān)閉服務(wù)器.79 6.4.3 服務(wù)器升級(jí).80 6.5 安裝失敗后的處理.81 6.5.1 安裝失敗的原因及解決方法.81 6.5.2 安裝失敗后的清理工作.81 第第 7 章章 服務(wù)器在服務(wù)器在 unix 下的安裝下的安裝.82 7.1 trs 服務(wù)器目錄結(jié)構(gòu).82 7.2 安
6、裝前的準(zhǔn)備工作.85 7.2.1 軟件及硬件環(huán)境.85 7.2.2 確定服務(wù)器的用戶帳號(hào).86 7.2.3 確認(rèn)安裝方式.86 7.3 安裝步驟.87 7.4 安裝后的工作.89 7.4.1 啟動(dòng)服務(wù)器.89 7.4.2 關(guān)閉服務(wù)器.90 7.4.3 服務(wù)器升級(jí).91 7.5 安裝失敗后的處理.92 7.5.1 安裝失敗的原因及解決方法.92 7.5.2 安裝失敗后的清理工作.92 第第 8 章章 管理員工具的安裝管理員工具的安裝.93 8.1 trs 管理員簡(jiǎn)介 .93 8.2 trs 管理員的目錄結(jié)構(gòu) .93 8.3 系統(tǒng)安裝要求.94 8.4 安裝過程.94 8.5 卸載過程.99 8.
7、6 安裝過程中的問題.100 第第 9 章章 關(guān)于數(shù)據(jù)鏡像模塊關(guān)于數(shù)據(jù)鏡像模塊.101 9.1 功能描述.101 9.2 實(shí)施準(zhǔn)備.102 9.2.1 主節(jié)點(diǎn)的準(zhǔn)備工作.102 9.2.2 子節(jié)點(diǎn)的準(zhǔn)備工作.102 9.3 鏡像初始化.102 9.3.1 手工初始化.103 9.3.2 自動(dòng)初始化.103 9.4 鏡像的運(yùn)行.103 9.5 新增鏡像的子節(jié)點(diǎn).104 9.6 新增鏡像的數(shù)據(jù)庫(kù).104 9.7 當(dāng)鏡像數(shù)據(jù)庫(kù)被破壞時(shí).104 第第 10 章章 服務(wù)器工具服務(wù)器工具.105 10.1 服務(wù)器管理員.105 10.1.1 指定與服務(wù)器連接的端口號(hào).105 10.1.2 列出服務(wù)器中所有
8、在線客戶端的信息.106 10.1.3 強(qiáng)制清除指定的用戶實(shí)例.106 10.1.4 獲取系統(tǒng)超級(jí)用戶的口令.106 10.1.5 刷新日志緩沖區(qū).107 10.1.6 在線備份服務(wù)器系統(tǒng).107 10.1.7 恢復(fù)服務(wù)器系統(tǒng).107 10.2 數(shù)據(jù)庫(kù)加載工具.107 10.2.1 指定與服務(wù)器連接的端口號(hào).108 10.2.2 命令開關(guān)選項(xiàng).108 10.2.3 指定目標(biāo)數(shù)據(jù)庫(kù).109 10.2.4 指定源數(shù)據(jù)文件.109 10.2.5 指定控制文件.109 第第 11 章章 配置文件配置文件.110 11.1 服務(wù)器運(yùn)行參數(shù)配置文件.110 11.2 服務(wù)器數(shù)據(jù)鏡像配置文件.122 11.
9、3 插件配置文件.125 第三部分 數(shù)據(jù)庫(kù)加載格式規(guī)范 第第 12 章章 準(zhǔn)備加準(zhǔn)備加載載.131 12.1 數(shù)據(jù)庫(kù)的準(zhǔn)備.131 12.2 準(zhǔn)備加載文件.132 第第 13 章章 數(shù)據(jù)文件數(shù)據(jù)文件.134 13.1 trs 格式文件 .134 13.1.1 標(biāo)準(zhǔn)格式.135 13.1.2 字段內(nèi)部標(biāo)識(shí)號(hào)標(biāo)記格式.139 13.1.3 字段順序號(hào)標(biāo)記格式.141 13.1.4 無字段標(biāo)記格式.142 13.1.5 全文格式.143 13.1.6 注釋信息.144 13.1.7 標(biāo)記引導(dǎo)符前綴.145 13.2 國(guó)際標(biāo)準(zhǔn)格式.147 13.2.1 iso2709 記錄格式.147 13.2.2
10、xml 記錄格式.148 13.3 批處理數(shù)據(jù)文件.150 第第 14 章章 加載多媒體數(shù)據(jù)加載多媒體數(shù)據(jù).152 14.1 加載 document 字段的多媒體數(shù)據(jù).152 14.1.1 數(shù)據(jù)格式控制符.153 14.1.2 存儲(chǔ)方式控制符.154 14.1.3 加載格式說明.155 14.2 加載 bit 字段的多媒體數(shù)據(jù) .157 14.3 應(yīng)用舉例.158 第第 15 章章 控制文件控制文件.160 15.1 控制文件的格式.160 15.2 控制文件的變量.160 15.2.1 record_file_format.162 15.2.2 bit_format_default.162
11、15.2.3 html_base_default.162 15.2.4 data_path_default.163 15.2.5 date_century_default.163 15.2.6 ignore_record_crypt.163 15.2.7 file_suffix_prior.164 15.2.8 sync_create_index .164 15.2.9 class_bit_store .164 15.2.10 class_document_store.165 15.2.11 waive_document_affix .165 15.2.12 waive_oemfilter_t
12、ext.166 15.2.13 keep_text_actual.166 15.2.14 check_text_iterative .166 15.2.15 multi_value_separater.167 15.2.16 section_tag_prefix.167 15.2.17 start_record_from.167 15.2.18 process_record_number .168 15.2.19 max_commit_number.168 15.2.20 max_error_number.168 15.2.21 column_name_sequence.168 15.2.22
13、 xml_segment_mark.169 15.2.23 xml_newline_mark.170 15.2.24 xml_hitshow_mark.170 15.2.25 xml_filter_cdata.171 15.2.26 xml_overwrite_pi.172 15.3 控制文件舉例.173 第第 16 章章 日期的入庫(kù)格式日期的入庫(kù)格式.174 第第 17 章章 詞典的加載詞典的加載.177 附錄附錄 a trs 保留字保留字 .180 附錄附錄 b trs 錯(cuò)誤信息錯(cuò)誤信息.182 1. 系統(tǒng)調(diào)用錯(cuò)誤表(17000 17399).182 2. 虛擬平臺(tái)模塊錯(cuò)誤表(17400
14、17499).186 3. 網(wǎng)絡(luò)調(diào)用錯(cuò)誤表(17500 17999).188 4. 數(shù)據(jù)庫(kù)索引模塊錯(cuò)誤表(18000 18499).190 5. 數(shù)據(jù)庫(kù)檢索模塊錯(cuò)誤表(18500 18899).192 6. 分詞系統(tǒng)錯(cuò)誤表(18900 18999).193 7. 遠(yuǎn)過程調(diào)用錯(cuò)誤表(19000 19499).194 8. 系統(tǒng) key 錯(cuò)誤表(19500 19999).194 9. 數(shù)據(jù)詞典模塊錯(cuò)誤表(20000 20999).194 10. 應(yīng)用程序接口錯(cuò)誤表(21000 21999).200 11. 命令語(yǔ)言錯(cuò)誤表(22000 22999).201 附錄附錄 c win32 錯(cuò)誤信息錯(cuò)誤信息
15、.203 關(guān)關(guān)關(guān)于于于本本本手手手冊(cè)冊(cè)冊(cè) 本手冊(cè)介紹的主要內(nèi)容可以分為以下各個(gè)部分。第一部分介紹 trs 全文檢索 服務(wù)器主要特點(diǎn)、trs 中各對(duì)象的定義和作用、trs 的體系結(jié)構(gòu),第二部分介紹了 trs 全文檢索服務(wù)器和管理員工具(客戶機(jī))的在安裝前的準(zhǔn)備工作、具體的安裝 步驟,以及安裝后的工作,第三部分介紹在 trs 數(shù)據(jù)庫(kù)加載前組織各種數(shù)據(jù)文件 所必須遵循的格式規(guī)范。本手冊(cè)沒有涉及任何 trs 工具的使用方法和 trs 數(shù)據(jù)庫(kù) 加載工具的使用方法,是一個(gè)了解 trs 概念和 trs 全文檢索服務(wù)器的說明性手冊(cè)。 讀者對(duì)象 本手冊(cè)的讀者為 trs 系統(tǒng)安裝人員、trs 系統(tǒng)管理員,以及任何
16、希望對(duì) trs 系統(tǒng)有一個(gè)全面深入詳細(xì)了解的 trs 用戶。 手冊(cè)組織 本手冊(cè)的內(nèi)容由三部分組成,第一部分:系統(tǒng)概述;第二部分:系統(tǒng)安裝;第 三部分:數(shù)據(jù)庫(kù)加載格式規(guī)范。具體組織如下: 第 1 章基本概念 第 2 章字段與索引 第 3 章權(quán)限 第 4 章數(shù)據(jù)加載與檢索 第 5 章系統(tǒng)配置 第 6 章服務(wù)器在 windows 下的安裝 第 7 章服務(wù)器在 unix 系統(tǒng)下的安裝 第 8 章管理員工具的安裝 第 9 章關(guān)于數(shù)據(jù)鏡像模塊 第 10 章 服務(wù)器工具 第 11 章 配置文件 第 12 章 準(zhǔn)備加載 第 13 章 數(shù)據(jù)文件 第 14 章 加載多媒體數(shù)據(jù) 第 15 章 控制文件 第 16 章
17、 日期的入庫(kù)格式 第 17 章 詞典的加載 附錄 a trs 保留字 附錄 b trs 錯(cuò)誤信息 附錄 c win32 錯(cuò)誤信息 用戶反饋 trs 公司感謝您使用 trs 產(chǎn)品。如果您發(fā)現(xiàn)本手冊(cè)中有錯(cuò)誤或者產(chǎn)品運(yùn)行不 正確,或者您對(duì)本手冊(cè)有任何意見和建議,請(qǐng)及時(shí)與 trs 公司聯(lián)系。您的意見將 是我們做版本修訂時(shí)的重要依據(jù)。 聯(lián)系地址 trs 總部總部 營(yíng)銷服務(wù)中心:營(yíng)銷服務(wù)中心: 北京市海淀區(qū)花園東路 10 號(hào)高德大廈 401 室 郵編:100083 電話傳真email: 產(chǎn)品研發(fā)中心:產(chǎn)品研發(fā)中心: 北京 北四環(huán)中路 35 號(hào)健翔橋
18、北京信息工程學(xué)院圖書館三層 郵編:100101 電話傳真email: 上海分公司上海分公司 上海市成都北路 333 號(hào) 招商局廣場(chǎng)南樓 1505 室 郵編:200041 電話08 傳真email: 廣州分公司廣州分公司 廣州市先烈路 76 號(hào) 中僑大廈 16 層 h 室 郵編:510070 電話傳真email: 成都辦事處成都辦事處 成都市洗面橋街 29 號(hào)四川咨詢產(chǎn)業(yè)大廈 1309 室 郵編:610041 電話:028-855
19、33146 傳真email: website:. 第一部分 系統(tǒng)概述 第第第 1 1 1 章章章 基基基本本本概概概念念念 trs 系統(tǒng)中的對(duì)象包括: 用戶組 用戶 數(shù)據(jù)庫(kù) 數(shù)據(jù)庫(kù)字段 視圖 視圖字段 數(shù)據(jù)格式 詞典 所有這些對(duì)象都具有一致的命名規(guī)則: 對(duì)象名可以是中文,英文或中英文的組合,最長(zhǎng)為 31 個(gè)字符。 對(duì)象名內(nèi)英文字母的大小寫無關(guān)。 對(duì)象名只能包括 a-z,a-z,0-9,_,或漢字。 除數(shù)據(jù)格式外,對(duì)象名不能是 trs 保留字(關(guān)鍵詞)。 同一屬域內(nèi)的對(duì)象不能重名。 第 1 章 基本概念 第 2 章 字段與索引 第 3 章 權(quán)限 第 4 章 數(shù)據(jù)加載與
20、檢索 第 5 章 系統(tǒng)配置 1.1 用戶組 trs 具有獨(dú)立于操作系統(tǒng)的用戶組管理機(jī)制。用戶組的設(shè)立,使得系統(tǒng)對(duì)數(shù)據(jù) 的安全控制更加完善,也更加簡(jiǎn)單方便。每個(gè) trs 系統(tǒng)可支持多達(dá) 65535 個(gè)用戶 組。 用戶組對(duì)象具有下列屬性: 名稱名稱 名稱是 trs 用戶組對(duì)象名,即用戶組名。用戶組名與用戶組名之間,以及用 戶組名與用戶名之間不能重復(fù)。 注釋信息注釋信息 注釋信息是對(duì) trs 用戶組對(duì)象進(jìn)行說明的信息。 系統(tǒng)安裝時(shí),將自動(dòng)創(chuàng)建兩個(gè)用戶組:administrator 和 guest。系統(tǒng)還 有一個(gè)匿名用戶組。 1.2 用戶 trs 具有獨(dú)立于操作系統(tǒng)的用戶管理機(jī)制。要訪問 trs 系統(tǒng)
21、,必須首先申請(qǐng) 一個(gè)用戶帳號(hào)。用戶帳號(hào)是實(shí)現(xiàn)系統(tǒng)及數(shù)據(jù)安全的主要手段,也是系統(tǒng)記費(fèi)的主要 依據(jù)。每個(gè) trs 系統(tǒng)可支持多達(dá) 65535 個(gè)用戶。 用戶對(duì)象具有下列屬性: 名稱名稱 名稱是 trs 用戶對(duì)象名,即用戶帳號(hào)名,也就是用戶名。用戶名與用戶名之 間,以及用戶名與用戶組名之間不能重復(fù)。 登錄口令登錄口令 登錄口令是該用戶登錄到 trs 系統(tǒng)時(shí)必須輸入的口令。設(shè)置登錄口令的目的 主要是為了保證用戶帳號(hào)的私用性。 登錄互斥開關(guān)登錄互斥開關(guān) 登錄互斥開關(guān)決定該用戶是否允許同時(shí)從多個(gè)不同的 ip 地址進(jìn)行登錄。 密級(jí)密級(jí) 密級(jí)定義了該用戶在 trs 系統(tǒng)的接觸機(jī)密數(shù)據(jù)的級(jí)別。數(shù)值越小,級(jí)別越高
22、。 對(duì)于數(shù)據(jù)庫(kù)中使用密級(jí)加密的數(shù)據(jù)記錄,只有當(dāng)用戶的密級(jí)值不大于記錄的密 級(jí)值時(shí),才能看到該記錄的內(nèi)容。 類型類型 用戶的類型實(shí)際上是用戶在 trs 系統(tǒng)中的權(quán)限級(jí)別。trs 系統(tǒng)有四種用戶類 型: 系統(tǒng)數(shù)據(jù)庫(kù)管理員(dba) 用戶組數(shù)據(jù)庫(kù)管理員(gda) 系統(tǒng)資源用戶(resource) 系統(tǒng)登錄用戶(connect) 所屬用戶組所屬用戶組 即該用戶所在的用戶組。用戶也可屬于匿名用戶組。 最大檢索歷史步數(shù)最大檢索歷史步數(shù) 最大檢索歷史步數(shù)是指用戶在進(jìn)行數(shù)據(jù)庫(kù)查詢時(shí),需要保存的最大檢索歷史步 數(shù)。保存的檢索歷史可以在以后檢索中直接引用,而不需要重新檢索。 最大下載記錄數(shù)最大下載記錄數(shù) 最大下載
23、記錄數(shù)是指用戶在進(jìn)行數(shù)據(jù)庫(kù)查詢時(shí),允許一次下載的最大檢索結(jié)果 記錄數(shù)。 缺省附加分詞詞典缺省附加分詞詞典 該用戶在創(chuàng)建數(shù)據(jù)庫(kù)時(shí),如果數(shù)據(jù)庫(kù)的附加分詞詞典指定為缺省值,則系統(tǒng)自 動(dòng)為數(shù)據(jù)庫(kù)指定這里所給出的附加分詞詞典。 缺省附加停用詞典缺省附加停用詞典 該用戶在創(chuàng)建數(shù)據(jù)庫(kù)時(shí),如果數(shù)據(jù)庫(kù)的附加停用詞典指定為缺省值,則系統(tǒng)自 動(dòng)為數(shù)據(jù)庫(kù)指定這里所給出的附加停用詞典。 缺省稀疏詞典缺省稀疏詞典 該用戶在創(chuàng)建數(shù)據(jù)庫(kù)時(shí),如果數(shù)據(jù)庫(kù)的稀疏詞典指定為缺省值,則系統(tǒng)自動(dòng)為 數(shù)據(jù)庫(kù)指定這里所給出的稀疏詞典。 注釋信息注釋信息 注釋信息是對(duì) trs 用戶對(duì)象進(jìn)行說明的信息。 系統(tǒng)安裝時(shí),將自動(dòng)創(chuàng)建兩個(gè)用戶:syst
24、em 和 pub。 system 是 trs 系統(tǒng)的超級(jí)用戶,其主要特征有: 是 dba 用戶。 屬于 administrator 用戶組。 不能被注銷。 不能修改名稱。 可由自己修改口令。 可創(chuàng)建和注銷其它任何用戶。 可清除任何用戶的口令。 可修改任何用戶的除口令以外的任何屬性。 可授予或收回任何用戶的任何權(quán)限。 pub 是 trs 系統(tǒng)的一個(gè)公共用戶,其只要特征有: 是 connect 用戶。 屬于 guest 用戶組。 不能修改名稱。 沒有口令,也不允許設(shè)置口令。 可被 system 用戶注銷。 對(duì) trs 系統(tǒng)數(shù)據(jù)對(duì)象的操作,必須通過相關(guān)的權(quán)限檢查。 trs 用戶還有其它一些特點(diǎn): 每
25、一個(gè)用戶組中允許有多個(gè) dba 用戶。 每一個(gè)用戶組中允許有多個(gè) gda 用戶。 任何用戶可修改“自己”的某些屬性,這些屬性包括: 登錄口令 登錄互斥開關(guān) 最大檢索歷史步數(shù) 缺省附加分詞詞典 缺省附加停用詞典 缺省稀疏詞典 注釋信息 其它項(xiàng)只能由 system 用戶管理。 1.3 數(shù)據(jù)庫(kù) 數(shù)據(jù)庫(kù)是 trs 系統(tǒng)中的主要數(shù)據(jù)對(duì)象,它物理地存儲(chǔ)了用戶加載到系統(tǒng)中的 所有數(shù)據(jù)資料。每個(gè) trs 系統(tǒng)可管理多達(dá)數(shù)十億個(gè)數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)實(shí)際上是一個(gè) 物理數(shù)據(jù)表,表的每一行是一個(gè)數(shù)據(jù)記錄,每一列則是一個(gè)數(shù)據(jù)字段,行與列的交 叉點(diǎn)即為字段值。 數(shù)據(jù)庫(kù)的規(guī)模主要指兩個(gè)方面:能夠容納的最大記錄數(shù)和數(shù)據(jù)庫(kù)文件的最大
26、容 量。一個(gè)數(shù)據(jù)庫(kù)的最大記錄數(shù)取決于操作系統(tǒng)的位數(shù)和 trs 所采用的文件系統(tǒng)的 位數(shù):在 32 位文件系統(tǒng)中,最多可容納 4 億多條記錄,而在 64 位文件系統(tǒng)中,如 果是 32 位操作系統(tǒng),則最多可容納 20 多億條記錄,如果是 64 位操作系統(tǒng),則最 多可容納 40 多億條記錄。制約數(shù)據(jù)庫(kù)文件最大容量的唯一因素是文件系統(tǒng)的位數(shù), 如果 trs 采用了 32 位文件系統(tǒng),則單個(gè)文件的大小不能超過 2g 字節(jié)(nt 平臺(tái)不 能超過 4g 字節(jié)) ,但如果采用 64 位文件系統(tǒng),則單個(gè)文件的容量實(shí)際上沒有限制。 操作系統(tǒng)與文件系統(tǒng)的位數(shù)沒有必然的聯(lián)系,許多操作系統(tǒng)與文件系統(tǒng)的位數(shù)沒有必然的聯(lián)系
27、,許多 32 位操作系統(tǒng)都支持位操作系統(tǒng)都支持 64 位文件位文件 系統(tǒng)系統(tǒng),如 win32、linux、solaris 等,所以在 32 位操作系統(tǒng)上,trs 也盡可能地 采用 64 位文件系統(tǒng)。 每個(gè)記錄的最大長(zhǎng)度為每個(gè)記錄的最大長(zhǎng)度為 256m 字節(jié),每個(gè)字段值的最大長(zhǎng)度為字節(jié),每個(gè)字段值的最大長(zhǎng)度為 16m 字節(jié)(但字節(jié)(但 以獨(dú)立文件方式,即以獨(dú)立文件方式,即 alone 方式存儲(chǔ)的字段值的長(zhǎng)度不受此限制)方式存儲(chǔ)的字段值的長(zhǎng)度不受此限制) 。但在實(shí)際中, 如果一個(gè)記錄(或字段值)太長(zhǎng),會(huì)引起操作系統(tǒng)忙于虛擬內(nèi)存的交換,使機(jī)器性 能急劇下降,所以系統(tǒng)人為地限制一個(gè)記錄的最大長(zhǎng)度為機(jī)器
28、物理內(nèi)存兆字節(jié)數(shù)的 64 的倍數(shù)(最小為 1)兆字節(jié),如物理內(nèi)存為 128m,則允許的最大記錄長(zhǎng)度為 2m 字節(jié)。 數(shù)據(jù)庫(kù)對(duì)象具有下列屬性: 名稱名稱 名稱是 trs 數(shù)據(jù)庫(kù)的對(duì)象名,即數(shù)據(jù)庫(kù)名,是訪問、維護(hù)和管理該數(shù)據(jù)庫(kù)的 入口。數(shù)據(jù)庫(kù)名不能與屬于同一用戶的其它數(shù)據(jù)庫(kù)、視圖以及各種詞典同名。 別名 別名是該數(shù)據(jù)庫(kù)名的別稱,一般是為了方便使用而給出的數(shù)據(jù)庫(kù)名的縮寫,或 其英文名稱。數(shù)據(jù)庫(kù)別名與數(shù)據(jù)庫(kù)名具有同等的地位。一個(gè)數(shù)據(jù)庫(kù)可以定義多 個(gè)別名。 所有者所有者 所有者表明哪個(gè)用戶擁有該數(shù)據(jù)庫(kù)。所有者與名稱(別名)唯一確定一個(gè)數(shù)據(jù) 庫(kù)對(duì)象。所有者對(duì)該數(shù)據(jù)庫(kù)能夠進(jìn)行任何操作,而不受其它數(shù)據(jù)安全控制
29、的制 約。 缺省檢索字段缺省檢索字段 缺省檢索字段是指在對(duì)該數(shù)據(jù)庫(kù)進(jìn)行查詢時(shí),檢索表達(dá)式中沒有明確指定檢索 目標(biāo)字段的子表達(dá)式所默認(rèn)的目標(biāo)字段。 分詞詞典分詞詞典 分詞詞典是該數(shù)據(jù)庫(kù)按詞索引時(shí)所引用的詞典。如果不為數(shù)據(jù)庫(kù)指定分詞詞典, 則該數(shù)據(jù)庫(kù)將按字索引。 附加分詞詞典附加分詞詞典 附加分詞詞典是該數(shù)據(jù)庫(kù)按詞索引時(shí)所引用的擴(kuò)充詞典。 停用詞典停用詞典 停用詞典是該數(shù)據(jù)庫(kù)按詞索引時(shí)所引用的不允許索引的詞典。 附加停用詞典附加停用詞典 附加停用詞典是該數(shù)據(jù)庫(kù)按詞索引時(shí)所引用的不允許索引的擴(kuò)充詞典。 稀疏詞典稀疏詞典 稀疏詞典該數(shù)據(jù)庫(kù)按詞索引時(shí)所引用的允許索引的詞典。如果不為數(shù)據(jù)庫(kù)指定 稀疏詞典,
30、則該數(shù)據(jù)庫(kù)索引所有不屬于停用詞典和附加停用詞典中的詞匯。 公共訪問權(quán)限公共訪問權(quán)限 公共訪問權(quán)限是指 trs 系統(tǒng)中所有用戶對(duì)該數(shù)據(jù)庫(kù)所擁有的權(quán)限。對(duì)數(shù)據(jù)庫(kù) 可設(shè)置的公共訪問權(quán)限共有五種: 記錄檢索權(quán) 數(shù)據(jù)更新權(quán) 數(shù)據(jù)索引權(quán) 數(shù)據(jù)庫(kù)結(jié)構(gòu)修改權(quán) 數(shù)據(jù)庫(kù)刪除權(quán) 詞根索引開關(guān)詞根索引開關(guān) 詞根索引開關(guān)決定數(shù)據(jù)庫(kù)的短語(yǔ)型和全文型字段數(shù)據(jù)中的英文串是否按詞根進(jìn) 行索引。如果設(shè)置該開關(guān),則索引不區(qū)分大小寫。 大小寫敏感開關(guān)大小寫敏感開關(guān) 大小寫敏感開關(guān)決定數(shù)據(jù)庫(kù)的字符型、短語(yǔ)型和全文型字段數(shù)據(jù)中的英文串是 否區(qū)分大小寫進(jìn)行索引。 數(shù)字索引開關(guān)數(shù)字索引開關(guān) 數(shù)字索引開關(guān)決定數(shù)據(jù)庫(kù)的短語(yǔ)型和全文型字段數(shù)據(jù)中的
31、數(shù)詞是否進(jìn)行索引。 二元組索引開關(guān)二元組索引開關(guān) 二元組索引開關(guān)決定數(shù)據(jù)庫(kù)的短語(yǔ)型和全文型字段是否建立二元組索引。 壓縮索引開關(guān)壓縮索引開關(guān) 壓縮索引開關(guān)決定數(shù)據(jù)庫(kù)是否建立壓縮索引。不壓縮索引時(shí),索引與檢索速度 會(huì)稍有提高,但空間膨脹率會(huì)顯著增大,所以在實(shí)際使用時(shí)總是壓縮索引,以 獲得較好的時(shí)空比。 數(shù)據(jù)字符集數(shù)據(jù)字符集 數(shù)據(jù)字符集是指存儲(chǔ)在數(shù)據(jù)庫(kù)中的非英文數(shù)據(jù)所使用的字符集。trs 系統(tǒng)支持 的字符集有: 簡(jiǎn)體中文(gb2312、gbk、gb18030) 繁體中文(big5) 純英文(english) 數(shù)據(jù)宿主系統(tǒng)數(shù)據(jù)宿主系統(tǒng) 有一類應(yīng)用:trs 系統(tǒng)只管理和維護(hù)索引,而數(shù)據(jù)存儲(chǔ)在其它系統(tǒng)中
32、。數(shù)據(jù)宿 主系統(tǒng)就是用來描述存儲(chǔ)數(shù)據(jù)的系統(tǒng)的信息。描述信息對(duì) trs 沒有實(shí)際的意 義,如果數(shù)據(jù)庫(kù)沒有數(shù)據(jù)宿主系統(tǒng),則 trs 系統(tǒng)負(fù)責(zé)管理數(shù)據(jù)庫(kù)的數(shù)據(jù)。 數(shù)據(jù)存放路徑數(shù)據(jù)存放路徑 數(shù)據(jù)存放路徑指明數(shù)據(jù)庫(kù)數(shù)據(jù)文件的存儲(chǔ)目錄。 注釋信息注釋信息 注釋信息是對(duì) trs 數(shù)據(jù)庫(kù)對(duì)象進(jìn)行說明的信息。 在定義數(shù)據(jù)庫(kù)時(shí),對(duì)每一個(gè)屬性都必須給出其正確取值。在數(shù)據(jù)庫(kù)加載之前, 對(duì)數(shù)據(jù)庫(kù)的屬性可以進(jìn)行任意修改。 在加載了數(shù)據(jù)后,下列屬性不再允許修改: 數(shù)據(jù)字符集 數(shù)據(jù)宿主系統(tǒng) 數(shù)據(jù)存放路徑 當(dāng)創(chuàng)建了索引后,下列屬性不再允許修改: 分詞詞典 附加分詞詞典 停用詞典 附加停用詞典 稀疏詞典 缺省檢索字段 詞根索引開
33、關(guān) 大小寫敏感開關(guān) 數(shù)字索引開關(guān) 二元組索引開關(guān) 壓縮索引開關(guān) 1.4 數(shù)據(jù)庫(kù)字段 數(shù)據(jù)庫(kù)字段是 trs 系統(tǒng)對(duì)不同數(shù)據(jù)類型進(jìn)行存儲(chǔ)和管理的主要依據(jù),也是對(duì) 數(shù)據(jù)庫(kù)進(jìn)行查詢的唯一入口,所有的查詢操作都是在一定的字段上進(jìn)行的。每個(gè)數(shù) 據(jù)庫(kù)可定義 1 到 1023 個(gè)字段。 數(shù)據(jù)庫(kù)字段對(duì)象具有下列屬性: 名稱名稱 名稱是 trs 數(shù)據(jù)庫(kù)字段的對(duì)象名,即字段名,是訪問、維護(hù)和管理該數(shù)據(jù)庫(kù) 字段的入口。字段名不能與同一數(shù)據(jù)庫(kù)中的其它字段同名。 別名別名 別名是該字段名的別稱,一般是為了方便使用而給出的字段名的縮寫,或其英 文名稱。字段別名與字段名具有同等的地位。一個(gè)字段可以定義多個(gè)別名。 所屬數(shù)據(jù)庫(kù)所
34、屬數(shù)據(jù)庫(kù) 所屬數(shù)據(jù)庫(kù)指示該字段是哪個(gè)數(shù)據(jù)庫(kù)的字段。所屬數(shù)據(jù)庫(kù)與名稱(別名)唯一 確定一個(gè)數(shù)據(jù)庫(kù)字段對(duì)象。 數(shù)據(jù)類型數(shù)據(jù)類型 數(shù)據(jù)類型即字段類型,它決定了該字段所能存儲(chǔ)的數(shù)據(jù)類型。trs 能夠存儲(chǔ)和 索引六種類型的數(shù)據(jù): 日期型(date) 數(shù)值型(number) 字符串型(char) 短語(yǔ)型(phrase) 全文型(document) 二進(jìn)制型(bit) 缺省字段值缺省字段值 缺省字段值是指在數(shù)據(jù)庫(kù)加載時(shí),對(duì)于未給出字段值的 date、number 或 char 型字段所對(duì)應(yīng)的缺省取值。 字段值格式字段值格式 該屬性對(duì)于不同的字段類型有不同的意義: 對(duì)于 char 型字段,字段值格式是指數(shù)據(jù)庫(kù)
35、加載時(shí),給出的字段值所必 須遵循的格式。 對(duì)于 date 和 number 型字段,字段值格式是指輸出字段值時(shí)使用的格 式,并且由外部完成字段值的格式化。 對(duì)于其他類型的字段,該屬性沒有意義。 字段值范圍字段值范圍 字段值范圍是指在加載數(shù)據(jù)時(shí),date、number 或 char 型字段的合法取 值的集合。 字段顯示名字段顯示名 字段顯示名是在用戶界面上該字段的對(duì)應(yīng)名字。 顯示區(qū)寬度顯示區(qū)寬度 顯示區(qū)寬度是字段值在用戶界面上顯示區(qū)域的缺省寬度單位數(shù)。 顯示區(qū)高度顯示區(qū)高度 顯示區(qū)高度是字段值在用戶界面上顯示區(qū)域的缺省高度單位數(shù)。 公共查詢開關(guān)公共查詢開關(guān) 公共查詢開關(guān)決定是否允許 trs 系統(tǒng)
36、中的所有用戶在該字段上進(jìn)行查詢。 禁止索引開關(guān)禁止索引開關(guān) 禁止索引開關(guān)決定該字段是否建立索引。bit 字段始終不建索引。 多值允許開關(guān)多值允許開關(guān) 多值允許開關(guān)決定在一個(gè)記錄中該字段是否允許存在多個(gè)值。phrase 和 document 字段始終不允許多個(gè)字段值。 值唯一性開關(guān)值唯一性開關(guān) 值唯一性開關(guān)決定在數(shù)據(jù)庫(kù)的所有記錄中,該字段(date、number 或 char 型字段)是否允許出現(xiàn)重復(fù)的字段值。 空值禁止開關(guān)空值禁止開關(guān) 空值禁止開關(guān)決定在一個(gè)記錄中該字段(date、number 或 char 型字段) 是否允許沒有字段值。 最大長(zhǎng)度或精度最大長(zhǎng)度或精度 該屬性對(duì)于不同的字段類型
37、有不同的意義: 對(duì)于 char 型字段,該屬性表示單個(gè)字段值的最大取值長(zhǎng)度,超過規(guī)定 長(zhǎng)度的字符將被忽略。字符串型單個(gè)字段值的最大長(zhǎng)度是字符串型單個(gè)字段值的最大長(zhǎng)度是 255 個(gè)字節(jié)個(gè)字節(jié)。 對(duì)于 number 型字段,該屬性表示字段值的小數(shù)位精度,或整數(shù)位的位 數(shù)。支持三種子類型,具體如下: 限定值限定值說明說明 0 6數(shù)據(jù)為小數(shù)位精度為 0 到 6 位的實(shí)數(shù)。 限定值即為小數(shù)位的精度。 表示范圍是 32 位二進(jìn)制單精度浮點(diǎn)數(shù)。表示整數(shù)時(shí)可確保 7 位十位十 進(jìn)制有符號(hào)整數(shù)進(jìn)制有符號(hào)整數(shù),即:9999999。 100 114數(shù)據(jù)為小數(shù)位精度為 0 到 14 位的實(shí)數(shù)。 限定值減去 100 后
38、,即為小數(shù)位的精度。 表示范圍是 64 位二進(jìn)制雙精度浮點(diǎn)數(shù)。表示整數(shù)時(shí)可確保 15 位位 十進(jìn)制有符號(hào)整數(shù)十進(jìn)制有符號(hào)整數(shù),即:999999999999999。 32數(shù)據(jù)為 0 到 32 位十進(jìn)制有符號(hào)整數(shù)位十進(jìn)制有符號(hào)整數(shù)。 表示范圍是:99999999999999999999999999999999。 對(duì)于其他類型的字段,該屬性沒有意義。 索引屬性索引屬性 索引屬性是指 document 字段的倒排索引項(xiàng)所包含的索引屬性名表。trs 系統(tǒng)支持的倒排索引屬性包括: 段落(seg) 句子(sen) 位置(pos) 在指定 document 字段的倒排索引屬性名表時(shí),可以使用其中之一,或者 多
39、個(gè)的組合。 索引存放路徑索引存放路徑 索引存放路徑指明該字段的索引文件的存儲(chǔ)目錄。 注釋信息注釋信息 注釋信息是對(duì) trs 數(shù)據(jù)庫(kù)字段對(duì)象進(jìn)行說明的信息。 在定義數(shù)據(jù)庫(kù)字段時(shí),對(duì)每一個(gè)屬性都必須給出其正確取值。在數(shù)據(jù)庫(kù)加載之 前,對(duì)數(shù)據(jù)庫(kù)字段的屬性可以進(jìn)行任意修改。 在加載了數(shù)據(jù)后,下列屬性不再允許修改: 數(shù)據(jù)類型 缺省字段值 字段值格式 字段值范圍 多值允許開關(guān) 值唯一性開關(guān) 空值禁止開關(guān) 最大長(zhǎng)度或精度 當(dāng)創(chuàng)建了索引后,下列屬性不再允許修改: 禁止索引開關(guān) 索引屬性 索引存放路徑 除了可定義的字段外,每個(gè)數(shù)據(jù)庫(kù)都有一個(gè)固定的名為 docid 的邏輯字段。 該字段的內(nèi)容是數(shù)據(jù)庫(kù)記錄的物理記錄
40、號(hào),可用來查詢數(shù)據(jù)庫(kù)記錄。一個(gè)記錄加載 到數(shù)據(jù)庫(kù)以后就有了一個(gè)唯一的物理記錄號(hào),除非對(duì)該記錄進(jìn)行修改,其值將始終 保持不變。 1.5 視圖 視圖是 trs 系統(tǒng)中的一種輔助數(shù)據(jù)對(duì)象。trs 系統(tǒng)支持對(duì)數(shù)據(jù)庫(kù)記錄和字段 進(jìn)行直接的授權(quán)機(jī)制來實(shí)現(xiàn)數(shù)據(jù)的安全保密性控制,但有時(shí)顯得有些煩瑣。通過視 圖來限制某些用戶對(duì)數(shù)據(jù)庫(kù)字段和記錄的查詢,就可以用一種簡(jiǎn)便的方式間接地完 成對(duì)數(shù)據(jù)庫(kù)記錄和字段查詢權(quán)的控制。 視圖實(shí)際上是一個(gè)邏輯數(shù)據(jù)表,它是邏輯地從一個(gè)或多個(gè)數(shù)據(jù)庫(kù)中抽取一個(gè)或 多個(gè)字段并滿足指定條件的記錄。視圖并不物理地存儲(chǔ)數(shù)據(jù),只是描述了組成該視 圖的數(shù)據(jù)所遵循的邏輯。每個(gè) trs 系統(tǒng)可管理多達(dá)數(shù)十
41、億個(gè)視圖,每個(gè)視圖中可 包含 1 到 128 個(gè)數(shù)據(jù)庫(kù)。 視圖對(duì)象具有下列屬性: 名稱名稱 名稱是 trs 視圖的對(duì)象名,即視圖名,是訪問、維護(hù)和管理該視圖的入口。 視圖名不能與屬于同一用戶的其它視圖、數(shù)據(jù)庫(kù)以及各種詞典同名。 別名別名 別名是該視圖名的別稱,一般是為了方便使用而給出的視圖名的縮寫,或其英 文名稱。視圖別名與視圖名具有同等的地位。一個(gè)視圖可以定義多個(gè)別名。 所有者所有者 所有者表明哪個(gè)用戶擁有該視圖。所有者與名稱(別名)唯一確定一個(gè)視圖對(duì) 象。所有者對(duì)該視圖能夠進(jìn)行任何操作,而不受其它數(shù)據(jù)安全控制的制約。 缺省檢索字段缺省檢索字段 缺省檢索字段是指在對(duì)該視圖進(jìn)行查詢時(shí),檢索表達(dá)
42、式?jīng)]有明確指定檢索目標(biāo) 字段的子表達(dá)式所默認(rèn)的目標(biāo)字段。 公共訪問權(quán)限公共訪問權(quán)限 公共訪問權(quán)限是指 trs 系統(tǒng)中所有用戶對(duì)該視圖所擁有的權(quán)限。對(duì)視圖可設(shè) 置的公共訪問權(quán)限共有三種: 記錄檢索權(quán) 視圖結(jié)構(gòu)修改權(quán) 視圖刪除權(quán) 所含數(shù)據(jù)庫(kù)所含數(shù)據(jù)庫(kù) 所含數(shù)據(jù)庫(kù)是指該視圖中所包含的數(shù)據(jù)庫(kù)。視圖中不能包含視圖。 記錄選取條件記錄選取條件 記錄選取條件實(shí)際上是一個(gè)對(duì)該視圖所包含的每個(gè)數(shù)據(jù)庫(kù)進(jìn)行檢索的檢索表達(dá) 式。記錄抽取條件中的檢索目標(biāo)字段(包括缺省的目標(biāo)字段)動(dòng)態(tài)地對(duì)應(yīng)于該 視圖所包含的每個(gè)數(shù)據(jù)庫(kù)中的字段,而不是該視圖的字段。 注釋信息注釋信息 注釋信息是對(duì) trs 視圖對(duì)象進(jìn)行說明的信息。 一般情
43、況下,視圖只能用于數(shù)據(jù)的查詢,而不支持對(duì)數(shù)據(jù)的“增、刪、改”等 操作,但 trs 系統(tǒng)支持一種特殊的視圖:數(shù)據(jù)庫(kù)自動(dòng)分裂模式視圖,簡(jiǎn)稱為自動(dòng) 模式視圖。這種視圖不但支持對(duì)數(shù)據(jù)記錄的維護(hù),而且隨著數(shù)據(jù)記錄的增加,能夠 自動(dòng)分裂數(shù)據(jù)庫(kù),以維持?jǐn)?shù)據(jù)庫(kù)的規(guī)模。 1.6 視圖字段 視圖字段是對(duì)視圖進(jìn)行查詢的唯一入口,所有的查詢操作都是在一定的字段上 進(jìn)行的。每個(gè)視圖可定義 1 到 1023 個(gè)字段,每個(gè)字段可映射 1 到 64 個(gè)數(shù)據(jù)庫(kù)中的 某個(gè)字段。 視圖字段對(duì)象具有下列屬性: 名稱名稱 名稱是 trs 視圖字段的對(duì)象名,即字段名,是訪問、維護(hù)和管理該視圖字段 的入口。字段名不能與同一視圖中的其它字段
44、同名。 別名別名 別名是該字段名的別稱,一般是為了方便使用而給出的字段名的縮寫,或其英 文名稱。字段別名與字段名具有同等的地位。一個(gè)字段可以定義多個(gè)別名。 所屬視圖所屬視圖 所屬視圖指示該字段是哪個(gè)視圖的字段。所屬視圖與名稱(別名)唯一確定一 個(gè)視圖字段對(duì)象。 數(shù)據(jù)類型數(shù)據(jù)類型 數(shù)據(jù)類型即字段類型,它表明了該字段所映射的數(shù)據(jù)庫(kù)字段所存儲(chǔ)的數(shù)據(jù)類型。 對(duì)應(yīng)于數(shù)據(jù)庫(kù)字段,視圖字段也有六種類型: 日期型(date) 數(shù)值型(number) 字符串型(char) 短語(yǔ)型(phrase) 全文型(document) 二進(jìn)制型(bit) 字段顯示名字段顯示名 字段顯示名是上用戶界面上該字段的對(duì)應(yīng)名字。 顯
45、示區(qū)寬度顯示區(qū)寬度 顯示區(qū)寬度是字段值在用戶界面上顯示區(qū)域的缺省寬度單位數(shù)。 顯示區(qū)高度顯示區(qū)高度 顯示區(qū)高度是字段值在用戶界面上顯示區(qū)域的缺省高度單位數(shù)。 公共查詢開關(guān)公共查詢開關(guān) 公共查詢開關(guān)決定是否允許 trs 系統(tǒng)中的所有用戶在該字段上進(jìn)行查詢。 數(shù)據(jù)庫(kù)字段映射數(shù)據(jù)庫(kù)字段映射 數(shù)據(jù)庫(kù)字段映射決定了該字段對(duì)應(yīng)于哪些數(shù)據(jù)庫(kù)中的哪個(gè)字段。 注釋信息注釋信息 注釋信息是對(duì) trs 視圖字段對(duì)象進(jìn)行說明的信息。 1.7 數(shù)據(jù)格式 數(shù)據(jù)格式用來說明多媒體數(shù)據(jù)的格式類型。在數(shù)據(jù)庫(kù)加載時(shí),trs 系統(tǒng)將根據(jù) 數(shù)據(jù)格式確定相應(yīng)的數(shù)據(jù)存儲(chǔ)方式,使用相應(yīng)的分詞方法;在數(shù)據(jù)輸出時(shí),trs 系 統(tǒng)將根據(jù)數(shù)據(jù)格式
46、對(duì)數(shù)據(jù)進(jìn)行相應(yīng)的處理,便于瀏覽。每個(gè) trs 系統(tǒng)可管理多達(dá) 1023 個(gè)數(shù)據(jù)格式對(duì)象。 數(shù)據(jù)格式對(duì)象具有下列屬性: 名稱名稱 名稱是 trs 數(shù)據(jù)格式的對(duì)象名,即數(shù)據(jù)格式名,是訪問、維護(hù)和管理該數(shù)據(jù) 格式的入口。數(shù)據(jù)格式名不能重復(fù)。 所屬類所屬類 即該數(shù)據(jù)格式屬于哪種格式類型。trs 系統(tǒng)把數(shù)據(jù)格式劃分成六種類型: 純文本(text) 格式文檔(doc) 圖像(image) 音頻(audio) 視頻(video) 自定義(bit) 文件后綴文件后綴 文件后綴是指該數(shù)據(jù)格式的數(shù)據(jù)文件通常使用的文件名后綴。 壓縮開關(guān)壓縮開關(guān) 壓縮開關(guān)決定該數(shù)據(jù)格式的數(shù)據(jù)是否需要進(jìn)行無損壓縮。 注釋信息注釋信息
47、注釋信息是對(duì)數(shù)據(jù)格式對(duì)象進(jìn)行說明的信息。 trs 系統(tǒng)在安裝時(shí),將自動(dòng)創(chuàng)建下列數(shù)據(jù)格式對(duì)象(名稱): bit(不確定格式的二進(jìn)制數(shù)據(jù)) text(文本數(shù)據(jù)格式) word(microsoft word 文件格式) ws(wordstar 文件格式) wp(wordprofect 文件格式) xcl(microsoft excel 文件格式) wps(金山 wps 文件格式) s2(方正、華光二掃文件格式) doc(不確定格式的文檔文件格式) audio(不確定格式的音頻文件格式) image(通用圖象文件格式) video(不確定格式的視頻文件格式) avi(avi 動(dòng)畫文件格式) mpeg(
48、mpeg 壓縮動(dòng)畫文件格式) wave(wave 音頻文件格式) midi(midi 音頻文件格式) cda(cd 音頻文件格式) ps(postscript 文件格式) gif(gif 圖象文件格式) tif(tif 圖象文件格式) pcx(pcx 圖象文件格式) bmp(bmp 圖象文件格式) jpeg(jpeg 圖象文件格式) html(html 超文本文件格式) pdf(adobe pdf 文件格式) ppt(microsoft power piont 文件格式) rtf(rich text 文件格式) trs 系統(tǒng)允許用戶自己定義新的數(shù)據(jù)格式,或者修改已有的數(shù)據(jù)格式。數(shù)據(jù)格 式一旦定
49、義,就不允許刪除,所以必須謹(jǐn)慎,只有超級(jí)用戶(即 system 用戶) 有權(quán)創(chuàng)建新的數(shù)據(jù)格式。 1.8 詞典 trs 的全文檢索不單是一種快速的字串匹配系統(tǒng),要獲得良好的檢索效果,必 須使用一系列知識(shí)詞典。詞典對(duì)象是 trs 系統(tǒng)中非常重要的基礎(chǔ)資源,是按詞索 引和檢索技術(shù)的根本依據(jù)。 詞典對(duì)象具有下列屬性: 名稱名稱 名稱是 trs 詞典的對(duì)象名,即詞典名,是訪問、維護(hù)和管理該詞典的入口。 詞典名不能與屬于同一用戶的其它視圖、數(shù)據(jù)庫(kù)以及各種詞典同名。 所有者所有者 所有者表明哪個(gè)用戶擁有該詞典。所有者與名稱(別名)唯一確定一個(gè)詞典對(duì) 象。所有者對(duì)該詞典能夠進(jìn)行任何操作,而不受其它數(shù)據(jù)安全控制
50、的制約。 類型類型 按用途劃分,trs 系統(tǒng)有八種類型的詞典: 分詞詞典(segment) 附加分詞詞典(segmentex) 停用詞典(stop) 附加停用詞典(stopex) 稀疏詞典(sparse) 主題詞典(thesaurus) 同義詞典(synonym) 反義詞典(antonym) 其中,分詞詞典、附加分詞詞典、停用詞典、附加停用詞典和稀疏詞典是用來 建立數(shù)據(jù)庫(kù)的索引并進(jìn)行查詢的詞典,統(tǒng)稱為索引詞典;主題詞典、同義詞典 和反義詞典是用于智能概念擴(kuò)展檢索的詞典,統(tǒng)稱為輔助知識(shí)詞典。 公共訪問權(quán)限公共訪問權(quán)限 公共訪問權(quán)限是指 trs 系統(tǒng)中所有用戶對(duì)該詞典所擁有的權(quán)限。對(duì)詞典可設(shè) 置的
51、公共訪問權(quán)限共有三種: 引用權(quán)(檢索權(quán)) 維護(hù)權(quán)(更新權(quán)) 刪除權(quán) 字符集字符集 字符集是指該詞典語(yǔ)言版本。trs 系統(tǒng)支持的字符集有: 簡(jiǎn)體中文(gb2312、gbk、gb18030) 繁體中文(big5) 純英文(english) 注釋信息注釋信息 注釋信息是對(duì) trs 詞典對(duì)象進(jìn)行說明的信息。 系統(tǒng)安裝時(shí),將自動(dòng)創(chuàng)建以下幾部系統(tǒng)缺省詞典:分詞詞典、停用詞典、主題 詞典、同義詞典和反義詞典。 1.8.1 分詞詞典 中文按詞索引和檢索是 trs 的主要特點(diǎn)之一,內(nèi)嵌的分詞系統(tǒng)采用以詞典為 基礎(chǔ)的分詞算法。分詞詞典用于漢語(yǔ)自動(dòng)分詞,由若干個(gè)漢語(yǔ)詞匯組成,詞典中的 英文詞匯不起作用。每部分詞詞典
52、可容納多達(dá) 10 萬(wàn)條詞匯,每個(gè)詞匯的最大長(zhǎng)度 為 20 個(gè)字節(jié),即 10 個(gè)漢字。 trs 系統(tǒng)提供的缺省分詞詞典的每個(gè)詞匯具有語(yǔ)法屬性,以提高分詞的準(zhǔn)確性。 用戶定義的分詞詞典或增加的詞匯則沒有屬性。該分詞詞典是經(jīng)過加密處理的,用 戶可以瀏覽詞典的詞匯,但不能瀏覽其屬性。 分詞詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫(kù)時(shí)引用分詞詞典。分詞詞典被引用后,一般不允許再對(duì)該詞典進(jìn) 行維護(hù),除非重新創(chuàng)建數(shù)據(jù)庫(kù)的索引。 在一般情況下均使用系統(tǒng)提供的缺省分詞詞典。 對(duì)英文數(shù)據(jù)庫(kù)不使用分詞詞典。 一般不對(duì)系統(tǒng)缺省分詞詞典進(jìn)行維護(hù),當(dāng)需要加入用戶專業(yè)詞匯時(shí),可通過創(chuàng) 建附加分詞詞典來實(shí)現(xiàn)。 分詞詞典中的英文詞匯不起作
53、用,因此不要在分詞詞典中加入英文詞匯。 生僻詞并不一定要加入到分詞詞典,這些詞即使不在詞典中,也能檢索。 trs 系統(tǒng)提供一個(gè)特殊空分詞詞典,其特殊性在于:詞典中沒有任何詞項(xiàng),并 且不能維護(hù);當(dāng)數(shù)據(jù)庫(kù)引用該詞典時(shí),將按字建立索引(這就是這個(gè)詞典的特殊性) ,并用來指定“所有的單字都建索引” ,以便能夠進(jìn)行單個(gè)字的查詢(見 2.3.2 和 2.3.4 節(jié)) 。因此也把該詞典叫做“全字詞典全字詞典” 。 系統(tǒng)安裝時(shí),該詞典將被自動(dòng)創(chuàng)建。 1.8.2 附加分詞詞典 附加分詞詞典是分詞詞典的補(bǔ)充。trs 提供的缺省分詞詞典是一部通用的分詞 詞典,在多數(shù)情況下沒有包括用戶應(yīng)用的特殊詞匯。在這種情況下,一
54、般不是對(duì)系 統(tǒng)缺省分詞詞典進(jìn)行維護(hù),而是通過建立新的附加分詞詞典來定義新的詞匯,系統(tǒng) 在自動(dòng)分詞時(shí)將同時(shí)參考分詞詞典和附加分詞詞典中的詞匯。 附加分詞詞典由一系列詞匯組成,詞典中的英文詞匯不起作用。每部附加分詞 詞典可容納多達(dá) 5 千條詞匯,每個(gè)詞匯的最大長(zhǎng)度為 20 個(gè)字節(jié),即 10 個(gè)漢字。 附加分詞詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫(kù)時(shí)引用附加分詞詞典。附加分詞詞典被引用后,一般不允許再對(duì) 該詞典進(jìn)行維護(hù),除非重新創(chuàng)建數(shù)據(jù)庫(kù)的索引。 在一般情況下均使用系統(tǒng)提供的缺省分詞詞典。即使在數(shù)據(jù)庫(kù)不引用任何附加 分詞詞典,用戶應(yīng)用的特殊詞匯也能進(jìn)行檢索。 對(duì)英文數(shù)據(jù)庫(kù)不使用分詞詞典。 附加分詞詞典中的英
55、文詞匯不起作用,因此不要在附加分詞詞典中加入英文詞 匯。 附加分詞詞典一般包含了某個(gè)領(lǐng)域的專業(yè)詞匯。 1.8.3 停用詞典 停用詞典又稱為禁用詞典,它是由一系列沒有檢索意義的高頻詞組成的,如英 文文獻(xiàn)中的“the” 、 “of” 、 “and” 、 “to”等,中文文獻(xiàn)中的“的” 、 “關(guān)于” 、 “但是” 、 “而且”等。從相關(guān)性方面講,文獻(xiàn)中的這些詞沒有檢索意義,因?yàn)檫@些詞會(huì)出現(xiàn) 在每篇文獻(xiàn)中。在檢索系統(tǒng)中,通常使用停用詞典來過濾掉文獻(xiàn)中沒有檢索意義的 詞,以最大限度地減少數(shù)據(jù)庫(kù)的空間膨脹率、加快查詢速度。 停用詞典中的詞匯可以是中英文標(biāo)點(diǎn)符號(hào)、中英文高頻詞等。每部停用詞典可 容納多達(dá) 3
56、 千條詞匯,每個(gè)詞匯的最大長(zhǎng)度為 10 個(gè)字節(jié),即 5 個(gè)漢字。 停用詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫(kù)時(shí)引用停用詞典。 一般不對(duì)系統(tǒng)缺省停用詞典進(jìn)行維護(hù),當(dāng)需要過濾更多的無意義詞時(shí),可通過 創(chuàng)建附加停用詞典來實(shí)現(xiàn)。 無論是中文數(shù)據(jù)庫(kù),還是英文數(shù)據(jù)庫(kù),均可引用停用詞典。 并不是語(yǔ)言中所有的高頻詞都需要作為停用詞,例如“家” 、 “世界”是高頻詞, 但對(duì)大多數(shù)社會(huì)科學(xué)資料數(shù)據(jù)庫(kù)來說,它們可能是重要的詞匯。一個(gè)詞是不是 需要作為停用詞,與數(shù)據(jù)庫(kù)的領(lǐng)域特點(diǎn)有關(guān),如在計(jì)算機(jī)科學(xué)文獻(xiàn)中, “計(jì)算 機(jī)”可作為停用詞,因?yàn)樗鼛缀醭霈F(xiàn)在每一篇文獻(xiàn)中,沒有檢索意義。 1.8.4 附加停用詞典 附加停用詞典是停用詞典
57、的補(bǔ)充。trs 提供的缺省停用詞典是一部通用的停用 詞典,不包括特殊領(lǐng)域的無檢索意義的詞匯。在這種情況下,一般不是對(duì)系統(tǒng)缺省 停用詞典進(jìn)行維護(hù),而是通過建立新的附加停用詞典來滿足特殊要求。 附加停用詞典中的詞匯可以是中英文標(biāo)點(diǎn)符號(hào)、中英文高頻詞等。每部附加停 用詞典可容納多達(dá) 1 千條詞匯,每個(gè)詞匯的最大長(zhǎng)度為 10 個(gè)字節(jié),即 5 個(gè)漢字。 附加停用詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫(kù)時(shí)引用附加停用詞典。 無論是中文數(shù)據(jù)庫(kù),還是英文數(shù)據(jù)庫(kù),均可引用附加停用詞典。 附加停用詞典一般包含了某個(gè)領(lǐng)域的高頻詞。 1.8.5 稀疏詞典 在某些應(yīng)用領(lǐng)域中,用戶并不需要進(jìn)行全文檢索,而希望從文獻(xiàn)中自動(dòng)抽取一 些
58、詞匯作為檢索的關(guān)鍵詞,也就是說并不需要索引文獻(xiàn)中的所有詞匯,而只需索引 其中一些關(guān)鍵詞。稀疏詞典就是存儲(chǔ)這些關(guān)鍵詞匯的詞典。 關(guān)鍵詞既可是中文詞,也可是英文詞。每部稀疏詞典可容納多達(dá) 5 千條詞匯, 每個(gè)詞匯的最大長(zhǎng)度為 20 個(gè)字節(jié),即 10 個(gè)漢字。 稀疏詞典的使用要點(diǎn): 在創(chuàng)建數(shù)據(jù)庫(kù)時(shí)引用稀疏詞典。稀疏詞典被引用后,一般不允許再對(duì)該詞典進(jìn) 行維護(hù),除非重新創(chuàng)建數(shù)據(jù)庫(kù)的索引。 稀疏詞典一般單獨(dú)使用。 稀疏詞典中的詞匯既可以是中文詞匯,也可以為英文詞匯。 1.8.6 主題詞典 主題詞典又稱為敘詞表,它是一種語(yǔ)義詞典,由詞及其各種關(guān)系組成,能反映 某學(xué)科領(lǐng)域的語(yǔ)義相關(guān)概念。 主題詞典主要用于檢
59、索時(shí)的后控制和標(biāo)引時(shí)的自動(dòng)或輔助選擇索引詞,是提高 查全率和查準(zhǔn)率、實(shí)現(xiàn)多語(yǔ)種檢索和智能化概念檢索的的重要途徑。在 trs 系統(tǒng) 中,主題詞典是一種特殊的數(shù)據(jù)庫(kù),其最大規(guī)模與數(shù)據(jù)庫(kù)的相同。 主題詞典的使用要點(diǎn): 在數(shù)據(jù)錄入時(shí),利用主題詞可進(jìn)行正確性校驗(yàn)或選擇規(guī)范化的主題詞進(jìn)行標(biāo)引, 或進(jìn)行上位詞的自動(dòng)錄入。 在檢索過程中,可根據(jù)主題詞表中的詞間關(guān)系實(shí)施交互式地導(dǎo)航檢索過程,或 選擇相關(guān)的主題詞進(jìn)行檢索。利用主題詞典函數(shù),或自動(dòng)擴(kuò)展功能進(jìn)行多語(yǔ)種 和智能化概念檢索。 trs 系統(tǒng)支持 ansi thesaurus 標(biāo)準(zhǔn)(z39.19-1980)所規(guī)定的所有 13 種詞間關(guān)系, 即:族首詞(lea
60、d term)、上位詞(broader term)、下位詞(narrower term)、等同詞 (equivalence, preferred term)、替代詞(用代詞, used for, non-preferred term)、相關(guān) 詞(related term)、縮略詞(abbreviation)、被所略詞(abbreviation for)、組合概念 (combined concepts)、歷史注釋(hsitory note)、范圍注釋(scope note)、外文等同詞 (language equivalent)、后組配概念(post-coordinated concept)。這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度個(gè)人財(cái)產(chǎn)保險(xiǎn)合同范本3篇
- 二零二五年度專業(yè)月嫂服務(wù)合同規(guī)范3篇
- 裝修公司人設(shè)打造方案
- 二零二五年度社區(qū)便利店承包權(quán)租賃合同詳規(guī)3篇
- 醫(yī)院防輻射裝修施工方案
- 二零二五年度個(gè)人對(duì)個(gè)人信用借款合同標(biāo)準(zhǔn)范本
- 二零二五版農(nóng)產(chǎn)品銷售采購(gòu)合同臺(tái)賬2篇
- 虹口平整土方外運(yùn)施工方案
- 2025版私人珠寶財(cái)產(chǎn)抵押融資協(xié)議書3篇
- 二手物品交易合同
- 安全生產(chǎn)法律法規(guī)匯編(2025版)
- 醫(yī)院每日消防巡查記錄表
- 運(yùn)輸企業(yè)重大危險(xiǎn)源辨識(shí)及排查制度
- 運(yùn)動(dòng)技能學(xué)習(xí)與控制課件第五章運(yùn)動(dòng)中的中樞控制
- 中心血站改造項(xiàng)目謀劃建議書
- 高中數(shù)學(xué)三角函數(shù)圖像變換訓(xùn)練-含答案
- 初中英語(yǔ)專項(xiàng)練習(xí)介詞專項(xiàng)訓(xùn)練
- 財(cái)務(wù)部規(guī)范化管理 流程圖
- GB/T 20631.2-2006電氣用壓敏膠粘帶第2部分:試驗(yàn)方法
- 大宗商品交易管理辦法
- 斷絕關(guān)系協(xié)議書范文參考(5篇)
評(píng)論
0/150
提交評(píng)論