信息組織知識_第1頁
信息組織知識_第2頁
信息組織知識_第3頁
信息組織知識_第4頁
信息組織知識_第5頁
已閱讀5頁,還剩14頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、知識要點第一章 緒論1、 什么是信息組織?(理解)信息組織:對信息資源對象進行收集、加工、整合、存儲使之有序化、系統(tǒng)化的過程。2、 信息組織的發(fā)展階段按組織對象劃分(理解)按組織對象劃分信息組織經歷了三個階段:文獻組織階段、信息組織階段、知識組織階段文獻組織階段組織對象:傳統(tǒng)文獻實體,不涉及文獻內容本身。信息組織階段組織對象:從廣度上,以紙質信息為中心轉向以電子媒介信息為中心;從深度上,除了對文獻實體進行組織,還要深入信息內容。知識組織階段組織對象:從顯性知識擴展到隱性知識。知識組織直接給用戶提供直觀的、可操作的系統(tǒng)化知識。不再局限于利用片面的信息來滿足用戶的需求,而是對用戶的需求系統(tǒng)分析,向

2、用戶提供全面、完善的解決方案。按職能劃分信息組織經歷了三個階段(補充):清冊職能時期查檢職能時期組織職能時期3、 網絡信息組織的基本方法(掌握)網絡信息組織方法一次信息二次信息文件方式自由文本方式主頁方式指引庫方式超文本方式搜索引擎方式主題樹方式數(shù)據(jù)庫方式文件方式 一般用于局域網內的非結構化信息組織。 優(yōu)點:通過FTP協(xié)議進行傳輸,簡單方便 缺點:以文件為單位共享和傳輸信息會使網絡負載越來越大自由文本方式 主要用于全文數(shù)據(jù)庫的組織 對非結構化的文本信息進行組織和處理的方式 能夠完整地反映出一次文獻的全貌 通過計算機自動進行文獻信息的處理和組織,支持全文檢索。數(shù)據(jù)庫方式 一般用于結構化/規(guī)范化信

3、息組織。 優(yōu)點:最小存取單位是字段,從而大大降低網絡數(shù)據(jù)傳輸?shù)呢撦d。 缺點:對非結構化信息處理難度大 數(shù)據(jù)庫方式是當前普遍使用的網絡信息資源的組織方式。主頁方式 網頁一般通過HTML語言規(guī)則將文本、圖像、聲音、視頻等各種類型的信息集合在一起。超文本方式主題樹方式 主題樹方式是一種可供檢索和查詢的等級式主題目錄。它以人工方式或半自動方式搜集信息,然后將信息資源按照某種事先確定的概念體系結構,分門別類地逐層加以組織。 主題樹方式不太適合大型的綜合性的網絡信息資源系統(tǒng),而較適合專題指引庫的建立。 搜索引擎方式指引庫方式 指引庫,也稱導航庫。它并不存儲各種實際的信息資源,只存放有關主題的數(shù)據(jù)庫或服務器

4、的地址等信息,可指引用戶到特定的地址獲取所需的信息。5、信息的外表特征、內容特征分別包括哪些?(理解)外表特征:與信息內容無關的特征,如題目、作者、出處、作者工作單位、專利號等 內容特征:信息所涉及的中心事物和學科屬性 ,如分類號、主題詞、關鍵詞、摘要等。模糊對應外表特征內容特征精確對應信 息6、什么是標引語言?什么是自然語言?什么是受控語言?自然語言區(qū)別于受控語言的特點有哪些?(理解)標引語言:是表達文獻主題概念和文獻需求主題概念的簡明性、單義性和關聯(lián)性概念標識系統(tǒng),是根據(jù)標引和檢索需要而編制的人工語言。 也叫“情報語言”、“索引語言”、“檢索語言” 揭示信息的中心主題和內容特征 信息標引的

5、依據(jù) 用于將檢索用語和標引用語進行匹配 對自然語言進行規(guī)范化處理后的人工語言 標引語言實際上是檢索者與組織者之間的一種“約定” 自然語言:文獻作者所使用的書面語言受控語言:詞匯及語法都受到各種控制的人工語言。7、標引包括哪些類型?自然語言標引包括哪些方法?(理解)劃分標準信息標引類型按使用的標引工具分化分類標引主題標引按標引工作的不同執(zhí)行者劃分手工標引受控標引自由標引自由詞補充標引自動標引自動抽詞標引自動賦詞標引自動分類自動聚類按采用的不同標識劃分受控語言標引自然語言標引幾個重要概念(補) 自然語言標引:采用自然語言作為信息記錄主題內容檢索標識的標引。自然語言標引的方法:1.關鍵詞法2.文本檢

6、索3.自由標引4.自然語言入口詞檢索8、索取號及其構成(掌握)索取號:是信息服務機構賦予每一種信息資源的唯一號碼。它反映每種信息資源的具體存放位置。索取號由兩部分組成:分類號和書次號(書次號通常采用“種次號”或“著者號”)。“種次號”是依照同類信息資源到信息服務機構的先后次序編制的順序號或流水號;“著者號”是依照著者姓名的音、形等特征編制的號碼。9、信息存儲介質(理解)存儲介質紙張、磁盤、磁帶、縮微膠片、光盤等10、信息存取系統(tǒng)的類型(理解)信息檢索系統(tǒng)的類型 按照信息源類型劃分:文獻型、事實型、數(shù)值型、圖像型 按照工作方式和存取介質:手工、單機、聯(lián)機、光盤、網絡信息檢索系統(tǒng)的結構信息檢索系統(tǒng)

7、一般包括五個子系統(tǒng): 選擇子系統(tǒng) 標引子系統(tǒng) 詞表子系統(tǒng) 檢索子系統(tǒng) 交互子系統(tǒng)11、衡量檢索效率的指標(理解)衡量檢索效率的指標主要有: 查全率(漏檢率) 查準率(誤檢率)第二章 分類法(重點)1、 什么是分類法?包括哪些類型(即構成原理)?(理解)分類組織法:根據(jù)概念的劃分與概括原理,按照事先規(guī)定好的學科專業(yè)體系或事物范疇,根據(jù)某一特性將信息分門別類的組織成系統(tǒng),以便于用戶按照學科專業(yè)或事物范疇途徑查詢特定信息的信息組織法。 分類法使用分類號來標識類目,分類號可反映類目在分類體系中的位置和排列次序。分類語言的構成原理:1)等級體系分類法2)分面組配分類法3)等級體系分面組配分類法(也即混合

8、分類法)2、 什么是體系分類法?其主要代表有哪些?(理解)含義:類目按等級層層展開,并詳盡列舉的文獻分類法p 特點 將表達事物的概念(類目)按照知識分類與邏輯關系進行縱向從屬、橫向并列的方式編排成概念等級體系; 是一種先組式定組型標引語言,其類目與類號標識都是在編制分類表時事先確定或大部分確定好的; 按照學科專業(yè)和事物范疇區(qū)分和集中文獻; 標識符號既可以用于組織分類目錄與索引,也可用于排書上架; 采用數(shù)字和字母作為標識,便于國際標準化。p 種類 中國圖書館分類法(簡稱中圖法) 中國科學院圖書館分類法(簡稱科圖法) 杜威十進分類法 (簡稱DDC) 國際十進分類法(簡稱UDC) 美國國會圖書館圖書

9、分類法(簡稱LDC)p 局限性(補充) 列舉類目與無限增長的科學知識不相適應; 類目體系的單向線性結構與概念多向成族的網狀結構不相適應; 分類標識的概括性與信息源主題的專指性不相適應; 號碼標識的有限性與知識單元的無限性不相適應; 文獻單元標引與知識單元檢索不相適應。3、 什么是組配式分類法?其主要代表有哪些?(掌握)分面:一組性質相同的概念因素分面組配分類法含義:依據(jù)概念的分析與綜合原理,將概括信息內容與事物的主題概念分成若干個“分面”,通過各分面內類目之間的組配來表達信息內容的分類法,也叫分面分類法、范疇分類法。即一個復雜主題概念可以用若干個簡單概念標識的組配來表達構成:包括分面分析、分面

10、引用次序和分面標記制度三大關鍵理論和技術。種類:冒號分類法(簡稱CC)布利斯書目分類法(簡稱BC)缺點:類表結構和標記方法復雜,類目體系欠直觀4、 什么是體系組配式分類法?其主要代表有哪些?(理解)含義:是一種在體系分類法的基礎上,引入分面分析和組配技術而形成的分類法結構模式,亦稱半分面分類法。p 背景:全分面組配分類法很少被使用,分面分析和組配技術更多的是被體系分類法吸收,用來改善體系分類法的性能。p 特點:1)按照學科專業(yè)或事物范疇設置基本大類;2)通過設置各種分面輔助復分表提供分面組配技術與概念標識。p 種類: 國際十進分類法(簡稱UDC) 俄國圖書館書目分類法5、 分類法中基本標記符號

11、包括哪些類型?(掌握)分類法的標記符號也稱分類號、類號,是類目的代號?;痉枺簡渭償?shù)字單純字母數(shù)字、字母混合輔助符號(根據(jù)分類法的功能而定)6、 常用標記制度包括哪些?(掌握)結構型標記制非結構型標記制層累標記制混合標記制分面標記制順序標記制層累標記制 又稱等級標記制,是一種類號的位數(shù)與類目等級相適應的層次分明的標記制度。它常用一位號碼表示一個大類,再加一位號碼表示其下位類(二級類),以號碼的層層累加表示類目的層層劃分。 中圖法基本采用層累標記制混合標記制 一種結合采用順序制和層累制的標記方式。包括層累順序制和順序一層累制 科圖法采用的是順序一層累制。分類號的前兩位數(shù)字采用順序制,用于標識基

12、本大類和二級、三級類目;兩位數(shù)字后,用小圓點隔開,其后基本使用層累標記制。分面標記制又稱分段標記制,是用若干節(jié)段符號的組合來表達主題概念的標記制度。它能顯示類目的組配關系。 例如:“20世紀90年代中國兒童圖書館圖書分類工作”的類號為2 ,61;43 :51 . 41 N9。順序標記制按照類目在分類體系中的次序,順序配以號碼,號碼只表示類目的次序,不顯示類目的等級或其他關系 。7、 中圖法、科圖法、DDC、UDC分別采用什么標記符號和標記制度?(掌握)中圖法采用拉丁字母與阿拉伯數(shù)字相結合的混合號碼制作為標記符號,基本采用層累標記制。 科圖法采用單純數(shù)字號碼作為標記符號,號碼分為兩部分:第一部分

13、采用整數(shù)順序制,第二部分基本上采用小數(shù)層累制,簡而言之,采用混合標記制。杜威十進分類法(DDC):DDC是以阿拉伯數(shù)字作為基本的分類標記符號的,并采用層累制。國際十進分類法(UDC):UDC 與DDC一樣,采用單純阿拉伯數(shù)字作為標記符號?;静捎脤永壑?,第三章 主題法(重點)1、 什么是主題法?(理解)主題法是指用語詞作為概念標識,將概念標識進行字順排列,并用參照系統(tǒng)等方法間接顯示概念之間相互關系的信息組織方法。2、 主題法有什么特點?(掌握)1.以主題為中心集中信息2.直接用自然語詞(主題詞)作為存取標識3.主要按字順排列4.用參照系統(tǒng)顯示主題詞之間的關系3、 主題法包括哪些類型?(掌握)標

14、題法:用規(guī)范化語詞標題詞來表達主題概念 元詞法 (單元詞法):用規(guī)范化語詞單元詞的字面組配來表達主題概念敘詞法 (主題詞法):用規(guī)范化語詞敘詞的概念組配來表達主題概念關鍵詞法 :直接以文獻中的自然語詞關鍵詞來表達主題概念4、 主題法參照系統(tǒng)的構成(理解)Y 用項符號:表示該主題是正式主題詞D 代項符號:表示該主題是非正式主題詞F 分項符號:表示該主題是“顯像管”的下位主題詞S 屬項符號:表示該主題是“顯像管”的上位主題詞C 參項符號:表示該主題是“顯像管”的相關主題詞5、 幾種代表性主題法中哪些是自然語言,哪些是人工語言?(理解)標題法、元詞法、敘詞法為人工語言;而關鍵詞法則為自然語言6、 主

15、題法和分類法的比較(掌握)揭示對象不同主題法揭示文獻論述的主題事物(“是什么”);分類法揭示的是文獻內容的學科屬性(“屬什么”)。使用標識不同主題法直接用詞語表示文獻主題;分類法則以抽象的“分類號”表示文獻主題。排列方式不同主題法按詞語字順排列,如同詞典,易學易查;分類法按分類號排列,系統(tǒng)性較強,但不熟悉有關分類表則難以有效地利用。用途不同主題法較適合于對單篇文獻的組織和檢索,且更適于計算機組織和檢索;分類法則比較適合于圖書或文集的組織和檢索。7、 什么是范疇索引、詞族索引?(理解)范疇索引,又稱分類索引,是將敘詞和非正式敘詞按所屬學科或范疇編制的詞匯分類索引。詞族索引,也稱等級索引,是將字順

16、表中具有等級關系的敘詞按屬分等級構成詞族,并按各詞族的族首詞字順排列的詞匯索引。8、 什么是后控制,對網絡信息資源組織的作用?(掌握)后控制主要是通過后控詞表來實現(xiàn)的。后控制詞表是利用受控語言的基本原理和方法編制的自然語言檢索用詞表。它主要是對自然語言中大量存在的等同關系、等級關系和大部分相關關系進行控制和揭示,用戶在檢索時通過瀏覽詞表選用檢索詞,或者由系統(tǒng)自動調整檢索式(擴檢或縮檢)。所以,后控詞表是一種擴檢或縮檢工具,一種羅列自然語言檢索標識供選擇的工具。 后控制模式:“標引不控制+檢索控制”模式。即在標引階段使用自然語言,不對標引進行嚴格控制,而在檢索階段才對檢索詞進行控制的自然語言檢索

17、優(yōu)化技術。 后控制技術是人工語言與自然語言相結合的典范。9、 網絡信息資源組織中的主題法(掌握)標題詞法和敘詞法的應用 標題詞表和敘詞表用于網絡信息組織主要作為后控詞表使用,分為兩種情況: 第一,檢索前使用:用來規(guī)范用戶的檢索表達式; 第二,檢索后使用:在給出用戶檢索表達式及檢索結果的同時,提供相似詞以便用戶進一步擴檢或縮檢。關鍵詞法的應用 關鍵詞法在網絡中的應用相當廣泛,目前,大部分搜索引擎幾乎都采用關鍵詞法進行信息組織。 關鍵詞法的原理直接從文獻的題目、正文、摘要中抽取出具有實際意義的語詞作為文獻標識,對標識不加規(guī)范化或只作少量規(guī)范化處理。不編制受控詞表,不顯示詞間關系,只編制禁用詞表來控

18、制抽詞每個關鍵詞都是平等的,輪流排至檢索位置,提供多途徑的主題字順檢索。關鍵詞標引 自由標引 自動標引 全文索引10、什么是自由標引、全文檢索?(掌握) 自由標引即人工關鍵詞標引。即人工從文獻中提取自然語言作為主題標識。 全文檢索不對文獻進行任何標引,直接通過計算機將自然語言檢索詞與文獻中的語詞進行匹配。全文檢索進行匹配的對象,可以是整個出版的文本,包括文章、報告甚整本圖書,也可以是它的部分,如文摘、摘錄或只是文獻的題名。第四章 置標語言工具1、 什么是SGML?(理解)其基本思想、特點是什么?(掌握)SGML(標準通用標記語言)一種通用的描述各種電子文件的結構和內容的國際標準。為創(chuàng)建結構化、

19、可交換的電子文件提供了依據(jù)。SGML的基本思想是把文檔的內容與樣式分開 SGML的主要特點是它的通用性與獨立性:所謂通用性是指SGML可支持無數(shù)的文檔結構類型,例如布告、技術手冊、章節(jié)目錄、設計規(guī)范、各種報告、信函和備忘錄等。所謂獨立性是指它與硬件、軟件獨立。SGML可以創(chuàng)建與特定的軟硬件無關的文檔,因此很容易與使用不同計算機系統(tǒng)的用戶交換文檔。 2、 文檔三要素包括哪些?(掌握)文檔的三要素:文檔文檔內容文檔結構文檔樣式3、 HTML標簽的主要作用?與SGML是什么關系?(理解)含義:HTML是一種表現(xiàn)語言,用來定義WEB上文字、圖像以及聲音等的顯示及格式。主要作用:HTML的主要作用是指示

20、瀏覽器按照相應格式顯示信息。與SGML關系:HTML是標準通用標記語言(SGML)所創(chuàng)建的許多標記語言之一,或者說是它的一個很小的子集。HTML是使用固定標簽集的一種SGML文檔。主要在Web上使用。4、 什么是XML?具有哪些特性和優(yōu)勢?(掌握)XML eXtensible Markup Language(可擴展標記語言),是一種定義標記語言的元標記語言,是一套定義語義標記的規(guī)則。特點: 可擴展性可自定義標簽,元標記語言; 數(shù)據(jù)與顯示相分離同一數(shù)據(jù)可多視; 自我描述性標簽具有語義,支持智能檢索; 高度結構化采用樹形結構。 簡明性SGML的子集,20%復雜、80%功能;優(yōu)勢: 結構支持:HTM

21、L缺乏對復雜結構的支持 內容提取:HTML的標記缺乏語義 國際化:HTML對特殊字符和國際字符集的支持還很不夠,在不同平臺上的實現(xiàn)很不一致 數(shù)據(jù)交換:HTML難以實現(xiàn)自動的數(shù)據(jù)交換 信息重用:HTML不易重復使用已有的信息 動態(tài)更新:用HTML創(chuàng)建的主頁不允許使用者改變頁面的外觀屬性,除非使用者載入新的頁面,或者使用Java小程序。但是,任何存儲在Java中的數(shù)據(jù)都不能被搜索引擎發(fā)現(xiàn)。5、 XML和HTML比較(掌握)比較內容HTMLXML可擴展性不具備擴展性元標記語言,可用于定義新的標記語言側重點側重于如何表現(xiàn)信息側重于如何結構化的描述信息語法要求不要求標記的嵌套嚴格要求嵌套配對、呈樹形結構

22、可讀性及可維護性難于閱讀、維護結構清晰、便于閱讀、維護數(shù)據(jù)和顯示的關系內容描述和顯示方式整合一體內容描述與顯示方式相分離6、 XML中用來描述信息的結構、內容、樣式的語言規(guī)范分別是什么?(理解)結構:文檔結構定義文件.DTD (或.XSD)<?xml version = “1.0” encoding=“GB2312” standalone = “no”?><!DOCTYPE 聯(lián)系人列表 SYSTEM “fclml.dtd”>內容:文檔數(shù)據(jù)文件.XML<?xml version = “1.0” encoding=“GB2312” ?><body>我

23、的第一個XML文檔</body>樣式:樣式單文件.XML(或.CSS)<?xml version = “1.0” encoding=“GB2312” ?><?xml-stylesheet type=”text/xsl” href=”mystyle.xsl”?>第五章 元數(shù)據(jù)1、什么是元數(shù)據(jù)?(理解)元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù)(data about data),同時也是結構化的數(shù)據(jù)。它對信息資源進行描述和解釋,促進信息資源的檢索、管理和利用。元數(shù)據(jù)可以為各種形態(tài)的信息資源提供規(guī)范的描述方案和檢索工具,為分布的、由多種信息資源組成的信息系統(tǒng)(如數(shù)字圖書館)提供整合的

24、工具和紐帶。 關于數(shù)據(jù)的結構化數(shù)據(jù) 用于描述數(shù)據(jù)的內容、覆蓋范圍、質量、管理方式、數(shù)據(jù)的所有者、數(shù)據(jù)的提供方式等信息的數(shù)據(jù),是數(shù)據(jù)與數(shù)據(jù)用戶之間的橋梁 資源的信息 編目信息 管理、控制信息 是一組獨立的關于資源的說明 定義和描述其它數(shù)據(jù)的數(shù)據(jù)3、什么是MARC、MARC元數(shù)據(jù)?(掌握)MARC( Machine Readable Catalog ),機器可讀目錄(簡稱機讀目錄),是用于在計算機條件下描述、存儲、交換、控制和檢索著錄數(shù)據(jù)的標準,已成為世界上流行最廣的書目元數(shù)據(jù)標準。MARC數(shù)據(jù),以代碼形式和特定格式結構記錄在計算機存貯載體上,可由計算機進行控制、處理和編輯輸出的目錄。其實質是一種

25、元數(shù)據(jù)。 MARC數(shù)據(jù)的交換和共享通過Z39.50協(xié)議實現(xiàn)。 4、MARC中856字段的用途(理解) 856字段是專門用于記載電子信息資源定位與存取信息的字段,是在為網絡信息資源編目時才特有的字段。它包含定位與存取電子資源所需要的信息,第1指示符標識存取方式;第2指示符標識資源關系。5、什么是DC?DC包括幾個核心元素?(掌握) DC是都柏林核心(Dubin Core)的簡稱,全稱是都柏林核心元素集(Dubin Core Element Set)。核心DC指的是DC的15個核心元素: 題名、主題、描述、來源、語種、關聯(lián)、覆蓋范圍、創(chuàng)建者、出版者、其他責任者、權限、日期、類型、格式、標記等。第八

26、章 搜索引擎(重點)1、 搜索引擎的分類(掌握)根據(jù)檢索方式分類: 分類目錄、關鍵詞搜索引擎、混合搜索引擎根據(jù)信息覆蓋范圍及適用用戶群分類: 綜合搜索引擎、專用搜索引擎(垂直搜索引擎)根據(jù)搜索范圍分類: 獨立搜索引擎、集成搜索引擎(元搜索引擎)2、 什么是元搜索引擎(掌握)元搜索引擎又稱集合式搜索引擎。即將多個搜索引擎集成在一起,并提供一個統(tǒng)一的檢索界面。3、 搜素引擎的發(fā)展趨勢(掌握)個性化;智能化;整合化;垂直化;移動化;開放化;4、 搜索引擎的體系結構(掌握) 一個搜索引擎由以下五個部分組成: 搜索器 索引器 索引數(shù)據(jù)庫 檢索器 用戶接口  5、 搜索器的功能、工作原理及網頁選

27、取策略(理解)含義:搜索器(Spider)俗稱蜘蛛、網絡機器人、爬蟲,是一個自動收集網頁的系統(tǒng)程序。功能:搜索器的功能是日夜不停地在互聯(lián)網中漫游,搜集信息。不光搜集各種類型的新信息,還要定期更新已經搜集過的舊信息,以避免出現(xiàn)死鏈。工作原理:搜索器首先將文檔格式過濾掉,變成純文本文件信息送回,然后將其放到“網頁數(shù)據(jù)庫”中。該庫里還記錄了這些網頁的URL,整個網頁的HTML代碼,網頁標題等等信息。 網頁選取策略 廣度優(yōu)先:是指網絡蜘蛛會先抓取起始網頁中鏈接的所有網頁,然后再選擇其中的一個鏈接網頁,繼續(xù)抓取在此網頁中鏈接的所有網頁。   深度優(yōu)先: 是指網絡蜘

28、蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉入下一個起始頁,繼續(xù)跟蹤鏈接。 高權重優(yōu)先:是指對搜索到的文檔集合進行評級,利用計算得到的結果從中挑選評級最高的鏈接作為下一個搜索的對象。6、 索引器的功能、具體工作步驟(理解)索引器的功能是理解搜索器所搜索的純文本信息,從中抽取出索引項(屬性),生成倒排索引文件,進而建立索引數(shù)據(jù)庫。具體步驟: 分析網頁:提取正文信息并進行分詞;統(tǒng)計詞出現(xiàn)的頻率及位置;提取其它相關信息,如被其他網頁鏈接次數(shù)等; 建立倒排索引:形成由文檔號到索引詞的正向索引;重組正向索引,建立從關鍵詞到文檔號集合的倒排索引; 相關度及重要性計算:通過關鍵詞頻率、

29、位置、表面特征及超鏈分析等因素來決定某一個網頁針對某一個關鍵詞的重要性。7、 檢索器的功能、工作內容(理解)檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序。 檢索器的工作包括查詢匹配、結果排序和文檔摘要三個部分。8、 搜索引擎對搜索結果進行排序的依據(jù)及主要排序算法(掌握)依據(jù):內容相關度基于相關度算法(搜索引擎怎么評價)網站或網頁權威度基于鏈接分析(即其它網站怎么評價)網站或網頁的實用度基于用戶訪問模式(即用戶怎么評價) 排序算法: PageRank(網頁等級)算法 HillTop算法 Hits算法 9、 用戶接口的功能(理解

30、)用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。專題 多媒體信息標引幾種主要多媒體數(shù)據(jù)標引方法的基本原理外在特征標引方法的典型代表標簽法基本原理: 將多媒體信息的外在特征作為標識。以內容分析為主的標引方法 編碼系統(tǒng)法基本原理: 采用某種特定的編碼系統(tǒng)標識多媒體信息中分析出來的各個獨立對象,并根據(jù)對象間存在的聯(lián)系進行相應的代碼拼接、組合,以完成多媒體信息的整體標引。自由文本法基本原理: 先將多媒體信息的內容用文字進行確切的描述,形成描述性的自由文本,然后通過對文本內容的概念標引,間接地完成對多媒體信息記錄內容的標引。特征描述法基本原理: 從圖像、聲音等多媒體信息中捕獲人們感

31、覺最明顯的特征,如圖像的形狀、顏色,音樂的基調、序曲等主要特征,直接建立相應的“相似圖像”索引與“相似聲音”索引。全方位語義分析法基本原理: 強調內容特征與外在特征相結合,從整體到局部,從各個角度為各個對象建立全面的特征標引;并利用語義分析的方法,將各個部分、各個對象間豐富的語義聯(lián)系描繪成語義圖的形式,一起存儲于數(shù)據(jù)庫中。專題 自動標引(重點)1、 自動標引方法體系圖(掌握)標引詞檢索全文檢索對應對應漢語自動分詞2、 什么是標引詞檢索、全文檢索(掌握)標引詞檢索:將用戶輸入的檢索詞與文獻的標引詞進行匹配。全文檢索(文本檢索):全文檢索不對文獻進行任何標引,直接通過計算機將自然語言檢索詞與文獻中

32、的語詞進行匹配。3、什么是自動抽詞?影響標引詞選擇的因素有哪些?涉及的主要技術有哪些?自動抽詞的方法有哪些(重點是統(tǒng)計法)?(掌握)含義:自動抽詞標引即由計算機自動從文本中抽取詞或短語來表達信息資源的主題內容。影響標引詞選擇的因素: 詞語出現(xiàn)的頻率 出現(xiàn)的位置(如出現(xiàn)在標題、文摘、圖表解說詞中等) 詞性 詞的價值 詞語的語言環(huán)境等。自動抽詞涉及的主要技術: 文本分詞技術 詞頻分析技術 權重評價技術自動抽詞方法n 統(tǒng)計法 詞頻統(tǒng)計標引法 加權統(tǒng)計標引法 機器學習標引法(統(tǒng)計學習標引法)n 語言法 句法分析法 語義分析法n 人工智能法4、什么是自動賦詞?(掌握) 所謂賦詞標引就是從某種形式的受控詞表中選取詞語來表達文獻主題內容。 自動賦詞標引則是指由計算機來自動完成這一標引過程。它與自動抽詞標引的最大區(qū)別就是,所使用的標引詞來自于某一受控詞表,而不是來自文獻本身。包括: (1)基于關聯(lián)詞表的自動賦詞標引 (2)基于中介詞典的自動賦詞標引 5、什么是自動歸類?基于詞的自動歸類方法的主要思想?(掌握) 自動歸類是指先分析待分類對象中的特征,將其與各種類別中對象具有的共同特

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論