信息采集技術(shù)二_第1頁
信息采集技術(shù)二_第2頁
信息采集技術(shù)二_第3頁
信息采集技術(shù)二_第4頁
信息采集技術(shù)二_第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

信息采集技術(shù)信息采集的途徑與方法(二)一、光盤檢索采集方法光盤檢索簡介 光盤檢索:光盤的使用起始于70年代,最初主要用于制作激光唱片。80年代以來,隨著計算機(jī)技術(shù)和數(shù)字化計算機(jī)的發(fā)展,光盤才開始應(yīng)用于文獻(xiàn)信息領(lǐng)域。光盤在文獻(xiàn)信息領(lǐng)域的應(yīng)用對信息的存儲介質(zhì)(紙、磁介質(zhì)、縮微膠片等)帶來了革命性的影響,并強(qiáng)烈地沖擊著聯(lián)機(jī)產(chǎn)業(yè)。由于以CD-ROM為代表的光盤技術(shù)具有易用、存儲容量大等獨特的特點,因而受到了人們的普遍歡迎,并很快發(fā)展成為一種新的檢索系統(tǒng)——光盤檢索系統(tǒng)。90年代初期,光盤數(shù)據(jù)庫檢索系統(tǒng)以它存儲數(shù)據(jù)量大、操作簡單、檢索效率高、成本低廉、運行環(huán)境要求簡單等特性,在高校圖書館中的到了廣泛的應(yīng)用,達(dá)到了它的頂峰時期。近兩年來隨著Internet的普及使得光盤數(shù)據(jù)庫檢索系統(tǒng)逐漸發(fā)展為光盤網(wǎng)絡(luò)檢索系統(tǒng),但是目前光盤數(shù)據(jù)庫的獨特的優(yōu)點使它仍然成為利用現(xiàn)代化手段進(jìn)行文獻(xiàn)檢索的主要方式之一。

光盤檢索的特點優(yōu)點:

(1)運行速度快

光盤數(shù)據(jù)庫采用單機(jī)檢索,不受檢索線路是否擁擠的影響,即使連接在校園網(wǎng)上,由于傳輸距離較近,其運行速度也比較快。

(2)成本低,檢索效果好

一般而言,CD-ROM數(shù)據(jù)庫的檢索費用比聯(lián)機(jī)檢索費用低得多,并具有很好的檢索效果。購買CD-ROM數(shù)據(jù)庫后,在一年內(nèi)可以任意使用,利用率愈高,分?jǐn)偟某杀居停以谡麄€檢索過程中不涉及遠(yuǎn)程通信網(wǎng)絡(luò)問題,也不需要使用專線電話之類的通信線路,并考慮機(jī)時費與流通量的問題,沒有聯(lián)機(jī)檢索按時間收費的緊張感,可為用戶提供良好的檢索條件和環(huán)境氣氛。

(3)下載方便

用戶可以方便地將光盤上的部分所需數(shù)據(jù)拷貝到軟盤或其他計算機(jī)系統(tǒng)里,從而形成本部門或個人的局部數(shù)據(jù)庫,以便隨時查詢。

(4)安全性能高

對于光盤數(shù)據(jù)庫來講,它是只讀光盤,具有不可擦除性,更不會因病毒而造成文獻(xiàn)丟失。

光盤檢索的特點缺點:

(1)使用范圍有限

目前光盤數(shù)據(jù)庫的規(guī)模和容量有限,一般都以某一領(lǐng)域?qū)W科為主,不可能囊括所有學(xué)科,而且受到所購置光盤專業(yè)種類的限制,有時會影響查全率。

(2)更新周期長

一般的光盤數(shù)據(jù)庫更新需要3個月,最快也需要1個月。

(3)檢索系統(tǒng)不兼容

不同出版商制作的光盤數(shù)據(jù)庫不能在一個系統(tǒng)中兼容,使用上有很多不便。

(4)需要不斷換盤

一個大型數(shù)據(jù)庫,一般都是幾張光盤,特別是全文數(shù)據(jù)庫,例如中國學(xué)術(shù)期刊全文光盤數(shù)據(jù)庫,每年都有一百多張光盤,檢索時需要不斷更換光盤。光盤檢索提供的服務(wù)(1)追溯檢索服務(wù)

目前引進(jìn)的CD-ROM數(shù)據(jù)庫一般存儲近5~10年的文獻(xiàn),對科研項目的研究提供追溯檢索的服務(wù)。(2)定題服務(wù)

定題服務(wù)是為了跟蹤某課題的最新動態(tài),按用戶事先預(yù)定的檢索內(nèi)容,主動連續(xù)地從新到的文獻(xiàn)庫中檢出有關(guān)信息,提供給用戶。CD-ROM數(shù)據(jù)庫檢索系統(tǒng)還具備保留和重新執(zhí)行檢索策略的功能,可以對檢索策略進(jìn)行任意修改和補充,因此實施定題服務(wù)是比較方便易行的。(3)專題追溯檢索服務(wù)

教育技術(shù)研究者在開始一項新課題研究時,需要系統(tǒng)全面地了解這一課題的進(jìn)展情況,需查找過去若干年中前人有關(guān)此課題的文獻(xiàn)資料。由于CD-ROM數(shù)據(jù)庫的使用幾乎不受時間限制,因此可以為特定用戶制定的專題提供專題追溯檢索服務(wù)。由于受機(jī)時和費用的限制,聯(lián)機(jī)檢索系統(tǒng)一般不提供這類服務(wù)。光盤檢索系統(tǒng)1.光盤檢索系統(tǒng)的組成

光盤檢索系統(tǒng)由光盤、光驅(qū)、計算機(jī)和相應(yīng)軟件組成。

(1)光盤

數(shù)據(jù)存儲單元,一般由數(shù)據(jù)庫供應(yīng)商提供,數(shù)據(jù)在制作過程中固定在其物理介質(zhì)上,不能抹掉也無法修改,稱為CD-ROM。

(2)CD-ROM驅(qū)動器或光盤塔

光盤讀取的專用設(shè)備,其發(fā)射的激光束聚焦在光盤的信息軌道上,在有小孔或無小孔處形成不同的光反射,這兩種不同的光反射經(jīng)光學(xué)系統(tǒng)接收后轉(zhuǎn)換成電信號,計算機(jī)二進(jìn)制信息“0”或“1”,經(jīng)計算機(jī)解碼后,成為原紀(jì)錄的數(shù)字化信息。

(3)計算機(jī)及相應(yīng)軟件

光盤本身是一種機(jī)讀文獻(xiàn),需在計算機(jī)上讀取。目前使用的光盤檢索系統(tǒng)都以計算機(jī)為基礎(chǔ)設(shè)備,在普通的計算機(jī)上加載光盤驅(qū)動器的驅(qū)動軟件和數(shù)據(jù)庫的檢索軟件,即可成為光盤檢索系統(tǒng)。

光盤檢索系統(tǒng)2.光盤檢索網(wǎng)絡(luò)系統(tǒng)

光盤檢索網(wǎng)絡(luò)系統(tǒng)是90年代發(fā)展起來的計算機(jī)文獻(xiàn)檢索系統(tǒng)。隨著光盤數(shù)據(jù)庫的大量涌現(xiàn),單機(jī)光盤檢索需頻繁換盤,給用戶帶來不便。而且在同一時刻只能有一個讀者使用,無法充分發(fā)揮昂貴的光盤數(shù)據(jù)庫的效益。在計算機(jī)網(wǎng)絡(luò)的硬件和軟件環(huán)境的支持下,產(chǎn)生了光盤網(wǎng)絡(luò)檢索系統(tǒng)。目前建成的光盤網(wǎng)絡(luò)檢索系統(tǒng)都是以計算機(jī)的局域網(wǎng)為基礎(chǔ),有多種模式,其共同特點是擁有能同時運行幾十張光盤的光盤塔驅(qū)動器,它可供上百個用戶同時檢索同一張光盤。

光盤數(shù)據(jù)庫網(wǎng)絡(luò)的組成包括光盤塔和各種光盤組網(wǎng)軟件以及光盤塔服務(wù)器等。

光盤檢索的基本流程 光盤檢索的基本流程為根據(jù)檢索的課題選擇合適的數(shù)據(jù)庫,并確定檢索詞,根據(jù)檢索要求編寫檢索式,開始檢索,檢索完畢后,分析判斷檢索結(jié)果,如不合適需修改檢索詞和檢索式進(jìn)行二次檢索,最終得到滿意的檢索結(jié)果。

1.分析研究課題,明確查找要求

明確所需信息及文獻(xiàn)內(nèi)容、性質(zhì)、水平等情況;在分析課題的基礎(chǔ)上形成主題概念;根據(jù)檢索主題概念的學(xué)科性質(zhì),確定檢索的學(xué)科范圍。

2.選擇檢索數(shù)據(jù)庫

由于當(dāng)前數(shù)據(jù)庫的種類繁多,各數(shù)據(jù)庫的內(nèi)容相差很大,從國內(nèi)外出版的數(shù)據(jù)庫來看,一般從數(shù)據(jù)庫的學(xué)科范圍、數(shù)據(jù)庫的文獻(xiàn)范圍、數(shù)據(jù)庫的國別或語種范圍三個方面來確定數(shù)據(jù)庫的內(nèi)容。

光盤檢索的基本流程3.確定檢索詞

所謂檢索詞,就是將檢索要求概括成的簡潔詞語。檢索詞的選擇必須符合兩個要求,一是能準(zhǔn)確反映課題的檢索要求,二是必須符合數(shù)據(jù)庫對輸入詞的要求。4.編寫檢索式

一個課題往往需要用多個檢索詞來描述其含義,這些檢索詞又往往需要用一定的語法規(guī)則來規(guī)定,才能完整描述檢索要求,這就要編寫檢索式。檢索式是將檢索詞之間的關(guān)系用布爾邏輯算符和位置算符來描述的式子。5.檢索結(jié)果顯示及判斷

根據(jù)顯示文獻(xiàn)信息的內(nèi)容和篇數(shù),可以判斷檢索結(jié)果是否符合要求,如果不符合要求,則調(diào)整檢索詞和檢索式再次進(jìn)行檢索。

常用的光盤數(shù)數(shù)據(jù)庫1.《中文科科技期刊數(shù)據(jù)據(jù)庫》光盤《中文科技期期刊數(shù)據(jù)庫》》光盤由中國國科技信息研研究所重慶分分所于1992年6月開開發(fā)成功。1993年面面世,其前身身為中文科技技期刊篇名數(shù)數(shù)據(jù)庫軟盤版版。“中刊庫庫”是目前國國內(nèi)最大的綜綜合性文獻(xiàn)數(shù)數(shù)據(jù)庫,收錄錄了自1989年以來的的中文科技期期刊文獻(xiàn)200多萬條,,引用期刊達(dá)達(dá)5400余余種,年報道道量26萬條條,該庫每季季更新一次。。2.《中國專專利文獻(xiàn)》光光盤數(shù)據(jù)庫中國專利文獻(xiàn)獻(xiàn)光盤數(shù)據(jù)庫庫(CNPAT)由中國國專利信息中中心出版,該該數(shù)據(jù)庫1992年開發(fā)發(fā)成功,收錄錄了自1985年至今在在中國專利局局申請并公開開的全部專利利信息約43萬件,內(nèi)容容有題錄、文文摘和主權(quán)項項,提供了關(guān)關(guān)鍵詞、發(fā)明明名稱、國際際專利分類號號、范疇分類類號、申請?zhí)柼?、發(fā)明人、、公告號、優(yōu)優(yōu)先權(quán)項、國國別省市代碼碼、申請日、、公告日、申申請人地址、、代理機(jī)構(gòu)代代碼共14個個檢索入口,,其中申請人人、發(fā)明人、、發(fā)明名稱為為全文檢索。。3.英國《科科學(xué)文摘》光光盤數(shù)據(jù)庫英國《科學(xué)文文摘》光盤數(shù)數(shù)據(jù)庫(INSPECOndisc)由英國國IEE學(xué)會會出版,是書書本型ScienceAbstract(《《科學(xué)文摘》》)的機(jī)讀版版。其信息來來源于世界范范圍內(nèi)已出版版了的計算機(jī)機(jī)、電子學(xué)、、物理學(xué)方面面的文獻(xiàn),涉涉及期刊4200余種,,會議、圖書書、技術(shù)報告告和學(xué)位論文文1000余余種,每年提提供25萬條條信息。INSPEC數(shù)數(shù)據(jù)庫中每條條記錄的著錄錄項目有:論論文題目、作作者姓名、作作者單位、期期刊、會議、、圖書、報告告、學(xué)位論文文的信息、文文摘、分類、、敘詞、自由由詞等主要項項目,同時提提供了分類號號、主題詞、、自由詞、數(shù)數(shù)值索引、化化學(xué)索引等27項檢索入入口。光盤檢索采集集的模式模式:單用戶的光盤盤數(shù)據(jù)庫信息息采集模式點對點光盤數(shù)數(shù)據(jù)庫信息采采集模式以局域網(wǎng)為依依托的光盤數(shù)數(shù)據(jù)庫信息采采集模式文件服務(wù)器模模式/對等模模式以廣域網(wǎng)為基基礎(chǔ)的光盤數(shù)數(shù)據(jù)庫信息采采集模式在虛擬網(wǎng)絡(luò)基基礎(chǔ)上的光盤盤數(shù)據(jù)庫信息息采集模式E-mail,FTP、、傳真、程控控電話等光盤檢索采集集的途徑與方方法途徑與方法運用規(guī)范化的的語言檢索采采集運用非規(guī)范化化的語言檢索索采集運用規(guī)范化與與非規(guī)范化語語言相結(jié)合的的檢索采集運用文獻(xiàn)的外外形特征檢索索采集運用連續(xù)出版版物的國際標(biāo)標(biāo)準(zhǔn)號碼檢索索二、全文檢索索采集方法全文檢索一種將文件中中所有文本與與檢索項匹配配的文字資料料檢索方法。。全文檢索是計計算機(jī)程序通通過掃描文章章中的每一個個詞,對每一一個詞建立一一個索引,指指明該詞在文文章中出現(xiàn)的的次數(shù)和位置置。當(dāng)用戶查查詢時根據(jù)建建立的索引查查找,類似于于通過字典的的檢索字表查查字的過程。。全文檢索系系統(tǒng)是按照全全文檢索理論論建立起來的的用于提供全全文檢索服務(wù)務(wù)的軟件系統(tǒng)統(tǒng)。功能上全文檢檢索系統(tǒng)需要要具有建立索索引,處理查查詢返回結(jié)果果集,增加索索引,優(yōu)化索索引結(jié)構(gòu)等功功能。結(jié)構(gòu)上上具有索引引引擎,查詢引引擎,文本分分析引擎和對對外接口等。。全文檢索西文全文檢索索數(shù)據(jù)庫的索索引機(jī)制是心心自然語言的的單詞為基本本單元的,詞詞與詞之前有有自然界限((以空格為標(biāo)標(biāo)志)漢語的詞則是是以單音節(jié)為為基礎(chǔ)層層組組合構(gòu)成的,,常用方法有有“詞典匹配配法”、“詞詞頻統(tǒng)計法””、“聯(lián)想詞詞群法”、““設(shè)立標(biāo)志法法”、“知識識與規(guī)則法””、“人工智智能法”等等等全文數(shù)據(jù)庫的的結(jié)構(gòu)與特點點結(jié)構(gòu):包括兩個部分分順序文檔結(jié)構(gòu)構(gòu)倒排文檔結(jié)構(gòu)構(gòu)特點:文本客觀性/語言自然性性/后控詞表表性/檢索徹徹底性/較大大穩(wěn)定性全文檢索系統(tǒng)統(tǒng)的模式單漢字無標(biāo)引引全文檢索系系統(tǒng)此系統(tǒng)是為了了讓原文每一一個字都具有有可檢性,便便通過計算機(jī)機(jī)替原文的各各個字都建立立倒排檔,以以便信息人員員或用戶以各各個單字檢索索入口進(jìn)行檢檢索的過程。。全文檢索系統(tǒng)統(tǒng)在主文檔中中包括題名、、著者、正文文等字段;在在倒排檔中,,包括字與地地址集合,其其中地址集合合由三元組成成,即文獻(xiàn)記記錄號、增加加字段標(biāo)識與與字的起始位位置。特點:容易實現(xiàn),維維護(hù)方便,檢檢索速度慢,,浪費存儲空空間,查全率率與查準(zhǔn)率不不高例:為有效檢索主主文檔中的信信息,依據(jù)主主文檔抽取一一些字建立的的倒排檔:檢索過程全文后控檢索索系統(tǒng)是為了在詞與與詞之間建立立一種指引關(guān)關(guān)系,而運用用后控詞給予予控制的體系系。詞與詞之之間有從屬關(guān)關(guān)系、等同關(guān)關(guān)系、相關(guān)關(guān)關(guān)系等。后控詞表是由由專家編制的的一種輔助表表,并由專家家定期檢查、、更新與完善善。系統(tǒng)特點:提提高了查全和和查準(zhǔn)率;易易產(chǎn)生歧義,,量大時長;;B2B1BEFGAA是B與E的的上位詞,E是B的同位位詞,B1、、B2是B的的同義詞,F(xiàn)、G是B的的相關(guān)詞或近近義詞例:與信息產(chǎn)業(yè)相相關(guān)之詞詞間聯(lián)系的參參照符號:三、現(xiàn)代信息息間諜采集方方法現(xiàn)代信息間諜諜采集方法概念-現(xiàn)代信信息間諜采集集方法,是間間諜機(jī)構(gòu)通過過派遣間諜,,運用現(xiàn)代化化手段,以合合法或非法的的方式,采集集本國或本單單位所急需的的、競爭對手手中有極大價價值的信息的的方法現(xiàn)代信息間諜諜活動現(xiàn)狀現(xiàn)代信息間諜諜盛行的原因因是兩軍決用的的秘密武器是搞跨競爭對對手的法寶是取得奇效的的上等秘訣現(xiàn)代信息間諜諜活動的特點點間諜諜與與工工具具結(jié)結(jié)合合公開開與與隱隱蔽蔽并并施施盟國國與與友友軍軍不不存存企業(yè)業(yè)與與企企業(yè)業(yè)較較量量專家家與與學(xué)學(xué)者者出出動動政府府與與民民間間攜攜手手生態(tài)間諜諜游蕩現(xiàn)代間諜諜采集信信息的方方式方法法秘密方式式:高空拍攝攝/竊取取機(jī)密/行賄拉拉攏/美美人利誘誘/安插插內(nèi)線/威脅恐恐嚇/破破譯密碼碼/假而而實之公開方式式衛(wèi)星偵察察/參觀觀考察/分析文文獻(xiàn)/會會議交流流/留學(xué)學(xué)搜集/無償饋饋贈/發(fā)發(fā)表論文文/外交交活動四、社會會調(diào)查采采集信息息的方法法社會調(diào)查查采集信信息的方方法是針針對用戶戶的需要要,向各各種社會會活動了了解其活活動情況況、數(shù)據(jù)據(jù)與資料料的方法法社會調(diào)查查的方法法普遍調(diào)查查(普查查):對采集對對象的運運動狀況況、特征征與趨向向等進(jìn)行行全面采采集與分分析的方方法,是是統(tǒng)計調(diào)調(diào)查的一一種重要要方式。。有自上而而下式和和自下而而上式如大規(guī)模模的全國國人口普普查/經(jīng)經(jīng)濟(jì)普查查等社會調(diào)查查的方法法問卷調(diào)查查:是采用出出題與回回答的方方式采集集信息的的一種方方法。是是進(jìn)行市市場調(diào)查查常用的的有效方方法之一一。具有準(zhǔn)確確、可靠靠、及時時的特點點問卷題目的的擬定要準(zhǔn)準(zhǔn)確、簡潔潔、易答、、省時等社會調(diào)查的的方法問卷調(diào)查常常見的題型型:是非題選擇題品等題比較題填空題(比比較式填空空/定距定定量填空))問答題社會調(diào)查的的方法觀察調(diào)查::是信息人員員深入現(xiàn)場場后,借助助于人的感感覺器官與與現(xiàn)代化設(shè)設(shè)備(錄音音機(jī)、錄像像機(jī)、攝像像機(jī)等)而

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論