網(wǎng)絡(luò)信息采集_第1頁
網(wǎng)絡(luò)信息采集_第2頁
網(wǎng)絡(luò)信息采集_第3頁
網(wǎng)絡(luò)信息采集_第4頁
網(wǎng)絡(luò)信息采集_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

網(wǎng)絡(luò)信息采集信息獲取的一般步驟網(wǎng)絡(luò)信息資源與信息采集工具數(shù)據(jù)的整理常用的開放獲取資源

研究背景內(nèi)容構(gòu)架研究背景我們經(jīng)常會遇到這樣的問題:1為什么找不到所需要的信息?2為什么查找信息的過程要比別人長?3怎么將找到的信息很好地運用,最終解決信息問題?

問題1問題2問題3需要了解一些相關(guān)機構(gòu)發(fā)布信息的網(wǎng)站,獲得準確的專業(yè)信息;學會使用網(wǎng)絡(luò)數(shù)據(jù)庫資源獲取期刊文摘及全文信息、學術(shù)論文等。第三部分對文獻的內(nèi)容進行深入分析和挖掘,真正把握信息點及其他人的研究成果,形成自己對問題的認識。第四部分培養(yǎng)一套解決信息問題的思考方式,依據(jù)步驟逐層深入。第二部分信息獲取的一般步驟Level1Level2Level3Level4Level5界定問題選擇信息源制定策略并實施檢索評價信息分析和利用信息界定問題考慮的問題:自己是否完全理解待解決問題的相關(guān)概念含義?需要查找哪些方面的信息?需要第一手即時消息還是經(jīng)過加工的消息?問題解決后應(yīng)該是一個什么樣的成果類型?最終,實現(xiàn)對問題的深入思考,完成問題的界定。包括:分析研究問題、建立背景知識、擬定主題概念。分析研究問題研究問題在某情況下,物流公司對貨物處理速度情況的研究研究目標形成調(diào)研報告供學者參考時間范圍近10年地域范圍國內(nèi)、外背景/事件貨物處理速度對物流公司運營狀況的影響研究問題分析—以“在某情況下,物流公司對貨物處理速度情況的研究”為例建立背景知識閱讀與研究主題相關(guān)的概覽性資料,是建立背景知識的最佳渠道。概覽性資料通常出現(xiàn)在三次文獻中,如百科全書、字詞典及年鑒等參考資源中。通過閱讀這些資源,可以加深對研究問題的理解,明確檢索目標。同時對問題涉及的名詞術(shù)語進行記錄,了解清楚該研究對象的學名、俗名、商業(yè)名、同義詞等,特別作用非母語檢索工具之前,這些名詞術(shù)語花樣繁多的英文表達更是不能疏漏的。信息問題在哪種情況下研究范圍影響貨物處理速度的因素包含的主題概念運輸工具、管理工具、天氣因素(百度查得)擬定主題概念以“交通工具不同情況下,物流公司對貨物處理速度情況的研究”為例研究問題不同交通工具下,貨物處理速度的研究主要概念不同交通工具上位詞交通方式的選擇、路線的規(guī)劃、整體策略的確定同義詞海運、路運、空運、管道運輸、聯(lián)合運輸相關(guān)詞環(huán)境保護、節(jié)約成本其他步驟2選擇信息源。針對“在某情況下,物流公司對貨物處理速度情況的研究”這一問題,需要考慮可能存在哪些信息源,哪些信息源是可獲得的,在這些可獲得的資源中,哪些是比較易得而有意義的。3制定策略并實施檢索。在開始檢索之前沒有一個確定的檢索策略,就可能很快在消息中“迷失”。這時如果能夠利用布爾邏輯連接符將檢索詞組配成查詢語句,并結(jié)合各個信息源的特點靈活實施檢索,將極大地提高檢索效率。4評價信息。針對不同信息源進行檢索以后,取得的文獻信息數(shù)量可能相當龐大,內(nèi)容也有相互重復甚至沖突的地方。這就需要一定的評價方法對信息進行篩選,找到那些來源可靠、內(nèi)容相關(guān)且詳盡的文獻,刪除錯誤、過時、不相關(guān)的信息。5分析和利用信息。此時選用相關(guān)的工具將檢索結(jié)果有效組織,會極大地減少工作量。同時進一步通過閱讀確定:哪些信息切合需要,哪些信息內(nèi)容之間存在沖突,需要進一步考察,并依據(jù)相關(guān)規(guī)范正確引用文獻資源,最終形成文字性的研究成果。網(wǎng)絡(luò)信息資源與信息采集工具

網(wǎng)絡(luò)信息資源廣義的網(wǎng)絡(luò)信息源指對各種信息進行分類、匯總、加工、組織,并建立起相互關(guān)聯(lián)的有序結(jié)構(gòu),由信息內(nèi)容、信息處理和信息傳輸三者結(jié)合而成。狹義的網(wǎng)絡(luò)信息源指用戶可以在網(wǎng)上直接取用的無數(shù)個信息源的集合。網(wǎng)絡(luò)檢索工具:在internet上提供信息檢索服務(wù)的工具,其檢索對象是存在于internet空間中的各類信息資源。網(wǎng)絡(luò)信息的采集正如前述,在浩如煙海的網(wǎng)絡(luò)上搜尋信息,需要用戶了解各種信息源,掌握各種網(wǎng)絡(luò)信息檢索工具,學會信息采集的方法技能,才能將網(wǎng)上的豐富資源為己所用。網(wǎng)絡(luò)信息的采集工具,或稱檢索工具,一般泛指面相互聯(lián)網(wǎng)信息檢索、在因特網(wǎng)上提供網(wǎng)頁信息資源檢索和網(wǎng)站導航服務(wù)的站點,具有網(wǎng)絡(luò)導航的功能,并提供其他相關(guān)服務(wù)。網(wǎng)絡(luò)信息采集工具可以大致分為搜索引擎、門戶網(wǎng)站和搜索軟件、專題型檢索工具。個人信息檢索地圖信息檢索BBS檢索博客檢索搜索引擎專題型檢索工具微博檢索工具維基搜索RSS檢索FTP資源檢索目錄式搜索引擎機器人搜索引擎元搜索引擎詳細介紹目錄式搜索引擎目錄式搜索引擎因為有人的參與,信息查詢較為精確,導航質(zhì)量高。當檢索一個范圍較廣的題目,并希望瀏覽一下與該題目相關(guān)的、被推薦的網(wǎng)址時,目錄搜索引擎會非常有用。其缺點是需要人工介入,為回廊大、信息量較少、信息更新不及時,當目錄中包含太多的分類和連接時,目錄本身也不便瀏覽。因此,這類搜索引擎一般又會引入機器人搜索引擎。著名的目錄式搜索引擎有Yahoo!、Dmoz、LookSmart、網(wǎng)絡(luò)指南針等。Yahoo!有很多優(yōu)點,如主題目錄與檢索軟件結(jié)合,使信息檢索難度降低,不僅能在所有的分類類目中進行查詢,也能根據(jù)需要在一個類目中進行查詢,保證了較高的查準率;支持中、英、日等10多種語言版本,各版本的內(nèi)容互不相同。其缺陷:某些類目下收集的文件數(shù)量有限;對于專業(yè)較為偏僻的查詢,較難提供滿意的結(jié)果;它傾向于較大網(wǎng)站的網(wǎng)頁,很多重要的較小網(wǎng)站的網(wǎng)頁往往被忽視。Dmoz是一個著名的開放式分類目錄(OpenDirectoryProject,ODP),ODP是目前網(wǎng)上最大的人工編織的分類檢索系統(tǒng)。LookSmart也是主要的目錄型引擎之一,擁有相當規(guī)模的普通用戶群體及商業(yè)客戶資源,它從原來類似于Yahoo!的分類目錄索引模式發(fā)展為現(xiàn)在比較流行的PPC廣告方式,為需要投放到歐美市場的公司新網(wǎng)站的系列廣告提供平臺。機器人搜索引擎這種搜索引擎根據(jù)一定的網(wǎng)絡(luò)協(xié)議,例如HTTP、FTP等,自動在網(wǎng)上爬行,將信息帶回自動標引,并創(chuàng)建索引數(shù)據(jù)庫,建立本地文檔集合,用戶則對它找到的信息進行檢索。然后,本地服務(wù)器對文檔集合的文檔進行分類、索引處理,建立關(guān)于文檔的信息數(shù)據(jù)庫,供用戶查詢。目前,國內(nèi)具有代表性的機器人搜索引擎有百度、天網(wǎng)、慧聰?shù)龋粐庵乃阉饕嬗蠫oogle、AltaVista、Excite等。百度是全球最大的中文搜索引擎,擁有目前世界上最大的中文信息庫,百度全文搜索引擎功能完備,搜索準確率高、更新快及服務(wù)器穩(wěn)定性好,家喻戶曉的“百度一下,你就知道”足以說明引擎的影響力。Google是全球知名的搜索引擎之一,其實用性和便利性贏得了眾多用戶的青睞。其搜索界面簡潔明了,具有基本搜索和高級搜索雙重功能,擁有100多種語言界面和35種語言搜索結(jié)果。2010年,Google的搜索服務(wù)部門退出了中國市場,其總部搬到了中國香港。Hotbot是一個具有自動跟蹤功能的搜索引擎,更新速度非??欤^其他搜索引擎,一獨特的搜索界面著稱。元搜索引擎元搜索引擎可以為用戶提供統(tǒng)一的檢索界面,將用戶的檢索提問同時提交給多個獨立的搜索引擎,對多個數(shù)據(jù)庫同時進行檢索,并對多個獨立搜索引擎的搜索結(jié)果進行包括去重、排序、整合等二次加工,那么,相對于傳統(tǒng)搜索引擎,它們的優(yōu)勢在于可集成多個數(shù)據(jù)庫進行檢索,結(jié)果比單一獨立的搜索引擎更全面、更精確。遇到需要選擇搜索引擎、轉(zhuǎn)化檢索條件以及融合檢索結(jié)果的情況時,可以首選元搜索引擎。中文元搜索引擎列舉元搜索引擎目標搜索引擎可否選擇目標引擎檢索功能結(jié)果顯示特色功能搜魅網(wǎng)()百度、谷歌、搜狗、雅虎、中搜、有道、Live、奇虎、大旗是支持布爾邏輯檢索,二次檢索和相關(guān)檢索,不支持高級檢索無相同連接,無排序方式,顯示搜索引擎來源預(yù)覽和收藏等功能索天下()百度、谷歌、雅虎、搜狗、MSN否支持布爾邏輯檢索,不支持其他檢索無排序方式,顯示搜索引擎來源預(yù)覽等功能Xisoso()谷歌、百度、雅虎是支持布爾邏輯檢索,和相關(guān)檢索無排序方式,顯示搜索引擎來源預(yù)覽功能,結(jié)果自動聚類專題型檢索工具個人信息檢索地圖信息檢索BBS檢索博客檢索維基搜索RSS檢索個人信息檢索1)黃頁、百頁和人物搜索引擎百頁用于查找一般用戶的電話號碼和地址,黃頁用于查找商業(yè)用戶電話號碼和地址。有的百頁還提供道路圖、駕駛路線等。Infospace()提供黃頁查詢、百頁查詢、公共記錄查詢、地圖和駕車線路查詢、反向查找。相似的工具還有Yahoo!PeopleSearch()用于查電話、電子郵件、地址等;Bigfoot()綜合性全球電子郵件目錄服務(wù),多種語種檢索入口;AnyWho()提供黃頁查詢、百頁查詢、人員檢索、商務(wù)檢索和反向檢索等功能;InternetAddressFinder(),查E-mail,提供黃頁、百頁、電話區(qū)號、郵政編碼、語音、人口資料和Whois檢索;WhoWhere()提供黃頁和百頁查詢,除電子郵箱、電話和地址查找,還可按分類查找語言、職業(yè)、公司、大學、政府機構(gòu)。(2)、Whois服務(wù)器提供這種服務(wù)的機構(gòu)首推InterNIC,它把那些到中心進行域名注冊的網(wǎng)絡(luò)或計算機管理人員和技術(shù)負責人的個人信息組織成一個大的數(shù)據(jù)庫,提供相應(yīng)的查詢服務(wù)。還有如CNNIC域名注冊信息查詢(http//),支持域名查詢、主機查詢和聯(lián)系人信息查詢。許多大機構(gòu)、學校也建立自己的Whois系統(tǒng),將本單位人員的有關(guān)信息建成數(shù)據(jù)庫,對外提供查詢服務(wù)。(3)、各專業(yè)的文獻數(shù)據(jù)庫或?qū)W科信息門戶(4)、實名社交網(wǎng)如人人網(wǎng)、開心網(wǎng)()、yahoo!關(guān)系(http//)、六度人脈網(wǎng)()等。這些社區(qū)雖然名為實名制,由于缺乏有力規(guī)范的監(jiān)管,用戶上傳的“真實資料”無據(jù)可查,所以審核把握信息的可靠性尤為關(guān)鍵。(5)、同學錄如中國人同學錄(http//)、網(wǎng)易同學錄(http///pop/flow.html)。(6)、被查找的人所在單位的主頁許多學校和機構(gòu)在網(wǎng)上建立了自己的主頁,并把本單位的人員情況放在自己的主頁上,對外提供檢索服務(wù)。如果知道所要查找人的單位,可以通過其單位的主頁查找。如俄亥俄州立大學主頁上的“PeopleSearch”,聯(lián)想公司主頁上的“職員名錄”。地圖信息檢索網(wǎng)絡(luò)地圖國內(nèi)地圖國外地圖搜狗地圖(http://)百度地圖(http://)中搜地圖(http://)中國旅游網(wǎng)地圖(http://)騰訊QQ地圖(http://)谷歌地圖(http://)MapQuest(http:///maps)虛擬導游(http://)必應(yīng)地圖(http:///maps)雅虎地圖(http://)Topozone(http://)BBS檢索如今,網(wǎng)上BBS發(fā)展迅速,不僅有大量專門的BBS論壇,各大門戶網(wǎng)站、企業(yè)和高校都建立了自己的論壇。由于從BBS獲得的信息動態(tài)性強,且具有較大挖掘價值,因此BBS信息的采集日益受到關(guān)注,已成為企業(yè)發(fā)展情報工作的重要信息源之一。BBS論壇資源(網(wǎng)址)綜合性論壇區(qū)鳳凰論壇(http//)天涯社區(qū)(/bbs/index.shtml)西祠胡同(http://)新浪論壇(http://)搜狐社區(qū)(http://)新華網(wǎng)發(fā)展論壇(http:///index.jsp)專業(yè)性論壇縱橫財經(jīng)社區(qū)(http://)和訊論壇(http://)考試論壇(http:///index.php)高校BBS站點清華大學的水木清華站(http://)武漢大學(http://)南京大學()國外BBS導航BBSArchives(http://)博客檢索Blog的出現(xiàn),在很大程度上滿足了個性化的需要,也使得用戶從信息接收者向信息提供者轉(zhuǎn)變。它通過RSS、Trackback、TAG等技術(shù),在個體之間初步形成了社會氛圍和社團機制,逐漸形成社會化的聯(lián)合。國內(nèi)博客網(wǎng)址中國博客網(wǎng)(http://)新浪微博(http://)Blogbus(http://)博客網(wǎng)(http://)價值中國博客網(wǎng)(http://)世界經(jīng)理人博客(http://)國外博客網(wǎng)址Blogrolling(http://)Blogger(http://)Twitter(http://)維基搜索現(xiàn)在影響最大的維基網(wǎng)站是WiKi百科(http://W),中文的則是互動百科(http://)。通過維基網(wǎng)站,人們可以了解到他人對一些概念、術(shù)語、理論的理解和評價,因此維基網(wǎng)站也可以成為學術(shù)研究的重要參考資源。主要的國內(nèi)外WiKi網(wǎng)站名稱網(wǎng)址WiKi百科http://W百度百科http://軟件百科http:///wiki互動維基http://和訊百科http://RSS檢索RRS用戶端閱讀軟件可根據(jù)用戶個人喜好設(shè)置,以頻道的形式訂閱自己關(guān)注的網(wǎng)站,在第一時間將被關(guān)注網(wǎng)站的更新情況及時推送到閱讀器上。在許多新聞信息服務(wù)類網(wǎng)站及Blog上,會看到RSS、XML或者“訂閱”的按鈕,有的網(wǎng)站會使用一個圖標,有的會同時使用兩個,這是典型的RSS訂閱標志,一般連接到RSS信息源。當前較流行的RSS訂閱方式,一是E-mail訂閱,二是訂閱RSS客戶端閱讀器。常見的RRS資源站點名稱網(wǎng)址特色百度新聞RSS訂閱http:///search/rss.html利用本身的搜索優(yōu)勢進行關(guān)鍵新聞詞訂閱;分類新聞訂閱;地區(qū)新聞訂閱財經(jīng)RSS源http:///rss.html中英文版訂閱,有全站、新聞、博客、視頻雜志等分類訂閱網(wǎng)易RSS訂閱http:///rss門戶網(wǎng)站;提供22個分類,可直接訂閱到11個閱讀工具。大洋網(wǎng)RSS訂閱http://華南第一門戶網(wǎng)站;有新聞、咨詢、數(shù)字報紙三個分類。C要用一定的組織形式和方法,對原始資料進行科學的分組,這是統(tǒng)計整理的前提和基礎(chǔ)。A設(shè)計整理方案。整理方案與調(diào)查方案應(yīng)緊密銜接,指標體系與調(diào)查項目要一致,或者是其中的一部分,絕不能矛盾、脫節(jié)或超

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論