版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第3章網(wǎng)絡(luò)信息處理技術(shù)3.1信息網(wǎng)絡(luò)的技術(shù)特征3.2網(wǎng)絡(luò)信息獲取技術(shù)3.3網(wǎng)絡(luò)信息推送技術(shù)3.4數(shù)據(jù)挖掘技術(shù)3.1信息網(wǎng)絡(luò)的技術(shù)特征3.1.1網(wǎng)絡(luò)的技術(shù)構(gòu)成3.1.2網(wǎng)絡(luò)信息文化是多種技術(shù)的匯集3.1.3信息在網(wǎng)絡(luò)中的運作方式3.1.1網(wǎng)絡(luò)的技術(shù)構(gòu)成計算機網(wǎng)絡(luò)技術(shù)是通信技術(shù)與計算機技術(shù)、微電子技術(shù)、光通信技術(shù)等相結(jié)合的信息技術(shù),它包含計算機網(wǎng)絡(luò)中的語言、計算機網(wǎng)絡(luò)體系結(jié)構(gòu)等幾個方面。1.計算機網(wǎng)絡(luò)中的語言通信是在人們之間傳遞消息,一次通信要3個因素:通信雙方有通信的愿望和要求;通信雙方之間有通信的信道;通信雙方遵循彼此認(rèn)可的通信規(guī)則,即通信協(xié)議或網(wǎng)絡(luò)協(xié)議。網(wǎng)絡(luò)協(xié)議作為計算機之間通信的規(guī)范也有3個要素:語法,即信息格式;語義,某些信息組合的含義;同步,即收、發(fā)雙方能分辨出通信的開始和結(jié)束。2.計算機網(wǎng)絡(luò)體系結(jié)構(gòu)一個復(fù)雜的系統(tǒng)往往劃分為若干個層次,每個層次獨立地實現(xiàn)相應(yīng)的功能,層與層之間有接口銜接,通過接口傳遞參數(shù),下層為上層提供服務(wù),從而完成復(fù)雜的功能,通信系統(tǒng)也不例外。以兩個人之間的自然語言通信為例,可以認(rèn)為分為3個層次:
1)傳輸層。2)語言層。3)知識層。網(wǎng)絡(luò)體系結(jié)構(gòu)采用層次結(jié)構(gòu),TCP/IP網(wǎng)絡(luò)體系結(jié)構(gòu)就是層次結(jié)構(gòu),分為4個層次,網(wǎng)絡(luò)接口層(NetworkInterfaceLayer)、網(wǎng)絡(luò)層(InternetLayer)、傳輸層(TransportLayer)和應(yīng)用層(ApplicationLayer)。網(wǎng)絡(luò)接口層用于控制對本地局域網(wǎng)或廣域網(wǎng)的訪問;網(wǎng)絡(luò)層負(fù)責(zé)解決一臺計算機通過網(wǎng)絡(luò)到另一臺計算機的通信問題;傳輸層負(fù)責(zé)端到端的通信;應(yīng)用層包括若干網(wǎng)絡(luò)應(yīng)用程序。3.本書涉及到的計算機網(wǎng)絡(luò)術(shù)語1)IIS(InternetInformationServer):互聯(lián)網(wǎng)信息服務(wù)2)ISP(InternetServiceProvider):互聯(lián)網(wǎng)服務(wù)供應(yīng)商3)RFC(RequestFileComment):征求意見稿(評注)4)IAB(InternetActivitiesBoard):Internet工作委員會5)GII(GlobalInformationInterconnection):全球信息互連網(wǎng)絡(luò)6)電子郵件(E-mail):通過計算機網(wǎng)絡(luò)發(fā)送和接收電子郵件7)頁面(page)和主頁(homepage):WWW是由龐大的、世界范圍的文檔集合組成,這些文檔簡稱為頁面8)NII(NationalInformationInfrastructure):國家信息基礎(chǔ)設(shè)施3.1.2網(wǎng)絡(luò)信息文化是多種技術(shù)的匯集計算機網(wǎng)絡(luò)信息文化的實質(zhì)是計算機技術(shù)、數(shù)據(jù)通信技術(shù)和信息處理技術(shù)這3種技術(shù)的匯合。計算機技術(shù)包括硬件、軟件、大容量存儲設(shè)備、各種輸入輸出設(shè)備,以及相應(yīng)的服務(wù);數(shù)據(jù)通信技術(shù)包括電話、電視、傳輸電纜、光纜、通信傳輸、通信處理、通信衛(wèi)星和無線通信等;信息處理技術(shù)包括教育、娛樂、出版、信息提供、信息組織和存儲、信息檢索等。這些技術(shù)形成了信息社會的3個行業(yè),總產(chǎn)值的比例分別為計算機技術(shù)占44%,通信技術(shù)占28%,信息處理占28%。3.1.3信息在網(wǎng)絡(luò)中的運作方式要完成信息的傳送,最常用的辦法是把信息先附加(調(diào)制)在一個電磁波(載波)上,然后把被調(diào)制的載波送(傳播)到目的地,在目的地接到電磁波后,再把信息復(fù)原(解調(diào))。這種系統(tǒng)通常由無線電通信和光波頻段通信組成(圖3-1)。計算機接受器發(fā)送器發(fā)送器接受器終端圖3-1信息傳輸流程3.2網(wǎng)絡(luò)信息獲取技術(shù)3.2.1互聯(lián)網(wǎng)的接入方式3.2.2IP地址和域名系統(tǒng)3.2.3統(tǒng)一資源定位符URL3.2.4超文本、超鏈接和超媒體3.2.5超文本傳輸協(xié)議HTTP和超文本標(biāo)記語言HTML3.2.1互聯(lián)網(wǎng)的接入方式通過局域網(wǎng)直接連接,局域網(wǎng)的服務(wù)器是互聯(lián)網(wǎng)中的一個主機,有獨立的IP地址,用戶的計算機連接到局域網(wǎng)上。通過電話撥號方式直接連接,用戶的計算機利用點到點協(xié)議(PPP協(xié)議)和串行接口協(xié)議SLIP,通過Modem連接電話線到互聯(lián)網(wǎng)的主機。通過電話撥號間接連接,進(jìn)入一個提供互聯(lián)網(wǎng)服務(wù)的聯(lián)機服務(wù)系統(tǒng)。前兩種方法是直接連接,用戶運行TCP/IP協(xié)議,在互聯(lián)網(wǎng)上具有和其他互聯(lián)網(wǎng)用戶同樣的地位。第三種方法是間接連接,連接服務(wù)系統(tǒng)直接連接到互聯(lián)網(wǎng)上,用戶終端仿真軟件訪問有聯(lián)機服務(wù)系統(tǒng)提供的服務(wù)。3.2.2IP地址和域名系統(tǒng)1.IP地址
IP地址是指該主機在INTERNET上的唯一標(biāo)志。IP地址是一個邏輯地址,用32位二進(jìn)制數(shù)標(biāo)識計算機網(wǎng)絡(luò)中的每一臺計算機。它可以寫成4個用小數(shù)點分開的十進(jìn)制數(shù),每個十進(jìn)制數(shù)表示IP地址中的8個二進(jìn)制數(shù)。每個IP地址由網(wǎng)絡(luò)標(biāo)識(NetID)和主機標(biāo)識(HostID)兩部分組成,分別表示一臺計算機所在的網(wǎng)絡(luò)和在該網(wǎng)絡(luò)內(nèi)的這臺計算機。按照網(wǎng)絡(luò)規(guī)模的大小,常用IP地址分為以下三類:A類:這類地址的特點是以0開頭,第一字節(jié)表示網(wǎng)絡(luò)號,第二、三、四字節(jié)表示網(wǎng)絡(luò)中的主機號,網(wǎng)絡(luò)數(shù)量少,最多可以表示126個網(wǎng)絡(luò)號,每一網(wǎng)絡(luò)中最多可以有16777214個主機號(表3-1)。A類地址均分配給大型網(wǎng)絡(luò)使用。1—2540—2550—255l—126************************0*******表3-1A類地址B類:這類地址的特點是以l0開頭,第一、二字節(jié)表示網(wǎng)絡(luò)號,第二、三字節(jié)表示網(wǎng)絡(luò)中的主機號,最多可以表示16384個網(wǎng)絡(luò)號,每一網(wǎng)絡(luò)中最多可以有66534個主機號(表3-2)。適用于中等規(guī)模的網(wǎng)絡(luò)。1—2540—2550—255128—191************************10******表3-2B類地址C類:這類地址的特點是以110開頭,第一、二、三字節(jié)表示網(wǎng)絡(luò)號,第四字節(jié)表示網(wǎng)絡(luò)中的主機號,網(wǎng)絡(luò)數(shù)量比較多,可以有2097152個網(wǎng)絡(luò)號,每一網(wǎng)絡(luò)中最多可以有254個主機號(表3-3)。一般分配給小型網(wǎng)絡(luò)。1—2540—2550—255192—233************************110*****表3-3C類地址同時IP地址規(guī)定:網(wǎng)絡(luò)號不能以127開頭,第一字節(jié)不能全為0,也不能全為1;主機號不能全為0,也不能全為1。IP地址是用數(shù)字表示的,使用起來不直觀,記憶很困難,使用者很少用二進(jìn)制網(wǎng)絡(luò)地址訪問主機、郵件信箱和其它資源,人們更愿意使用有意義的符號名稱如ASCII字符串,來標(biāo)識互聯(lián)網(wǎng)上的計算機。2.域名系統(tǒng)Internet在1985年引入了域名系統(tǒng)DNS(domainnamesystem),DNS由一串子名組成,子名之間用“.”分割,基層名字在前,高層名字在后。Internet的最高層域名(頂級域名)由協(xié)會的授權(quán)機構(gòu)負(fù)責(zé)管理,根據(jù)Internet國際特別委員會IAHC的最新報告,將頂級域定義為兩類:機構(gòu)域和地理域。(1)機構(gòu)域個人Nom信息服務(wù)Info消遣性娛樂Arc文化娛樂Arts和WWW有關(guān)的實體Web商場Store商業(yè)或公司Firm非贏利性組織機構(gòu)Org網(wǎng)絡(luò)組織或機構(gòu)Net軍事機構(gòu)或設(shè)施Mil國際性機構(gòu)Int非軍事性的政府機構(gòu)Gov教育機構(gòu)或設(shè)施Edu商業(yè)機構(gòu)Com表示的組織或機構(gòu)的類型域名表3-4機構(gòu)性域(2)地理域俄羅斯RU埃及EG葡萄牙PT丹麥DK挪威NO古巴CU新西蘭NZ中國CN荷蘭NL智利CL墨西哥MX加拿大CA馬來西亞MY巴西BR中國澳門MO比利時BE韓國KR奧地利AT日本JP澳大利亞AU意大利IT阿根廷AR表示國家或地區(qū)域名表示國家或地區(qū)域名表3-5地理性域(3)中國的域名體系教育單位EDU工、商和金融等企業(yè)COM互聯(lián)網(wǎng)絡(luò)、接入網(wǎng)絡(luò)信息和運行中心NET各社會團體及民間非盈利組織ORG國家政府部門GOV科研院及科技管理部門AC表示機構(gòu)二級域名表3-6我國的機構(gòu)性域名我國的地理性域名澳門MO香港HK臺灣TW新疆維吾爾族XJ寧夏回族自治區(qū)NS青海省QN甘肅省GS陜西省SN西藏自治區(qū)XZ云南省YN貴州省GZ四川省SC海南省HI廣西壯族自治區(qū)GX廣東省GD湖南省HN湖北省HB河南省HA山東省SD江西省JX福建省FJ安徽省AH浙江省ZJ江蘇省JS黑龍江HL吉林省JL遼寧市LN內(nèi)蒙古自治區(qū)NM山西市SX河北市HE重慶市CQ天津市TJ上海市SH北京市BJ地理區(qū)域二級域名地理區(qū)域二級域名域名地址和用數(shù)字表示的IP地址實際上是同一個東西,只是外表上不同而已,在訪問一個站點的時候,可以輸入這個站點的IP地址,也可以輸入它的域名地址,這里就存在一個域名地址和對應(yīng)的IP地址相轉(zhuǎn)換的問題,這些信息實際上是存放在ISP中稱為域名服務(wù)器(DNS)的計算機上,當(dāng)輸入一個域名地址時,域名服務(wù)器就會搜索其對應(yīng)的IP地址,然后訪問到該地址所表示的站點。DNS的工作原理:當(dāng)要求Web瀏覽器訪問“”站點時,將會通過以下步驟來解析該域名的IP地址:1)Web瀏覽器調(diào)用DNS客戶端(稱為解析器),并使用上次查詢緩存的信息在本地解析該查詢。
2)如果在本地?zé)o法解析查詢,客戶端就會向已知的DNS服務(wù)器詢問答案。如果該DNS服務(wù)器曾經(jīng)在特定的時間段內(nèi)處理過相同的域名()請求,它就會在緩存中檢索相應(yīng)的IP地址,并將它返回給客戶端。3)如果該DNS服務(wù)器找不到相應(yīng)的地址,客戶端就會向某個全局根DNS服務(wù)器詢問,后者返回頂級域權(quán)威DNS服務(wù)器的指針。在這種情況下,“com”域權(quán)威服務(wù)器的IP地址將返回給客戶端。4)類似地,客戶端向“com”服務(wù)器詢問“”服務(wù)器的地址。然后,客戶端將原始查詢傳到“”服務(wù)器。5)因為“”服務(wù)器在本地維護“”域的權(quán)威記錄,所以它將最終結(jié)果返回給客戶端,并完成特定IP地址的查詢。3.2.3統(tǒng)一資源定位符URL
(UniformResourceLocate)URL是一種統(tǒng)一格式的Internet信息資源地址的標(biāo)識方法,它將Internet上提供的服務(wù)統(tǒng)一編址,使用戶通過Web瀏覽器進(jìn)行查詢。URL的格式為:協(xié)議服務(wù)類型://域名[:端口號]/文件路徑和文件名URL由三部分組成,第一部分指出數(shù)據(jù)類型或存取數(shù)據(jù)需要的協(xié)議類型,第二部分指出頁面信息所在的服務(wù)器,第三部分指出包含該頁面的文件數(shù)據(jù)所在的精確路徑。URL中的服務(wù)類型主要有:1)httpWWW服務(wù),傳輸協(xié)議為HTTP2)telnet 遠(yuǎn)程登錄服務(wù),傳輸協(xié)議為Telnet3)ftp 文件傳輸服務(wù),傳輸協(xié)議為FTP4)gopher Gopher服務(wù)5)mailto E-mail電子郵件服務(wù),傳輸協(xié)議為SMTP6)news 網(wǎng)絡(luò)新聞服務(wù),傳輸協(xié)議為NNTP3.2.4超文本(Hypertext)、
超鏈接(Hyperlink)和
超媒體(Hypermedia)超文本系統(tǒng)有統(tǒng)一的用戶界面,用戶使用該系統(tǒng)查詢各種媒體類型(文本、圖像、圖形、聲音)的文件,該系統(tǒng)還有跨平臺的能力,用戶可以Internet上使用各種不同類型的計算機進(jìn)行信息查詢。超文本(Hypertext)是把一些信息根據(jù)需要連接起來的信息管理技術(shù),它是由結(jié)點(Node)以及結(jié)點之間的超鏈接(hyperlink)構(gòu)成的語義網(wǎng)絡(luò)。超媒體可以看成是超文本和多媒體技術(shù)的融合。3.2.5超文本傳輸協(xié)議HTTP
(HypertextTransferProtocol)
和超文本標(biāo)記語言HTML
(HypertextMarkupLanguage)HTTP是瀏覽器客戶與WWW服務(wù)器之間交流的“官方語言”。HTTP被定義為“無狀態(tài)”協(xié)議,它可以用來提高數(shù)據(jù)傳送速度。HTML是在WWW上建立超文本文件的語言,它通過標(biāo)記和屬性對一段文本的語言進(jìn)行描述。HTML的主要特點如下:1)簡易性。2)可擴展性。3)平臺無關(guān)性。HTML文件是普通的ASCII碼文本文件,僅僅包含字母、數(shù)字、空格和標(biāo)點符號等。所以可以使用任何文本編輯器來編輯HTML文件。HTML的編輯器大體可以以下分為三種:1)基本編輯軟件。2)半所見即所得軟件。3)所見即所得軟件。3.3網(wǎng)絡(luò)信息推送
(InformationPush)技術(shù)3.3.1信息推送的基本內(nèi)容3.3.2信息推送的主要表現(xiàn)方式3.3.3信息推送軟件的應(yīng)用3.3.1信息推送的基本內(nèi)容在理論上,Push技術(shù)是指服務(wù)方不需要客戶方的請求即可主動地將數(shù)據(jù)送到客戶方;但在實際應(yīng)用中,這種服務(wù)的主動性有一定限度,即在用戶許可的范圍內(nèi)提供主動服務(wù)。因此,在信息發(fā)布/獲取應(yīng)用中,它表現(xiàn)為Push服務(wù)器自動搜索用戶感興趣的信息并將其定期推送給用戶。1.Push技術(shù)的工作流程Push技術(shù)的工作流程如下:1)用戶填寫訂閱單,該單包括用戶個人檔案、所感興趣的信息類型以及要求進(jìn)行推送的時間等,然后將之提交給信息提供商。2)信息提供商按用戶的訂閱單收集相關(guān)信息并通過Push服務(wù)器推送給用戶,客戶端獲取信息完畢之后告知用戶可讀取信息。Push技術(shù)涉及以下幾個方面:1)無縫連接2)靈活的用戶設(shè)置3)內(nèi)容定制文件4)持久文件傳輸5)有效利用帶寬6)新舊內(nèi)容自然銜接7)靈活的通知方式8)安全性9)應(yīng)用協(xié)議2.Push技術(shù)的實現(xiàn)方式
頻道內(nèi)容客戶機Web服務(wù)器
CGI頻道內(nèi)容Web服務(wù)器客戶機客戶代理頻道內(nèi)容Push服務(wù)器客戶機(1)Web服務(wù)器擴展:CGI方式(2)客戶代理方式(3)Push服務(wù)器方式圖3-2
Push技術(shù)的3種實現(xiàn)方式3.3.2信息推送的主要表現(xiàn)方式1.頻道
頻道是一個定期更新、定期通知的WEB站點,由于它采用推送技術(shù),使得用戶不必每次訪問固定的站點,就可以自動獲得由網(wǎng)站發(fā)送的最新資源,它還提供了撥號用戶離線瀏覽的功能。2.服務(wù)器推送(ServerPush)服務(wù)器推送(Serverpush)是一種先進(jìn)的服務(wù)器和客戶機之間的通信連接方式,利用在服務(wù)器端的CGI腳本程序把數(shù)據(jù)源源不斷地推向客戶機,從而使客戶機和服務(wù)器之間的交互性能大大提高。在服務(wù)器推送中,多個響應(yīng)中連接始終保持,使服務(wù)器可在任何時間發(fā)送更多的數(shù)據(jù)。一個明顯的好處是服務(wù)器完全能夠控制更新數(shù)據(jù)的時間和頻率。另外,這種方法效率高,因為始終保持連接。缺點是保持連接狀態(tài)會浪費服務(wù)器端的資源。服務(wù)器推送還比較容易中斷。3.其他推送方式(1)電子郵件推送(2)專題類新聞推送(3)滾動條式推送(4)屏幕保護推送服務(wù)3.3.3信息推送軟件的應(yīng)用1.信息推送軟件簡介
當(dāng)一個服務(wù)器通過推送軟件向客戶端推送信息時,推送軟件會通過網(wǎng)絡(luò)的一致性、可靠性、安全性以及經(jīng)濟性來完整地傳送數(shù)據(jù)。使用Push軟件至少有4個好處:可達(dá)到減少或降低預(yù)定網(wǎng)絡(luò)帶寬使用率;保證一致且最新的網(wǎng)頁、客戶端組態(tài)、應(yīng)用版本以及數(shù)據(jù)文件;數(shù)據(jù)發(fā)布集中管理;數(shù)據(jù)發(fā)布安全保險。2.信息推送方使用的軟件(1)StarBurstCommunications的StarBurstMulticast(2)Marimba的Castanet(3)XcelleNet
的RemoteWareExpressSoftWaremanager(4)WayfarerCommunications的INCISA3.信息推送接受方使用的軟件PointCast是著名的頻道信息廣播軟件,也是率先提出推送(Push)技術(shù)的公司之一。PointCastBusinessNetwork主要應(yīng)用于商業(yè)、貿(mào)易及生活領(lǐng)域。商業(yè)網(wǎng)的有效頻道分為5大類:1)商業(yè):CNN、幸福雜志、華爾街時報等;2)生活:健康、體育、天氣等信息;3)世界和美國新聞:擁有CNN的最新數(shù)碼照片。4)地區(qū)新聞:有諸多著名報刊,如華盛頓郵報、紐約時報等。5)科技:將ZDNet等知名的科學(xué)、技術(shù)類網(wǎng)站的信息匯集在一起。PointCastCollegeNetwork它提供的網(wǎng)絡(luò)信息主要以大學(xué)的咨訊為主,可分為:1)學(xué)生論壇;2)E-mail地址的查詢;3)網(wǎng)上圖書館;4)最新娛樂信息;5)全美大學(xué)優(yōu)秀論文PointCast的使用方法:第一次接通PointCast頻道廣播后,在傳輸信息內(nèi)容的同時,你會獲得一個登記ID號。單擊左邊的“HELP”,在彈出的窗口中你會找到它。同時,只有在連通后,信息的幫助文件才會傳送過來。以后,每次啟動PointCast后,按左邊菜單列中的Update
All,PointCast會自動接通ISP,自動從PointCast的服務(wù)器上下載更新的信息。圖3-3
PointCast軟件界面在左上角的按鈕是可選擇的信息頻道(Channel),目前版本的PointCast有27個頻道。每一個頻道都有各自的分類以供用戶選擇,這是“推”和“拉”瀏覽器的根本差別:離線選擇后下載和在線尋找。最上面那條黑底紅字是一條走馬燈式的活動信息滾動欄,它把新聞或股票價格以簡短的“一句話新聞”(HeadLine)的形式不停地滾動,讓用戶在瀏覽的同時不會漏失一些重要的信息。3.4數(shù)據(jù)挖掘技術(shù)3.4.1數(shù)據(jù)挖掘技術(shù)的出現(xiàn)是網(wǎng)絡(luò)信息獲取的必然產(chǎn)物3.4.2數(shù)據(jù)挖掘的研究和現(xiàn)狀3.4.3數(shù)據(jù)挖掘的應(yīng)用3.4.4未來的發(fā)展方向3.4.1數(shù)據(jù)挖掘技術(shù)的出現(xiàn)是
網(wǎng)絡(luò)信息獲取的必然產(chǎn)物面對大量的信息,為了能真正的實現(xiàn)快速、準(zhǔn)確、可靠地獲取有用的數(shù)據(jù),需要用到數(shù)據(jù)挖掘(DataMining)和知識發(fā)現(xiàn)技術(shù)的理論和技術(shù)。數(shù)據(jù)挖掘也稱為知識挖掘,就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。對知識挖掘的研究要了解和掌握一個基本原理和兩項關(guān)鍵技術(shù),即:海量信息處理的基本理論,海量信息壓縮技術(shù)及海量信息描述和交換技術(shù)。網(wǎng)絡(luò)數(shù)據(jù)挖掘與網(wǎng)絡(luò)信息檢索所采用的技術(shù)有很多相似之處,但又有本質(zhì)的不同。作為第二代網(wǎng)絡(luò)信息處理技術(shù),網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)沿用了Robot、全文檢索等網(wǎng)絡(luò)信息檢索中的優(yōu)秀成果,同時綜合運用人工智能、模式識別、神經(jīng)網(wǎng)絡(luò)領(lǐng)域的各種技術(shù)。網(wǎng)絡(luò)數(shù)據(jù)挖掘與網(wǎng)絡(luò)信息檢索的最大不同在于它能夠獲取用戶個性化的信息需求,根據(jù)目標(biāo)特征在網(wǎng)絡(luò)上進(jìn)行有目的的信息搜尋。3.4.2數(shù)據(jù)挖掘的研究和現(xiàn)狀網(wǎng)絡(luò)數(shù)據(jù)挖掘是從WWW資源上抽取信息(或知識)的過程,它是將數(shù)據(jù)挖掘技術(shù)和理論應(yīng)用于對WWW資源進(jìn)行挖掘的一個新興的研究領(lǐng)域。目前在該研究領(lǐng)域中,根據(jù)挖掘?qū)ο蟮牟煌笾驴煞譃槿齻€方面的挖掘研究:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用挖掘。1.Web內(nèi)容挖掘根據(jù)實現(xiàn)的方法的不同可分為基于代理的方法和數(shù)據(jù)庫方法;而根據(jù)挖掘策略的不同有Web頁概要和搜索引擎結(jié)果概要,Web頁概要直接挖掘Web文檔的內(nèi)容,搜索引擎結(jié)果概要則用于增強搜索引擎的內(nèi)容查詢功能。(1)基于代理挖掘方法基于代理的方法包含一個人工智能系統(tǒng),它可以“自主或半自主地為某個特殊的用戶服務(wù),以發(fā)現(xiàn)和組織基于Web的信息”。使用代理的主要缺點是存在隱私泄露的可能,這是因為代理具有社會化的能力,信息的交換是透明的,且代理不會通知某一用戶它是否正在提交和檢索該用戶的信息。(2)數(shù)據(jù)庫方法數(shù)據(jù)庫方法主要集中在“對網(wǎng)絡(luò)上異質(zhì)的、半結(jié)構(gòu)化的數(shù)據(jù)整合和組織,其成為結(jié)構(gòu)化較好的、高層的資源集合?!比缓笤趯@些組織好的資源進(jìn)行訪問和分析。這些元數(shù)據(jù)可以組織成有結(jié)構(gòu)的數(shù)據(jù)集(如關(guān)系數(shù)據(jù)庫或面向?qū)ο髷?shù)據(jù)庫),然后再加以分析。目前的數(shù)據(jù)庫方法又可分為多層數(shù)據(jù)庫和Web查詢系統(tǒng)。多層數(shù)據(jù)庫是由若干層信息構(gòu)成的數(shù)據(jù)庫。利用多層數(shù)據(jù)庫,可以提供一個與用戶請求對應(yīng)的指向目標(biāo)文檔集合的指針列表,其次允許用戶交互地瀏覽用以指向目標(biāo)文檔集合的詳細(xì)信息而非目表文檔本身。Web查詢系統(tǒng)利用一個Web的簡單關(guān)系視圖,將結(jié)構(gòu)和基于內(nèi)容的查詢準(zhǔn)則以類似于標(biāo)準(zhǔn)的數(shù)據(jù)庫查詢語言(如SQL)的方式結(jié)合起來,對Web上半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行查詢。2.挖掘策略(1)Web頁概要互聯(lián)網(wǎng)上的大量信息通常隱藏于Web文檔內(nèi)部,因此一類重要的應(yīng)用就是對Web頁內(nèi)容的挖掘。從Web文檔內(nèi)部進(jìn)行有效的信息抽取的主要障礙是元數(shù)據(jù)的缺乏及沒有一個標(biāo)準(zhǔn)的方法用于描述和在電子文檔中交換數(shù)據(jù)。WWW協(xié)會建議的XML標(biāo)準(zhǔn)目前已經(jīng)被很多公司廣泛采用,這為WWW上的數(shù)據(jù)挖掘減輕了很大的負(fù)擔(dān)。(2)搜索引擎結(jié)果概要對搜索引擎返回的結(jié)果進(jìn)行挖掘是十分必要的,這可以提供給用戶更為準(zhǔn)確的查詢結(jié)果。WWW文檔的異質(zhì)性和缺乏結(jié)構(gòu)的特點導(dǎo)致一些研究工作集中于挖掘已知文檔的子集或與某一主題相關(guān)的文檔,一個這樣的子集可以是一個搜索引擎的查詢結(jié)果。3.Web結(jié)構(gòu)挖掘Web結(jié)構(gòu)挖掘是對Web頁面之間的結(jié)構(gòu)進(jìn)行挖掘。由于超文本文檔的關(guān)聯(lián)關(guān)系,使得WWW不僅僅可以揭示文檔中所包含的信息,同時也可以揭示文檔間的關(guān)聯(lián)關(guān)系所代表的信息。4.Web使用挖掘根據(jù)應(yīng)用的不同,可以將Web使用挖掘分為兩種主要傾向:一般的訪問模式跟蹤和定制使用跟蹤,一般訪問模式跟蹤通過分析可以清楚地給出較好的Web結(jié)構(gòu)及資源提供者的分組情況。定制使用跟蹤可以分析個人的傾向,它的主要目的是為每個用戶定制符合其個人特色的Web站點。3.4.3數(shù)據(jù)挖掘的應(yīng)用1.數(shù)據(jù)挖掘的應(yīng)用類型
(1)分類模型分類(Classification)模型的主要功能是根據(jù)商業(yè)數(shù)據(jù)的屬性將數(shù)據(jù)分派到不同的組中。(2)關(guān)聯(lián)模型關(guān)聯(lián)(Association)模型主要是描述了一組數(shù)據(jù)項目的密切度或關(guān)系。(3)順序模型順序(Sequence)模型主要用于分析數(shù)據(jù)倉庫中的某類同時間相關(guān)的數(shù)據(jù),發(fā)現(xiàn)某一時間段內(nèi)數(shù)據(jù)的相關(guān)性。(4)聚簇模型聚簇(Clustering)模型是按照某種相近程度度量方法將用戶數(shù)據(jù)分成互不相同的一些分組。2.數(shù)據(jù)挖掘采用的典型方法(1)神經(jīng)網(wǎng)絡(luò)(NeuralNetwork)神經(jīng)網(wǎng)絡(luò)建立在可以自學(xué)習(xí)的數(shù)學(xué)模型的基礎(chǔ)之上。它可以對大量復(fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計算機來說極為復(fù)雜的模式抽取及趨勢分析。神經(jīng)網(wǎng)絡(luò)系統(tǒng)存在如下問題:首先,神經(jīng)網(wǎng)絡(luò)對分類模型比較適合。但是,神經(jīng)網(wǎng)絡(luò)得出結(jié)論的因素并不十分明顯。同時其輸出結(jié)果也沒有任何解釋,這將影響結(jié)果的可信度及可接受程度。其次,神經(jīng)網(wǎng)絡(luò)需要較長的學(xué)習(xí)時間,因此當(dāng)數(shù)據(jù)量很大時,性能可能會出現(xiàn)問題。(2)決策樹(DecisionTree)決策樹是通過一系列規(guī)則對數(shù)據(jù)進(jìn)行分類的過程。采用決策樹,可以將數(shù)據(jù)規(guī)則可視化,其輸出結(jié)果也容易理解。決策樹方法精確度比較高,不像神經(jīng)網(wǎng)絡(luò)那樣不易理解,同時系統(tǒng)也不需要長時間的構(gòu)造過程,因此比較常用。決策樹方法的缺點是很難基于多個變量組合發(fā)現(xiàn)規(guī)則。不同決策樹分支之間的分裂也不平滑。(3)聯(lián)機分析處理(OLAP)聯(lián)機分析處理(OnLineAnalyticalProcessing,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年版企業(yè)融資信托借款合同大全3篇
- 二零二五年度網(wǎng)絡(luò)安全服務(wù)合同補充協(xié)議模板2篇
- 2025年度新型鋁單板裝飾材料供應(yīng)合同4篇
- 2025年度臨建施工臨時用電管理與維護合同4篇
- 二零二五年度餐飲企業(yè)食品安全管理制度合同3篇
- 二零二五版住宅小區(qū)標(biāo)牌制作與安裝服務(wù)合同3篇
- 二零二五版健康管理系統(tǒng)SaaS合同3篇
- 二零二五版醫(yī)院口腔科科室承包合作協(xié)議3篇
- 二零二五年度煤炭運輸保險代理服務(wù)合同3篇
- 二零二五版二手房買賣合同中稅費繳納明細(xì)模板3篇
- 增強現(xiàn)實技術(shù)在藝術(shù)教育中的應(yīng)用
- TD/T 1060-2021 自然資源分等定級通則(正式版)
- 《創(chuàng)傷失血性休克中國急診專家共識(2023)》解讀
- 倉庫智能化建設(shè)方案
- 海外市場開拓計劃
- 2024年度國家社會科學(xué)基金項目課題指南
- 供應(yīng)鏈組織架構(gòu)與職能設(shè)置
- 幼兒數(shù)學(xué)益智圖形連線題100題(含完整答案)
- 七上-動點、動角問題12道好題-解析
- 2024年九省聯(lián)考新高考 數(shù)學(xué)試卷(含答案解析)
- 紅色歷史研學(xué)旅行課程設(shè)計
評論
0/150
提交評論