職業(yè)教育論文-Web數據挖掘現狀分析.doc_第1頁
職業(yè)教育論文-Web數據挖掘現狀分析.doc_第2頁
職業(yè)教育論文-Web數據挖掘現狀分析.doc_第3頁
職業(yè)教育論文-Web數據挖掘現狀分析.doc_第4頁
職業(yè)教育論文-Web數據挖掘現狀分析.doc_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

職業(yè)教育論文-Web數據挖掘現狀分析摘要:隨著Internet/Web技術的快速普及和迅猛發(fā)展,使各種信息可以以非常低的成本在網絡上獲得,如何在這個全球最大的數據集合中發(fā)現有用信息成為數據挖掘研究的熱點。Web數據挖掘是目前數據挖掘領域中的一個很重要的研究領域,文章介紹了Web數據挖掘研究領域的現狀及發(fā)展。關鍵詞:數據挖掘;Web挖掘Abstract:WiththerapiddevelopmentandpopularizationofInternet/Webtechnology,awiderangeofinformationcanbeaccessedinthenetworkatverylowcost.ThefocusofdataminingisHowtofindusefulinformationintheworldslargestdatacollection.Webminingisaveryimportantresearchinthefieldofdatamining.ThispaperoutlinestheareasofWebdataminingresearchanditsstatusquoanddevelopment.Keywords:datamining;webmining數據挖掘(DataMining,DM)是指從大量數據中提取或“挖掘”知識,即從存放在數據庫、數據倉庫或其他信息庫中的大量數據中挖掘知識的過程。隨著以數據庫、數據倉庫等數據倉儲技術為基礎的信息系統(tǒng)在各行各業(yè)的應用,海量數據不斷產生,隨之而來的問題,便是如此多的數據讓人難以消化,無法從表面上看出他們所蘊涵的有用信息。如何從大量的數據中找到真正有用的信息成為人們關注的焦點,數據挖掘技術也正是伴隨著這種需求從研究走向應用。各種類似Google、百度等的搜索引擎也層出不窮,Web數據挖掘的應用在現實中不斷體現。1Web挖掘概述近年來,隨著Internet/Web技術的快速普及和迅猛發(fā)展,使各種信息能以非常低的成本在網絡上獲得,而從中取得的數據量便難以計算,而且Internet/WWW的發(fā)展趨勢繼續(xù)看好,特別是電子商務的蓬勃發(fā)展為網絡應用提供了強大支持,因此,如何在WWW這個全球最大的數據集合中發(fā)現有用信息,無疑將成為數據挖掘研究的熱點。而Web挖掘便是指使用數據挖掘技術在WWW數據中發(fā)現潛在的、有用的模式或信息。它建立在對大量的網絡數據進行分析的基礎上,采用相應的數據挖掘算法,在具體的應用模型上進行數據的提取、篩選、轉換、挖掘和模式分析,最后作出歸納性的推理。Web挖掘研究覆蓋了多個研究領域,包括數據庫技術、信息獲取技術、統(tǒng)計學、人工智能中的機器學習和神經網絡等。2Web挖掘流程與傳統(tǒng)數據和數據倉庫相比,Web上的信息是非結構化或半結構化的、動態(tài)的,并且是容易造成混淆的,所以很難直接以Web網頁上的數據進行數據挖掘,而必須經過必要的數據處理。典型Web挖掘的處理流程如下:(1)查找資源。從目標Web文檔中得到數據。這些信息資源不僅限于在線Web文檔,還包括電子郵件、電子文檔、新聞組或者網站的日志數據甚至是通過Web形成的交易數據庫中的數據等。(2)信息選擇和預處理。從取得的Web資源中剔除無用信息,將信息進行必要的整理。例如,從Web文檔中自動去除廣告連接和多余格式標記、自動識別段落或者字段,并將數據組織成規(guī)整的邏輯形式甚至是關系表。(3)模式發(fā)現:自動進行模式發(fā)現??梢栽谕粋€站點內部或在多個站點之間進行。(4)模式分析:驗證、解釋上一步驟產生的模式。可以是機器自動完成,也可以是與分析人員進行交互來完成。Web挖掘作為一個完整的技術體系,在進行挖掘之前的信息獲得IR(InformationRetrieval)和信息抽取IE(InformationExtraction)相當重要。信息獲得(IR)的目的在于找到相關Web文檔,它只是把文檔中的數據看成未經排序的詞組的集合;而信息抽取(IE)的目的在于從文檔中找到需要的數據項目,它對文檔的結構和表達的含義感興趣,它的一個重要任務就是對數據進行組織整理并適當建立索引。3Web數據挖掘的分類Web數據挖掘是一項具有挑戰(zhàn)性的課題,它實現對Web存取模式、結構和規(guī)則以及動態(tài)的Web內容的查找。一般來說,Web數據挖掘可分為4類:Web內容挖掘、Web結構挖掘、Web使用記錄挖掘和Web用戶性質挖掘。其中,Web內容挖掘、Web結構挖掘和Web使用記錄挖掘是Web1.0時代就已經有了的,而Web用戶性質挖掘則是伴隨著Web2.0而出現的。3.1Web內容挖掘Web內容挖掘指從Web內容、數據、文檔中發(fā)現有用信息,主要包括文本挖掘和多媒體挖掘兩類,其對象包括文本、圖像、音頻、視頻、多媒體和其他各種類型的數據。目前,Web內容挖掘一般從兩個不同的觀點來進行研究:一種是從資源(IR)查找的方面來看,即從用戶的角度出發(fā),研究怎樣提高信息質量和幫助用戶過濾信息。這方面的研究大部分都是建立在詞匯袋(bagofwords)或稱向量表示法(vectorrepresentation)的基礎上,它將單個的詞匯看成文檔集合的屬性,只從統(tǒng)計的角度將詞匯孤立地看待,而忽略該詞匯出現的位置和上下文環(huán)境。這種方法的弊端是自由文本中的數據豐富,詞匯量非常大,處理起來很困難,為解決這個問題人們作了相應的研究,采取了不同技術,如信息增益、差異比等。另外一種是從數據庫(DB)的觀點進行Web內容挖掘,主要是試圖建立Web站點的數據模型并加以集成,以支持復雜查詢,而不只是簡單的基于關鍵詞的搜索。這要通過找到Web文檔的模式、建立Web知識庫來實現。數據庫技術應用于Web挖掘主要是為了解決Web信息的管理和查詢問題。3.2Web結構挖掘Web結構挖掘的對象是Web本身的超鏈接,即對Web文檔的結構進行挖掘。由于有用的知識不僅包含在Web頁面的內容中,而且也包含在頁面的結構中,所以Web結構挖掘是從站點的組織結構和頁面結構中推導出知識,找出數據鏈的結構進行分類、聚類,從而發(fā)現頁面間的關系,進而改進搜索引擎的性能。對于給定的Web文檔集合,應該能夠通過算法發(fā)現它們之間鏈接情況的有用信息,文檔之間的超鏈接反映了文檔之間的包含、引用或者從屬關系,引用文檔對被引用文檔的說明往往更客觀、更概括、更準確。Web結構挖掘在一定程度上得益于社會網絡和引用分析的研究。Web結構挖掘的基本思想是將Web看作一個有向圖,它的頂點是Web頁面,頁面間的超鏈接就是圖的邊,然后利用圖對Web的拓撲結構進行分析。Web結構挖掘算法一般可分為查詢相關算法和查詢獨立算法兩類。查詢相關算法需要為每一個查詢進行一次超鏈分析從而進行一次值的指派;而查詢獨立算法則為每個文檔僅進行一次值的指派,對所有的查詢都使用此值。HITS和PageRank分別是查詢相關算法和查詢獨立算法的代表。他們的共同點是使用一定方法計算Web頁面之間超鏈接的質量,從而得到頁面的權重。著名的Clever和Google搜索引擎就采用了該類算法。3.3Web使用記錄挖掘Web使用記錄挖掘也叫Web日志挖掘或Web訪問信息挖掘,在新興的電子商務領域有重要意義,它通過挖掘相關的Web日志記錄,來發(fā)現用戶訪問Web頁面的模式,通過分析日志記錄中的規(guī)律,可以識別用戶的忠實度、喜好、滿意度,可以發(fā)現潛在用戶,增強站點的服務競爭力。Web使用記錄數據除了服務器的日志記錄外,還包括代理服務器日志、瀏覽器端日志、注冊信息、用戶會話信息、交易信息、Cookie中的信息、用戶查詢等一切用戶與站點之間可能的交互記錄??梢?Web使用記錄的數據量是非常巨大的,而且數據類型也相當豐富。根據對數據源的不同處理方法,Web用法挖掘可以分為兩種:將網絡服務器的日志文件作為原始數據,應用特定的預處理方法進行處理后再進行挖掘;將網絡服務器的日志文件轉換為圖表,然后再進行進一步的數據挖掘。通常,在對原始數據進行預處理后就可以使用傳統(tǒng)的數據挖掘方法進行挖掘。3.4Web用戶性質挖掘Web用戶性質挖掘是伴隨著Web2.0出現的?;赗SS、Blog、SNS以及Wiki等互聯網軟件的廣泛應用,Web2.0幫助人們從Web1.0時代的各大門戶網站“填鴨”式的信息轟炸,過渡到了“人人對話”,每個普通用戶既是信息的獲取者,也是信息的提供者。面對Web2.0的誕生,Web數據挖掘技術又面臨著新的挑戰(zhàn)。在Web2.0時代,網絡徹底個人化了,它完全允許客戶用自己的方式、喜好和個性化的定制服務創(chuàng)造自己的互聯網,它一方面給予互聯網用戶最大的自由度,另一方面給予有心商家有待發(fā)掘的高含金量信息數據。通過對Web用戶自建的RSS、Blog等Web2.0功能模塊下客戶信息的統(tǒng)計分析,能夠幫助運營商以較低成本獲得準確度較高的客戶興趣傾向、個性化需求以及新業(yè)務發(fā)展趨勢等信息。有關Web2.0下的數據挖掘,根據數據來源、數據類型、數據集合中的用戶數量、數據集合中的服務器數量等將Web用戶性質挖掘分為5類:(1)個性挖掘。針對單個用戶的使用記錄對該用戶進行建模,結合該用戶基本信息分析他的使用習慣和個人喜好,目的是在電子商務環(huán)境下為該用戶提供與眾不同的個性化服務。(2)系統(tǒng)改進。Web服務(數據庫、網絡等)的性能和其他服務質量是衡量用戶滿意度的關鍵指標,Web用法挖掘可以通過用戶的記錄發(fā)現站點的性能瓶頸,以提示站點管理者改進Web緩存策略、網絡傳輸策略、流量負載平衡機制和數據的分布策略。此外,可以通過分析網絡的非法入侵數據找到系統(tǒng)弱點,提高站點安全性,這在電子商務環(huán)境下尤為重要。(3)站點修改。站點的結構和內容是吸引用戶的關鍵。Web挖掘通過用戶的行為記錄和反饋情況為站點設計者提供改進的依據,比如頁面連接情況應如何組織、哪些頁面能夠直接訪問等。(4)智能商務。用戶怎樣使用Web站點的信息,無疑是電子商務銷售商關心的重點,用戶一次訪問的周期可分為被吸引、駐留、購買和離開4個步驟,Web挖掘可以通過分析用戶點擊流等Web日志信息挖掘用戶行為的動機,以幫助銷售商合理安排銷售策略

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論