Web數(shù)據(jù)挖掘研究_第1頁(yè)
Web數(shù)據(jù)挖掘研究_第2頁(yè)
Web數(shù)據(jù)挖掘研究_第3頁(yè)
Web數(shù)據(jù)挖掘研究_第4頁(yè)
Web數(shù)據(jù)挖掘研究_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、 數(shù)據(jù)倉(cāng)庫(kù)技術(shù)在學(xué)生成績(jī)管理中的應(yīng)用課程名稱 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 院(系) 計(jì)算機(jī)學(xué)院軟件學(xué)院 專 業(yè) 計(jì)算機(jī)科學(xué)與技術(shù)指導(dǎo)老師 班 級(jí) 姓 名 學(xué) 號(hào) Web挖掘研究摘要 因特網(wǎng)目前是一個(gè)巨大、 分布廣泛、全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其它信息服務(wù).Web包含了豐富和動(dòng)態(tài)的超鏈接信息,以及Web頁(yè)面的訪問(wèn)和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源.Web挖掘就是從Web文檔和Web活動(dòng)中抽取感興趣的潛在的有用模式和隱藏的信息.對(duì)Web挖掘最新技術(shù)及發(fā)展方向做了全面分析,包括Web結(jié)構(gòu)挖掘、多層次Web數(shù)據(jù)倉(cāng)庫(kù)方法以及Web Log挖掘等.

2、關(guān)鍵詞 數(shù)據(jù)挖掘,Web挖掘,Web倉(cāng)庫(kù)、Web Log挖掘,Web使用記錄挖掘RESEARCH ON WEB MINING: A SURVEYAbstract The World Wide Web serves as huge, widely distributed, global information service center for various applications. Web contains a rich and dynamic collection of hyperlink information and Web page access and usage inform

3、ation, providing rich sources for data mining.The goal of Web mining is to discover the access pattern and hidden information from the huge collection of documents plus hyperlink information, access and usage information. Given in this paper is an overview of Web mining techniques and new trends, ma

4、inly involving Web Structure mining, a multilayered Web information base building, and Web Log mining.Key words data mining,Web mining,Web warehouse,Web Log mining,Web ueage mining1引言60年代,大的物理流伴隨著大信息流.傳統(tǒng)的文件方式不能適應(yīng)信息處理的需求, 因此出現(xiàn)了數(shù)據(jù)庫(kù)技術(shù).90年代,人類積累的數(shù)據(jù)量以高于每月15%(或每年5.3倍)的速度增加,數(shù)據(jù)海洋不能產(chǎn)生決策意志,為了進(jìn)行決策,人們不斷地?cái)U(kuò)大數(shù)據(jù)庫(kù)能力

5、,搜集海量數(shù)據(jù),但這使得決策者更難于決策,因此出現(xiàn)了數(shù)據(jù)挖掘技術(shù),以便從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí).數(shù)據(jù)挖掘技術(shù)包括特征、分類、關(guān)聯(lián)、聚類、偏差、時(shí)間序列、趨勢(shì)分析等.近年來(lái),Internet正以令人難以置信的速度在飛速發(fā)展, 越來(lái)越多的機(jī)構(gòu)、團(tuán)體和個(gè)人在Internet上發(fā)布信息、查找信息. 雖然Internet上有海量的數(shù)據(jù) 但由于Web是無(wú)結(jié)構(gòu)的、動(dòng)態(tài)的,并且Web頁(yè)面的復(fù)雜程度遠(yuǎn)遠(yuǎn)超過(guò)了文本文檔,人們要想找到自己想要的數(shù)據(jù)猶如大海撈針一般.信息檢索界開發(fā)了許多搜索引擎,但其覆蓋率有限,因此查全率低,一般的搜索引擎是基于關(guān)鍵字的查詢,命中率較低,另外不能針對(duì)特定的用戶給出特殊的服務(wù),因?yàn)槊總€(gè)人感興

6、趣的東西是不一樣的,因此不具有個(gè)性化.解決這些問(wèn)題的一個(gè)途徑,就是將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)和Web結(jié)合起來(lái),進(jìn)行Web挖掘.Web挖掘就是從Web 文檔和Web活動(dòng)中抽取感興趣的潛在的有用模式和隱藏的信息.Web挖掘可以在很多方面發(fā)揮作用,如對(duì)搜索引擎的結(jié)構(gòu)進(jìn)行挖掘,確定權(quán)威頁(yè)面,Web文檔分類,Web Log挖掘,智能查詢,建立Meta-Web數(shù)據(jù)倉(cāng)庫(kù)等.萬(wàn)維網(wǎng)目前是一個(gè)巨大、分布廣泛、全球性的信息服務(wù)中心,它涉及新聞、廣告、消費(fèi)信息、金融管理、教育、政府、電子商務(wù)和許多其它信息服務(wù).Web還包含了豐富和動(dòng)態(tài)的超鏈接信息,以及Web頁(yè)面的訪問(wèn)和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源.然而從以下的

7、分析可以看出對(duì)Web進(jìn)行有效的資源和知識(shí)發(fā)現(xiàn)具有極大的挑戰(zhàn)性.對(duì)有效的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘而言Web似乎太龐大了.Web的數(shù)據(jù)量目前以兆兆字節(jié)(terabytes)計(jì)算,而且仍然在迅速地增長(zhǎng).許多機(jī)構(gòu)和社團(tuán)都在把各自大量的可訪問(wèn)信息置于網(wǎng)上.這使得幾乎不可能去構(gòu)造一個(gè)數(shù)據(jù)倉(cāng)庫(kù)來(lái)復(fù)制、存儲(chǔ)或集成Web上的所有數(shù)據(jù).最近,有一些工作在致力于存儲(chǔ)或集成Web上的所有數(shù)據(jù).例如,在/index1.html下,可訪問(wèn)到一個(gè)巨大的數(shù)十兆兆字節(jié)的因特網(wǎng)存檔.(1) Web頁(yè)面的復(fù)雜性高于任何傳統(tǒng)的文本文檔.Web頁(yè)面缺乏同一的結(jié)構(gòu),它包含了遠(yuǎn)比任何一組書籍或其它文本文

8、檔多得多的風(fēng)格和內(nèi)容.Web可以看做一個(gè)巨大的數(shù)字圖書館;然而,這一圖書館中的大量文檔并不根據(jù)任何有關(guān)排列次序加以組織.它沒有分類索引,更沒有按標(biāo)題、作者、扉頁(yè)、目次等的索引.在這樣一個(gè)圖書館中搜索希望得到的信息是極具挑戰(zhàn)性的.(2) Web是一個(gè)動(dòng)態(tài)性極強(qiáng)的信息源.Web不僅以極快的速度增長(zhǎng),而且其信息還在不斷地發(fā)生著更新.新聞、股票市場(chǎng)、公司廣告和Web服務(wù)中心都在不斷地更新著各自的頁(yè)面.鏈接信息和訪問(wèn)記錄也在頻繁地更新之中.(3) Web面對(duì)的是一個(gè)廣泛的形形色色的用戶群體.目前因特網(wǎng)上連接有約5千萬(wàn)臺(tái)工作站,其用戶群仍在不斷地?cái)U(kuò)展當(dāng)中.各個(gè)用戶可以有不同的背景、興趣和使用目的.大部分用

9、戶并不了解信息網(wǎng)絡(luò)結(jié)構(gòu),不清楚搜索的高昂代價(jià),極容易在“黑暗”的網(wǎng)絡(luò)中迷失方向,也極容易在“跳躍式”訪問(wèn)中煩亂不已和在等待信息中失去耐心.(4) Web上的信息只有很小的一部分是相關(guān)的或有用的.據(jù)說(shuō)99%的Web信息相對(duì)99%的用戶是無(wú)用的.雖然這看起來(lái)不是很明顯,但一個(gè)人只是關(guān)心Web上的很小很小一部分信息確是事實(shí),Web所包含的其余信息對(duì)用戶來(lái)說(shuō)是不感興趣的,而且會(huì)淹沒所希望得到的搜索結(jié)果.這些挑戰(zhàn)已經(jīng)推動(dòng)了如何高效且有效地發(fā)現(xiàn)和利用因特網(wǎng)上資源的研究工作.Web挖掘是一個(gè)更具挑戰(zhàn)性的課題,它實(shí)現(xiàn)對(duì)Web存取模式、Web結(jié)構(gòu)、規(guī)則和動(dòng)態(tài)的Web內(nèi)容的查找.2 Web挖掘的分類Web數(shù)據(jù)挖掘

10、可以分為Web內(nèi)容挖掘,Web結(jié)構(gòu)挖掘,Web使用挖掘三類。Web 內(nèi)容挖掘是從文檔內(nèi)容或其描述中抽取有用信息的過(guò)程,Web內(nèi)容挖掘有兩種策略:直接挖掘文檔的內(nèi)容和在其他工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采用第一種策略的有針對(duì)Web的查詢語(yǔ)言WebLOG,利用啟發(fā)式規(guī)則來(lái)尋找個(gè)人主頁(yè)信息的AHOY 等。采用第二種策略的方法主要是對(duì)搜索引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,得到更為精確和有用的信息。屬于該類的有WebSQL,及對(duì)搜索引擎的返回結(jié)果進(jìn)行聚類的技術(shù)等。根據(jù)挖掘處理的數(shù)據(jù)可以將Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘兩個(gè)部分。Web結(jié)構(gòu)挖掘是從Web組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識(shí)。挖掘頁(yè)面的結(jié)構(gòu)和Web

11、 結(jié)構(gòu),可以用來(lái)指導(dǎo)對(duì)頁(yè)面進(jìn)行分類和聚類,找到權(quán)威頁(yè)面、中心頁(yè)面,從而提高檢索的性能。同時(shí)還可以用來(lái)指導(dǎo)頁(yè)面采集工作,提高采集效率。Web 結(jié)構(gòu)挖掘可以分為Web文檔內(nèi)部結(jié)構(gòu)挖掘和文檔間的超鏈接結(jié)構(gòu)挖掘。這方面的代表有Page Rank和CLEVER,此外,在多層次Web數(shù)據(jù)倉(cāng)庫(kù)( MLDB )中也利用了頁(yè)面的鏈接結(jié)構(gòu)。Web使用挖掘是從服務(wù)器端記錄的用戶訪問(wèn)日志或從用戶的瀏覽信息中抽取感興趣的模式,通過(guò)分析這些數(shù)據(jù)可以幫助理解用戶隱藏在數(shù)據(jù)中的行為模式,做出預(yù)測(cè)性分析,從而改進(jìn)站點(diǎn)的結(jié)構(gòu)或?yàn)橛脩籼峁﹤€(gè)性化的服務(wù)。Web 挖掘相關(guān)技術(shù):數(shù)據(jù)挖掘方法通??梢苑譃閮深?一類是建立在統(tǒng)計(jì)模型的基礎(chǔ)上

12、,采用的技術(shù)有決策樹、分類、聚類、關(guān)聯(lián)規(guī)則等;另一類是建立一種以機(jī)器學(xué)習(xí)為主的人工智能模型,采用的方法有神經(jīng)網(wǎng)絡(luò)、自然法則計(jì)算方法等。Web 內(nèi)容挖掘:1、Web 文本挖掘Web 文本挖掘可以對(duì)Web上的大量文檔的集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析,以及利用Web 文檔進(jìn)行趨勢(shì)預(yù)測(cè)。在Internet上的文本數(shù)據(jù)一般是一組html格式的文檔集,要將這些文檔轉(zhuǎn)化成一種類似關(guān)系數(shù)據(jù)庫(kù)中記錄的規(guī)整且能反映文檔內(nèi)容特征的表示,一般采用文檔特征向量,但目前所采用的文檔表示方法中,都存在一個(gè)弊端就是文檔特征向量具有非常大的維數(shù),使得特征子集的選取成為Internet上文本數(shù)據(jù)挖掘過(guò)程中的必不可少的一

13、個(gè)環(huán)節(jié)。在完成文檔特征向量維數(shù)的縮減后,便可利用數(shù)據(jù)挖掘的各種方法,如分類、聚類、關(guān)聯(lián)分析等來(lái)提取面向特定應(yīng)用的知識(shí)模式,最后對(duì)挖掘結(jié)果進(jìn)行評(píng)價(jià),若評(píng)價(jià)結(jié)果滿足一定的要求則輸出,否則返回到以前的某個(gè)環(huán)節(jié),分析改進(jìn)后進(jìn)行新一輪的挖掘工作。關(guān)聯(lián)規(guī)則模式數(shù)據(jù)描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無(wú)監(jiān)督學(xué)習(xí)的方法。發(fā)現(xiàn)關(guān)聯(lián)規(guī)則通常要經(jīng)過(guò)以下3個(gè)步驟:連接數(shù)據(jù),做數(shù)據(jù)準(zhǔn)備;給定最小支持度和最小可信度,利用數(shù)據(jù)挖掘工具提供的算法發(fā)現(xiàn)關(guān)聯(lián)規(guī)則;可視化顯示、理解、評(píng)估關(guān)聯(lián)規(guī)則。目前Web內(nèi)容挖掘研究主要集中在基于文本內(nèi)容的檢索、信息過(guò)濾的提煉、重復(fù)數(shù)據(jù)消除、數(shù)據(jù)模式抽取、中間形式表示、異構(gòu)集成、文本分類和聚類、文

14、檔總結(jié)和結(jié)構(gòu)提取、數(shù)據(jù)倉(cāng)庫(kù)及OLAP等幾個(gè)方面,尤其是基于XML的上述專題研究。對(duì)分類挖掘而言,在預(yù)處理階段要做的事情就是把這個(gè)Web頁(yè)面集合文本信息轉(zhuǎn)化成一個(gè)二維的數(shù)據(jù)庫(kù)表,其中每一列是一個(gè)特征,每一行為一個(gè)Web頁(yè)面的特征集合。在文本學(xué)習(xí)中常用的方法是TF工DF向量表示法,它是一種文檔的詞集(bag-of-words)表示法,所有的詞從文檔中抽取出來(lái),而不考慮詞間的次序和文本的結(jié)構(gòu)。構(gòu)造這種二維表的方法是:每一列為一個(gè)詞,列集(特征集)為辭典中的所有有區(qū)分價(jià)值的詞,所以整個(gè)列集可能有幾十萬(wàn)列之多。每一行存儲(chǔ)一個(gè)頁(yè)面內(nèi)詞的信息,這時(shí),該頁(yè)面中的所有詞對(duì)應(yīng)到列集(特征集)上。列集中的每一個(gè)列(

15、詞),如果在該頁(yè)面中不出現(xiàn),則其值為0;如果出現(xiàn)k次.那么其值就為k。這樣就可以表征出頁(yè)面中詞的頻度。這樣構(gòu)造的二維表表示的是Web頁(yè)面集合的詞的統(tǒng)計(jì)信息,最終就可以采用Naive Bayesian方法或k-Nearest Neighbor方法進(jìn)行分類挖掘。WebSQL 是一個(gè)用于Web 頁(yè)重構(gòu)的查詢語(yǔ)言,利用Web 文檔的圖樹表示形式,可從在線的文檔站點(diǎn)或?qū)в沃改现蝎@取信息。而Ahoy則利用像搜索引擎一類的互聯(lián)網(wǎng)服務(wù)來(lái)獲取與個(gè)人有關(guān)的服務(wù),利用試探法識(shí)別文檔中顯示該文檔作為個(gè)人主頁(yè)的句法特征。分詞目前已有很多分詞算法,如:正向最大匹配法(MM)、逆向最大匹配法(RMM)、逐詞遍歷匹配法、設(shè)立

16、切分標(biāo)志法、正向最佳匹配法和逆向最佳匹配法等。近幾年又提出了很多新的方法旨在提高分詞的精度和分詞的速度,如:生成測(cè)試法通過(guò)詞法ATN和語(yǔ)義ATN之間的相互作用來(lái)進(jìn)行歧分決策,以提高分詞的精確性;改進(jìn)的MM分詞算法采用正向增字最大匹配法和跳躍匹配法,結(jié)合詞尾語(yǔ)義檢查和歸右原則以消除類型歧義;基于神經(jīng)網(wǎng)絡(luò)的分詞方法嘗試?yán)蒙窠?jīng)網(wǎng)絡(luò)來(lái)處理歧分問(wèn)題,但同時(shí)又引入一個(gè)問(wèn)題:訓(xùn)練樣本的選取,由于自然語(yǔ)言的復(fù)雜性,如何選取訓(xùn)練樣本還需要作深入的研究;結(jié)合直接匹配算法、后綴分詞算法和詞表結(jié)構(gòu)支持首字Hash的方法,局部提高了速度,但不能進(jìn)行標(biāo)準(zhǔn)的二分查找;支持首字Hash的近鄰匹配算法利用最大增字匹配算法,并

17、支持首字Hash和標(biāo)準(zhǔn)二分查找以提高分詞速度。分詞的基本算法有: (1)基于詞典與規(guī)則匹配法。基于詞典與規(guī)則的方法應(yīng)用詞典匹配, 漢語(yǔ)詞法或其它漢語(yǔ)語(yǔ)言知識(shí)進(jìn)行分詞, 這類方法簡(jiǎn)單、分詞效率較高,但對(duì)詞典的完備性、規(guī)則的一致性等要求比較高。匹配策略有: 最大匹配法、最小匹配法、逆向匹配法、增字或減字匹配法、雙向掃描法。(2)標(biāo)志法。如切分標(biāo)志法、統(tǒng)計(jì)標(biāo)引法。(3)詞頻統(tǒng)計(jì)法?;诮y(tǒng)計(jì)的分詞方法將漢語(yǔ)基于字和詞的統(tǒng)計(jì)信息, 完備性較差。(4)語(yǔ)義語(yǔ)用法。如后綴分詞法。目前使用最多的是基于詞庫(kù)的分詞方法。由于中文在分詞時(shí)可能產(chǎn)生二義性, 如“計(jì)算機(jī)器”可分成“計(jì)算”“/ 機(jī)器”和“計(jì)算機(jī)”“/ 器

18、”, 這樣必須結(jié)合其它分分詞方法, 如基于語(yǔ)法規(guī)則的分詞法、基于樸素貝葉斯分詞法等。在具體的分詞過(guò)程中, 我們還可以將單詞變型歸并, 像同義詞、近義詞可進(jìn)行歸并, 如“因特網(wǎng)”和“萬(wàn)維網(wǎng)”可當(dāng)成一個(gè)詞條處理。語(yǔ)義Web 是下一代的Web 技術(shù),它賦予Web 以計(jì)算機(jī)可理解的語(yǔ)義信息。在語(yǔ)義Web技術(shù)中,本體起著重要的作用。本體是人們對(duì)領(lǐng)域知識(shí)達(dá)成的共識(shí),是對(duì)領(lǐng)域的形式化與結(jié)構(gòu)化的描述。本項(xiàng)目針對(duì)語(yǔ)義Web 目前存在的問(wèn)題,應(yīng)用語(yǔ)義Web 技術(shù),信息集成和信息管理的若干關(guān)鍵技術(shù),從多個(gè)方面對(duì)語(yǔ)義Web 進(jìn)行研究。(1)語(yǔ)義信息集成。對(duì)本體的語(yǔ)義標(biāo)注和本體集成方法進(jìn)行研究,利用基于本體的語(yǔ)義標(biāo)注和

19、本體映射技術(shù)從異構(gòu)的資源中抽取出有用信息,并通過(guò)映射方法集成多種信息源的的信息。(2)語(yǔ)義查詢。實(shí)現(xiàn)語(yǔ)義信息的多種查詢方式,包括:本體的可視化導(dǎo)航查詢,針對(duì)概念/實(shí)例/屬性的查詢,基于全文檢索技術(shù)的查詢,語(yǔ)義關(guān)系的查詢。(3)語(yǔ)義信息挖掘。語(yǔ)義信息的挖掘一直處在一個(gè)很淺層的階段,目前的多數(shù)研究一直處在傳統(tǒng)的文本信息挖掘。本項(xiàng)目的研究主要從本體實(shí)例聚類、本體分類,本體關(guān)聯(lián)規(guī)則挖掘以及本體中關(guān)鍵詞的抽取。這些技術(shù)是語(yǔ)義Web 的應(yīng)用的基礎(chǔ),他們可以用來(lái)分析語(yǔ)義信息的趨勢(shì),語(yǔ)義數(shù)據(jù)的自動(dòng)處理等。(4)語(yǔ)義Web Service。通過(guò)系統(tǒng)定義的軟件本體對(duì)Web Service 進(jìn)行描述,從而實(shí)現(xiàn)Web

20、Service 的評(píng)估、組裝等功能。(5)基于Peer to Peer 的語(yǔ)義信息管理。這個(gè)問(wèn)題的核心思想是要通過(guò)集成已有的Peer to Peer框架實(shí)現(xiàn)語(yǔ)義挖掘平臺(tái)在P2P 環(huán)境下的應(yīng)用。(6)算法解釋。利用定義的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)對(duì)上述算法的執(zhí)行過(guò)程進(jìn)行l(wèi)og,從而輕松的實(shí)現(xiàn)用戶-算法及開發(fā)-算法之間的交互。提供針對(duì)算法本身的更友好的接口。 2 、Web 多媒體挖掘Web 多媒體挖掘與Web 文本挖掘的不同點(diǎn)就在于需要提取的特征不同。Web 多媒體挖掘需要提取的特征一般包括圖像或視頻的文件名URL 、類型、鍵值表、顏色向量等。然后可以對(duì)這些特征進(jìn)行挖掘工作。如關(guān)聯(lián)分析發(fā)現(xiàn)類似“如果圖

21、像是大而且與關(guān)鍵詞草原有關(guān),那么它是綠色的概率是0. 8”的關(guān)聯(lián)規(guī)則。當(dāng)然也可以對(duì)多媒體進(jìn)行分類、聚類等操作。多媒體數(shù)據(jù)挖掘的方法主要有:多媒體數(shù)據(jù)中的相似搜索,主要有兩種多媒體標(biāo)引和檢索技術(shù):基于描述的檢索系統(tǒng)和基于內(nèi)容的檢索系統(tǒng);多媒體數(shù)據(jù)的多維分析,可以按傳統(tǒng)的從關(guān)系數(shù)據(jù)中構(gòu)造數(shù)據(jù)立方體的方法,設(shè)計(jì)和構(gòu)造多媒體數(shù)據(jù)立方體;分類和預(yù)測(cè)分析,主要應(yīng)用于天文學(xué)、地震學(xué)和地理科學(xué)的研究,決策樹分類是最常用的方法;多媒體數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘,關(guān)聯(lián)規(guī)則的挖掘主要包括以下三類規(guī)則:圖像內(nèi)容和非圖像內(nèi)容之間的關(guān)聯(lián)、與空間關(guān)系無(wú)關(guān)的圖像內(nèi)容的關(guān)聯(lián)、與空間關(guān)系有關(guān)的圖像內(nèi)容的關(guān)聯(lián)。 3、特征提取經(jīng)典

22、的文本表示模型是向量空間模型(VSMVector Space Model),由Salton 等人于60 年代末提出,并成功地應(yīng)用于著名的SMART 文本檢索系統(tǒng)。向量空間模型對(duì)文本進(jìn)行簡(jiǎn)化表示,認(rèn)為特征之間是相互獨(dú)立的而忽略其依賴性,將文檔內(nèi)容用它所包含的特征詞來(lái)表示:D=(t1,t2,tN),其中tk 是文檔D 的第k 個(gè)特征詞,1 k N 。兩個(gè)文檔D1 和D2 之間內(nèi)容的相似程度Sim(D1,D2)通過(guò)計(jì)算向量之間的相似性來(lái)度量。最常用的相似性度量方式是余弦距離。除了向量空間模型之外,Stephen Robertson 和Spark Jones 等人提出的概率模型得到了人們的廣泛認(rèn)可。該

23、模型綜合考慮了詞頻、文檔頻率和文檔長(zhǎng)度等因素,把文檔和用戶興趣(查詢)按照一定的概率關(guān)系融合,形成了著名的OKAPI 公式。該模型在信息檢索領(lǐng)域取得了成功。降維就是自動(dòng)從原始特征空間中提取出部分特征的過(guò)程,一般通過(guò)兩種途徑:一是根據(jù)對(duì)樣本集的統(tǒng)計(jì)信息刪除不包含任何信息的特征;二是將若干低級(jí)的特征合成一個(gè)新特征。目前關(guān)于特征提取的方法很多,如文檔頻率法(DF)、信息增益(IG)、互關(guān)聯(lián)信息(MI)、 x2 統(tǒng)計(jì)法(CHI)、特征增強(qiáng)(TS)等。DF是指包含某一特征的文檔數(shù),TS 法通過(guò)統(tǒng)計(jì)特征在一組相近文檔中出現(xiàn)的頻率來(lái)估計(jì)特征的重要性,然而,人們?cè)趯?shí)際應(yīng)用中發(fā)現(xiàn),某些DF值或TS值很低的特征反

24、而是信息相關(guān)的,不能從特征空間中刪去,因此這兩種方法在某些情況下不可靠,MI的弱點(diǎn)是受特征的邊緣概率的影響很大,CHI和IG的使用效果較好。一般用的評(píng)估函數(shù)有幾率比(Odds ratio) 、信息增益( Information Gain) 、期望交叉熵( Expected CrossEntropy) 、互信息( Mutual Information) 、詞頻( WordFrequency) 等。(1)IG(Information Gain):即信息贏取。IG值代表了特征在訓(xùn)練集上的分布情況,它通過(guò)統(tǒng)計(jì)特征在各個(gè)類別中的出現(xiàn)次數(shù)來(lái)計(jì)算,公式如下:其中 t 代表特征 ,ci代表第i個(gè)類別,m為類別

25、個(gè)數(shù),只Pr (cI)代表類別cI的概率,Pr (cI|i) 代表在包含特征t的條件下類別ci的概率,Pr (cI|-t) 代表在不包含特征t的條件下類別cI的概率,Pr(t) 代表特征t出 現(xiàn) 的 概率,Pr (-t) 代表特征t不出現(xiàn)的概率。IG值越高表示該特征在訓(xùn)練集中的類別上分布越集中。IG方法提取IG值較高的特征,其基本思想為分布越集中的特征越重要。(2) MI(Mutual Information):即互信息值,它通過(guò)計(jì)算特征t和類別c間 的相關(guān)性來(lái)完成提取。計(jì)算公式為: 為方便計(jì)算,簡(jiǎn)化為: 其中N為訓(xùn)練集中包含的文本總數(shù),A為t與c同時(shí)出現(xiàn)的次數(shù),B為t出現(xiàn)而c不出現(xiàn)的次數(shù),C

26、為c出現(xiàn)而t不出現(xiàn)的次數(shù)。通過(guò)該公式就可以取得特征與各類別間的互信息值。為了能取得特征在數(shù)據(jù)集上的整體評(píng)價(jià),有以下兩種計(jì)算方法: 前 者代表 了 特 征 和 各類別的平均互信息值,后者則取特征與各類別互 信 息 值中的最大值。MI方法提取互信息值較高的特征,其基本思想為與類別相關(guān)性越高的特征越重要。(3)CHI具有和MI方法基本相似的思想,同樣通過(guò)計(jì)算特征t和類別c間的依賴程度來(lái)完成提取。但二者的計(jì)算細(xì)節(jié)不同,CHI作了更多地考慮 ,有種看法認(rèn)為CHI是一種“正規(guī)化”了的MI。CHI的計(jì)算公式如下: 其中N為訓(xùn)練集中包含的文本總數(shù),A為t與c同時(shí)出現(xiàn)的次數(shù),B為t出現(xiàn)而c未出現(xiàn)的次數(shù),C為c出

27、現(xiàn)而t未出現(xiàn)的次數(shù),D為二者都未出現(xiàn)的次數(shù)。與MI相同,CHI也有平均值和最大值兩種方法來(lái)取得特征的整體評(píng)價(jià): CHI 方 法 的基本思想也是與類別關(guān)系越緊密的特征重要性越高。(4)DF (Document frequency):即文檔頻率,指訓(xùn)練集中包含該特征的文本總數(shù)。所謂文本包含特征是指這個(gè)特征在該文本中出現(xiàn),忽略其在文本中的出現(xiàn)次數(shù)。DF方法提取DF值較高的特征,它的目的是去掉在訓(xùn)練集上出現(xiàn)次數(shù)過(guò)少的特征,保留出現(xiàn)達(dá)到一定次數(shù)、具有一定影響力的特征。在各個(gè)特征提取方法中,DF方法的計(jì)算是最簡(jiǎn)單的。(5)WEE(WeightEvidence):即文本證據(jù)權(quán),其計(jì)算公式如下: 其中,t是一

28、個(gè)特征,m是類別的數(shù)量,ci代表第i個(gè)類別,代表類別ci的概率,Pr (cI|t)代表在包含特征t的條件下類別ci的概率,Pr(t)代表特征t出現(xiàn)的概率。 4、分類目前文本分類的方法很多,如多元回歸模型、K-鄰近方法、神經(jīng)網(wǎng)絡(luò)法、貝葉斯方法、決策樹法、支持向量機(jī)等,這些方法基本上可以分為兩類:統(tǒng)計(jì)分類方法和基于機(jī)器學(xué)習(xí)的分類方法。支持向量機(jī)(SVM)是統(tǒng)計(jì)學(xué)習(xí)理論領(lǐng)域近幾年才提出的新知識(shí),目前仍處于發(fā)展階段,但就目前的應(yīng)用而言,SVM在很多領(lǐng)域的運(yùn)用效果都非常理想。網(wǎng)頁(yè)自動(dòng)分類是Web內(nèi)容挖掘的主要研究?jī)?nèi)容之一,采用的主要技術(shù)是分本分類技術(shù),這是因?yàn)槲谋臼悄壳癢eb內(nèi)容的主體,并且對(duì)

29、文本的處理較音頻、視頻的處理容易。文本分類首先要進(jìn)行特征抽取。所謂特征是指一個(gè)詞或詞組。目前英文分類算法大多以單詞為特征,在分詞的時(shí)候利用空格和其它一些標(biāo)點(diǎn)符號(hào)作為分隔符,從而抽取出文檔中出現(xiàn)的所有特征,所有抽取出來(lái)的特征稱為全特征集。特征抽取完畢后一般還要進(jìn)行特征提取。特征提取是指從全特征集中提取一個(gè)子集的過(guò)程。提取出來(lái)的子集稱為特征子集。根據(jù)John Pierre的理論,用來(lái)表示文本的特征理論上應(yīng)具有如下特點(diǎn);(1)數(shù)量上盡量少;(2)出 現(xiàn)頻率適中;(3)冗余少;(4)噪音少;(5)與其所屬類別語(yǔ)義相關(guān);(6)含義盡量明確;從全特征集中提取特征子集時(shí)通常根據(jù)特征的權(quán)值進(jìn)行取舍,權(quán)值的計(jì)算

30、方 法有多種,比如信息贏取(Information Gain),互信息(Mutual Information)等。特征提取后就可以用特征子集來(lái)表示文本,然后就可以構(gòu)造用不同分類方法用來(lái)分類。常見的分類模型有:(1)K一 近鄰模型,(2)Rocchio模型,(3)貝葉斯模型,(4)神經(jīng)網(wǎng)絡(luò)模型,(5)決策樹模型。目前研究人員己經(jīng)提出了許多文本分類方法,如向量空間法(VSM)、回歸模型、K近鄰法、貝葉斯概率方法、決策樹、神經(jīng)網(wǎng)絡(luò)、在線學(xué)習(xí)、支持向量機(jī)等。在完成特征提取之后,我們就可以使用這些特征來(lái)表示一個(gè)文本。具體的表示方法因分類方法而異。每種分類模型都會(huì)采用自己的方法來(lái)表示一個(gè)文本,并將這種表示

31、方法納入到自己的體系中去。所有的分類模型大體上都可分為訓(xùn)練和分類兩個(gè)步驟。一般來(lái)說(shuō),訓(xùn)練例越多分類的準(zhǔn)確度越有保證,但也并不是越多越好。(1)基于TFIDF的Rocchio算法Rocchio 算法來(lái)源于向量空間模型理論,向量空間模型(Vector space model)的基本思想為采用向量來(lái)表示一個(gè)文本,之后的處理過(guò)程就可以轉(zhuǎn)化為空間中向量的運(yùn)算?;赥FIDF的Rocchio是這種思想的一種實(shí)現(xiàn)方法,其中文本以一個(gè)N維向量來(lái)表示,向量維數(shù)N即特征數(shù),向量分量是特征的某種權(quán)重表示,該權(quán)值的計(jì)算方法稱為TFIDF方法,步驟如下:通過(guò) TFIDF方法首先將訓(xùn)練集中的文本表示為向量,然后生成類別特

32、征向量(即可以用來(lái)代表一個(gè)類別的向量)。類別特征向量取值為該類中所有文本向量的平均值。Rocchio算法訓(xùn)練的過(guò)程其實(shí)就是建立類別特征向量的過(guò)程。分類的時(shí)候,給定一個(gè)未知文本,先生成該文本的向量,然后計(jì)算該向量與各類別特征向量的相似度,最后將該文本分到與其最相似的類別中去。向量的相似度度量方法有兩種:(以x,y代表向量,xi,yi代表向量分量):總體來(lái)看,Rocchio算法簡(jiǎn)單易行,運(yùn)行速度尤其是分類速度較快。(2)樸素貝葉斯模型貝葉斯分類是一種統(tǒng)計(jì)學(xué)分類方法,它基于貝葉斯定理,可以用來(lái)預(yù)測(cè)類成員關(guān)系的可能性,給出文本屬于某特定類別的概率。分類時(shí)根據(jù)預(yù)測(cè)結(jié)果將該樣木分到概率最高的類別中去即可。

33、假定有m個(gè)類c1,c2,c3Cm,給定未知文本X,貝葉斯分類將給出條件X下具有最高后驗(yàn)概率的類別,即最大化P(Ci|X)根據(jù)貝葉斯定理可得:顯而易見,P(X)對(duì)于所有類是個(gè)常數(shù),則只需最大化P(X|Ci )P(Ci)即可。P(ci)可以根據(jù)訓(xùn)練集中的類別分布來(lái)計(jì)算,即 ,其中|Ci|為類別Ci包含的文本數(shù),|D|為訓(xùn)練集中的文本總數(shù)。在一個(gè)具有許多屬性的事例中,計(jì)算P(X|Ci)的開銷會(huì)非常大,為了降低這種開銷而引出了稱為類條件獨(dú)立的樸素假定:假定文檔的一個(gè)屬性對(duì)于分類的影響?yīng)毩⒂谄渌麑傩裕次臋n的屬性之間是不相關(guān)的。這就是樸素貝葉斯(Naïve Bayes)的由來(lái)。這樣就可以簡(jiǎn)單的

34、以各個(gè)屬性在類別Ci上出現(xiàn)的概率來(lái)推算P(X|Ci)。通常使用拉普拉斯估計(jì)(Laplacean prior)來(lái)推算。又因?qū)崿F(xiàn)細(xì)節(jié)的不同有兩種樸素貝葉斯模型,多元模型(Multi-variate Bernoulli Model)只考慮了特征在文本中是否出現(xiàn)(出現(xiàn)記為1,否則記為。),多項(xiàng)式模型(Multinomial Model)考慮了特征在文本中的出現(xiàn)次數(shù):樸素貝葉斯分類模型訓(xùn)練的過(guò)程其實(shí)就是統(tǒng)計(jì)每一個(gè)特征在各類中出現(xiàn)規(guī)律的過(guò)程。從理論上講,貝葉斯分類的出錯(cuò)率最小,就試驗(yàn)結(jié)果來(lái)看,樸素貝葉斯在大型的數(shù)據(jù)集上表現(xiàn)出來(lái)難得的速度和準(zhǔn)確度。(3)決策樹決策樹(Decision Tree)是一個(gè)類似于

35、流程圖的樹結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)代表一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,最后的葉結(jié)點(diǎn)代表類別。決策樹方便改寫為形如if-then的分類規(guī)則,易于理解。決策樹的核心算法是一種貪心算法,它以自頂向下的方式在訓(xùn)練集的基礎(chǔ)上構(gòu)造決策樹,之后取未知文本的屬性在決策樹上測(cè)試,路徑由根結(jié)點(diǎn)到葉結(jié)點(diǎn),從而得到該文本的所屬類別。決策樹的算法有C4.5(發(fā)展于ID3),CART,CHAID等,他們的區(qū)別在于構(gòu)造決策樹與樹枝剪除的算法細(xì)節(jié)不同。決策樹可以很好的抵抗噪聲。最大的缺點(diǎn)在于不適應(yīng)大規(guī)模的數(shù)據(jù)集,此種情況下決策樹的構(gòu)造會(huì)變得效率低下。(4)神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)(Neural Network)的學(xué)習(xí)結(jié)果為目標(biāo)函

36、數(shù),根據(jù)這個(gè)目標(biāo)函數(shù)的輸出作為分類的依據(jù)。輸入即為文本在各個(gè)特征上的各分量值。神經(jīng)網(wǎng)絡(luò)實(shí)際上是一組連接的輸入/輸出單元,其中每一個(gè)連接都具有一定的權(quán)值。通過(guò)訓(xùn)練集來(lái)訓(xùn)練的過(guò)程就是調(diào)整這些權(quán)值的過(guò)程,使得神經(jīng)網(wǎng)絡(luò)可以正確的預(yù)測(cè)類別。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練是針對(duì)訓(xùn)練例逐個(gè)進(jìn)行的,所以神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集可以隨時(shí)添加,不需要重新進(jìn)行訓(xùn)練就可完成網(wǎng)絡(luò)的調(diào)整。同時(shí)有實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練例過(guò)少的情況下,神經(jīng)網(wǎng)絡(luò)的分類準(zhǔn)確率較低。因?yàn)榭赏ㄟ^(guò)訓(xùn)練來(lái)針對(duì)特征取一定的合適的權(quán)值,神經(jīng)網(wǎng)絡(luò)可以較好地抵御噪音的干擾。(5)K近鄰K近鄰分類(K-nearest neighbor)的思想也來(lái)源于向量空間模型,同樣采用將文本轉(zhuǎn)化為向量

37、的思想。KNN是一種基于類比的分類方法。在訓(xùn)練的過(guò)程中KNN會(huì)生成所有訓(xùn)練例的特征向量,并將其保存下來(lái)。給定一個(gè)未知文本,首先生成它的特征向量,之后KNN會(huì)搜索所有的訓(xùn)練例,通過(guò)向量相似度比較從中找出K個(gè)最接近的訓(xùn)練例,然后將未知文本分到這K個(gè)近鄰中最普遍的類別中去。相似度可以通過(guò)歐幾里德距離或向量間夾角來(lái)度量。根據(jù)經(jīng)驗(yàn)x一般取45。KNN是一種懶散的方法,即它沒有學(xué)習(xí)過(guò)程,只是存放所有的訓(xùn)練例,直到接到未知文本的時(shí)候才建立分類。ON的訓(xùn)練過(guò)程較快,而且可以隨時(shí)添加或更新訓(xùn)練例來(lái)調(diào)整。但它分類的開銷會(huì)很大,因?yàn)樾枰艽蟮目臻g來(lái)保存訓(xùn)練例,而且分類效率很差。有看法認(rèn)為在小數(shù)據(jù)集上KNN的表現(xiàn)優(yōu)異

38、。(6)SVM方法SVM方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性(即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度)和學(xué)習(xí)能力(即無(wú)錯(cuò)誤地識(shí)別任意樣本的能力)之間尋求最佳折中,以期獲得較好的綜合能力。SVM專門針對(duì)有限樣本,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無(wú)窮大時(shí)的最優(yōu)值(KNN和Naive Bayes方法基于樣本數(shù)趨于無(wú)窮大),從理論上說(shuō),SVM得到的將是全局最優(yōu)點(diǎn),從而解決了在神經(jīng)網(wǎng)絡(luò)方法中無(wú)法避免的局部極值問(wèn)題。此外,SVM將實(shí)際問(wèn)題通過(guò)非線性變換轉(zhuǎn)換到高維的特征空間,在高維空間中構(gòu)造線性判別函數(shù)來(lái)實(shí)現(xiàn)原空間中的非線性判別函數(shù),特殊性質(zhì)

39、能保證機(jī)器有較好的推廣能力,同時(shí)它巧妙地解決了維數(shù)問(wèn)題,其算法復(fù)雜度與樣本維數(shù)無(wú)關(guān)。 5、網(wǎng)頁(yè)分類方法一般來(lái)說(shuō),網(wǎng)頁(yè)中對(duì)于分類有作用的部分首先是核心文本,即網(wǎng)頁(yè)中關(guān)于網(wǎng)頁(yè)內(nèi)容的文本部分。其次是結(jié)構(gòu)信息和超鏈接信息,再其次是多媒體信息。多媒體信息的識(shí)別涉及圖像檢索、語(yǔ)音識(shí)別等技術(shù),且目前沒有較好的結(jié)果,因此很少被考慮。我們進(jìn)行網(wǎng)頁(yè)分類的基本思路是:(1 )利用自行研制的網(wǎng)頁(yè)解析器分離出目標(biāo)網(wǎng)頁(yè)的核心純文本。(2 )利用自行研制的分類系統(tǒng)TCS對(duì)目標(biāo)網(wǎng)頁(yè)的核心純文本部分進(jìn)行分詞、特征提取等操作,并產(chǎn)生目標(biāo)網(wǎng)頁(yè)的初始特征向量。(3) 根據(jù)特征向量進(jìn)行分類,確定目標(biāo)網(wǎng)頁(yè)的類別。通常采用以下五

40、種標(biāo)準(zhǔn)在不同的方面來(lái)評(píng)價(jià)一個(gè)分類器: (1)精度 (precision) (2)查全率(recall) (3)F標(biāo)準(zhǔn)綜合了精度和查全率,將兩者賦予同樣的重要性來(lái)考慮,即 ,其中r代表查全率,p代表精度。這三個(gè)標(biāo)準(zhǔn)都只用于分類器在單個(gè)類別上分類準(zhǔn)確度的評(píng)價(jià)。(4)宏觀平均值(macro-averaged score) (5)微觀平均值(micro-averaged score)。 Web 結(jié)構(gòu)挖掘:整個(gè)Web 空間中,有用知識(shí)不僅包含在Web頁(yè)面內(nèi)容中, 也包含在Web 頁(yè)間超鏈接結(jié)構(gòu)與Web 頁(yè)面結(jié)構(gòu)之中。挖掘Web 結(jié)構(gòu)的目的是發(fā)現(xiàn)頁(yè)面的結(jié)構(gòu)和Web 間的結(jié)構(gòu),在此基礎(chǔ)上對(duì)頁(yè)面進(jìn)行

41、分類和聚類,從而找到權(quán)威頁(yè)面,這種方法可以用來(lái)改進(jìn)搜索引擎。在搜索引擎中存貯了數(shù)以億計(jì)的頁(yè)面,很容易得到它們的鏈接結(jié)構(gòu)。需要做到的是尋找一種好的利用鏈接結(jié)構(gòu)來(lái)評(píng)價(jià)頁(yè)面重要性的方法。Page Rank 的基本思想是: 一個(gè)頁(yè)面被多次引用,則這個(gè)頁(yè)面很可能是重要的;一個(gè)頁(yè)面盡管沒有被多次引用,但被一個(gè)重要頁(yè)面引用,該頁(yè)面也可能是很重要的;一個(gè)頁(yè)面的重要性被均分并被傳遞到它所引用的頁(yè)面。在Page Rank方法中,Page Rank被定義為:設(shè)u為一個(gè)Web頁(yè)。Fu為所有的u指向的頁(yè)面的集合,Bu為所有的指向u的頁(yè)面的集合。設(shè)Nu=Fu為從u發(fā)出的鏈接的個(gè)數(shù),C(C1)為一個(gè)歸一化的因子(因此所有頁(yè)

42、面的總的Page Rank為一個(gè)常數(shù)),那么u頁(yè)面的Page Rank被定義為(簡(jiǎn)化的版本): 即一 個(gè) 頁(yè) 面的PageRank被分配到所有它所指向的頁(yè)面:每一個(gè)頁(yè)面求和所有指向它的鏈接所帶來(lái)的PageRank得到它的新的PageRank。該公式是一個(gè)遞歸公式,在計(jì)算時(shí)可以從任何一個(gè)頁(yè)面開始,反復(fù)計(jì)算直到其收斂。對(duì)于 搜 索 引擎的鍵值搜索結(jié)果來(lái)說(shuō),PageRank是一個(gè)好的評(píng)價(jià)結(jié)果的方法,查詢的結(jié)果可以按照PageRank從大到小依次排列。從 we b結(jié) 構(gòu)挖掘的現(xiàn)狀來(lái)看,純粹的網(wǎng)絡(luò)結(jié)構(gòu)挖掘研究很少,多數(shù)是和其它web挖掘形式結(jié)合起來(lái)。主要的研究集中在網(wǎng)絡(luò)虛擬視圖生成與網(wǎng)絡(luò)導(dǎo)航、信息分類與

43、索引結(jié)構(gòu)重組、文本分類、文本重要性確定等幾個(gè)方面。關(guān)鍵頁(yè)/ 權(quán)威頁(yè)(Hub/ Authority) 方法頁(yè)面的超鏈接關(guān)系十分復(fù)雜, 例如: 有的鏈接是為了導(dǎo)航, 因此不能簡(jiǎn)單認(rèn)為超鏈接即是引用關(guān)系; 此外由于商業(yè)的需要,很少有頁(yè)面會(huì)把其競(jìng)爭(zhēng)對(duì)手的頁(yè)面作為鏈接。正是由于超鏈接結(jié)構(gòu)中存在著以上的缺陷, 出現(xiàn)了關(guān)鍵頁(yè)/ 權(quán)威頁(yè)方法。關(guān)鍵頁(yè)/ 權(quán)威頁(yè)方法的思想是: Web 上存在著一種重要的頁(yè)面。所謂關(guān)鍵頁(yè)指的是自身不一定為多個(gè)頁(yè)面所鏈接, 但是它的頁(yè)面上存在著就某個(gè)專業(yè)領(lǐng)域而言最重要的站點(diǎn)鏈接。對(duì)于這種關(guān)鍵頁(yè), 它起到了隱含說(shuō)明其他Web文檔頁(yè)面重要性的作用。一個(gè)權(quán)威頁(yè)應(yīng)當(dāng)是被多個(gè)關(guān)鍵頁(yè)所鏈接的,

44、而一個(gè)關(guān)鍵頁(yè)應(yīng)當(dāng)包含很多權(quán)威頁(yè)的鏈接。將關(guān)鍵頁(yè)與權(quán)威頁(yè)的這種聯(lián)系按照算法計(jì)算出來(lái), 就是關(guān)鍵頁(yè)/ 權(quán)威頁(yè)方法的主要思想。HITS和Page Rank、以及在鏈接結(jié)構(gòu)中增加了Web內(nèi)容信息的HITS改進(jìn)算法等,主要用于模擬Web站點(diǎn)的拓?fù)浣Y(jié)構(gòu),計(jì)算Web頁(yè)面的等級(jí)和Web頁(yè)面之間的關(guān)聯(lián)度,典型的例子是Clever System和Google. Web 使用挖掘:Web 使用挖掘又叫Web 使用記錄挖掘,是指通過(guò)挖掘Web 日志記錄來(lái)發(fā)現(xiàn)用戶訪問(wèn)Web 頁(yè)面的模式??梢酝ㄟ^(guò)分析和研究Web 日志記錄中的規(guī)律,來(lái)識(shí)別電子商務(wù)的潛在客戶;可以用基于擴(kuò)展有向樹模型來(lái)識(shí)別用戶瀏覽模式,從而進(jìn)行W

45、eb 日志挖掘;可以根據(jù)用戶訪問(wèn)Web 的記錄挖掘用戶的興趣關(guān)聯(lián)規(guī)則,存放在興趣關(guān)聯(lián)知識(shí)庫(kù)中,作為對(duì)用戶行為進(jìn)行預(yù)測(cè)的依據(jù),從而為用戶預(yù)取一些Web 頁(yè)面,加快用戶獲取頁(yè)面的速度。Web 日志挖掘過(guò)程一般分為3 個(gè)階段: 預(yù)處理階段、挖掘算法實(shí)施階段、模式分析階段。Web 服務(wù)器日志記錄了用戶訪問(wèn)本站點(diǎn)的信息,其中包括IP 地址、請(qǐng)求時(shí)間、方法、被請(qǐng)求文件的URL 、返回碼、傳輸字節(jié)數(shù)、引用頁(yè)的URL 和代理等信息。這些信息中有的對(duì)Web 挖掘并沒有作用,因此要進(jìn)行數(shù)據(jù)預(yù)處理。預(yù)處理包括數(shù)據(jù)凈化、用戶識(shí)別、事務(wù)識(shí)別等過(guò)程。通過(guò)對(duì)Web 日志預(yù)處理后,就可以根據(jù)具體的分析需求選擇訪問(wèn)模式發(fā)現(xiàn)的技

46、術(shù),如路徑分析、關(guān)聯(lián)分析、時(shí)序模式識(shí)別以及分類和聚類技術(shù)等。模式挖掘出來(lái)以后還要進(jìn)行分析,使之得到很好的利用。常用有兩種方法發(fā)現(xiàn)用戶使用記錄信息。一種方法是通過(guò)對(duì)日志文件進(jìn)行分析, 包含兩種方式, 一是訪問(wèn)前先進(jìn)行預(yù)處理, 即將日志數(shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù), 如關(guān)聯(lián)規(guī)則或聚類技術(shù)來(lái)訪問(wèn)日志數(shù)據(jù), 二是對(duì)日志數(shù)據(jù)進(jìn)行直接訪問(wèn)以獲取用戶的導(dǎo)航信息; 另一種是通過(guò)對(duì)用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。從研究目標(biāo)的角度看, 已有的基于Web 服務(wù)器日志數(shù)據(jù)的研究大致可以分為3 類: 以分析系統(tǒng)性能為目標(biāo); 以改進(jìn)系統(tǒng)設(shè)計(jì)為目標(biāo); 以理解用戶意圖為目標(biāo)。由于各目標(biāo)針對(duì)的功能不同,

47、采取的主要技術(shù)也不同。用戶使用記錄的挖掘通常要經(jīng)過(guò)下面3 個(gè)步驟: 數(shù)據(jù)預(yù)處理階段。這是使用記錄信息挖掘最關(guān)鍵的階段, 數(shù)據(jù)預(yù)處理包括: 關(guān)于用戶使用記錄的預(yù)處理、關(guān)于內(nèi)容預(yù)處理和結(jié)構(gòu)的預(yù)處理; 模式識(shí)別階段。該階段采用的方法包括: 統(tǒng)計(jì)法、機(jī)器學(xué)習(xí)和模式識(shí)別等方法。實(shí)現(xiàn)算法可以是: 統(tǒng)計(jì)分析、聚類、分類、關(guān)聯(lián)規(guī)則、序列模式識(shí)別等; 模式分析階段。該階段的任務(wù)是從上一階段收集的數(shù)據(jù)集中過(guò)濾掉不感興趣和無(wú)關(guān)聯(lián)的數(shù)據(jù)及模式。具體的實(shí)現(xiàn)方法要依具體采用Web 挖掘技術(shù)而定,通常采用的方法有兩種: 一種采用SQL 查詢語(yǔ)句進(jìn)行分析; 另外一種將數(shù)據(jù)導(dǎo)人多維數(shù)據(jù)立方體中, 而后利用OLA P 工具進(jìn)行分

48、析并提供可視化的結(jié)構(gòu)輸出。對(duì)挖掘用戶使用記錄的研究早期多采用的是統(tǒng)計(jì)的方法, 當(dāng)用戶通過(guò)瀏覽器對(duì)Web 站點(diǎn)進(jìn)行訪問(wèn)時(shí), 建立統(tǒng)計(jì)模型對(duì)用戶訪問(wèn)模式進(jìn)行多種簡(jiǎn)單的統(tǒng)計(jì), 如頻繁訪問(wèn)頁(yè)、單位事件訪問(wèn)數(shù)、訪問(wèn)數(shù)據(jù)量隨時(shí)間分布圖等。早期使用的方法為以廣度優(yōu)先算法為主的統(tǒng)計(jì)模型, 還有一種啟發(fā)式的HPG(hypertext probabilistic grammar) 模型用于用戶導(dǎo)航行為的發(fā)現(xiàn), 它也是一種基于統(tǒng)計(jì)的方法, 由于HPG 模型與k 階馬爾可夫模型相當(dāng), 所以近來(lái)也有人提出用馬爾可夫模型挖掘用戶使用記錄。Web日志的挖掘的方法可以分為 (1)以JiaWei Han為代表的基于數(shù)據(jù)立方體(

49、data cube)的方法:將Web 日志保存為數(shù)據(jù)立方體,然后在其上進(jìn)行數(shù)據(jù)挖掘和OLAP操作;(2)以Ming-Syan Chen為代表的基于Web 事物的方法:他們首先提出了最大向前引用序列(MFR)的概念,用MFR將用戶會(huì)話分割成一系列的的事務(wù),然后采用與關(guān)聯(lián)規(guī)則相似的方法挖掘頻繁瀏覽路徑。Web 行為挖掘在電子商務(wù)中得到了廣泛的應(yīng)用, 在對(duì)事務(wù)進(jìn)行了劃分后, 就可以根據(jù)具體的分析需求選擇訪問(wèn)模式發(fā)現(xiàn)的技術(shù)(路徑分析、關(guān)聯(lián)、規(guī)則挖掘、時(shí)序模式以及聚類和分類技術(shù)等)Web 使用挖掘中的模式分析,主要是為了在模式發(fā)現(xiàn)算法找到的模式集合中發(fā)現(xiàn)有趣模式。開發(fā)各種Web 分析技術(shù)和工具,可輔助分

50、析人員加深理解并使各種挖掘方法得到的模式獲得充分利用。如Webwiz (pitkow) 系統(tǒng)可將www 的訪問(wèn)模式可視化;Webminer則采用類SQL 語(yǔ)言的知識(shí)查詢機(jī)制;另外也可以利用存儲(chǔ)Web 使用數(shù)據(jù)的數(shù)據(jù)倉(cāng)庫(kù),采用OLAP 方法發(fā)現(xiàn)數(shù)據(jù)中的特定模式。 6、Web 數(shù)據(jù)挖掘的四個(gè)步驟:1、查找資源: 任務(wù)是從目標(biāo)Web文檔中得到數(shù)據(jù)。2、信息選擇和預(yù)處理:任務(wù)是從取得的Web資源中剔除無(wú)用信息和將信息進(jìn)行必要的整理。3、模式發(fā)現(xiàn):自動(dòng)進(jìn)行模式發(fā)現(xiàn)??梢栽谕粋€(gè)站點(diǎn)內(nèi)部或在多個(gè)站點(diǎn)之間進(jìn)行。4、模式分析:驗(yàn)證、解釋上一步驟產(chǎn)生的模式。 7、Web 挖掘在Interne

51、t 上有非常廣泛的應(yīng)用,比較常見的有:(1)幫助尋找用戶感興趣的新聞或其他信息以在Web站點(diǎn)中提供個(gè)性化服務(wù),吸引更多用戶。(2)在搜索引擎上對(duì)文檔進(jìn)行自動(dòng)分類從而降低在搜索引擎上為組織整理Internet 文檔所需消耗的人力資源,也可以對(duì)Web 頁(yè)面進(jìn)行排序,改進(jìn)搜索引擎。(3)Web日志挖掘在電子商務(wù)領(lǐng)域有很廣闊的應(yīng)用前景,如發(fā)現(xiàn)顧客的購(gòu)買習(xí)慣和瀏覽興趣所在,有針對(duì)性調(diào)整銷售模式,提高業(yè)務(wù)量。 8、通常Web挖掘可以分為3個(gè)子任務(wù):資源發(fā)現(xiàn)、信息提取、概括。· 資源發(fā)現(xiàn):是指從Web上搜索可用的信息;· 信息提?。菏菑囊呀?jīng)發(fā)現(xiàn)的資源中提取出有用的信息。對(duì)于文本

52、信息而言,不僅要考慮文本內(nèi)容,而且也要考慮文本的結(jié)構(gòu);·概括:是對(duì)Web信息自學(xué)習(xí)的過(guò)程,通過(guò)學(xué)習(xí)抽取一定的規(guī)則。一般來(lái)說(shuō),Web挖掘的數(shù)據(jù)來(lái)源途徑有兩個(gè):搜索引擎的結(jié)果集和Web上的在線信息。這兩種方式各有所長(zhǎng),需要視具體的應(yīng)用而定。目前,已經(jīng)有幾種資源發(fā)現(xiàn)模型廣泛應(yīng)用于Internet上:目錄/瀏覽模型(WAIS and Gopher)、檢索模型(Archie and AltaVista)、超立方體(Yahoo and Excite)。許多資源發(fā)現(xiàn)工具大都采用了基于Robot的檢索模型,這種方法掃描Web上的所有文檔,并建立索引,但它同時(shí)也將一些不相關(guān)的信息和過(guò)時(shí)的信息包含進(jìn)來(lái)。

53、 9、Web挖掘的發(fā)展方向:目前,在國(guó)內(nèi)外Web 挖掘的研究處于剛起步階段,是前沿性的研究領(lǐng)域。將來(lái)幾個(gè)非常有用的研究方向是:(1)Web 數(shù)據(jù)挖掘中內(nèi)在機(jī)理的研究;(2)Web 知識(shí)庫(kù)(模式庫(kù))的動(dòng)態(tài)維護(hù)、更新,各種知識(shí)和模式的融合、提升,以及知識(shí)的評(píng)價(jià)綜合方法;(3)半結(jié)構(gòu)、非結(jié)構(gòu)化的文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)的高效挖掘算法;(4)Web數(shù)據(jù)挖掘算法在海量數(shù)據(jù)挖掘時(shí)的適應(yīng)性和時(shí)效性;(5)基于Web挖掘的智能搜索引擎的研究;(6)智能站點(diǎn)服務(wù)個(gè)性化和性能最優(yōu)化的研究;(7)關(guān)聯(lián)規(guī)則和序列模式在構(gòu)造自組織站點(diǎn)的研究;(8)分類在電子商務(wù)市場(chǎng)智能提取中的研究。 10

54、、研究意義和方向:路徑模式挖掘在Web中,文檔通過(guò)超鏈連接便于用戶瀏覽,用戶為尋找信息經(jīng)常通過(guò)超鏈從一個(gè)頁(yè)面跳到另一個(gè)頁(yè)面。捕捉用戶瀏覽路徑稱為Path analysis。理解用戶瀏覽路徑有助于改進(jìn)系統(tǒng)設(shè)計(jì),而且有助于作出更好的市場(chǎng)決策,例如在適當(dāng)?shù)捻?yè)面出增加廣告.Web中的智能查詢數(shù)字時(shí)代的圖書館并不是一個(gè)有組織的信息倉(cāng)庫(kù),而更象一個(gè)又一個(gè)雜亂無(wú)章的信息倉(cāng)庫(kù),Web中的智能查詢包括以下三個(gè)方面:1)資源發(fā)現(xiàn):重點(diǎn)是自動(dòng)生成可查找的索引。2)信息抽取:發(fā)現(xiàn)了資源后,下一個(gè)任務(wù)就是進(jìn)行信息的自動(dòng)抽取。3)信息歸納:利用分類技術(shù)可自動(dòng)組織和管理數(shù)據(jù),也可以發(fā)現(xiàn)用戶感興趣的模式。Web智能工具Web

55、上的用戶需要借助與軟件系統(tǒng)來(lái)抽取、定位和管理Web文檔,才能跟上信息的改變速度這種軟件系統(tǒng)叫做Web工具.現(xiàn)有的Web工具缺乏識(shí)別和使用深層語(yǔ)義的能力,查詢語(yǔ)言描述能力有限。新一代的智能Web工具,利用智能Agent幫助用戶發(fā)現(xiàn)新的信息。它可以自動(dòng)地獲取用戶的興趣主題,發(fā)現(xiàn)用戶的瀏覽模式和信息資源的修改模式。能更有效地利用網(wǎng)絡(luò)資源,將多個(gè)用戶的查詢要求聚成組,減少查詢次數(shù)。將抽取的文檔及其全文索引保存在數(shù)據(jù)庫(kù)中,并發(fā)現(xiàn)各種有用的模式。提高網(wǎng)絡(luò)響應(yīng)速度傳統(tǒng)解決網(wǎng)絡(luò)響應(yīng)速度慢的途徑,一般都基于客戶端:如優(yōu)化傳輸,減少阻塞;根據(jù)預(yù)測(cè),預(yù)先傳輸某些頁(yè)面。在服務(wù)器端利用關(guān)聯(lián)規(guī)則挖掘,不僅可以提高網(wǎng)絡(luò)的響

56、應(yīng)速度而且可以有效地調(diào)度網(wǎng)絡(luò)代理的緩存。當(dāng)用戶瀏覽某個(gè)頁(yè)面時(shí),網(wǎng)絡(luò)代理可根據(jù)關(guān)聯(lián)規(guī)則預(yù)先下載與該頁(yè)面相關(guān)聯(lián)的頁(yè)面,即用戶很可能訪問(wèn)到的頁(yè)面,從而提高網(wǎng)絡(luò)的響應(yīng)速度,因?yàn)殛P(guān)聯(lián)規(guī)則是基于統(tǒng)計(jì)規(guī)律的,反映了大多數(shù)用戶的興趣。 11、基于Web挖掘的個(gè)性化技術(shù)的發(fā)展 (1) 與人工智能技術(shù)的結(jié)合 個(gè)性化系統(tǒng)領(lǐng)域的許多問(wèn)題最終都可歸結(jié)到機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)等問(wèn)題上。用戶建模過(guò)程用通常都應(yīng)用到代理和多代理技術(shù)。因此人工智能技術(shù)與Web挖掘技術(shù)的結(jié)合將會(huì)促進(jìn)Web個(gè)性化系統(tǒng)的飛速發(fā)展。 (2) 與交互式多媒體Web技術(shù)的結(jié)合 隨著下一代Internet技術(shù)的飛速發(fā)展與應(yīng)用,未來(lái)的Web的將是多媒體的

57、世界。Web個(gè)性化技術(shù)和Web多媒體系統(tǒng)結(jié)合出現(xiàn)了交互式個(gè)性化多媒體Web系統(tǒng)。支持海量多媒體數(shù)據(jù)流的內(nèi)容挖掘?qū)⒊蔀閃eb挖掘技術(shù)的基本功能之一。由于這種基于內(nèi)容的交互式個(gè)性化多媒體Web系統(tǒng)更能滿足用戶需要,因此也將成為Web個(gè)性化系統(tǒng)的發(fā)展方向之一。 (3) 與數(shù)據(jù)庫(kù)等技術(shù)的結(jié)合  12、數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)的發(fā)展方向:1、挖掘算法的效率和可擴(kuò)放性。目前數(shù)據(jù)庫(kù)數(shù)據(jù)量大,維數(shù)高,使得數(shù)據(jù)挖掘的搜索空間增大,發(fā)現(xiàn)知識(shí)的盲目性提高。如何充分利用領(lǐng)域的知識(shí),剔除與發(fā)現(xiàn)任務(wù)無(wú)關(guān)的數(shù)據(jù),有效地降低問(wèn)題的維數(shù),設(shè)計(jì)出高效率的知識(shí)發(fā)現(xiàn)算法是下一步發(fā)展的重點(diǎn)。2、數(shù)據(jù)的時(shí)序性。在應(yīng)用領(lǐng)域的數(shù)據(jù)庫(kù)中,

58、數(shù)據(jù)在不斷地更新,隨著時(shí)間的推移,原先發(fā)現(xiàn)的知識(shí)將不再有用,我們需要隨時(shí)間逐步修正發(fā)現(xiàn)模式來(lái)指導(dǎo)新的發(fā)現(xiàn)過(guò)程。3、和其它系統(tǒng)的集成。知識(shí)發(fā)現(xiàn)系統(tǒng)應(yīng)該是數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多相技術(shù)集成的系統(tǒng)。4、交互性??梢岳秘惾~斯確定數(shù)據(jù)的可能性及其分布來(lái)利用以前的知識(shí),再就是利用演繹數(shù)據(jù)庫(kù)本身的演繹能力發(fā)現(xiàn)知識(shí),并用于指導(dǎo)知識(shí)發(fā)現(xiàn)的過(guò)程。5、發(fā)現(xiàn)模式的精煉??梢岳妙I(lǐng)域知識(shí)進(jìn)一步提煉發(fā)現(xiàn)模式,從中提取有用的知識(shí)。6、互聯(lián)網(wǎng)上知識(shí)的發(fā)現(xiàn)。WWW正日益普及,從中可以找到很多新的知識(shí),已有一些資源發(fā)現(xiàn)工具來(lái)發(fā)現(xiàn)含有關(guān)鍵字的文本,但對(duì)在WWW上發(fā)現(xiàn)知識(shí)的研究不多。加拿大的HAN等人提出利用多層次結(jié)構(gòu)化的方法,通過(guò)對(duì)原始數(shù)據(jù)的一般化,構(gòu)造出多層次的數(shù)據(jù)庫(kù)。例如可將WWW上的圖象描述而不是圖像本身存儲(chǔ)在高層數(shù)據(jù)庫(kù)中?,F(xiàn)在的問(wèn)題是如何從復(fù)雜的數(shù)據(jù)(例如多媒體數(shù)據(jù))中提取有用的信息,對(duì)多層數(shù)據(jù)庫(kù)的維護(hù),如何處理數(shù)據(jù)的異類性和自主性等等。 13、文本挖掘面臨許多新的研究課題:(1)文本挖掘算法的可擴(kuò)展性問(wèn)題Internet 的發(fā)展,電子商務(wù)和數(shù)字圖書館的興起和廣泛應(yīng)用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論