下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)挖掘技術(shù)在web中的應(yīng)用
web存儲(chǔ)基礎(chǔ)隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)也在迅速增長(zhǎng)。如何開發(fā)和利用這些豐富的資源已成為一個(gè)普遍關(guān)注的問題。于是,數(shù)據(jù)挖掘技術(shù)和Internet應(yīng)用研究的結(jié)合,構(gòu)成了當(dāng)今比較活躍的一個(gè)研究領(lǐng)域——Web數(shù)據(jù)挖掘。在Web數(shù)據(jù)挖掘中,最重要的應(yīng)用是Web日志挖掘。Web日志挖掘與傳統(tǒng)數(shù)據(jù)挖掘的區(qū)別在于數(shù)據(jù)源不同,Web日志挖掘的對(duì)象通常是服務(wù)器的日志信息,而傳統(tǒng)數(shù)據(jù)挖掘的對(duì)象多為數(shù)據(jù)庫(kù)。Web服務(wù)器的日志(WebLog)記載了用戶訪問站點(diǎn)的信息,這些信息包括:訪問者的地址、訪問時(shí)間、訪問的頁(yè)面、頁(yè)面的大小、瀏覽器類型、響應(yīng)狀態(tài)等等。每當(dāng)站點(diǎn)被訪問一次,WebLog就在日志數(shù)據(jù)庫(kù)內(nèi)追加相應(yīng)的記錄。站點(diǎn)的規(guī)模和復(fù)雜程度與日俱增,利用普通的概率方法來統(tǒng)計(jì)、分析和安排站點(diǎn)結(jié)構(gòu)已經(jīng)不能滿足要求。通過挖掘服務(wù)器的日志文件,得出用戶的訪問模式,從而可以進(jìn)一步分析和研究日志記錄的規(guī)律,來改進(jìn)網(wǎng)站的組織結(jié)構(gòu)及其性能,構(gòu)造自適應(yīng)網(wǎng)站;還可以通過統(tǒng)計(jì)和關(guān)聯(lián)分析,增加個(gè)性化服務(wù),發(fā)現(xiàn)潛在的用戶群體,這在電子商務(wù)等領(lǐng)域是很有市場(chǎng)的Web日志挖掘主要分為三個(gè)步驟:(1)系統(tǒng)頁(yè)面的識(shí)別它主要包括數(shù)據(jù)清洗和事務(wù)識(shí)別兩個(gè)部分。數(shù)據(jù)清洗主要是對(duì)無關(guān)記錄的刪除,判斷是否有重要的訪問沒有被記錄、用戶識(shí)別等。事務(wù)識(shí)別是指將頁(yè)面訪問序列劃分為代表Web事務(wù)或用戶會(huì)話的邏輯單元。根據(jù)上述目的,對(duì)原始Web日志文件中的數(shù)據(jù)進(jìn)行提取、分解、合并,最后轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)格式,并保存到關(guān)系型數(shù)據(jù)庫(kù)表或數(shù)據(jù)倉(cāng)庫(kù)中,等待進(jìn)一步處理。(2)識(shí)別器運(yùn)用各種算法對(duì)處理后的數(shù)據(jù)進(jìn)行挖掘,生成模式。(3)web日志挖掘進(jìn)行用戶訪問模式的分析,從而將有價(jià)值的模式提取出來的過程。數(shù)據(jù)預(yù)處理這個(gè)環(huán)節(jié)是整個(gè)過程的基礎(chǔ)和實(shí)施有效挖掘算法的前提,在Web日志挖掘中起著非常重要的作用。原始日志文件是簡(jiǎn)單的平面文本文件,包含了一些不完整的、冗余的、錯(cuò)誤的數(shù)據(jù),需要進(jìn)行處理,否則將會(huì)直接影響挖掘的效果;此外,一些OLAP分析、挖掘算法的實(shí)施也需要規(guī)范化的數(shù)據(jù)源進(jìn)行支持,所以在這一個(gè)階段還需要對(duì)數(shù)據(jù)存儲(chǔ)的格式進(jìn)行調(diào)整,以適合所用的挖掘方法。1數(shù)據(jù)預(yù)處理的主要技術(shù)1.1多源異構(gòu)信息記錄ogbrtWeb服務(wù)器日志記錄著用戶訪問該站點(diǎn)時(shí)每個(gè)頁(yè)面的請(qǐng)求信息。日志記錄的格式主要分為兩種:通用日志格式(CommonLogFormat,CLF)和擴(kuò)展型日志格式(ExtendedLogFormat)。其主要結(jié)構(gòu)如表1所示。表1中斜體字部分是擴(kuò)展型日志格式中添加的記錄項(xiàng),其中一些內(nèi)容在實(shí)際應(yīng)用中是用不到的,如Cookie和URI查詢。Cookie是在服務(wù)器端產(chǎn)生的,記錄用戶的狀態(tài)或訪問路徑,但是由于涉及到隱私問題,Cookie的使用需要用戶的配合;URI查詢是用戶查詢所需要的信息時(shí)在服務(wù)器端產(chǎn)生的記錄。由于服務(wù)器并不記錄用戶的瀏覽行為,所以如果用戶的請(qǐng)求是通過本地(如在IE瀏覽器中按“后退鍵”)或Proxy端的緩沖區(qū)得到滿足,則服務(wù)器端并不記錄此次請(qǐng)求,因此日志文件中的記錄并不能完全地反映用戶的訪問行為。1.2數(shù)據(jù)預(yù)處理流程(1)頁(yè)面訪問算法生成界面萬維網(wǎng)協(xié)會(huì)WorldWebConsortium,簡(jiǎn)稱W3C)定義了一些數(shù)據(jù)抽象,如下:用戶(user):通過瀏覽器訪問網(wǎng)頁(yè)的個(gè)體;用戶可以在不同的地方通過不同的機(jī)器使用不同的代理訪問網(wǎng)站。頁(yè)面瀏覽(pageview):用戶點(diǎn)擊鼠標(biāo)瀏覽網(wǎng)頁(yè)所得到的結(jié)果;這個(gè)結(jié)果可以由多個(gè)文件構(gòu)成;一次頁(yè)面瀏覽代表一次用戶行為。點(diǎn)擊流(click-stream):用戶訪問的一組連續(xù)的頁(yè)面瀏覽的序列。用戶會(huì)話(usersession):某個(gè)用戶階段性的頁(yè)面瀏覽所構(gòu)成的點(diǎn)擊流。其特點(diǎn)是可以跨越多個(gè)服務(wù)器。服務(wù)器會(huì)話(serversession):某個(gè)用戶在一個(gè)服務(wù)器上階段性的頁(yè)面瀏覽所構(gòu)成的點(diǎn)擊流。片斷(episode):用戶會(huì)話中一段有意義的點(diǎn)擊流。(2)為滿足數(shù)據(jù)的轉(zhuǎn)化,其數(shù)據(jù)數(shù)據(jù)預(yù)處理是在將日志文件轉(zhuǎn)換成數(shù)據(jù)庫(kù)文件以后進(jìn)行的,其目的是把Web日志轉(zhuǎn)化為適合進(jìn)行數(shù)據(jù)挖掘的可靠精確的數(shù)據(jù)。這個(gè)過程主要包括四個(gè)階段:數(shù)據(jù)清洗、識(shí)別用戶、識(shí)別用戶會(huì)話和識(shí)別片斷。存儲(chǔ)相關(guān)文件作為刪除記錄的基礎(chǔ)數(shù)據(jù)清理是指根據(jù)需求,對(duì)日志文件進(jìn)行處理,包括刪除無關(guān)緊要的數(shù)據(jù),合并某些記錄,對(duì)用戶請(qǐng)求頁(yè)面時(shí)發(fā)生錯(cuò)誤的記錄進(jìn)行適當(dāng)?shù)奶幚淼鹊?。?dāng)用戶請(qǐng)求一個(gè)網(wǎng)頁(yè)時(shí),與這個(gè)網(wǎng)頁(yè)有關(guān)的圖片、音頻等信息會(huì)自動(dòng)下載,并記錄在日志文件中;而如果我們挖掘的目的是用戶訪問模式,這些信息對(duì)我們來說顯然用處不大(除非圖片、音頻等是用戶顯示請(qǐng)求的,即用戶所需要的內(nèi)容正是這些圖片和音頻等文件),所以可以把日志中文件的后綴為gif、jpg、jpeg等的記錄刪除。但是,當(dāng)挖掘的目的是為了進(jìn)行網(wǎng)絡(luò)流量分析或?yàn)轫?yè)面緩沖與預(yù)取提供依據(jù)時(shí),這些信息又會(huì)顯得格外重要,所以在刪除這些記錄的時(shí)候一定要把相關(guān)信息記錄下來。我們選擇將其中的“發(fā)送字節(jié)數(shù)”和“接收字節(jié)數(shù)”這兩個(gè)域的內(nèi)容記錄下來。此外,后綴名為cgi、js和JS的腳本文件因?qū)竺娴姆治鎏幚聿辉斐扇魏斡绊?所以應(yīng)該刪除。我們可以定義一個(gè)缺省的規(guī)則庫(kù)來幫助刪除記錄,而且這個(gè)規(guī)則庫(kù)可以根據(jù)正在分析的網(wǎng)站類型進(jìn)行修改。例如,對(duì)于主要包含圖形的站點(diǎn),日志中的圖形文件可能代表了用戶的顯式請(qǐng)求,此時(shí)就不能將圖形文件刪除。我們可以預(yù)先將網(wǎng)站分為一般網(wǎng)站、圖片網(wǎng)站、音視頻網(wǎng)站等,分別建立對(duì)應(yīng)的規(guī)則庫(kù);確定要分析的網(wǎng)站屬于哪一類,然后按照該類網(wǎng)站的規(guī)則庫(kù)進(jìn)行數(shù)據(jù)清理。當(dāng)然,我們還可以根據(jù)自己的需要對(duì)規(guī)則庫(kù)進(jìn)行刪改。啟發(fā)式的識(shí)別用戶如若進(jìn)行用戶訪問模式的挖掘或?qū)τ脩暨M(jìn)行聚類分析,用戶識(shí)別問題則顯得至關(guān)重要,因?yàn)槿后w是由個(gè)體組成的,只有對(duì)個(gè)體有清楚的了解,才能識(shí)別群體的特征。由于緩存、代理服務(wù)器(包括網(wǎng)吧、局域網(wǎng)等環(huán)境)和防火墻的使用,使得識(shí)別用戶這一步變得很復(fù)雜:●不同的用戶可以在同一時(shí)間通過一個(gè)簡(jiǎn)單的代理訪問Web服務(wù)器;●同一個(gè)用戶可能在不同的機(jī)器上訪問Web服務(wù)器;●一個(gè)用戶可能在同一臺(tái)機(jī)器上使用不同的瀏覽器訪問Web服務(wù)器;而當(dāng)不同的用戶使用同一臺(tái)機(jī)器瀏覽某一站點(diǎn)時(shí)也會(huì)造成混淆。為此,我們提出了如下的啟發(fā)式規(guī)則來識(shí)別用戶:●不同的IP地址代表著不同的用戶;●當(dāng)IP地址相同時(shí),我們默認(rèn)不同的操作系統(tǒng)或?yàn)g覽器代表不同的用戶;在IP地址相同,用戶使用的操作系統(tǒng)和瀏覽器也相同的情況下,則判斷每一個(gè)請(qǐng)求訪問的頁(yè)面與訪問過的頁(yè)面之間是否有鏈接。如果一個(gè)請(qǐng)求訪問的頁(yè)面與上一個(gè)已經(jīng)訪問過的所有的頁(yè)面之間并沒有直接的鏈接,則假設(shè)在訪問Web站點(diǎn)的機(jī)器上同時(shí)存在著多個(gè)用戶。多個(gè)會(huì)話的生成用戶會(huì)話是指用戶對(duì)服務(wù)器的一次有效訪問,通過其連續(xù)請(qǐng)求的頁(yè)面,我們可以獲得他在網(wǎng)站中的訪問行為和瀏覽興趣。日志文件中不同用戶訪問的頁(yè)面當(dāng)然屬于不同的會(huì)話。當(dāng)某個(gè)用戶的頁(yè)面請(qǐng)求在時(shí)間上跨度比較大時(shí),就有可能是該用戶多次訪問同一個(gè)網(wǎng)站,我們可以將用戶的訪問記錄分成多個(gè)會(huì)話來處理。最簡(jiǎn)單的方法就是設(shè)置一個(gè)timeout值,如果用戶訪問頁(yè)面的時(shí)間差超過了這個(gè)值,則認(rèn)為用戶開始了一個(gè)新的會(huì)話。許多商業(yè)產(chǎn)品都采用30分鐘作為缺省的timeout值,但是L.Catledge和J.Pitkow由實(shí)驗(yàn)得出timeout值設(shè)為25.5分鐘更好一點(diǎn)。會(huì)話標(biāo)識(shí)的目的就是要?jiǎng)?chuàng)建每一個(gè)用戶的有意義的頁(yè)面聚類?;陉P(guān)聯(lián)規(guī)則的數(shù)據(jù)轉(zhuǎn)化在數(shù)據(jù)集完成會(huì)話標(biāo)識(shí)之后,會(huì)話數(shù)據(jù)必須被格式化成符合相應(yīng)數(shù)據(jù)挖掘算法的數(shù)據(jù)模型,這一步工作稱之為數(shù)據(jù)轉(zhuǎn)化。例如,進(jìn)行關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)格式和進(jìn)行序列挖掘的數(shù)據(jù)格式就可能不同。在數(shù)據(jù)轉(zhuǎn)化完成之后,可以對(duì)格式化的數(shù)據(jù)進(jìn)行相應(yīng)的數(shù)據(jù)挖掘。2記錄數(shù)據(jù)的預(yù)處理通常進(jìn)行操作的數(shù)據(jù)源主要是服務(wù)器端的日志文件。現(xiàn)將服務(wù)器日志中的每一個(gè)記錄用一組數(shù)學(xué)符號(hào)來表示如下:定義1:服務(wù)器日志中的一個(gè)頁(yè)面視圖L可用如下的符號(hào)定義:每一個(gè)頁(yè)面視圖包括一個(gè)頁(yè)面的定義vi(通常為這個(gè)頁(yè)面的Url),參考頁(yè)面文件ri(通常為這個(gè)頁(yè)面的Referer),訪問時(shí)間tf(通常為這個(gè)頁(yè)面的Date或叫Time),至于{d1,d2,……,dm}則為客戶端向服務(wù)器通過表單發(fā)送的數(shù)據(jù)項(xiàng)及值對(duì)。其中A中包含了一些元數(shù)據(jù),如可能有客戶端用戶的IP地址,Agent的類型(主要包括瀏覽器及操作系統(tǒng)的類型),{a1,a2……,ak}中所包含的數(shù)據(jù)是客戶端與服務(wù)器行交互的數(shù)據(jù)對(duì)等。當(dāng)然了,日志文件中的每一個(gè)記錄中還包括如用戶向服務(wù)器請(qǐng)求的方式(是Post還是Get方式)及請(qǐng)求的文件的大小等屬性,但這些屬性均屬次要屬性,故該日志預(yù)處理的過程中不參與會(huì)話的標(biāo)識(shí)工作。定義2:日志中的記錄經(jīng)過預(yù)處理過以后,所形成的單個(gè)用戶對(duì)單個(gè)站點(diǎn)的一次訪問的數(shù)據(jù)定義如下:設(shè)L是服務(wù)器日志文件中記錄的集合,其中的每一個(gè)記錄1均適合上面定義的記錄的格式,這里I∈L。每一個(gè)1包括客戶端IP地址1.IP,客戶端瀏覽器類型l.agent,客戶端訪問的頁(yè)面的Url為l.url,訪問頁(yè)面的時(shí)間l.time等。則用戶的一次訪問會(huì)話或叫事務(wù)t為下式:①數(shù)據(jù)清理,簡(jiǎn)單的就是檢查每一個(gè)日志記錄L的Url的擴(kuò)展名,削除擴(kuò)展名為gif,jpg,jpeg的日志記錄就可以了。②首先將原日志文件劃分成相同的IP和Agent的用戶訪問序列集的形式,集合中的每一個(gè)序列形如Hi={fi,f2……,fn},每一個(gè)Hi執(zhí)行算法③。③將相同的IP和Agent的用戶訪問序列劃分成用戶的一次訪問序列。(1)記錄和讀取時(shí)間調(diào)整對(duì)于每一個(gè)Hi={f1,f2……,fn}是一個(gè)時(shí)間序列的日志記錄集,其中l(wèi)j,fj,rj,tj分別定義日志記錄的頁(yè)面視圖,Url,Referer,訪問時(shí)間Time。定義T為一個(gè)時(shí)間戳:(2)是否已經(jīng)擴(kuò)大了t此函數(shù)完成的主要功能是測(cè)試包含lj的請(qǐng)求頁(yè)的rj頁(yè),在Hi中是否已經(jīng)過時(shí)了,也就是是否已經(jīng)大于了T。如果有的都大于了T則返回真,否則返回假。(3)確定記錄對(duì)象的確定Distance(H,rj)函數(shù)主要是計(jì)算頁(yè)面的距離函數(shù),當(dāng)一個(gè)日志記錄視圖的參考頁(yè)面rj為不同的Hi所包含時(shí),確定該頁(yè)面文件是屬于哪一個(gè)序列集。采用的算法是判斷每一個(gè)頁(yè)面在它所包含的序列集中的距離(序列集的總頁(yè)數(shù)與該請(qǐng)求頁(yè)在序列集中的位置之差),采取距離最小者也就是最近被訪問的,將該頁(yè)面放入到這個(gè)序列集中。若在多個(gè)序列集中距離相等,則計(jì)算訪問
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版產(chǎn)業(yè)升級(jí)募集資金三方監(jiān)管與支持合同4篇
- 2025年企業(yè)數(shù)字化智能物聯(lián)網(wǎng)物聯(lián)網(wǎng)連接合作協(xié)議
- 2025年家族財(cái)富傳承繼承管理規(guī)劃遺產(chǎn)協(xié)議
- 2025版委托擔(dān)保合同范本:互聯(lián)網(wǎng)金融平臺(tái)風(fēng)險(xiǎn)控制協(xié)議3篇
- 《地球上生命的起源課件》
- 二零二五年度生態(tài)旅游區(qū)開發(fā)合同書4篇
- 二零二五年度退休返聘人員合同終止告知書
- 二零二五年度大學(xué)生就業(yè)實(shí)習(xí)實(shí)訓(xùn)基地合作框架協(xié)議范本
- 2025年度醫(yī)療健康管理系統(tǒng)軟件購(gòu)銷合同模板
- 2025年度汽車零部件車輛質(zhì)押租賃協(xié)議
- 2025年度公務(wù)車輛私人使用管理與責(zé)任協(xié)議書3篇
- 售后工程師述職報(bào)告
- 綠化養(yǎng)護(hù)難點(diǎn)要點(diǎn)分析及技術(shù)措施
- 2024年河北省高考?xì)v史試卷(含答案解析)
- 車位款抵扣工程款合同
- 小學(xué)六年級(jí)數(shù)學(xué)奧數(shù)題100題附答案(完整版)
- 高中綜評(píng)項(xiàng)目活動(dòng)設(shè)計(jì)范文
- 英漢互譯單詞練習(xí)打印紙
- 2023湖北武漢華中科技大學(xué)招聘實(shí)驗(yàn)技術(shù)人員24人筆試參考題庫(kù)(共500題)答案詳解版
- 一氯二氟甲烷安全技術(shù)說明書MSDS
- 物流簽收回執(zhí)單
評(píng)論
0/150
提交評(píng)論