下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)時(shí)代的應(yīng)用探究數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)時(shí)代的應(yīng)用探究如今,互聯(lián)網(wǎng)的開(kāi)展速度之快是我們無(wú)法預(yù)計(jì)的,用戶可以通過(guò)互聯(lián)網(wǎng)來(lái)搜索到一切想要理解的信息,將秀才不出門(mén)便知天下事這句古語(yǔ)的核心意義發(fā)揮的淋漓盡致。但由于eb缺少一定的智能性,以致于用戶只可以依靠導(dǎo)航來(lái)對(duì)信息進(jìn)展挑選,這樣一來(lái)就會(huì)讓搜索結(jié)果的準(zhǔn)確性以及針對(duì)性大大降低。而伴隨著數(shù)據(jù)挖掘技術(shù)的參加,讓網(wǎng)站對(duì)系統(tǒng)性能和用戶愛(ài)好的分析才能大大增加,從而有效地進(jìn)步了用戶的使用滿意度。1根本概念介紹數(shù)據(jù)挖掘的出現(xiàn)時(shí)間為20世紀(jì)的80年代,它作為一門(mén)剛剛興起的學(xué)科來(lái)說(shuō)還尚未得到人們的廣泛認(rèn)可和使用。假設(shè)從技術(shù)的層面對(duì)其進(jìn)展分析,數(shù)據(jù)挖掘所針對(duì)
2、的是一些較為復(fù)雜且無(wú)規(guī)律的數(shù)據(jù)群體;而從商業(yè)的角度來(lái)說(shuō),數(shù)據(jù)挖掘所指的那么是在偌大的數(shù)據(jù)庫(kù)中精準(zhǔn)的將一些有規(guī)律的信息進(jìn)展轉(zhuǎn)換和分析,并在其中將一些對(duì)商業(yè)決策有幫助的信息提取出來(lái)。2數(shù)據(jù)挖掘技術(shù)的根本分析方法數(shù)據(jù)挖掘工作中最為重要的一個(gè)環(huán)節(jié)就是對(duì)數(shù)據(jù)進(jìn)展分析,只有選擇一些科學(xué)且有效的計(jì)算方式才可以將數(shù)據(jù)的挖掘工作正確的完成。其中,目前較為常用的分析方法有三種,即聚類(lèi)分析法、分類(lèi)和預(yù)測(cè)法以及關(guān)聯(lián)分析法,下面筆者就對(duì)其分別進(jìn)展詳細(xì)的介紹。2.1聚類(lèi)分析聚類(lèi)分析的主要工作就是將物理對(duì)象與抽象對(duì)象的整合進(jìn)展分類(lèi),并同時(shí)對(duì)由一樣或者相似的對(duì)象所組成的分類(lèi)進(jìn)展更加深化的分析,而聚類(lèi)分析的最終目的就是使用詳細(xì)
3、的方法來(lái)將數(shù)據(jù)進(jìn)展有效的分類(lèi)。古語(yǔ)說(shuō)的不錯(cuò),物以類(lèi)聚,人以群分,聚類(lèi)分析法正是通過(guò)對(duì)事物之間的規(guī)律進(jìn)展分析,從而可以對(duì)各個(gè)領(lǐng)域進(jìn)展智能化學(xué)習(xí)。聚類(lèi)分析可以被分成兩種方式,即硬聚類(lèi)和模糊聚類(lèi)。其中,硬聚類(lèi)所代表的是將分析對(duì)象劃分到最為相近的類(lèi)別當(dāng)中,而模糊聚類(lèi)那么是通過(guò)取值范圍的大小來(lái)對(duì)分析對(duì)象進(jìn)展劃分,并且一個(gè)對(duì)象有可能出現(xiàn)多個(gè)類(lèi)別。2.2分類(lèi)和預(yù)測(cè)分類(lèi)是對(duì)無(wú)排序規(guī)律的標(biāo)號(hào)進(jìn)展分類(lèi),而預(yù)測(cè)那么是將連續(xù)值的函數(shù)模型進(jìn)展預(yù)測(cè)。其中,分類(lèi)對(duì)于數(shù)據(jù)挖掘技術(shù)來(lái)說(shuō)是非常重要的一個(gè)根底,通過(guò)分類(lèi)可以將數(shù)據(jù)集的特性正確的表現(xiàn)出來(lái),從而將各個(gè)類(lèi)別的屬性進(jìn)展相對(duì)應(yīng)的劃分。如今比較常見(jiàn)的計(jì)算方法為決策樹(shù)、粗糙集、貝
4、葉斯、遺傳算法等等。2.3關(guān)聯(lián)分析相信大家都理解蝴蝶效應(yīng),在自然界中發(fā)生的任何一次微小的變動(dòng)都極有可能連帶出另一個(gè)事件的發(fā)生,而關(guān)聯(lián)分析那么是遵循這個(gè)規(guī)律所完成的。事物同事物之間是具有一定的依賴性和關(guān)聯(lián)性的,基于此種情況,我們就有時(shí)機(jī)對(duì)其中的規(guī)律性進(jìn)展有效的預(yù)測(cè)。舉例說(shuō)明,曾經(jīng)知名度非常高的購(gòu)物籃事件就是通過(guò)此種關(guān)聯(lián)分析法來(lái)進(jìn)展完成的。其中,通過(guò)對(duì)顧客購(gòu)物籃中物品的管理規(guī)律進(jìn)展分析,從而將顧客的購(gòu)置特點(diǎn)和購(gòu)置習(xí)慣進(jìn)展初步的掌握,最后根據(jù)這些數(shù)據(jù)再將日常的營(yíng)銷(xiāo)方案和營(yíng)銷(xiāo)策略制定出來(lái)。理論證明,此種關(guān)聯(lián)分析法是非常有效果的。3數(shù)據(jù)的預(yù)處理數(shù)據(jù)的預(yù)處理所指的是對(duì)網(wǎng)絡(luò)日志中的相關(guān)數(shù)據(jù)進(jìn)展二次加工,在加
5、工的過(guò)程當(dāng)中需要對(duì)數(shù)據(jù)的原始性進(jìn)展有效的保存。其中的挖掘算法所代表的是將數(shù)據(jù)的構(gòu)造以及規(guī)那么有效的選取出來(lái)。其中詳細(xì)的系統(tǒng)構(gòu)造如下:eb日志數(shù)據(jù)預(yù)處理確定挖掘算法數(shù)據(jù)挖掘形式。對(duì)日志進(jìn)展數(shù)據(jù)挖掘之前需要對(duì)相關(guān)的數(shù)據(jù)進(jìn)展優(yōu)先處理,其中包括數(shù)據(jù)的增加和減少、用戶的識(shí)別工作、會(huì)話內(nèi)容的識(shí)別工作以及途徑的補(bǔ)充工作等等。3.1數(shù)據(jù)的縮減首先來(lái)理解一下eb日志常見(jiàn)的數(shù)據(jù)格式:用戶的訪問(wèn)日期和訪問(wèn)時(shí)間、IP地址、方法、指定頁(yè)面的URL、字節(jié)數(shù)量、網(wǎng)頁(yè)狀態(tài)、代理頁(yè)面的URL等等。由于eb的日志挖掘工作僅僅針對(duì)用戶的行為形式較為關(guān)注,對(duì)一些沒(méi)有顯示懇求的界面就非常容易被忽略。例如帶有后綴名為jpg、jpeg、g
6、if等。在此根底之上在對(duì)余下的挑選記錄中將相關(guān)的項(xiàng)進(jìn)展選取和挖掘。3.2用戶識(shí)別在用戶的系統(tǒng)中通常都會(huì)設(shè)置防火墻,所以在eb日志中所產(chǎn)生的記錄極有可能是不真實(shí)的。這就會(huì)使用戶識(shí)別工作變得異常的復(fù)雜和繁瑣,使用啟發(fā)式規(guī)那么那么可以讓用戶的識(shí)別工作有效的完成。規(guī)那么一:假設(shè)用戶的IP一樣,假設(shè)代理閱讀器的操作系統(tǒng)出現(xiàn)了變化,那么代表其屬于不同的用戶。規(guī)那么二:假設(shè)用戶的IP一樣,假設(shè)當(dāng)下的鏈接頁(yè)面同已經(jīng)閱讀過(guò)的鏈接頁(yè)面沒(méi)有任何的關(guān)系,那么代表用戶是不同的。3.3會(huì)話識(shí)別會(huì)話識(shí)別的最終目的是可以將用戶的訪問(wèn)記錄進(jìn)展劃分,從而形成多個(gè)單獨(dú)的會(huì)話,并以此來(lái)作為不同的用戶單位。其中,假設(shè)歷經(jīng)時(shí)間超過(guò)了事先的限定范圍,那么會(huì)默認(rèn)認(rèn)為一個(gè)新的會(huì)話已經(jīng)開(kāi)始。3.4途徑補(bǔ)充假設(shè)想要到達(dá)減少網(wǎng)絡(luò)傳輸量的目的,目前大部分的閱讀器都會(huì)采取對(duì)剛剛訪問(wèn)的頁(yè)面進(jìn)展緩存的做法。其中,假設(shè)用戶在頁(yè)面中給出了返回指令,系統(tǒng)將會(huì)顯示出緩存頁(yè)面。由于eb的效勞器無(wú)法對(duì)用戶的訪問(wèn)頁(yè)面有效的進(jìn)展確定,對(duì)PstLG表中的refer進(jìn)展檢查將可以完成對(duì)頁(yè)面確實(shí)定工作。假設(shè)用戶的訪問(wèn)歷史中包含了多個(gè)當(dāng)前頁(yè)面的鏈接,將優(yōu)先選擇懇求時(shí)間最接近的的頁(yè)面。4結(jié)語(yǔ)互聯(lián)網(wǎng)已經(jīng)逐漸的在人們的生活中占據(jù)了主導(dǎo)的地位,為了可以讓用戶有
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年度臨時(shí)科研助手聘用合同書(shū)3篇
- 2024年度親子活動(dòng)贊助商合同2篇
- 2024年度大棚蔬菜種植與農(nóng)業(yè)產(chǎn)業(yè)扶貧服務(wù)合同3篇
- 2024年度展會(huì)現(xiàn)場(chǎng)消防設(shè)施檢測(cè)與維護(hù)服務(wù)合同3篇
- 2024年度直系親屬間房產(chǎn)交易安全保障協(xié)議書(shū)3篇
- 2024年教師兼職工作合同范本(高校教師專用)3篇
- 2024年人才招聘與員工福利待遇合同3篇
- 2024年新能源電池原材料供應(yīng)及運(yùn)輸管理協(xié)議3篇
- 2024年度房地產(chǎn)業(yè)務(wù)員招聘合同3篇
- 2024年度個(gè)人融資租賃貸款委托合同3篇
- 北京市房山區(qū)2023-2024學(xué)年三年級(jí)上學(xué)期期末數(shù)學(xué)試卷
- 《中國(guó)建筑股份有限公司施工企業(yè)質(zhì)量管理辦法》
- 在線開(kāi)放課程申報(bào)書(shū)(成功申報(bào))
- 醫(yī)師定考的個(gè)人述職報(bào)告
- 特種設(shè)備鍋爐日管控、周排查、月調(diào)度主要項(xiàng)目及內(nèi)容表
- 配電室運(yùn)行維護(hù)投標(biāo)方案(技術(shù)標(biāo))
- 快手申訴文本
- 小學(xué)體育隨班就讀學(xué)生個(gè)別輔導(dǎo)表
- 2023-2024學(xué)年成都市武侯區(qū)六上數(shù)學(xué)期末達(dá)標(biāo)測(cè)試試題含答案
- 房屋維修方案三篇
- 湖北省武漢市青山區(qū)2023-2022學(xué)年度第二學(xué)期五年級(jí)英語(yǔ)期末測(cè)試試卷(劍橋版)(PDF版 含答案 含聽(tīng)力原文及音頻)
評(píng)論
0/150
提交評(píng)論