基于web內(nèi)容的數(shù)據(jù)挖掘分析本科畢業(yè)論文_第1頁(yè)
基于web內(nèi)容的數(shù)據(jù)挖掘分析本科畢業(yè)論文_第2頁(yè)
基于web內(nèi)容的數(shù)據(jù)挖掘分析本科畢業(yè)論文_第3頁(yè)
基于web內(nèi)容的數(shù)據(jù)挖掘分析本科畢業(yè)論文_第4頁(yè)
基于web內(nèi)容的數(shù)據(jù)挖掘分析本科畢業(yè)論文_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、學(xué)號(hào):河南師范大學(xué)本科畢業(yè)論文I基于Web內(nèi)容的數(shù)據(jù)挖掘分析學(xué)院名稱(chēng):計(jì)算機(jī)與信息工程學(xué)院專(zhuān)業(yè)名稱(chēng):計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)年級(jí)班別:2012級(jí)1班姓 名:指導(dǎo)教師:2016年5月河南師范大學(xué)本科畢業(yè)論文基于Web內(nèi)容的數(shù)據(jù)挖掘分析摘 要 二一世紀(jì)以來(lái),互聯(lián)網(wǎng)技術(shù)飛速發(fā)展,Web也越來(lái)越流行,Web信息資源也是呈現(xiàn)爆炸式增長(zhǎng)。基于 Web內(nèi)容的數(shù)據(jù)挖掘分析,通過(guò)收集 Web訪問(wèn)者的互聯(lián)網(wǎng)瀏 覽記錄、上網(wǎng)習(xí)慣等方式得到原始數(shù)據(jù),用來(lái)改進(jìn)互聯(lián)網(wǎng)用戶(hù)的操作體驗(yàn),提升Web服務(wù),也有利于商戶(hù)開(kāi)展有關(guān)的電子商務(wù)活動(dòng)。本文講述了從Web挖掘到Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用挖掘的相關(guān)內(nèi)容,重點(diǎn)簡(jiǎn)述了

2、 Web使用挖掘的過(guò)程。表明了 Web數(shù)據(jù)挖掘的主要應(yīng)用方向,并著重分析相關(guān)應(yīng)用方向的關(guān)鍵技術(shù),然后介紹了Web數(shù)據(jù)挖掘的技術(shù)實(shí)現(xiàn),有關(guān)聯(lián)規(guī)則,序列模式挖掘技術(shù),分類(lèi)、聚類(lèi)技術(shù),路徑分析技術(shù), 以及最后的Web挖掘技術(shù)的流程。關(guān)鍵詞 數(shù)據(jù)挖掘;Web挖掘;信息提取Data Mining Analysis Based on Web ContentAbstract The twen ty-first cen tury, the rapid developme nt of Internet tech no logy, Web has become increasingly popular, Web

3、information resources is explosive growth. Data mining an alysis based on Web content , browse through the collecti on of Web visitors Internet records, surfi ng habits and other ways to get the raw data used to improve the operati on of the In ternet user experie nee, enhance the Web services, but

4、also con ducive to con duct bus in ess-related e-commerce activities. This article describes the mi ning from the Web to Web content mi ning, Web structure mining, Web usage mining-related content, focusing briefly on Web usage mining process. It in dicates the directi on of the main applicati on We

5、b data mining, and an alyzes the key tech no logy-related applicati on direct ion, and the n in troduced the Web data mi ning tech no logy, associatio n rules, seque ntial pattern mining, classificati on, clusteri ng tech no logy, path an alysis, and last Web mining process.Keywords Data mi ning; We

6、b mi nin g; I nformatio n extract ion、八前言近年來(lái),網(wǎng)絡(luò)以及通信技術(shù)不斷發(fā)展,互聯(lián)網(wǎng)無(wú)疑成為全世界影響最大的信息服務(wù)的 平臺(tái),給人們的生活帶來(lái)了非常大的變革。如今, 信息顯得特別重要,互聯(lián)網(wǎng)上的相關(guān)信 息資源也無(wú)比豐富,人們?cè)趯?duì)待這么豐富的信息資源時(shí),只有研究出關(guān)鍵相關(guān)技術(shù)才能從 中挖掘出有價(jià)值的信息來(lái)。Web數(shù)據(jù)挖掘就這樣誕生了,它可以幫助人們挖掘出人們所需 要的隱藏在巨大信息資源背后的有效信息,符合人們的預(yù)期,這已經(jīng)成了熱門(mén)的研究方向。1 Web挖掘1.1概念在1996年,Oren Etzioni第一次提出了 Web挖掘這個(gè)概念。Web挖掘就是從海量的

7、 Web資源當(dāng)中通過(guò)采用數(shù)據(jù)挖掘的技術(shù)能動(dòng)的得到需要的信息1,11。數(shù)據(jù)挖掘是有數(shù)據(jù)庫(kù)、AI、自然語(yǔ)言等幾個(gè)方面的匯總2。Web數(shù)據(jù)挖掘的步驟如下:1)發(fā)現(xiàn)資源:任務(wù)是在 Web當(dāng)中檢索數(shù)據(jù);2)信息選取和數(shù)據(jù)預(yù)處理:將已經(jīng)挑選得到的某些原始數(shù)據(jù)根據(jù)相關(guān)技術(shù)進(jìn)行預(yù)處理3;3)發(fā)現(xiàn)獲取概要模式:利用某些特定技術(shù)將藏匿在不同的Web當(dāng)中的概要模式進(jìn)行提取;4)概要模式分析:確認(rèn)已經(jīng)獲得的模式并解釋1.2 Web數(shù)據(jù)挖掘的分類(lèi)Web數(shù)據(jù)挖掘的通常分類(lèi)方法是依據(jù)挖掘?qū)ο蟮牟幌嗤?,分?lèi)如下:web的內(nèi)容挖掘;web的結(jié)構(gòu)挖掘;web的使用挖掘。如圖11.2.1Web的內(nèi)容挖掘Web的內(nèi)容挖掘就是針對(duì)We

8、b文檔,對(duì)于那些可以利用原始數(shù)據(jù)預(yù)處理技術(shù)處理的海 量數(shù)據(jù)進(jìn)行處理得到有價(jià)值的信息。 Web的內(nèi)容挖掘是對(duì)多媒體文檔和文本文檔來(lái)說(shuō)的。 Web的文本數(shù)據(jù)挖掘,是對(duì) Web進(jìn)行歸納,總結(jié),分析,最終得出結(jié)論的4,12。近年來(lái), 業(yè)內(nèi)對(duì)多媒體數(shù)據(jù)挖掘技術(shù)也是越來(lái)越成熟,越來(lái)越深入。13Web挖掘結(jié)構(gòu)挖掘用戶(hù)分析訪問(wèn)定制模式Web分析站點(diǎn)圖1.1挖掘分類(lèi)(1) Web的文本數(shù)據(jù)挖掘Web的文本數(shù)據(jù)挖掘是把統(tǒng)計(jì)學(xué)和計(jì)算機(jī)語(yǔ)言學(xué)作為理論基礎(chǔ),從海量的文本數(shù)據(jù)中提取有用的信息技術(shù)5,13 o(2) Web的多媒體數(shù)據(jù)挖掘?qū)eb當(dāng)中的圖片、視頻、音頻等多媒體信息進(jìn)行相關(guān)技術(shù)分析獲得有效的模式信息, 企圖得

9、知事物之間的相關(guān)性,得出結(jié)論。文本總結(jié)就是用較少的話語(yǔ)來(lái)歸納已經(jīng)提取得到的信息。文本分類(lèi)就是根據(jù)不同的性質(zhì)或主題將文本分門(mén)別類(lèi)。文本聚類(lèi)就是將某些具有相同的特征的文本集合起來(lái)。關(guān)聯(lián)分析就是找到文檔中不同部分的內(nèi)在的關(guān)系。1.2.2 Web的結(jié)構(gòu)挖掘Web的結(jié)構(gòu)挖掘是在Web結(jié)構(gòu)和鏈接關(guān)系當(dāng)中尋找到隱含的信息和模式的過(guò)程。Web內(nèi)容的結(jié)構(gòu)不相同的網(wǎng)頁(yè)之間的鏈接的關(guān)系,還有網(wǎng)頁(yè)頁(yè)面里的樹(shù)形的關(guān)系,女口HTMLXML以及文檔URL的目錄路徑結(jié)構(gòu)等等。利用Web的結(jié)構(gòu)挖掘分析可以更加深入的對(duì) Web文檔的內(nèi)容進(jìn)行分析,從整體的角度審視文檔。結(jié)構(gòu)分析可以采用先分解,再變形, 最后歸納總結(jié)的方法。通過(guò)分類(lèi)

10、技術(shù)和聚類(lèi)技術(shù),獲得最為重要的頁(yè)面,稱(chēng)之為權(quán)威頁(yè)面, 目的是能夠使得查找信息更加高效。所謂鏈接關(guān)系指的是某些網(wǎng)頁(yè)當(dāng)中存在著彼此分享某 些內(nèi)容,相互引用的關(guān)系。Web的結(jié)構(gòu)挖掘有很多的應(yīng)用,包含以下幾個(gè)方面:1)對(duì)網(wǎng)頁(yè)的采集有著指導(dǎo)作用:因?yàn)殒溄雨P(guān)系,一個(gè)網(wǎng)頁(yè)可能與其他不同的網(wǎng)頁(yè)相 鏈接,可以對(duì)這些相關(guān)聯(lián)的網(wǎng)頁(yè)進(jìn)行質(zhì)量排序,依據(jù)實(shí)際需要獲得一些有價(jià)值的網(wǎng)頁(yè)。2) 網(wǎng)頁(yè)聚類(lèi):當(dāng)前很多網(wǎng)頁(yè)的聚類(lèi)分析是依據(jù)文本相似度, 但是有些可能會(huì)不符合 預(yù)期目標(biāo)。此時(shí)可以采用Web的結(jié)構(gòu)挖掘分析,利用鏈接關(guān)系進(jìn)行聚類(lèi)可能會(huì)得到意想不 到的結(jié)果。3)對(duì)社會(huì)團(tuán)體進(jìn)行識(shí)別:在互聯(lián)網(wǎng)上有許多社會(huì)團(tuán)體構(gòu)建,運(yùn)行以及維護(hù)的網(wǎng)

11、頁(yè), 可以對(duì)這些社會(huì)團(tuán)體進(jìn)行識(shí)別。4)對(duì)資源進(jìn)行自動(dòng)分類(lèi):日常生活中我們經(jīng)常使用的搜索引擎基本上都是按照層次 來(lái)分類(lèi)的,當(dāng)前主要有貝葉斯概率方式和 SV毗式。有專(zhuān)家曾驗(yàn)證表明,在按照分類(lèi)的樣 本的學(xué)習(xí)機(jī)當(dāng)中采用鏈接的方式進(jìn)行分析就能夠?qū)Ψ诸?lèi)的細(xì)化程度進(jìn)行提高。1.2.3 Web的使用挖掘Web使用挖掘就是根據(jù)在服務(wù)器上的搜索記錄進(jìn)行挖掘,就是對(duì)用戶(hù)訪問(wèn)Web網(wǎng)頁(yè)時(shí) 的存取方式進(jìn)行挖掘,以得到用戶(hù)有關(guān)的訪問(wèn)模式7,14。使用挖掘即與日志挖掘相同。Web的使用挖掘分析得到互聯(lián)網(wǎng)使用者的可能的訪問(wèn)模式,如互聯(lián)網(wǎng)的某些可能訪問(wèn) 習(xí)慣。根據(jù)實(shí)際應(yīng)用不相同,可以分為兩種跟蹤模式,屬于個(gè)人的獨(dú)有的訪問(wèn)模式跟

12、蹤以 及普通的大眾的訪問(wèn)模式跟蹤。個(gè)性化的訪問(wèn)模式跟蹤就是依據(jù)個(gè)人用戶(hù)的喜好和特性, 構(gòu)建合適此人的 Web站點(diǎn)。一般的訪問(wèn)模式跟蹤就是正常根據(jù)整理平時(shí)網(wǎng)頁(yè)日志來(lái)了解訪 問(wèn)模式以及個(gè)人傾向,通過(guò)采用這些跟蹤模式可以很好的了解 Wet結(jié)構(gòu)以及資源分配者的 遍布情況。Web的使用挖掘可以分為以下幾個(gè)步驟:采集數(shù)據(jù),數(shù)據(jù)預(yù)處理,發(fā)現(xiàn)模式,分析模 式9。如圖:圖1.2 Web使用挖掘基本過(guò)程2 Web數(shù)據(jù)挖掘的主要應(yīng)用研究方向2.1智能化搜索引擎進(jìn)入二十一世紀(jì)以來(lái),隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)上的信息量急劇增加,網(wǎng)絡(luò) 信息也是即時(shí)更新,網(wǎng)絡(luò)用戶(hù)們急切需要符合自己需求的工具,用來(lái)快速準(zhǔn)確的獲取有用 的

13、信息,盡量使得檢索效率增高。由于現(xiàn)有的搜索引擎,如百度、搜狗,已經(jīng)能很好的達(dá) 到搜索信息的目的,所以數(shù)據(jù)挖掘的工程師們從數(shù)據(jù)挖掘的角度來(lái)提高檢索信息的準(zhǔn)確 度,使得個(gè)性化服務(wù)更加能夠應(yīng)用到網(wǎng)絡(luò)互聯(lián)網(wǎng)使用者的日常生活中。2.1.1目前的搜索引擎存在的不足:1)邏輯運(yùn)算符不能滿(mǎn)足用戶(hù)需求目前的搜索引擎諸如百度等,所能夠提供的提問(wèn)函數(shù)不能夠滿(mǎn)足用戶(hù)的需求, 很多的 搜索引擎只是能夠在關(guān)鍵詞的布爾連接之間提供幫助,但是例如SQL語(yǔ)言之類(lèi)較為復(fù)雜的 搜索不能提供給相關(guān)用戶(hù)。2)在增量檢索方面沒(méi)有研究目前的搜索引擎在增量檢索方面還缺乏發(fā)展,只能夠?qū)z索信息從新開(kāi)始,而不能將用戶(hù)曾經(jīng)的檢索過(guò)的信息進(jìn)一步提煉

14、,以達(dá)到更加準(zhǔn)確的程度。3)只能提供關(guān)鍵詞搜索目前廣泛使用的關(guān)鍵詞搜索不能更好的滿(mǎn)足用戶(hù)的需求,關(guān)鍵詞搜索僅僅只是簡(jiǎn)單的關(guān)鍵詞匹配和檢索。不能智能化的用語(yǔ)言交流,來(lái)達(dá)到檢索的目的。4)搜索引擎單一面對(duì)當(dāng)前海量的網(wǎng)絡(luò)資源,單個(gè)搜索引擎的力量以及數(shù)據(jù)庫(kù)的容量都對(duì)搜索能力的范 圍有所限制,而且不同的搜索引擎之間存在著許多相同的信息。2.1.2搜索引擎的關(guān)鍵技術(shù)1)排序信息和集成信息目前用戶(hù)利用搜索引擎檢索信息時(shí),一般會(huì)反饋得到相關(guān)文檔的摘要。許多搜索引擎 會(huì)通過(guò)自動(dòng)摘要的功能選擇性抽詞。 這種方法準(zhǔn)確度不高。人們可以利用 Web的內(nèi)容挖掘 當(dāng)中的對(duì)文本進(jìn)行歸納的相關(guān)技術(shù),也就是說(shuō)利用 Web文檔的內(nèi)

15、容而不是根據(jù)某些詞的位 置來(lái)檢索信息。對(duì)于PageRank算法,就是搜索引擎首先是檢索提問(wèn),之后再將檢索得到 的結(jié)果進(jìn)行頁(yè)面的分析15,得到頁(yè)面的相關(guān)等級(jí),然后依據(jù)頁(yè)面對(duì)檢索結(jié)果的重要性進(jìn)行 輸出。全球著名的搜索引擎 Google就是采用了這個(gè)技術(shù)才使得其檢索結(jié)果準(zhǔn)確度高。類(lèi) 似的算法還有 AuthorityandHub 16。2)識(shí)別搜索條件對(duì)搜索條件進(jìn)行識(shí)別含有以下兩個(gè)方面:一是對(duì)查詢(xún)條件當(dāng)中的有效成分進(jìn)行提?。欢且罁?jù)知識(shí)的數(shù)據(jù)庫(kù)對(duì)所針對(duì)的關(guān)鍵詞的相關(guān)詞,如近義詞或同義詞進(jìn)行提取。假設(shè)搜 索引擎在對(duì)一個(gè)關(guān)系復(fù)雜的查詢(xún)進(jìn)行檢索時(shí),若簡(jiǎn)單的使用自然語(yǔ)言不做替換或提取有效 成分,則很難得到預(yù)期

16、的結(jié)果。所以說(shuō),建立一種有效的檢索機(jī)制對(duì)提高檢索準(zhǔn)確度至關(guān) 重要。3)個(gè)性化搜索引擎?zhèn)€性是每個(gè)人的特征,追求個(gè)性是每個(gè)人的基本心理。搜索引擎與個(gè)性相結(jié)合,將更 加能夠得到用戶(hù)的青睞。開(kāi)發(fā)個(gè)性化的搜索引擎的首要前提就是能夠準(zhǔn)確的獲知用戶(hù)的興 趣愛(ài)好。通常為得知用戶(hù)的興趣愛(ài)好的方法就是根據(jù)用戶(hù)的檢索關(guān)鍵詞、瀏覽的網(wǎng)頁(yè)、書(shū)簽文件、以及用戶(hù)的動(dòng)態(tài)更新等等。2.2智能化Web瀏覽器隨著互聯(lián)網(wǎng)的發(fā)展,信息資源也越來(lái)越豐富,傳統(tǒng)的Web瀏覽器在應(yīng)對(duì)用戶(hù)需求時(shí),可能難以應(yīng)對(duì)。此時(shí)智能化的 Web瀏覽器才能讓用戶(hù)需求得到更好的滿(mǎn)足。2.2.1傳統(tǒng)的Web瀏覽器存在的不足:1)不能滿(mǎn)足用戶(hù)的個(gè)性化要求;傳統(tǒng)的We

17、t瀏覽器接受用戶(hù)的需求之后,機(jī)械的與服 務(wù)器連接,服務(wù)器所反饋回來(lái)的頁(yè)面不能與用戶(hù)的個(gè)性相匹配,信息準(zhǔn)確度不高。2)用戶(hù)可能會(huì)漫無(wú)目的的瀏覽服務(wù)器反饋回來(lái)的海量信息,就是因?yàn)樯疃葍?yōu)先的檢 索,結(jié)果極有可能使得用戶(hù)迷失自我,脫離預(yù)期目標(biāo)。3)由于沒(méi)有信息過(guò)濾機(jī)制,查詢(xún)結(jié)果有可能會(huì)重復(fù),還會(huì)有無(wú)關(guān)的內(nèi)容,以及過(guò)時(shí)的 信息。使得互聯(lián)網(wǎng)使用者浪費(fèi)時(shí)間,搜索引擎的檢索效率低。4)不存在能夠自動(dòng)的查找新內(nèi)容的功能。2.2.2智能Web瀏覽器的關(guān)鍵技術(shù)1)特征選取特征選取是開(kāi)發(fā)個(gè)性化 Web瀏覽器的關(guān)鍵,經(jīng)常使用的方法有依據(jù)某個(gè)詞語(yǔ)出現(xiàn)的頻 率來(lái)選取特征、依據(jù)瀏覽的的行為特征來(lái)選取特征、依據(jù)能否增加期望信息

18、來(lái)選取特征、 依據(jù)相互交流的信息量來(lái)選取特征。2)用戶(hù)興趣模型的學(xué)習(xí)和更新用戶(hù)興趣模型是將互聯(lián)網(wǎng)使用者所感興趣的內(nèi)容的概括。主要使用興趣相關(guān)法、貝葉斯分類(lèi)器等。3)對(duì)信息進(jìn)行過(guò)濾以及對(duì)文檔進(jìn)行分類(lèi)利用信息提取技術(shù)和模式發(fā)現(xiàn)技術(shù)達(dá)到 Web言息過(guò)濾的目的,對(duì)文檔進(jìn)行分類(lèi)依據(jù)的原則就是用戶(hù)興趣,可以對(duì)不感興趣的文檔進(jìn)行屏蔽3 Web的挖掘技術(shù)的流程Web挖掘技術(shù)實(shí)現(xiàn)的流程如下圖3所示,其中各步驟如下:第一步:對(duì)目標(biāo)樣本進(jìn)行確定,選擇好關(guān)于用戶(hù)的目標(biāo)文本,當(dāng)作用戶(hù)的特征信息來(lái) 提??;第二步:對(duì)特征信息進(jìn)行提取,依據(jù)目標(biāo)樣本的相關(guān)詞的分布情況, 在統(tǒng)計(jì)詞典當(dāng)中 找到目標(biāo)的特征向量,然后計(jì)算得到所對(duì)應(yīng)的

19、權(quán)值;第三步:獲取網(wǎng)絡(luò)信息,首先利用搜索引擎的站點(diǎn)來(lái)選擇得到等待采集的站點(diǎn),然后再利用Robot程序?qū)o態(tài) Web頁(yè)面進(jìn)行采集,之后得到被訪問(wèn)站點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的動(dòng)態(tài) 信息,形成萬(wàn)維網(wǎng)的資源索引數(shù)據(jù)庫(kù);第四步:對(duì)信息進(jìn)行特征匹配,對(duì)索引數(shù)據(jù)庫(kù)當(dāng)中的源信息的特征向量進(jìn)行提取,并且和目標(biāo)樣本當(dāng)中的特征向量也要進(jìn)行相關(guān)的匹配, 最后用戶(hù)將得到符合閉值條件的結(jié)果 信息。特征信息提取目標(biāo)樣本統(tǒng)計(jì)詞典模式匹配返回結(jié)果集合Internet信息資 _ _ 孑 索引集源Robot采集圖3.1 Web信息挖掘流程4 Web數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)對(duì)于Web數(shù)據(jù)挖掘的實(shí)現(xiàn)一般需要以下兩類(lèi)技術(shù) 何:其一是采用人工智能模型,這

20、種 模型主要是根據(jù)機(jī)器學(xué)習(xí)來(lái)建立的,技術(shù)方法有自然法則計(jì)算方法、神經(jīng)網(wǎng)絡(luò)以及Web所獨(dú)有的路徑分析技術(shù)等等。其二是基于統(tǒng)計(jì)模型,技術(shù)方法有分類(lèi)、聚類(lèi)、決策樹(shù)、關(guān) 聯(lián)分析等等。4.1關(guān)聯(lián)規(guī)則對(duì)于Web數(shù)據(jù)挖掘,關(guān)聯(lián)規(guī)則就是指用戶(hù)訪問(wèn)的頁(yè)面與文件當(dāng)中所挖掘出來(lái)的頁(yè)面相 重合的關(guān)聯(lián)度,當(dāng)這個(gè)關(guān)聯(lián)度達(dá)到了某個(gè)數(shù)值時(shí)的頁(yè)面的合集17-18。常用的算法有Aprior, 對(duì)于事物數(shù)據(jù)庫(kù),當(dāng)遇到一個(gè)最大的訪問(wèn)項(xiàng)集,就會(huì)將其挖掘出來(lái),這個(gè)項(xiàng)集就是依靠 Web數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)規(guī)則實(shí)現(xiàn)得到的用戶(hù)訪問(wèn)模式。4.2序列模式挖掘技術(shù)在關(guān)聯(lián)規(guī)則挖掘技術(shù)當(dāng)中增加一項(xiàng)時(shí)間屬性, 可以用了明確事物的先后順序,預(yù)測(cè)事 物的發(fā)展趨勢(shì)

21、,這就是序列模式挖掘。這種挖掘是頁(yè)面之間的關(guān)系模式,也就是說(shuō)頁(yè)面之 間有先后的關(guān)系。從用戶(hù)的訪問(wèn)序列當(dāng)中挖掘出來(lái)有關(guān)的規(guī)則是時(shí)序模式發(fā)現(xiàn)的目的。 一 段時(shí)間內(nèi)的用戶(hù)訪問(wèn)行為會(huì)被服務(wù)器所記錄,數(shù)據(jù)預(yù)處理時(shí),各個(gè)事物也會(huì)有時(shí)間記錄。根據(jù)時(shí)間序列分析,可以達(dá)到預(yù)測(cè)用戶(hù)訪問(wèn)行為的目的,比如,用戶(hù)購(gòu)買(mǎi)了物品A,在一定的時(shí)間內(nèi),他有百分之七十的可能性會(huì)購(gòu)買(mǎi)物品 B,這樣的話就可以對(duì)其投放特定 的廣告。4.3分類(lèi)技術(shù)分類(lèi)的原則就是根據(jù)某些特性,將數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分類(lèi)11。在Web挖掘技術(shù)當(dāng)中, 比如在線購(gòu)買(mǎi)中,可以得出購(gòu)買(mǎi)人群主要是20-30歲的青年人群,就可以針對(duì)這個(gè)年齡段 人群的特點(diǎn)展開(kāi)商務(wù)活動(dòng)。當(dāng)前

22、,最經(jīng)典的分類(lèi)方法就是決策樹(shù)方法。4.4聚類(lèi)技術(shù)聚類(lèi)就是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)根據(jù)某個(gè)相似性劃分為各個(gè)不同的類(lèi)別,對(duì)符合某一訪問(wèn)規(guī)律特征的用戶(hù)進(jìn)行用戶(hù)特征挖掘。4.5路徑分析技術(shù)圖是Web數(shù)據(jù)挖掘時(shí)用路徑分析技術(shù)最常用的。圖是指G=其中V是結(jié)點(diǎn)集合, E是邊集合,結(jié)點(diǎn)之間用有向邊連接。對(duì)于 Web挖掘應(yīng)用,將頁(yè)面作為頂點(diǎn)集合,E作為 有鏈接關(guān)系的有向邊集合,入邊是被引用,出邊是引用,這樣就形成了網(wǎng)站的結(jié)構(gòu)圖。對(duì)于圖中的訪問(wèn)路徑,最優(yōu)訪問(wèn)路徑就是指對(duì)于已經(jīng)確定的點(diǎn)之間找到一種符合條件的某個(gè) 量度最小的訪問(wèn)路徑。5案例分析近年來(lái),我國(guó)房地產(chǎn)市場(chǎng)持續(xù)火爆,房?jī)r(jià)成了我國(guó)全民關(guān)心的話題。為了防止一些發(fā) 達(dá)國(guó)家

23、歷史上出現(xiàn)過(guò)的房地產(chǎn)泡沫,國(guó)家屢次出臺(tái)有關(guān)房?jī)r(jià)問(wèn)題的政策,持續(xù)加大對(duì)房地 產(chǎn)的調(diào)控的力度。因?yàn)榉康禺a(chǎn)關(guān)乎民生,所以很多網(wǎng)民都在互聯(lián)網(wǎng)上發(fā)表了自己對(duì)政府調(diào) 控房?jī)r(jià)政策等方面的看法,這就是房地產(chǎn)網(wǎng)絡(luò)輿情。對(duì)于這些網(wǎng)絡(luò)輿論情況進(jìn)行分析, 可 以對(duì)其進(jìn)行有效的控制和疏導(dǎo)。網(wǎng)絡(luò)輿情分析的步驟如下:5.1信息采集有關(guān)房地產(chǎn)網(wǎng)絡(luò)輿情的信息采集主要是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)來(lái)對(duì)網(wǎng)絡(luò)內(nèi)容進(jìn)行抓取。 數(shù)據(jù)的 獲取主要從這幾個(gè)方面著手,對(duì)列表頁(yè)進(jìn)行抓取、相關(guān)鏈接和對(duì)下載的詳情頁(yè)面。可以通 過(guò)內(nèi)容獲取模塊、內(nèi)容分析模塊、數(shù)據(jù)庫(kù)操作模塊實(shí)現(xiàn),以及分析和分解根。房地產(chǎn)網(wǎng)絡(luò)輿情的信息選取的時(shí)間范圍為 2015年1月1日到2015年6月

24、30日的有 關(guān)房?jī)r(jià)調(diào)控的評(píng)論。對(duì)網(wǎng)上各有關(guān)房市討論的熱點(diǎn)話題共計(jì)抓取2340篇評(píng)論。評(píng)論者為社會(huì)各個(gè)行業(yè)的人士,除了國(guó)內(nèi)的老百姓,還有海外人士。首先對(duì)這些評(píng)論采用分類(lèi)的方 式得到有效評(píng)論1800篇,其中正面評(píng)論1300篇,負(fù)面500篇。舉例如下表:表5.1正面、反面的評(píng)論正面的評(píng)論1、真是太好了,中央要抑制房?jī)r(jià)。2、說(shuō)的有理,國(guó)家不斷增長(zhǎng),有利于人民。3、 政策一直在朝著好的方向發(fā)展,這是毋庸置疑的。4、能不能抑制房?jī)r(jià),需要市場(chǎng)調(diào)節(jié),國(guó)家一定能解決好這個(gè)問(wèn)題。5、中國(guó)一直在不斷向前發(fā)展, 房?jī)r(jià)對(duì)于中國(guó)不是問(wèn)題,我對(duì)國(guó)家有信心。6、 國(guó)家一直在考慮民生問(wèn)題,國(guó)家財(cái)政必將取之于民,用之于民。7、支

25、持發(fā)改委,相信政府能夠避免樓市泡沫。8、國(guó)家解決問(wèn)題需要時(shí)間,相信政府定能在 盡可能短的時(shí)間內(nèi)解決全民炒房問(wèn)題。負(fù)面的評(píng)論1、國(guó)家對(duì)房?jī)r(jià)這一重要問(wèn)題都調(diào)控不好。2、發(fā)改委影響了中國(guó)前進(jìn)的步伐。3、當(dāng)前,地皮歸政府管理,前景不容樂(lè)觀。4、科學(xué)院真是不行,調(diào)控房?jī)r(jià)這么些年,也沒(méi)能解決好這個(gè)問(wèn)題。5、國(guó)家腐敗太多,民生問(wèn)題難以解決,唉,悲哀。6、國(guó)家政策失誤導(dǎo)致了虛高的房?jī)r(jià),應(yīng)該出臺(tái)正確的政策,彌補(bǔ)以前的失誤,老百姓辛 辛苦苦一輩子,還買(mǎi)不了一套房,真是悲哀。7、所謂的學(xué)者,你的知識(shí)在哪兒,一直在亂講,也沒(méi)個(gè)好方法,誤導(dǎo)國(guó)民。&為什么政府官員、老師總是宣揚(yáng)一些不著 調(diào)的話語(yǔ),房?jī)r(jià)是關(guān)乎民生,政治的大

26、問(wèn)題。5.2數(shù)據(jù)預(yù)處理首先對(duì)所提取的信息進(jìn)行文本提取,也就是要去除除文本外的信息如視頻,音頻等;然后對(duì)文本進(jìn)行分詞的處理;最后對(duì)文本采用向量空間等方法進(jìn)行特征表示,以及進(jìn)行特征選擇,得到有效的文本特征,為分析做準(zhǔn)備。5.3文本內(nèi)容分類(lèi)對(duì)獲得的網(wǎng)絡(luò)輿論采取情感上的傾向性分析。 在這個(gè)階段,首先將數(shù)據(jù)與現(xiàn)有的網(wǎng)絡(luò) 情感傾向性方法進(jìn)行對(duì)比,這些方法是:基于支持向量機(jī)的網(wǎng)絡(luò)輿論情感分析方法, 基于 K階最近鄰方法的網(wǎng)絡(luò)情感分析方法以及基于 N-gram方法的網(wǎng)絡(luò)情感分析方法。通過(guò)對(duì) 比發(fā)現(xiàn),選擇基于支持向量機(jī)的網(wǎng)絡(luò)輿論情感分析方法更合適。第一根據(jù)之前所得的輿情語(yǔ)科庫(kù)對(duì)SVM進(jìn)行訓(xùn)練,并將其用于房地產(chǎn)輿

27、情分析預(yù)測(cè)當(dāng)中。 再對(duì)所收集的信息按照一 個(gè)月分為兩次的間隔分成10個(gè)時(shí)間段。進(jìn)行分類(lèi)預(yù)測(cè)。結(jié)果如下:表5.2 分類(lèi)評(píng)論的結(jié)果1月a1月z2月a2月z3月a3月z4月a4月z5月a5月z止面 的文 本數(shù)410265303132154799負(fù)面 的文 本數(shù)16343330681009026122348根據(jù)上表,繪制折線圖如下:圖5.1房地產(chǎn)行業(yè)網(wǎng)絡(luò)輿論情況由上圖可知,評(píng)論數(shù)呈現(xiàn)上升趨勢(shì)5.4輿論情感傾向性分析網(wǎng)絡(luò)輿情反映了事態(tài)發(fā)展,并且能夠引起社會(huì)的關(guān)注。通過(guò)對(duì)網(wǎng)絡(luò)輿情的分析能夠增 加政府與民眾的溝通,知曉民意,了解民情,指定合適的政策。通過(guò)對(duì)房地產(chǎn)輿情的分析可知,房地產(chǎn)的評(píng)論數(shù)量急劇增加,更重

28、要的是,差評(píng)率高 達(dá)78.1%。這些結(jié)論能夠讓政府更好的面對(duì)房地產(chǎn)問(wèn)題,了解百姓的真實(shí)意見(jiàn),以便做出 更好的政策意見(jiàn)。結(jié)束語(yǔ)本文討論了 Web挖掘的相關(guān)分類(lèi)和定義。講述了Web勺內(nèi)容挖掘、Web的結(jié)構(gòu)挖掘、Web的使用挖掘等以及所涉及的關(guān)鍵技術(shù)。對(duì)于這些方面的研究還不夠完善,仍舊處于初 級(jí)的階段,互聯(lián)網(wǎng)在技術(shù)和應(yīng)用兩個(gè)方面的不斷發(fā)展使得數(shù)據(jù)庫(kù)技術(shù)和數(shù)據(jù)挖掘技術(shù)也在 不斷的發(fā)展,這使得 Web的數(shù)據(jù)挖掘技術(shù)理論和應(yīng)用也同樣不斷發(fā)展。本文不僅討論了 Web的數(shù)據(jù)挖掘的內(nèi)容,Web挖掘的步驟,Web挖掘的技術(shù)等,還研究了關(guān)聯(lián)規(guī)則等算法。 討論了 Web信息挖掘的流程。參考文獻(xiàn)1 張春明 Web挖掘技

29、術(shù)研究J.廊坊師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2008,No.3505:35-36.2 蔣望東,黃發(fā)良基于WEB的數(shù)據(jù)挖掘研究綜述J. 湖南工程學(xué)院學(xué)報(bào)(自然科學(xué) 版),2007,No.4301:61-64.3 王劍鋼,連仁明,邢博.基于龍格庫(kù)塔四階積分的流線可視化方法J. 無(wú)線互聯(lián)科 技,2015,No.6513:130+136.4 劉曉鵬,邢長(zhǎng)征.基于WEB文本數(shù)據(jù)挖掘的研究J.計(jì)算機(jī)與數(shù)字工程,2005,09:75-79.5 黃娟.基于文本挖掘技術(shù)的蛋白質(zhì)相互作用預(yù)測(cè)方法研究D.中南大學(xué),2009. 巫滿(mǎn)秀.Web StructureMi ning 在電子商務(wù)網(wǎng)站中的應(yīng)用J. 電腦知識(shí)與技術(shù)

30、(學(xué)術(shù)交流),2007,05:1215+1226.7 陳修寬,董祥軍,石芙芙.Web數(shù)據(jù)挖掘綜述J. 山東輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué) 版),2009,v.23;No.8903:25-28.8 林聰.Web挖掘的研究綜述J. 現(xiàn)代計(jì)算機(jī)(專(zhuān)業(yè)版),2008,No.28707:89-91.9 賈丙靜,葛華,王傳安,趙海燕.Web日志挖掘在校園網(wǎng)建設(shè)中的應(yīng)用研究J.安徽科技學(xué)院學(xué)報(bào),2010,v.24;No.9403:38-41.10 楊銘.Web數(shù)據(jù)挖掘綜述J. 科技展望,2014,No.31219:22.11 烏嵐.基于多樣約束模型的遠(yuǎn)程教育數(shù)據(jù)庫(kù)優(yōu)化查詢(xún)算法J. 科技通 報(bào),2013,v.29;No.17501:154-156+180.11 Zhe ng Che n,Fa n Lin,Huan Liu,Yin Liu,Wei-Yi ng Ma,Liu Wen yi n. User Inten tion Modeli ng inWeb Applicatio ns Usi ng Data Minin gJ. World Wide Web,2002,53:.12 Robert Cooley,Bamshad Mobasher,Jai

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論