數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(講稿12-文本挖掘)

上傳人：x*** IP屬地：安徽上傳時間：2022-12-27 格式：DOC 頁數(shù)：21 大小：219.50KB 積分：20 舉報 版權(quán)申訴

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(講稿12-文本挖掘)_第2頁

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(講稿12-文本挖掘)_第3頁

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(講稿12-文本挖掘)_第4頁

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(講稿12-文本挖掘)_第5頁

已閱讀5頁，還剩16頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認(rèn)領(lǐng)

文檔簡介

..第12章文本數(shù)據(jù)挖掘與Web挖掘技術(shù)第1節(jié)文本挖掘概述1.1文本挖掘的出現(xiàn)在現(xiàn)實世界中,我們面對的數(shù)據(jù)大都是文本數(shù)據(jù),這些數(shù)據(jù)是由各種數(shù)據(jù)源〔如新聞文章、研究論文、書籍、數(shù)字圖書館、電子郵件和Web頁面等的大量文檔組成。所以,隨著文檔信息量的飛速增長,文本數(shù)據(jù)的數(shù)據(jù)量也急劇地增長。文本數(shù)據(jù)是所謂的半結(jié)構(gòu)化數(shù)據(jù)〔Semi-StructureData,它既不是完全無結(jié)構(gòu)的也不是完全結(jié)構(gòu)化的。如,文檔可能包含結(jié)構(gòu)字段,比如：標(biāo)題、作者、出版日期、長度、分類等,也可能包含大量的非結(jié)構(gòu)化的文本,如摘要和內(nèi)容。文本挖掘〔TextMining,國外有人稱之為文本數(shù)據(jù)挖掘〔TextDataMining和文本分析〔TextAnalysis。文本挖掘一詞大約出現(xiàn)于1998年4月在歐洲舉行的第十屆機器學(xué)習(xí)會議上,組織者Kodratoff明確地定義了文本挖掘的概念,并分清它與"信息檢索"的不同點和共同點。Kodratoff認(rèn)為,文本挖掘的目的是從文檔集合中搜尋知識,并不試圖改進自然語言理解,并不要求對自然語言的理解達到多高水平,而只是想利用該領(lǐng)域的成果,試圖在一定的理解水平上盡可能多地提取知識。因此,文本挖掘需要數(shù)據(jù)挖掘、語言學(xué)、數(shù)據(jù)庫以及文本標(biāo)引和理解方面的專家參與。我國于1998年在國家重點基礎(chǔ)研究發(fā)展規(guī)劃〔"973計劃"首批實施項目中,包括了文本挖掘的內(nèi)容。1.2文本挖掘的基本概念1、概念文本挖掘是一個從大量文本數(shù)據(jù)中提取以前未知的、可理解的、可操作的知識的過程。文本數(shù)據(jù)包括：技術(shù)報告、文檔集、新聞、電子郵件、網(wǎng)頁、用戶手冊等。文本挖掘?qū)蝹€文檔或文檔集〔如,Web搜索中返回的結(jié)果集進行分析,從中提取概念,并按照指定的方案組織、概括文檔,發(fā)現(xiàn)文檔集中重要的主題。它除了從文本中提取關(guān)鍵詞外,還要提取事實、作者的意圖、期望和主張等。這些知識對許多,如市場營銷、趨勢分析、需求處理等,都是很有用的。2、任務(wù)主要任務(wù)有：文本標(biāo)引和短語提取,即在讀取大量的非結(jié)構(gòu)化文本時,應(yīng)用自然語言處理技術(shù)提取文本,集中所有相關(guān)的短語。提取時要處理同義詞和詞義模糊現(xiàn)象。可以形象地把文本挖掘看作是一支熒光筆,它通讀文本時高亮度顯示有關(guān)的短語,這些短語放在一起就可以得到對文本的一個較好的理解。概念提取〔聚類,即對這些短語之間的關(guān)系,建立一個"詞匯網(wǎng)"；將相關(guān)短語分組,并增強這些組中最重要的特征；最后得到的模式反映了該文本集中的主要概念。然后,通過提取出的概念集發(fā)現(xiàn)未知的知識?？梢暬@示和導(dǎo)航。對挖掘得來的信息〔詞頻、相關(guān)概率、時事性話題、地域依賴信息、時間序列等,可以從多個視角出發(fā)進行分析。3、文本挖掘與數(shù)據(jù)挖掘相似點在于：兩者都處理大量的數(shù)據(jù),都有歸屬到知識管理的知識發(fā)現(xiàn)領(lǐng)域中。差別在于：許多經(jīng)典的數(shù)據(jù)挖掘算法,如數(shù)值預(yù)測、決策樹等都不太適用于文本挖掘,因為它們依賴于結(jié)構(gòu)化的數(shù)據(jù)。而像概念關(guān)系分析等工作則是文本挖掘所獨有的,如表所示。文本挖掘與數(shù)據(jù)挖掘的區(qū)別數(shù)據(jù)挖掘文本挖掘研究對象用數(shù)字表示的、結(jié)構(gòu)化的數(shù)據(jù)無結(jié)構(gòu)或者半結(jié)構(gòu)化的文本對象結(jié)構(gòu)關(guān)系數(shù)據(jù)庫自由開放的文本目標(biāo)抽取知識,預(yù)測以后的狀態(tài)檢索相關(guān)信息,提取意義,分類方法歸納學(xué)習(xí)、決策樹、神經(jīng)網(wǎng)絡(luò)、粗糙集、遺傳算法等標(biāo)引、概念抽取、語言學(xué)、本體成熟度從1994年開始得到了廣泛應(yīng)用從20XX開始得到了應(yīng)用1.3文本挖掘與信息檢索信息檢索是文本挖掘相關(guān)的一個概念,但它與文本挖掘又是不同的兩個概念。信息檢索是指從大量的文檔集合C中,找到與給定的查詢請求q相關(guān)的、恰當(dāng)數(shù)目的文檔子集S的過程。區(qū)別主要表現(xiàn)在如下幾個方面：〔1方法論不同信息檢索是目標(biāo)驅(qū)動的,用戶需要明確提出查詢要求；而文本挖掘結(jié)果獨立于用戶的信息需求,是用戶所無法預(yù)知的。〔2著眼點不同信息檢索著重于文檔中字與詞和鏈接；而文本挖掘在于理解文本的內(nèi)容和結(jié)構(gòu)?！?目的不同信息檢索的目的在于幫助用戶發(fā)現(xiàn)資源,即從大量的文本中找到滿足其查詢請求的文本子集；而文本挖掘是為了揭示文本中隱含的知識。〔4評價方法不同信息檢索用查準(zhǔn)率〔Precision,檢索到的文檔中的相關(guān)文檔占全部檢索到的文檔的百分比和查全率〔Recall,即被檢索出的文檔中的相關(guān)文檔占全部相關(guān)文檔的百分比來評價其性能,要求盡可能多的檢索出相關(guān)文檔,同時不相關(guān)的文檔盡可能少。而文本挖掘采用收益〔Gain、置信度〔Certainty、簡潔性〔Simplicity等來衡量所發(fā)現(xiàn)知識的有效性、可用性和可理解性?！?使用場合不同有時信息檢索系統(tǒng)返回太多的結(jié)果以致用戶無法一一瀏覽,有時用戶沒有明確的信息需求,有時用戶希望發(fā)現(xiàn)文檔集合中所具有的結(jié)構(gòu)、趨勢、含義,在這些場合下,就需要使用挖掘技術(shù)。盡管文本挖掘是比信息檢索層次更高的技術(shù),但它并不是用來取代信息檢索技術(shù)的,二者是相輔相成的。一方面,這兩種技術(shù)各有所長,有各自適用的場合；另一方面,可以利用文本挖掘的研究成果來提高信息檢索的精度和效率,改善檢索結(jié)果的組織,使信息檢索系統(tǒng)發(fā)展到一個新的水平。第2節(jié)文本特征表示與提取2.1文本特征的表示與數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)相比,文檔具有有限的結(jié)構(gòu),或者根本就沒有結(jié)構(gòu)。即使具有一些結(jié)構(gòu),也是著重于格式,而非文檔內(nèi)容。不同類型的文檔結(jié)構(gòu)也不一致。此外,文檔的內(nèi)容是人類所使用的自然語言,計算機很難處理其語義。文本信息源的這些特殊性使得現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于其上。這就需要對文本進行預(yù)處理,抽取其特征的元數(shù)據(jù)。這些特征可以用結(jié)構(gòu)化的形式保存,作為文檔的中間表示形式。文本的特征指的是關(guān)于文本的元數(shù)據(jù),分為：描述性特征,如文本的名稱、日期、大小、類型等；語義性特征,如文本的作者、機構(gòu)、標(biāo)題、內(nèi)容等；一般,描述性特征易于獲得,而語義性特征則較難得到。W3C<中國萬維網(wǎng)聯(lián)盟>近年來制定的XML〔ExtensibleMarkupLanguage,可擴展標(biāo)記語言、RDF〔ResourceDescriptionFramework,一種用于描述Web資源的標(biāo)記語言等規(guī)范提供了對文檔資源進行描述的語言和框架。在此基礎(chǔ)上,可以從半結(jié)構(gòu)化的文檔中抽取作者、機構(gòu)等特征。對于內(nèi)容這個難以表示的特征,首先要找到一種能夠被計算機所處理的表示方法。矢量空間模型〔VSM是近年來應(yīng)用較多且效果較好的表示文本特征的方法。在該模型中,文檔空間被看作是由一組正交詞條矢量所張成的矢量空間,每個文檔d表示為其中的一個范化特征矢量：其中,為詞條項,為在中的權(quán)值?？梢允莇中出現(xiàn)的所有單詞,也可以是d中出現(xiàn)的所有短條,從而提高內(nèi)容特征表示的準(zhǔn)確性。一般被定義為在d中出現(xiàn)的頻率的函數(shù),即。常用的有：〔1布爾函數(shù)〔2平方根函數(shù)〔3對數(shù)函數(shù)〔4TFIDF函數(shù)其中,為所有文檔的數(shù)目,為含有詞條的文檔數(shù)目。2.2文本的特征提取特征提取主要是識別文本中代表其特征的詞項。提取過程是自動的,提取的特征大部分是文本集中表示的概念。文本特征分為一般特征和數(shù)字特征,其中一般特征主要包括動詞和名詞短語,如人名、組織名等；數(shù)字特征主要包括日期、時間、貨幣以及單純數(shù)字信息。這些特征包含重要的信息,因此特征提取是一種強有力的文本挖掘技術(shù)。通過文本的特征抽取,記錄文本的特征,可以更好地組織文本,如文本的存儲、檢索、過濾、分類和摘要等。中文姓名識別屬于中文信息處理中未登錄詞處理的范疇,中文姓名在文章中的出現(xiàn)頻率雖然不高,但絕非可以忽略,因為中文姓名本身包含著重要的信息,它可能是整個句子甚至整個段落的語義中心,如果不予處理,將影響文本挖掘的性能。數(shù)字特征反映一定的信息,但不能表達文本的中心思想,通常只作為文本挖掘中的參考信息。姓名特征提取算法所提取的姓名特征,作為文本內(nèi)容的特征表示。構(gòu)成文本的詞匯,通常數(shù)量很大,因此表示文本的向量空間的維數(shù)也相當(dāng)大,可以達到幾萬維,需要壓縮維數(shù)。為了提高分類精度,對于每一類,應(yīng)去除那些表現(xiàn)力不強的詞匯,篩選出針對該類的特征項集合。目前,存在多種篩選特征項的算法,如根據(jù)詞和類別的互信息量判斷、根據(jù)詞熵判斷、根據(jù)KL距離判斷等。比如,根據(jù)詞和類別的互信息量進行特征項抽取的判斷標(biāo)準(zhǔn),其算法過程如下：初始情況下,該特征項集合包含所有該類中出現(xiàn)的詞；對于每個詞,計算詞和類別的互信息量

其中,；為在類中出現(xiàn)的比重；為該類的訓(xùn)練樣本數(shù)；為詞W在文本中的詞頻；為總詞匯；為該類所有詞的詞頻和；為詞W在所有訓(xùn)練樣本中的比重。對于該類中的所有詞,依據(jù)上面計算的互信息量排序；抽取一定數(shù)量的詞作為特征項,具體需要抽取多少維的特征項,目前無很好的解決方法。一般采用先定初始值,然后根據(jù)實驗測試和統(tǒng)計結(jié)果確定最佳值,初始值一般定在幾千左右；將每類中所有的訓(xùn)練樣本,根據(jù)抽取的特征項,進行向量維數(shù)壓縮,精簡向量表示。第3節(jié)文本挖掘3.1文本分類文檔分類是一種重要的文本挖掘工作,由于現(xiàn)在存在大量的聯(lián)機文檔,自動對其分類組織以便對文檔的檢索和分析,是至關(guān)重要的。如何進行文檔的自動分類？一般做法如下：首先,把一組預(yù)先分類過的文檔作為訓(xùn)練集；然后對訓(xùn)練集進行分析以便得出分類模式。這種分類模式通常需要一定的測試過程,不斷地細化。之后就用這些導(dǎo)出的分類模式對其他聯(lián)機文檔加以分類。這一處理過程與關(guān)系數(shù)據(jù)的分類相似,但還是存在本質(zhì)的區(qū)別。因為,關(guān)系數(shù)據(jù)是結(jié)構(gòu)化的,而文檔數(shù)據(jù)庫則不是結(jié)構(gòu)化的,它沒有"屬性,值"對的結(jié)構(gòu)。因此,對關(guān)系數(shù)據(jù)的分類方法,如決策樹分析,并不適用對文檔數(shù)據(jù)庫的分類。對文檔分類的有效方法是基于關(guān)聯(lián)的分類,它基于一組關(guān)聯(lián)的、經(jīng)常出現(xiàn)的文本模式對文檔加以分類。基于關(guān)聯(lián)的分類方法處理過程如下：通過簡單的信息檢索技術(shù)和關(guān)聯(lián)分析技術(shù),提出關(guān)鍵詞和詞匯；使用已經(jīng)有的詞類,或基于專家知識,或使用某些關(guān)鍵字分類方法,生成關(guān)鍵字和詞的概念層次,或類層次結(jié)構(gòu)。詞關(guān)聯(lián)挖掘方法用于發(fā)現(xiàn)關(guān)聯(lián)詞,它可以最大化區(qū)分一類文檔與另一類文檔。這導(dǎo)致了對每一類文檔,有一組關(guān)聯(lián)規(guī)則。這些分類規(guī)則可以基于其出現(xiàn)頻率加以排序,并用于對新的文檔的分類。基于關(guān)聯(lián)的文檔分類方法已經(jīng)證明是有效的。文本分類是一種典型的有教師的機器學(xué)習(xí)問題,一般分為訓(xùn)練和分類兩個階段。具體過程如下：〔1訓(xùn)練階段①定義類別集合,這些類別可以是層次式的,也可以是并列式的；②給出訓(xùn)練文檔集合,每個訓(xùn)練文檔被標(biāo)上所屬的類別標(biāo)識；③統(tǒng)計S中所有文檔的特征矢量,確定代表C中每個類別的特征矢量〔2分類階段①對于測試文檔集合中的每個待分類文檔,計算其特征矢量與每個之間的相似度；②選取相似度最大的一個類別作為的類別。注：在計算時,有多種方法可供選擇。最簡單的方法是僅考慮兩個特征矢量中所包含的詞條的重疊程度,即：其中,是和具有相同詞條的數(shù)目；是和具有的所有詞條數(shù)目。最常用的方法,是考慮兩個特征矢量之間的夾角余弦。3.2關(guān)聯(lián)分析關(guān)聯(lián)分析首先要對文本數(shù)據(jù)進行分析、詞根處理、去除非用詞等預(yù)處理,然后調(diào)用關(guān)聯(lián)挖掘算法。在文檔數(shù)據(jù)庫中,每一個文檔被視為一個事務(wù),文檔中的關(guān)鍵字組可視為事務(wù)中的一組事務(wù)項。即數(shù)據(jù)庫可表示為：{document_id,a_set_of_keywords}于是,文檔數(shù)據(jù)庫中的關(guān)鍵字關(guān)聯(lián)挖掘問題,就變成事務(wù)數(shù)據(jù)庫中事務(wù)項的關(guān)聯(lián)挖掘問題。注意：一組經(jīng)常連續(xù)出現(xiàn)或緊密相關(guān)的關(guān)鍵字可形成一個詞或詞組。關(guān)聯(lián)挖掘有助于找出復(fù)合關(guān)聯(lián),即領(lǐng)域相關(guān)的詞或詞組。如,[科技大學(xué),大學(xué)]或[總統(tǒng),布什],或非復(fù)合詞關(guān)聯(lián),如[美元,參股,交易,總額,傭金,賭注,證券]。基于這些關(guān)聯(lián)的挖掘稱為"詞級關(guān)聯(lián)挖掘"〔相對應(yīng)的是字級的挖掘。詞的識別和詞級關(guān)聯(lián)在文本分析中有兩個優(yōu)點：〔1詞和詞組被自動標(biāo)記,無需人去標(biāo)記文檔；〔2挖掘算法的執(zhí)行時間和無意義的結(jié)果將極大減少。利用這種詞和詞組的識別,詞級挖掘可以用于找出詞或關(guān)鍵字間的關(guān)聯(lián)。一些用戶可能喜歡從給定關(guān)鍵字或詞組中找出關(guān)鍵字或詞對之間的關(guān)聯(lián),而有些用戶可能希望找出一起出現(xiàn)的最大詞集。因此,根據(jù)用戶挖掘的需要,可以使用關(guān)聯(lián)挖掘或最大模式挖掘算法。3.3文檔聚類文本聚類是一種典型的無教師的機器學(xué)習(xí)問題。目前的文本聚類方法大致可分為：層次凝聚法和平面劃分法兩種類型。1、層次凝聚法對于給定的文檔集合,層次凝聚法的具體過程如下：將D中的每個文檔看作是一個具有單成員的簇,這些簇構(gòu)成了D的一個聚類；計算C中每對簇〔之間的相似度；選取具有最大相似度的簇對,并將和合并為一個新的簇,從而構(gòu)成了D的一個新的聚類；重復(fù)上述步驟,直至C中剩下一個簇為止。該過程構(gòu)造出一棵生成樹,其中包含了簇的層次信息,以及所有簇內(nèi)和簇間的相似度。層次聚類方法是最為常用的聚類方法,它能夠生成層次化的嵌簇,且精確度較高。但是在每次合并時,需要全局地比較所有簇之間的相似度,并選擇出最佳的兩個簇,因此運行速度較慢,不適合于大量文檔的集合。2、平面劃分法平面劃分法與層次凝聚法的區(qū)別在于,它將文檔集合水平地分割為若干個簇,而不是生成層次化的嵌套簇。對于給定的文檔集合,平面劃分法的具體過程如下：確定要生成簇的數(shù)目；按照某種原則,生成個聚類中心作為聚類的種子；對D中每個文檔,依次計算它與各個種子的相似度；選取具有最大相似度的種子,將歸入以為聚類中心的簇,從而得到D的一個聚類；重復(fù)步驟〔2、〔3、〔4若干次,以得到較為穩(wěn)定的聚類結(jié)果。該方法的運行速度較快,但是必須事先確定的取值,且種子選取的好壞對聚類結(jié)果有較大影響。第4節(jié)Web挖掘萬維網(wǎng)目前是一個巨大的、分布廣泛和全球性的信息服務(wù)中心,它涉及新聞、廣告、消費信息、金融管理、教育、政府、電子商務(wù)和許多其他信息服務(wù)。Web還包含了豐富和動態(tài)的超鏈接信息,以及Web頁面的訪問和使用信息,這為數(shù)據(jù)挖掘提供了豐富的資源。所以,隨著Internet的飛速發(fā)展,網(wǎng)上的數(shù)據(jù)資源空前的豐富。但是數(shù)據(jù)資源中蘊涵的知識卻至今未能得到充分的挖掘和利用,數(shù)據(jù)豐富但知識貧乏的問題非常嚴(yán)重。在日益激烈的電子商務(wù)買方市場競爭中,任何與消費者行為有關(guān)的信息對商家來說都非常重要。目前,大多數(shù)的用戶從Web上獲取信息的途徑主要是通過搜索引擎或者通過瀏覽Web頁面,搜索引擎雖然部分的解決了資源發(fā)現(xiàn)的問題,但其精確度不高,不能為用戶提供結(jié)構(gòu)化的信息,也不能提供文檔分類、過濾等功能；而瀏覽Web頁面在用戶需要查找、查全大量的資料時,基本不能提供資源發(fā)現(xiàn)的功能,顯然,這兩種信息檢索手段都不能滿足用戶的基本要求。數(shù)據(jù)庫領(lǐng)域采用了數(shù)據(jù)挖掘技術(shù),以從大量數(shù)據(jù)的集合中發(fā)現(xiàn)有用的信息,但數(shù)據(jù)挖掘絕大部分工作所涉及的是結(jié)構(gòu)化數(shù)據(jù)庫,很少有處理Web上的異質(zhì)、非結(jié)構(gòu)化信息的工作。因此怎樣從Web上大量的信息中有效的、快速的找出用戶感興趣的信息就成為一項重要而迫切的課題,人們也迫切需要這樣一種能快速、有效地發(fā)現(xiàn)資源和知識的工具。近年來興起的數(shù)據(jù)挖掘〔DataMining技術(shù)在Web上的應(yīng)用即Web數(shù)據(jù)挖掘技術(shù)為解決這個問題帶來了一線曙光。從廣義上講,Web信息也是一類特別的文本信息,因此文本挖掘的各種技術(shù)也適合于Web挖掘,但是由于Web信息自身的特點,文本挖掘和Web挖掘應(yīng)該區(qū)別對待。4.1什么是Web數(shù)據(jù)挖掘Web數(shù)據(jù)挖掘是從大量的Web文件的集合中發(fā)現(xiàn)有用的信息和模式。Web數(shù)據(jù)挖掘是一門綜合技術(shù),涉及領(lǐng)域非常廣泛,如：數(shù)據(jù)挖掘、信息學(xué)、計算機語言學(xué)、人工智能等領(lǐng)域。Web挖掘從數(shù)據(jù)挖掘而來,但由于Web上的信息的特點使得它又不同于傳統(tǒng)的數(shù)據(jù)挖掘,它所面臨的挑戰(zhàn)更大。此外,Web挖掘技術(shù)也不同于信息檢索〔IR。Web數(shù)據(jù)挖掘具有以下特點：1、Web信息特別龐大Web的數(shù)據(jù)量目前以幾百G字節(jié)計算,而且仍在迅速地增長。許多機構(gòu)和社團都在把各自大量的可訪問信息置于網(wǎng)上。怎樣對這些數(shù)據(jù)進行復(fù)雜的應(yīng)用是數(shù)據(jù)挖掘技術(shù)的研究熱點。2、Web信息非常復(fù)雜Web文件是半結(jié)構(gòu)化或無結(jié)構(gòu)的。每一站點的數(shù)據(jù)都各自獨立設(shè)計,并且數(shù)據(jù)本身具有自述性和動態(tài)可變性,沒有特定的模型描述。需要研究統(tǒng)一的語義模型,并解決半結(jié)構(gòu)化或無結(jié)構(gòu)數(shù)據(jù)的抽取技術(shù)。所以,Web頁面缺乏統(tǒng)一的結(jié)構(gòu),它包含了遠比任何一組書籍或其他文本文檔多得多的風(fēng)格和內(nèi)容。Web可以看作是一個巨大的數(shù)字圖書館；然而,這一圖書館中的大量文檔并不根據(jù)任何有關(guān)排列次序加以組織。它沒有分類索引,更沒有按標(biāo)題、作者、封面頁、目錄等的索引。對在這樣一個圖書館中搜索希望得到的信息是極具挑戰(zhàn)性的。3、Web信息是動態(tài)的Web是一個動態(tài)性極強的信息源。Web不僅以極快的速度增長,而且其信息還在不斷地發(fā)生著更新。新聞、股票、股票市場、公司廣告和Web服務(wù)中心都在不斷地更新著各自的頁面。鏈接信息和訪問記錄也在頻繁地更新之中。4、Web信息使用者復(fù)雜相對于一般的數(shù)據(jù)庫應(yīng)用系統(tǒng),Web面對的是一個廣泛的、形形色色的用戶群體。目前的Internet上連接有約五千多萬臺工作站,其用戶群仍在不斷擴展中。各個用戶可以有不同的背景、興趣和使用目的。大部分用戶并不了解信息網(wǎng)絡(luò)結(jié)構(gòu),不清楚搜索的高昂代價,極容易在"黑暗"的網(wǎng)絡(luò)中迷失方向,也極容易在"跳躍式"訪問中煩亂不已和在等待一段信息中失去耐心。5、Web信息中"垃圾"非常多Web信息只有很小的一部分是相關(guān)的或有用的。據(jù)說99%的Web信息對于99%的用戶是無用的。雖然這看起來不是很明顯,但一個人只是關(guān)心Web上很小很小一部分信息確是事實,Web所包含的其余信息對用戶來說是不感興趣的,而且會淹沒所希望得到的搜索結(jié)果。6、異構(gòu)的數(shù)據(jù)環(huán)境Web頁面的復(fù)雜性遠比任何傳統(tǒng)的文本文檔復(fù)雜得多。Web上的每一個站點就是一個數(shù)據(jù)源,每個數(shù)據(jù)源都是異構(gòu)的,各自的信息和組織不一樣,構(gòu)成了一個巨大的異構(gòu)數(shù)據(jù)環(huán)境。如果想要利用這些數(shù)據(jù)進行數(shù)據(jù)挖掘,必須要解決站點之間異構(gòu)數(shù)據(jù)的集成問題。4.2自適應(yīng)網(wǎng)站技術(shù)為了更好地滿足人性化訪問地要求,必須做進一步基于網(wǎng)站自身的挖掘。因而提出了基于Web日志的數(shù)據(jù)挖掘的自適應(yīng)網(wǎng)站技術(shù)。所謂自適應(yīng)網(wǎng)站是指：對于特定的網(wǎng)站和特定的用戶,通過學(xué)習(xí)訪問者或用戶的訪問模式自動改善其組織和信息描述方式的網(wǎng)站。由于挖掘是基于用戶的瀏覽行為而不是用戶輸入的數(shù)據(jù),從而消除了描述的差異,適用于個性化服務(wù)。其優(yōu)點是適用范圍廣,不需要用戶參與,不涉及隱私,數(shù)據(jù)真實。其缺點是數(shù)據(jù)的雜質(zhì)特性,在區(qū)分使用者、會話、識別會話的終結(jié)點方面存在著許多困難。自適應(yīng)網(wǎng)站建立的主要目的是消除網(wǎng)站設(shè)計者假設(shè)的用戶興趣和網(wǎng)站使用者興趣的差別。網(wǎng)站設(shè)計者在設(shè)計時總是基于某些用戶為什么及怎樣訪問網(wǎng)站的假設(shè),并據(jù)此規(guī)劃網(wǎng)站,然而使用者的需要往往與設(shè)計者假設(shè)的用戶需要并不相同。此時設(shè)計者與使用者之間就存在著一條"興趣溝",而自適應(yīng)Web數(shù)據(jù)挖掘可以很好的消除這條"溝"。自適應(yīng)的周期要經(jīng)歷4個階段,數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、數(shù)據(jù)分析、網(wǎng)站改進。整個過程是不斷循環(huán)不斷完善的。在以上的自適應(yīng)Web數(shù)據(jù)挖掘中有一個重要的基礎(chǔ)就是數(shù)據(jù)的準(zhǔn)確性；必須有準(zhǔn)確的數(shù)據(jù)才能每次都正確地反映使用者的意圖,從而可以使分析沿著正確的方向進行。由于日志記錄和HTTP協(xié)議的自身原因,日志數(shù)據(jù)是雜亂的,還原的信息可能包含錯誤信息,因此對日志信息進行準(zhǔn)確的預(yù)處理是非常關(guān)鍵的。4.3Web數(shù)據(jù)挖掘的研究熱點當(dāng)前,數(shù)據(jù)挖掘研究正方興未艾,尤其是對基于Web的數(shù)據(jù)挖掘的研究,研究熱點可能會集中到以下幾個方面:<1>研究專門的數(shù)據(jù)挖掘語言,使其像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化。<2>尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識發(fā)現(xiàn)過程中能夠方便地進行人－機交互。<3>研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù),特別是在Internet上與數(shù)據(jù)庫服務(wù)器配合,實現(xiàn)數(shù)據(jù)挖掘。<4>加強對各種非結(jié)構(gòu)化數(shù)據(jù)的挖掘,如文本數(shù)據(jù)、圖形圖像數(shù)據(jù)、多媒體數(shù)據(jù)。但是,無論怎樣,需求牽引和市場驅(qū)動是永恒的,數(shù)據(jù)挖掘技術(shù)<尤其是基于Web的數(shù)據(jù)挖掘技術(shù)>將首先滿足信息時代用戶的急需,大量基于數(shù)據(jù)挖掘的決策支持軟件工具產(chǎn)品不久將會問世。4.4Web挖掘分類一般將Web挖掘定義為：從WWW的資源和行為中抽取感興趣的、有用的模式和隱含的信息。一般地,Web挖掘可分為3類：Web內(nèi)容挖掘〔WebContentMining、Web結(jié)構(gòu)挖掘〔WebStructureMining和Web使用記錄挖掘〔WebUsageMining。下圖是Web挖掘的分類圖：1、Web內(nèi)容挖掘Web內(nèi)容挖掘是從文檔內(nèi)容或文檔描述中抽取知識的過程。Web文檔內(nèi)容的挖掘,基于概念索引的資源發(fā)現(xiàn),以及基于代理的技術(shù)都屬于這一類。Web內(nèi)容挖掘有兩種策略：直接挖掘文檔的內(nèi)容；在工具搜索的基礎(chǔ)上進行改進。采用第1種策略的有：針對Web的查詢語言Weblog、WebOQL等,利用啟發(fā)式規(guī)則來尋找個人主頁信息的Ahoy等等。采用第2種策略的方法,主要是對搜索引擎的查詢結(jié)果進行進一步的處理,得到更為精確和有用的信息。屬于該類的有WebSQL,及對搜索引擎的返回結(jié)果進行聚類的技術(shù)等。2、Web結(jié)構(gòu)挖掘Web結(jié)構(gòu)挖掘是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中挖掘知識。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對頁面進行排序,發(fā)現(xiàn)重要的頁面。這方面工作的代表有PageRank和CLEVER。此外,在多層次Web數(shù)據(jù)倉庫中,也利用了頁面的鏈接結(jié)構(gòu)。3、Web使用記錄挖掘Web使用記錄挖掘的主要目標(biāo)則是從Web的訪問記錄中抽取感興趣的模式。WWW中的每個服務(wù)器都保留了訪問日志〔Webaccesslog,記錄了關(guān)于用戶訪問和交互的信息。分析這些數(shù)據(jù)可以幫助理解用戶的行為,從而改進站點的結(jié)構(gòu),或為用戶提供個性化的服務(wù)。這方面的研究主要有兩個方向：一般訪問模式的追蹤和個性化使用記錄的追蹤。一般訪問模式的追蹤通過分析使用記錄來了解用戶的訪問模式和傾向,以改進站點的組織結(jié)構(gòu)；而個性化使用記錄的追蹤則傾向于分析單個用戶的偏好,其目的是根據(jù)不同用戶的訪問模式,為每個用戶提供定制的站點。4.6Web數(shù)據(jù)挖掘的用途到一個站點的所有訪問者都會留下瀏覽的蹤跡,這些信息自動存儲在Web服務(wù)器的日志文件中。Web分析工具通過分析和處理Web服務(wù)器的日志文件來生成有意義的信息。例如有多少人訪問了該頁面,他們從哪來,哪些頁面最受歡迎等。當(dāng)前經(jīng)濟模式的變化,從傳統(tǒng)實體的商店到Internet上的電子交易,同時也改變了銷售商和顧客的關(guān)系?，F(xiàn)在網(wǎng)上顧客的流動性很大,他們關(guān)注的主要因素是商品的價值,而不像以前注意品牌和地理因素。因此,電子銷售商一個主要挑戰(zhàn)是,如何確定顧客的愛好、興趣和價值取向,以保證在電子時代的競爭力。數(shù)據(jù)挖掘是用來發(fā)現(xiàn)不明顯的、有潛在價值的數(shù)據(jù)。Web上數(shù)據(jù)挖掘的潛力在于應(yīng)用存在的和最新的數(shù)據(jù)挖掘算法,分析Internet服務(wù)器上的日志以及顧客、銷售和產(chǎn)品的外部數(shù)據(jù)。就電子商務(wù)而言,Web數(shù)據(jù)挖掘有以下三個方面的益處：〔1理解顧客行為：通過理解訪問者的動態(tài)行為來優(yōu)化電子商務(wù)網(wǎng)站的經(jīng)營模式；電子銷售商可以獲知訪問者的個人愛好；決定網(wǎng)站上由訪問者到購買者的轉(zhuǎn)化率；決定顧客的回頭率〔顧客第二次購買同一品牌的概率；發(fā)現(xiàn)顧客的購買模式和訪問者的瀏覽模式；發(fā)現(xiàn)什么樣的顧客群在網(wǎng)站上購買什么商品；發(fā)現(xiàn)電子商務(wù)網(wǎng)站上顧客之間的聯(lián)系?！?判斷Web站點的效率：發(fā)現(xiàn)站點上的高購買率部分和低購買率部分；Web設(shè)計者不再依靠專家的定性指導(dǎo)來設(shè)計網(wǎng)站,而是根據(jù)訪問者的信息來修改和設(shè)計網(wǎng)站的結(jié)構(gòu)和外觀；電子銷售商可以根據(jù)不同的客戶提供個性化服務(wù)?！?評估電子商務(wù)模式的成功與否：容易將用戶按模式分類；容易評測廣告的投資回報率；容易得到可靠的市場回饋信息。4.7XML與Web數(shù)據(jù)挖掘技術(shù)以XML為基礎(chǔ)的新一代WWW環(huán)境是直接面對Web數(shù)據(jù)的,不僅可以很好地兼容原有的Web應(yīng)用,而且可以更好地實現(xiàn)Web中的信息共享與交換。XML可看作一種半結(jié)構(gòu)化的數(shù)據(jù)模型,可以很容易地將XML的文檔描述與關(guān)系數(shù)據(jù)庫中的屬性一一對應(yīng)起來,實施精確地查詢與模型抽取。1.XML的產(chǎn)生與發(fā)展XML<eXtensibleMarkupLanguage>是由萬維網(wǎng)協(xié)會<W3C>設(shè)計,特別為Web應(yīng)用服務(wù)的SGML〔StandardGeneralMarkupLanguage的一個重要分支?？偟膩碚f,XML是一種中間標(biāo)記語言〔Meta-markupLanguage,可提供描述結(jié)構(gòu)化資料的格式,是一種類似于HTML,被設(shè)計用來描述數(shù)據(jù)的語言。XML提供了一種獨立的運行程序的方法來共享數(shù)據(jù),它是用來自動描述信息的一種新的標(biāo)準(zhǔn)語言。XML由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標(biāo)記語言,并能用一種被稱為分析程序的簡明程序處理所有新創(chuàng)建的標(biāo)記語言,正如HTML為第一個計算機用戶閱讀Internet文檔提供一種顯示方式一樣,XML也創(chuàng)建了一種任何人都能讀出和寫入的世界語。XML解決了HTML不能解決的兩個Web問題,即Internet發(fā)展速度快而接入速度慢的問題,以及可利用的信息多,但難以找到自己需要的那部分信息的問題。XML能增加結(jié)構(gòu)和語義信息,可使計算機和服務(wù)器即時處理多種形式的信息。因此,運用XML的擴展功能不僅能從Web服務(wù)器下載大量的信息,還能大大減少網(wǎng)絡(luò)業(yè)務(wù)量。XML中的標(biāo)志<TAG>是沒有預(yù)先定義的,使用者必須要自定義需要的標(biāo)志,XML是能夠進行自解釋<SelfDescribing>的語言。XML使用DTD<DocumentTypeDefinition文檔類型定義>來顯示這些數(shù)據(jù),XSL<eXtensibleStyleSheetLanguage>是一種來描述這些文檔如何顯示的機制,它是XML的樣式表描述語言。XSL的歷史比HTML用的CSS<層疊式樣式表CascadingStyleSheets>還要悠久,XSL包括兩部分：一個用來轉(zhuǎn)換XML文檔的方法；一個用來格式化XML文檔的方法。XLL〔eXtensibleLinkLanguage是XML連接語言,它提供XML中的連接,與HTML中的類似,但功能更強大。使用XLL,可以多方向連接,且連接可以存在于對象層級,而不僅僅是頁面層級。由于XML能夠標(biāo)記更多的信息,所以它就能使用戶很輕松地找到他們需要的信息。利用XML,Web設(shè)計人員不僅能創(chuàng)建文字和圖形,而且還能構(gòu)建文檔類型定義的多層次、相互依存的系統(tǒng)、數(shù)據(jù)樹、元數(shù)據(jù)、超鏈接結(jié)構(gòu)和樣式表。2.XML的特點正是XML的特點決定了其卓越的性能表現(xiàn)。XML作為一種標(biāo)記語言,有許多特點：〔1簡單。XML經(jīng)過精心設(shè)計,整個規(guī)范簡單明了,它由若干規(guī)則組成,這些規(guī)則可用于創(chuàng)建標(biāo)記語言,并能用一種常常稱為分析程序的簡明程序處理所有新創(chuàng)建的標(biāo)記語言。XML能創(chuàng)建一種任何人都能讀出和寫入的世界語,這種創(chuàng)建世界語的功能叫做統(tǒng)一性功能。如XML創(chuàng)建的標(biāo)記總是成對出現(xiàn),以及依靠稱為統(tǒng)一代碼的新的編碼標(biāo)準(zhǔn)?！?開放。XML是SGML在市場上有許多成熟的軟件可用來幫助編寫、管理等,開放式標(biāo)準(zhǔn)XML的基礎(chǔ)是經(jīng)過驗證的標(biāo)準(zhǔn)技術(shù),并針對網(wǎng)絡(luò)做最佳化。眾多業(yè)界頂尖公司,與W3C的工作群組并肩合作,協(xié)助確保交互作業(yè)性,支持各式系統(tǒng)和瀏覽器上的開發(fā)人員、作者和使用者,以及改進XML標(biāo)準(zhǔn)。XML解釋器可以使用編程的方法來載入一個XML的文檔,當(dāng)這個文檔被載入以后,用戶就可以通過XML文件對象模型來獲取和操縱整個文檔的信息,加快了網(wǎng)絡(luò)運行速度?！?高效且可擴充。支持復(fù)用文檔片斷,使用者可以發(fā)明和使用自己的標(biāo)簽,也可與他人共享,可延伸性大,在XML中,可以定義無限量的一組標(biāo)注。XML提供了一個標(biāo)示結(jié)構(gòu)化資料的架構(gòu)。一個XML組件可以宣告與其相關(guān)的資料為零售價、營業(yè)稅、書名、數(shù)量或其它任何數(shù)據(jù)元素。隨著世界范圍內(nèi)的許多機構(gòu)逐漸采用XML標(biāo)準(zhǔn),將會有更多的相關(guān)功能出現(xiàn)：一旦鎖定資料,便可以使用任何方式透過電纜線傳遞,并在瀏覽器中呈現(xiàn),或者轉(zhuǎn)交到其他應(yīng)用程序做進一步的處理。XML提供了一個獨立的運用程序的方法來共享數(shù)據(jù),使用DTD,不同的組中的人就能夠使用共同的DTD來交換數(shù)據(jù)。你的應(yīng)用程序可以使用這個標(biāo)準(zhǔn)的DTD來驗證你接受到的數(shù)據(jù)是否有效,你也可以使用一個DTD來驗證你自己的數(shù)據(jù)。〔4國際化。標(biāo)準(zhǔn)國際化,且支持世界上大多數(shù)文字。這源于依靠它的統(tǒng)一代碼的新的編碼標(biāo)準(zhǔn),這種編碼標(biāo)準(zhǔn)支持世界上所有以主要語言編寫的混合文本。在HTML中,就大多數(shù)字處理而言,一個文檔一般是用一種特殊語言寫成的,不管是英語,還是日語或阿拉伯語,如果用戶的軟件不能閱讀特殊語言的字符,那么他就不能使用該文檔。但是能閱讀XML語言的軟件就能順利處理這些不同語言字符的任意組合。因此,XML不僅能在不同的計算機系統(tǒng)之間交換信息,而且能跨國界和超越不同文化疆界交換信息。3.XML在Web數(shù)據(jù)挖掘中的應(yīng)用XML已經(jīng)成為正式的規(guī)范,開發(fā)人員能夠用XML的格式標(biāo)記和交換數(shù)據(jù)。XML在三層架構(gòu)上為數(shù)據(jù)處理提供了很好的方法。XML應(yīng)用于以下四個方面：需要Web客戶端在兩個或更多異質(zhì)數(shù)據(jù)庫之間進行通信的應(yīng)用；試圖將大部分處理負(fù)載從Web服務(wù)器轉(zhuǎn)到Web客戶端的應(yīng)用；需要Web客戶端將同樣的數(shù)據(jù)以不同的瀏覽形式提供給不同的用戶的應(yīng)用；需要智能Web代理根據(jù)個人用戶的需要裁減信息內(nèi)容的應(yīng)用。顯然,這些應(yīng)用和Web的數(shù)據(jù)挖掘技術(shù)有著重要的聯(lián)系,基于Web的數(shù)據(jù)挖掘必須依靠它們來實現(xiàn)。XML給基于Web的應(yīng)用軟件賦予了強大的功能和靈活性,因此它給開發(fā)者和用戶帶來了許多好處。比如：〔1進行更有意義的搜索,并且Web數(shù)據(jù)可被XML唯一地標(biāo)識。沒有XML,搜索軟件必須了解每個數(shù)據(jù)庫是如何構(gòu)建的,但這實際上是不可能的,因為每個數(shù)據(jù)庫描述數(shù)據(jù)的格式幾乎都是不同的。由于不同來源數(shù)據(jù)的集成問題的存在,現(xiàn)在搜索多樣的不兼容的數(shù)據(jù)庫實際上是不可能的。XML能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起。軟件代理商可以在中間層的服務(wù)器上對從后端數(shù)據(jù)庫和其它應(yīng)用處來的數(shù)據(jù)進行集成。然后,數(shù)據(jù)就能被發(fā)送到客戶或其他服務(wù)器做進一步的集成、處理和分發(fā)?！?XML的擴展性和靈活性允許它描述不同種類應(yīng)用軟件中的數(shù)據(jù),從描述搜集的Web頁到數(shù)據(jù)記錄,從而通過多種應(yīng)用得到數(shù)據(jù)。〔3由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理?！?利用XML,用戶可以方便地進行本地計算和處理,XML格式的數(shù)據(jù)發(fā)送給客戶后,客戶可以用應(yīng)用軟件解析數(shù)據(jù)并對數(shù)據(jù)進行編輯和處理。使用者可以用不同的方法處理數(shù)據(jù),而不僅僅是顯示它。〔5XML文檔對象模式<DOM>允許用腳本或其他編程語言處理數(shù)據(jù),數(shù)據(jù)計算不需要回到服務(wù)器就能進行。〔6XML可以被利用來分離使用者觀看數(shù)據(jù)的界面,使用簡單靈活開放的格式,可以給Web創(chuàng)建功能強大的應(yīng)用軟件,而原來這些軟件只能建立在高端數(shù)據(jù)庫上。另外,數(shù)據(jù)發(fā)到桌面后,能夠用多種方式顯示。〔7XML還可以通過以簡單開放擴展的方式描述結(jié)構(gòu)化的數(shù)據(jù),XML補充了HTML,被廣泛地用來描述使用者界面。HTML描述數(shù)據(jù)的外觀,而XML描述數(shù)據(jù)本身。由于數(shù)據(jù)顯示與內(nèi)容分開,XML定義的數(shù)據(jù)允許指定不同的顯示方式,使數(shù)據(jù)更合理地表現(xiàn)出來。本地的數(shù)據(jù)能夠以客戶配置、使用者選擇或其他標(biāo)準(zhǔn)決定的方式動態(tài)地表現(xiàn)出來。CSS和XSL為數(shù)據(jù)的顯示提供了公布的機制?！?通過XML,數(shù)據(jù)可以粒狀地更新。每當(dāng)一部分?jǐn)?shù)據(jù)變化后,不需要重發(fā)整個結(jié)構(gòu)化的數(shù)據(jù)。變化的元素必須從服務(wù)器發(fā)送給客戶,變化的數(shù)據(jù)不需要刷新整個使用者的界面就能夠顯示出來。但在目前,只要一條數(shù)據(jù)變化了,整一頁都必須重建。這嚴(yán)重限制了服務(wù)器的升級性能。XML也允許加進其他數(shù)據(jù),比如預(yù)測的溫度。加入的信息能夠進入存在的頁面,不需要瀏覽器重新發(fā)一個新的頁面?！?XML應(yīng)用于客戶需要與不同的數(shù)據(jù)源進行交互時,數(shù)據(jù)可能來自不同的數(shù)據(jù)庫,它們都有各自不同的復(fù)雜格式。但客戶與這些數(shù)據(jù)庫間只通過XML一種標(biāo)準(zhǔn)語言進行交互。由于XML的自定義性及可擴展性,它足以表達各種類型的數(shù)據(jù)?？蛻羰盏綌?shù)據(jù)后可以進行處理,也可以在不同數(shù)據(jù)庫間進行傳遞。在這類應(yīng)用中,XML解決了數(shù)據(jù)的統(tǒng)一接口問題。但是,與其他的數(shù)據(jù)傳遞標(biāo)準(zhǔn)不同的是,XML并沒有定義數(shù)據(jù)文件中數(shù)據(jù)出現(xiàn)的具體規(guī)范,而是在數(shù)據(jù)中附加TAG來表達數(shù)據(jù)的邏輯結(jié)構(gòu)和含義。這使XML成為一種程序能自動理解的規(guī)范。〔10XML應(yīng)用于將大量運算負(fù)荷分布在客戶端,即客戶可根據(jù)自己的需求選擇和制作不同的應(yīng)用程序以處理數(shù)據(jù),而服務(wù)器只須發(fā)出同一個XML文件。如按傳統(tǒng)的"Client/Server"工作方式,客戶向服務(wù)器發(fā)出不同的請求,服務(wù)器分別予以響應(yīng),這不僅加重服務(wù)器本身的負(fù)荷,而且網(wǎng)絡(luò)管理者還須事先調(diào)查各種不同的用戶需求以做出相應(yīng)不同的程序,但假如用戶的需求繁雜而多變,則仍然將所有業(yè)務(wù)邏輯集中在服務(wù)器端是不合適的,因為服務(wù)器端的編程人員可能來不及滿足眾多的應(yīng)用需求,也來不及跟上需求的變化,雙方都很被動。應(yīng)用XML則將處理數(shù)據(jù)的主動權(quán)交給了客戶,服務(wù)器所作的只是盡可能完善、準(zhǔn)確地將數(shù)據(jù)封裝進XML文件中,正是各取所需、各司其職。XML的自解釋性使客戶端在收到數(shù)據(jù)的同時也理解數(shù)據(jù)的邏輯結(jié)構(gòu)與含義,從而使廣泛、通用的分布式計算成為可能。〔11XML還被應(yīng)用于網(wǎng)絡(luò)代理,以便對所取得的信息進行編輯、增減以適應(yīng)個人用戶的需要。有些客戶取得數(shù)據(jù)并不是為了直接使用而是為了根據(jù)需要組織自己的數(shù)據(jù)庫。比方說,教育部門要建立一個龐大的題庫,考試時將題庫中的題目取出若干組成試卷,再將試卷封裝進XML文件,接下來在各個學(xué)校讓其通過一個過濾器,濾掉所有的答案,再發(fā)送到各個考生面前,未經(jīng)過濾的內(nèi)容則可直接送到老師手中,當(dāng)然考試過后還可以再傳送一份答案匯編。此外,XML文件中還可以包含進諸如難度系數(shù)、往年錯誤率等其他相關(guān)信息,這樣只需幾個小程序,同一個XML文件便可變成多個文件傳送到不同的用戶手中。第5節(jié)時序數(shù)據(jù)和序列數(shù)據(jù)的挖掘概述5.1時序數(shù)據(jù)庫與序列數(shù)據(jù)庫時序〔time-series數(shù)據(jù)庫：由隨時間變化的序列值或事件組成的數(shù)據(jù)庫。序列值通常是在等時間間隔測得的數(shù)據(jù)〔如股票的每日收盤價等。序列數(shù)據(jù)庫：由有序事件的序列組成的數(shù)據(jù)庫。它可以有時間標(biāo)記,也可以沒有時間標(biāo)記〔如Web頁面訪問序列。兩者關(guān)系：時序數(shù)據(jù)一定是序列數(shù)據(jù)；序列數(shù)據(jù)不一定是時序數(shù)據(jù)。5.2時序數(shù)據(jù)與序列數(shù)據(jù)挖掘的類型<1>時序數(shù)據(jù)的趨勢分析：分析時序數(shù)據(jù)隨數(shù)據(jù)變化的趨勢。<2>時序分析中的相似搜索：查詢與給定查詢序列最接近的數(shù)據(jù)序列。<3>時序數(shù)據(jù)的周期分析：對周期模式的挖掘〔即在時序數(shù)據(jù)庫中找出重復(fù)出現(xiàn)的模式。<4>序列模式挖掘：挖掘相對時間或其他模式出現(xiàn)頻率高分模式。5.3時序數(shù)據(jù)的趨勢分析1.時序數(shù)據(jù)的變化類型<1>長期趨勢變化<Long-termortrendmovement>：反映時序數(shù)據(jù)在較長時間間隔的變化趨勢。典型方法是加權(quán)移動平均法和最小二乘法。<2>循環(huán)變化<Cyclicmovement>：趨勢線呈現(xiàn)擺動跡象,它可以是周期性的也可以不是周期性的,即在等時間間隔之間循環(huán)不一定按照相同的模式演進。<3>季節(jié)性變化<Seasonalmovement>：反映每年都重復(fù)出現(xiàn)的事件,即同一或近似同一的模式在連續(xù)幾年所有關(guān)期間重復(fù)出現(xiàn)〔如情人節(jié)前巧克力和鮮花銷量大增等。<4>非規(guī)則或隨機變化<Irregularorrandommovement>由于隨機或偶然事件〔人自然災(zāi)害、恐怖襲擊、勞工糾紛、企業(yè)高層人事變動等引起的時序數(shù)據(jù)變化。時序分析即將時序數(shù)據(jù)分解為以上趨勢的、周期的、季節(jié)性的和非規(guī)則的四種基本變化〔分別使用變量T、C、S、I表示的分析。2．加權(quán)移動平均方法對給定的一組值〔y1,y2,…,yn,…,計算n階移動平均值序列：〔y1＋y2,＋…＋yn/n〔y2＋y3,＋…＋yn+1/n〔y3＋y4,＋…＋yn+2/n ……使用移動平均值序列代替時序序列可減少不希望出現(xiàn)的波動,故又稱為時序數(shù)據(jù)的平

人人文庫> 全部分類> 應(yīng)用文書 > 辦公表格

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘與知識發(fā)現(xiàn)(講稿12-文本挖掘)

文檔簡介

溫馨提示

最新文檔

評論