通信學(xué)論文-網(wǎng)絡(luò)信息資源的數(shù)據(jù)挖掘類型與應(yīng)用研究.doc_第1頁(yè)
通信學(xué)論文-網(wǎng)絡(luò)信息資源的數(shù)據(jù)挖掘類型與應(yīng)用研究.doc_第2頁(yè)
通信學(xué)論文-網(wǎng)絡(luò)信息資源的數(shù)據(jù)挖掘類型與應(yīng)用研究.doc_第3頁(yè)
通信學(xué)論文-網(wǎng)絡(luò)信息資源的數(shù)據(jù)挖掘類型與應(yīng)用研究.doc_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

通信學(xué)論文-網(wǎng)絡(luò)信息資源的數(shù)據(jù)挖掘類型與應(yīng)用研究隨著Internet的飛速發(fā)展,網(wǎng)絡(luò)信息資源急劇增長(zhǎng),網(wǎng)絡(luò)信息過(guò)載問(wèn)題日益突出,人們?cè)絹?lái)越多地關(guān)注如何開(kāi)發(fā)和利用這些資源。然而,目前中英文搜索引擎均存在查準(zhǔn)率、查全率不高的現(xiàn)象,這種現(xiàn)狀無(wú)法適應(yīng)用戶對(duì)高質(zhì)量的網(wǎng)絡(luò)信息服務(wù)的需求;同時(shí),電子商務(wù)以及各種網(wǎng)絡(luò)信息服務(wù)迅速興起,原有的網(wǎng)絡(luò)信息處理與組織技術(shù)無(wú)法趕上這樣的發(fā)展趨勢(shì)。網(wǎng)絡(luò)信息挖掘就是在這樣的環(huán)境下應(yīng)運(yùn)而生,并迅速成為網(wǎng)絡(luò)信息檢索、信息服務(wù)領(lǐng)域的熱點(diǎn)之一。網(wǎng)絡(luò)信息的數(shù)據(jù)挖掘不僅包括對(duì)網(wǎng)頁(yè)內(nèi)容本身的挖掘,也包括其鏈接模式,以及用戶訪問(wèn)、存取、瀏覽、發(fā)布、操作等操作行為、訪問(wèn)行為所產(chǎn)生的信息的挖掘。有效地研究、挖掘、利用網(wǎng)絡(luò)信息可以增強(qiáng)網(wǎng)站的吸引力,有的放矢地吸引用戶群,更有效地利用網(wǎng)絡(luò)資源。一、網(wǎng)絡(luò)信息資源及其特點(diǎn)網(wǎng)絡(luò)信息資源是指放置在英特網(wǎng)上能滿足人們信息需求的信息集合。網(wǎng)絡(luò)信息資源極其豐富,包羅萬(wàn)象,其內(nèi)容涉及農(nóng)業(yè)、生物、化學(xué)、數(shù)學(xué)、天文學(xué)、航天、氣象、地理、計(jì)算機(jī)、醫(yī)療和保險(xiǎn)、歷史、法律、音樂(lè)和電影等幾乎所有專業(yè)領(lǐng)域,是知識(shí)、信息的巨大集合,是人類的資源寶庫(kù)。網(wǎng)絡(luò)信息資源是一種新型數(shù)字化資源,與傳統(tǒng)文獻(xiàn)相比有較大的差別。網(wǎng)絡(luò)信息資源具有一下特點(diǎn):1、數(shù)量大,類型多傳播范圍廣。網(wǎng)絡(luò)信息類型多樣,有文本、數(shù)據(jù)、圖像、圖形、聲頻、視頻信息、多媒體信息等;內(nèi)容既有高質(zhì)量的信息,也有有害信息和虛假信息,有個(gè)人信息也有在政府信息。最為特殊的是各種非正式信息被廣泛生產(chǎn)與傳播。2、網(wǎng)絡(luò)信息資源沒(méi)有統(tǒng)一的管理機(jī)制,信息安全缺乏保障。黑客攻擊、計(jì)算機(jī)病毒和色情泛濫成為網(wǎng)絡(luò)的三大痼疾。為防止有害信息耗費(fèi)了大量的社會(huì)資源。3、網(wǎng)絡(luò)信息資源分布零亂無(wú)序,信息更新快,壽命短,管理相對(duì)困難。信息發(fā)布自由,來(lái)源廣泛,內(nèi)容混雜,質(zhì)量不一,控制也比較困難。4、以網(wǎng)站為信息活動(dòng)的單位,以網(wǎng)頁(yè)為信息發(fā)布和收集的單元。5、信息利用水平取決于網(wǎng)站軟硬件的技術(shù)水平和服務(wù)能力,網(wǎng)絡(luò)信息提供方式是以網(wǎng)站為基點(diǎn)并可在網(wǎng)站間靈活鏈接的信息服務(wù)網(wǎng)。6、網(wǎng)絡(luò)創(chuàng)造了多層次的信息交流模式,全面反應(yīng)了社會(huì)生活的各個(gè)領(lǐng)域,形成了百科全書(shū)式的知識(shí)網(wǎng)絡(luò)和傳播功能。二、數(shù)據(jù)挖掘的語(yǔ)言數(shù)據(jù)挖掘語(yǔ)言有助于數(shù)據(jù)挖掘系統(tǒng)平臺(tái)的標(biāo)準(zhǔn)化,推動(dòng)數(shù)據(jù)挖掘應(yīng)用的發(fā)展。數(shù)據(jù)挖掘語(yǔ)言根據(jù)功能和側(cè)重點(diǎn)的不同,可分為三種類型:數(shù)據(jù)挖掘查詢語(yǔ)言、數(shù)據(jù)挖掘建模語(yǔ)言、通用數(shù)據(jù)挖掘語(yǔ)言。(一)數(shù)據(jù)挖掘查詢語(yǔ)言DMQL數(shù)據(jù)挖掘查詢語(yǔ)言DMQL由數(shù)據(jù)挖掘原語(yǔ)組成。數(shù)據(jù)挖掘原語(yǔ)用來(lái)定義一個(gè)數(shù)據(jù)挖掘任務(wù),通過(guò)查詢的方式實(shí)現(xiàn)與數(shù)據(jù)挖掘系統(tǒng)通信,獲得所需信息。數(shù)據(jù)挖掘查詢語(yǔ)言DMQL主要有五種基本的數(shù)據(jù)挖掘原語(yǔ)定義:任務(wù)相關(guān)數(shù)據(jù)原語(yǔ)、被挖掘的知識(shí)的種類原語(yǔ)、背景知識(shí)原語(yǔ)、興趣度測(cè)量原語(yǔ)、被發(fā)現(xiàn)模式的表示和可視化原語(yǔ)。DMQL是基于這五種數(shù)據(jù)挖掘原語(yǔ)設(shè)計(jì)的查詢式語(yǔ)言,類似于SQL語(yǔ)言的語(yǔ)法,因此很容易與SQL關(guān)系查詢語(yǔ)言集成,很容易從關(guān)系數(shù)據(jù)庫(kù)中挖掘知識(shí)信息。MSQL是另一個(gè)數(shù)據(jù)挖掘查詢語(yǔ)言,由Imielinski和Virmani提出。它使用了類似于SQL的語(yǔ)法和SQL原語(yǔ),為了規(guī)范規(guī)則產(chǎn)生和規(guī)則選擇,提出了被稱作GetRule和SelctRule的原語(yǔ)。(二)數(shù)據(jù)挖掘建模語(yǔ)言PMML數(shù)據(jù)挖掘建模語(yǔ)言PMML全稱預(yù)言模型標(biāo)記語(yǔ)言(PredictiveModelMarkupLanguage),是對(duì)數(shù)據(jù)挖掘模型進(jìn)行描述和定義的語(yǔ)言,使數(shù)據(jù)挖掘系統(tǒng)在模型定義和描述方面有法可依,各種數(shù)據(jù)挖掘系統(tǒng)可以共享模型,又可以在應(yīng)用程序系統(tǒng)中間嵌套數(shù)據(jù)挖掘模型,不需要獨(dú)自開(kāi)發(fā),就能使數(shù)據(jù)挖掘達(dá)到深度挖掘的目的。預(yù)言模型標(biāo)記語(yǔ)言PMML是一種基于XML的數(shù)據(jù)挖掘建模語(yǔ)言,利用XML描述和存儲(chǔ)數(shù)據(jù)挖掘模型,使用標(biāo)準(zhǔn)的XML解析器對(duì)PMML解析,可以得到預(yù)計(jì)的輸入和輸出數(shù)據(jù)類型。PMML2.0主要由:標(biāo)題(header)、數(shù)據(jù)字典(datadictionary)、數(shù)據(jù)流(dataflow)、挖掘模型(miningschema)、數(shù)據(jù)轉(zhuǎn)換(DerivedValues、Statistics、Taxonomy、Normalization)、預(yù)言模型(TreeModel、NaiveBayes、GeneralRegression、RegressionModel、Sequences、GeneralStructure、AsscocationRules、NeuralNetwork、CenterandDistributionbasedClustering)、模型組合定義(ensemblesofmodels)、選擇和聯(lián)合模型和模型組合的規(guī)則(rulesforselectingandcombiningmodelsandensemblesofmodels)、異常處理的規(guī)則(rulesforexceptionhandling)等九個(gè)部分組成。對(duì)于復(fù)雜的數(shù)據(jù)挖掘任務(wù),由多個(gè)數(shù)據(jù)源和數(shù)據(jù)挖掘模塊,需要在各個(gè)模塊之間交換結(jié)果,預(yù)言模型標(biāo)記語(yǔ)言PMML的主要組成部分擁有這種靈活的模型交換能力和數(shù)據(jù)格式轉(zhuǎn)換能力,并實(shí)現(xiàn)模型與數(shù)據(jù)和工具部分分離。因PMML是基于XML的數(shù)據(jù)挖掘建模語(yǔ)言,適合部分學(xué)習(xí)、元學(xué)習(xí)、分布式學(xué)習(xí)的數(shù)據(jù)挖掘應(yīng)用程序。(三)通用數(shù)據(jù)挖掘語(yǔ)言O(shè)LEDBforDM通用數(shù)據(jù)挖掘語(yǔ)言O(shè)LEDBforDM是2000年3月微軟公司推出的一個(gè)數(shù)據(jù)挖掘語(yǔ)言,目的是為數(shù)據(jù)挖掘行業(yè)提供一個(gè)業(yè)界標(biāo)準(zhǔn)。OLEDBforDM綜合了數(shù)據(jù)挖掘查詢語(yǔ)言DMQL和數(shù)據(jù)挖掘建模語(yǔ)言PMML的特點(diǎn),既能定義模型,又能作為查詢語(yǔ)言與數(shù)據(jù)挖掘系統(tǒng)通信,進(jìn)行交互的和特殊的數(shù)據(jù)挖掘,實(shí)現(xiàn)了數(shù)據(jù)與模型真正分離。OLEDBforDM是一種基于SQL預(yù)言的協(xié)議,擴(kuò)充了SQL語(yǔ)言語(yǔ)法,可以輕松地與關(guān)系型數(shù)據(jù)庫(kù)集成,可以將不同的數(shù)據(jù)挖掘算法嵌入數(shù)據(jù)挖掘應(yīng)用程序。OLEDBforDM為了更接近關(guān)系型數(shù)據(jù)庫(kù)結(jié)構(gòu),定義了幾個(gè)重要的概念。數(shù)據(jù)挖掘模型(DataMiningModel,DMM):DMM像數(shù)據(jù)庫(kù)中的關(guān)系表,但是它包含了一些特殊的列,這些列被數(shù)據(jù)挖掘中的數(shù)據(jù)訓(xùn)練和預(yù)言制定使用。DMM既可以用來(lái)創(chuàng)建預(yù)言模型,又可以產(chǎn)生預(yù)言。標(biāo)準(zhǔn)的關(guān)系表用來(lái)存儲(chǔ)原始數(shù)據(jù)而DMM存儲(chǔ)被數(shù)據(jù)挖掘算法發(fā)現(xiàn)的模式,對(duì)于從事WEB挖掘的開(kāi)發(fā)人員,DMM所有的結(jié)構(gòu)和內(nèi)容都可以用XML字符串表示。預(yù)言聯(lián)接操作(PredicationJoinOperation):預(yù)言聯(lián)接操作類似于SQL語(yǔ)言中的連接操作,在一個(gè)訓(xùn)練好的數(shù)據(jù)挖掘模型和輸入數(shù)據(jù)源之間映射一個(gè)連接查詢,將能得到符合需求的預(yù)言結(jié)果。這個(gè)預(yù)言

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論