數(shù)據(jù)挖掘讀書筆記_第1頁
數(shù)據(jù)挖掘讀書筆記_第2頁
數(shù)據(jù)挖掘讀書筆記_第3頁
數(shù)據(jù)挖掘讀書筆記_第4頁
數(shù)據(jù)挖掘讀書筆記_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1/1數(shù)據(jù)挖掘讀書筆記

導(dǎo)語:數(shù)據(jù)挖掘(DataMining)是一項(xiàng)較新的數(shù)據(jù)庫技術(shù),它基于由日常積累的大量數(shù)據(jù)所構(gòu)成的數(shù)據(jù)庫,從中發(fā)現(xiàn)潛在的、有價(jià)值的信息——稱為知識(shí),用于支持決策。以下xx為大家介紹文章,歡迎大家閱讀參考!

1、數(shù)據(jù)挖掘要解決的問題

可伸縮(算法在處理各種規(guī)模的數(shù)據(jù)時(shí)都有很好的性能。隨著數(shù)據(jù)的增大,效率不會(huì)下降很快。)

高維性(簡(jiǎn)單的說就是多維數(shù)據(jù)的意思。平時(shí)我們經(jīng)常接觸的是一維數(shù)據(jù)或者可以寫成表形式的二維數(shù)據(jù),高維數(shù)據(jù)也可以類推,不過維數(shù)較高的時(shí)候,直觀表示很難。)

異種數(shù)據(jù)和復(fù)雜數(shù)據(jù)

數(shù)據(jù)的所有權(quán)與分布(分布式數(shù)據(jù)挖掘:應(yīng)付分布式海量數(shù)據(jù)的現(xiàn)代方法)

非傳統(tǒng)的分析(傳統(tǒng)方法:基于一種假設(shè)-檢驗(yàn)?zāi)J剑粩?shù)據(jù)挖掘分析-時(shí)機(jī)性樣本,而不是隨機(jī)樣本)

2、數(shù)據(jù)挖掘任務(wù)

1)預(yù)測(cè)任務(wù)(目標(biāo)變量/因變量:被預(yù)測(cè)的屬性;說明變量/自變量:用來做預(yù)測(cè)的屬性)

2)描述任務(wù)

A預(yù)測(cè)建模:分類-預(yù)測(cè)離散的目標(biāo)變量和回歸-預(yù)測(cè)連續(xù)的目標(biāo)變量

B關(guān)聯(lián)分析

C聚類分析

D異常檢測(cè)(識(shí)別其特征顯著不同于其他數(shù)據(jù)的觀測(cè)值。這樣的觀測(cè)值稱為異常點(diǎn)或離群點(diǎn))

3、屬性的四種類型

1)標(biāo)稱

2)序數(shù)

3)區(qū)間

4)比率

(布爾變量:BooleanVariable(布爾型變量)是有兩種邏輯狀態(tài)的變量,它包含兩個(gè)值:真和假。如果在表達(dá)式中使用了布爾型變量,那么將根據(jù)變量值的真假而賦予整型值1或0。)

2

1.確定業(yè)務(wù)對(duì)象

清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步.挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的.

2.數(shù)據(jù)準(zhǔn)備

1)數(shù)據(jù)清理

消除噪聲或不一致數(shù)據(jù)。

2)數(shù)據(jù)集成

多種數(shù)據(jù)源可以組合在一起

3)數(shù)據(jù)選擇

搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù).

4)數(shù)據(jù)變換

將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型.這個(gè)分析模型是針對(duì)挖掘算法建立的.建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵.

3.數(shù)據(jù)挖掘

對(duì)所得到的經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘.除了完善從選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成.

4.結(jié)果分析

解釋并評(píng)估結(jié)果.其使用的分析方法一般應(yīng)作數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù).

5.知識(shí)的同化

將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去.

3、數(shù)據(jù)挖掘熱點(diǎn)

電子商務(wù)網(wǎng)站的.數(shù)據(jù)挖掘

在對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘時(shí),所需要的數(shù)據(jù)主要來自于兩個(gè)方面:一方面是客戶的背景信息,此部分信息主要來自于客戶的登記表;而另外一部分?jǐn)?shù)據(jù)主要來自瀏覽者的點(diǎn)擊流,此部分?jǐn)?shù)據(jù)主要用于考察客戶的行為表現(xiàn)。但有的時(shí)候,客戶對(duì)自己的背景信息十分珍重,不肯把這部分信息填寫在登記表上,這就會(huì)給數(shù)據(jù)分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現(xiàn)數(shù)據(jù)中來推測(cè)客戶的背景信息,進(jìn)而再加以利用。就分析和建立模型的技術(shù)和算法而言,網(wǎng)站的數(shù)據(jù)挖掘和原來的數(shù)據(jù)挖掘差別并不是特別大,很多方法和分析思想都可以運(yùn)用。所不同的是網(wǎng)站的數(shù)據(jù)格式有很大一部分來自于點(diǎn)擊流,和傳統(tǒng)的數(shù)據(jù)庫格式有區(qū)別。因而對(duì)電子商務(wù)網(wǎng)站進(jìn)行數(shù)據(jù)挖掘所做的主要工作是數(shù)據(jù)準(zhǔn)備。

生物基因的數(shù)據(jù)挖掘

生物基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但對(duì)于人類卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正?;??這都需要數(shù)據(jù)挖掘技術(shù)的支持。對(duì)于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復(fù)雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復(fù)雜得多。從分析算法上講,更需要一些新的和好的算法。現(xiàn)在還遠(yuǎn)沒有達(dá)到成熟的地步。

文本的數(shù)據(jù)挖掘

在現(xiàn)實(shí)世界中,可獲取的大部分信息是存儲(chǔ)在文本數(shù)據(jù)庫中的,由來自各種數(shù)據(jù)源的大量文檔組成。由于電子形式的信息量的飛速增長,文本數(shù)據(jù)庫得到飛速的發(fā)展。文檔數(shù)據(jù)庫中存儲(chǔ)最多的數(shù)據(jù)是所謂的半結(jié)構(gòu)化數(shù)據(jù)(semistructuredata),它既不是完全無結(jié)構(gòu)的,也不是完全結(jié)構(gòu)化的。在最近數(shù)據(jù)庫領(lǐng)域研究中已由大量有關(guān)半結(jié)構(gòu)化數(shù)據(jù)的建模和實(shí)現(xiàn)方面的研究。而且,信息檢索技術(shù)已經(jīng)被用來處理費(fèi)結(jié)構(gòu)化文檔。傳統(tǒng)的信息檢索已經(jīng)不適應(yīng)日益增長的大量文本數(shù)據(jù)處理的需要。因此,文檔挖掘就成為數(shù)據(jù)挖掘中一個(gè)日益流行而重要的流行課題。

數(shù)據(jù)挖掘

Web上有海量的數(shù)據(jù)信息,怎樣對(duì)這些數(shù)據(jù)進(jìn)行復(fù)雜的應(yīng)用成了現(xiàn)今數(shù)據(jù)庫技術(shù)的研究熱點(diǎn)。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題。充分利用有用的數(shù)據(jù),廢棄虛偽無用的數(shù)據(jù),是數(shù)據(jù)挖掘技術(shù)的最重要的應(yīng)用。顯然,面向Web的數(shù)據(jù)挖掘比面向單個(gè)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多。因?yàn)樗媾R如下諸多挑戰(zhàn):

1、對(duì)于有效的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘而言,Web的存儲(chǔ)量實(shí)在是太龐大了。

2、Web頁面的復(fù)雜性遠(yuǎn)比任何傳統(tǒng)的文本文檔復(fù)雜得多。

3、Web是一個(gè)動(dòng)態(tài)性極強(qiáng)得信息源。

4、Web面對(duì)的是一個(gè)廣泛形形色色的用戶群體。

5、Web上的信息只有很小的一部分是相關(guān)的或有用的。

一般的,Web數(shù)據(jù)挖掘可分為三類:Web內(nèi)容挖掘(Webcontentmining),Web結(jié)構(gòu)挖掘(Webstructuremining),Web使用紀(jì)律挖掘(Webusagemining)。

面向Web的數(shù)據(jù)挖掘是一項(xiàng)復(fù)雜的技術(shù),由于上述種種挑戰(zhàn)的存在,因而面向Web的數(shù)據(jù)挖掘成了一個(gè)難以解決的問題。而XML的出現(xiàn)為解決Web數(shù)據(jù)挖掘的難題帶來了機(jī)會(huì)。由于XML能夠使不同來源的結(jié)構(gòu)化的數(shù)據(jù)很容易地結(jié)合在一起,因而使搜索多樣的不兼容的數(shù)據(jù)庫能夠成為可能,從而為解決Web數(shù)據(jù)挖掘難題帶來了希望。XML的擴(kuò)展性和靈活性允許XML描述不同種類應(yīng)用軟件中的數(shù)據(jù),從而能描述搜集的Web頁中的數(shù)據(jù)記錄。同時(shí),由于基于XML的數(shù)據(jù)是自我描述的,數(shù)據(jù)不需要有內(nèi)部描述就能被交換和處理。作為表示結(jié)構(gòu)化數(shù)據(jù)的一個(gè)工業(yè)標(biāo)準(zhǔn),XML為組織、軟件開發(fā)者、Web站點(diǎn)和終端使用者提供了許多有利條件。相信在以后,隨著XML作為在Web上交換數(shù)據(jù)的一種標(biāo)準(zhǔn)方式的出現(xiàn),面向Web的數(shù)據(jù)挖掘?qū)?huì)變得非常輕松。

4、數(shù)據(jù)挖掘的未來

當(dāng)前,DMKD研究方興未艾,其研究與開發(fā)的總體水平相當(dāng)于數(shù)據(jù)庫技術(shù)在70年代所處的地位,迫切需要類似于關(guān)系模式、DBMS系統(tǒng)和SQL查詢語言等理論和方法的指導(dǎo),才能使DMKD的應(yīng)用得以普遍推廣。DMKD的研究還會(huì)形成更大的高潮,研究焦點(diǎn)可能會(huì)集中到以下幾個(gè)方面:

發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識(shí)發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,也許會(huì)像SQL語言一樣走向形式化和標(biāo)準(zhǔn)化。

尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識(shí)發(fā)現(xiàn)的過程能夠被用戶理解,也便于在知識(shí)發(fā)現(xiàn)的過程中進(jìn)行人機(jī)交互。

研究在網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù)(WebMining),特別是在因特網(wǎng)上建立DMKD服務(wù)器,并且與數(shù)據(jù)庫服務(wù)器配合,實(shí)現(xiàn)WebMining。

加強(qiáng)對(duì)各種非結(jié)構(gòu)化數(shù)據(jù)的開采(DataMiningforAudio&Video),如對(duì)文本數(shù)據(jù)、圖形數(shù)據(jù)、視頻圖像數(shù)據(jù)、聲音數(shù)據(jù)乃至綜合多媒體數(shù)據(jù)的開采。

交互式發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論