




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、數(shù)據(jù)挖掘在企業(yè)歷史數(shù)據(jù)中的應(yīng)用 關(guān)鍵詞 數(shù)據(jù)挖掘; 模型; 算法 doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 02 . 026 中圖分類號F270.7 文獻標(biāo)識碼A 文章編號1673 - 0194(2011)02- 0051 - 02 引言 隨著企業(yè)信息化應(yīng)用的不斷深入,各種大型應(yīng)用系統(tǒng)紛紛上線,如( ,企業(yè)資源計劃),( ,客戶關(guān)系管理),( C M,供應(yīng)鏈管理)等,一些小型應(yīng)用軟件及企業(yè)內(nèi)部開發(fā)人員開發(fā)的應(yīng)用軟件的相繼使用,也成為企業(yè)信息化的必要補充。這些應(yīng)用系統(tǒng)規(guī)模大小不一,系統(tǒng)架構(gòu)各異
2、,所使用的數(shù)據(jù)庫也不盡相同,可以是, erver,等主流數(shù)據(jù)庫,甚至也包含,xcel等數(shù)據(jù)源。另外,各種應(yīng)用的功能模塊也不相同,有的多而全,有的小而單一,但主要包含財務(wù)管理、客戶管理、供應(yīng)商管理、進銷存管理等模塊。隨著時間的推移,業(yè)務(wù)記錄越來越多,數(shù)據(jù)庫中的數(shù)據(jù)量也越來越大。對于小型的應(yīng)用軟件,由于系統(tǒng)邏輯相對簡單,可以對數(shù)據(jù)庫中的歷史數(shù)據(jù)按照規(guī)定進行清除,然后將其快速部署在新的硬件環(huán)境上。但是大型應(yīng)用軟件因為系統(tǒng)復(fù)雜,尤其是多組織的跨集團公司的應(yīng)用系統(tǒng),加上數(shù)據(jù)的多年積累,應(yīng)用系統(tǒng)性能每況愈下,此時如果進行數(shù)據(jù)遷移和應(yīng)用移植,一般由專業(yè)公司來做,而且費力費時,需要長時間的測試然后進行切換。通
3、常的做法是,對歷史數(shù)據(jù)進行定期清除,然后通過添加新的存儲設(shè)備來改善系統(tǒng)性能。傳統(tǒng)應(yīng)用系統(tǒng)的使用都局限在業(yè)務(wù)記錄層面,首先業(yè)務(wù)用戶錄入業(yè)務(wù)操作記錄,然后通過查詢或者調(diào)用報表來查看業(yè)務(wù)過程和結(jié)果。更深層的應(yīng)用,是建立在分析的基礎(chǔ)上,則可以就某個獨立應(yīng)用的數(shù)據(jù)庫進行數(shù)據(jù)挖掘,也可以通過數(shù)據(jù)倉庫將企業(yè)不同應(yīng)用系統(tǒng)下異構(gòu)數(shù)據(jù)庫中的歷史數(shù)據(jù)進行整合,然后進行數(shù)據(jù)挖掘,讓歷史數(shù)據(jù)進一步發(fā)揮“余熱”,從而為企業(yè)生產(chǎn)經(jīng)營提供決策支持。數(shù)據(jù)倉庫雖然能整合異構(gòu)數(shù)據(jù)源,并對數(shù)據(jù)進行預(yù)先清理,但由于其成本大,實施周期長,故較少采用。一般較經(jīng)濟的做法是,把應(yīng)用數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入只讀的數(shù)據(jù)庫中,以此作為數(shù)據(jù)集市( ),進行
4、數(shù)據(jù)挖掘。另一方面,隨著數(shù)據(jù)挖掘?qū)S密浖夹g(shù)的日臻成熟及計算機硬件性價比的大幅提高,使得數(shù)據(jù)挖掘的實施成為可能。 數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘(D M)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。是以先進的工具軟件基于人工智能()和數(shù)學(xué)統(tǒng)計分析技術(shù)對海量數(shù)據(jù)根據(jù)某種算法進行計算機輔助分析,提取隱含的定性關(guān)系的過程,是知識發(fā)現(xiàn)( )的關(guān)鍵步驟。 數(shù)據(jù)挖掘的流程包括:()定義問題,明確數(shù)據(jù)挖掘的目的。()數(shù)據(jù)準(zhǔn)備,包括選擇數(shù)據(jù)在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集;數(shù)據(jù)預(yù)處理進行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及
5、數(shù)據(jù)的一致性、去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等。()數(shù)據(jù)挖掘,在凈化和轉(zhuǎn)換的數(shù)據(jù)集上根據(jù)選擇的算法進行數(shù)據(jù)挖掘。()結(jié)果分析,解釋和評價數(shù)據(jù)挖掘結(jié)果,并轉(zhuǎn)換為終端用戶能夠理解的知識。其常用算法包括:神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、決策樹方法、粗集方法、覆蓋正例排斥反例方法、統(tǒng)計分析方法和模糊集方法。數(shù)據(jù)挖掘模型按照功能分為預(yù)測模型和描述模型,描述性挖掘任務(wù)刻畫的數(shù)據(jù)一般特性;預(yù)測性數(shù)據(jù)挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進行判斷,以便預(yù)測。 數(shù)據(jù)挖掘用來構(gòu)建6種模型:分類模型( )、衰退模型( )、時間序列模型( )、聚類模型( )、聯(lián)合分析模型( )和順序發(fā)現(xiàn)模型( )。前兩者被用來作預(yù)測,而聯(lián)合分析模型和順序
6、發(fā)現(xiàn)模型被用來描述行為,聚類模型則被用來描述或預(yù)測。分類模型用于提取能代表群體的特征屬性,一般用規(guī)則或決策樹模式表示。聚類模型則將一個群體分成多個類,使同類個體盡可能相似,而不同個體差異盡可能大,聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。聯(lián)合分析模型用于發(fā)現(xiàn)事物間的關(guān)聯(lián)規(guī)則和相關(guān)程度,關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián),關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),一般用支持度和可信度兩個閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,其挖掘算法主要有:,等。衰退模型用屬性的歷史數(shù)據(jù)預(yù)測未來趨勢。時間序列模型是指通過時間序列搜索出的重復(fù)發(fā)生概率較高的模式,是用已知的數(shù)據(jù)來預(yù)測
7、未來,其方法主要有加權(quán)移動平均法和最小二乘法。順序發(fā)現(xiàn)模型與聯(lián)合分析模型相似,不同的是順序發(fā)現(xiàn)的對象是在時域分布的,發(fā)現(xiàn)的規(guī)則與先后順序有關(guān)。 數(shù)據(jù)挖掘在企業(yè)歷史數(shù)據(jù)中的應(yīng)用 數(shù)據(jù)挖掘在財務(wù)分析中的應(yīng)用 財務(wù)分析通過評價企業(yè)過去和現(xiàn)在的經(jīng)營成果和財務(wù)狀況及其變動情況,來了解過去,評價現(xiàn)在,預(yù)測未來。財務(wù)分析中常用的方法有比較分析、結(jié)構(gòu)分析、因素分析、比率分析等。 成本分析 企業(yè)管理者堅信對成本的精確計算和對資源的充分利用可以有效地改善企業(yè)的運營狀況,但其復(fù)雜的操作使得很多人望而卻步。利用數(shù)據(jù)挖掘中的回
8、歸分析、分類分析等方法能確定成本動因,更加準(zhǔn)確計算成本。同時,也可以通過分析成本與價值之間的關(guān)系,確定采用其最佳策略的成本,持續(xù)改進和優(yōu)化企業(yè)的價值鏈。 市場分析 選擇適當(dāng)?shù)漠a(chǎn)品系列和組合以實現(xiàn)最大利益是企業(yè)追求的目標(biāo),這些利益可以是短期利潤,也可以是長期市場占有率,還可以是構(gòu)建長期客戶群及其綜合體。為了達到這些目標(biāo),不僅僅需要價格和成本數(shù)據(jù),有時還需要知道替代品的情況,以及在某一市場段位上它們與原產(chǎn)品競爭的狀況。另外,企業(yè)也需要了解某一個產(chǎn)品是如何刺激另外一些產(chǎn)品的銷量的,等等。例如,非盈利性產(chǎn)品本身是沒有利潤可言的,但如果它帶來了可觀的客戶流量,并刺激了高利潤產(chǎn)品的銷售,那么這種產(chǎn)品就非常
9、有利可圖,就應(yīng)該包括在產(chǎn)品清單中。這些信息可通過關(guān)聯(lián)分析等技術(shù)來得到。 投資決策分析 投資決策分析本身就是一個非常復(fù)雜的過程,往往要借助一些工具和模型。數(shù)據(jù)挖掘技術(shù)提供了有效的工具,從公司的財務(wù)報告、宏觀經(jīng)濟環(huán)境以及行業(yè)基本狀況等大量的數(shù)據(jù)資料中挖掘出與決策相關(guān)的實質(zhì)性的信息,保證投資決策的正確性和有效性。 摘 要 企業(yè)應(yīng)用系統(tǒng)在長時間使用后,都會出現(xiàn)數(shù)據(jù)量增大和應(yīng)用系統(tǒng)性能下降的現(xiàn)象。本文針對這一狀況,提出在清除歷史數(shù)據(jù)前或?qū)v史數(shù)據(jù)進行歸檔前,對其進行轉(zhuǎn)移和復(fù)制并在可能的情況下構(gòu)建數(shù)據(jù)倉庫,對企業(yè)歷史數(shù)據(jù)進行挖掘的方法。詳細介紹了數(shù)據(jù)挖掘技術(shù)的概念、數(shù)據(jù)挖掘流程和常用的模型,以及數(shù)據(jù)挖掘在
10、企業(yè)歷史數(shù)據(jù)中的主要應(yīng)用。 關(guān)鍵詞 數(shù)據(jù)挖掘; 模型; 算法 doi : 10 . 3969 / j . issn . 1673 - 0194 . 2011 . 02 . 026 中圖分類號F270.7 文獻標(biāo)識碼A 文章編號1673 - 0194(2011)02- 0051 - 02 引言 隨著企業(yè)信息化應(yīng)用的不斷深入,各種大型應(yīng)用系統(tǒng)紛紛上線,如( ,企業(yè)資源計劃),( ,客戶關(guān)系管理),( C M,供應(yīng)鏈管理)等,一些小型應(yīng)用軟件及企業(yè)內(nèi)部開發(fā)人員開發(fā)的應(yīng)用軟件的相繼使用,也成為企業(yè)信息化的必要補充。這些應(yīng)用系統(tǒng)規(guī)模大小不一,系統(tǒng)架構(gòu)各異,所使用的數(shù)據(jù)庫也不盡相同,可以是, erver,
11、等主流數(shù)據(jù)庫,甚至也包含,xcel等數(shù)據(jù)源。另外,各種應(yīng)用的功能模塊也不相同,有的多而全,有的小而單一,但主要包含財務(wù)管理、客戶管理、供應(yīng)商管理、進銷存管理等模塊。隨著時間的推移,業(yè)務(wù)記錄越來越多,數(shù)據(jù)庫中的數(shù)據(jù)量也越來越大。對于小型的應(yīng)用軟件,由于系統(tǒng)邏輯相對簡單,可以對數(shù)據(jù)庫中的歷史數(shù)據(jù)按照規(guī)定進行清除,然后將其快速部署在新的硬件環(huán)境上。但是大型應(yīng)用軟件因為系統(tǒng)復(fù)雜,尤其是多組織的跨集團公司的應(yīng)用系統(tǒng),加上數(shù)據(jù)的多年積累,應(yīng)用系統(tǒng)性能每況愈下,此時如果進行數(shù)據(jù)遷移和應(yīng)用移植,一般由專業(yè)公司來做,而且費力費時,需要長時間的測試然后進行切換。通常的做法是,對歷史數(shù)據(jù)進行定期清除,然后通過添加新
12、的存儲設(shè)備來改善系統(tǒng)性能。傳統(tǒng)應(yīng)用系統(tǒng)的使用都局限在業(yè)務(wù)記錄層面,首先業(yè)務(wù)用戶錄入業(yè)務(wù)操作記錄,然后通過查詢或者調(diào)用報表來查看業(yè)務(wù)過程和結(jié)果。更深層的應(yīng)用,是建立在分析的基礎(chǔ)上,則可以就某個獨立應(yīng)用的數(shù)據(jù)庫進行數(shù)據(jù)挖掘,也可以通過數(shù)據(jù)倉庫將企業(yè)不同應(yīng)用系統(tǒng)下異構(gòu)數(shù)據(jù)庫中的歷史數(shù)據(jù)進行整合,然后進行數(shù)據(jù)挖掘,讓歷史數(shù)據(jù)進一步發(fā)揮“余熱”,從而為企業(yè)生產(chǎn)經(jīng)營提供決策支持。數(shù)據(jù)倉庫雖然能整合異構(gòu)數(shù)據(jù)源,并對數(shù)據(jù)進行預(yù)先清理,但由于其成本大,實施周期長,故較少采用。一般較經(jīng)濟的做法是,把應(yīng)用數(shù)據(jù)庫中的數(shù)據(jù)導(dǎo)入只讀的數(shù)據(jù)庫中,以此作為數(shù)據(jù)集市( ),進行數(shù)據(jù)挖掘。另一方面,隨著數(shù)據(jù)挖掘?qū)S密浖夹g(shù)的日臻
13、成熟及計算機硬件性價比的大幅提高,使得數(shù)據(jù)挖掘的實施成為可能。 數(shù)據(jù)挖掘技術(shù) 數(shù)據(jù)挖掘(D M)是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。是以先進的工具軟件基于人工智能()和數(shù)學(xué)統(tǒng)計分析技術(shù)對海量數(shù)據(jù)根據(jù)某種算法進行計算機輔助分析,提取隱含的定性關(guān)系的過程,是知識發(fā)現(xiàn)( )的關(guān)鍵步驟。 數(shù)據(jù)挖掘的流程包括:()定義問題,明確數(shù)據(jù)挖掘的目的。()數(shù)據(jù)準(zhǔn)備,包括選擇數(shù)據(jù)在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫目標(biāo)中提取數(shù)據(jù)挖掘的目標(biāo)數(shù)據(jù)集;數(shù)據(jù)預(yù)處理進行數(shù)據(jù)再加工,包括檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性、去噪聲,填補丟失的域,刪除無效數(shù)據(jù)等
14、。()數(shù)據(jù)挖掘,在凈化和轉(zhuǎn)換的數(shù)據(jù)集上根據(jù)選擇的算法進行數(shù)據(jù)挖掘。()結(jié)果分析,解釋和評價數(shù)據(jù)挖掘結(jié)果,并轉(zhuǎn)換為終端用戶能夠理解的知識。其常用算法包括:神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、決策樹方法、粗集方法、覆蓋正例排斥反例方法、統(tǒng)計分析方法和模糊集方法。數(shù)據(jù)挖掘模型按照功能分為預(yù)測模型和描述模型,描述性挖掘任務(wù)刻畫的數(shù)據(jù)一般特性;預(yù)測性數(shù)據(jù)挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進行判斷,以便預(yù)測。 數(shù)據(jù)挖掘用來構(gòu)建6種模型:分類模型( )、衰退模型( )、時間序列模型( )、聚類模型( )、聯(lián)合分析模型( )和順序發(fā)現(xiàn)模型(
15、)。前兩者被用來作預(yù)測,而聯(lián)合分析模型和順序發(fā)現(xiàn)模型被用來描述行為,聚類模型則被用來描述或預(yù)測。分類模型用于提取能代表群體的特征屬性,一般用規(guī)則或決策樹模式表示。聚類模型則將一個群體分成多個類,使同類個體盡可能相似,而不同個體差異盡可能大,聚類分析可以建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。聯(lián)合分析模型用于發(fā)現(xiàn)事物間的關(guān)聯(lián)規(guī)則和相關(guān)程度,關(guān)聯(lián)分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)和因果關(guān)聯(lián),關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),一般用支持度和可信度兩個閾值來度量關(guān)聯(lián)規(guī)則的相關(guān)性,其挖掘算法主要有:,等。衰退模型用屬性的歷史數(shù)據(jù)預(yù)測未來趨勢。時間序列模型是指通過時間序列搜索出的
16、重復(fù)發(fā)生概率較高的模式,是用已知的數(shù)據(jù)來預(yù)測未來,其方法主要有加權(quán)移動平均法和最小二乘法。順序發(fā)現(xiàn)模型與聯(lián)合分析模型相似,不同的是順序發(fā)現(xiàn)的對象是在時域分布的,發(fā)現(xiàn)的規(guī)則與先后順序有關(guān)。 數(shù)據(jù)挖掘在企業(yè)歷史數(shù)據(jù)中的應(yīng)用 數(shù)據(jù)挖掘在財務(wù)分析中的應(yīng)用 財務(wù)分析通過評價企業(yè)過去和現(xiàn)在的經(jīng)營成果和財務(wù)狀況及其變動情況,來了解過去,評價現(xiàn)在,預(yù)測未來。財務(wù)分析中常用的方法有比較分析、結(jié)構(gòu)分析、因素分析、比率分析等。 成本分析 企業(yè)管理者堅信對成本的精確計算和對資源的充分利用可以有效地改善企業(yè)的運營狀況,但其復(fù)雜的操作使得很多人望而卻步。利用數(shù)據(jù)挖掘中的回歸分析、分類分析等方法能確定成本動因,更加準(zhǔn)確計算成本。同時,也可以通過分析成本與價值之間的關(guān)系,確定采用其最佳策略的成本,持續(xù)改進和優(yōu)化企業(yè)的價值鏈。 市場分析 選擇適當(dāng)?shù)漠a(chǎn)品系列和組合以實現(xiàn)最大利益是企業(yè)追求的目標(biāo),這些利益可以是短期利潤,也可以是長期市場占有率,還可以是構(gòu)建長期客戶群及其綜合體。為了達到這些目標(biāo),不僅僅需要價格和成本數(shù)據(jù),有時還需要知道替代品的情況,以及在某一市場段位上它們與原產(chǎn)品競爭的狀況。另外,企業(yè)也需
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家具拆卸搬運合同范本
- 點火系統(tǒng):點火開關(guān)競爭策略分析報告
- 中醫(yī)護理質(zhì)量自查報告
- 個人股份協(xié)議書
- 個人租房合同簡易版
- 廈門運輸合同范例
- 賣煤提成合同范例
- 丑小鴨閱讀心得體會
- 廠房裝修材料合同范本
- 廚房櫥柜合同范本
- 胸膜疾病課件
- 公路施工技術(shù)全套課件
- 胸痹心痛中醫(yī)診療方案及臨床路徑
- 泛讀2unit2-music
- 中學(xué)生防溺水安全教育課件(PPT 44頁)
- 2019版外研社高中英語選擇性必修二Unit 1 Growing up 單詞表
- 有機金屬化學(xué)1
- JIT標(biāo)準(zhǔn)作業(yè)作業(yè)指導(dǎo)書
- 安徽省2020-2021學(xué)年七年級語文下學(xué)期期末測試卷[含答案]
- 人教版三年級數(shù)學(xué)下冊各單元教材分析(全冊共九個單元)
- 公司駕駛員承諾書
評論
0/150
提交評論