基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)研究_第1頁
基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)研究_第2頁
免費(fèi)預(yù)覽已結(jié)束,剩余3頁可下載查看

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、PAGE 5 -基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)研究1總體思路基于數(shù)據(jù)挖掘技術(shù)的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)是一個(gè)基于網(wǎng)絡(luò)技術(shù)的集成企業(yè)現(xiàn)有信息的資源、設(shè)備資源、現(xiàn)代管理機(jī)制及員工知識(shí)于一體的有機(jī)整體1。通過硬件軟件的輔助,引入數(shù)據(jù)挖掘技術(shù)等,最終實(shí)現(xiàn)一個(gè)基于Intranet的計(jì)算機(jī)輔助系統(tǒng)。本文在競(jìng)爭(zhēng)情報(bào)系統(tǒng)中引入數(shù)據(jù)挖掘技術(shù),同時(shí)添入一個(gè)競(jìng)爭(zhēng)情報(bào)預(yù)處理系統(tǒng),該系統(tǒng)對(duì)數(shù)據(jù)采集器收集到的數(shù)據(jù)進(jìn)行合并、過濾、自動(dòng)分類,文本預(yù)處理等,從而為競(jìng)爭(zhēng)情報(bào)分析系統(tǒng)更有效率的數(shù)據(jù)處理提供保障?;跀?shù)據(jù)挖掘技術(shù)的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)由情報(bào)數(shù)據(jù)收集系統(tǒng)、情報(bào)數(shù)據(jù)預(yù)處理系統(tǒng)、競(jìng)爭(zhēng)情報(bào)分析系統(tǒng)和競(jìng)爭(zhēng)情報(bào)服務(wù)系統(tǒng)構(gòu)成。2各子系統(tǒng)功

2、能及構(gòu)建2.1情報(bào)數(shù)據(jù)采集系統(tǒng)企業(yè)的情報(bào)信息通常分為:企業(yè)外部信息,包括Internet信息、報(bào)刊雜志、政府文件等;企業(yè)內(nèi)部信息,如企業(yè)生產(chǎn)報(bào)告、市場(chǎng)報(bào)告、結(jié)構(gòu)化數(shù)據(jù)、人際網(wǎng)絡(luò)消息等;內(nèi)外交叉信息。根據(jù)信息分類,通過網(wǎng)絡(luò)蜘蛛自動(dòng)抓取Internet信息;通過人工方式對(duì)紙質(zhì)信息、企業(yè)內(nèi)部文件等進(jìn)行采集;企業(yè)提供的結(jié)構(gòu)化數(shù)據(jù)直接存入數(shù)據(jù)庫。2.2情報(bào)數(shù)據(jù)預(yù)處理系統(tǒng)本系統(tǒng)的主要功能是將競(jìng)爭(zhēng)情報(bào)系統(tǒng)數(shù)據(jù)倉庫中的信息進(jìn)行合并、過濾、提取、自動(dòng)分類,進(jìn)行初步的篩選、處理,從而為競(jìng)爭(zhēng)情報(bào)分析系統(tǒng)更有效率的數(shù)據(jù)處理提供保障。在將搜集處理之后的中文文本數(shù)據(jù)轉(zhuǎn)換為適合數(shù)據(jù)挖掘的中文文本信息時(shí),需要對(duì)中文文本進(jìn)行分

3、詞和特征詞的過濾。這樣可以使機(jī)器識(shí)別出文本集中的中文詞組,有益于文本的特征表示,并將隱含有較高文本信息量的特征詞保留下來。在對(duì)文本數(shù)據(jù)進(jìn)行挖掘前,通常會(huì)先為文本內(nèi)容找到一種合理的表示方法2,本文采用向量空間模型(VSM模型)。在計(jì)算權(quán)值時(shí)采用TF.IDF方法,由于各個(gè)詞條的量綱不盡相同或數(shù)值范圍相差較大,因此,還需要進(jìn)行規(guī)一化處理。如果僅使用TF.IDF來計(jì)算特征詞的權(quán)重,忽略了特征詞在文本中所處位置和特征詞長(zhǎng)度這兩個(gè)重要的信息。那么此方法計(jì)算的權(quán)重并不能準(zhǔn)確反映特征詞在文章中的重要程度。因此本文在確定每個(gè)特征詞的權(quán)值時(shí)采用改進(jìn)的TF.IDF公式,考慮特征詞的位置、長(zhǎng)度、包含信息。2.3競(jìng)爭(zhēng)情

4、報(bào)分析系統(tǒng)數(shù)據(jù)經(jīng)過預(yù)處理,為數(shù)據(jù)挖掘的實(shí)現(xiàn)準(zhǔn)備了良好的數(shù)據(jù)環(huán)境,開展數(shù)據(jù)挖掘的條件就己經(jīng)成熟。本文在進(jìn)行數(shù)據(jù)挖掘時(shí),首先應(yīng)用投影尋蹤技術(shù)對(duì)文本進(jìn)行特征降維,將高維文本投影到二維空間,再對(duì)已經(jīng)投影到低維空間的文本集采用簡(jiǎn)單K-means法聚類,從而實(shí)現(xiàn)對(duì)采集的企業(yè)信息數(shù)據(jù)的聚類。在投影尋蹤模型中一般是將高維空間投影到一維至三維空間中去。因?yàn)橥队暗揭痪S至三維上才可以得到較為直觀的實(shí)驗(yàn)結(jié)果。究竟將文本向量投影到幾維空間才較為恰當(dāng),是值得我們考慮的一個(gè)問題。因?yàn)椴粌H需要考慮文本聚類效果,還需要考慮算法的時(shí)間、空間復(fù)雜度。一般情況下,利用投影尋蹤模型都是將m維的向量空間投影到一個(gè)一維的向量上去,即線性投

5、影。但是,高維的文本向量投影到一個(gè)一維空間后,太多的文本特征信息將丟失,影響聚類效果。因此,本課題選擇了將多維的文本向量利用投影尋蹤模型投影到二維平面,以期保留更多的文本信息,實(shí)現(xiàn)更好的聚類效果。將多維文本向量投影到二維平面上的步驟如下:第一步:計(jì)算特征詞矩陣。每一個(gè)文本doci生成一個(gè)m維特征向量Wi(wil,wi2,wim),(i=l,2,n)。n個(gè)文本構(gòu)成一個(gè)向量空間:W=W1,W2,WmT=(wik)nm。第二步:利用投影尋蹤模型將m維的向量空間投影到二維空間。令x=(x1,x2,xm),y=(y1,y2,ym)均為m維單位向量(即|x|=1,|y|=1),表示的是向量空間模型被投影到

6、的兩個(gè)方向。則dxi、dyi分別是文本doci在方向x、y上的投影特征值,cosa表示這兩個(gè)方向的夾的銳角或直角,由這兩條單位向量可確定的一個(gè)平面A。這樣完成了m維的向量空間到一個(gè)平面上的投影。將文本doci在兩個(gè)方向的投影特征值(dxi、dyi)看成是文本在這個(gè)投影平面A上投影點(diǎn)的坐標(biāo)值,先通過坐標(biāo)值來判斷投影點(diǎn)間的距離,再據(jù)此對(duì)文本聚類。由于兩個(gè)投影方向不一定是直角坐標(biāo),所以在求投影點(diǎn)間歐式距離時(shí)應(yīng)將其轉(zhuǎn)化為直角坐標(biāo)系中去求。第三步:構(gòu)造投影指標(biāo)函數(shù)。投影尋蹤指標(biāo)構(gòu)造可以使用K-L信息散度、Friedman-Tukey投影指標(biāo)、Friedman投影指標(biāo)等方法。由于聚類分析是對(duì)文本集進(jìn)行合理

7、分類,使類內(nèi)相關(guān)度大而類間相關(guān)度小。為此,構(gòu)造目標(biāo)函數(shù)既要考慮文本的類內(nèi)相關(guān)度,又要考慮文本類間相關(guān)度,本文選用了Friedman-Tukey投影指標(biāo)法,將目標(biāo)函數(shù)Q(a)定義為類間距離s(a)與類內(nèi)密度d(a)的乘積,即:Q(a)=s(a)*d(a)。聚類目標(biāo)是使得Q(a)最大,類間距離采用文本集的投影特征值方差計(jì)算。第四步:優(yōu)化投影平面。投影尋蹤的關(guān)鍵問題是尋找最優(yōu)的投影平面A,使得目標(biāo)函數(shù)Q(a)取得最大值,于是,尋找最優(yōu)投影平面的問題轉(zhuǎn)化為下面公式所示的優(yōu)化問題,可用遺傳算法進(jìn)行求解。由于標(biāo)準(zhǔn)遺傳算法的交叉、變異、選擇等操作一般都是在概率意義下隨機(jī)進(jìn)行的,雖保證了種群的群體進(jìn)化性,但一

8、定程度上不可避免的出現(xiàn)退化現(xiàn)象。為提高遺傳算法的全局收斂性和整體算法性能,本課題采用一種改進(jìn)的遺傳算法-基于實(shí)數(shù)編碼的加速免疫遺傳算法。第五步:綜合評(píng)價(jià)分析。根據(jù)最優(yōu)投影平面,計(jì)算反映各評(píng)價(jià)指標(biāo)綜合信息的投影特征值dxi、dyi,(i=1,n),用它們表示文本的特征,根據(jù)差異水平對(duì)文本集綜合分析,得出聚類結(jié)果。通過上面介紹的投影尋蹤技術(shù)將高維的文本向量空間模型降低到一個(gè)二維平面,文本投影點(diǎn)有了較好的聚類效果。但是機(jī)器卻不能識(shí)別文本到底被聚成了幾類。因此需要在二維的投影空間上繼續(xù)使用相關(guān)聚類算法將文本進(jìn)行聚類。由于通過降維處理后,可以在這最優(yōu)投影平面上識(shí)別出文本集中到底包含了幾個(gè)文本類,再采用簡(jiǎn)

9、單的K-means劃分法對(duì)文本聚類即可。2.4情報(bào)服務(wù)系統(tǒng)將處理后的情報(bào)信息向用戶展示,并提供了多種服務(wù)。分類情報(bào)實(shí)時(shí)瀏覽是情報(bào)服務(wù)最基本的功能;海量的情報(bào)信息需要提供全文檢索服務(wù)的接口,通過用戶提交的關(guān)鍵字和相關(guān)信息及時(shí)反饋給用戶最相關(guān)的檢索結(jié)果;提供一個(gè)情報(bào)用戶和競(jìng)爭(zhēng)情報(bào)人員的互動(dòng)平臺(tái)。通過情報(bào)分析子系統(tǒng)中情報(bào)分類分析技術(shù),可以將情報(bào)按構(gòu)成要素分為所需的幾類,服務(wù)子系統(tǒng)將為用戶提供分層次、分權(quán)限、分級(jí)別的情報(bào)。3結(jié)束語本文根據(jù)構(gòu)建企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)的指導(dǎo)原則,針對(duì)現(xiàn)有的企業(yè)競(jìng)爭(zhēng)情報(bào)系統(tǒng)存在著分析功能不全面、適用范圍較小、更新不方便等缺陷,在系統(tǒng)中使用數(shù)據(jù)挖掘技術(shù),充分實(shí)現(xiàn)其分析功能,為企業(yè)決策服務(wù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論