




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、高維稀疏數(shù)據(jù)對象屬性的零子空間分析 關(guān)鍵詞高維稀疏數(shù)據(jù);零子空間;子空間優(yōu)化;高維數(shù)據(jù)預處理 Zero-Subspace of High Dimensional Sparse Data Object-Attribute Zhu Qin 1,2 ,Gao Xuedong 1,Wu Sen 1,Dai Aiming1 (1. School of Economics and Management, University of Science and Technology Beijing, 10083 2. School of Science, Nanch
2、ang University, 330031) Abstract:As far as optimization subspace of High dimensional sparse data object-attribute is concerned, from the point of sparseness RZABUBS algorithm is proposed to achieve subspace optimization by removing the zero subspace in the paper, and the experimental studies demonst
3、rate that the effectiveness of the proposed algorithm. Keywords: High dimensional sparse data, Zero-subspace, Subspace optimization, Preprocessing high dimension data 1 引言 在數(shù)據(jù)挖掘的應用中,有一類數(shù)據(jù)如:購文檔數(shù)據(jù)、空間數(shù)據(jù)、時間序列數(shù)據(jù)、基因序列等,其對象數(shù)目可達幾百甚至上千,同時擁有成千上萬個屬性,我們將這類對象、屬性數(shù)量特別大的數(shù)據(jù)對象稱為高維數(shù)據(jù)(High Dimension Data,HDD)1。 高維數(shù)據(jù)與低維
4、數(shù)據(jù)在許多方面表現(xiàn)出不同的特性,如稀疏性以及“維度效應”現(xiàn)象2等。子空間聚類算法3的提出在一定程度上解決了這一問題,正在成為當前一個研究的熱點4-14。 現(xiàn)有的算法大都多數(shù)關(guān)注的是子空間的獲取,而忽略了子空間的優(yōu)化, 這是不完備的15。 本文提出一種剔除零子空間算法(A Removing Zero-subspace Algorithm Based on Unique Binary Sequence Code, RZABUBS),實現(xiàn)高維稀疏對象-屬性子空間的優(yōu)化。 2 問題描述 2.1 高維稀疏數(shù)據(jù) 有一類數(shù)據(jù),其對象的數(shù)目很多,用來描述對象的屬性也很多,但是對于每一個對象來說具有屬性值的屬性
5、個數(shù)占總屬性個數(shù)的比例很小。例如鋼鐵企業(yè)中,有很多的客戶(對象)和很多的產(chǎn)品(屬性),各個客戶購買的產(chǎn)品一般很少,而且各客戶購買的產(chǎn)品種類也有很大不同。 定義1(稀疏特征):假設有n個對象,描述第i個對象的m個屬性值分別對應于區(qū)間變量值xi1,xi2,xi m,將其轉(zhuǎn)換為二態(tài)變量并表示為yi1,yi2,yi m,轉(zhuǎn)換方法為: 其中 1,2,n; 1,2,m。yij, 1,2,n; 1,2,m表明了各個對象在個屬性上的稀疏情況,稱為第i個對象在第j個屬性上的稀疏特征。如果yij=1,表明第i個對象在第j個屬性上是非稀疏的;如果yij=0,則表明第i個對象在第j個屬性上是稀疏的。實際上從客戶購買產(chǎn)
6、品的角度來看,如果yij=1,表明第i個客戶購買了第j種產(chǎn)品;如果yij=0,表明第i個客戶沒有購買第j種產(chǎn)品。 在文獻16中,上述問題被稱為具有“高維稀疏數(shù)據(jù)”的問題。 2.2零子空間 由于高維稀疏數(shù)據(jù)中存在大量的零屬性值,則經(jīng)過數(shù)據(jù)預處理獲得的子空間中存在稀疏子空間,甚至包括屬性值全為零的子空間。 定義2(零子空間)全部元素都是零值構(gòu)成的子空間,我們稱之為“零子空間”。 ,零子空間記為: 。 在高維數(shù)據(jù)挖掘中, 將數(shù)據(jù)點對數(shù)據(jù)挖掘的過程中起作用、對最終挖掘結(jié)果的產(chǎn)生有貢獻的維, 稱為非冗余屬性,否則就是冗余屬性。高維稀疏數(shù)據(jù)中存在大量的零屬性值,故這些具有零屬性值的屬性是冗余屬性,也可以說
7、具有零屬性值的屬性是冗余屬性的一個特例。冗余屬性不僅數(shù)據(jù)挖掘增加算法不必要的開銷,而且影響算法處理效果和性能。因此,剔除零子空間是優(yōu)化稀疏子空間的一種必要途徑,對提高子空間質(zhì)量具有重要意義。 3 RZABUBS算法 本文將基于二進制數(shù)代碼提出稀疏特征值的計算公式,并根據(jù)稀疏特征值的取值情況,判斷是否存在零子空間:假設對象-屬性空間為m×n維,如果p個對象的稀疏特征值中存在連續(xù)q個零值( ),則存在p×q維的零子空間 。 即:D=count(O1 OR O2 OROR Om) 其中O1, O2 Om分別為對象1,2,m對應稀疏特征值的二進制編碼序列,OR 為布爾或運算, co
8、unt(*) 統(tǒng)計運算結(jié)果中含0的總個數(shù)。 若 ,則對象a和對象b構(gòu)成的空間中存在如表1的零子空間 。 例如:表2是6個對象,8個屬性構(gòu)成的稀疏對象-屬性空間。 則對象O4和O5的二進制代碼為:O4=11111000, O5=10011000, D=count(O4OR O5)= count ( 11111000) OR(10011000)= count ( 11111000)=3 故對象O4和O5中存在3個連續(xù)零:A6, A7 和A8 ,因此,存在一個2×3的零子空間 ,如表3所 4 算法應用 圖1是高維稀疏數(shù)據(jù):30個對象45個屬性取值的情況,下面就以這30×45的對象
9、-屬性空間為例,運用算法進行剔除零子空間實現(xiàn)優(yōu)化子空間的實驗。經(jīng)過對象-屬性空間分割數(shù)據(jù)預處理后,得到相應的子空間,如圖2。 從圖可以看出,30×45的對象-屬性空間經(jīng)過分割技術(shù)的數(shù)據(jù)預處理后,獲得的子空間包括兩類:一類為零子空間和非零子空間。 本文運用RZABUBS算法,獲得D1,D2,D3,D4和D5是零子空間。剔除這些零子空間后,原對象-屬性空間由最終可以分解的子空間主要有3個低維子空間,維數(shù)分別為:10×13,7×12和11×16,如圖3所示。因此,原對
10、象-屬性的子空間得到了優(yōu)化,子空間的質(zhì)量獲得了提高。 5.結(jié)束語 高維稀疏數(shù)據(jù)集在日常生活中占的比重越來越大,對這些數(shù)據(jù)進行預處理顯得尤為重要, 故子空間的研究受到越來越多的關(guān)注。本文從稀疏性的角度提出了RZABUBS算法,通過剔除零子空間實現(xiàn)子空間的優(yōu)化,提高子空間的質(zhì) 量, 最終提高數(shù)據(jù)預處理的效果。 參考文獻: 1 Jiawei Han, Micheline Kamber. 數(shù)據(jù)挖掘概念與技術(shù)(范明,孟小峰等譯) M.北京:機械工業(yè)出版社,2001 2 Yang Q, Wu X. 10 challenging problems in data mining researchJ. Inte
11、rnational Journal of Information Technology and Decision Making, 2006, 5(4): 597 #8722;604. 3 Tan S, Cheng X, Ghanem M, et al. A novel refinement approach for text categorizationC/Proceedings of the ACM 14th Conference on Information and Knowledge Management, 2005: 469 #8722;476. 4 AGRAWAL R, GEHRKE
12、 J , GUNOPULOSD, et al . Automatic Subspace Clustering of High Dimensional Data for Data Mining Applications C / /A shutosh Tiwary . Proceedings of ACM SIG MOD International Conference on management of data, Seattle: ACM Press, 1998: 942 105 . 5 AGGARWAL CC, PROCOP I UC C, WOLF J L, et al . Fast Alg
13、orithms for 6 Projected Clustering C / / Proceedings of ACM SIG MOD International Conference on Management of Data, Philadelphia: ACM Press, 1999: 61272 . 7 AGG ARWAL CC, Y U P S . Finding Generalized Projected Clusters in High Dimensional Space C / /Proceedings of ACM SIG MOD International Conferen
14、ce on Management of Data, Dallas : ACM Press, 2000: 702 81 . 8 牛琨, 張舒博, 陳俊亮. 采用屬性聚類的高維子空間聚類算法 J . 北京郵電大學學報, 2007, 30 (3) : 125-127 . 9 王國仁, 黃健美等. 基于最大間隙空間映射的高維數(shù)據(jù)索引技術(shù)J. 軟件學報,2007,18(6) :1419-1428 10 李霞,徐樹維. 子空間聚類改進算法研究綜述J. 計算機仿真.2010,27(5):174-177 11 任家東, 周瑋瑋, 何海濤. 高維數(shù)據(jù)流的自適應子空間聚類算法J. 計算機科學與探索. 2010,
15、4(9):859-865 12 G.J.Gan,J.H.Wu, A convergence theorem for the fuzzy subspace clustering(FSC) algorithm,PatternRecognition41(2008)19391947. 13 L.P.Jing, M.K.Ng, Z.X.Huang, An entropy weighting k-means algorithm for Subspace clustering of high-dimensional sparse data, IEEETrans. Knowl. Data Eng. 19(8)(2007)10261041. 14 許倡森. 基于混合網(wǎng)格劃分的子空間高維數(shù)據(jù)聚類算法J. 計算機技術(shù)與發(fā)展.2010,10(10) 15 許倡森. 基于混合網(wǎng)格劃分的子空間高維數(shù)據(jù)聚類算法J. 計算機技術(shù)與發(fā)展.2010,20(10):150-153 16 Chu Y, Chen Y, Yang D, et al. Reducing
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 為未來而學為理解而教-以大概念為引領的小學語文教學研究報告【附模板】
- 過敏鼻炎治療原則
- 2025年體外震波碎石機合作協(xié)議書
- 軟皮筆記本批發(fā)企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 農(nóng)用金屬工具批發(fā)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 模型玩具企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 金屬制品批發(fā)企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 紫沙豆企業(yè)ESG實踐與創(chuàng)新戰(zhàn)略研究報告
- 工藝蠟燭批發(fā)企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級戰(zhàn)略研究報告
- 金橘餅企業(yè)縣域市場拓展與下沉戰(zhàn)略研究報告
- 2024湖南株洲市天元區(qū)面向社會招聘社區(qū)專職工作者集中筆試歷年典型考題及考點剖析附答案帶詳解
- 工資條員工工資明細表模板
- SL721-2015水利水電工程施工安全管理導則
- (正式版)JBT 11517-2024 刮板取料機
- 煤礦瓦斯抽采達標暫行規(guī)定解讀俞
- 居民心理健康知識講座課件
- 前列腺特異性抗原(PSA)的檢測課件
- 教師教學能力大賽獲獎課程標準-教師教學能力大賽
- 年產(chǎn)5萬噸丙烯直接水合制備異丙醇工藝Aspen模擬
- 2024年英語專業(yè)四級考試真題及詳細答案
- 成語故事葉公好龍
評論
0/150
提交評論