版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、 大數(shù)據(jù)研究的若干科學(xué)問題 及初步研究結(jié)果 (西安交通大學(xué))第1頁(yè),共49頁(yè)。內(nèi)容提要關(guān)于大數(shù)據(jù)的認(rèn)識(shí)大數(shù)據(jù)分析與處理中的科學(xué)問題若干進(jìn)展第2頁(yè),共49頁(yè)。關(guān)于大數(shù)據(jù)的認(rèn)識(shí)(數(shù)據(jù))(文本、圖像、地理數(shù)據(jù)、基因與蛋白質(zhì)數(shù)據(jù)、視頻、程序、有限規(guī)則集等) 數(shù)據(jù): 信息的載體;計(jì)算機(jī)處理的基本對(duì)象。 數(shù)據(jù)的多樣性和高復(fù)雜性第3頁(yè),共49頁(yè)。關(guān)于大數(shù)據(jù)的認(rèn)識(shí) (什么是大數(shù)據(jù)?)大數(shù)據(jù)是指無(wú)法在容許的時(shí)間內(nèi)用常規(guī)的軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合,大數(shù)據(jù)規(guī)模的標(biāo)準(zhǔn)是持續(xù)變化的,當(dāng)前泛指單一數(shù)據(jù)集的大小在十幾TB和PB之間。(維基百科)ZB(1021),EB(1018),PB(1015),TB
2、(1012),GB(109),MB(106)第4頁(yè),共49頁(yè)。關(guān)于大數(shù)據(jù)的認(rèn)識(shí)(主要來源)科學(xué)研究環(huán)保監(jiān)視遠(yuǎn)程醫(yī)療互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社會(huì)網(wǎng)安全監(jiān)控大型企業(yè)信息存儲(chǔ)第5頁(yè),共49頁(yè)。大數(shù)據(jù):不能集中存儲(chǔ)、難以在可接受時(shí)間內(nèi)分析處理、而數(shù)據(jù)整體呈現(xiàn)高價(jià)值的海量復(fù)雜數(shù)據(jù)集。 體量大不能用現(xiàn)有的物理設(shè)備集中存儲(chǔ),開放,高速可擴(kuò)展。復(fù)雜性高多源、異構(gòu)、相關(guān)、非結(jié)構(gòu)化、不一定可靠、不一致性。價(jià)值豐富個(gè)體或部分?jǐn)?shù)據(jù)呈現(xiàn)低價(jià)值,而數(shù)據(jù)整體呈現(xiàn)高價(jià)值。關(guān)于大數(shù)據(jù)認(rèn)識(shí)(什么是大數(shù)據(jù)?)第6頁(yè),共49頁(yè)。關(guān)于大數(shù)據(jù)的認(rèn)識(shí)(時(shí)代背景)被多數(shù)發(fā)達(dá)國(guó)家列為未來國(guó)家戰(zhàn)略優(yōu)先發(fā)展領(lǐng)域2011年,奧巴馬在“美國(guó)創(chuàng)新戰(zhàn)略”中發(fā)布了
3、大數(shù)據(jù)研究和發(fā)展倡議歐盟將信息技術(shù)作為歐洲2020戰(zhàn)略的優(yōu)先發(fā)展領(lǐng)域之一,而大數(shù)據(jù)研究為其中非常重要的一個(gè)方向法國(guó)、德國(guó)、英國(guó)、日本、韓國(guó)和俄羅斯等重要國(guó)家都將信息產(chǎn)業(yè)列為國(guó)家未來戰(zhàn)略優(yōu)先發(fā)展領(lǐng)域之一引起國(guó)際社會(huì)廣泛關(guān)注麥肯錫2011年5月發(fā)布下一個(gè)前沿:創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力報(bào)告,認(rèn)為大數(shù)據(jù)將引發(fā)新一輪的生產(chǎn)力增長(zhǎng)與創(chuàng)新世界經(jīng)濟(jì)論壇2012年發(fā)布Big Data,Big Impact報(bào)告,闡述大數(shù)據(jù)為世界帶來的新機(jī)遇聯(lián)合國(guó)在2012年5月公布了大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇白皮書IDC 在2012年6月發(fā)布中國(guó)互聯(lián)網(wǎng)市場(chǎng)洞見:互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)創(chuàng)新研究報(bào)告,指出大數(shù)據(jù)將引領(lǐng)中國(guó)互聯(lián)網(wǎng)行業(yè)新一輪技術(shù)浪潮第
4、7頁(yè),共49頁(yè)。大數(shù)據(jù)價(jià)值:數(shù)據(jù)整體蘊(yùn)含事件的相關(guān)性、發(fā)展的規(guī)律性與趨勢(shì),揭示這樣的相關(guān)性、規(guī)律性與趨勢(shì)為科學(xué)探索、解決廣泛的社會(huì)發(fā)展與國(guó)家安全問題提供了依據(jù)與可能(特別是高的社會(huì)價(jià)值和解決社會(huì)學(xué)問題的方法論)。 科學(xué)研究高能物理天文生命科學(xué)機(jī)械設(shè)計(jì)經(jīng)濟(jì)與社會(huì)推動(dòng)物聯(lián)網(wǎng)、云計(jì)算產(chǎn)業(yè)升級(jí)大數(shù)據(jù)商業(yè)模式 (vs工業(yè)化模式)企業(yè)核心競(jìng)爭(zhēng)力 (數(shù)據(jù)規(guī)模、 活性與解釋力)影響社會(huì)文化與組織遠(yuǎn)程醫(yī)療.國(guó)家治理數(shù)據(jù)資產(chǎn) (國(guó)家競(jìng)爭(zhēng)力)數(shù)據(jù)主權(quán) (同邊、海、空防)國(guó)防安全監(jiān)控網(wǎng)絡(luò)監(jiān)控.關(guān)于大數(shù)據(jù)的認(rèn)識(shí)(價(jià)值與意義)第8頁(yè),共49頁(yè)。大數(shù)據(jù)關(guān)注程度:30%企業(yè)已開始大數(shù)據(jù)工作,34%的企業(yè)已計(jì)劃兩年內(nèi)開始。其中
5、50%數(shù)企業(yè)并不知道如何從數(shù)據(jù)中獲取價(jià)值。 一一2013年大數(shù)據(jù)普及程度及背后的炒作(Gartner)關(guān)于大數(shù)據(jù)的認(rèn)識(shí)(值得熱嗎?)為什么要關(guān)注呢,能做什么? 高附加值在哪里?數(shù)據(jù)的價(jià)值得到廣泛認(rèn)可數(shù)據(jù)挖掘成為普世的高新技術(shù)值得熱,但不可以一哄而起!第9頁(yè),共49頁(yè)。物理、材料、電子等大數(shù)據(jù)研究催生大數(shù)據(jù)產(chǎn)業(yè) (從數(shù)據(jù)到價(jià)值的產(chǎn)業(yè)鏈)數(shù)據(jù)獲取與管理數(shù)據(jù)查存與處理數(shù)據(jù)分析與理解數(shù)據(jù)工程與應(yīng)用數(shù)學(xué)與統(tǒng)計(jì)學(xué)大數(shù)據(jù)研究:高度的多學(xué)科綜合研究大數(shù)據(jù)產(chǎn)業(yè)管理(產(chǎn)業(yè)鏈管理、商業(yè)模式、公共政策)計(jì)算機(jī)科學(xué)各行各業(yè)數(shù)據(jù)管理數(shù)據(jù)質(zhì)量數(shù)據(jù)標(biāo)準(zhǔn)數(shù)據(jù)共享數(shù)據(jù)隱私存儲(chǔ)查詢存儲(chǔ)模式查詢算法實(shí)時(shí)處理軟硬件數(shù)據(jù)挖掘數(shù)據(jù)表示數(shù)據(jù)
6、建模高效計(jì)算統(tǒng)計(jì)推斷數(shù)據(jù)工程第10頁(yè),共49頁(yè)。超高維問題重采樣問題計(jì)算理論問題分布實(shí)時(shí)計(jì)算問題非結(jié)構(gòu)化問題可視分析問題大數(shù)據(jù)分析與處理中的科學(xué)問題第11頁(yè),共49頁(yè)。大數(shù)據(jù)高維問題:“決策要素(P)伴隨大數(shù)據(jù)(n)呈現(xiàn)更高量級(jí)”所引起的解的不確定性與經(jīng)典統(tǒng)計(jì)推斷失效問題。 經(jīng)典統(tǒng)計(jì)學(xué):np; 高維問題:pn; 大數(shù)據(jù)高維問題:p=O(exp(n), n -. 解 漸近正態(tài) 大數(shù)據(jù)研究中的科學(xué)問題(超高維問題)線性模型:數(shù)據(jù):矩陣形式:第12頁(yè),共49頁(yè)。 基本科學(xué)問題 如何補(bǔ)足信息使問題可解?非iid 數(shù)據(jù)統(tǒng)計(jì)學(xué);低維幾何的高維泛化(積分幾何); 超高維數(shù)據(jù)的低維特征(多維特征提取等);熱點(diǎn)
7、研究:稀疏建模(壓縮感知、低秩矩陣分解、基于稀疏性的特征提取、數(shù)據(jù)降維、壓縮學(xué)習(xí)等)大數(shù)據(jù)研究中的科學(xué)問題(超高維問題)第13頁(yè),共49頁(yè)。大數(shù)據(jù)的重采樣:如何進(jìn)行合適的subsampling,將大數(shù)據(jù)隨機(jī)劃分成若干小數(shù)據(jù)集,而根據(jù)小數(shù)據(jù)集所獲得的統(tǒng)計(jì)推斷,進(jìn)行聚合處理后能反應(yīng)原大數(shù)據(jù)集的規(guī)律與形態(tài) (分布式算法)。熱點(diǎn)問題:The Big Data Bootstrap. Kleiner et.al. 2012 ICML 大數(shù)據(jù)研究中的科學(xué)問題(重采樣問題)X1X2X3Xn隨機(jī)機(jī)制D1DkDm.聚合機(jī)制第14頁(yè),共49頁(yè)。基本科學(xué)問題 如何重采樣以反映整體數(shù)據(jù)特征? 分布式算法可行性嗎? 基于
8、試驗(yàn)設(shè)計(jì)的重采樣; 更加有效的聚合原理; Subsampling的原則(相似性,傳 遞性,) 大數(shù)據(jù)研究中的科學(xué)問題(重采樣問題)未知總體實(shí)驗(yàn)設(shè)計(jì)大數(shù)據(jù)就是“總體”如何實(shí)驗(yàn)設(shè)計(jì)體現(xiàn)總體數(shù)據(jù)相似性D1D2D3傳遞性第15頁(yè),共49頁(yè)。大數(shù)據(jù)研究中的科學(xué)問題(計(jì)算理論問題)計(jì)算理論:大數(shù)據(jù)背景下有關(guān)一個(gè)計(jì)算問題是否可解與能解的理論。傳統(tǒng)上,一個(gè)可解性問題是指能在有限步內(nèi)在圖靈機(jī)上求解的問題;一個(gè)問題能解是指在可接受的存儲(chǔ)空間與時(shí)間代價(jià)下,該問題可以求解。M.R. Garey, D.S. Johnson, Computers and Intractability: A guide to the th
9、eory of NP-completeness.經(jīng)典的計(jì)算復(fù)雜性理論(可解性理論):計(jì)算時(shí)間(時(shí)間復(fù)雜性),占用內(nèi)存空間(空間復(fù)雜性)第16頁(yè),共49頁(yè)。大數(shù)據(jù)研究中的科學(xué)問題(計(jì)算理論問題) 基本科學(xué)問題 大數(shù)據(jù)問題的可解性理論;時(shí)間復(fù)雜性理論(難和易如何定義?)對(duì)具體類大數(shù)據(jù)的復(fù)雜性理論: 流數(shù)據(jù)(容易=處理速度快于數(shù)據(jù)更新速度)分布式數(shù)據(jù)(容易=交互速度快于數(shù)據(jù)處理速度)D1D2D3交互數(shù)據(jù)處理第17頁(yè),共49頁(yè)。分布式實(shí)時(shí)計(jì)算:是大數(shù)據(jù)處理的計(jì)算模式,它包含多處理器自主計(jì)算、相互通信,為完成統(tǒng)一任務(wù)而并行工作的實(shí)時(shí)計(jì)算過程。主要挑戰(zhàn)來自數(shù)據(jù)的分布性與計(jì)算的實(shí)時(shí)性要求。大數(shù)據(jù)研究中的科學(xué)
10、問題(分布實(shí)時(shí)計(jì)算)HDFSHBaseMapReduceHadoop第18頁(yè),共49頁(yè)。 基本科學(xué)問題 與分布式實(shí)時(shí)計(jì)算相適應(yīng)的存儲(chǔ) 與查詢 (理論、技術(shù));問題的可分解性與解的可組裝性?大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘;眾包(crowdsourcing)方法論 . 函數(shù):新增加數(shù)據(jù)D2數(shù)據(jù)D1D1 + D2Zongben Xu et.al. Efficiency speed-up for evolutionary computation Fundamentals and Fast-Gas. AMC 2003編碼大數(shù)據(jù)研究中的科學(xué)問題(分布實(shí)時(shí)計(jì)算)第19頁(yè),共49頁(yè)。大數(shù)據(jù)研究中的科學(xué)問題(
11、非結(jié)構(gòu)化問題)非結(jié)構(gòu)化問題:不能用有限規(guī)則完全表征與刻畫,并不能在可接受時(shí)間內(nèi)形式化處理的大數(shù)據(jù)。主要的挑戰(zhàn)來自數(shù)據(jù)的異構(gòu)性、信息的不相容性與認(rèn)知的不一致性。 (結(jié)構(gòu)化大數(shù)據(jù)85%:文本、圖像、時(shí)空數(shù)據(jù)、基因與蛋白質(zhì)、視頻)第20頁(yè),共49頁(yè)。 基本科學(xué)問題 異構(gòu)數(shù)據(jù)的統(tǒng)一表示與分析方法 (向量 矩陣 張量)非結(jié)構(gòu)化數(shù)據(jù)處理的統(tǒng)一框架(特別是機(jī)器學(xué)習(xí)算法); 多源異構(gòu)數(shù)據(jù)的信息融合;基于認(rèn)知的非結(jié)構(gòu)化信息處理; 非結(jié)構(gòu)化數(shù)據(jù)文本圖像視頻統(tǒng)一機(jī)器學(xué)習(xí)框架決策:大數(shù)據(jù)研究中的科學(xué)問題(非結(jié)構(gòu)化問題)第21頁(yè),共49頁(yè)。大數(shù)據(jù)研究中的科學(xué)問題(可視分析問題)可視分析:運(yùn)用與人類視認(rèn)知相一致的圖形或者
12、圖像方式生動(dòng)展示高維數(shù)據(jù)的內(nèi)在結(jié)構(gòu)與規(guī)律性。提供了人機(jī)協(xié)同處理數(shù)據(jù)、人人廣泛參與收集理解的平臺(tái)(或許是解決大數(shù)據(jù)問題的另外一條道路)。數(shù)據(jù)空間特征提取映照關(guān)系可展示的幾何空間FacebookWordleWhisper第22頁(yè),共49頁(yè)。 基本科學(xué)問題 高維數(shù)據(jù)的本質(zhì)特征提取;形象的結(jié)構(gòu)化表征(可表達(dá)幾何空間的構(gòu)造);從數(shù)據(jù)特征空間到可表達(dá)幾何空間的映照設(shè)計(jì);基于不變量(幾何,代數(shù))的高維數(shù)據(jù)展示方式;非結(jié)構(gòu)化數(shù)據(jù)的隱結(jié)構(gòu)識(shí)別與展示; 大數(shù)據(jù)研究中的科學(xué)問題(可視分析問題)Microsoft T-drive Yuan et al., 2010平行坐標(biāo)系第23頁(yè),共49頁(yè)。超高維問題:大數(shù)據(jù)聚類重
13、采樣問題:分布式算法的可行性實(shí)時(shí)計(jì)算問題:網(wǎng)絡(luò)流計(jì)算非結(jié)構(gòu)化問題:基于視覺原理的數(shù)據(jù)挖掘解決科學(xué)問題的若干進(jìn)展第24頁(yè),共49頁(yè)。大數(shù)據(jù)聚類:對(duì)特征數(shù)p遠(yuǎn)大于樣本數(shù)n的大數(shù)據(jù)進(jìn)行聚類。新問題:有大量冗余特征,聚類時(shí)必須同時(shí)剔除冗余特征(識(shí)別有效特征);特征數(shù)隨樣本數(shù)變化(p=p(n))。本質(zhì)上要求同時(shí)解決聚類、特征選擇、不同時(shí)刻聚類相容性問題(特別是穩(wěn)定聚類問題)。超高維問題:大數(shù)據(jù)聚類K均值聚類:導(dǎo)致:最優(yōu)分類與特征的維數(shù)p變化無(wú)關(guān)對(duì)有效特征有嚴(yán)格的判定準(zhǔn)則期望:第25頁(yè),共49頁(yè)。超高維問題:大數(shù)據(jù)聚類K均值:模型:基本思路:重寫目標(biāo)函數(shù)為特征的“分離可加”形式,以此抽象新的最優(yōu)劃分定義,
14、使得最優(yōu)劃分與p無(wú)關(guān),從而產(chǎn)生大數(shù)據(jù)的穩(wěn)定聚類。( Chang ,Lin & Xu, Sparse K-Means via l/l0 Penalty for High-dimensional Data Clustering, 2014.) 最優(yōu)劃分:噪音特征:一個(gè)特征j為噪音特征如果對(duì)于任意給定的劃分C都有否則為相關(guān)特征。第26頁(yè),共49頁(yè)。(I) (II)理論:如果數(shù)據(jù)X由高斯混合模型產(chǎn)生,其中有p*個(gè)相關(guān)特征,p-p*個(gè)噪音特征,則結(jié)論:高斯混合數(shù)據(jù)具有穩(wěn)定聚類;對(duì)于這樣的大數(shù)據(jù)而言,其最優(yōu)劃分與p無(wú)關(guān)(n足夠大):Xp1Xp2Xp3XptC*1C*2C*3C*t超高維問題:大數(shù)據(jù)聚類第2
15、7頁(yè),共49頁(yè)。實(shí)現(xiàn)算法:超高維問題:大數(shù)據(jù)聚類第28頁(yè),共49頁(yè)。實(shí)驗(yàn):從高斯混合分布產(chǎn)生60個(gè)樣本,其中有50個(gè)特征為相關(guān)特征,其它為噪音特征,總特征數(shù)分別取p=200,500,1000.比較三種不同算法的特征選擇結(jié)果與聚類結(jié)果如下:超高維問題:大數(shù)據(jù)聚類第29頁(yè),共49頁(yè)?;贖adoop的分布式算法:Hadoop是主流的分布式處理系統(tǒng)框架。Map-Reduce是基于Hadoop的一種分布式數(shù)據(jù)處理編程模式,其工作原理為“分而治之”?;谶@種分而治之的策略設(shè)計(jì)的算法可統(tǒng)稱之為分布式算法。HDFSHBaseMapReduceHadoop重采樣問題:分布式回歸的可行性第30頁(yè),共49頁(yè)。St
16、ep 1:重采樣數(shù)據(jù)使得整體數(shù)據(jù)隨機(jī)均勻的分布在m臺(tái)local machines上.X1X2X3Xn均勻分布D1DkDm.聚合機(jī)制Global MachineGlobal MachineLocal Machines重采樣問題:分布式回歸的可行性分布式回歸算法:第31頁(yè),共49頁(yè)。Step 2: 分布地在每臺(tái)local machine運(yùn)行一個(gè)回歸算法(例如正則化回歸算法),得到m個(gè)回歸估計(jì)。X1X2X3Xn均勻分布D1DkDm.聚合機(jī)制Global MachineGlobal MachineLocal Machines重采樣問題:分布式回歸的可行性第32頁(yè),共49頁(yè)。Step 3: 將local
17、 machine所獲得的m個(gè)回歸估計(jì)聚合形成一個(gè)整體估計(jì)(運(yùn)用某種聚合算法,例如簡(jiǎn)單平均)。X1X2X3Xn均勻分布D1DkDm.聚合機(jī)制Global MachineGlobal MachineLocal Machines重采樣問題:分布式回歸的可行性第33頁(yè),共49頁(yè)。 初步試驗(yàn) 線性回歸模型:參數(shù)設(shè)置: 噪聲:樣本個(gè)數(shù):100萬(wàn)參數(shù)空間維數(shù):100數(shù)據(jù)總量:6G使用local machines: 試驗(yàn)結(jié)果重采樣問題:分布式回歸的可行性第34頁(yè),共49頁(yè)。可行性理論:如果數(shù)據(jù)中所蘊(yùn)含的回歸關(guān)系f*具有一定的光滑性,LocalMachine上使用同一類核回歸方法,Global Machine使
18、用簡(jiǎn)單平均聚合,則從泛化性的意義上分布式回歸算法是可行的(當(dāng)數(shù)據(jù)量足夠大且mC0N時(shí),分布式算法所產(chǎn)生的估計(jì)收斂于f*)。 (Chang & Xu, Feasibility of Distributed Regression for Big Data, 2014)重采樣問題:分布式回歸的可行性第35頁(yè),共49頁(yè)。通信網(wǎng)絡(luò)異常檢測(cè): 網(wǎng)絡(luò)數(shù)據(jù)是一類典型的非結(jié)構(gòu)化大數(shù)據(jù)。通過檢測(cè)源節(jié)點(diǎn)到目的地節(jié)點(diǎn)連接的通信流,從而識(shí)別網(wǎng)絡(luò)流量異常。 實(shí)時(shí)計(jì)算問題:網(wǎng)絡(luò)流計(jì)算交通異常檢測(cè)第36頁(yè),共49頁(yè)。網(wǎng)絡(luò)拓?fù)鋱D稀疏異常矩陣:A低秩交通矩陣:X稀疏-低秩建模:LLA-LADM算法:序列收斂到目標(biāo)函數(shù)的穩(wěn)定點(diǎn)實(shí)時(shí)
19、計(jì)算問題:網(wǎng)絡(luò)流計(jì)算第37頁(yè),共49頁(yè)。Abilene IP網(wǎng)絡(luò)11個(gè)城市,41個(gè)鏈接,121條OD通信流每5分鐘記錄一次網(wǎng)絡(luò)流量動(dòng)態(tài)監(jiān)控網(wǎng)絡(luò)流量的變化,實(shí)時(shí)識(shí)別流量異常Data: /observatory/achive/data-collections.html紐約與華盛頓之間的流量監(jiān)控實(shí)時(shí)計(jì)算問題:網(wǎng)絡(luò)流計(jì)算第38頁(yè),共49頁(yè)。非結(jié)構(gòu)化問題:基于視覺原理的數(shù)據(jù)挖掘分類 為什么我一眼就看出來了呢? 核心思想:將數(shù)據(jù)建模問題看成是一個(gè)認(rèn)知問題,然后通過模擬視覺認(rèn)知原理來解決。聚類 回歸 第39頁(yè),共49頁(yè)。基于尺度空間的數(shù)據(jù)建模(尺度空間) 問題:如何從數(shù)學(xué)上刻畫視網(wǎng)膜上的圖像清晰程度與觀察距
20、離或者晶狀體曲率之間的關(guān)系? 令 為自然界中某個(gè)物體的光強(qiáng)分布, 該物體在視網(wǎng)膜上所形成的光強(qiáng)分布 可以通過如下偏微分方程描述: 為尺度, 表示物體與視網(wǎng)膜之間的距離或者晶狀體的曲率。注:該模型僅為理想視網(wǎng)膜模型,即假設(shè)視網(wǎng)膜的成像是各向同性和空間不變的。其中,線性擴(kuò)散模型:第40頁(yè),共49頁(yè)?;驹恚?將數(shù)據(jù)點(diǎn)視為單位光強(qiáng)的光點(diǎn),將數(shù)據(jù)集視為一幅圖像;通過模擬人眼的視覺原理,發(fā)展基于尺度空間的聚類原理與算法(IEEE Trans. PAMI, 2000). 數(shù)據(jù)圖像:尺度空間圖像:= 0.2= 1.2= 5.0數(shù)據(jù)集的多尺度演化:基于尺度空間的數(shù)據(jù)建模(聚類)第41頁(yè),共49頁(yè)。什么是類:一個(gè)光斑可解釋為一類。光斑是由收斂于同一極大值點(diǎn)的所有數(shù)據(jù)點(diǎn)所組成,而極大值點(diǎn)即為該類的類中心。光 斑類中心:梯度流:300類 (3 類 (1 類 (= 0.2 )= 1 )= 5 )基于尺度空間的數(shù)據(jù)建模(聚類)第42頁(yè),共49頁(yè)。三個(gè)基本問題: 如何離散化尺度? 什么是類? 類是單調(diào)演化的嗎? 步驟 1:確定一序列尺度 ,其中 。當(dāng) 時(shí), 每個(gè)數(shù)據(jù)點(diǎn)都是一類,而該數(shù)據(jù)點(diǎn)即為所在類的類中心。令 。步驟 2:在尺度 下,從前一尺度 的聚類中心點(diǎn)出發(fā),找到新的聚類中心,并對(duì)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球購(gòu)房 App行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 2025年全球及中國(guó)水合鹽類無(wú)機(jī)相變材料行業(yè)頭部企業(yè)市場(chǎng)占有率及排名調(diào)研報(bào)告
- 企業(yè)股東個(gè)人借款協(xié)議范例版
- 互聯(lián)網(wǎng)店鋪外包運(yùn)營(yíng)協(xié)議(2024年標(biāo)準(zhǔn)版)版
- 養(yǎng)老院陪護(hù)協(xié)議書范本
- 航運(yùn)物流項(xiàng)目居間投資協(xié)議
- 裝飾裝修居間合作協(xié)議
- 印刷廠裝修工人勞務(wù)合同
- 2025年度個(gè)人養(yǎng)老貸款保證擔(dān)保合同樣本3篇
- 區(qū)塊鏈項(xiàng)目投資協(xié)議書范文
- 合成生物學(xué)在生物技術(shù)中的應(yīng)用
- 中醫(yī)門診病歷
- 廣西華銀鋁業(yè)財(cái)務(wù)分析報(bào)告
- 無(wú)違法犯罪記錄證明申請(qǐng)表(個(gè)人)
- 電捕焦油器火災(zāi)爆炸事故分析
- 大學(xué)生勞動(dòng)教育PPT完整全套教學(xué)課件
- 繼電保護(hù)原理應(yīng)用及配置課件
- 《殺死一只知更鳥》讀書分享PPT
- 蓋洛普Q12解讀和實(shí)施完整版
- 2023年Web前端技術(shù)試題
- 品牌策劃與推廣-項(xiàng)目5-品牌推廣課件
評(píng)論
0/150
提交評(píng)論