




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)存儲與運用
降維課程主頁:/?page_id=397陳一帥chenyishuai@gmail引見為什么要降維?找出規(guī)律,緊縮數(shù)據(jù)量幾維?降維看起來2維,其實1維看起來3維,其實2維內(nèi)容特征值與特征向量PCA〔主元素分析〕Principal-ComponentAnalysisSVD〔奇特值分解〕Singular-ValueDecompositionCUR分解特征值與特征向量特征值與特征向量定義計算方法PowerIteration尋覓特征對〔Eigenpairs〕特征向量矩陣定義M矩陣,λ常數(shù),e非零列向量Me=λe獨一確定一個ee為unitvector第一個非零元素為正普通計算方法要,的行列式等于0求得λ然后經(jīng)過Me=λe求e計算復(fù)雜度O(n3)PowerIteration方法任選一個向量X0遞歸誤差Frobeniusnorm足夠小時,停頓這個Xk就是M的主特征向量然后經(jīng)過Mx=λx求λx是一個單位向量:X-1=XTPowerIteration方法再找第二個特征對在M中去掉第一個主特征向量的要素然后類似計算特征向量矩陣特征向量是單位向量特征向量之間正交特征向量矩陣E的特點PCAPCA事例運用特征向量進展降維間隔矩陣原理將矩陣與一個正交單位向量矩陣相乘,意味著在歐式空間上的旋轉(zhuǎn)求的特征矩陣E,對高維數(shù)據(jù)進展旋轉(zhuǎn)原數(shù)據(jù)變成在新的坐標(biāo)上的投影。新的坐標(biāo)上,第一維是主特征向量指向的那個方向,能量最強以后依次遞減使降維成為能夠原始數(shù)據(jù)按虛線旋轉(zhuǎn)逆時針45度旋轉(zhuǎn)對稱陣在新坐標(biāo)系上的位置第一維的能量>第二維的能量,而且它們正交所以,假設(shè)要降到一維,無疑,應(yīng)該保管第一維,把第二維去掉PCASVDSVD定義降維運用計算定義r是A的Rank〔秩〕U:左奇特向量Leftsingularvectors單位正交矩陣:奇特值Singularvalues對角陣,V:右奇特向量Rightsingularvectors單位正交矩陣例二維M的秩r=2科幻浪漫用戶–概念矩陣概念強度矩陣電影–概念矩陣科幻浪漫科幻浪漫SVD用戶電影觀看矩陣科幻浪漫用戶–概念矩陣概念強度矩陣電影–概念矩陣科幻浪漫科幻浪漫在實踐中,U,V中沒有這么多0概念分得沒有這么清SVD的了解V是把電影按照用戶進展概念分類后的結(jié)果五部電影,投影到“科幻〞“浪漫〞兩個概念上SVD的了解是將用戶按照電影進展概念分類后的結(jié)果7個用戶,投影到“科幻〞“浪漫〞兩個概念上基于SVD的降維降概念強度最低那一維用戶–概念矩陣概念強度矩陣電影–概念矩陣降維結(jié)果誤差評價降維證明為什么去掉最小的那一維,誤差最???需求證明兩點假設(shè)M=PQR是M的SVD,有qii是Q對角線上的值,也就是實際中堅持80~90%的能量計算復(fù)雜度看哪個小LINPACK,Matlab,SPlus,Mathematica都有實現(xiàn)和特征向量的關(guān)系是的特征值對角陣U是的特征向量矩陣V是的特征向量矩陣就是PCA的那個旋轉(zhuǎn)矩陣E就可以用PowerIteration的方法解運用知:趙教師喜歡Matrix,給它評分為5,問:趙教師喜歡什么類型的片?qV計算,把趙教師投影到概念空間上運用給趙教師引薦什么片?把趙教師的概念向量qV,乘視頻的概念向量VT,得到引薦的視頻向量=[1.641.641.64-0.16-0.16]給他引薦<異形>運用尋覓和趙教師興趣一樣的人他們雖然看的是不同的片,但發(fā)現(xiàn)了他們的興趣一樣經(jīng)過UI矩陣發(fā)現(xiàn)的SVD的問題結(jié)果難以解釋為什么這么多維?U和V很Dense!占空間多CURCUR正確地選擇行/列構(gòu)造中間矩陣消除冗余的行/列緣起抑制SVD的問題M=CUR隨機找c行,組成C選行j的概率P(j)=其能量〔值的平方和〕/A的總能量選出后,除它能夠被挑上的次數(shù)的開方益處:好了解,C稀疏求UW是C和R的交集對它SVD:
Z+偽反〔pseudoinverse〕Z中的元素,假設(shè)是0,堅持不變;假設(shè)非0,取倒數(shù)性能[Drineasetal.]取行,列,就能在O(m*n)時間內(nèi),以概率獲得Drineasetal.,FastMonteCarloAlgorithmsforMatricesIII:ComputingaCompressedApproximateMatrixDecomposition,SIAMJournalonComputing,2006.冗余行/列的處置K列一樣扔掉K-1列,保管1列對這一列中的一切值,乘比較實驗DBLP作者數(shù)據(jù)作者–會議矩陣,論文數(shù)428K作者〔行〕,3659會議〔列〕做降維CPU時間準(zhǔn)確度存儲空間:輸出矩陣中數(shù)值個數(shù)/輸入矩陣中數(shù)值個數(shù)性能比較Sun,Faloutsos:LessisMore:CompactMatrixDecompositionforLargeSparseGraphs,SDM’07.擴展SVD線性投影非線性方法/?AGlobalGeometricFrameworkforNonlinearDimensionalityReduction.J.B.Tenenbaum,V.deSilvaandJ.C.Langford.Science290(5500):
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年成都市第十六幼兒園教師招聘考試真題
- 2023年度浙江樹人大學(xué)單招《語文》自我提分評估附完整答案詳解【奪冠】
- 學(xué)校復(fù)學(xué)消毒培訓(xùn)課件
- 腎盂輸尿管成型術(shù)后護理
- 五年級數(shù)學(xué)(小數(shù)乘除法)計算題專項練習(xí)及答案
- 人教歷史2025高考一輪基礎(chǔ):選擇習(xí)題(6)含答案
- 2025幼兒園教研工作總結(jié)
- 重慶2024行測筆試真題及答案
- 2024年黑龍江工商學(xué)院輔導(dǎo)員考試真題
- 2025贛西科技職業(yè)學(xué)院單招《職業(yè)適應(yīng)性測試》模擬試題含答案詳解
- 檢測技術(shù)與儀表復(fù)習(xí)
- 出租房退房協(xié)議(通用5篇)
- 2023年寧夏銀川市西夏區(qū)北京西路街道社區(qū)工作人員考試模擬題含答案
- GB/T 23932-2009建筑用金屬面絕熱夾芯板
- 防靜電手環(huán)測試指導(dǎo)書
- 機電控制工程
- 碼頭承包經(jīng)營合同
- 建筑工程防水(防滲漏)處理PPT
- 溫病學(xué)講義劉景源
- 校企共建校內(nèi)實訓(xùn)基地協(xié)議模版
- 嵌頓疝病人應(yīng)急預(yù)案
評論
0/150
提交評論