


下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
CS229LecturePart主成分分(Principalcomponents前面我們講了因子分析(factorysis),其中在某個k 度子空間對x∈Rn進行近似建模,k遠小于n,即k?n。 維度仿射空間(affinespace){Λz+μ;z∈Rk}中生成某個z(i),然后增加Ψ-協(xié)方差噪音(covariancenoise)。因子分析(factorysis)是基于一個概率模型(probabilistic 然后參數(shù)估計(parameterestimation)使用了迭代期望最大化算法(iterativeEMalgorithm)。 (PrincipalComponents ysis,縮寫為PCA),這個方法 里面可以通過eig函數(shù)輕松假如我們有一個數(shù)據(jù)集{x(i);i=1,...,m},其中包括了m種 umspeed),轉(zhuǎn)彎半徑(urnradus)等等。設(shè)其中每個i都有x(i)∈Rn,(n?m)。但對于兩個不同的屬性,例如xi和xj,對應(yīng)著以英里每小時(mph)為單位的最高速度和以公里每小時(kph)為單位的最高速度。因此這兩個屬性應(yīng)該基本是線性相關(guān)(linearlydependent)的,只在對mph和kph進行四舍五入似處于一個n-1維度的子空間中的。我們?nèi)绾巫詣訖z測和刪舉一個不那么麻煩的例子,設(shè)想有一個數(shù)據(jù)集,其中包含的是對一個無線電直升機(rado-conroledhelcopers)飛行員得到的數(shù)據(jù),其中的x1(i)指代的是i的飛行技能的度量,而x2(i)指代的是該對飛行的喜愛程度。無線電直升機是很難操作的,只有那些非常投入,并且特別熱愛飛行的學(xué)生,才能成為好的。所以,上面這兩個屬性x1和x2之間的相關(guān)性是非常強的。所以我們可以認為在數(shù)據(jù)中沿著對角線方向(也就是下圖中的u1方向)表征了一個人對飛行投入程度的內(nèi)在“源動力(karma)”,只有少量的噪音脫離這個對角線方向。如下圖所示,我們怎么來自動去計算出u1的方向呢?我們接下來很快就要講到主成分分析算法(PCAalgorthm)了。但在運行PCA之前,我們首先要進行一些預(yù)處理(pre-proces),正則化(normalize)數(shù)據(jù)的均值(mean)和方差 將每個x(i)替換成x(i)?設(shè)將每個x(i)替換成第(1-2)步把數(shù)據(jù)的平均值清零(zeroout),然后可以省略掉所有有零均值的數(shù)據(jù)(例如,對應(yīng)語音或者其他聲學(xué)信號的差(unitvariance),這確保了不同的屬性(attributes)都在同樣的“尺度(scale)”上來進行處理。例如,如果x1是汽車的最大速度(以mph為單位,精確到十位),然后x2是汽車的座位數(shù)量(取值一般在2-4),這樣這個重新正則化j(scale),然后這些不同屬性就更具有對比性(morecomparabe)。如果我們事先已經(jīng)知道不同的屬性在同一尺度上,就可以省略第(3-4)步。例如,如果每個數(shù)據(jù)點表示灰度圖像(grayscaleimage)中的每個數(shù)據(jù)點,而每個x(i)就從j{0,1,...,255}中取值,對應(yīng)的也就是在圖像i中像素j位置的灰度值(intensityvalue)?!爸饕儺愝S(majoraxisofvariation)”u,該如何去計算呢?法是找出一個單位向量(unitvector)u,使得數(shù)投影在u的方向上的時候,投影的數(shù)據(jù)的方差(variance)最(variance)/信息量(nformaon)。我們要選擇的是這樣一個方向的單位向量u:數(shù)據(jù)能近似投放到與單位向量u的方向(drection)/子空間(ubpace),并且盡可能多地保留上面的方差(variance)。 這些點距離零點也都比較遠。樣本則如下圖所示,我們選的單位向量u。要對這個過程進行方程化(formalize),要注意到給定一個向量u和一個點x,x投影到u上的投影長度就可以用xTu來得到。也就是說,如果x(i)是我們數(shù)據(jù)集中的一個點(上面幾個圖中畫叉的x點中的一個),那么這個點在u上的投影(對應(yīng)的是圖中的圓點)就是從原點到xTu面式子最大化的單位長度向量u:Weeasilyrecognizethatizingthissubjectto||u||2=givestheprincipaleigenvector whichisjusttheempiricalcovariancematrixofthedata(assumingithaszeromean).1很容易就能發(fā)現(xiàn),要讓上面的式子最大化,||u||2= 給出的主特征向量(principal總結(jié)一下,如果我們要找一個1維度子控件來近似數(shù)據(jù),就要選擇Σ的主特征向量(principaleigenvector)作為單位向量u。更廣義地理解,就是如果要講數(shù)據(jù)投影到一個k維度子空間(k<n),就應(yīng)當選擇Σ的k個特征向量(eigenvectors)來作為單位向量u1,...,uk。這里的ui就形成了數(shù)據(jù)的一組新的正交基(orthogonalbasis)。2然后,要使用這組正交基來表示x(i),只需要計算對應(yīng)的向因此,x(i)Rn,向量y(i)就是對x(i)的近似/表示。因此,主(dimensionalityreductionalgorithm)。而其中的單位向量u1,...,uk也就叫做數(shù)據(jù)集的前k個主成分(principal備注。雖然我們已經(jīng)正式表述了,僅當k=1的情況下,使用特征向量(egenvecors)的眾所周知的特性,很明顯,在所有可能的正交基(orthogonalbaes)當中,我們選擇的那一組就能使得取最大值。因此,我們對基向量(basis)在習(xí)題集4中,你會發(fā)現(xiàn)主成分分析算法(PCA)也可以有另外一種推導(dǎo)方式:將數(shù)據(jù)投影到數(shù)據(jù)所的k維度子空(approximationerror)就來給出若干樣例。首先是壓縮—用更低維度的y(i)來表示x(i),這很明顯就是一種用途了。如果我們把高維度的數(shù)據(jù)降維到k=2或者3,那么就可以將y(i)進行可視化了。例 類型),來看看哪些車彼此相似,以及這些車可以成那些另一個常用應(yīng)用就是在使用x(i)作為輸入特征進行監(jiān)督學(xué)習(xí)算法(uperviedlearningalgorhm)之前降低數(shù)據(jù)維度的預(yù)處理步驟。除了有利于緩解計算性能壓力之外,降低數(shù)據(jù)維度還可以降低假設(shè)類(hypohesisclas)的復(fù)雜度(compexy),然后避免過擬合(overfitting)(例如,低維度的輸入特征控件上的線性分類器(inearcasifiers)會有更小的VC維度)最后,正如在直升機那個樣例,我們可以把PCA用作為一種降噪算法(noisereductionalgorithm)。在那個例子中,算法從對飛行技巧和熱愛程度的有噪音的衡量中估計了直觀的“飛行原動力(pilotingra)”。在課程特征算法(eigenfacemethod)。其中每個點x(i)R100×100都是一個10000維度的向量,每個坐標對應(yīng)的是一個100x100 y(i)來表示每個圖x(i)。在這個過程中,我們希望主成分(principalcomponents)“噪音(s)”。然后我們通過降低緯度然后計算||y(i)?y(j)||2來測量面孔i和j之間的距離。這樣就能得到一個令人驚艷的面部匹配和檢索算法(face-m
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育技術(shù)革新博士的實踐與未來趨勢
- 教育的科技革新與法權(quán)保護同行
- 抖音商戶自然流量增長策略制度
- 全球汽車零部件制造行業(yè)智能化生產(chǎn)線布局與趨勢分析報告
- BuChE-IN-21-生命科學(xué)試劑-MCE
- 廣東機電職業(yè)技術(shù)學(xué)院《知識產(chǎn)權(quán)專業(yè)英語》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年湖北省棗陽市吳店鎮(zhèn)清潭第一中學(xué)七年級數(shù)學(xué)第一學(xué)期期末調(diào)研模擬試題含解析
- 湖南電子科技職業(yè)學(xué)院《綜合設(shè)計實務(wù)(3)》2023-2024學(xué)年第一學(xué)期期末試卷
- 遼寧省盤錦市雙臺子區(qū)第四中學(xué)2024年化學(xué)九上期末學(xué)業(yè)水平測試試題含解析
- 可克達拉職業(yè)技術(shù)學(xué)院《外事禮儀》2023-2024學(xué)年第一學(xué)期期末試卷
- 海姆立克評分標準
- 碳匯經(jīng)濟與政策智慧樹知到期末考試答案章節(jié)答案2024年浙江農(nóng)林大學(xué)
- T-SHNA 0002-2023 淚道沖洗操作規(guī)范
- 老年患者風(fēng)險評估及安全管理
- 安全事故案例警示教育培訓(xùn)
- 散打說課課件
- 面館開店投資 項目融資計劃書
- 車體-罐車(車輛構(gòu)造檢修課件)
- 草魚高效養(yǎng)殖模式與技術(shù)
- 腎骨片產(chǎn)品課件
- 幼師應(yīng)聘個人簡歷表格
評論
0/150
提交評論