




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
人工智能技術(shù)基礎(chǔ)5.1深度學(xué)習(xí)概述第五章深度學(xué)習(xí)01人工智能基本概念02深度學(xué)習(xí)概述01機(jī)器學(xué)習(xí)回顧機(jī)器學(xué)習(xí)內(nèi)容回顧什么是機(jī)器學(xué)習(xí)?(一句話概括)機(jī)器學(xué)習(xí)分為哪些類別?機(jī)器學(xué)習(xí)算法的求解一般過程?數(shù)據(jù)挖掘?qū)崙?zhàn)的通用流程?Python中使用到的工具包?1.機(jī)器學(xué)習(xí)是什么?一句話的解釋:機(jī)器學(xué)習(xí)(MachineLearning,ML)是指從有限的觀測數(shù)據(jù)(訓(xùn)練數(shù)據(jù))中學(xué)習(xí)(或“猜測”)出具有一般性的規(guī)律(Function),并利用這些規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測的方法。“5-5”(下一步走棋位置)PlayingGo:“貓”圖像分類:“你好,吃了嗎?”語音識(shí)別:2.機(jī)器學(xué)習(xí)的類別回歸:輸出是一個(gè)實(shí)數(shù)預(yù)測PM2.5的數(shù)值f明日PM2.5數(shù)值
今日PM2.5溫度O3濃度垃圾郵件過濾是/否f分類:
輸出屬于的類別PlayingGO(19x19classes)2.機(jī)器學(xué)習(xí)的分類創(chuàng)造有結(jié)構(gòu)化的物件(圖片,文本,音樂等)結(jié)構(gòu)化學(xué)習(xí)回歸:輸出是一個(gè)實(shí)數(shù)分類:
輸出屬于的類3.機(jī)器學(xué)習(xí)算法的求解一般過程4、預(yù)測數(shù)據(jù)計(jì)算Loss查看效果
訓(xùn)練過程Training測試過程Testing4.數(shù)據(jù)挖掘?qū)崙?zhàn)的通用流程?業(yè)務(wù)理解:確定要做什么任務(wù)數(shù)據(jù)采集:收集數(shù)據(jù)數(shù)據(jù)清洗:去除異常值,補(bǔ)充空缺值……特征工程:特征選擇,特征轉(zhuǎn)換,降維……數(shù)據(jù)建模:拆分?jǐn)?shù)據(jù)集,建模,調(diào)參……驗(yàn)證調(diào)優(yōu):交叉驗(yàn)證,f1-score……模型融合:多模型ensemble……模型部署:投入生產(chǎn)數(shù)據(jù)預(yù)處理5.Python中使用到的工具包?業(yè)務(wù)理解數(shù)據(jù)采集:爬蟲Scrapy,json解析BS4數(shù)據(jù)預(yù)處理:Pandas,Numpy,Matplotlib/Seaborn數(shù)據(jù)建模、調(diào)優(yōu):Sklearn模型部署第五章深度學(xué)習(xí)02深度學(xué)習(xí)概述01機(jī)器學(xué)習(xí)回顧WhatisDeepLearning?+什么是深度學(xué)習(xí)概念源于人工神經(jīng)網(wǎng)絡(luò)的研究由GeoffreyHinton等人于2006年提出通過組合底層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示深度學(xué)習(xí)模型可以自動(dòng)提取很多復(fù)雜的特征通過多層次的非線性變換,它可以將初始的“底層”特征表示轉(zhuǎn)化為“高層”特征表示后,用“簡單模型”即可完成復(fù)雜的分類學(xué)習(xí)任務(wù)什么是深度學(xué)習(xí)深度=很多很多的網(wǎng)絡(luò)層數(shù)什么是深度學(xué)習(xí)第一次興起:1943年由McCulloch和Pitts首次提出了神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元模型——M-P神經(jīng)元模型。1958年,感知器perceptron誕生。由于無法解決異或問題陷入低谷期第二次興起:1986年,Hinton提出多層感知機(jī)(MLP),加上非線性激活函數(shù),解決了異或問題。并且提出了BP反向傳播算法,來訓(xùn)練模型。受限于理論不完善(解釋性差等)最終暫時(shí)敗于SVM,陷入第二次低谷期第三次興起,突破,2006年前后GoeffreyHinton提出pre-training方法訓(xùn)練DBN(深度信念網(wǎng)絡(luò))以及YannLeCun將BP與CNN結(jié)合推出Le-Net。2009:GPU興起。2012年以后:語音、圖像,文本深度學(xué)習(xí)發(fā)展歷程神經(jīng)網(wǎng)絡(luò)發(fā)展史:深度學(xué)習(xí)再次飛躍發(fā)展的因素:大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù)集的出現(xiàn)并行運(yùn)算(例如GPU)的發(fā)展更好的非線性激活函數(shù)的使用:ReLU代替Sigmoid更多優(yōu)秀的網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)明:ResNet,GoogleNet,AlexNet等深度學(xué)習(xí)開發(fā)平臺(tái)的發(fā)展:TensorFlow,Pytorch,Theano和MXNet等新的正則化技術(shù)的出現(xiàn):批標(biāo)準(zhǔn)化、Dropout等更多穩(wěn)健的優(yōu)化算法:SGD的變種,如RMSprop,Adam等深度學(xué)習(xí)發(fā)展歷程ImageNet:一個(gè)大型可視化數(shù)據(jù)庫。擁有超過1400萬的標(biāo)注圖像,包含2萬多個(gè)類別。2010年以來,ImageNet項(xiàng)目每年舉辦一次軟件競賽,即ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽(ILSVRC)。挑戰(zhàn)賽使用1000個(gè)“整理”后的非重疊類,比賽內(nèi)容是:正確分類、并檢測目標(biāo)及場景。圖像識(shí)別人類平均錯(cuò)誤率約5.1%,15年ResNet以3.57%的錯(cuò)誤率首次突破人類水平,16年冠軍Trimps-Soushen錯(cuò)誤率僅2.99%,17年SeNet錯(cuò)誤率只有2.25%深度學(xué)習(xí)應(yīng)用-圖像類應(yīng)用ZFDeep深度學(xué)習(xí)應(yīng)用-物體檢測與分割/matterport/Mask_RCNN深度學(xué)習(xí)應(yīng)用-風(fēng)格遷移/zhanghang1989/MXNet-Gluon-Style-Transfer/深度學(xué)習(xí)應(yīng)用-人臉合成2017年的DeepFakes和2019年手機(jī)APP-ZAO用換臉技術(shù)在互聯(lián)網(wǎng)社交平臺(tái)上人氣火爆,一度成為熱門話題通過攝像頭采集臉部特征(根據(jù)指示對(duì)鏡頭完成一些動(dòng)作)無監(jiān)督的圖像到圖像轉(zhuǎn)換的生成對(duì)抗網(wǎng)絡(luò)深度學(xué)習(xí)應(yīng)用-人臉識(shí)別Google神經(jīng)機(jī)器翻譯系統(tǒng)在多種語言間的翻譯性能獲得大幅突破,接近人類的翻譯水平深度學(xué)習(xí)應(yīng)用-自然語言處理生成莎士比亞詩集生成藏頭詩深度學(xué)習(xí)應(yīng)用-自動(dòng)生成文本深度學(xué)習(xí)應(yīng)用-文本生成圖片/blog/dall-e/在語音識(shí)別領(lǐng)域極具挑戰(zhàn)性的SwitchBoard任務(wù)中,GMM-HMM傳統(tǒng)方法一直未能有突破2011年使用DNN后獲得較大突破2015年,IBM再次將錯(cuò)誤率降低到6.9%,接近人類的水平(4%)2016年,Microsoft將錯(cuò)誤率降低到5.9%,進(jìn)一步接近人類水平公開語料庫:
/resources.php中文:THCHS-30,清華大學(xué),30小時(shí)連續(xù)普通話語音數(shù)據(jù)庫深度學(xué)習(xí)應(yīng)用-語音識(shí)別2015年10月,AlphaGo擊敗樊麾,成為第一個(gè)無需讓子即可在19路棋盤上擊敗圍棋職業(yè)棋手的電腦圍棋程序。2016年3月,AlphaGo與圍棋世界冠軍、職業(yè)九段棋手李世石進(jìn)行圍棋人機(jī)大戰(zhàn),以4比1的總比分獲勝。2017年5月23日到27日,在中國烏鎮(zhèn)圍棋峰會(huì)上,AlphaGo以3比0的總比分戰(zhàn)勝排名世界第一的世界圍棋冠軍柯潔。2017年10月18日,DeepMind團(tuán)隊(duì)公布了AlphaGoZero,從空白狀態(tài)學(xué)起,在無任何人類輸入的條件下,AlphaGoZero能夠迅速自學(xué)圍棋,用40天超越了所有舊版本。深度學(xué)習(xí)應(yīng)用-AlphaGo深度學(xué)習(xí)是一種特殊的機(jī)器學(xué)習(xí)深度學(xué)習(xí)VS機(jī)器學(xué)習(xí)人工智能ArtificialIntelligence機(jī)器學(xué)習(xí)MachineLearning深度學(xué)習(xí)DeepLearning(1)數(shù)據(jù)依賴性
當(dāng)數(shù)據(jù)很少時(shí),深度學(xué)習(xí)算法的性能并不好。因?yàn)樯疃葘W(xué)習(xí)算法需要大量的數(shù)據(jù)才能很好理解其中蘊(yùn)含的模式。(2)硬件依賴深度學(xué)習(xí)算法需要進(jìn)行大量的矩陣運(yùn)算,GPU
主要用來高效優(yōu)化矩陣運(yùn)算,所以GPU是深度學(xué)習(xí)正常工作的必須硬件。與傳統(tǒng)機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)更依賴安裝GPU的高端機(jī)器。深度學(xué)習(xí)VS機(jī)器學(xué)習(xí)(3)特征處理機(jī)器學(xué)習(xí)需要專家人為定義特征,并編碼為一種數(shù)據(jù)類型。特征工程處理過程非常耗時(shí)且需要相應(yīng)的專業(yè)知識(shí)。機(jī)器學(xué)習(xí)的模型效果好壞極大取決于特征工程。深度學(xué)習(xí)嘗試從數(shù)據(jù)中直接獲取特征,這是深度學(xué)習(xí)與傳統(tǒng)機(jī)器學(xué)習(xí)算法的主要的不同。例如,卷積神經(jīng)網(wǎng)絡(luò)嘗試在前邊的層學(xué)習(xí)低等級(jí)的特征(邊界,線條),然后學(xué)習(xí)部分人臉,然后是高級(jí)的人臉的描述。深度學(xué)習(xí)VS機(jī)器學(xué)習(xí)(4)問題解決方式傳統(tǒng)機(jī)器學(xué)習(xí)通常會(huì)將問題分解為多個(gè)子問題并逐個(gè)子問題解決最后結(jié)合所有子問題的結(jié)果獲得最終結(jié)果。深度學(xué)習(xí)提倡直接的端到端的解決問題機(jī)器學(xué)習(xí)會(huì)將問題分解為兩步:物體檢測和物體識(shí)別。首先,使用一個(gè)邊界框檢測算法掃描整張圖片找到可能的是物體的區(qū)域;然后使用物體識(shí)別算法(例如SVM結(jié)合HOG)對(duì)上一步檢測出來的物體進(jìn)行識(shí)別。
深度學(xué)習(xí)會(huì)直接將輸入數(shù)據(jù)進(jìn)行運(yùn)算得到輸出結(jié)果。例如可以直接將圖片傳給YOLO網(wǎng)絡(luò)(一種深度學(xué)習(xí)算法),YOLO網(wǎng)絡(luò)會(huì)給出圖片中的物體和名稱。多物體檢測任務(wù):深度學(xué)習(xí)VS機(jī)器學(xué)習(xí)(5)執(zhí)行時(shí)間
機(jī)器學(xué)習(xí)的訓(xùn)練會(huì)消耗的時(shí)間相對(duì)較少,只需要幾秒鐘到幾小時(shí)的時(shí)間。根據(jù)數(shù)據(jù)量和機(jī)器學(xué)習(xí)算法而定。
深度學(xué)習(xí)訓(xùn)練需要很長的時(shí)間:這是因?yàn)樯疃葘W(xué)習(xí)算法中參數(shù)很多,因此訓(xùn)練算法需要消耗更長的時(shí)間。最先進(jìn)的深度學(xué)習(xí)算法ResNet完整地訓(xùn)練一次需要消耗兩周的時(shí)間。所以需要GPU來大大提升訓(xùn)練速度。(6)可解釋性
機(jī)器學(xué)習(xí)中的類似決策樹、邏輯回歸這樣的算法具備規(guī)則的可解釋性,可以幫助決策者了解背后的邏輯推理。
深度學(xué)習(xí)算法的結(jié)果不具備可解釋性。
深度學(xué)習(xí)VS機(jī)器學(xué)習(xí)TensorflowPyTorchCaffeTheanoKeras…深度學(xué)習(xí)業(yè)務(wù)開源框架簡介課程實(shí)驗(yàn)代碼:Tensorflow2.0Tensorflow官方:/guide?hl=zh-cnKeras官方:https://keras-zh.readthedocs.io/二、深度學(xué)習(xí)概述知識(shí)點(diǎn)回顧什么是深度學(xué)習(xí)深度學(xué)習(xí)發(fā)展歷程深度學(xué)習(xí)應(yīng)用深度學(xué)習(xí)與機(jī)器學(xué)習(xí)比較深度學(xué)習(xí)概述知識(shí)點(diǎn)回顧人工智能技術(shù)基礎(chǔ)5.2全連接神經(jīng)網(wǎng)絡(luò)第五章深度學(xué)習(xí)01從感知機(jī)到神經(jīng)網(wǎng)絡(luò)02全連接網(wǎng)絡(luò)生物神經(jīng)元人類的大腦(生物神經(jīng)元):樹突細(xì)胞體軸突樹突M-P神經(jīng)元模型神經(jīng)元受生物神經(jīng)元啟發(fā),1943年由McCulloch和Pitts首次提出了神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元模型——M-P神經(jīng)元模型神經(jīng)元模型z…a1a2
aK+b偏差Bias權(quán)重Weightsw1w2wK…1、加權(quán)求和的值:
激活函數(shù)ActivationFunction2、經(jīng)過激活函數(shù)的神經(jīng)元輸出:
常見的激活函數(shù)11.符號(hào)函數(shù)Sign符號(hào)函數(shù)sign的值域?yàn)?1或-1,即當(dāng)輸入大于等于0時(shí),輸出+1,小于0時(shí)輸出-1,2.階躍函數(shù)Sgn階躍函數(shù)與符號(hào)函數(shù)非常接近,區(qū)別在于當(dāng)輸入小于0時(shí),階躍函數(shù)輸出是0,而符號(hào)函數(shù)輸出是-1常見的激活函數(shù)23.sigmoid函數(shù)值域?yàn)?0,1)該激活函數(shù)如今并不常用,因?yàn)樘荻忍菀罪柡?,不過RNN-LSTM網(wǎng)絡(luò)如今還會(huì)需要用到它。4.tanh函數(shù)值域?yàn)?-1,1)該激活函數(shù)因?yàn)镽eLU
函數(shù)的普及使用而不那么流行了。常見激活函數(shù)35.ReLU(修正線性單元)解析表達(dá)式可寫為ReLU(x)=max(0,x)。值域?yàn)閇0,+∞)ReLU是如今應(yīng)用最廣泛的激活函數(shù)。但是ReLU可以kill神經(jīng)元:一旦ReLU后=0,該神經(jīng)元將不會(huì)被再激活。6.LeakyReLU
(滲漏線性單元)值域?yàn)??∞,+∞),α一般是很小的常數(shù),保留了一些負(fù)軸的值,使得負(fù)軸信息不會(huì)全部丟失。不管輸入到神經(jīng)元的是什么值,其至少能得到一個(gè)非零的數(shù)值。思考:激活函數(shù)可以是線性函數(shù)嗎?單層感知機(jī)感知機(jī)(Perceptron)是FrankRosenblatt在1957年就職于康奈爾航空實(shí)驗(yàn)室(CornellAeronauticalLab)時(shí)所發(fā)明的一種人工神經(jīng)網(wǎng)絡(luò),可以被視為是一種最簡單形式的神經(jīng)網(wǎng)絡(luò),是一種二元線性分類器。1.單層感知機(jī):僅包含輸入和輸出層兩層結(jié)構(gòu)應(yīng)用:單層感知機(jī)實(shí)現(xiàn)邏輯與(AND)
11-2
激活函數(shù)用階躍函數(shù)sgn單層感知機(jī)單層感知機(jī)是一種線性可分模型,僅能解決線性可分的數(shù)據(jù)問題課堂練習(xí)1:單層感知機(jī)實(shí)現(xiàn)邏輯或(OR)OR
操作
?
??
課堂練習(xí)2:單層感知機(jī)實(shí)現(xiàn)邏輯異或(XOR)XOR
操作
?
??無解。。。多層感知機(jī)多層感知器(MultilayerPerceptron,縮寫MLP)是一種前向結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò),映射一組輸入向量到一組輸出向量,網(wǎng)絡(luò)結(jié)構(gòu)可以有多層,輸出節(jié)點(diǎn)也可以有多個(gè)。也叫多層神經(jīng)網(wǎng)絡(luò),是最典型的神經(jīng)網(wǎng)絡(luò)模型,能解決線性不可分問題。
輸入層
隱藏層輸出層
課堂練習(xí)2:單層感知機(jī)實(shí)現(xiàn)邏輯異或(XOR)XOR
操作010111100000000神經(jīng)網(wǎng)絡(luò)分類按神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),介紹三種最常用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu):1.前饋網(wǎng)絡(luò)前饋網(wǎng)絡(luò)中各個(gè)神經(jīng)元按接收信息的先后分為不同的層,每一層中的神經(jīng)元接收前一層神經(jīng)元的輸出作為輸入,計(jì)算后將該層的輸出傳遞到下一層神經(jīng)元。整個(gè)網(wǎng)絡(luò)中的信息朝一個(gè)方向傳播,沒有反向的信息傳播。常見的前饋網(wǎng)絡(luò)包括全連接前饋網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。2.記憶網(wǎng)絡(luò)記憶網(wǎng)絡(luò),也被稱為反饋網(wǎng)絡(luò),網(wǎng)絡(luò)中的神經(jīng)元不僅可以接收其他神經(jīng)元的信息,也可以接收自己的歷史信息,并且在不同的時(shí)刻可以具有不同的狀態(tài)。記憶神經(jīng)網(wǎng)絡(luò)中的信息可以是單向傳遞,也可以是雙向傳遞。常見的記憶網(wǎng)絡(luò)包括循環(huán)神經(jīng)網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、玻爾茲曼機(jī)等。3.圖網(wǎng)絡(luò)前饋網(wǎng)絡(luò)和記憶網(wǎng)絡(luò)都要求輸入是向量形式,但實(shí)際應(yīng)用中很多數(shù)據(jù)是圖結(jié)構(gòu)的,比如知識(shí)圖譜、社交網(wǎng)絡(luò)數(shù)據(jù)等,圖網(wǎng)絡(luò)是可以處理圖結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。節(jié)點(diǎn)之間的連接可以是有向的,也可以是無向的,每個(gè)節(jié)點(diǎn)可以收到來自相鄰節(jié)點(diǎn)或自身的信息。圖網(wǎng)絡(luò)是前饋網(wǎng)絡(luò)和記憶網(wǎng)絡(luò)的泛化,常見的圖網(wǎng)絡(luò)包括圖卷積網(wǎng)絡(luò)、圖注意力網(wǎng)絡(luò)等。第五章深度學(xué)習(xí)01從感知機(jī)到神經(jīng)網(wǎng)絡(luò)02全連接網(wǎng)絡(luò)1.網(wǎng)絡(luò)結(jié)構(gòu)-全連接神經(jīng)網(wǎng)絡(luò)基本單元62+3偏差Bias權(quán)重Weights1-2-1σ(z)
激活函數(shù)ActivationFunction-110.9971.網(wǎng)絡(luò)結(jié)構(gòu)-全連接前饋神經(jīng)網(wǎng)絡(luò)全連接前饋神經(jīng)網(wǎng)絡(luò)(FullyConnect
FeedforwardNetwork)
神經(jīng)元之間兩兩都連接,鏈?zhǔn)浇Y(jié)構(gòu),前后次序給定;上一層的輸出為下一層的輸入。輸出層OutputLayer隱藏層Hidden
Layers輸入層InputLayer輸入層神經(jīng)元數(shù)量=特征的維度輸出層神經(jīng)元數(shù)量=分類的數(shù)量Eg:貓狗識(shí)別:2手寫體0-9識(shí)別:10x2……xNLayer
2……Layer
L…………………………Outputy1y2yMInput Layer
1x1……1.網(wǎng)絡(luò)結(jié)構(gòu)-輸出層表示二分類問題:sigmoid函數(shù)(單節(jié)點(diǎn))多分類問題:softmax函數(shù)輸出層OutputLayer隱藏層Hidden
Layers輸入層InputLayerx2Input Layer
1x1……xN……Layer
2……Layer
L…………………………Outputy1y2yMSoftmax
1.網(wǎng)絡(luò)結(jié)構(gòu)-輸出層表示輸入:256維向量輸出:10維向量神經(jīng)網(wǎng)絡(luò)均方誤差(MSE)預(yù)測值和真值的歐式距離均方誤差損失函數(shù)常用于回歸問題中輸出層配套的激活函數(shù)一般為:linear輸出神經(jīng)元數(shù)量:1個(gè)交叉熵(cross-entropy)來源于信息論中熵的概念目前神經(jīng)網(wǎng)絡(luò)處理分類問題常用的損失函數(shù)輸出層配套的激活函數(shù)一般為:sigmoid(二分類)、softmax(多分類)多分類神經(jīng)元數(shù)量=分類的數(shù)量神經(jīng)網(wǎng)絡(luò)的損失函數(shù)特征:?非負(fù)性?預(yù)測值和真實(shí)值接近時(shí),損失函數(shù)值趨于零2.常見損失函數(shù)類別K的標(biāo)簽(實(shí)際概率)屬于類別K的預(yù)測概率3.尋找最優(yōu)參數(shù)–梯度下降法
超參數(shù):學(xué)習(xí)率(learningrate)迷霧下山:每次沿著當(dāng)前位置最陡峭的方向走一步,直到谷底不同的初始點(diǎn),可能走到不同的局部最小點(diǎn)問題?假設(shè)輸入層1000,隱層1000,隱層1000,輸出10,權(quán)重:1*e10個(gè)。如何高效更新參數(shù)?誤差反向傳播(Backpropagation)BP算法3.尋找最優(yōu)參數(shù)–BP算法(誤差反向傳播)BP算法計(jì)算流程反向傳播算法過程:【權(quán)重初始化】通常將參數(shù)初始化為一個(gè)很小的,接近零的隨機(jī)值?!厩跋蛴?jì)算】依次計(jì)算各層神經(jīng)元的加權(quán)和z和激活值a,計(jì)算損失值L。【反向傳播】根據(jù)損失值L,由后向前,依次計(jì)算各層參數(shù)的梯度,運(yùn)用梯度下降迭代更新權(quán)重值。如此循環(huán),直到滿足終止條件,更新迭代完成。人工智能技術(shù)基礎(chǔ)5.3神經(jīng)網(wǎng)絡(luò)優(yōu)化技術(shù)第五章深度學(xué)習(xí)01深度學(xué)習(xí)中的優(yōu)化方法02正則化過擬合和欠擬合損失epoch驗(yàn)證集訓(xùn)練集欠擬合過擬合深度學(xué)習(xí)的優(yōu)化參數(shù)學(xué)習(xí)算法的優(yōu)化SGD/mini-batchSGD自適應(yīng)學(xué)習(xí)率AdaGradRMSprop動(dòng)量法Momentum減少每次訓(xùn)練量Adam手動(dòng)調(diào)整學(xué)習(xí)率隨機(jī)失活DropoutL1、L2正則化提前終止Earlystopping欠擬合(訓(xùn)練集效果不好)過擬合(訓(xùn)練集效果好,但驗(yàn)證集效果不好)梯度下降:使用全部訓(xùn)練集樣本,計(jì)算代價(jià)太高。(更新一次參數(shù),使用全部訓(xùn)練樣本)隨機(jī)梯度下降(stochasticgradientdescent,SGD):
為了減少每次迭代的計(jì)算開銷,通常在每次迭代中,隨機(jī)均勻采樣一個(gè)樣本計(jì)算梯度,更新一次參數(shù)。
小批量隨機(jī)梯度下降(mini-batchSGD):
實(shí)際使用往往使用mini-batchSGD,即每次迭代中隨機(jī)均勻采樣多個(gè)樣本組成小批量,然后使用這個(gè)小批量來計(jì)算梯度,不僅能減少梯度估計(jì)的方差,還能充分利用計(jì)算資源,計(jì)算更快!1.參數(shù)最優(yōu)化–隨機(jī)梯度下降SGD
SGD缺點(diǎn):1、容易收斂到局部最小值。2、選擇合適的learningrate比較困難-對(duì)所有的參數(shù)更新使用同樣的learningrateSmallBatchv.s.LargeBatchBatchsize=20(Fullbatch)每次看全量數(shù)據(jù)每個(gè)epoch更新一次每次看1個(gè)數(shù)據(jù)每個(gè)epoch更新20次總樣本(N=20)Batchsize=1SmallBatchv.s.LargeBatchMNISTCIFAR-10經(jīng)驗(yàn):較小的batch-size效果較好深度學(xué)習(xí)的優(yōu)化參數(shù)學(xué)習(xí)算法的優(yōu)化SGD/mini-batchSGD自適應(yīng)學(xué)習(xí)率AdaGradRMSprop動(dòng)量法Momentum減少每次訓(xùn)練量Adam手動(dòng)調(diào)整學(xué)習(xí)率隨機(jī)失活DropoutL1、L2正則化提前終止Earlystopping欠擬合(訓(xùn)練集效果不好)過擬合(訓(xùn)練集效果好,但驗(yàn)證集效果不好)2.參數(shù)最優(yōu)化–手動(dòng)調(diào)整梯度:動(dòng)量法很難找到最佳的網(wǎng)絡(luò)參數(shù)在平坦處梯度下降緩慢停留在鞍點(diǎn)
停留在局部最小點(diǎn)
駐點(diǎn)(CriticalPoint)局部最小值鞍點(diǎn)普通GradientDescent
移動(dòng)方向梯度……
帶動(dòng)量的梯度下降
MovementGradient
移動(dòng)方向不僅由負(fù)梯度方向決定,還要考慮上次的動(dòng)量Movementofthelaststep
4.參數(shù)最優(yōu)化–自適應(yīng)學(xué)習(xí)率Adagrad
學(xué)習(xí)率太小→訓(xùn)練收斂太慢學(xué)習(xí)率太大→來回震蕩,損失未必會(huì)減低梯度變化小,希望η較大梯度變化大,希望η較小Adagrad:??←???
????∕??
??小常數(shù),防止分母為0前面梯度的平方的總和OriginalSGD: ??←
?????
????∕??????
通常每次參數(shù)更新時(shí),對(duì)于所有參數(shù)使用相同的學(xué)習(xí)率。AdaGrad算法的思想是:每一次參數(shù)更新,不同的參數(shù)使用不同的學(xué)習(xí)率。對(duì)于梯度較大的參數(shù),學(xué)習(xí)率會(huì)變得較??;對(duì)于梯度較小的參數(shù),學(xué)習(xí)率會(huì)變大。這樣可以使得參數(shù)在平緩的地方下降的稍微快些,不至于徘徊不前。5.參數(shù)最優(yōu)化–自適應(yīng)學(xué)習(xí)率RMSpropRMSprop(rootmeansquareprop均方根傳遞):RMSProp增加了一個(gè)衰減系數(shù)α來控制歷史信息的獲取多少使用指數(shù)衰減平均,以丟棄遙遠(yuǎn)過去歷史梯度。降低了對(duì)早期歷史梯度的依賴歷史的梯度被逐漸減弱Adam(AdaptiveMomentEstimation)
Momentum
(用動(dòng)量來累積梯度)RMSprop(收斂速度更快、波動(dòng)幅度更?。dam特點(diǎn):結(jié)合AdaGrad善于處理稀疏梯度和RMSprop善于處理非平穩(wěn)目標(biāo)的優(yōu)點(diǎn)對(duì)內(nèi)存需求較小為不同的參數(shù)計(jì)算不同的自適應(yīng)學(xué)習(xí)率第五章深度學(xué)習(xí)01深度學(xué)習(xí)中的優(yōu)化方法02正則化深度學(xué)習(xí)的正則化參數(shù)學(xué)習(xí)算法的優(yōu)化SGD/mini-batchSGD自適應(yīng)學(xué)習(xí)率AdaGradRMSprop動(dòng)量法Momentum減少每次訓(xùn)練量Adam手動(dòng)調(diào)整學(xué)習(xí)率隨機(jī)失活DropoutL1、L2正則化提前終止Earlystopping欠擬合(訓(xùn)練集效果不好)過擬合(訓(xùn)練集效果好,但驗(yàn)證集效果不好)1.防止過擬合–L1、L2正則化由于深度網(wǎng)絡(luò)的表達(dá)能力很強(qiáng),模型復(fù)雜度高,很容易導(dǎo)致過擬合,泛化能力降低深度學(xué)習(xí)中的正則化的目的:防止過擬合,提高泛化能力損失epoch驗(yàn)證集訓(xùn)練集L1正則化L2正則化
L1正則化項(xiàng)是所有參數(shù)的絕對(duì)值之和,可以抑制參數(shù)的大小,但是易產(chǎn)生稀疏解,即一部分為0,一部分非零實(shí)數(shù)。L2正則化項(xiàng)是參數(shù)的平方和。傾向于讓參數(shù)數(shù)值上盡可能小,最后構(gòu)造出一個(gè)所有參數(shù)都比較小的模型,一定程度上避免過擬合。L1使權(quán)重稀疏,L2使權(quán)重平滑。常用L2正則。λ(懲罰系數(shù))越大,權(quán)重總體越小。2.防止過擬合–提前停止(Earlystopping)模型的泛化能力通常是使用驗(yàn)證集評(píng)估得到的。隨著不停的迭代,模型在訓(xùn)練集上的誤差越來越小,而驗(yàn)證集上誤差往往會(huì)先減少后變大,因此可以在驗(yàn)證集上效果變差的時(shí)候,提前停止。損失epoch驗(yàn)證集訓(xùn)練集提前停止在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中,每次更新參數(shù)之前,每個(gè)神經(jīng)元都有p的概率被丟棄dropout是防止過擬合提高的泛化性的利器3.防止過擬合–隨機(jī)失活(Dropout)人工智能技術(shù)基礎(chǔ)5.4循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)第五章深度學(xué)習(xí)
01RNN概論
02RNN網(wǎng)絡(luò)結(jié)構(gòu)及各層工作原理
03LSTM詳解
04GRU詳解生活中的序列數(shù)據(jù)73文本序列數(shù)據(jù)時(shí)間序列數(shù)據(jù)何人無不見,此地自何如。一夜山邊去,江山一夜歸。山風(fēng)春草色,秋水夜聲深。何事同相見,應(yīng)知舊子人。何當(dāng)不相見,何處見江邊。一葉生云里,春風(fēng)出竹堂。何時(shí)有相訪,不得在君心。為什么需要RNN?全連接網(wǎng)絡(luò)、CNN網(wǎng)絡(luò):前一個(gè)輸入和后一個(gè)輸入是完全沒有關(guān)系的某些任務(wù)需要能夠更好的處理序列的信息,即前面的輸入和后面的輸入是有關(guān)系的。任務(wù)輸入輸出詞性標(biāo)注我吃蘋果我/nn吃/v蘋果/nn文本分類手機(jī)不買很吃虧1時(shí)間序列預(yù)測(每天氣溫)(次日氣溫)同步翻譯IloveChina我愛中國下一個(gè)出現(xiàn)位置預(yù)測基站A、B、C基站D為什么需要循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)?為什么需要循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)?7575RNN是為了對(duì)序列數(shù)據(jù)進(jìn)行建模而產(chǎn)生的。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(包括FCN、CNN),輸入和輸出都是互相獨(dú)立的。RNN針對(duì):序列數(shù)據(jù)(例如文本,是字母和詞匯的序列;語音,是音節(jié)的序列;視頻,是圖像的序列;氣象觀測數(shù)據(jù),股票交易數(shù)據(jù)等等)輸出的內(nèi)容與之前的內(nèi)容是相關(guān)的。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(包括FCN、CNN),要求有固定的輸入和輸出的尺寸,而在文本領(lǐng)域,根據(jù)不同任務(wù)需要處理1-1,1-多,多-多,多-1等多種情況。RNN網(wǎng)絡(luò)結(jié)構(gòu)較為靈活。核心思想:樣本間存在順序關(guān)系,每個(gè)樣本和它之前的樣本存在關(guān)聯(lián)。引入“記憶”的概念,來處理前后數(shù)據(jù)的相關(guān)性。第五章深度學(xué)習(xí)
01RNN概論
02RNN網(wǎng)絡(luò)結(jié)構(gòu)及各層工作原理
03LSTM詳解
04GRU詳解RNN結(jié)構(gòu)
輸入層隱藏層輸出層MemoryCell循環(huán)神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
SimpleRNN在計(jì)算時(shí),把上一次隱藏層的結(jié)果數(shù)據(jù),作為下一次的一個(gè)輸入源,與下一次的x合并后,再傳入隱藏層。這個(gè)過程,保留了之前數(shù)據(jù)的信息。RNN的過程中,共享同一個(gè)權(quán)重矩陣A。這個(gè)A就是W和U的拼接。RNNexampleRNN處理序列數(shù)據(jù),按序?qū)?shù)據(jù)一個(gè)一個(gè)傳入網(wǎng)絡(luò)計(jì)算RNNexampleEg:根據(jù)用戶的輸入,判斷用戶的說話意圖(多分類)RNN存在的問題RNN的缺陷:1.RNN有短期記憶問題,無法處理很長的輸入序列由于反向傳播BPTT(backpropthroughtime)算法普遍存在梯度消失的問題,但是由于RNN是序列計(jì)算,所以早期的步驟的梯度就非常小了。短期的記憶影響較大(如橙色區(qū)域),但是長期的記憶影響就很?。ㄈ绾谏途G色區(qū)域)由于RNN的短期記憶問題,后來又出現(xiàn)了一系列基于RNN的優(yōu)化算法。RNN應(yīng)用舉例——預(yù)測股價(jià)83Wt-1Wt+1Wt輸入最近兩天的股價(jià),預(yù)測第三天的股價(jià)RNN應(yīng)用舉例——預(yù)測位置84輸入用戶已經(jīng)走過點(diǎn)的經(jīng)緯度,預(yù)測用戶下一時(shí)刻的經(jīng)緯度。RNN基礎(chǔ)RNN使用場景時(shí)序數(shù)據(jù)、文本、語音等設(shè)計(jì)原因數(shù)據(jù)有時(shí)間上的先后依賴關(guān)系記憶單元工作原理,數(shù)據(jù)連接方式總結(jié)人工智能技術(shù)基礎(chǔ)5.4卷積神經(jīng)網(wǎng)絡(luò)(CNN)第五章深度學(xué)習(xí)01CNN為什么適用于圖像02CNN網(wǎng)絡(luò)結(jié)構(gòu)及各層工作原理圖像的表示88灰度圖片:18*18*1彩色圖片(RGB)48*48*3RGB每個(gè)通道的每個(gè)像素用[0,255]之間的數(shù)字表示為什么CNN適用于圖像?8989圖像識(shí)別的輸入X是shape為(width,height,depth)的三維張量。直接展開至一維向量作為全連接的輸入層會(huì)非常大。1、彩色圖片維度很大…………softmax……10003x
107100x100x
3100100為什么CNN適用于圖像?90識(shí)別貓
→識(shí)別貓眼睛、貓耳朵等特征2、特征往往小于圖片3、特征會(huì)出現(xiàn)在圖片的任何位置檢測中間偏右是否有貓眼睛檢測中間偏左是否有貓眼睛幾乎做完全一樣的事,用完全一樣的參數(shù)設(shè)置為什么CNN適用于圖像?4、圖片壓縮大小不會(huì)改變特征下采樣下采樣
→保留特征+減小圖片尺寸→網(wǎng)絡(luò)中節(jié)點(diǎn)數(shù)變少→參數(shù)變少→加快訓(xùn)練第五章深度學(xué)習(xí)01CNN為什么適用于圖像02CNN網(wǎng)絡(luò)結(jié)構(gòu)及各層工作原理CNN基本網(wǎng)絡(luò)結(jié)構(gòu)卷積層非線性池化X?是:0.08否:0.92全連接向量化…1.卷積運(yùn)算9494卷積前:6x61×1+0×(-1)+0×(-1)+0×(-1)+1×1+0×(-1)+0×(-1)+0×(-1)+1×1=3
-1-3-1-310
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45477-2025無油懸浮離心式冷水(熱泵)機(jī)組
- 外教聘用合同參考
- 建筑工程聯(lián)營合作協(xié)議合同
- 公寓房買賣合同協(xié)議書
- 整合推廣宣傳合同
- 弱電智能設(shè)備與安裝工程合同
- 攤位長期租賃合同
- 建筑勞務(wù)分包合同含
- 手房居間買賣合同
- 電腦耗材購銷合同年
- 煤制甲醇生產(chǎn)工藝仿真演示模型流程說明
- 高考作文布局謀篇(正式稿)課件
- 護(hù)理查房(宮外孕)課件
- 諸葛亮三國古代名人人物介紹PPT
- 教學(xué)教案、作業(yè)、記錄檢查記錄表
- Q∕SY 1860-2016 鹽穴型儲(chǔ)氣庫井筒及鹽穴密封性檢測技術(shù)規(guī)范
- 輸電線路工程施工驗(yàn)收表格
- 國際疾病分類編碼練習(xí)題與答案
- dhi教學(xué)合集mike21水動(dòng)力模型
- 部編版二年級(jí)道德與法治下冊(cè)第9課《小水滴的訴說》優(yōu)秀課件(含視頻)
- 跑冒油事故應(yīng)急預(yù)案
評(píng)論
0/150
提交評(píng)論