2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第1頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第2頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第3頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第4頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第5頁
已閱讀5頁,還剩747頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2025緒論《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20251.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)緒論,pptx2.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)機(jī)器學(xué)習(xí)概述,pptx3.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)前饋神經(jīng)網(wǎng)絡(luò).pptx4.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)線性模型,pptx5.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)無監(jiān)督學(xué)習(xí).pptx6.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)深度信念網(wǎng)絡(luò),pptx7.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)概率圖模型.pptx8.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò).pptx9.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)深度強(qiáng)化學(xué)習(xí).pptx10.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)注意力機(jī)制與外部記憶.pptx11.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)深度生成模型,pptx12.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)序列生成模型,pptx13.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)網(wǎng)絡(luò)優(yōu)化與正則化.pptx關(guān)于本課程人工智能的一個(gè)子領(lǐng)域神經(jīng)網(wǎng)絡(luò):一種以(人工)神經(jīng)元為基本單元的模型深度學(xué)習(xí):一類機(jī)器學(xué)習(xí)問題,主要解決貢獻(xiàn)度分配問題。神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》3更詳細(xì)的課程概括《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4概述機(jī)器學(xué)習(xí)概述線性模型基礎(chǔ)網(wǎng)絡(luò)模型前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)優(yōu)化與正則化記憶與注意力機(jī)制無監(jiān)督學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》5進(jìn)階模型概率圖模型玻爾茲曼機(jī)深度信念網(wǎng)絡(luò)深度生成模型深度強(qiáng)化學(xué)習(xí)序列生成模型課程大綱預(yù)備知識《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》6線性代數(shù)微積分?jǐn)?shù)學(xué)優(yōu)化概率論信息論《數(shù)學(xué)基礎(chǔ)》推薦教材《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7邱錫鵬,神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí),機(jī)械工業(yè)出版社,2020,ISBN

9787111649687提供配套練習(xí)阿斯頓·張等,動(dòng)手學(xué)深度學(xué)習(xí),ISBN:

9787115505835https://d2l.ai/有PyTorch版Bishop,

C.M.

(2006).

Pattern

recognition

and

MachineLearning.

Springer.

ISBN

9780387310732.網(wǎng)上有中文版by馬春鵬推薦教材

Wright,

S.,

&

Nocedal,

J.

(1999).

Numerical

optimization.Springer

Science,

35(67-68),

7.

Boyd,

S.,

&

Vandenberghe,

L.

(2004).

Convex

optimization.Cambridge

university

press.《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8推薦課程《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9

斯坦福大學(xué)CS224n:

Deep

Learning

for

Natural

LanguageProcessing/class/archive/cs/cs224n/cs224n.1194/ChrisManning主要講解自然語言處理領(lǐng)域的各種深度學(xué)習(xí)模型

斯坦福大學(xué)CS231n:

Convolutional

Neural

Networks

for

VisualRecognition/Fei-Fei

Li

Andrej

Karpathy

主要講解CNN、RNN在圖像領(lǐng)域的應(yīng)用加州大學(xué)伯克利分校CS

294:

Deep

Reinforcement

Learning/deeprlcourse/推薦材料《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10林軒田“機(jī)器學(xué)習(xí)基石”“機(jī)器學(xué)習(xí)技法”https://.tw/~htlin/mooc/李宏毅“1天搞懂深度學(xué)習(xí)”.tw/~tlkagk/slide/Tutorial_HYLee_Deep.pptx李宏毅“機(jī)器學(xué)習(xí)2020”https:///video/av94519857/頂會論文NeurIPS、ICLR、ICML、AAAI、IJCAIACL、EMNLPCVPR、ICCV

…《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11成績(研究生)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12課程建設(shè)40%期末作業(yè)60%2人一組編程語言:Python人工智能《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13

人工智能(artificialintelligence,AI)就是讓機(jī)器具有人類的智能?!坝?jì)算機(jī)控制”+“智能行為”人工智能這個(gè)學(xué)科的誕生有著明確的標(biāo)志性事件,就是1956年的達(dá)特茅斯(Dartmouth)會議。在這次會議上,“人工智能”被提出并作為本研究領(lǐng)域的名稱。人工智能就是要讓機(jī)器的行為看起來就像是人所表現(xiàn)出的智能行為一樣。John

McCarthy(1927-2011)圖靈測試Alan

Turing《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14“一個(gè)人在不接觸對方的情況下,通過一種特殊的方式,和對方進(jìn)行一系列的問答。如果在相當(dāng)長時(shí)間內(nèi),他無法根據(jù)這些問題判斷對方是人還是計(jì)算機(jī),那么就可以認(rèn)為這個(gè)計(jì)算機(jī)是智能的”。---Alan

Turing

[1950]《Computing

Machinery

and

Intelligence》人工智能的研究領(lǐng)域《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15讓機(jī)器具有人類的智能機(jī)器感知(計(jì)算機(jī)視覺、語音信息處理)學(xué)習(xí)(模式識別、機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí))語言(自然語言處理)記憶(知識表示)決策(規(guī)劃、數(shù)據(jù)挖掘)發(fā)展歷史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》16如何開發(fā)一個(gè)人工智能系統(tǒng)?專家知識(人工規(guī)則)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》17What’s

theRule?機(jī)器學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》18機(jī)器學(xué)習(xí)≈構(gòu)建一個(gè)映射函數(shù)語音識別圖像識別圍棋機(jī)器翻譯f

“你好”f

“9”f

“6-5”f

“Hello!”“你好!”(落子位置)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》19芒果機(jī)器學(xué)習(xí)https:///How-do-you-explain-Machine-Learning-and-Data-Mining-to-non-Computer-Science-people如果判斷芒果是否甜蜜?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20芒果機(jī)器學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》21從市場上隨機(jī)選取的芒果樣本(訓(xùn)練數(shù)據(jù)),列出每個(gè)芒果的所有特征:如顏色,大小,形狀,產(chǎn)地,品牌以及芒果質(zhì)量(輸出變量):甜蜜,多汁,成熟度。設(shè)計(jì)一個(gè)學(xué)習(xí)算法來學(xué)習(xí)芒果的特征與輸出變量之間的相關(guān)性模型。下次從市場上買芒果時(shí),可以根據(jù)芒果(測試數(shù)據(jù))的特征,使用前面計(jì)算的模型來預(yù)測芒果的質(zhì)量。知識知道怎么做專家系統(tǒng)…不知道怎么做容易做機(jī)器學(xué)習(xí)圖像識別自然語言處理語音識別不容易做強(qiáng)化學(xué)習(xí)圍棋《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》22如何開發(fā)一個(gè)人工智能系統(tǒng)?規(guī)則深度學(xué)習(xí)機(jī)器學(xué)習(xí)當(dāng)我們用機(jī)器學(xué)習(xí)來解決一些模式識別任務(wù)時(shí),一般的流程包含以下幾個(gè)步驟:

淺層學(xué)習(xí)(Shallow

Learning):不涉及特征學(xué)習(xí),其特征主要靠人工經(jīng)驗(yàn)或特征轉(zhuǎn)換方法來抽取。特征工程(Feature

Engineering)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》24語義鴻溝:人工智能的挑戰(zhàn)之一底層特征VS

高層語義人們對文本、圖像的理解無法從字符串或者圖像的底層特征直接獲得床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉(xiāng)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》25表示學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》26數(shù)據(jù)表示是機(jī)器學(xué)習(xí)的核心問題。特征工程:需要借助人類智能表示學(xué)習(xí)如何自動(dòng)從數(shù)據(jù)中學(xué)習(xí)好的表示難點(diǎn)沒有明確的目標(biāo)Bengio,

Yoshua,

Aaron

Courville,

and

Pascal

Vincent.

"Representation

learning:

A

reviewand

new

perspectives."

IEEE

transactions

on

pattern

analysis

and

machine

intelligence35.8

(2013):

1798-1828.什么是好的數(shù)據(jù)表示?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》27“好的表示”是一個(gè)非常主觀的概念,沒有一個(gè)明確的標(biāo)準(zhǔn)。但一般而言,一個(gè)好的表示具有以下幾個(gè)優(yōu)點(diǎn):應(yīng)該具有很強(qiáng)的表示能力。應(yīng)該使后續(xù)的學(xué)習(xí)任務(wù)變得簡單。應(yīng)該具有一般性,是任務(wù)或領(lǐng)域獨(dú)立的。語義表示如何在計(jì)算機(jī)中表示語義?局部(符號)表示分布式表示知識庫、規(guī)則嵌入:壓縮、低維、稠密向量《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》28One-Hot向量一個(gè)生活中的例子:顏色《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》29表示形式局部表示離散表示、符號表示One-Hot向量分布式(distributed)表示壓縮、低維、稠密向量用O(N)個(gè)參數(shù)表示O(2k)區(qū)間k為非0參數(shù),k<N局部表示分布式表示A[1

000][0.250.5]B[0

100][0.2

0.9]C[0

010][0.8

0.2]D[0

001][0.9

0.1]分布式表示《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》30詞嵌入(Word

Embeddings)https://indico.io/blog/visualizing-with-t-sne/《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》31上海北京高興難過表示學(xué)習(xí)與深度學(xué)習(xí)一個(gè)好的表示學(xué)習(xí)策略必須具備一定的深度特征重用指數(shù)級的表示能力抽象表示與不變性抽象表示需要多步的構(gòu)造/2008/11/24/concrete-and-abstract-representations-using-mathematical-tools/《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》32傳統(tǒng)的特征提取《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》33特征提取線性投影(子空間)PCA、LDA非線性嵌入LLE、Isomap、譜方法自編碼器特征提取VS表示學(xué)習(xí)特征提?。夯谌蝿?wù)或先驗(yàn)對去除無用特征表示學(xué)習(xí):通過深度模型學(xué)習(xí)高層語義特征深度學(xué)習(xí)通過構(gòu)建具有一定“深度”的模型,可以讓模型來自動(dòng)學(xué)習(xí)好的特征表示(從底層特征,到中層特征,再到高層特征),從而最終提升預(yù)測或識別的準(zhǔn)確性。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》34表示學(xué)習(xí)與深度學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》35深度學(xué)習(xí)的數(shù)學(xué)描述…淺層學(xué)習(xí)深度學(xué)習(xí)當(dāng)??l

??

連續(xù)時(shí),

比如??l

?? =

??

??l??l

?

1

??

,這個(gè)復(fù)合函數(shù)稱為神經(jīng)網(wǎng)絡(luò)。??l??

為非線性函數(shù),不一定連續(xù)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》36神經(jīng)網(wǎng)絡(luò)生物神經(jīng)元單個(gè)神經(jīng)細(xì)胞只有兩種狀態(tài):興奮和抑制video:

structure

ofbrain《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》38人腦有860億個(gè)神經(jīng)元神經(jīng)網(wǎng)絡(luò)如何學(xué)習(xí)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》39赫布法則Hebb'sRule“當(dāng)神經(jīng)元A的一個(gè)軸突和神經(jīng)元B很近,足以對它產(chǎn)生影響,并且持續(xù)地、重復(fù)地參與了對神經(jīng)元B的興奮,那么在這兩個(gè)神經(jīng)元或其中之一會發(fā)生某種生長過程或新陳代謝變化,以致于神經(jīng)元A作為能使神經(jīng)元B興奮的細(xì)胞之一,它的效能加強(qiáng)了?!?---加拿大心理學(xué)家Donald

Hebb,《行為的組織》,1949人腦有兩種記憶:長期記憶和短期記憶。短期記憶持續(xù)時(shí)間不超過一分鐘。如果一個(gè)經(jīng)驗(yàn)重復(fù)足夠的次數(shù),此經(jīng)驗(yàn)就可儲存在長期記憶中。短期記憶轉(zhuǎn)化為長期記憶的過程就稱為凝固作用。人腦中的海馬區(qū)為大腦結(jié)構(gòu)凝固作用的核心區(qū)域。人工神經(jīng)元《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》40人工神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》41人工神經(jīng)網(wǎng)絡(luò)主要由大量的神經(jīng)元以及它們之間的有向連接構(gòu)成。因此考慮三方面:神經(jīng)元的激活規(guī)則主要是指神經(jīng)元輸入到輸出之間的映射關(guān)系,一般為非線性函數(shù)。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)不同神經(jīng)元之間的連接關(guān)系。學(xué)習(xí)算法通過訓(xùn)練數(shù)據(jù)來學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)。人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元模型構(gòu)成,這種由許多神經(jīng)元組成的信息處理網(wǎng)絡(luò)具有并行分布結(jié)構(gòu)。雖然這里將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大體上分為三種類型,但是大多數(shù)網(wǎng)絡(luò)都是復(fù)合型結(jié)構(gòu),即一個(gè)神經(jīng)網(wǎng)絡(luò)中包括多種網(wǎng)絡(luò)結(jié)構(gòu)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》42神經(jīng)網(wǎng)絡(luò)??

=

(??3(??2(??1

??

))??l?? =

??

??l??l

?

1

??《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》43如果解決貢獻(xiàn)度分配問題?偏導(dǎo)數(shù)貢獻(xiàn)度?

??(????)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》44???? ??

????

+

???????????

=

?????神經(jīng)網(wǎng)絡(luò)天然不是深度學(xué)習(xí),但深度學(xué)習(xí)天然是神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》45神經(jīng)網(wǎng)絡(luò)的發(fā)展大致經(jīng)過五個(gè)階段。第一階段:模型提出在1943年,心理學(xué)家Warren

McCulloch和數(shù)學(xué)家Walter

Pitts和最早描述了一種理想化的人工神經(jīng)網(wǎng)絡(luò),并構(gòu)建了一種基于簡單邏輯運(yùn)算的計(jì)算機(jī)制。他們提出的神經(jīng)網(wǎng)絡(luò)模型稱為MP模型。阿蘭·圖靈在1948年的論文中描述了一種“B型圖靈機(jī)”。(赫布型學(xué)習(xí))1951年,McCulloch和Pitts的學(xué)生MarvinMinsky建造了第一臺神經(jīng)網(wǎng)絡(luò)機(jī),稱為SNARC。Rosenblatt[1958]最早提出可以模擬人類感知能力的神經(jīng)網(wǎng)絡(luò)模型,并稱之為感知器(Perceptron),并提出了一種接近于人類學(xué)習(xí)過程(迭代、試錯(cuò))的學(xué)習(xí)算法。神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》46第二階段:冰河期1969年,MarvinMinsky出版《感知器》一書,書中論斷直接將神經(jīng)網(wǎng)絡(luò)打入冷宮,導(dǎo)致神經(jīng)網(wǎng)絡(luò)十多年的“冰河期”。他們發(fā)現(xiàn)了神經(jīng)網(wǎng)絡(luò)的兩個(gè)關(guān)鍵問題:1)基本感知器無法處理異或回路。2)電腦沒有足夠的能力來處理大型神經(jīng)網(wǎng)絡(luò)所需要的很長的計(jì)算時(shí)間。1974年,哈佛大學(xué)的PaulWebos發(fā)明反向傳播算法,但當(dāng)時(shí)未受到應(yīng)有的重視。1980年,KunihikoFukushima(福島邦彥)提出了一種帶卷積和子采樣操作的多層神經(jīng)網(wǎng)絡(luò):新知機(jī)(Neocognitron)神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》47第三階段:反向傳播算法引起的復(fù)興1983年,物理學(xué)家JohnHopfield對神經(jīng)網(wǎng)絡(luò)引入能量函數(shù)的概念,并提出了用于聯(lián)想記憶和優(yōu)化計(jì)算的網(wǎng)絡(luò)(稱為Hopfield網(wǎng)絡(luò)),在旅行商問題上獲得當(dāng)時(shí)最好結(jié)果,引起轟動(dòng)。1984年,GeoffreyHinton提出一種隨機(jī)化版本的Hopfield網(wǎng)絡(luò),即玻爾茲曼機(jī)。1986年,DavidRumelhart和JamesMcClelland對于聯(lián)結(jié)主義在計(jì)算機(jī)模擬神經(jīng)活動(dòng)中的應(yīng)用提供了全面的論述,并重新發(fā)明了反向傳播算法。1986年,Geoffrey

Hinton等人將引入反向傳播算法到多層感知器1989年,LeCun等人將反向傳播算法引入了卷積神經(jīng)網(wǎng)絡(luò),并在手寫體數(shù)字識別上取得了很大的成功。神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》48第四階段:流行度降低在20世紀(jì)90年代中期,統(tǒng)計(jì)學(xué)習(xí)理論和以支持向量機(jī)為代表的機(jī)器學(xué)習(xí)模型開始興起。相比之下,神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)不清晰、優(yōu)化困難、可解釋性差等缺點(diǎn)更加凸顯,神經(jīng)網(wǎng)絡(luò)的研究又一次陷入低潮。神經(jīng)網(wǎng)絡(luò)發(fā)展史《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》49第五階段:深度學(xué)習(xí)的崛起

2006年,Hinton等人發(fā)現(xiàn)多層前饋神經(jīng)網(wǎng)絡(luò)可以先通過逐層預(yù)訓(xùn)練,再用反向傳播算法進(jìn)行精調(diào)的方式進(jìn)行有效學(xué)習(xí)。深度神經(jīng)網(wǎng)絡(luò)在語音識別和圖像分類等任務(wù)上的巨大成功。2013年,AlexNet:第一個(gè)現(xiàn)代深度卷積網(wǎng)絡(luò)模型,是深度學(xué)習(xí)技術(shù)在圖像分類上取得真正突破的開端。AlexNet不用預(yù)訓(xùn)練和逐層訓(xùn)練,首次使用了很多現(xiàn)代深度網(wǎng)絡(luò)的技術(shù)隨著大規(guī)模并行計(jì)算以及GPU設(shè)備的普及,計(jì)算機(jī)的計(jì)算能力得以大幅提高。此外,可供機(jī)器學(xué)習(xí)的數(shù)據(jù)規(guī)模也越來越大。在計(jì)算能力和數(shù)據(jù)規(guī)模的支持下,計(jì)算機(jī)已經(jīng)可以訓(xùn)練大規(guī)模的人工神經(jīng)網(wǎng)絡(luò)。深度學(xué)習(xí)革命《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》50AI領(lǐng)域語音識別:可以使得詞錯(cuò)誤率從1/4下降到1/8計(jì)算機(jī)視覺:目標(biāo)識別、圖像分類等自然語言處理:分布式表示、機(jī)器翻譯、問題回答等信息檢索、社會化網(wǎng)絡(luò)三個(gè)Deep:DeepBlueDeep

QADeep

LearningToronto

大學(xué)Hinton

75

年Edinburgh

大學(xué)博士NYULecun

(Now

Facebook)87

年Hinton博士后Montreal大學(xué)Bengio

91

年M.

Jordan

博士后IDSIAJürgen

Schmidhuber早期的學(xué)術(shù)機(jī)構(gòu)2018圖靈獎(jiǎng)獲得者《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》51常用的深度學(xué)習(xí)框架簡易和快速的原型設(shè)計(jì)自動(dòng)梯度計(jì)算無縫CPU和GPU切換《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》54課后作業(yè)復(fù)習(xí)數(shù)學(xué)知識附錄《數(shù)學(xué)基礎(chǔ)》編程練習(xí)熟悉基本的Numpy操作Numpy是Python中對于矩陣處理很實(shí)用的工具包/nndl/exercisechap1_warmup《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》55《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2025前饋神經(jīng)網(wǎng)絡(luò)內(nèi)容神經(jīng)網(wǎng)絡(luò)神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)參數(shù)學(xué)習(xí)計(jì)算圖與自動(dòng)微分優(yōu)化問題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4神經(jīng)網(wǎng)絡(luò)最早是作為一種主要的連接主義模型。20世紀(jì)80年代后期,最流行的一種連接主義模型是分布式并行處理(Parallel

Distributed

Processing,PDP)網(wǎng)絡(luò),其有3個(gè)主要特性:1)信息表示是分布式的(非局部的);2)記憶和知識是存儲在單元之間的連接上;3)通過逐漸改變單元之間的連接強(qiáng)度來學(xué)習(xí)新的知識。引入誤差反向傳播來改進(jìn)其學(xué)習(xí)能力之后,神經(jīng)網(wǎng)絡(luò)也越來越多地應(yīng)用在各種機(jī)器學(xué)習(xí)任務(wù)上。神經(jīng)元生物神經(jīng)元單個(gè)神經(jīng)細(xì)胞只有兩種狀態(tài):興奮和抑制video:

structure

ofbrain《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》6人工神經(jīng)元一個(gè)簡單的線性模型!《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7激活函數(shù)的性質(zhì)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8連續(xù)并可導(dǎo)(允許少數(shù)點(diǎn)上不可導(dǎo))的非線性函數(shù)??蓪?dǎo)的激活函數(shù)可以直接利用數(shù)值優(yōu)化的方法來學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。激活函數(shù)及其導(dǎo)函數(shù)要盡可能的簡單有利于提高網(wǎng)絡(luò)計(jì)算效率。激活函數(shù)的導(dǎo)函數(shù)的值域要在一個(gè)合適的區(qū)間內(nèi)不能太大也不能太小,否則會影響訓(xùn)練的效率和穩(wěn)定性。單調(diào)遞增???常見激活函數(shù)非零中心化的輸出會使得其后一層的神經(jīng)元的輸入發(fā)生偏置偏移(biasshift),并進(jìn)一步使得梯度下降的收斂速度變慢?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9性質(zhì):飽和函數(shù)Tanh函數(shù)是零中心化的,而logistic函數(shù)的輸出恒大于0常見激活函數(shù)計(jì)算上更加高效生物學(xué)合理性單側(cè)抑制、寬興奮邊界 在一定程度上緩解梯度消失問題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10死亡ReLU問題(Dying

ReLU

Problem)常見激活函數(shù)Swish函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11常見激活函數(shù)高斯誤差線性單元(Gaussian

Error

Linear

Unit,GELU)其中P(X≤x)是高斯分布N(μ,σ2)的累積分布函數(shù),其中μ,σ為超參數(shù),一般設(shè)μ=0,σ=1即可由于高斯分布的累積分布函數(shù)為S型函數(shù),因此GELU可以用Tanh函數(shù)或Logistic函數(shù)來近似《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12常見激活函數(shù)及其導(dǎo)數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13人工神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14人工神經(jīng)網(wǎng)絡(luò)主要由大量的神經(jīng)元以及它們之間的有向連接構(gòu)成。因此考慮三方面:神經(jīng)元的激活規(guī)則主要是指神經(jīng)元輸入到輸出之間的映射關(guān)系,一般為非線性函數(shù)。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)不同神經(jīng)元之間的連接關(guān)系。學(xué)習(xí)算法通過訓(xùn)練數(shù)據(jù)來學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)。網(wǎng)絡(luò)結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元模型構(gòu)成,這種由許多神經(jīng)元組成的信息處理網(wǎng)絡(luò)具有并行分布結(jié)構(gòu)。圓形節(jié)點(diǎn)表示一個(gè)神經(jīng)元,方形節(jié)點(diǎn)表示一組神經(jīng)元。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15前饋神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)前饋神經(jīng)網(wǎng)絡(luò)(全連接神經(jīng)網(wǎng)絡(luò)、多層感知器)各神經(jīng)元分別屬于不同的層,層內(nèi)無連接。相鄰兩層之間的神經(jīng)元全部兩兩連接。整個(gè)網(wǎng)絡(luò)中無反饋,信號從輸入層向輸出層單向傳播,可用一個(gè)有向無環(huán)圖表示?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》17前饋網(wǎng)絡(luò)給定一個(gè)前饋神經(jīng)網(wǎng)絡(luò),用下面的記號來描述這樣網(wǎng)絡(luò):《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》18信息傳遞過程前饋神經(jīng)網(wǎng)絡(luò)通過下面公式進(jìn)行信息傳播。前饋計(jì)算:《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》19深層前饋神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20通用近似定理根據(jù)通用近似定理,對于具有線性輸出層和至少一個(gè)使用“擠壓”性質(zhì)的激活函數(shù)的隱藏層組成的前饋神經(jīng)網(wǎng)絡(luò),只要其隱藏層神經(jīng)元的數(shù)量足夠,它可以以任意的精度來近似任何從一個(gè)定義在實(shí)數(shù)空間中的有界閉集函數(shù)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》21應(yīng)用到機(jī)器學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)可以作為一個(gè)“萬能”函數(shù)來使用,可以用來進(jìn)行復(fù)雜的特征轉(zhuǎn)換,或逼近一個(gè)復(fù)雜的條件分布。分類器 神經(jīng)網(wǎng)絡(luò)如果??(?)為Logistic回歸,那么Logistic回歸分類器可以看成神經(jīng)網(wǎng)絡(luò)的最后一層?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》22參數(shù)學(xué)習(xí)應(yīng)用到機(jī)器學(xué)習(xí)對于多分類問題如果使用Softmax回歸分類器,相當(dāng)于網(wǎng)絡(luò)最后一層設(shè)置C個(gè)神經(jīng)元,其輸出經(jīng)過Softmax函數(shù)進(jìn)行歸一化后可以作為每個(gè)類的條件概率。采用交叉熵?fù)p失函數(shù),對于樣本(x,y),其損失函數(shù)為《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》24參數(shù)學(xué)習(xí)??=1給定訓(xùn)練集為??

= {(??(??),

??(??)

)}??

,將每個(gè)樣本??(??)輸入給前饋神經(jīng)網(wǎng)絡(luò),得到網(wǎng)絡(luò)輸出為???(??),其在數(shù)據(jù)集D上的結(jié)構(gòu)化風(fēng)險(xiǎn)函數(shù)為:梯度下降《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》25梯度下降Loss

?初始化w重復(fù)計(jì)算梯度???Τ????更新參數(shù)??←?????

???Τ????梯度:????(??)

=??

????????????→0??(??+????)????w網(wǎng)絡(luò)參數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》26如何計(jì)算梯度?神經(jīng)網(wǎng)絡(luò)為一個(gè)復(fù)雜的復(fù)合函數(shù)鏈?zhǔn)椒▌t反向傳播算法根據(jù)前饋網(wǎng)絡(luò)的特點(diǎn)而設(shè)計(jì)的高效方法一個(gè)更加通用的計(jì)算方法自動(dòng)微分(Automatic

Differentiation,AD)??

=

??5(??4(??3(??2(??11

2

3

4

5?? ))))

????

=

????

????

????

????

????????

??x

????1

????2

????3

????4《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》27矩陣微積分

矩陣微積分(Matrix

Calculus)是多元微積分的一種表達(dá)方式,即使用矩陣和向量來表示因變量每個(gè)成分關(guān)于自變量每個(gè)成分的偏導(dǎo)數(shù)。分母布局標(biāo)量關(guān)于向量的偏導(dǎo)數(shù)向量關(guān)于向量的偏導(dǎo)數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》28鏈?zhǔn)椒▌t

鏈?zhǔn)椒▌t(Chain

Rule)是在微積分中求復(fù)合函數(shù)導(dǎo)數(shù)的一種常用方法?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》29反向傳播算法誤差項(xiàng)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》30計(jì)算《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》31反向傳播算法《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》32計(jì)算圖與自動(dòng)微分計(jì)算圖與自動(dòng)微分自動(dòng)微分是利用鏈?zhǔn)椒▌t來自動(dòng)計(jì)算一個(gè)復(fù)合函數(shù)的梯度。計(jì)算圖《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》34計(jì)算圖當(dāng)x=1,w=0,b=0時(shí),可以得到《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》35自動(dòng)微分《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》36前向模式和反向模式反向模式和反向傳播的計(jì)算梯度的方式相同如果函數(shù)和參數(shù)之間有多條路徑,可以將這多條路徑上的導(dǎo)數(shù)再進(jìn)行相加,得到最終的梯度。反向傳播算法(自動(dòng)微分的反向模式)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》37前饋神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程可以分為以下三步前向計(jì)算每一層的狀態(tài)和激活值,直到最后一層反向計(jì)算每一層的參數(shù)的偏導(dǎo)數(shù)更新參數(shù)靜態(tài)計(jì)算圖和動(dòng)態(tài)計(jì)算圖《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》38靜態(tài)計(jì)算圖是在編譯時(shí)構(gòu)建計(jì)算圖,計(jì)算圖構(gòu)建好之后在程序運(yùn)行時(shí)不能改變。Theano和Tensorflow動(dòng)態(tài)計(jì)算圖是在程序運(yùn)行時(shí)動(dòng)態(tài)構(gòu)建。兩種構(gòu)建方式各有優(yōu)缺點(diǎn)。DyNet,Chainer和PyTorch靜態(tài)計(jì)算圖在構(gòu)建時(shí)可以進(jìn)行優(yōu)化,并行能力強(qiáng),但靈活性比較差低。動(dòng)態(tài)計(jì)算圖則不容易優(yōu)化,當(dāng)不同輸入的網(wǎng)絡(luò)結(jié)構(gòu)不一致時(shí),難以并行計(jì)算,但是靈活性比較高。如何實(shí)現(xiàn)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》39Getting

started:

30

seconds

to

Keras《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》40from

keras.models

import

Sequentialfrom

keras.layers

import

Dense,

Activationfrom

keras.optimizersimport

SGDmodel

=

Sequential()model.add(Dense(output_dim=64,

input_dim=100))model.add(Activation("relu"))model.add(Dense(output_dim=10))model.add(Activation("softmax"))pile(loss='categorical_crossentropy',optimizer='sgd',

metrics=['accuracy'])model.fit(X_train,

Y_train,

nb_epoch=5,

batch_size=32)loss

=model.evaluate(X_test,

Y_test,

batch_size=32)深度學(xué)習(xí)的三個(gè)步驟Deep

Learning

is

so

simple

……定義網(wǎng)絡(luò)1損失函數(shù)2優(yōu)化3《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》41優(yōu)化問題優(yōu)化問題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》43難點(diǎn)參數(shù)過多,影響訓(xùn)練非凸優(yōu)化問題:即存在局部最優(yōu)而非全局最優(yōu)解,影響迭代梯度消失問題,下層參數(shù)比較難調(diào)參數(shù)解釋起來比較困難需求計(jì)算資源要大數(shù)據(jù)要多算法效率要好:即收斂快優(yōu)化問題非凸優(yōu)化問題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》44優(yōu)化問題梯度消失問題(Vanishing

Gradient

Problem)??

=

??5(??4(??3(??2(??1

??

))))???? ????1

????2

????3

????4

????5=????

??x ????1

????2

????3

????4《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》45課后練習(xí)知識點(diǎn)激活函數(shù)誤差反向傳播自動(dòng)微分與計(jì)算圖編程練習(xí)1使用Numpy實(shí)現(xiàn)前饋神經(jīng)網(wǎng)絡(luò)chap4_

simple

neural

network編程練習(xí)2理論和實(shí)驗(yàn)證明,一個(gè)兩層的ReLU網(wǎng)絡(luò)可以模擬任何有界閉集函數(shù)。chap4_

simple

neural

network《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》46謝

謝《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》卷積神經(jīng)網(wǎng)絡(luò)2025全連接前饋神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣的參數(shù)非常多局部不變性特征自然圖像中的物體都具有局部不變性特征尺度縮放、平移、旋轉(zhuǎn)等操作不影響其語義信息。全連接前饋網(wǎng)絡(luò)很難提取這些局部不變特征《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2卷積神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》3卷積神經(jīng)網(wǎng)絡(luò)(Convolutional

Neural

Networks,CNN)一種前饋神經(jīng)網(wǎng)絡(luò)受生物學(xué)上感受野(Receptive

Field)的機(jī)制而提出的在視覺神經(jīng)系統(tǒng)中,一個(gè)神經(jīng)元的感受野是指視網(wǎng)膜上的特定區(qū)域,只有這個(gè)區(qū)域內(nèi)的刺激才能夠激活該神經(jīng)元。卷積神經(jīng)網(wǎng)絡(luò)有三個(gè)結(jié)構(gòu)上的特性:局部連接權(quán)重共享空間或時(shí)間上的次采樣卷積《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4卷積經(jīng)常用在信號處理中,用于計(jì)算信號的延遲累積。假設(shè)一個(gè)信號發(fā)生器每個(gè)時(shí)刻t產(chǎn)生一個(gè)信號xt

,其信息的衰減率為wk

,即在k?1個(gè)時(shí)間步長后,信息為原來的wk

倍假設(shè)w1

=1,w2

=1/2,w3

=1/4時(shí)刻t收到的信號yt

為當(dāng)前時(shí)刻產(chǎn)生的信息和以前時(shí)刻延遲信息的疊加。卷積卷積經(jīng)常用在信號處理中,用于計(jì)算信號的延遲累積。假設(shè)一個(gè)信號發(fā)生器每個(gè)時(shí)刻t產(chǎn)生一個(gè)信號xt

,其信息的衰減率為wk

,即在k?1個(gè)時(shí)間步長后,信息為原來的wk

倍假設(shè)w1

=1,w2

=1/2,w3

=1/4時(shí)刻t收到的信號yt

為當(dāng)前時(shí)刻產(chǎn)生的信息和以前時(shí)刻延遲信息的疊加濾波器(filter)或卷積核(convolution

kernel)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》5卷積給定一個(gè)輸入信號序列??和濾波器??,卷積的輸出為:Filter:

[-1,0,1]??????

=

????????????+1??=1《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》6卷積不同的濾波器來提取信號序列中的不同特征低頻信息《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7高頻信息??

′′(??)

=

??(??

+

1)

+

??(??

?

1)

?

2??(??)二階微分卷積擴(kuò)展引入濾波器的滑動(dòng)步長S和零填充P《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8卷積類型《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9卷積的結(jié)果按輸出長度不同可以分為三類:窄卷積:步長??

=1

,兩端不補(bǔ)零??

=0,卷積后輸出長度為??

???+

1寬卷積:步長??

=1,兩端補(bǔ)零??

=??

?1

,卷積后輸出長度??

+??

?1等寬卷積:步長??

=1

,兩端補(bǔ)零??

=(??

?1)/2

,卷積后輸出長度??在早期的文獻(xiàn)中,卷積一般默認(rèn)為窄卷積。而目前的文獻(xiàn)中,卷積一般默認(rèn)為等寬卷積。兩維卷積在圖像處理中,圖像是以二維矩陣的形式輸入到神經(jīng)網(wǎng)絡(luò)中,因此我們需要二維卷積?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10卷積作為特征提取器《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11二維卷積步長1,零填充0步長2,零填充0步長1,零填充1步長2,零填充1《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12卷積神經(jīng)網(wǎng)絡(luò)用卷積層代替全連接層《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13互相關(guān)計(jì)算卷積需要進(jìn)行卷積核翻轉(zhuǎn)。卷積操作的目標(biāo):提取特征。翻轉(zhuǎn)是不必要的!互相關(guān)除非特別聲明,卷積一般指“互相關(guān)”?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14多個(gè)卷積核《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15特征映射(Feature

Map):圖像經(jīng)過卷積后得到的特征。卷積核看成一個(gè)特征提取器卷積層輸入:D個(gè)特征映射M×N×D輸出:P個(gè)特征映射M′×N′×P卷積層的映射關(guān)系《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》16步長2

filter3*3filter個(gè)數(shù)6零填充1卷積層典型的卷積層為3維結(jié)構(gòu)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》18匯聚層卷積層雖然可以顯著減少連接的個(gè)數(shù),但是每一個(gè)特征映射的神經(jīng)元個(gè)數(shù)并沒有顯著減少?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》19卷積網(wǎng)絡(luò)結(jié)構(gòu)卷積網(wǎng)絡(luò)是由卷積層、匯聚層、全連接層交叉堆疊而成。趨向于小卷積、大深度趨向于全卷積典型結(jié)構(gòu)一個(gè)卷積塊為連續(xù)M個(gè)卷積層和b個(gè)匯聚層(M通常設(shè)置為2

~5,b為0或1)。一個(gè)卷積網(wǎng)絡(luò)中可以堆疊

N個(gè)連續(xù)的卷積塊,然后在接著K個(gè)全連接層(N的取值區(qū)間比較大,比如1

~100或者更大;K一般為0~2)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20表示學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》21表示學(xué)習(xí)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》22其它卷積種類轉(zhuǎn)置卷積/微步卷積低維特征映射到高維特征《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》24如何增加輸出單元的感受野增加卷積核的大小增加層數(shù)來實(shí)現(xiàn)在卷積之前進(jìn)行匯聚操作空洞卷積通過給卷積核插入“空洞”來變相地增加其大小。空洞卷積《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》25典型的卷積網(wǎng)絡(luò)LeNet-5LeNet-5

是一個(gè)非常成功的神經(jīng)網(wǎng)絡(luò)模型?;贚eNet-5的手寫數(shù)字識別系統(tǒng)在90年代被美國很多銀行使用,用來識別支票上面的手寫數(shù)字。LeNet-5

共有7

層。需要多少個(gè)卷積核?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》27Large

Scale

Visual

Recognition

Challenge《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》28AlexNet《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》292012

ILSVRC

winner(top

5

error

of

16%

compared

to

runner-up

with

26%

error)第一個(gè)現(xiàn)代深度卷積網(wǎng)絡(luò)模型首次使用了很多現(xiàn)代深度卷積網(wǎng)絡(luò)的一些技術(shù)方法

使用GPU進(jìn)行并行訓(xùn)練,采用了ReLU作為非線性激活函數(shù),使用Dropout防止過擬合,使用數(shù)據(jù)增強(qiáng)5個(gè)卷積層、3個(gè)匯聚層和3個(gè)全連接層Inception網(wǎng)絡(luò)2014

ILSVRC

winner

(22層)參數(shù):GoogLeNet:4M

VS

AlexNet:60M錯(cuò)誤率:6.7%Inception網(wǎng)絡(luò)是由有多個(gè)inception模塊和少量的匯聚層堆疊而成?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》30Inception模塊v1在卷積網(wǎng)絡(luò)中,如何設(shè)置卷積層的卷積核大小是一個(gè)十分關(guān)鍵的問題。在Inception網(wǎng)絡(luò)中,一個(gè)卷積層包含多個(gè)不同大小的卷積操作,稱為Inception模塊。Inception模塊同時(shí)使用1

×1、3

×3、5

×5等不同大小的卷積核,并將得到的特征映射在深度上拼接(堆疊)起來作為輸出特征映射。卷積和最大匯聚都是等寬的?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》31Inception模塊v3用多層小卷積核替換大卷積核,以減少計(jì)算量和參數(shù)量。使用兩層3x3的卷積來替換v1中的5x5的卷積使用連續(xù)的nx1和1xn來替換nxn的卷積?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》32殘差網(wǎng)絡(luò)殘差網(wǎng)絡(luò)(ResidualNetwork,ResNet)是通過給非線性的卷積層增加直連邊的方式來提高信息的傳播效率。假設(shè)在一個(gè)深度網(wǎng)絡(luò)中,我們期望一個(gè)非線性單元(可以為一層或多層的卷積層)f(x,θ)去逼近一個(gè)目標(biāo)函數(shù)為h(x)。將目標(biāo)函數(shù)拆分成兩部分:恒等函數(shù)和殘差函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》33殘差單元《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》34ResNet2015

ILSVRC

winner

(152層)錯(cuò)誤率:3.57%《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》35Ngram特征與卷積如何用卷積操作來實(shí)現(xiàn)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》36文本序列的卷積《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》37基于卷積模型的句子表示Y.

Kim.

“Convolutional

neural

networks

for

sentence

classification”.

In:

arXivpreprintarXiv:1408.5882

(2014).《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》38文本序列的卷積模型Filter輸入卷積層Pooling層輸出《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》39CNN

可視化:濾波器AlexNet中的濾波器(96

filters[11x11x3])《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》40卷積的應(yīng)用AlphaGo分布式系統(tǒng):1202

個(gè)CPU

和176

塊GPU單機(jī)版:48

個(gè)CPU

和8

塊GPU走子速度:3

毫秒-2微秒《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》42目標(biāo)檢測(Object

Detection)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》43Mask

RCNN《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》44OCR《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》45圖像生成《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》46Deep

Dream《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》47畫風(fēng)遷移《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》48對抗樣本《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》49課后作業(yè)CNN的局部性假設(shè)合理嗎?如何改進(jìn)?編程練習(xí)/nndl/exercise/chap5_CNN圖像分類《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》50謝

謝《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》序列生成模型2025序列數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)2在深度學(xué)習(xí)的應(yīng)用中,有很多數(shù)據(jù)是以序列的形式存在,比如聲音、語言、視頻、DNA序列或者其它的時(shí)序數(shù)據(jù)等。序列數(shù)據(jù)的潛在規(guī)律以自然語言為例,后一個(gè)句子在人腦的語義整合時(shí)需要更多的處理時(shí)間,更不符合自然語言規(guī)則。規(guī)則是什么?神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)3語言模型自然語言理解→一個(gè)句子的可能性/合理性!在報(bào)那貓告做只那只貓?jiān)谧鲌?bào)告!那個(gè)人在作報(bào)告!一切都是概率!神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)4序列概率模型給定一個(gè)序列樣本,其概率為p

??1:T神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)5=

p(??1,

??2,

?

,

??T)和一般的概率模型類似,序列概率模型有兩個(gè)基本問題:(1)學(xué)習(xí)問題:給定一組序列數(shù)據(jù),估計(jì)這些數(shù)據(jù)背后的概率分布;(2)生成問題:從已知的序列分布中生成新的序列樣本。序列概率模型給定一個(gè)序列樣本,其概率為p

??1:T=

p(??1,

??2,

?

,

??T)序列數(shù)據(jù)有兩個(gè)特點(diǎn):(1)樣本是變長的;(2)樣本空間為非常大。對于一個(gè)長度為??的序列,其樣本空間為V

??

。因此,我們很難用已知的概率模型來直接建模整個(gè)序列的概率。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)6序列概率模型序列概率p

??1:T=

??

p

??t

??1:t?1t≈

?t

p(??t|??t?1,

?

,

??t???+1)

=

?t

??(???)因此,序列數(shù)據(jù)的概率密度估計(jì)問題可以轉(zhuǎn)換為單變量的條件概率估計(jì)問題,即給定??1:t?1時(shí)??t的條件概率p

??t

??1:t?1。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)7序列概率模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)8序列概率p(??1,

??2,

?

,

??T)

=

?t

p(??t|??t?1,

?

,

??1)≈

?t

p(??t|??t?1,

?

,

??t???+1)

=

?t

??(???)因此,序列數(shù)據(jù)的概率密度估計(jì)問題可以轉(zhuǎn)換為單變量的條件概率估計(jì)問題,即給定??1:(???1)時(shí)????的條件概率??(????|??1:(???1))。自回歸生成模型在這種序列模型方式中,每一步都需要將前面的輸出作為當(dāng)前步的輸入,是一種自回歸(autoregressive)的方式。自回歸生成模型(Autoregressive

Generative

Model)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)9序列生成自回歸生成模型(Autoregressive

Generative

Model)非自回歸生成模型同時(shí)生成所有詞神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)10序列生成機(jī)習(xí)器學(xué)<eos>$自回歸的方式可以生成一個(gè)無限長度的序列。為了避免這種情況,通常會設(shè)置一個(gè)特殊的符號“<eos>”來表示序列的結(jié)束。在訓(xùn)練時(shí),每個(gè)序列樣本的結(jié)尾都加上符號“<eos>”。在測試時(shí),一旦生成了符號“<eos>”,就中止生成過程。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)11生成最可能序列當(dāng)使用自回歸模型生成一個(gè)最可能的序列時(shí),生成過程是一種從左到右的貪婪式搜索過程。在每一步都生成最可能的詞。這種貪婪式的搜索方式是次優(yōu)的,生成的序列并不保證是全局最優(yōu)的。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)12束搜索一種常用的減少搜索錯(cuò)誤的啟發(fā)式方法是束搜索(BeamSearch)。在每一步的生成中,生成K個(gè)最可能的前綴序列,其中K為束的大?。˙eamSize),是一個(gè)超參數(shù)。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)13N元統(tǒng)計(jì)模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)14平滑技術(shù)N元模型的一個(gè)主要問題是數(shù)據(jù)稀疏問題。數(shù)據(jù)稀疏問題的一種解決方法是平滑技術(shù)(Smoothing),即給一些沒有出現(xiàn)的詞組合賦予一定先驗(yàn)概率。平滑技術(shù)是N元模型中的一項(xiàng)必不可少的技術(shù),比如加法平滑的計(jì)算公式為:δ=1時(shí),稱為加1平滑。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)15深度序列模型深度序列模型一般可以分為三個(gè)部分:嵌入層、特征層、輸出層。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)16嵌入層神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)17詞嵌入(Word

Embeddings)https://indico.io/blog/visualizing-with-t-sne/神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)18上海北京高興難過特征層神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)19特征層可以通過不同類型的神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn),比如前饋神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)。常見的網(wǎng)絡(luò)類型有以下三種:簡單平均前饋神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)特征層:簡單平均歷史信息的平均神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)20特征層:前饋神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)21特征層:循環(huán)網(wǎng)絡(luò)前饋網(wǎng)絡(luò)模型和循環(huán)網(wǎng)絡(luò)模型的不同之處在于循環(huán)神經(jīng)網(wǎng)絡(luò)利用隱藏狀態(tài)來記錄以前所有時(shí)刻的信息,而前饋神經(jīng)網(wǎng)絡(luò)只能接受前n?1個(gè)時(shí)刻的信息。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)22輸出層輸出層為一般使用softmax分類器,接受歷史信息的向量表示,輸出為詞表中每個(gè)詞的后驗(yàn)概率。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)23評價(jià)方法神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)24困惑度困惑度(Perplexity)是信息論的一個(gè)概念,可以用來衡量一個(gè)分布的不確定性。給定一個(gè)測試文本集合,一個(gè)好的序列生成模型應(yīng)該使得測試集合中的句子的聯(lián)合概率盡可能高。困惑度可以衡量模型分布與樣本經(jīng)驗(yàn)分布之間的契合程度。困惑度越低則兩個(gè)分布越接近。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)25困惑度神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)26BLEU神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)27BLEU(Bilingual

Evaluation

Understudy)是衡量模型生成序列和參考序列之間的N元詞組(N-Gram)的重合度,最早用來評價(jià)機(jī)器翻譯模型的質(zhì)量,目前也廣泛應(yīng)用在各種序列生成任務(wù)中。BLEU神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)28ROUGEROUGE(Recall-Oriented

Understudy

forGistingEvaluation)最早應(yīng)用于文本摘要領(lǐng)域。和BLEU類似,但ROUGE計(jì)算的是召回率(Recall)。神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)29序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)30序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)31序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)32基于循環(huán)神經(jīng)網(wǎng)絡(luò)的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)33基于前饋神經(jīng)網(wǎng)絡(luò)的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)34基于注意力的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)35基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)36基于自注意力的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)37回顧:注意力模型根據(jù)α來計(jì)算輸入信息的加權(quán)平均。軟性注意力機(jī)制(soft

attention

mechanism)注意力機(jī)制可以分為兩步計(jì)算注意力分布??

,??(????,??)打分函數(shù)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)38回顧:自注意力基于自注意力的全連接神經(jīng)網(wǎng)絡(luò)連接權(quán)重??????

由注意力機(jī)制動(dòng)態(tài)生成也可以看作是一種全連接的圖神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)39回顧:自注意力示例圖片來源:http://fuyw.top/NLP_02_QANet/神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)40QKV模式(Query-Key-Value)圖片來源:http://jalammar.github.io/illustrated-transformer/神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)41ThinksMachinesThinksMachinesThinksMachines多頭(multi-head)自注意力模型圖片來源:http://jalammar.github.io/illustrated-transformer/神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)42Transformer神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)43Transformer神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)44神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)45基于Transformer的序列到序列模型神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)46其它應(yīng)用神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)47文本摘要/2017/04/16/taming-rnns-for-better-summarization.html神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)48文本摘要神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)49/2017/04/16/taming-rnns-for-better-summarization.html對話Li

J,

MonroeW,

Ritter

A,

et

al.

Deep

reinforcementlearning

for

dialogue

generation[J].

arXiv

preprintarXiv:1606.01541,

2016.神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)50看圖說話神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)51看圖說話神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)52作詩神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)53謝

謝神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)54《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》循環(huán)神經(jīng)網(wǎng)絡(luò)2025參考資料《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》第6章網(wǎng)絡(luò)資料An

Introduction

to

Recurrent

NeuralNetworks/explore-artificial-intelligence/an-introduction-to-recurrent-neural-networks-72c97bf0912Recurrent

Neural

Networks/recurrent-neural-networks-d4642c9bc7ce前饋網(wǎng)絡(luò)連接存在層與層之間,每層的節(jié)點(diǎn)之間是無連接的。(無循環(huán))輸入和輸出的維數(shù)都是固定的,不能任意改變。無法處理變長的序列數(shù)據(jù)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》3前饋網(wǎng)絡(luò)假設(shè)每次輸入都是獨(dú)立的,也就是說每次網(wǎng)絡(luò)的輸出只依賴于當(dāng)前的輸入?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4有限狀態(tài)自動(dòng)機(jī)(Finite

Automata)如何用FNN去模擬一個(gè)有限狀態(tài)自動(dòng)機(jī)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》5圖靈機(jī)一種抽象數(shù)學(xué)模型,可以用來模擬任何可計(jì)算問題?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》6可計(jì)算問題可計(jì)算問題函數(shù)有限狀態(tài)機(jī)圖靈機(jī)前饋網(wǎng)絡(luò)通用近似定理需要記憶能力《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7如何給網(wǎng)絡(luò)增加記憶能力?

延時(shí)神經(jīng)網(wǎng)絡(luò)(Time

DelayNeural

Network,TDNN)建立一個(gè)額外的延時(shí)單元,用來存儲網(wǎng)絡(luò)的歷史信息(可以包括輸入、輸出、隱狀態(tài)等)這樣,前饋網(wǎng)絡(luò)就具有了短期記憶的能力。如何給網(wǎng)絡(luò)增加記憶能力?/publication/12314435_Neural_system_identifi《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8cation_model_of_human_sound_localization如何給網(wǎng)絡(luò)增加記憶能力?自回歸模型(Autoregressive

Model,AR)一類時(shí)間序列模型,用變量????的歷史信息來預(yù)測自己????

~??(0,??2)為第t個(gè)時(shí)刻的噪聲

有外部輸入的非線性自回歸模型(Nonlinear

Autoregressivewith

Exogenous

Inputs

Model,NARX)其中??(?)表示非線性函數(shù),可以是一個(gè)前饋網(wǎng)絡(luò),????

和????

為超參數(shù).《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9非線性自回歸模型/publication/234052442_Braking_torque_control_using_reccurent_neural_

networks《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10循環(huán)神經(jīng)網(wǎng)絡(luò)(

Recurrent

Neural

Network

,RNN

)循環(huán)神經(jīng)網(wǎng)絡(luò)通過使用帶自反饋的神經(jīng)元,能夠處理任意長度的時(shí)序數(shù)據(jù)。循環(huán)神經(jīng)網(wǎng)絡(luò)比前饋神經(jīng)網(wǎng)絡(luò)更加符合生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用在語音識別、語言模型以及自然語言生成等任務(wù)上活性值狀態(tài)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11按時(shí)間展開《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12簡單循環(huán)網(wǎng)絡(luò)(

Simple

Recurrent

Network

,SRN

)狀態(tài)更新:一個(gè)完全連接的循環(huán)網(wǎng)絡(luò)是任何非線性動(dòng)力系統(tǒng)的近似器?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13圖靈完備

圖靈完備(Turing

Completeness)是指一種數(shù)據(jù)操作規(guī)則,比如一種計(jì)算機(jī)編程語言,可以實(shí)現(xiàn)圖靈機(jī)的所有功能,解決所有的可計(jì)算問題。一個(gè)完全連接的循環(huán)神經(jīng)網(wǎng)絡(luò)可以近似解決所有的可計(jì)算問題?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15作用輸入-輸出映射機(jī)器學(xué)習(xí)模型(本節(jié)主要關(guān)注這種情況)存儲器聯(lián)想記憶模型應(yīng)用到機(jī)器學(xué)習(xí)應(yīng)用到機(jī)器學(xué)習(xí)序列到類別同步的序列到序列模式異步的序列到序列模式《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》17應(yīng)用到機(jī)器學(xué)習(xí)序列到類別《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》18序列到類別情感分類…我覺太得好了帶著愉悅的心情看了這部電影這部電影太糟了這部電影很棒Positive(正面)Negative(負(fù)面)Positive(正面)…《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》19應(yīng)用到機(jī)器學(xué)習(xí)同步的序列到序列模式《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》20同步的序列到序列模式中文分詞他說實(shí)的在理確SSESBEB《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》21同步的序列到序列模式信息抽取(Information

Extraction,IE)從無結(jié)構(gòu)的文本中抽取結(jié)構(gòu)化的信息,形成知識小米創(chuàng)始人雷軍表示,該公司2015年?duì)I收達(dá)到780億元人民幣,較2014年的743億元人民幣增長了5%?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》22同步的序列到序列模式Connectionist

Temporal

Classification

(CTC)

[Alex

Graves,ICML’06][Alex

Graves,

ICML’14][Ha?im

Sak,

Interspeech’15][Jie

Li,Interspeech’15][Andrew

Senior,

ASRU’15]好

φφ

φ

φ

φ

φ好

φφ

φ

φ

φ“好棒”“好棒棒”語音識別《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》23應(yīng)用到機(jī)器學(xué)習(xí)異步的序列到序列模式《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》24learning異步的序列到序列模式機(jī)器翻譯machine機(jī)器學(xué)習(xí)

?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》25參數(shù)學(xué)習(xí)機(jī)器學(xué)習(xí)給定一個(gè)訓(xùn)練樣本(x,y),其中x=(x1,…,xT)為長度是T

的輸入序列,y=(y1,…,yT)是長度為T

的標(biāo)簽序列。時(shí)刻t的瞬時(shí)損失函數(shù)為總損失函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》26梯度隨時(shí)間反向傳播算法δt,k為第t時(shí)刻的損失對第k步隱藏神經(jīng)元的凈輸入zk的導(dǎo)數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》27梯度消失/爆炸梯度其中??由于梯度爆炸或消失問題,實(shí)際上只能學(xué)習(xí)到短周期的依賴關(guān)系。這就是所謂的長程依賴問題。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》28長程依賴問題《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》29循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間維度上非常深!梯度消失或梯度爆炸如何改進(jìn)?梯度爆炸問題權(quán)重衰減梯度截?cái)嗵荻认栴}改進(jìn)模型長程依賴問題改進(jìn)方法循環(huán)邊改為線性依賴關(guān)系增加非線性殘差網(wǎng)絡(luò)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》30長短期記憶神經(jīng)網(wǎng)絡(luò)(Long

Short-Term

Memory,LSTM

)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》31LSTM的各種變體沒有遺忘門耦合輸入門和遺忘門peephole連接《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》32Gated

Recurrent

Unit,

GRU更新門重置門《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》33深層模型堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》35雙向循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》36擴(kuò)展到圖結(jié)構(gòu)擴(kuò)展到圖結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》38序列遞歸樹神經(jīng)網(wǎng)絡(luò)圖網(wǎng) 絡(luò)圖樹結(jié)構(gòu)程序語言的句法結(jié)構(gòu)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》39樹結(jié)構(gòu)自然語言的句法結(jié)構(gòu)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》40遞歸神經(jīng)網(wǎng)絡(luò)Recursive

Neural

Network遞歸神經(jīng)網(wǎng)絡(luò)實(shí)在一個(gè)有向圖無循環(huán)圖上共享一個(gè)組合函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》41遞歸神經(jīng)網(wǎng)絡(luò)退化為循環(huán)神經(jīng)網(wǎng)絡(luò)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》42遞歸神經(jīng)網(wǎng)絡(luò)給定一個(gè)語法樹,p2

ap1,p1

bc.《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》43圖網(wǎng)絡(luò)在實(shí)際應(yīng)用中,很多數(shù)據(jù)是圖結(jié)構(gòu)的,比如知識圖譜、社交網(wǎng)絡(luò)、分子網(wǎng)絡(luò)等。而前饋網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)很難處理圖結(jié)構(gòu)的數(shù)據(jù)?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》44圖數(shù)據(jù)/pdf/1806.01261.pdf《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》45圖網(wǎng)絡(luò)/pdf/1806.01261.pdf《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》46圖網(wǎng)絡(luò)/pdf/1806.01261.pdf《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》47圖網(wǎng)絡(luò)對于一個(gè)任意的圖結(jié)構(gòu)G(V,E)更新函數(shù)讀出函數(shù)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》48循環(huán)網(wǎng)絡(luò)應(yīng)用語言模型理性自然語言理解→一個(gè)句子的可能性/合!在報(bào)那貓告做只那只貓?jiān)谧鲌?bào)告!那個(gè)人在作報(bào)告!一切都是概率!??(??1,

??2,

?

,

??T)

=

???

??(????|?????1,

?

,

??1)≈

???

??(????|?????1,

?

,

???????+1)N元語言模型《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》50語言模型《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》51生成LINUX內(nèi)核代碼《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》52作詞機(jī)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》53RNN在“學(xué)習(xí)”過汪峰全部作品后自動(dòng)生成的歌詞/phunterlau/wangfeng-rnn我在這里中的夜里就像一場是一種生命的意旪就像我的生活變得在我一樣可我們這是一個(gè)知道我只是一天你會怎嗎可我們這是我們的是不要為你我們想這有一種生活的時(shí)候作詩《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》54傳統(tǒng)統(tǒng)計(jì)機(jī)器翻譯源語言:f目標(biāo)語言:e模型:???

=

argmax??

??(??|??)

= argmax??

??(??|??)??(??)p(f|e):翻譯模型p(e):語言模型《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》55基于序列到序列的機(jī)器翻譯一個(gè)RNN用來編碼另一個(gè)RNN用來解碼《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》56看圖說話《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》57看圖說話《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》58Demo

WebsiteVQA:

Given

an

image

and

a

natural

languagequestion

about

the

image,

the

task

is

to

provide

anaccurate

natural

language

answerVisual

Question

Answering

(VQA)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》59Picture

from

(Antol

et

al.,2015)寫字把一個(gè)字母的書寫軌跡看作是一連串的點(diǎn)。一個(gè)字母的“寫法”其實(shí)是每一個(gè)點(diǎn)相對于前一個(gè)點(diǎn)的偏移量,記為(offsetx,offset

y)。再增加一維取值為0或1來記錄是否應(yīng)該“提筆”?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》60對話系統(tǒng)/lukalabs/cakechat《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》61循環(huán)神經(jīng)網(wǎng)絡(luò)總結(jié)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》62優(yōu)點(diǎn):引入記憶圖靈完備缺點(diǎn):長程依賴問題記憶容量問題并行能力課后作業(yè)編程練習(xí)/nndl/exercise/chap6_RNN1)利用循環(huán)神經(jīng)網(wǎng)絡(luò)來生成唐詩2)利用循環(huán)神經(jīng)網(wǎng)絡(luò)來進(jìn)行加法運(yùn)算《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》63謝

謝《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2025無監(jiān)督學(xué)習(xí)內(nèi)容《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》2無監(jiān)督學(xué)習(xí)無監(jiān)督特征學(xué)習(xí)主成分分析稀疏編碼自編碼器稀疏自編碼器降噪自編碼器概率密度估計(jì)參數(shù)密度估計(jì)非參數(shù)密度估計(jì)

核方法

K近鄰方法無監(jiān)督學(xué)習(xí)(

Unsupervised

Learning

)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》3監(jiān)督學(xué)習(xí)建立映射關(guān)系

??: ??

??無監(jiān)督學(xué)習(xí)指從無標(biāo)簽的數(shù)據(jù)中學(xué)習(xí)出一些有用的模式。聚類:建立映射關(guān)系

??: ??

??不借助于任何人工給出標(biāo)簽或者反饋等指導(dǎo)信息特征學(xué)習(xí)密度估計(jì)??(??)典型的無監(jiān)督學(xué)習(xí)問題無監(jiān)督特征學(xué)習(xí)聚類密度估計(jì)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》4為什么要無監(jiān)督學(xué)習(xí)?《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》5大腦有大約1014個(gè)突觸,我們只能活大約109秒。所以我們有比數(shù)據(jù)更多的參數(shù)。這啟發(fā)了我們必須進(jìn)行大量無監(jiān)督學(xué)習(xí)的想法,因?yàn)楦兄斎耄òū倔w感受)是我們可以獲得每秒

105維約束的唯一途徑。--

Geoffrey

Hinton,

2014

AMA

on

Reddit無監(jiān)督特征學(xué)習(xí)一種最常用的數(shù)據(jù)降維方法,使得在轉(zhuǎn)換后的空間中數(shù)據(jù)的方差最大。樣本點(diǎn)??(??)投影之后的表示為所有樣本投影后的方差為目標(biāo)函數(shù)對目標(biāo)函數(shù)求導(dǎo)并令導(dǎo)數(shù)等于0,可得主成份分析(Principal

Component

Analysis,PCA)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》7給定一組基向量??

= [????

,···,????],將輸入樣本??表示為這些基向量的線性組合(線性)編碼編碼(encoding)字典(dictionary)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》8稀疏編碼找到一組“過完備”的基向量(即??>??)來進(jìn)行編碼。完備性《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》9稀疏編碼(Sparse

Coding)(??)給定一組N

個(gè)輸入向量??

??

,

,

??

,其稀疏編碼的目標(biāo)函數(shù)定義為??(·)是一個(gè)稀疏性衡量函數(shù),??是一個(gè)超參數(shù),用來控制稀疏性的強(qiáng)度。《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》10訓(xùn)練過程稀疏編碼的訓(xùn)練過程一般用交替優(yōu)化的方法進(jìn)行?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》11稀疏編碼的優(yōu)點(diǎn)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》12計(jì)算量稀疏性帶來的最大好處就是可以極大地降低計(jì)算量??山忉屝砸?yàn)橄∈杈幋a只有少數(shù)的非零元素,相當(dāng)于將一個(gè)輸入樣本表示為少數(shù)幾個(gè)相關(guān)的特征。這樣我們可以更好地描述其特征,并易于理解。特征選擇稀疏性帶來的另外一個(gè)好處是可以實(shí)現(xiàn)特征的自動(dòng)選擇,只選擇和輸入樣本相關(guān)的最少特征,從而可以更好地表示輸入樣本,降低噪聲并減輕過擬合。編碼器(Encoder)解碼器(Decoder)目標(biāo)函數(shù):重構(gòu)錯(cuò)誤兩層網(wǎng)絡(luò)結(jié)構(gòu)的自編碼器自編碼器(

Auto-Encoder

)《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》13通過給自編碼器中隱藏層單元z加上稀疏性限制,自編碼器可以學(xué)習(xí)到數(shù)據(jù)中一些有用的結(jié)構(gòu)。目標(biāo)函數(shù)??表示自編碼器中的參數(shù)和稀疏編碼一樣,稀疏自編碼器的優(yōu)點(diǎn)是有很高的可解釋性,并同時(shí)進(jìn)行了隱式的特征選擇.稀疏自編碼器《神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》14降噪自編碼器通過引入噪聲來增加編碼魯棒性的自編碼器對于一個(gè)向量??,我們首先根據(jù)一個(gè)比例μ隨機(jī)將??的一些維度的值設(shè)置為0,得到一個(gè)被損壞的向量???。然后將被損壞的向量???輸入給自編碼器得到編碼??,并重構(gòu)出原始的無損輸入??

?!渡窠?jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)》15概率密度估計(jì)概率密度估計(jì)參數(shù)密度估計(jì)(Parametric

Density

Estimation)根據(jù)先驗(yàn)知識假設(shè)隨機(jī)變量服從某種分布,然后通過訓(xùn)練樣本來估計(jì)分布的參數(shù).估計(jì)方法:最大

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論