深度學(xué)習(xí)在移動端的應(yīng)用_第1頁
深度學(xué)習(xí)在移動端的應(yīng)用_第2頁
深度學(xué)習(xí)在移動端的應(yīng)用_第3頁
深度學(xué)習(xí)在移動端的應(yīng)用_第4頁
深度學(xué)習(xí)在移動端的應(yīng)用_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

深度學(xué)習(xí)在移動端的應(yīng)用目錄深度學(xué)習(xí)簡介移動端落地方案移動端局限及解決技巧f

你好f

貓f

嗨!

你好深度學(xué)習(xí)

-

目標(biāo):尋找最佳函數(shù)卷積池化歸一化深度學(xué)習(xí)

-

結(jié)構(gòu):基于層與層的連接以GoogLeNet

v1丼例1-2-11104-20.980.12 -2-1-12 0.86 3-1-140.110.620.8300-221-1深度學(xué)習(xí)

-

層(丼例):全連接層1-10.620.83貓…………Inputx

1x

2x

25616x16=

256Ink→

1Noink→

0……Is

9The

imageis

“2”is

20.620.83...0.050.80.1輸出is

0Output向量

概率f

深度學(xué)習(xí)

-

預(yù)測過程Y

0Y

2Y

9NNNNNN…………y1y2yR12??1…………NNy3323??f

深度學(xué)習(xí)

-

訓(xùn)練過程目錄深度學(xué)習(xí)簡介移動端落地方案移動端局限及解決技巧服務(wù)端訓(xùn)練

+

服務(wù)端識別移勱端訓(xùn)練

+

移勱端識別服務(wù)端訓(xùn)練

+

移勱端識別落地方案

-

可能的服務(wù)端及移勱端分工PC

Server

訓(xùn)練模型文件Model

File移動端加載模型進行識別落地方案

-

移勱端只適合識別過程? GPU門檻2:Mali

T820

4核以上CPU

:高通

&

(三星、聯(lián)發(fā)科、華為)GPU:Mali

GPUCPU門檻1:驍龍600以上CPU

98.1%

是ARMv7GPUARM:

51.3%Qualcomm:

39.2%落地方案

-

Android硬件現(xiàn)狀Device

DriverOS

Kernelkernel

space高通GPUMali

GPUOther

cpuhardware高通cpuapplication

ui主體識別分類風(fēng)格化...computelibOpenCLRender

ScriptVulkanARMComputeLibrary落地方案

-

Android深度學(xué)習(xí)軟件現(xiàn)狀兩個卷積核Only9x2=

18parameters最大池化100001010010001100100010010010001010-11-1-11-1-11-11-1-1-11-1-1-11原圖落地方案

-

模型選擇

CNN卷積和池化cator

dogxyw

hConvolutionMax

PoolingConvolutionMax

PoolingFlattenRepeatmany

timesFullyConnectedFeedforward

network落地方案

-

模型選擇

CNN常見拓?fù)湟訥oogLeNet

v1丼例落地方案

-

框架選擇基于Caffe二次開發(fā)可讀性通用性圖像領(lǐng)域應(yīng)用已麗移植成功案例針對CPU做主要優(yōu)化GPU的內(nèi)存拷貝成本與運算效率的綜合考量目錄深度學(xué)習(xí)簡介移動端落地方案移動端局限及解決技巧移勱端局限

-

安卓落地難點服務(wù)端移動端SO體積無限制特定App下嚴(yán)格限制模型體積500M+<10M加密無需考量特定App下嚴(yán)禁泄露預(yù)測速度類庫極其成熟有待填補內(nèi)存限制無嚴(yán)格限制內(nèi)存極其有限耗電量無限制嚴(yán)格限制Tricks

-

SO體積:代碼剪枝37MB->

100kBeforeAfterOpenBlas手工實現(xiàn)Glog、Gflag摘除Protobuf手工實現(xiàn)Json解析后向傳播摘除層縮減數(shù)量CatTricks

-

模型體積:權(quán)值共享Tricks

-

模型體積:量化24.2->

4.5MBmin-10^8max-10^8桶1號桶256號……Tricks

-

模型體積:糾正量化的誤差min-10^8max-10^8桶1號桶256號……桶X號桶

(1號):min桶

(256號):max桶

(X號):剩余N-2個元素誤差來源Tricks

-

模型體積:糾正量化的偏好min-10^8max-10^8桶1號桶256號……桶X號桶

(X號): 11.2估值偏小桶

(X+1號): 2桶

(X號): 11.2(0.8)桶

(X+1號): 21.2(0.2)Tricks

-

模型體積:加密min-10^8max-10^8桶1號桶256號……Meta頭部:min???max???Tricks

-

速度:常規(guī)優(yōu)化

調(diào)整overheadLoadReshapeForward(malloc

blob)Final

DataTricks

-

速度:常規(guī)優(yōu)化

數(shù)值計算記錄Taylor展開的系數(shù),用以實現(xiàn)快速的近似計算Tricks

-

速度:CPU

Affinity設(shè)置親密度:減少線程切換。強制使用Big核心。卷積池化LocalRespNormTricks

-

速度:NEON

intrinsicsTricks

-

速度:內(nèi)聯(lián)匯編assembly文件純匯編文件,后綴為”.S”或”.s”。注意對寄存器數(shù)據(jù)的保存。inline

assembly內(nèi)聯(lián)匯編在C/C++代碼中嵌入?yún)R編,調(diào)用簡單,容易調(diào)試。Tricks-

速度:Loop

UnrollingTricks

-

速度:利用拓?fù)浣Y(jié)構(gòu)執(zhí)行多線程利用SplitLayer和ConcatLayer,自動進行多線程分配Tricks

-

速度:改用MobileNet模型Depthwise

SeparableConvolution由兩部分組成:depthwise

convoluti

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論