![人工智能YOLOV2圖像識(shí)別試驗(yàn)報(bào)告材料_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/e8ed60e7-6928-4075-9c4a-aabb6dc75573/e8ed60e7-6928-4075-9c4a-aabb6dc755731.gif)
![人工智能YOLOV2圖像識(shí)別試驗(yàn)報(bào)告材料_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/e8ed60e7-6928-4075-9c4a-aabb6dc75573/e8ed60e7-6928-4075-9c4a-aabb6dc755732.gif)
![人工智能YOLOV2圖像識(shí)別試驗(yàn)報(bào)告材料_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/e8ed60e7-6928-4075-9c4a-aabb6dc75573/e8ed60e7-6928-4075-9c4a-aabb6dc755733.gif)
![人工智能YOLOV2圖像識(shí)別試驗(yàn)報(bào)告材料_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/e8ed60e7-6928-4075-9c4a-aabb6dc75573/e8ed60e7-6928-4075-9c4a-aabb6dc755734.gif)
![人工智能YOLOV2圖像識(shí)別試驗(yàn)報(bào)告材料_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/16/e8ed60e7-6928-4075-9c4a-aabb6dc75573/e8ed60e7-6928-4075-9c4a-aabb6dc755735.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第一章前言局部視覺是各個(gè)應(yīng)用領(lǐng)域,如制造業(yè)、檢驗(yàn)、文檔分析、醫(yī)療診斷,和軍事等領(lǐng) 域中各種智能/自主系統(tǒng)中不可分割的一局部。由于它的重要性,一些先進(jìn)國(guó)家, 例如美國(guó)把對(duì)計(jì)算機(jī)視覺的研究列為對(duì)經(jīng)濟(jì)和科學(xué)有廣泛影響的科學(xué)和工程中 的重大根本問題,即所謂的重大挑戰(zhàn)。計(jì)算機(jī)視覺的挑戰(zhàn)是要為計(jì)算機(jī)和機(jī)器人 開發(fā)具有與人類水平相當(dāng)?shù)囊曈X能力。機(jī)器視覺需要圖象信號(hào),紋理和顏色建模, 幾何處理和推理,以與物體建模。一個(gè)有能力的視覺系統(tǒng)應(yīng)該把所有這些處理都 嚴(yán)密地集成在一起。作為一門學(xué)科,計(jì)算機(jī)視覺開始于 60年代初,但在計(jì)算機(jī) 視覺的根本研究中的許多重要進(jìn)展是在 80年代取得的。計(jì)算機(jī)視覺與人類視覺 密切相關(guān)
2、,對(duì)人類視覺有一個(gè)正確的認(rèn)識(shí)將對(duì)計(jì)算機(jī)視覺的研究非常有益。計(jì)算機(jī)視覺是一門研究如何使機(jī)器 “看的科學(xué),更進(jìn)一步的說,就是是指 用攝影機(jī)和電腦代替人眼對(duì)目標(biāo)進(jìn)展識(shí)別、 跟蹤和測(cè)量等機(jī)器視覺,并進(jìn)一步做 圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測(cè)的圖像。作為一個(gè)科學(xué)學(xué)科,計(jì)算機(jī)視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù) 據(jù)中獲取信息的人工智能系統(tǒng)。這里所 指的信息指Shannon定義的,可以 用來幫助做一個(gè)“決定的信息。因?yàn)楦兄梢钥醋魇菑母泄傩盘?hào)中提取信息, 所以計(jì)算機(jī)視覺也可以看作是研究如何使人工系統(tǒng)從圖像或多維數(shù)據(jù)中“感知的科學(xué)??茖W(xué)技術(shù)的開展是推動(dòng)人類社會(huì)進(jìn)步的主要
3、原因之一,未來社會(huì)進(jìn)一步地朝 著科技化、信息化、智能化的方向前進(jìn)。在信息大爆炸的今天,充分利用這些信息將有助于社會(huì)的現(xiàn)代化建設(shè),這其中圖像信息是目前人們生活中最常見的信 息。利用這些圖像信息的一種重要方法就是圖像目標(biāo)定位識(shí)別技術(shù)。不管是視頻監(jiān)控領(lǐng)域還是虛擬現(xiàn)實(shí)技術(shù)等都對(duì)圖像的識(shí)別有著極大的需求。一般的圖像目標(biāo)定位識(shí)別系統(tǒng)包括圖像分割、目標(biāo)關(guān)鍵特征提取、目標(biāo)類別分類三個(gè)步驟。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種 深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或 特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學(xué)習(xí)的概念由Hinton等人于2006年提出。
4、基于深度置信網(wǎng)絡(luò)提出非監(jiān)視貪心逐層訓(xùn)練算法,為解決深層結(jié)構(gòu)相關(guān)的優(yōu)化難題帶來希望,隨后提出多層自動(dòng)編碼器深層結(jié)構(gòu)。 此外Lecun等人提出 的卷積神經(jīng)網(wǎng)絡(luò)是第一個(gè)真正多層結(jié)構(gòu)學(xué)習(xí)算法,它利用空間相對(duì)關(guān)系減少參數(shù) 數(shù)目以提高訓(xùn)練性能。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)新的研究領(lǐng)域, 通過深度學(xué)習(xí)的方法構(gòu)建深度 網(wǎng)絡(luò)來抽取特征是目前目標(biāo)和行為識(shí)別中得到關(guān)注的研究方向,引起更多計(jì)算機(jī)視覺領(lǐng)域研究者對(duì)深度學(xué)習(xí)進(jìn)展探索和討論,并推動(dòng)了目標(biāo)和行為識(shí)別的研究, 推動(dòng)了深度學(xué)習(xí)與其在目標(biāo)和行為識(shí)別中的新進(jìn)展?;谶@個(gè)開展趨勢(shì),我們小組選擇了基于回歸方法的深度學(xué)習(xí)目標(biāo)識(shí)別算法 YOLO勺研究。眾所周知,當(dāng)前是信息時(shí)代,
5、信息的獲得、加工、處理以與應(yīng)用都有了飛躍 開展。人們認(rèn)識(shí)世界的重要知識(shí)來源就是圖像信息, 在很多場(chǎng)合,圖像所傳送的 信息比其他形式的信息更豐富、真切和具體。人眼與大腦的協(xié)作使得人們可以獲 取、處理以與理解視覺信息,人類利用視覺感知外界環(huán)境信息的效率很高。事實(shí) 上,據(jù)一些國(guó)外學(xué)者所做的統(tǒng)計(jì),人類所獲得外界信息有80流右是來自眼睛攝取的圖像。由此可見,視覺作為人類獲取外界信息的主要載體,計(jì)算機(jī)要實(shí)現(xiàn)智 能化,就必須能夠處理圖像信息。尤其是近年來,以圖形、圖像、視頻等大容量 為特征的圖像數(shù)據(jù)處理廣泛應(yīng)用于醫(yī)學(xué)、交通、工業(yè)自動(dòng)化等領(lǐng)域。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)展表征學(xué)習(xí)的方法。觀測(cè)值例如一
6、幅圖像可以使用多種方式來表示,如每個(gè)像素強(qiáng)度值的向量,或者更抽象地 表示成一系列邊、特定形狀的區(qū)域等。而使用某些特定的表示方法更容易從實(shí)例 中學(xué)習(xí)任務(wù)例如,人臉識(shí)別或面部表情識(shí)別。深度學(xué)習(xí)的好處是用非監(jiān)視式 或半監(jiān)視式的特征學(xué)習(xí)和分層特征提取高效算法來替代手工獲取特征。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域, 其動(dòng)機(jī)在于建立、模擬人腦進(jìn)展分析學(xué)習(xí)的 神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。目標(biāo)檢測(cè)對(duì)于人來說是再簡(jiǎn)單不過的任務(wù), 但是對(duì)于計(jì)算機(jī)來說,它看到的 是一些值為0255的數(shù)組,因而很難直接得到圖像中有人或者貓這種高層語義概 念,也不清楚目標(biāo)出現(xiàn)在圖像中哪個(gè)區(qū)域。圖像中
7、的目標(biāo)可能出現(xiàn)在任何位置, 目標(biāo)的形態(tài)可能存在各種各樣的變化, 圖像的背景千差萬別,這些因素導(dǎo)致 目標(biāo)檢測(cè)并不是一個(gè)容易解決的任務(wù)。這次課程項(xiàng)目,正是基于視覺、深度學(xué)習(xí)、目標(biāo)識(shí)別而進(jìn)展的,是一個(gè)熱度 很高的話題?;谏疃葘W(xué)習(xí)的目標(biāo)識(shí)別研究具有重大的意義, 深度學(xué)習(xí)的目標(biāo)識(shí) 別算法對(duì)于未來能夠使用目標(biāo)檢測(cè)和圖像識(shí)別的手段運(yùn)用于物聯(lián)網(wǎng)、智能設(shè)備、 生物制藥經(jīng)濟(jì)調(diào)控等多領(lǐng)域有很大的作用。機(jī)器學(xué)習(xí)是一門專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能的學(xué)科。機(jī)器能否像人類一樣能具有學(xué)習(xí)能力呢? 1959年美國(guó)的塞繆爾(Samuel)設(shè)計(jì)了一
8、個(gè) 下棋程序,這個(gè)程序具有學(xué)習(xí)能力,它可以在不斷的對(duì)弈中改善自己的棋藝。4年后,這個(gè)程序戰(zhàn)勝了設(shè)計(jì)者本人。又過了 3年,這個(gè)程序戰(zhàn)勝了美國(guó)一個(gè)保持 8年之久的常勝不敗的冠軍。這個(gè)程序向人們展示了機(jī)器學(xué)習(xí)的能力,提出了許 多令人深思的社會(huì)問題與哲學(xué)問題。 深度學(xué)習(xí)最近幾年開展速度十分快,因此同 時(shí)也推動(dòng)了目標(biāo)識(shí)別技術(shù)的開展,技術(shù)的革新總是相互影響的。目標(biāo)檢測(cè)是圖像處理和計(jì)算機(jī)視覺的一個(gè)重要分支, 在理論和實(shí)踐上都有重 大意義。近年來,隨著物聯(lián)網(wǎng)的高速開展與智能終端的廣泛普與, 目標(biāo)檢測(cè)技術(shù) 成了機(jī)器視覺領(lǐng)域的研究熱點(diǎn),被國(guó)外學(xué)者廣泛關(guān)注。目標(biāo)檢測(cè)的研究主要包括了基于視頻圖像的目標(biāo)檢測(cè)和基于靜態(tài)圖
9、片的目標(biāo)檢測(cè)。本文主要討論基于靜態(tài)圖片的目標(biāo)檢測(cè)算法, 即在靜態(tài)圖片中檢測(cè)并定 位所設(shè)定種類的目標(biāo)。基于靜態(tài)圖片的目標(biāo)檢測(cè)的難點(diǎn)主要在于圖片中的目標(biāo)會(huì) 因光照、視角以與目標(biāo)部等變化而產(chǎn)生變化。 針對(duì)以上的難點(diǎn),國(guó)外學(xué)者進(jìn)展了 很多嘗試。目前提出的方法主要分為基于形狀輪廓的目標(biāo)檢測(cè)算法和基于目標(biāo)特 征的檢測(cè)方法。計(jì)算機(jī)視覺是指用計(jì)算機(jī)實(shí)現(xiàn)人的視覺功能, 它的研究目標(biāo)就是使計(jì)算機(jī)具 有用過一幅或多幅圖像認(rèn)知周圍環(huán)境的能力包括對(duì)客觀世界三維環(huán)境的感知、 識(shí)別與理解。運(yùn)動(dòng)目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺技術(shù)的一個(gè)分支,就是對(duì)視場(chǎng)的運(yùn)動(dòng)目標(biāo),如人或交通工具,進(jìn)展實(shí)時(shí)的觀測(cè),并將其分類,然后分析他們的行為。 目前,
10、國(guó)際上許多高校和研究所,如麻省理工學(xué)學(xué)院、牛津大學(xué)等都專門設(shè)立了 針對(duì)運(yùn)動(dòng)目標(biāo)檢測(cè)的研究組或者研究實(shí)驗(yàn)室。 美英等國(guó)家已經(jīng)研究了大量的相關(guān) 項(xiàng)目。一些著名公司和研究機(jī)構(gòu),如 舊M、Microsoft、麻省理工學(xué)院等近幾年來 投入了大量的人力物力來進(jìn)展智能監(jiān)控系統(tǒng)的研究,局部成果已經(jīng)轉(zhuǎn)化為產(chǎn)品投入了市場(chǎng)。目前在國(guó)的研究機(jī)構(gòu)中,中國(guó)科學(xué)院自動(dòng)化研究所下屬的模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室視覺監(jiān)控研究處于領(lǐng)先地位。他們?cè)诮煌▓?chǎng)景視覺監(jiān)控、人的運(yùn)動(dòng)視覺監(jiān) 控和行為模式識(shí)別方面進(jìn)展了深入研究。另外他們也總結(jié)了英國(guó)雷丁大學(xué)VIEWS的車輛交通監(jiān)控原型系統(tǒng)的研究經(jīng)驗(yàn),在之前的理論研究的根底上,自行設(shè)計(jì)并初步實(shí)現(xiàn)了一個(gè)
11、擁有完全自主知識(shí)產(chǎn)權(quán)的交通監(jiān)控原型系統(tǒng)vstart(Visualsurveillance star)。國(guó)其他高校如交通大學(xué)、航空航天大學(xué)也對(duì)這方面進(jìn)展了 研究。盡管這樣,目前在運(yùn)動(dòng)目標(biāo)檢測(cè)和視覺監(jiān)控這方面仍然存在著許多不足:目前國(guó)市場(chǎng)上所見到的大局部智能監(jiān)控產(chǎn)品來源于國(guó)外,性能和可靠性不夠,并且維護(hù)和安裝問題需要外方全方位參加,給國(guó)家安全帶來了巨大的隱患。目標(biāo)之間 互遮擋和人體自遮擋問題,尤其是在擁擠狀態(tài)下,多人的檢測(cè)更是難處理本文是基于回歸方法的深度學(xué)習(xí)目標(biāo)識(shí)別算法 YOLO勺研究。第一章:前言。主要介紹課程項(xiàng)目背景與意義、國(guó)外研究的現(xiàn)狀,以與本論文的 結(jié)構(gòu)。第二章:使用工具介紹與安裝。包括
12、CentOS系統(tǒng)、OpenCV:具、CUDAF發(fā)環(huán)境、 環(huán)境的搭建。第三章:YOLOJ法簡(jiǎn)介。包括YOLOJ法特點(diǎn)、核心思想和實(shí)現(xiàn)方法、以與 YOLO 的創(chuàng)新。第四章:訓(xùn)練數(shù)據(jù)采集與制作。包括訓(xùn)練數(shù)據(jù)的采集、訓(xùn)練數(shù)據(jù)的制作。第五章:訓(xùn)練配置、訓(xùn)練與測(cè)試訓(xùn)練效果。包括具體的訓(xùn)練配置、訓(xùn)練過程和測(cè) 試訓(xùn)練效果。第六章:總結(jié)。包含對(duì)本次課程項(xiàng)目實(shí)踐過程的感想與收獲,以與對(duì)未來的展望。第二章使用工具介紹與安裝2.1 CentOS 系統(tǒng)CentOS Cmunity ENTerprise Operating System是 Linux 發(fā)行版之一,它 是來自于Red Hat Enterprise Linu
13、x依照開放源代碼規(guī)定釋出的源代碼所編譯而成。由于出自同樣的源代碼,因此有些要求高度穩(wěn)定性的服務(wù)器以CentOS替 代商業(yè)版的Red Hat Enterprise Linux使用。兩者的不同,在于 CentOS并不包 含封閉源代碼軟件。CentOS我們有很多人叫它社區(qū)企業(yè)操作系統(tǒng),不管怎么叫它,它都是linux 的一個(gè)發(fā)行版本。CentOS并不是全新的linux發(fā)行版,在RedHat家族中有企業(yè) 版的產(chǎn)品,它是 Red Hat Enterprise Linux , CentOS是 RHEL勺克隆版本,RHEL 是很多企業(yè)采用的linux發(fā)行版本,需要向RedHat付費(fèi)才可以使用,并能得到 付過費(fèi)
14、用的服務(wù)和技術(shù)支持和版本升級(jí)。這個(gè)CentOS可以像REHL一樣的構(gòu)筑linux系統(tǒng)環(huán)境,但不需要向 RedHat付任何的費(fèi)用,同樣也得不到任何有償技 術(shù)支持和升級(jí)服務(wù)。CentOS很多特點(diǎn):CentOS就是對(duì)RedHat AS進(jìn)展改良后發(fā)布的,各種操 作、使用和RED HA股有區(qū)別;CentOS完全免費(fèi),不存在 RED HAT AS4!要序 列號(hào)的問題;CentOS獨(dú)有的yum命令支持在線升級(jí),可以即時(shí)更新系統(tǒng),不像 RED HATJB樣需要花錢購置支持服務(wù);CentOS修正了許多RED HAT AS勺BUG基于開源的特性,Linux環(huán)境被很多技術(shù)人員和公司使用。Linux以它的高 效性和靈
15、活性著稱,Linux模塊化的設(shè)計(jì)結(jié)構(gòu),使得它既能在價(jià)格昂貴的工作站 上運(yùn)行,也能夠在廉價(jià)的PC機(jī)上實(shí)現(xiàn)全部的Unix特性,具有多任務(wù)、多用戶的 能力。我們這次的課程項(xiàng)目“基于深度學(xué)習(xí)的目標(biāo)識(shí)別研究也是在 Linux環(huán)境 下完成的,因此本次項(xiàng)目實(shí)現(xiàn)使用的是 CentOS 7.0系統(tǒng)。2.2 OpenCV 工具OpenCV勺全稱是:Open Source puter Vision Library。OpenCV!一個(gè)基于(開源)發(fā)行的跨平臺(tái)計(jì)算機(jī)視覺庫,可以運(yùn)行在 Linux、Window不口 MacOS操作 系統(tǒng)上。它輕量級(jí)而且高效,由一系列C函數(shù)和少量C+類構(gòu)成,同時(shí)提供了 Python、Rub
16、y MATLAB語言的接口,實(shí)現(xiàn)了圖像處理和計(jì)算機(jī)視覺方面的很 多通用算法。OpenCV力于真實(shí)世界的實(shí)時(shí)應(yīng)用,通過優(yōu)化的C代碼的編寫對(duì)其執(zhí)行速度帶來了可觀的提升,并且可以通過購置Intel的IPP高性能多媒體函數(shù)庫得到 更快的處理速度。OpenCV是一個(gè)用于圖像處理、分析、機(jī)器視覺方面的開源函數(shù)庫。無論是 做科學(xué)研究,還是商業(yè)應(yīng)用,OpenCV都是一個(gè)理想的工具庫。因?yàn)椋瑢?duì)于這兩 者,它完全是免費(fèi)的。該庫采用C與C+郵言編寫,該庫的所有代碼都經(jīng)過優(yōu)化, 計(jì)算效率很高,因?yàn)?,它更專注于設(shè)計(jì)成為一種用于實(shí)時(shí)系統(tǒng)的開源庫。OpenCV采用C語言進(jìn)展優(yōu)化,而且,在多核機(jī)器上面,具運(yùn)行速度會(huì)更快。它的
17、一個(gè)目 標(biāo)是提供友好的機(jī)器視覺接口函數(shù),從而使得復(fù)雜的機(jī)器視覺產(chǎn)品可以加速面 世。該庫包含了橫跨工業(yè)產(chǎn)品檢測(cè)、醫(yī)學(xué)圖像處理、安防、用戶界面、攝像頭標(biāo) 定、三維成像、機(jī)器視覺等領(lǐng)域的超過 500個(gè)接口函數(shù)。同時(shí),由于計(jì)算機(jī)視覺與機(jī)器學(xué)習(xí)密不可分,該庫也包含了比擬常用的一些機(jī)器學(xué)習(xí)算法。圖像識(shí)別、機(jī)器視覺在安防領(lǐng)域有所應(yīng)用。并且在航拍圖片、街道圖片中,也要依 賴于機(jī)器視覺的攝像頭標(biāo)定、圖像融合等技術(shù)。近年來,在入侵檢測(cè)、特定目標(biāo) 跟蹤、目標(biāo)檢測(cè)、人臉檢測(cè)、人臉識(shí)別、人臉跟蹤等領(lǐng)域,OpenCV的應(yīng)用與其廣泛,而這些,僅僅是其應(yīng)用的冰山一角。一個(gè)典型的計(jì)算機(jī)視覺算法,應(yīng)該包含以下一些步驟:(1)數(shù)據(jù)
18、獲取對(duì)OpenC原說,就是圖片;(2)預(yù)處理;(3)特征提??;(4)特征選擇;(5)分類器設(shè)計(jì)與訓(xùn)練;(6)分類判別;而OpenCVT具對(duì)這六個(gè)局部,分別提供了 API。2.3 CUDA開發(fā)環(huán)境隨著顯卡的開展,GPU®來越強(qiáng)大,而且GPlfe顯示圖像做了優(yōu)化。在計(jì)算 上已經(jīng)超越了通用的CPU如此強(qiáng)大的芯片如果只是作為顯卡就太浪費(fèi)了,因此 NVidia 推出 CUDA1 算平臺(tái),CUD/®P pute Unified Device Architecture ,是 NVidia利用GPU¥臺(tái)進(jìn)展通用并行計(jì)算的一種架構(gòu),該架構(gòu)使GPUft夠解決復(fù)雜的計(jì)算問題,它包含了
19、CUDA旨令集架構(gòu)ISA以與GPL®的并行計(jì)算引擎。 開發(fā)人員可以利用C語言、OpenCL Fortran、C+等為CUDA構(gòu)編寫程序。(1) CUDM系架構(gòu)CUDA體系架構(gòu)由兩局部組成,分別是流處理器陣列SPA和存儲(chǔ)器系統(tǒng)。流處理陣列SPA的結(jié)構(gòu)又分為兩層:TPC線程處理器群和 SM流多處 理器。GPU勺巨大計(jì)算能力來自于SPA中的大量計(jì)算單元。存儲(chǔ)器系統(tǒng)由幾個(gè)局部組成:存儲(chǔ)器控制器MMC、固定功能的光柵操作單 元ROP以與二級(jí)紋理操作(2) CUD軟行模型將CPU作為主機(jī)Host,而GPU作為協(xié)處理器Coprocessor 或者設(shè)備 Device,從而讓GP皿運(yùn)行一些能夠被高度線
20、程化的程序。在這個(gè)模型中,CPlUf GPM同工作,CPU5責(zé)進(jìn)展邏輯性強(qiáng)的事務(wù)處理和審 行計(jì)算,GPS此專注于執(zhí)行高度線程化的并行處理任務(wù)。一個(gè)完整的CUD雁序是由一系列的設(shè)備端kernel函數(shù)并行步驟和主機(jī)端的用 行處理步驟共同組成的。CUDA執(zhí)行模型如如如下圖:Grid網(wǎng)格運(yùn)行在SPA±Block線程塊運(yùn)行在 SM±Thread線程運(yùn)行在SP上Block (1; 1)微舊“4 。班吃J他It1 Wfl fl,15-UNritcii”,展;:GPUCPUGrid 1Grid 2Kernel81DCK (0.0)BI8H , M »l£ Ockfl H
21、Bl 6亡火工0)Kernel不是一個(gè)完整的程序,而只是其中的一個(gè)關(guān)鍵并行計(jì)算步驟。Kernel以一個(gè)網(wǎng)格Grid的形式執(zhí)行,每個(gè)網(wǎng)格由假設(shè)干個(gè)線程塊block組成,每 一個(gè)線程塊又由假設(shè)干個(gè)線程thread組成。在CUDA的架構(gòu)下,一個(gè)程序分為兩個(gè)部份:Host端和Device端。Host端 是指在CPU上執(zhí)行的部份,而Device端如此是在顯示芯片GPU上執(zhí)行的部 份。Device端的程序又稱為"kernel"。通常Host端程序會(huì)將數(shù)據(jù)準(zhǔn)備好后, 復(fù)制到顯卡的存中,再由顯示芯片執(zhí)行Device端程序,完成后再由Host端程 序?qū)⒔Y(jié)果從顯卡的存中取回。由于CPU存取顯卡
22、存時(shí)只能透過PCI Express接 口,因此速度較慢,因此不能經(jīng)常進(jìn)展這類動(dòng)作,以免降低效率。由于顯示芯片大量并行計(jì)算的特性,它處理一些問題的方式和一般CPU是不同的。主要的特點(diǎn)包括:1存存取latency (等待時(shí)間)的問題:CPU通常使用cache來減少存取主 存的次數(shù),以防止存latency 影響到執(zhí)行效率。顯示芯片如此多半沒有cache或很小,而利用并行化執(zhí)行的方式來隱藏存的latency 即當(dāng)?shù)谝粋€(gè)thread 需要等待存讀取結(jié)果時(shí),如此開始執(zhí)行第二個(gè) thread ,依此類推。2分支指令的問題:CPU通常利用分支預(yù)測(cè)等方式來減少分支指令造成的流 水線。顯示芯片如此多半使用類似處理
23、存latency 的方式。不過,通常顯示芯片處理分支的效率會(huì)比擬差。因此,最適合利用CUDA處理的問題,是可以大量并行化的問題,才能有效 隱藏存的latency ,并有效利用顯示芯片上的大量執(zhí)行單元。使用CUDA時(shí),同時(shí)有上千個(gè)thread 在執(zhí)行是很正常的。因此,如果不能大量并行化的問題,使 用CUDA就沒方法達(dá)到最好的效率了。在這個(gè)過程中,CPU擔(dān)任的工作為控制GPIB行,調(diào)度分配任務(wù),并能做一些簡(jiǎn)單的計(jì)算,而大量需要并行計(jì)算的工作 都交給 GPU實(shí)現(xiàn)。另外需 要注 意的是,由于CPU存取顯存時(shí)只能 通過 PCI-Express接口,速度較慢,因此不能經(jīng)常進(jìn)展,以免降低效率。通常可以在 程
24、序開始時(shí)將數(shù)據(jù)復(fù)制進(jìn) GPU顯存,然后在GPU進(jìn)展計(jì)算,直到獲得需要的數(shù) 據(jù),冉將其復(fù)制到系統(tǒng)存中。2.4環(huán)境的搭建一、項(xiàng)目源代碼下載與安裝到本地git clone s:/github./pjreddie/darknet2.進(jìn)入項(xiàng)目目錄,編譯cd darknetmake二、項(xiàng)目目錄結(jié)構(gòu)編譯完成后,項(xiàng)目主要文件如下:項(xiàng)目目錄darknetmon.php模塊函數(shù)文件data數(shù)據(jù)存放目錄examplesC諦言測(cè)試用例includedarknet頭文件pythonPython測(cè)試用例scripts訓(xùn)練中用到的輔助腳本src項(xiàng)目源代碼darknet編譯后產(chǎn)生的darknet可執(zhí)行文件I-cfg配置文件存
25、放目錄Iconfig.php模塊配置文件三、測(cè)試對(duì)象識(shí)別1 .下載官方提供的訓(xùn)練好的權(quán)重?cái)?shù)據(jù)2 .測(cè)試識(shí)別對(duì)象:在上述命令中,detect表示調(diào)用darknet的對(duì)象識(shí)別功能,是配置文件,包含 各層網(wǎng)絡(luò)的參數(shù)、要識(shí)別的物體種類數(shù)等,是上一步下載的權(quán)重?cái)?shù)據(jù),是要進(jìn)展對(duì)象識(shí)別的照片,照片容如如如下圖:執(zhí)行命令:mydAocalhost darknet$ ./darknet detect cfg/yalo,cfg yola. weights data/dog. jpg5 conv641x6 conv12S3x7 max2x0 canv2563x9 conv1281x10 conv2563x11 ma
26、x2x12 conv5123x13 coriv251x14 conv5123x15 conv2561x16 conv5123工17 nax2XIB snv10243x11211121111121132313231313232 2 25 5 511176I X X X X I X WA8888188973-3333312828>152X152X64>152X152X12876K76X128>76X76X256>76X76X128>76X76X25638X38X256>33X38X512>38X38X256>38X38X512>38X38X25
27、6>36X38X51219X19X51219X19x 102119 conv5121X1 /119XL& xl02d >19X19X 51220 cariv10243X3 /119XL9 x 512->19X19X1Q2421 conv5121X1 /119X19 3cls4->19X19X 51222 conv10243X3 /119X19 I 512->19X19X102423 canv10243X3 /119X19 X1024 >19X19X1O2424 conv10243X3 /i19X19 X1024->19X19xl02&2
28、5 routeie26 conv641X1 /136X38 x 512->38K38X 6同27 rea/236X38 X 64->19X19x 25628 route27 2429 conv10243X3 /119X19 ¥1380->19>:19X102430 canv4251X1 /119X19 X1024 >1919x 42531 detect ionlay q rfilterssizeinputoutput0conv323x3/1608 x 608 j. S >60S k 608 x 321max2x2/2608 x 08 x 32- &
29、gt;304 x 304 x 322conv643x3/1304 x 304 X 32* a304 x 304 X 643HWX2x2/2304 x 304 x 64- >152 K 152 X 644conv12B3x3/1152 x 152 x 64- =*152 x 152 x 128Loading weights from yolo. weights. L Done! data.,'dog. jpg; Predicted in 0. 350000 seconds.dog 82% t ruck: 65% bicyels: 85%上圖顯示檢測(cè)過程在0.35秒完成,這是安裝完顯
30、卡驅(qū)動(dòng)后運(yùn)行的結(jié)果,在安裝顯卡驅(qū)動(dòng)前,使用CPU!展圖像檢測(cè),花費(fèi)時(shí)間大約為 8秒。命令執(zhí)行完成后, 將會(huì)把識(shí)別結(jié)果生成到predictions.jpg,打開圖片如如如下圖所示:pr*dio:fievis.jpgi國(guó),象:I邳評(píng)I去專小 達(dá)利c.暗t(卜閃光打:nf)工與不陶 1.4隼E帶,丐4弄同語.苦2常戰(zhàn)&9t 5prtdktmib jpgM :安光"和;元獨(dú)棚文忖大小t:44 4K<1jt ft* 四、訓(xùn)練環(huán)境安裝sudo yum install opencv2 .安裝顯卡驅(qū)動(dòng)與其開發(fā)工具包 CUDA安裝CUDM、須要有一個(gè)Nvidia的顯卡,本機(jī)的顯卡是GTX
31、 860M CUDAF載網(wǎng)址為:s:/developer.nvidia./cuda-down10ads官方還提供了 CUD取裝過程所需的pdf文檔,仔細(xì)閱讀并按照其步驟安裝即可。此次安裝使用runfile 安裝。首先檢測(cè)本機(jī)是否有Nvidia顯卡,執(zhí)行以下命令:Ispci | grep -i nvidia有任何輸出說明本機(jī)有 Nvidia顯卡,本機(jī)輸出結(jié)果如下:01:00.0 3D controller: NVIDIA Corporation GM107M GeForce GTX 860M (rev a2)接下來查看系統(tǒng)核版本:uname -m && cat /etc/*rel
32、ease該命令會(huì)顯示系統(tǒng)架構(gòu)以與核版本信息,本機(jī)主要的輸出信息如下:x86_64CentOS Linux release 7.3.1611 (Core)確認(rèn)編譯器gcc已經(jīng)安裝,該命令會(huì)打印gcc的版本,如果提示找不到命令如此 說明沒有安裝gcc:gcc -version安裝Kernel-header和kernel-devel ,這兩個(gè)包的版本需要和本機(jī)的核版本一 致,安裝命令如下:sudo yum install kernel-devel-$(uname -r) kernel-headers-$(uname -r)開始安裝cuda,本次實(shí)驗(yàn)使用的是runfile 安裝。Nouveau是一個(gè)開
33、源的3D驅(qū) 動(dòng),安裝Nvidia驅(qū)動(dòng)之前需要先將其關(guān)閉。首先要把 Nouveau參加黑,創(chuàng)建文 件并寫入以下容:blacklist nouveauoptions nouveau modeset=0重新生成核initramfssudo dracut -force重新啟動(dòng)計(jì)算機(jī),在進(jìn)入登錄界面時(shí),不要登錄,按下ALT+F2進(jìn)入命令提示符模式,使用root用戶登錄,然后使用init 3命令進(jìn)入多用戶模式開始安裝Naidia驅(qū)動(dòng)。執(zhí)行以下命令開始安裝 CUDA安裝過程會(huì)提示是否安裝CUDAE具箱、CUDAU子等,此次試驗(yàn)中選擇安裝 最后將cuda參加到環(huán)境變量中、重啟,即完成安裝。將 cude參加到環(huán)
34、境變量:export PATH=/usr/local/cuda-8.0/bin$PATH:+:$PATHexport LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64$LD_LIBRARY_PATH:+:$LD_LIBRARY_PATH3 .安裝完成OpenCq口 CUDA,需要修改YOLO勺Makefile文件并重新編譯。打 開 Makefile 文件,將 OPENCV=0fc為 OPENCV=1 將 GPU=0fc為 GPU=1 并執(zhí)行 make命令重新編譯。第三章YOLO算法原理3.1 YOLO算法簡(jiǎn)介基于深度學(xué)習(xí)方法的一個(gè)特點(diǎn)就是實(shí)現(xiàn)端到端的檢測(cè)。相對(duì)
35、于其它目標(biāo)檢測(cè) 與識(shí)別方法比如Fast R-N將目標(biāo)識(shí)別任務(wù)分類目標(biāo)區(qū)域預(yù)測(cè)和類別預(yù)測(cè)等 多個(gè)流程,YOLO等目標(biāo)區(qū)域預(yù)測(cè)和目標(biāo)類別預(yù)測(cè)整合于單個(gè)神經(jīng)網(wǎng)絡(luò)模型中, 實(shí)現(xiàn)在準(zhǔn)確率較高的情況下快速目標(biāo)檢測(cè)與識(shí)別,更加適合現(xiàn)場(chǎng)應(yīng)用環(huán)境。YOLO為一種新的目標(biāo)檢測(cè)方法,該方法的特點(diǎn)是實(shí)現(xiàn)快速檢測(cè)的同時(shí)還達(dá) 到較高的準(zhǔn)確率。作者將目標(biāo)檢測(cè)任務(wù)看作目標(biāo)區(qū)域預(yù)測(cè)和類別預(yù)測(cè)的回歸問 題。該方法采用單個(gè)神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)物品邊界和類別概率,實(shí)現(xiàn)端到端的物品檢測(cè)。同時(shí),該方法檢測(cè)速非???,根底版可以達(dá)到45幀/s的實(shí)時(shí)檢測(cè);FastYOLO 可以達(dá)到155幀/s。與當(dāng)前最好系統(tǒng)相比,YOLO目標(biāo)區(qū)域定位誤差更大,但
36、是 背景預(yù)測(cè)的假陽性優(yōu)于當(dāng)前最好的方法。人類視覺系統(tǒng)快速且精準(zhǔn),只需看一眼即可識(shí)別圖像中物品與其位置。傳統(tǒng)目標(biāo)檢測(cè)系統(tǒng)采用 deformable parts models (DPM) 方法,通過滑動(dòng)框 方法提出目標(biāo)區(qū)域,然后采用分類器來實(shí)現(xiàn)識(shí)別。近期的R-N類方法采用region proposal methods ,首先生成潛在的bounding boxes ,然后采用分類器識(shí)別這 些 bounding boxes 區(qū)域。最后通過 post-processing 來去除重復(fù) bounding boxes 來進(jìn)展優(yōu)化。這類方法流程復(fù)雜,存在速度慢和訓(xùn)練困難的問題。而YOLOJ法將目標(biāo)檢測(cè)問題轉(zhuǎn)換
37、為直接從圖像中提取bounding boxes和類別概率的單個(gè)回歸問題,只需一眼即可檢測(cè)目標(biāo)類別和位置。3.2 YOLO方法特點(diǎn)YOLOS用單個(gè)卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)多個(gè) bounding boxes和類別概率,如如下圖:L Rwize rrzgo2. t iir> £BnfvoluHDrcl nehworl.3. Nwuna* suppmscn.本方法相對(duì)于傳統(tǒng)方法有如下優(yōu)點(diǎn):(1) 速度非常快。YOLO8測(cè)流程簡(jiǎn)單,速度很快。根底版在 Titan X GPU 上可以達(dá)到45幀/s ;快速版可以達(dá)到150幀/s。因此,YOLOT以實(shí)現(xiàn)實(shí)時(shí)檢測(cè)。(2) YOLO采用全圖信息來進(jìn)展預(yù)
38、測(cè)。與滑動(dòng)窗口方法和region proposal-based方法不同,YOLOS訓(xùn)練和預(yù)測(cè)過程中可以利用全圖信息。 Fast R-N檢測(cè)方法會(huì)錯(cuò)誤的將背景中的斑塊檢測(cè)為目標(biāo),原因在于 Fast R-N在檢測(cè) 中無法看到全局圖像。相對(duì)于 Fast R-N , YOLOT景預(yù)測(cè)錯(cuò)誤率低一半。(3) YOLOT以學(xué)習(xí)到目標(biāo)的概括信息,具有一定普適性。采用自然圖片訓(xùn) 練YOLO采用藝術(shù)圖像來預(yù)測(cè)。YOLQ匕其它目標(biāo)才測(cè)方法DPMf口 R-N準(zhǔn)確率 局很多。本方法有如下缺點(diǎn):(1) YOLO對(duì)相互靠的很近的物體,還有很小的群體 檢測(cè)效果不好,這是 因?yàn)橐粋€(gè)網(wǎng)格中只預(yù)測(cè)了兩個(gè)框,并且只屬于一類。(2)對(duì)
39、測(cè)試圖像中,同一類物體出現(xiàn)的新的不常見的長(zhǎng)寬比和其他情況是。 泛化能力偏弱。(3)由于損失函數(shù)的問題,定位誤差是影響檢測(cè)效果的主要原因。尤其是 大小物體的處理上,還有待加強(qiáng)。3.3 YOLO的核心思想和實(shí)現(xiàn)方法1 .YOLO的核心思想YOLO的核心思想就是利用整圖作為網(wǎng)絡(luò)的輸入,直接在輸出層回歸boundingbox的位置和bounding box所屬的類別。2 .YOLO的實(shí)現(xiàn)方法YOLO勺實(shí)現(xiàn)過程圖解和方法如下:Rfiizt Th* Ima9fAnd 9的港小號(hào)附/*3x4*3Divide Th* I ma 940 7 h 7 -5 dtPecMH 附 gcd cells bm«
40、d cm lh#ir cvrvrsTroin Th* NM,rkT« pr*dl iHf g&l / ckiis 野心獨(dú)" anrd bogdlaq box co ordinale-s.(1)將一幅圖像分成SxS個(gè)網(wǎng)格(grid cell),如果某個(gè)目標(biāo)的中心落在這個(gè)網(wǎng)格中,如此這個(gè)網(wǎng)格就負(fù)責(zé)預(yù)測(cè)這個(gè)目標(biāo)。(2)每個(gè)網(wǎng)格要預(yù)測(cè) B個(gè)bounding box ,每個(gè)bounding box 除了要回歸自身 的位置之外,還要附帶預(yù)測(cè)一個(gè)confidence值,這個(gè)confidence代表了所預(yù)測(cè) 的box中含有目標(biāo)的置信度和這個(gè)box預(yù)測(cè)的有多準(zhǔn)兩重信息,其值是這樣計(jì)算
41、 的:Pr (目標(biāo))IOU putd其中如果有目標(biāo)落在一個(gè)grid cell里,第一項(xiàng)取1,否如此取0第二項(xiàng)是預(yù)測(cè)的bounding box和實(shí)際的groundtruth 之間的IOU值(3)每個(gè)bounding box要預(yù)測(cè)(x, y, w, h) 和confidence 共5個(gè)值,每個(gè)網(wǎng) 格還要預(yù)測(cè)一個(gè)類別信息,記為 C類。如此SxS個(gè)網(wǎng)格,每個(gè)網(wǎng)格要預(yù)測(cè) B個(gè) bounding box ,還要預(yù)測(cè) C 個(gè) categories 。輸出就是 S x S x (5*B+C) 的一個(gè) tensor 。注意:class信息是針對(duì)每個(gè)網(wǎng)格的,confidence信息是針對(duì)每個(gè)bounding bo
42、x 的。舉例說明:在PASCAL VOC,圖像輸入為448x448,取S=7, B=2, 一共有 20個(gè)類別(C=20)。如此輸出就是 7x7x30的一個(gè)tensor。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如如如下圖所示:Con*. Loy er 711d $命2 Mompoo) Loyir 2gMConr*. Layer Cmw.3x3K35ti2x221x1k25«3x3k5I2Max p4ol1 Lay r 溫+2Come Layers Cqfi*. 1口T/4 Cmia. Layer Coinn. Layer d12 Iq 3x10243k3k11024 J '3«3xl0243
43、171;3x 110243<3xlOT!r2Canrv. Lasers I*12&d IX4 3x3k513 J 1x1x512 31024Mgpgl leyvf 2x24-20x,EMb(4)在測(cè)試的時(shí)候,每個(gè)網(wǎng)格預(yù)測(cè)的class信息和bounding box 預(yù)測(cè)的confidence 信息相乘,就得至U每個(gè) bounding box 的 class-specific confidence score:Pr(class| object) Pr(object) IOU 器d Pr(class) IOU 黑;等式左邊第一項(xiàng)就是每個(gè)網(wǎng)格預(yù)測(cè)的類別信息,第二三項(xiàng)就是每個(gè) boundi
44、ng box預(yù)測(cè)的confidence 。這個(gè)乘積即encode 了預(yù)測(cè)的box屬于某一類 的概率,也有該box準(zhǔn)確度的信息。(5)彳馬至U每個(gè) box的class-specific confidence score 以后,設(shè)置閾值,濾 掉得分低的boxes,對(duì)保存的boxes進(jìn)展NMSi理,就得到最終的檢測(cè)結(jié)果。3 .4 YOLO的實(shí)現(xiàn)細(xì)節(jié)1 .預(yù)訓(xùn)練:使用imageNet預(yù)訓(xùn)練,網(wǎng)絡(luò)結(jié)構(gòu)是前20層網(wǎng)絡(luò)加上一個(gè)平均池化層和一個(gè) 全連接層。2 .預(yù)測(cè):由于預(yù)測(cè)需要更加精細(xì)的像素,所以把輸入擴(kuò)展成 448*448,并且增加了四 個(gè)卷積層和兩個(gè)全連接層。在最后一層預(yù)測(cè)中,需要預(yù)測(cè)概率和 bound
45、ing box, 這里把bounding box的預(yù)測(cè)歸一化成0到1。3 .激活函數(shù):最后一層的激活函數(shù)使用線性激活函數(shù),而其他層使用leaky ReLU的激活函數(shù):/ fx, if x >0嫉(£)= .I O.lx', otherwise4 .誤差傳播:誤差的計(jì)算采用簡(jiǎn)單的平方和誤差函數(shù)。但是,從網(wǎng)絡(luò)結(jié)構(gòu)可以知道,預(yù)測(cè) 概率的維數(shù)比預(yù)測(cè)bounding box的維數(shù)要高,而且,在圖片多的格子是沒有物 體的,這會(huì)使得它們的confidence趨于0。它們的貢獻(xiàn)過大,會(huì)使得網(wǎng)絡(luò)無法 收斂。我們采用的一個(gè)方法就是加權(quán),賦予不同的權(quán)值,對(duì)于預(yù)測(cè) bounding box 的
46、,而對(duì)于沒有目標(biāo)物體的格子的誤差賦予權(quán)值。 同時(shí),對(duì)于大的box的小誤差 肯定要比小box的小誤差影響更小,于是,采用對(duì)w,h,x,y取平方根的做法,因 為平方根函數(shù)的圖像隨著x的增大會(huì)變得平緩。此外,一個(gè)網(wǎng)格可能會(huì)預(yù)測(cè)多個(gè) box,希望每個(gè)box負(fù)責(zé)專門的目標(biāo)物體的 預(yù)測(cè)。方法是,對(duì)于一個(gè)物體的 truth box ,看哪個(gè)bounding box的IOU更大, 就讓它負(fù)責(zé)這個(gè)box。公式為:S2 B工 ££噂 -&產(chǎn)+(的-認(rèn)產(chǎn)i = 0 j=0<j2 臼+ 小皿 £ 52 '獸(A7 -十(vii = o j=o L'+
47、63;元瑤(a-亡)”1 =<) j =IJ(c Y)1=0J=+ 52 1丁 E (Pi(c) - p. (e)2t=0丘。1泯£收n叫其中,/對(duì)應(yīng)格子i如果有物體,那相應(yīng)的bounding box j負(fù)責(zé)這個(gè)物體的預(yù)測(cè)。I叫表示格子i中是否有物體5.訓(xùn)練方法:使用隨機(jī)梯度下降法,以與dropout的方法。3.4 YOLO的倉I新YOLO#物體檢測(cè)作為回歸問題求解。基于一個(gè)單獨(dú)的端到端網(wǎng)絡(luò),完成從原始圖像的輸入到物體位置和類別的輸出。從網(wǎng)絡(luò)設(shè)計(jì)上,YOLOf RN Fast RN與Faster RN的區(qū)別如下:(1) YOLO訓(xùn)練和檢測(cè)均是在一個(gè)單獨(dú)網(wǎng)絡(luò)中進(jìn)展。YOLOS有顯
48、示地求取region proposal的過程。而RN/Fast RN采用別離的模塊獨(dú)立于網(wǎng)絡(luò)之外的selective search 方法求取候選框可能會(huì)包含物體的矩形區(qū)域,訓(xùn)練過 程因此也是分成多個(gè)模塊進(jìn)展。 Faster RNfJ用RPNC region proposal network 卷積網(wǎng)絡(luò)替代 RN/Fast RNN的selective search 模塊,將 RPN1成到Fast RN 檢測(cè)網(wǎng)絡(luò)中,得到一個(gè)統(tǒng)一的檢測(cè)網(wǎng)絡(luò)。盡管RPNf Fast RNft享卷積層,但是在模型訓(xùn)練過程中,需要反復(fù)訓(xùn)練 RPN網(wǎng)絡(luò)和Fast RN網(wǎng)絡(luò)。(2) YOLO將物體檢測(cè)作為一個(gè)回歸問題進(jìn)展求解,
49、輸入圖像經(jīng)過一次 inference ,便能得到圖像中所有物體的位置和其所屬類別與相應(yīng)的置信概率。 而RN/Fast RN/Faster RNA等檢測(cè)結(jié)果分為兩局部求解:物體類別分類問題 物體位置即bounding box回歸問題。RCNNFast RCNNFaster RCNNYOLOregion proposal module region proposal moduleRPNfeature extractionnetworkclssifer locatordetection networkfeature extractionc lassficationregres 5 ionYOLO n
50、etworkFast RCNNI第四章 訓(xùn)練數(shù)據(jù)采集與制作準(zhǔn)備需要訓(xùn)練的圖片:本次實(shí)驗(yàn)訓(xùn)練的是水果的識(shí)別,種類一共5種,分別是 WaterMelon、StrawBerry、Orange、Pineapple、Apple,每種水果圖片約 30-40,總共有 171 圖片。圖片全部從百度圖片中下載,圖片分辨率一般在400*300像素左右。將圖片按照按照5位數(shù)字從00000遞增開始命名,并將其全部放到一個(gè)文件夾中。區(qū)MO叫段OMMZjpg000000009, pg OQOlOjpg.OOOUJpg , 0001gjpg00016.jpg00017.jpg00018 jpg00030.jpgUlO13.
51、jpgOOOKJpg1)0007 J3g00024jpg OOkb,pg000 此jpg00C2J.jpg00032,jpgOOT3 3,jpg 0OT34jpgOOC35,jpg50036.jpg0G017jpgUJU.jzgOX13S.jpgonoMj 陽DOfl33,jpg4.2訓(xùn)練數(shù)據(jù)的制作1 .下載并編譯安裝Labellmg ,使用這個(gè)軟件給171水果圖片標(biāo)記對(duì)象位置和名 稱。2 .標(biāo)記完成后,Labellmg將會(huì)生成一個(gè)記錄了對(duì)象名稱和位置的xml文件,每圖片對(duì)應(yīng)一個(gè)xml文件,xml文件容如下。000£9xmLpannotation verified="no&
52、quot;>、t:.Lr>jr-Dstlinage/" Io dwi >仁 f 二 L -h >9 30 69 7 卜 11 eriame*-p:.Une/rnyd1/DstInage/®0C89 J 同wll<souirce>1 <-.<lnlknHDW' dill .iL.l 廠產(chǎn)</sDurce>dt n>400<.ug ig,t >308/heigb:<dcpt,>3。d ept h></slz0cstijrr grig :10</b 電 gri t
53、gd><objei:t>* n«ik 蛔g力日Ii. llspocifiiKl- 】<t runca tedlB/t runcsited<diffieultrfiGult><br JbDx>士 rin >5 </xm hi yr in -'31<- 7niin'-ptir 3, 114fcl口加白 ,yira>-'187a , 引出& -</bnaoox></obj ect><object>wax a melon-; r sm c :-pc st
54、 -UnspeGif.iQ<l< pc-5Q=-< t rurEdte-rt nunc at ed>< dttricjLt>9</d±tTlcult< br dbo)(>* <irinXML 胡麻符直腐;8 -3.按照VOO據(jù)集的格式創(chuàng)建一下文件夾結(jié)構(gòu)。darknet項(xiàng)目目錄I-cfg配置文件存放目錄src項(xiàng)目源代碼VOCdevkitVOC 數(shù)據(jù)集目錄VOC2017數(shù)據(jù)標(biāo)記年份Annitations存放xml標(biāo)記文件00000.xmlxml標(biāo)記文件00001.xmlxml標(biāo)記文件00171.xmlxml標(biāo)記文件ImageSets圖片相關(guān)信息Main文件位置信息train.txt保存了全部圖片位置的文件JPEGImages需要訓(xùn)練的圖片00000.jpg水果圖片00001.jpg水果圖片00171.jpg水果圖片labels labels文件00000.txtlabels文件00001.txtlabels文件00170.txtlabels文件4.YOLO不能識(shí)別xml文件,需要將其轉(zhuǎn)化成其識(shí)別
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 北師大版道德與法治七年級(jí)下冊(cè)10.2《積極面對(duì)競(jìng)爭(zhēng)》聽課評(píng)課記錄
- 粵人版地理七年級(jí)下冊(cè)《第一節(jié) 非洲概述》聽課評(píng)課記錄
- 2025年天文測(cè)量?jī)x器合作協(xié)議書
- 加盟合作框架協(xié)議書范本
- 臨時(shí)棄土場(chǎng)土地租用協(xié)議書范本
- 2025年度網(wǎng)紅蛋糕店品牌授權(quán)轉(zhuǎn)讓合同
- 二零二五年度離婚協(xié)議書涉及子女醫(yī)療費(fèi)用承擔(dān)合同
- 2025年度農(nóng)業(yè)旅游租賃田地合同
- 2025年度期刊訂閱用戶信息保護(hù)合同
- 2025年度砍伐合同范文:林業(yè)砍伐與林業(yè)資源整合合作協(xié)議
- 四川省綿陽市2025屆高三第二次診斷性考試思想政治試題(含答案)
- 2024-2025學(xué)年遼寧省沈陽市沈河區(qū)七年級(jí)(上)期末英語試卷(含答案)
- 2024-2025學(xué)年初中七年級(jí)上學(xué)期數(shù)學(xué)期末綜合卷(人教版)含答案
- 體育活動(dòng)策劃與組織課件
- 公司違規(guī)違紀(jì)連帶處罰制度模版(2篇)
- 2025屆高考物理二輪總復(fù)習(xí)第一編專題2能量與動(dòng)量第1講動(dòng)能定理機(jī)械能守恒定律功能關(guān)系的應(yīng)用課件
- T型引流管常見并發(fā)癥的預(yù)防及處理
- 2024-2025學(xué)年人教新版九年級(jí)(上)化學(xué)寒假作業(yè)(九)
- 內(nèi)業(yè)資料承包合同個(gè)人與公司的承包合同
- 【履職清單】2024版安全生產(chǎn)責(zé)任體系重點(diǎn)崗位履職清單
- 2022年全國(guó)醫(yī)學(xué)博士英語統(tǒng)一考試試題
評(píng)論
0/150
提交評(píng)論