基于YOLO模型圖像識(shí)別研究綜述_第1頁
基于YOLO模型圖像識(shí)別研究綜述_第2頁
基于YOLO模型圖像識(shí)別研究綜述_第3頁
基于YOLO模型圖像識(shí)別研究綜述_第4頁
基于YOLO模型圖像識(shí)別研究綜述_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本文格式為Word版,下載可任意編輯——基于YOLO模型圖像識(shí)別研究綜述

近年來,隨著計(jì)算機(jī)技術(shù)的進(jìn)展,圖像識(shí)別技術(shù)在各個(gè)領(lǐng)域都有了廣泛的應(yīng)用。同時(shí),圖像識(shí)別技術(shù)也在不斷地優(yōu)化,其在人們的日常生活中發(fā)揮著越來越重要的作用。本文主要綜述了YOLO模型在圖像識(shí)別技術(shù)上的研究現(xiàn)狀。

圖像識(shí)別YOLO模型

1引言

隨著互聯(lián)網(wǎng)技術(shù)的不斷向前進(jìn)展,人們可以更加便捷地通過個(gè)人終端接入互聯(lián)網(wǎng),通過移動(dòng)終端帶有的攝像頭,隨時(shí)隨地對(duì)物體舉行拍照,利用互聯(lián)網(wǎng)舉行共享。由于圖像本身的特點(diǎn),圖像比傳統(tǒng)文字更加生動(dòng)形象地傳達(dá)了信息,使人們更輕易理解,被人們廣泛使用。圖像數(shù)據(jù)的數(shù)據(jù)量特別巨大,不僅包含著對(duì)人們有用的有效信息,還包含著無用的無效信息。作為機(jī)器視覺的一個(gè)重要領(lǐng)域,圖像識(shí)別不斷得志人們?nèi)找嬖鲩L的美好生活需要,如何快速和高效地處理圖像信息有力地推動(dòng)了圖像識(shí)別技術(shù)的不斷進(jìn)展。近年來,人工智能和機(jī)器學(xué)習(xí)變得越來越熟諳起來,進(jìn)入了普遍群眾的視野,極大地促進(jìn)了圖像識(shí)別技術(shù)的進(jìn)展。機(jī)器識(shí)別中的機(jī)器視覺是通過模擬人類大腦[1],運(yùn)用機(jī)器來獲取圖像,然后對(duì)圖像舉行一系列處理,經(jīng)過抽象、傳遞和反復(fù)迭代,最終達(dá)成識(shí)別相關(guān)物體的目的,最終讓機(jī)器能夠像人一樣識(shí)別和處理圖像信息。YOLO算法大幅提高了圖像識(shí)別的識(shí)別速度和識(shí)別切實(shí)率,具有良好的經(jīng)濟(jì)效益,有很高的研究價(jià)值。

2.國內(nèi)外研究現(xiàn)狀

圖像識(shí)別技術(shù)進(jìn)展至今,一共體驗(yàn)了三個(gè)階段。①文字識(shí)別階段;②圖像處理與識(shí)別階段;③物體識(shí)別階段。目前,圖像識(shí)別領(lǐng)域的重點(diǎn)研究方向是物體識(shí)別中的分類識(shí)別,目前已經(jīng)廣泛應(yīng)用于安防領(lǐng)域、交通領(lǐng)域以及互聯(lián)網(wǎng)領(lǐng)域,物體分類識(shí)別主要以特征學(xué)習(xí)為主。

2022年,RedmonJ等[2]提出了YOLO算法。利用YOLO算法對(duì)圖像中的目標(biāo)舉行特征提取分類識(shí)別,可以實(shí)現(xiàn)圖像特征提取和分類識(shí)別的自動(dòng)化,摒棄了傳統(tǒng)圖像識(shí)別過程中依靠手工標(biāo)注圖像特征的方法,其網(wǎng)絡(luò)布局是在GoogleNet模型之上建立的。YOLO檢測框架把目標(biāo)檢測問題當(dāng)成一個(gè)回歸問題,通過劃分網(wǎng)格來舉行回歸目標(biāo)的位置和類別。YOLO將圖片舉行7×7的劃分,然后通過卷積神經(jīng)網(wǎng)絡(luò)也產(chǎn)生這樣的7×7的輸出,7×7中的每一個(gè)輸出都去預(yù)料中心點(diǎn)落在這個(gè)網(wǎng)格上的目標(biāo),預(yù)料的目標(biāo)參數(shù)包括目標(biāo)的類別和目標(biāo)框的位置。YOLO算法主要通過三步實(shí)現(xiàn),首先,將輸入圖像軟寸歸一化;其次,卷積網(wǎng)絡(luò)特征提取,預(yù)料邊界框置信度;結(jié)果,通過非極大值抑制算法過濾邊界框,得到最優(yōu)結(jié)果。與FasterR-CNN算法相比,采用這種統(tǒng)一模型,實(shí)現(xiàn)了端對(duì)端的訓(xùn)練和預(yù)測,其檢測速度更快,背景誤判率低,泛化才能和魯棒性較好。但由于每個(gè)單元格僅對(duì)同一組類別舉行邊界框預(yù)料,這使得YOLO算法的定位切實(shí)率受到影響。由于YOLO劃分網(wǎng)格的方式,使得對(duì)于對(duì)比密集的目標(biāo)無法得到足夠的候選網(wǎng)格來對(duì)目標(biāo)舉行預(yù)料,造成過多的漏檢。YOLO對(duì)于小目標(biāo)也檢測的不好,主要是網(wǎng)格劃分的對(duì)比粗糙,對(duì)于小目標(biāo)的特征無法得到很好的留存。這些理由都造成YOLO檢測精度偏低。之后,再次提出了YOLOv2,在VOC2022測試集上舉行測試后,mAP由原來的67.4%提高到了76.8%。v2相對(duì)之前的v1版本,在持續(xù)保持處理速度的根基上,在預(yù)料更切實(shí)尺,速度更快尺,識(shí)別對(duì)象更多這三個(gè)方面做了提升尺。

YOLO9000[3]是YOLOv2的一個(gè)延遲,它在YOLOv2的根基上做了如下提升,使檢測精度得到大幅提升:(1)YOLOv2使用了自己設(shè)計(jì)的一個(gè)根基網(wǎng)絡(luò),該網(wǎng)絡(luò)在設(shè)計(jì)上考慮了卷積的計(jì)算量,使得YOLOv2速度對(duì)比快。在YOLO9000中,在根基網(wǎng)絡(luò)上增加了批量歸一化,來使網(wǎng)絡(luò)收斂的更快。(2)在檢測時(shí)使用比分類更高辨識(shí)率的圖片,在訓(xùn)練檢測網(wǎng)絡(luò)之前,對(duì)預(yù)訓(xùn)練的分類器在高辨識(shí)率的圖片上舉行一次微調(diào),使網(wǎng)絡(luò)提前適應(yīng)檢測圖片的辨識(shí)率,這也使得分類網(wǎng)絡(luò)的精度得到確定的提升,得到更好的分類器。(3)使用卷積來替代YOLOv2的全連接舉行回歸目標(biāo)的參數(shù)。(4)在回歸目標(biāo)寬高的時(shí)候,使用多尺度的基準(zhǔn)框來對(duì)舉行匹配訓(xùn)練,減小檢測的定位誤差。(5)檢測不僅需要對(duì)目標(biāo)舉行分類,還要對(duì)目標(biāo)舉行定位,分類需要高層的語義特征,而定位要圖片的細(xì)節(jié)信息,在該方法中使用跨層的特征融合得到多尺度的特征,得到的卷積特征可以很好的適用于檢測。2022年4月,再次提出了YOLOv3算法,與YOLO9000算法相比,該算法采用殘差網(wǎng)絡(luò)模型Darknet53舉行特征提取,并且利用特征金字塔網(wǎng)絡(luò)實(shí)現(xiàn)多尺度檢測。同時(shí),通過分析數(shù)據(jù)集中目標(biāo)的分布處境,修正anchorbox,使得anchorbox更加符合目標(biāo)尺寸,鞏固了收斂效果。在PascalVOC數(shù)據(jù)集上的測驗(yàn)說明,在不影響檢測速度的處境下,YOLOv3切實(shí)率提高了1個(gè)百分點(diǎn)左右,且收斂速度變快,這使YOLOv3的目標(biāo)檢測才能進(jìn)一步提升。

3結(jié)論

通過YOLO算法系列的提升可以看出:通過不斷優(yōu)化算法,可以使YOLO算法的檢測速度達(dá)成實(shí)時(shí)分析的要求[4],得志人們對(duì)高效率、高精度目標(biāo)識(shí)別技術(shù)的需要。鑒于圖像識(shí)別技術(shù)的快速進(jìn)展,YOLO等目標(biāo)檢測算法擁有無比廣闊的進(jìn)展空間,推動(dòng)圖像識(shí)別技術(shù)不斷向前進(jìn)展。由于YOLOv3算法良好的檢測性能與檢測精度,其具有比其他版本更廣泛的應(yīng)用意義。

[1]高浩宇.基于機(jī)器學(xué)習(xí)的圖像識(shí)別研究與應(yīng)用[D].華中師范大學(xué),2022.

[2]RedmonJ,DivvalaS,GirshickR,etal.YouOnlyLookOnce:Unified,Real-TimeObjectDetection[C].2022IEEEConferenceonComputerVisionandPatternRecognition(CVPR),LasVegas

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論