大熊貓識別技術規(guī)范_第1頁
大熊貓識別技術規(guī)范_第2頁
大熊貓識別技術規(guī)范_第3頁
大熊貓識別技術規(guī)范_第4頁
大熊貓識別技術規(guī)范_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大熊貓識別技術規(guī)范范圍本文件規(guī)定了大熊貓個體識別有關術語定義、數據采集、數據分析等。本文件適用于基于圖像和音頻的大熊貓個體識別。規(guī)范性引用文件下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。CJJ/T263-2017動物園動物管理技術規(guī)程GB/T26238-2010信息技術生物特征識別術語術語、定義和縮略語術語和定義下列術語和定義適用于本文件。生物特征識別 biometrics基于動物個體的行為特征和生物學特征,對個體進行的識別。目標檢測 objectdetection從圖像中找出目標的位置坐標,一般用矩形框框出目標,并對該目標進行分類。特征提取 featureextraction使用計算機提取大熊貓圖像中屬于特征性的特征序列的方法及過程。特征比對 featurematching計算兩個特征向量之間的相似度。特征比對包括1:1比對驗證和1:N比對識別兩種方式。相似度 similarity衡量兩個特征的相似程度,數值越大說明它們越相似。閾值threshold做出判定所依據的邊界值或值集。錯誤接受率 falseacceptrate在驗證過程中,將新個體識別為數據庫中個體的比率,用百分比表示。錯誤接受率也稱認假率。錯誤拒絕率 falserejectrate在驗證過程中,將數據庫中個體識別錯誤的比率,用百分比表示。錯誤拒絕率也稱拒真率。殘差網絡residualnetwork殘差網絡其內部的殘差塊使用了跳躍連接,緩解了在深度神經網絡中增加深度帶來的梯度消失問題。 聲紋voiceprint聲紋是各種常見聲學特征圖譜的集合,是指通過專門的電聲轉換儀器(聲譜儀、語圖儀等)將聲音繪制成波普圖形。聲紋識別voiceprintrecognition聲紋識別常稱為說話人識別,該技術主要通過提取不同發(fā)聲者語音中的特征參數,經過模型訓練和得分計算等過程,進行語音區(qū)分和個體識別。Mel頻率倒譜系數Mel-FrequencyCepstralCoefficientsMel頻率倒譜系數是把人耳的聽覺感知特性和語音的產生機理結合起來提取的聲紋特征??焖俑道锶~變換fastfouriertransform利用計算機計算離散傅里葉變換(DFT)的高效、快速計算方法的統(tǒng)稱。卷積神經網絡convolutionalneuralnetworks以卷積計算為主的深度神經網絡,通常包含卷積層、批歸一化層、激活層、池化層、全連接層、損失函數層等基礎結構。長短期記憶longshort-termmemory長短期記憶網絡是一種特殊的循環(huán)神經網絡模型,其特殊的結構設計使得它可以避免長期依賴問題,記住很早時刻的信息是LSTM的默認行為,而不需補充專門為此付出很大代價。精準率precision精準率是指分類正確的正樣本個數占分類器判定為正樣本的個數的比例。交并比IntersectionoverUnion交并比是產生的候選框與原標記框的交集與并集的比值??s略語下列縮略語適用于本文件。MFCC:Mel頻率倒譜系數(Mel-FrequencyCepstralCoefficients)FFT:快速傅里葉變換(fastfouriertransform)CNN:卷積神經網絡(convolutionalneuralnetworks)LSTM:長短期記憶(longshort-termmemory)IOU:交并比(IntersectionoverUnion)數據采集大熊貓圖像采集大熊貓圖像采集流程大熊貓圖像數據采集流程如下:通過調取某一區(qū)域對應大熊貓的監(jiān)控視頻或者野外紅外相機視頻數據,將含有大熊貓的片段挑選出來,并確認視頻片段中每一只大熊貓的身份信息,將挑選的視頻片段與大熊貓身份信息一同記錄完成視頻數據采集,然后通過視頻拆幀的形式將視頻轉化成圖像數據;借助野外紅外相機或者人工拍照設備,對大熊貓個體進行多方位拍攝,將拍攝到的圖片與大熊貓身份信息一同記錄完成圖像數據采集工作。大熊貓全身圖像采集大熊貓全身圖像的采集需滿足以下要求:大熊貓全身圖像光線自然,無過度曝光,清晰完整;拍攝的畫面里只有一只目標大熊貓;需對大熊貓進行多角度、多方位拍攝,確保每一只大熊貓的正面姿態(tài)、側面姿態(tài)、背面姿態(tài)至少有一張圖像和一段視頻;大熊貓全身圖像的分辨率不低于QUOTE1080×7201080×720像素。大熊貓臉部圖像采集大熊貓臉部圖像的采集需滿足以下要求:大熊貓正臉圖像光照均勻,無過度曝光,清晰完整;大熊貓正臉在水平面方向和垂直面方向上的旋轉角度±10°;大熊貓兩眼、耳朵、鼻子、嘴清晰可見,重點拍攝睜眼閉眼、張嘴閉嘴等部位姿態(tài),;在不影響關鍵部位的情況下,允許存在10%QUOTE10%—20%的遮擋;大熊貓臉部圖像的分辨率不低于QUOTE256×256256×256像素。大熊貓個體圖像檔案庫建立流程當接收到大熊貓圖像數據時,應讓專業(yè)工作人員對圖像數據進行標注,確定每一張圖像中大熊貓的具體身份,然后根據工作人員的標注創(chuàng)建多個文件夾,每一個文件夾對應著圖像數據中的每一只大熊貓,并以對應的該只大熊貓的身份信息命名(例:譜系號_個體名),把對應的圖像數據存入文件夾中,最后將圖像數據的大熊貓身份信息與相應的圖像數據存儲位置記錄在Excel表格中。大熊貓個體圖像檔案庫建立流程需滿足以下要求:每個文件夾中的圖像數據應屬于同一只大熊貓,且圖片之間應保證唯一,無重復;每個文件夾應保證唯一,無重復;Excel表格中的每條記錄應保證唯一且準確。大熊貓聲音采集4.2.1大熊貓聲音采集流程大熊貓聲音采集需滿足以下要求:采樣頻率為44.1kHz,量化精度為16位;所錄制的音頻中包含目標大熊貓的聲音;確保每一只大熊貓至少含有一段音頻。4.2.2大熊貓音頻整理收集到的音頻文件過大,為了便于網絡模型訓練,需補充將原始文件手動裁剪成時長在規(guī)定范圍內的音頻片段。大熊貓音頻整理需滿足以下要求:裁剪后的音頻片段應在1秒—2秒之中;裁剪后的音頻應保持叫聲清晰、波形完整;裁剪后的音頻應保證有且僅包含單個大熊貓的叫聲。4.2.3大熊貓個體音頻檔案庫建立流程當接收到大熊貓音頻數據時,應讓專業(yè)工作人員對音頻數據進行標注,確定每一段音頻中大熊貓的具體身份,然后根據工作人員的標注創(chuàng)建多個文件夾,每一個文件夾對應著音頻數據中的每一只大熊貓,并以對應的該只大熊貓的身份信息命名(例:譜系號_個體名),把對應的音頻數據存入文件夾中,最后將音頻數據的大熊貓身份信息與相應的音頻數據存儲位置記錄在Excel表格中。大熊貓個體音頻檔案庫建立流程需滿足以下要求:每個文件夾中的音頻數據應屬于同一只大熊貓,且音頻之間應保證唯一,無重復;每個文件夾應保證唯一,無重復;Excel表格中的每條記錄應保證唯一且準確。數據處理大熊貓圖像數據處理大熊貓臉部圖像檢測第一階段給定一張圖像,從這張圖像中通過矩形框框出大熊貓正臉區(qū)域。如果在一幅圖像中檢測到超過一個大熊貓臉,則只返回面積最大的那一個。得到邊界框后,根據該邊界框裁剪大熊貓的臉部圖像,裁剪后的圖像轉換為單通道灰度圖。大熊貓正臉圖像檢測算法需滿足以下要求:算法推理的實時性應達到QUOTE20??????20FPS;當無新個體圖像輸入時,檢測算法Rank-1準確度應達到96%,Rank-5準確度應達到97%;當交并比(IOU)達到70%時,檢測精度應達到90%QUOTE90%。大熊貓正臉圖像分割將檢測得到的大熊貓正臉圖像輸入至預訓練后的殘差網絡中,提取特征,接著將輸出的特征圖輸入至面部分割網絡中,生成二元掩膜。二元掩膜與原輸入臉部圖像相乘,輸出分割后的大熊貓正臉圖像。大熊貓正臉圖像分割算法需滿足以下要求:大熊貓正臉圖像部分與分割后圖像IOU不低于90%。大熊貓正臉對齊將分割后的圖像輸入至面部對齊網絡中,提取正臉特征,并裁剪,接著確定裁剪后的圖像依據模板進行校準。大熊貓正臉圖像對齊算法需滿足以下要求:算法推理的實時性應達到30FPS;關鍵點預測誤差應不大于5像素。大熊貓音頻數據處理大熊貓音頻降噪處理大熊貓音頻樣本在錄制的過程中可能會參雜其他噪聲,影響音頻文件的質量,在進行特征提取之前需補充對音頻進行降噪處理。大熊貓音頻降噪處理需滿足以下要求:降噪后的音頻信噪比應不低于90db。大熊貓正臉數據庫通過智能成像設備采集,批量導入實現大熊貓正臉圖像數據注冊。在大熊貓臉部圖像登記過程中,實現大熊貓臉部圖像與大熊貓標識之間綁定關系的建立。大熊貓臉部數據庫需滿足以下要求:對所有圖像,標注大熊貓正臉目標框區(qū)域的左上角和右下角坐標;對大熊貓正臉圖像使用多邊形來標注左耳、右耳、左眼、右眼、鼻子、嘴巴、正臉;使用SSIM方法測量圖像間的像素及相似度,進行圖像去重操作。大熊貓識別大熊貓正臉識別給定一張裁剪好并對齊后的大熊貓正臉圖像,使用卷積神經網絡來提取特征并用于身份識別。首先,使用ResNet-50卷積神經網絡在ImageNet數據集上預訓練;接著,用處理好的大熊貓正臉圖像對該模型進行微調;最后,將微調得到的ResNet-50模型用于從輸入的大熊貓正臉圖像中提取特征?,并根據特征間的余弦距離計算兩幅大熊貓正臉圖像的相似度。為了確定輸入大熊貓正臉圖像的身份,首先如上所述提取其臉部特征,然后將其與注冊集中登記的所有大熊貓正臉圖像特征進行比較。它的身份最終被確定為與它最相似的特征所屬的大熊貓身份。在最后輸出層會增設一個節(jié)點,此節(jié)點會輸出此大熊貓不是注冊集中任意一只大熊貓的概率。指定一個閾值,若概率大于閾值,則輸入的大熊貓圖像被判定為未知的大熊貓新個體。大熊貓正臉圖像識別算法需滿足以下要求:當錯誤接受率為5%時,算法識別出新個體準確率不低于93%;當無新個體輸入時,算法Rank-1應不低于96%,算法Rank-5應不低于97%;當存在新個體輸入時,算法Rank-1應不低于92%,Rank-5應不低于95%。大熊貓聲紋識別MFCC是把人耳的聽覺感知特性和語音的產生機理結合起來提取的聲紋特征。MFCC特征的提取流程如下:將語音信號進行預加重、分幀、加窗;進行FFT變換到頻域,通過Mel尺度的濾波器陣列后,濾波器輸出后進行離散余弦變換。給定一段音頻文件的MFCC特征,使用卷積神經網絡提取MFCC中的關鍵性特征并用于身份識別。使用卷積神經網絡提取MFCC中的關鍵性特征流程如下:使用CNN卷積神經網絡在空間維度上提取表征能力強的高層特征;通過調整層將特征調整到一定的維度,輸入至LSTM網絡,學習音頻段中更深層的時間信息;送入最后的全連接層,對音頻進行識別,輸出對應每個大熊貓的概率。大熊貓聲紋識別需滿足以下要求:預加重參數為0.85;b)分幀加窗時幀長為2048,幀移

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論