媒體認知課程中的智能感知技術(shù)教學方法探究_第1頁
媒體認知課程中的智能感知技術(shù)教學方法探究_第2頁
媒體認知課程中的智能感知技術(shù)教學方法探究_第3頁
媒體認知課程中的智能感知技術(shù)教學方法探究_第4頁
媒體認知課程中的智能感知技術(shù)教學方法探究_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、    媒體認知課程中的智能感知技術(shù)教學方法探究    楊毅+鐘嫻+喬飛+王生進+丁文浩摘 要:媒體與認知是電子系在課程改革中提出的一門全新的核心必修課程。文章闡述如何探索并建立一種智能感知技術(shù)及相應(yīng)的教學方法,說明設(shè)計開發(fā)一套以三維重建技術(shù)為基礎(chǔ)的智能感知教學內(nèi)容及教學手段的過程,目標是培養(yǎng)學生的創(chuàng)新性思維,培養(yǎng)智能感知學科的人才。關(guān)鍵詞:媒體認知;智能感知;三維重建; realsense平臺1 背 景隨著電子信息技術(shù)日新月異,電子信息教學領(lǐng)域也面臨著全新的挑戰(zhàn),需要培養(yǎng)具有全方位視野和超強能力的新一代工程師及領(lǐng)導(dǎo)者。本著這一目標,清華大學電子系自20

2、08年開始著手進行課程改革,通過改革課程體系將原有課程重新整合,從學科范式的角度整理出電子工程本科教育的知識體系結(jié)構(gòu),從而梳理出新的本科課程體系,形成了電子信息領(lǐng)域?qū)W科地圖。媒體與認知是清華大學電子信息學科在課程體系改革過程中提出的一門重要的必修課程1-2。我們結(jié)合清華大學電子工程系在該領(lǐng)域研究的基礎(chǔ)、優(yōu)勢和創(chuàng)新性成果,有針對性地將已有科研成果轉(zhuǎn)化為教學內(nèi)容,通過建設(shè)一套完整、全面的涵蓋人機感知交互、媒體信息處理、虛擬現(xiàn)實及信號處理領(lǐng)域的探索前沿型實驗教學平臺,培養(yǎng)學生的智能感知技術(shù)開發(fā)能力;同時,采用集體創(chuàng)新培養(yǎng)和個人研究探索相結(jié)合的方式,最終達到理工與人文、技術(shù)與藝術(shù)、感知與思考的高度融合

3、,使學生成為具有國際一流水平的、兼具科研創(chuàng)新能力和未來探索精神的領(lǐng)軍型人才。在2017年開設(shè)的媒體與認知課程內(nèi)容中,我們參考國內(nèi)外諸多科研院所及名企與智能感知技術(shù)相關(guān)的項目內(nèi)容,結(jié)合本系在該領(lǐng)域研究的基礎(chǔ)優(yōu)勢和創(chuàng)新性成果,建設(shè)了一套基于智能感知的物體三維重建項目。通過對該項目的學習和研究研發(fā),學生能夠獲得智能感知技術(shù)的基礎(chǔ)理論知識和開發(fā)能力,力爭成為具有國際領(lǐng)先水平的智能感知技術(shù)專業(yè)人才。2 基于智能感知的物體三維重建項目物體三維重建是計算機圖形學、計算機動畫、計算機視覺、醫(yī)學圖像處理、虛擬現(xiàn)實、機器人定位等領(lǐng)域的核心技術(shù),近年來隨著計算機硬件的快速發(fā)展,包括cpu主頻的提高、gpu及gpu陣

4、列的快速迭代,計算量已經(jīng)不再是瓶頸,因此三維重建技術(shù)也開始被重視。在許多三維重建的技術(shù)應(yīng)用中,機器人感知與定位中的建圖部分具有一定的代表性,主要原理是利用相機每一個位姿下的圖片恢復(fù)出物體或場景的三維形狀。目前,主流的三維重建系統(tǒng)包括kinect fusion3、elastic fusion4、kinitinuous5、 bundlefusion6等,主要使用gpu加速實現(xiàn)較好的效果。我們提出的基于智能感知的物體三維重建項目主要包括兩個部分:rgbd重建基線系統(tǒng)及其增強系統(tǒng)。2.1 rgb-d重建基線系統(tǒng)rgb-d重建基線系統(tǒng)中包含基本的三維重建功能以及實時功能,但由于硬件條件所限,不能很好地進

5、行實時點云查看,通常用于離線數(shù)據(jù)集的方式重建,方法是先啟動掃描程序,利用rgb-d相機掃描一系列的rgb 圖片與深度圖并保存,然后啟動重建系統(tǒng)完成重建。1)系統(tǒng)架構(gòu)。rgb-d重建系統(tǒng)工作流程圖如圖1所示。整個系統(tǒng)分為前端和后端兩部分,前端負責將rgbd圖像生成點云并利用圖2所示的 pnp(perspective-n-point)算法估計出相鄰兩幀之間的剛體變換矩陣,從而得到當前這一幀相對于上一幀的位姿變換,當此位姿變換滿足預(yù)設(shè)的閾值,將這一幀定義為關(guān)鍵幀。對于數(shù)據(jù)集版本,則在得到所有關(guān)鍵幀后進行圖優(yōu)化且提取優(yōu)化后的相機位姿,最后將所有的點云進行拼接。2)位姿計算方法。由于計算量較大,我們在使

6、用pnp算法時并未針對整幅圖片直接操作,而是首先進行特征提取與匹配,其中特征提取選用orb(oriented fast and rotated brief)方法,具有尺度和旋轉(zhuǎn)不變性,此外在得到相鄰兩個關(guān)鍵幀的匹配點之后需要進行篩選,降低pnp算法的重投影誤差。3)后端圖優(yōu)化。在得到一系列關(guān)鍵幀后,需要對其拼接,但相關(guān)信息只有相鄰兩幀之間的位姿變化,因此需要進行局部優(yōu)化。傳統(tǒng)方式是采用拓展卡爾曼濾波,但場景變化會引起狀態(tài)變量的長度變化,因此我們采用圖優(yōu)化方式。方法是將相機位姿作為圖的定點,將兩幀之間的變換作為邊,從而建立一個稀疏圖,進而定義能量函數(shù)為各個邊之間的投影誤差,優(yōu)化的目的是使得這個誤

7、差函數(shù)最小,具體采用第三方庫實現(xiàn)。4)系統(tǒng)效果。本系統(tǒng)的采集設(shè)備是realsense f2007,實際設(shè)備的最大有效距離為1.2 m。 將realsense設(shè)備作為前端掃描設(shè)備掃描玩偶,對得到的數(shù)據(jù)采用rgb-d重建系統(tǒng)進行離線重建,得到圖3所示的效果。2.2 rgb-d重建增強系統(tǒng)除了上述基線系統(tǒng),我們的rgb-d重建增強系統(tǒng)解決實時性的問題,構(gòu)建一種基于稀疏特征的用于導(dǎo)航和定位的機器人定位系統(tǒng)orb-slam28,是目前 slam(simultaneous localization and mapping)領(lǐng)域效果最好的系統(tǒng)架構(gòu),并在此基礎(chǔ)上增加稠密點云的拼接與實時設(shè)備的讀取功能,目的是實

8、現(xiàn)魯棒的重建效果,其工作流程如圖4所示。1)回環(huán)檢測。三維重建問題的一個難點是當在整個環(huán)境中環(huán)顧一周再次回到出發(fā)點時,誤差累積和相機畸變問題會導(dǎo)致物體分層,即兩次掃描的結(jié)果不能拼接。解決這個問題的方法是當回到起始點時能夠檢測出這個回環(huán)(loop)并以此修正所有的關(guān)鍵幀,平均累計誤差。目前主要解決方案是使用詞袋模型(bag of word),首先用k-means算法分割出一些訓(xùn)練好的子模型,利用這些模型進行關(guān)鍵幀之間的匹配,找到相似度大的幀,定義為存在回環(huán)。2)重定位。endprint重定位指的是在丟掉相機的位置之后能夠快速找回,我們使用orbslam2 自帶的重定位(re-localizati

9、on)功能與所有關(guān)鍵幀匹配,看能否找到合適的位置繼續(xù)跟蹤,主要方法是通過計算當前幀的 bow 向量,在關(guān)鍵幀詞典數(shù)據(jù)庫中選取若干關(guān)鍵幀作為候選。3)局部優(yōu)化。由于增加了實時顯示的功能,因此需要在一定時間內(nèi)對重復(fù)出現(xiàn)的一個區(qū)域內(nèi)的內(nèi)容進行局部優(yōu)化。局部優(yōu)化的內(nèi)容包括刪除該局部區(qū)域內(nèi)冗余的點和關(guān)鍵幀,并通過本地約束調(diào)整(local bundle adjustment)功能實現(xiàn)位姿調(diào)整。4) 系統(tǒng)效果。本系統(tǒng)的采集設(shè)備也是realsense f200,基于realsense設(shè)備利用rgb-d重建增強系統(tǒng)實時掃描玩偶,得到圖5所示的效果。與圖4相比可以看出,在實時系統(tǒng)下的三維重建效果依然良好。3 結(jié)

10、語本文主要介紹了媒體與認知課程中的感知技術(shù)教學項目“基于智能感知的物體三維重建項目”,在現(xiàn)有開發(fā)平臺的基礎(chǔ)上,構(gòu)建了rgb-d重建基線系統(tǒng)及rgb-d重建增強系統(tǒng)并對其進行比較,使學生掌握目前主流的三維重建核心技術(shù)。下一步,我們將在該項目平臺中引入其他rgb-d傳感器,以進行更加深入的研究探索。參考文獻:1 清華大學電子工程系eb/ol. 2017-06-01. http:/2 楊毅, 徐淑正, 喬飛, 等. 媒體認知實驗教學改革研究與探索j. 計算機教育, 2015(9): 107-109.3 whelan t, leutenegger s, salas-moreno r f, et al.

11、 elasticfusion: dense slam without a pose grapheb/ol. 2017-06-01. http://rss11/p01.pdf.4 whelan t, kaess m, johannsson h, et al. real-time large-scale dense rgb-d slam with volumetric fusionj. the international journal of robotics research, 2015, 34(4-5): 598-626.5 mur-art

12、al r, montiel j m m, tardos j d. orb-slam: a versatile and accurate monocular slam systemj. ieee transactions on robotics, 2015, 31(5): 1147-1163.6 dai a, nie?ner m, zollh?fer m, et al. bundlefusion: real-time globally consistent 3d reconstruction using online surface re-integrationeb/ol. (2017-02-07)2017-06-01. https:/arxiv.o

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論