智能機(jī)器人原理與應(yīng)用 課件 第4-6章 智能機(jī)器人的通信系統(tǒng)、智能機(jī)器人的視覺、智能機(jī)器人的語音合成與識別_第1頁
智能機(jī)器人原理與應(yīng)用 課件 第4-6章 智能機(jī)器人的通信系統(tǒng)、智能機(jī)器人的視覺、智能機(jī)器人的語音合成與識別_第2頁
智能機(jī)器人原理與應(yīng)用 課件 第4-6章 智能機(jī)器人的通信系統(tǒng)、智能機(jī)器人的視覺、智能機(jī)器人的語音合成與識別_第3頁
智能機(jī)器人原理與應(yīng)用 課件 第4-6章 智能機(jī)器人的通信系統(tǒng)、智能機(jī)器人的視覺、智能機(jī)器人的語音合成與識別_第4頁
智能機(jī)器人原理與應(yīng)用 課件 第4-6章 智能機(jī)器人的通信系統(tǒng)、智能機(jī)器人的視覺、智能機(jī)器人的語音合成與識別_第5頁
已閱讀5頁,還剩119頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

北京信息科技大學(xué)自動化學(xué)院智能機(jī)器人原理與應(yīng)用“智能檢測技術(shù)與模式識別”研究所第四章

智能機(jī)器人的通信系統(tǒng)通信系統(tǒng)是智能機(jī)器人個體以及群體機(jī)器人協(xié)調(diào)工作的一個重要組成部分。機(jī)器人的通信可以從通信對象角度分為內(nèi)部通信和外部通信。內(nèi)部通信是為了協(xié)調(diào)模塊間的功能行為,主要通過各部件的軟硬件接口來實(shí)現(xiàn)。外部通信指機(jī)器人與控制者或機(jī)器人之間的信息交互,一般通過獨(dú)立的通信專用模塊與機(jī)器人連接整合實(shí)現(xiàn)。多機(jī)器人間能有效地通信,可有效地共享信息,從而更好地完成任務(wù)。4.1現(xiàn)代通信技術(shù)4.1.1基本概念1.點(diǎn)對點(diǎn)通信系統(tǒng)的基本模型圖4.1為一典型點(diǎn)對點(diǎn)通信系統(tǒng)的基本模型,各模塊作用如下。(1)信源把待傳輸?shù)南⑥D(zhuǎn)換成原始電信號。(2)信道是傳遞信息的通道及傳遞信號的設(shè)施。(3)接收設(shè)備的功能與發(fā)送設(shè)備相反,把從信道上接收的信號變換成信息接收者可以接收的信息,起著還原的作用。(4)受信者(信宿)是信息的接收者,將復(fù)原的原始信號轉(zhuǎn)換成相應(yīng)的消息。(5)噪聲源是指系統(tǒng)內(nèi)各種干擾影響的等效結(jié)果。圖4.1通信系統(tǒng)的基本模型2.現(xiàn)代通信系統(tǒng)的功能模型4.1現(xiàn)代通信技術(shù)圖4.2所示為一現(xiàn)代通信系統(tǒng)的功能模型,各模塊作用如下。(1)接入功能模塊。(2)傳輸功能模塊。(3)控制功能模塊。(4)應(yīng)用功能模塊。圖4.2現(xiàn)代通信系統(tǒng)模型4.1現(xiàn)代通信技術(shù)3.現(xiàn)代通信系統(tǒng)的分類1)按通信業(yè)務(wù)分類(1)按傳輸內(nèi)容,可分為單媒體通信與多媒體通信。(2)按傳輸方向,可分為單向傳輸與交互傳輸。(3)按傳輸帶寬,可分為窄帶通信與寬帶通信。(4)按傳輸時間,可分為實(shí)時通信與非實(shí)時通信。2)按傳輸介質(zhì)分類(1)有線通信。有線通信的傳輸介質(zhì)為電纜和光纜。(2)無線通信。3)按調(diào)制方式分類(1)基帶傳輸。(2)頻帶傳輸(調(diào)制傳輸)。4)按信道中傳輸?shù)男盘柗诸惏葱诺乐袀鬏數(shù)男盘柗诸悾煞譃槟M通信和數(shù)字通信。5)按收發(fā)者是否運(yùn)動分類按收發(fā)者是否運(yùn)動分類,可分為固定通信和移動通信。6)按多址接入方式分類按多址接入方式分類,可分為頻分多址、時分多址、碼分多址通信等。7)按用戶類型分類按用戶類型分類,可分為公用通信和專用通信。4.1現(xiàn)代通信技術(shù)1)有效性指標(biāo)有效性是指信道資源的利用效率(即系統(tǒng)中單位頻帶傳輸信息的速率問題)。模擬通信系統(tǒng)的有效性指標(biāo)通常采用“系統(tǒng)有效帶寬”來描述;數(shù)字通信系統(tǒng)有效性指標(biāo)通常采用“傳輸容量”來描述。2)可靠性指標(biāo)可靠性是指通信系統(tǒng)傳輸消息的質(zhì)量(即傳輸?shù)臏?zhǔn)確程度問題)。模擬通信系統(tǒng)的可靠性指標(biāo)通常采用“輸出信噪比”來衡量。數(shù)字通信系統(tǒng)的可靠性指標(biāo)通常采用“傳輸差錯率”來衡量。4.1現(xiàn)代通信技術(shù)4.1.2相關(guān)技術(shù)簡介1.GSM通信系統(tǒng)全球移動通信系統(tǒng)(GSM)屬于第二代數(shù)字移動通信系統(tǒng),是在蜂窩系統(tǒng)的基礎(chǔ)上發(fā)展而來的。GSM網(wǎng)絡(luò)技術(shù)成熟,覆蓋范圍廣,合理有效地利用GSM網(wǎng)絡(luò)資源,可以避免組建專用數(shù)據(jù)傳輸網(wǎng)絡(luò)的成本費(fèi)用高、通信距離短、通信效果差等諸多難題。如圖4.3所示,GSM通信系統(tǒng)主要是由交換網(wǎng)絡(luò)子系統(tǒng)(networkstationsystem,NSS)、基站子系統(tǒng)(basestationsystem,BSS)和移動臺(mobilestation,MS)三大部分組成。移動臺?;咀酉到y(tǒng)。網(wǎng)絡(luò)交換子系統(tǒng)。圖4.3

GSM通信系統(tǒng)4.1現(xiàn)代通信技術(shù)2.CDMA通信系統(tǒng)CDMA(Code-DivisionMultipleAccess)又稱碼分多址,是無線通信中使用的技術(shù)。在蜂窩移動通信的各種技術(shù)體制中,碼分多址占有十分重要的地位。它不僅是第二代數(shù)字蜂窩移動通信的兩大體制(歐洲的GSM和北美的IS-95)之一,而且是第三代移動通信的主要體制。3.常用短距離無線技術(shù)1)ZigBee2)WiFi3)藍(lán)牙4)IrDA5)LoRa6)NB-IoT7)4G8)5G4.2機(jī)器人通信系統(tǒng)4.2.1移動機(jī)器人通信系統(tǒng)的評價指標(biāo)綜合以上特點(diǎn),設(shè)計(jì)移動機(jī)器人通信系統(tǒng)時,需要考慮以下幾個因素。1.可靠性2.能量效率3.帶寬4.QoS4.2.2移動機(jī)器人通信的特點(diǎn)與傳統(tǒng)意義上的有線電話網(wǎng)絡(luò)或無線蜂窩網(wǎng)絡(luò)通信系統(tǒng)不同,移動機(jī)器人通信的主體是移動機(jī)器人,由于其應(yīng)用背景不同,對于通信系統(tǒng)的要求有很大區(qū)別。對于特殊環(huán)境應(yīng)用的移動機(jī)器人,需要特別關(guān)注以下幾方面。1.通信系統(tǒng)的健壯性2.能量受限3.體積受限4.2機(jī)器人通信系統(tǒng)4.2.3移動機(jī)器人通信系統(tǒng)設(shè)計(jì)1.有線通信與無線通信方案的考慮雖然現(xiàn)在通信的發(fā)展趨勢是無線通信的發(fā)展,但是在一些特定的環(huán)境中,還是要用上有線通信的。有線通信(wirecommunication)必須借助有形媒質(zhì)(電線或光纜)來傳送信息。無線通信(wirelesscommunication)是利用電磁波信號在自由空間中傳播的特性進(jìn)行信息交換的一種通信方式。有線通信與無線通信的比較如表4.1所示。

有線通信無線通信優(yōu)勢①信號穩(wěn)定,抗干擾效果好,②對人體輻射小,安全可靠①方便快捷②投資小劣勢①有固定線的束縛,不夠方便

②投資建設(shè)成本大①信號不穩(wěn)定,易被干擾②安全問題,任何同頻率的信號都有可能控制機(jī)器人或使得信號擁塞③頻譜是一個稀缺資源,使用無線信道需要協(xié)調(diào)4.2機(jī)器人通信系統(tǒng)2.無線通信的比特率與傳輸距離由于提供低功耗下的高速連接,WiFi成為目前最流行的無線標(biāo)準(zhǔn)。它的傳輸距離在l00m左右,無線網(wǎng)絡(luò)通常由小范圍內(nèi)的互聯(lián)接入點(diǎn)組成。覆蓋距離有限使這種網(wǎng)絡(luò)被限制在辦公建筑、家用或其他室內(nèi)環(huán)境中。4.3多機(jī)器人通信4.3.1多機(jī)器人通信模式一般來說,機(jī)器人之間的通信可以分為隱式通信和顯式通信兩種模式。圖4.4機(jī)器人的通信1.顯式通信顯式通信包括直接通信和間接通信兩種。1)直接通信要求發(fā)送者和接收者保持一致,即通信時發(fā)送者和接收者同時在線,因此需要一種通訊協(xié)議。2)間接通信不需要發(fā)送者與接收者保持一致。廣播是一種間接通信類型,它不要求一定有接收者,也不保證信息是否正確地傳送給接收者。監(jiān)聽(或觀察)是另一種類型的間接通信,它側(cè)重于信息接收者接收信息的方式。4.3多機(jī)器人通信2.隱式通信隱式通信是指多機(jī)器人系統(tǒng)通過外界環(huán)境和自身傳感器獲取所需的信息,并實(shí)現(xiàn)相互之間的協(xié)作,機(jī)器人之間沒有通過某種共有的規(guī)則和方式進(jìn)行數(shù)據(jù)轉(zhuǎn)移和信息交換來實(shí)現(xiàn)特定含義信息的傳遞。1)感知通信2)環(huán)境通信3.通信模式的實(shí)現(xiàn)隱式通信與顯式通信是多機(jī)器人系統(tǒng)各具特色的兩種通信模式。4.3多機(jī)器人通信4.3.2多機(jī)器人通信模型1.C/S模型在基于C/S模型的通信系統(tǒng)中,機(jī)器人之間的通信必須通過服務(wù)器“中轉(zhuǎn)”。系統(tǒng)具有中心服務(wù)器,所有客戶進(jìn)程與服務(wù)器進(jìn)程進(jìn)行雙向通信,客戶進(jìn)程間無直接通路。C/S通信模型如圖4.5所示。C/S通信適用于需要集中控制的場合,其結(jié)構(gòu)簡單,易于實(shí)現(xiàn),便于錯誤診斷及系統(tǒng)維護(hù)。一方面,中心服務(wù)器利用其特殊地位了解各客戶機(jī)的需求,這有利于對客戶進(jìn)程的管理以及實(shí)現(xiàn)通信資源的合理分配與調(diào)度。另一方面,客戶間進(jìn)程通信效率低,中心服務(wù)器工作負(fù)荷大,其錯誤會導(dǎo)致整個系統(tǒng)崩潰。圖4.5C/S通信模型4.3多機(jī)器人通信2.P2P模型如圖4.6所示,P2P通信模型由中心結(jié)構(gòu)改變?yōu)榉植际浇Y(jié)構(gòu),節(jié)點(diǎn)間通信不經(jīng)過中心服務(wù)器的轉(zhuǎn)發(fā),而是直接進(jìn)行通信,提高了通信效率。系統(tǒng)運(yùn)行不依賴于模型中的某個節(jié)點(diǎn),因此系統(tǒng)負(fù)載較為均衡,可靠性高。圖4.6

P2P通信模型4.4智能機(jī)器人的通信系統(tǒng)實(shí)例4.4.1基于計(jì)算機(jī)網(wǎng)絡(luò)的機(jī)器人通信基于計(jì)算機(jī)網(wǎng)絡(luò)的遠(yuǎn)程控制機(jī)器人是指將機(jī)器人與互聯(lián)網(wǎng)連接,使得人們可以在任何地方通過瀏覽器訪問機(jī)器人,實(shí)現(xiàn)對機(jī)器人的遠(yuǎn)程監(jiān)視和控制。1.系統(tǒng)結(jié)構(gòu)圖圖4.7給出了一種基于計(jì)算機(jī)網(wǎng)絡(luò)的遠(yuǎn)程控制機(jī)器人系統(tǒng)的結(jié)構(gòu)。系統(tǒng)從功能上包括計(jì)算機(jī)網(wǎng)絡(luò)服務(wù)器、應(yīng)用程序服務(wù)器、圖像服務(wù)器、數(shù)據(jù)庫服務(wù)器、機(jī)器人控制服務(wù)器五個部分。(1)計(jì)算機(jī)網(wǎng)絡(luò)服務(wù)器。(2)應(yīng)用程序服務(wù)器。(3)圖像服務(wù)器。(4)數(shù)據(jù)庫服務(wù)器。(5)機(jī)器人控制服務(wù)器。圖4.7機(jī)器人網(wǎng)絡(luò)控制系統(tǒng)結(jié)構(gòu)圖2.基于計(jì)算機(jī)網(wǎng)絡(luò)的機(jī)器人遠(yuǎn)程控制要解決的問題1)時間延遲由于受帶寬和網(wǎng)絡(luò)負(fù)載變化的影響,網(wǎng)絡(luò)的長時間延遲具有不確定性。2)系統(tǒng)安全性與其他的互聯(lián)網(wǎng)站點(diǎn)一樣,基于計(jì)算機(jī)網(wǎng)絡(luò)的機(jī)器人控制站點(diǎn)也要面對網(wǎng)絡(luò)上潛在的惡意攻擊。4.4智能機(jī)器人的通信系統(tǒng)實(shí)例4.4智能機(jī)器人的通信系統(tǒng)實(shí)例4.4.2集控式機(jī)器人足球通信系統(tǒng)圖4.8為半自主型機(jī)器人足球比賽賽場的全視圖。根據(jù)不同的場地,可分為小型組(3V3)、中型組(5V5)、大型組(11V11)比賽。圖4.8足球機(jī)器人比賽平臺示意圖如圖4.9所示,通信子系統(tǒng)負(fù)責(zé)主機(jī)和足球機(jī)器人之間信息的傳遞。圖4.9無線通信子系統(tǒng)框圖RS-232無線數(shù)據(jù)發(fā)射器無線數(shù)據(jù)接收器電動機(jī)控制足球機(jī)器人計(jì)算機(jī)主機(jī)4.4智能機(jī)器人的通信系統(tǒng)實(shí)例4.4.3基于AdHoc的無人機(jī)集群AdHoc一詞最早來源于拉丁語,拉丁語中的AdHoc的意思是forthis,后來又完善為forthispurposeonly,中文意思是“僅用于此目的”,因此可以把AdHoc網(wǎng)絡(luò)認(rèn)為是一種有著特殊用途的網(wǎng)絡(luò)。AdHoc網(wǎng)絡(luò)是一種分布式結(jié)構(gòu)的無線通信網(wǎng)絡(luò),是一種無線移動自組織網(wǎng)絡(luò),強(qiáng)調(diào)在一個廣闊的區(qū)域?qū)崿F(xiàn)多跳的無線通信。圖4.10無人機(jī)協(xié)同一體化示意圖4.4.4基于LoRa的物聯(lián)網(wǎng)機(jī)器人系統(tǒng)物聯(lián)網(wǎng)是以互聯(lián)網(wǎng)、電信網(wǎng)絡(luò)等為基礎(chǔ)的信息載體,使普通萬物形成互聯(lián)網(wǎng)絡(luò)。如圖4.11所示,物聯(lián)網(wǎng)機(jī)器人是融合機(jī)器人與物聯(lián)網(wǎng)通信技術(shù)的感知執(zhí)行系統(tǒng)。LoRa是目前最成熟、穩(wěn)定的窄帶物聯(lián)網(wǎng)通信技術(shù),可以以低發(fā)射功率獲得更廣距離的數(shù)據(jù)傳輸。LoRa網(wǎng)絡(luò)主要由終端(可內(nèi)置LoRa模塊)、網(wǎng)關(guān)(或稱基站)、Server和云4部分組成。圖4.12給出了一個基于LoRa的機(jī)械臂遠(yuǎn)程控制方案。圖4.11物聯(lián)網(wǎng)機(jī)器人系統(tǒng)模型圖4.12基于LoRa的機(jī)械臂遠(yuǎn)程控制方案4.4智能機(jī)器人的通信系統(tǒng)實(shí)例4.4智能機(jī)器人的通信系統(tǒng)實(shí)例4.4.5基于5G的“云—邊—端”一體化交通指揮系統(tǒng)隨著成本的下降,5G有效推動了人工智能與機(jī)器人領(lǐng)域的產(chǎn)業(yè)創(chuàng)新。5G+AI的全新解決方案也為數(shù)字經(jīng)濟(jì)的發(fā)展提供了重要支撐。圖4.13給出了一個基于5G的“云—邊—端”一體化交通指揮系統(tǒng)方案。圖4.13基于5G的“云—邊—端”一體化交通指揮系統(tǒng)1.交警巡查機(jī)器人2.多源時空融合的交通態(tài)勢全感知3.立體化全域交通智能分析北京信息科技大學(xué)自動化學(xué)院“智能檢測技術(shù)與模式識別”研究所問答互動環(huán)節(jié)北京信息科技大學(xué)自動化學(xué)院智能機(jī)器人原理與應(yīng)用“智能檢測技術(shù)與模式識別”研究所第五章

智能機(jī)器人的視覺機(jī)器人的視覺功能在于識別環(huán)境、理解人的意圖并完成工作任務(wù)。機(jī)器人的視覺技術(shù)包括:給定圖像的檢測與跟蹤、多目視覺與距離測量、時序圖像檢測運(yùn)動并跟蹤、主動視覺等。移動機(jī)器人通常利用立體視覺恢復(fù)周圍環(huán)境的三維信息、識別道路、判斷障礙物,實(shí)現(xiàn)路徑規(guī)劃、自主導(dǎo)航等。5.1.1

理論體系5.1機(jī)器視覺基礎(chǔ)理論1982年,馬爾首次從信息處理的角度綜合了圖像處理、心理物理學(xué)、神經(jīng)生理學(xué)及臨床精神病學(xué)的研究成果,提出了一個較為完善的視覺系統(tǒng)框架。他認(rèn)為對視覺系統(tǒng)的研究應(yīng)分為3個層次,即計(jì)算理論層、表達(dá)與算法層和硬件實(shí)現(xiàn)層,如圖5.1所示。圖5.1馬爾視覺理論的3個層次及其所對應(yīng)的內(nèi)容視覺系統(tǒng)的3個層次如下所示。(1)計(jì)算理論層是視覺信息處理的最高層次,是抽象的計(jì)算理論層次,它回答系統(tǒng)各個部分的計(jì)算目的和計(jì)算策略。(2)表達(dá)與算法層是要進(jìn)一步回答如何表達(dá)視覺系統(tǒng)各部分的輸入、輸出和內(nèi)部的信息,以及實(shí)現(xiàn)計(jì)算理論所規(guī)定目標(biāo)的算法。(3)硬件實(shí)現(xiàn)層要回答的是“如何用硬件實(shí)現(xiàn)各種算法”。5.1機(jī)器視覺基礎(chǔ)理論機(jī)器視覺研究可以分為如下五大研究內(nèi)容。1.低層視覺低層視覺的主要研究任務(wù)是采用大量的圖像處理技術(shù)和算法,對輸入的原始圖像進(jìn)行處理。2.中層視覺中層視覺的主要研究任務(wù)是恢復(fù)場景的深度、表面法線方向、輪廓等有關(guān)場景的2.5維信息。3.高層視覺高層視覺的主要研究任務(wù)是在以物體為中心的坐標(biāo)系中,在原始輸入圖像、圖像基本特征、2.5維圖的基礎(chǔ)上,恢復(fù)物體的完整三維圖,建立物體的三維描述,識別三維物體并確定物體的位置和方向。另外,主動視覺(activevision)涵蓋了上述各個層次的研究內(nèi)容。4.輸入設(shè)備輸入設(shè)備通過光學(xué)攝像機(jī)或紅外、激光、超聲、X射線對周圍場景或物體進(jìn)行探測成象,得到關(guān)于場景或物體的二維或三維數(shù)字化圖像。5.體系結(jié)構(gòu)研究機(jī)器視覺從設(shè)計(jì)到實(shí)現(xiàn)中涉及的信息流結(jié)構(gòu)、拓?fù)浣Y(jié)構(gòu)等一系列相關(guān)的問題。5.1機(jī)器視覺基礎(chǔ)理論5.1.2

關(guān)鍵問題機(jī)器視覺系統(tǒng)的主要困難體現(xiàn)在以下幾個方面。1.圖像多義性三維場景被投影為二維圖像,深度和不可見部分的信息被丟失。不同形狀的三維物體投影在圖像平面上可能產(chǎn)生相同圖像,如圖5.2所示。不同角度獲取的同一物體圖像可能存在很大差異。2.環(huán)境因素影響照明、物體形狀、表面顏色、攝像機(jī)以及空間關(guān)系變化都會對獲取的圖像有影響,幾個立方體構(gòu)成的多義性圖像如圖5.3所示。圖5.2不同形狀的三維物體投影在圖像平面上產(chǎn)生相同圖像圖5.3幾個立方體構(gòu)成的多義性圖像5.1機(jī)器視覺基礎(chǔ)理論3.知識導(dǎo)引在不同的知識導(dǎo)引下,同樣的圖像將會產(chǎn)生不同的識別結(jié)果。不同的知識導(dǎo)引也可能產(chǎn)生不同的空間關(guān)系。4.大數(shù)據(jù)灰度圖像、彩色圖像、高清圖像、深度圖像、圖像序列的信息量會非常大,需要很大的存貯空間和計(jì)算處理能力。5.2成像幾何基礎(chǔ)成像系統(tǒng)即是將三維場景變換成二維灰度或彩色圖像。這種變換可以用一個從三維空間到二維空間的映射來表示。(5.1)5.2成像幾何基礎(chǔ)5.2.1

基本術(shù)語簡單的三維圖像獲取過程如圖5.4所示。圖5.4三維圖形獲取過程1.

投影一般地,將n維的點(diǎn)變換成小于n維的點(diǎn)稱為投影,平面幾何投影的分類如圖5.5所示。三維場景投影將三維空間的點(diǎn)變換成二維圖像中的點(diǎn)。圖5.5平面幾何投影分類5.2成像幾何基礎(chǔ)2.

投影中心3.

投影線與投影面如圖5.6(a)所示,投影線回聚于投影中心(COP)。對于視覺系統(tǒng),投影中心也稱為視點(diǎn)或觀察點(diǎn)。從投影中心向物體上各點(diǎn)發(fā)出的射線稱為投影線,投影面是物體投影所在的假想面。如圖5.6(b)所示,投影線可以是直線或曲線。投影面通常是平面,但有的場合也應(yīng)用曲面作為投影面。圖5.6(a)

投影過程中的投影線與投影面圖5.6(b)

投影過程中的投影線與投影面4.投影變換投影變換是將一種投影點(diǎn)的坐標(biāo)變換為另一種投影點(diǎn)的坐標(biāo)的過程。三維空間到二維空間的兩種常用映射分別是透視投影變換和平行投影變換。(1)透視投影。如圖5.7(a)所示,透視投影的投影中心與投影平面之間的距離為有限遠(yuǎn)。(2)平行投影。如圖5.7(b)所示,投影中心與投影平面之間的距離為無限遠(yuǎn)??梢?,平行投影是透視投影的極限狀態(tài)。5.2成像幾何基礎(chǔ)圖5.7透視投影變換和平行投影變換5.2成像幾何基礎(chǔ)5.2.2透視投影1.透視現(xiàn)象由于觀察距離及方位引起視覺的不同反應(yīng),就是透視現(xiàn)象。利用透視規(guī)律,可以正確表現(xiàn)出物體之間的遠(yuǎn)近層次關(guān)系,使觀察者獲得立體的空間感覺,圖5.8所示現(xiàn)象正體現(xiàn)了這一點(diǎn)。圖5.8透視現(xiàn)象5.2成像幾何基礎(chǔ)2.透視投影成像模型如圖5.10所示,透視投影可以用針孔成像模型來模擬,其特點(diǎn)是所有來自場景的光線均通過一個投影中心(針孔中心)。透視投影倒立成像的幾何示意圖如圖5.11所示,經(jīng)過投影中心且垂直于圖像平面(成像平面)的直線稱為投影軸或光軸。圖5.10針孔成像模型圖5.11透視投影倒立成像幾何示意圖5.2成像幾何基礎(chǔ)5.2.3平行投影平行投影也稱為正交投影,是指用平行于光軸的光將場景投射到圖像平面上。如圖5.12所示,正交投影是透視投影的一個特例,當(dāng)透視投影模型的焦距f很大且物體距投影中心很遠(yuǎn)時,透視投影就可以用正交投影來近似。圖5.12正交投影幾何示意圖5.2成像幾何基礎(chǔ)5.2.4視覺系統(tǒng)坐標(biāo)變換1.坐標(biāo)系在幾何學(xué)中,為了用數(shù)字描述空間物體的大小、形狀和位置,必須引進(jìn)笛卡兒坐標(biāo)系。用戶總是習(xí)慣于在自己熟悉的坐標(biāo)系中描述客體或繪制圖形,這個用戶定義客體的坐標(biāo)系稱為用戶坐標(biāo)系,或稱為客體坐標(biāo)系。用戶坐標(biāo)系、規(guī)格化坐標(biāo)系和設(shè)備坐標(biāo)系三者之間的關(guān)系如圖5.13所示。圖5.13三種坐標(biāo)之間的關(guān)系5.2成像幾何基礎(chǔ)機(jī)器視覺系統(tǒng)中通常涉及以下幾種坐標(biāo)系。(1)

像素坐標(biāo):表示圖像陣列中圖像像素的位置。(2)

圖像平面坐標(biāo):表示場景點(diǎn)在圖像平面上的投影。(3)

攝像機(jī)坐標(biāo):即以觀察者為中心的坐標(biāo),將場景點(diǎn)表示成以觀察者為中心的數(shù)據(jù)形式。(4)

場景坐標(biāo):也稱作絕對坐標(biāo)(或世界坐標(biāo)),用于表示場景點(diǎn)的絕對坐標(biāo)。5.2成像幾何基礎(chǔ)旋轉(zhuǎn)變化空間內(nèi)物體繞x、y、z軸旋轉(zhuǎn)角度θ,對應(yīng)的變換矩陣Ti可表示為:考慮對笛卡爾空間內(nèi)點(diǎn)P分別進(jìn)行旋轉(zhuǎn)、平行移動、放大、縮小,對應(yīng)的射影空間內(nèi)P[p]→P’[p’]的變換操作可用4×4矩陣T來作為P的齊次坐標(biāo)的線性變換:p’=pT(5.2)式中P’[p’]表示P點(diǎn)變換后,對應(yīng)在射影空間內(nèi)的點(diǎn)。2.齊次坐標(biāo)2)平移變換5.2成像幾何基礎(chǔ)空間內(nèi)物體在x、y、z方向平移(h,k,l),對應(yīng)的變換矩陣T可表示為:(5.4)3)擴(kuò)大、縮小變換空間內(nèi)物體以原點(diǎn)為中心,在x、y、z軸方向擴(kuò)大或者縮小mx、my、mz倍,或者全體的1/mw倍,則對應(yīng)的變換矩陣Ti可表示為:5.2.5射影變換5.2成像幾何基礎(chǔ)

圖5.15配景映射5.2成像幾何基礎(chǔ)三維空間的坐標(biāo)系規(guī)定為現(xiàn)實(shí)世界坐標(biāo),稱為實(shí)坐標(biāo)或世界坐標(biāo)。在三維空間中,三維物體的投影和圖像化過程如圖5.16所示。圖5.16三維空間內(nèi)物體圖像的形成過程5.3圖像的獲取和處理5.3.1成像模型成像系統(tǒng)的建模是建立攝像機(jī)成像面坐標(biāo)與客觀三維場景的對應(yīng)關(guān)系。1.成像坐標(biāo)變換成像變換涉及不同坐標(biāo)系之間的變換,從三維場景到數(shù)字圖像的獲得所經(jīng)歷成像的變換如圖5.17所示:圖5.17坐標(biāo)系轉(zhuǎn)換關(guān)系圖5.3圖像的獲取和處理1)圖像坐標(biāo)系2)成像平面坐標(biāo)系攝像機(jī)采集的圖像以MxN的二維數(shù)組存儲的。如圖所示,在圖像上定義的直角坐標(biāo)系中,坐標(biāo)系原點(diǎn)位于圖像的左上角,圖像坐標(biāo)系的坐標(biāo)(u,v)是以像素為單位的坐標(biāo)。圖5.18圖像坐標(biāo)系uv若原點(diǎn)q在uv坐標(biāo)系中的坐標(biāo)為(u0,v0),每一個像素在x軸與y軸方向上的物理尺寸為dx,dy,則圖像中任意一個像素在兩個坐標(biāo)系下的坐標(biāo)關(guān)系如下。(5.9)(5.10)5.3圖像的獲取和處理3)攝像機(jī)坐標(biāo)系4)世界坐標(biāo)系攝像機(jī)坐標(biāo)系是以攝像機(jī)為中心制定的坐標(biāo)系。攝像機(jī)成像幾何關(guān)系如圖5.19所示。設(shè)三維空間中任意一點(diǎn)P在世界坐標(biāo)系的齊次坐標(biāo)為[xw,yw,zw,1]T,在攝像機(jī)坐標(biāo)系下的齊次坐標(biāo)為[xc,yc,zc,1]T,則攝像機(jī)坐標(biāo)系與世界坐標(biāo)系的關(guān)系:(5.12)

圖5.19攝像機(jī)成像與攝像機(jī)為中心制定的坐標(biāo)系的幾何關(guān)系5.3圖像的獲取和處理2.攝像機(jī)小孔成像模型實(shí)際成像系統(tǒng)應(yīng)采用透鏡成像原理,物距u、透鏡焦距f、像距v三者滿足如右關(guān)系。3.攝像機(jī)非線性成像模型由于實(shí)際成像系統(tǒng)中存在著各種誤差因素,如透鏡像差和成像平面與光軸不垂直等,這樣像點(diǎn)、光心和物點(diǎn)在同一條直線上的前提假設(shè)不再成立,這表明實(shí)際成像模型并不滿足線性關(guān)系,而是一種非線性關(guān)系。尤其在使用廣角鏡頭時,遠(yuǎn)離圖像中心處會有較大的畸變,如圖5.20所示。像點(diǎn)不再是點(diǎn)P和O的連線與圖像平面的交點(diǎn),而是有了一定的偏移,這種偏移實(shí)際上就是鏡頭畸變。圖5.20鏡頭畸變示意圖5.3圖像的獲取和處理4.攝像機(jī)的標(biāo)定1)傳統(tǒng)標(biāo)定方法傳統(tǒng)的標(biāo)定方法采用一個標(biāo)定塊(高精度的幾何物體)的精確數(shù)據(jù)與攝像機(jī)獲得的標(biāo)定塊圖像數(shù)據(jù)進(jìn)行匹配,求取攝像機(jī)的內(nèi)部參數(shù)。2)自標(biāo)定方法相機(jī)自標(biāo)定是指僅通過相機(jī)運(yùn)動所獲取的圖像序列來標(biāo)定內(nèi)部參數(shù),而不需要知道場景中物體的幾何數(shù)據(jù)。5.3.2圖像處理5.3圖像的獲取和處理視覺傳感系統(tǒng)的圖像處理流程如圖5.21所示,圖像處理算法上通常應(yīng)考慮算法的實(shí)時性、算法的精確性與算法的穩(wěn)定性。圖5.21視覺傳感系統(tǒng)圖像處理的一般流程1.圖像預(yù)處理圖像預(yù)處理的目的就是增強(qiáng)圖像,以便為后續(xù)過程做好準(zhǔn)備。但由于圖像千差萬別,還沒有一種通用的處理方案,只能根據(jù)實(shí)際圖像的質(zhì)量來調(diào)整。具體處理方法多為圖像平滑(高通或低通濾波),圖像灰度修正(如直方圖均衡化、灰度拉伸、同態(tài)濾波方法)等。1)圖像平滑2)圖像灰度修正5.3圖像的獲取和處理2.圖像分割圖像分割就是把圖像分成各具特征的區(qū)域,并提取出感興趣目標(biāo)的技術(shù)和過程,這里的特征可以是灰度、顏色、紋理等。圖像分割可被粗略分為3類。(1)基于直方圖的分割技術(shù)(閾值分割、聚類等)。(2)基于鄰域的分割技術(shù)(邊緣檢測、區(qū)域增長)。(3)基于物理性質(zhì)的分割技術(shù)(利用光照特性和物體表面特征等)。3.特征提取特征提取就是提取目標(biāo)的特征,也是圖像分析的一個重點(diǎn)。最常見的圖像特征包括:線段、區(qū)域和特征點(diǎn)。點(diǎn)特征提取主要是明顯點(diǎn),如角點(diǎn),圓點(diǎn)等。4.圖像識別根據(jù)預(yù)定的算法對圖像進(jìn)行圖像識別,或區(qū)分出合格與不合格產(chǎn)品,或給出障礙物的分類,或給出定量的檢測結(jié)果。

5.4智能機(jī)器人的視覺傳感器視覺傳感器將圖像傳感器、數(shù)字處理器、通信模塊和其他外設(shè)集中到一個單一的相機(jī)內(nèi),獨(dú)立地完成預(yù)先設(shè)定的圖像處理和分析任務(wù)。視覺傳感器一般由圖像采集單元、圖像處理單元、圖像處理軟件、通信裝置、I/O接口等構(gòu)成,視覺傳感器的構(gòu)成如圖5.23所示。圖5.23視覺傳感器構(gòu)成5.4智能機(jī)器人的視覺傳感器5.4.1照明系統(tǒng)照明系統(tǒng)的主要任務(wù)是以恰當(dāng)?shù)姆绞綄⒐饩€投射到被測物體上,從而突出被測特征部分的對比度。照明系統(tǒng)直接關(guān)系到檢測圖像的質(zhì)量,并決定后續(xù)檢測的復(fù)雜度。好的照明系統(tǒng)設(shè)計(jì)能夠改善整個系統(tǒng)分辨率,簡化軟件運(yùn)算,直接關(guān)系到整個系統(tǒng)的成敗。5.4.1照明系統(tǒng)1.鏡頭的分類根據(jù)焦距能否調(diào)節(jié),鏡頭可分為定焦距鏡頭和變焦距鏡頭兩大類。2.鏡頭的選擇方法1)鏡頭的主要性能指標(biāo)1)最大像場2)清晰場3)有效場2)選取鏡頭的考慮內(nèi)容1)相機(jī)CCD尺寸2)所需視場3)景深4)畸變3.特殊鏡頭針對一些特殊的應(yīng)用要求,設(shè)計(jì)機(jī)器視覺系統(tǒng)時,還可以選擇一些特殊的光學(xué)鏡頭來改善檢測系統(tǒng)的性能,常用的特殊鏡頭如下。1)顯微鏡頭2)遠(yuǎn)心鏡頭3)紫外鏡頭和紅外鏡頭4.接口鏡頭與攝像機(jī)之間的接口有許多不同的類型,工業(yè)攝像機(jī)常用的包括C接口、CS接口、F接口、V接口等。5.4智能機(jī)器人的視覺傳感器5.4智能機(jī)器人的視覺傳感器5.4.3攝像機(jī)攝像機(jī)是機(jī)器視覺系統(tǒng)中的一個核心部件,其功能是將光信號轉(zhuǎn)變成有序的電信號。攝像機(jī)以小巧、可靠、清晰度高等特點(diǎn),在商用與工業(yè)領(lǐng)域都得到了廣泛使用。1.類型1)CCD攝像機(jī)和CMOS攝像機(jī)2)線陣式和面陣式攝像機(jī)2.攝像機(jī)的主要性能指標(biāo)1)分辨率2)像素深度3)最大幀率/行頻4)曝光方式和快門速度6)光譜響應(yīng)特性5.4智能機(jī)器人的視覺傳感器5.4.4圖像處理器一般嵌入式系統(tǒng)可以采用的處理器類型有專用集成電路(ASIC)、數(shù)字信號處理器(DSP)及現(xiàn)場可編程邏輯陣列(FPGA)。智能相機(jī)中最常用的處理器是DSP和FPGA。5.5智能機(jī)器人的視覺系統(tǒng)5.5.1智能機(jī)器人視覺系統(tǒng)構(gòu)成人眼的深度感知能力(depthperception)主要依靠人眼的如下幾種機(jī)能。(1)雙目視差(2)運(yùn)動視差(3)眼睛的適應(yīng)性調(diào)節(jié)(4)視差圖像在人腦的融合(5)其他因素。常見的有機(jī)器人視覺系統(tǒng)有單目視覺、雙目視覺以及多目視覺等。立體視覺系統(tǒng)可以劃分為圖像采集、攝像機(jī)標(biāo)定、特征提取、立體匹配、三維重建和機(jī)器人視覺伺服6個模塊。1.圖像采集2.攝像機(jī)標(biāo)定3.特征提取4.立體匹配5.三維重建6.機(jī)器人視覺伺服5.5智能機(jī)器人的視覺系統(tǒng)5.5.2單目視覺如圖5.24所示,焦距為f的CCD攝像機(jī)距離地面的高度為h,其俯仰角度為

;O0是鏡頭中心;O(x0,y0)是光軸與像平面的交點(diǎn),可作為像平面坐標(biāo)系原點(diǎn);R為目標(biāo)物體,假設(shè)被測點(diǎn)為P,它與鏡頭中心的水平距離為d;P’(x,y)是被測點(diǎn)P在像平面上的投影,如下圖所示。圖5.24單目測距原理5.5智能機(jī)器人的視覺系統(tǒng)圖5.25為國際仿人機(jī)器人奧林匹克競賽高爾夫比賽項(xiàng)目示意圖,機(jī)器人配備了一只CMOS攝像頭。根據(jù)上述原理,可以通過二維圖像獲取深度信息。具體步驟如下。(1)通過攝像機(jī)標(biāo)定獲取攝像機(jī)的參數(shù)。(2)實(shí)時獲取攝像機(jī)的俯仰角。(3)選取目標(biāo)物體的目標(biāo)像素點(diǎn)。(4)通過正運(yùn)動學(xué)原理建模獲取機(jī)器人當(dāng)前攝像頭的實(shí)時高度。(5)計(jì)算距離。圖5.25仿人機(jī)器人高爾夫比賽示意圖5.5智能機(jī)器人的視覺系統(tǒng)5.5.3立體視覺雙目視覺系統(tǒng)用兩臺性能相同、位置相對固定的圖像傳感器獲取同一景物的兩幅圖像,通過“視差”來確定場景的深度信息,可實(shí)現(xiàn)場景的三維重構(gòu)。1.平行式立體視覺模型最簡單的攝像機(jī)配置如圖5.26所示。在水平方向平行地放置一對相同的攝像機(jī),其中基線距B=兩攝像機(jī)的投影中心連線的距離,攝像機(jī)焦距為f。前方空間內(nèi)的點(diǎn),分別在“左眼”和“右眼”成像,它們的圖像坐標(biāo)分別為,。

圖5.26雙目立體成像原理5.5智能機(jī)器人的視覺系統(tǒng)1)幾何關(guān)系現(xiàn)兩攝像機(jī)的圖像在同一個平面上,則特征點(diǎn)P的圖像坐標(biāo)Y坐標(biāo)相同,即,則由三角幾何關(guān)系得到:(5.27)2)性能分析雙目立體成像的視場關(guān)系如圖5.27所示。圖5.27雙目立體成像的視場關(guān)系5.5智能機(jī)器人的視覺系統(tǒng)3)立體視覺測量過程從上面的簡化公式可以看出,雙目立體視覺方法的原理較為簡單,計(jì)算公式也不復(fù)雜。立體視覺的測量過程如下。(1)圖像獲取。(2)相機(jī)標(biāo)定。(3)圖像預(yù)處理和特征提取。(4)立體匹配。(5)深度確定。4)立體視覺的關(guān)鍵技術(shù)視差本身的計(jì)算是立體視覺中最困難的一步工作,它涉及模型分析、攝像機(jī)標(biāo)定、圖像處理、特征選取及特征匹配等過程。特征匹配的本質(zhì)就是給定一幅圖像中的一點(diǎn),尋找另一幅圖像中的對應(yīng)點(diǎn)。5.5智能機(jī)器人的視覺系統(tǒng)2.匯聚式立體視覺模型一般情況下,匯聚式立體視覺采用圖5.28所示的任意放置的兩個攝像機(jī)來組成雙目立體視覺系統(tǒng)。圖5.28匯聚式立體視覺模型3.多目立體視覺模型多個攝像機(jī)設(shè)置于多個視點(diǎn),觀測三維對象的視覺傳感系統(tǒng)稱為多目視覺傳感系統(tǒng)。在生活中,人們對物體的多視角觀察就是多目視感系統(tǒng)的一個生動實(shí)例。5.5智能機(jī)器人的視覺系統(tǒng)5.5.4主動視覺與被動視覺1.雙目視覺實(shí)例圖5.29所示是一個基于雙目視覺的移動機(jī)器人系統(tǒng)框架圖。圖中的系統(tǒng)主要分為計(jì)算機(jī)視覺和機(jī)器人控制兩部分。圖5.30所示是加拿大機(jī)器人博士公司生產(chǎn)的

型具有2個云臺式高清光學(xué)變焦攝影鏡頭的無線智能機(jī)器人開發(fā)平臺。圖5.29移動機(jī)器人系統(tǒng)框架圖5.30

型移動機(jī)器人開發(fā)平臺5.5智能機(jī)器人的視覺系統(tǒng)2.肢體感應(yīng)器立體視覺實(shí)例肢體感應(yīng)器(Kinect)開發(fā)之初是為了給Xbox360充當(dāng)肢體感應(yīng)器攝像機(jī),它利用動態(tài)捕捉、影像識別等技術(shù),讓用戶可以通過自己的肢體動作來控制終端完成相應(yīng)的任務(wù)。(a)外觀(b)內(nèi)部結(jié)構(gòu)(c)拆解圖5.31肢體感應(yīng)器外觀及結(jié)構(gòu)圖如圖5.31所示,RGB彩色攝影機(jī)最大支持1280×960分辨率成像,用來采集彩色圖像。3D結(jié)構(gòu)光深度感應(yīng)器,由紅外線發(fā)射器和紅外線CMOS攝影機(jī)構(gòu)成,最大支持640×480成像。5.6視覺跟蹤早期機(jī)器視覺系統(tǒng)主要針對靜態(tài)場景。移動機(jī)器人視覺技術(shù)必須研究用于動態(tài)場景分析的機(jī)器視覺系統(tǒng)。視覺跟蹤是根據(jù)給定的一組圖像序列,對圖像中物體的運(yùn)動形態(tài)進(jìn)行分析,從而確定一個或多個目標(biāo)在圖像序列中是如何運(yùn)動的。5.6.1視覺跟蹤系統(tǒng)圖像的動態(tài)變化可能是由物體運(yùn)動、物體結(jié)構(gòu)、大小或形狀變化引起的,也可能是由攝像機(jī)運(yùn)動或光照改變引起的。根據(jù)攝像機(jī)與場景目標(biāo)的運(yùn)動狀態(tài),可以分為以下4類。(1)攝像機(jī)靜止/目標(biāo)靜止(2)攝像機(jī)靜止/目標(biāo)運(yùn)動(3)攝像機(jī)運(yùn)動/目標(biāo)靜止(4)攝像機(jī)運(yùn)動/目標(biāo)運(yùn)動對常用視覺跟蹤算法進(jìn)行總結(jié)分類,如圖5.34所示。圖5.33移動機(jī)器人視覺跟蹤系統(tǒng)流程及結(jié)構(gòu)5.6.1視覺跟蹤算法及性能要求對常用視覺跟蹤算法進(jìn)行總結(jié)分類,如圖5.34所示。圖5.34常用的視覺跟蹤算法分類5.6視覺跟蹤5.6視覺跟蹤5.6.2基于對比度分析的目標(biāo)追蹤基于對比度分析的的目標(biāo)追蹤是利用目標(biāo)與背景在對比度上的差異來提取、識別和跟蹤目標(biāo)。檢測圖像序列相鄰兩幀之間變化的最簡單方法是直接比較兩幀圖像對應(yīng)像素點(diǎn)的灰度值。在這種最簡單的形式下,幀f(x,y,j)與幀f(x,y,k)之間的變化可用一個二值差分圖像表示,如圖所示。圖5.35二值差分圖像表示5.6視覺跟蹤在差分圖像中,取值為1的像素點(diǎn)被認(rèn)為是物體運(yùn)動或光照變化的結(jié)果。這里假設(shè)幀與幀之間配準(zhǔn)或套準(zhǔn)得很好。幀差法的處理流程如圖5.36所示。圖5.36幀差法處理流程5.6視覺跟蹤5.6.3光流法光流法是基于運(yùn)動檢測的目標(biāo)跟蹤代表性算法。光流是空間運(yùn)動物體在成像面上的像素運(yùn)動的瞬時速度,光流矢量是圖像平面坐標(biāo)點(diǎn)上的灰度瞬時變化率。光流的計(jì)算是利用圖像序列中的像素灰度分布的時域變化和相關(guān)性來確定各自像素位置的運(yùn)動。圖5.38所示的是一個非常均勻的球體,由于球體表面是曲面,因此在某一光源照射下,亮度會呈現(xiàn)一定的空間分布或明暗模式。圖5.38光流與運(yùn)動場差別示意圖5.6視覺跟蹤1)基本原理給圖像中的每一像素點(diǎn)賦予一個速度向量,就形成了圖像運(yùn)動場。在運(yùn)動的一個特定時刻,圖像上某一點(diǎn)Pi

對應(yīng)三維物體上某一點(diǎn)P0,這種對應(yīng)關(guān)系可以由投影方程得到。如下圖所示,設(shè)物體上一點(diǎn)P0相對于攝像機(jī)具有速度V0,從而在圖像平面上對應(yīng)的投影點(diǎn)Pi具有速度Vi。在時間間隔

t時,點(diǎn)P0運(yùn)動了V0

t,圖像點(diǎn)Pi運(yùn)動了Vi

t。速度可由下式表示:

(5.29)圖5.39三維物體上一點(diǎn)運(yùn)動的二維投影5.6視覺跟蹤2)特點(diǎn)光流法能夠很好地用于二維運(yùn)動估計(jì),也可以同時給出全局點(diǎn)的運(yùn)動估計(jì),但其本身還存在一些問題:需要多次迭代,運(yùn)算速度慢,不利于實(shí)時應(yīng)用。5.6視覺跟蹤5.6.4基于匹配的目標(biāo)跟蹤1.基本原理基于匹配的目標(biāo)跟蹤算法需要提取目標(biāo)的特征,并在每一幀中尋找該特征。尋找的過程就是特征匹配過程。目標(biāo)跟蹤中用到的特征主要有幾何形狀、子空間特征、外形輪廓和特征點(diǎn)等。其中,特征點(diǎn)是匹配算法中常用的特征。特征點(diǎn)的提取算法很多,如KanadeLucasTomasi(KLT)算法、Harris算法、SIFT(尺度不變特征變換)算法以及SURF算法等。2.算法步驟大多數(shù)特征跟蹤算法的執(zhí)行都遵循圖5.40所示的目標(biāo)預(yù)測—特征檢測—模板匹配—更新4個步驟的閉環(huán)結(jié)構(gòu)。圖5.40基于特征的跟蹤算法結(jié)構(gòu)圖5.6視覺跟蹤5.6.5MeanShift目標(biāo)跟蹤1.基本原理MeanShift算法稱為均值偏移方法,其基本思想是對相似度概率密度函數(shù)或者后驗(yàn)概率密度函數(shù)采用直接的連續(xù)估計(jì)。MeanShift跟蹤算法采用彩色直方圖作為匹配特征,反復(fù)不斷地把數(shù)據(jù)點(diǎn)朝向Mean

Shift矢量方向移動,最終收斂到某個概率密度函數(shù)的極值點(diǎn)。MeanShift算法的算法原理可用下面的例子進(jìn)行直觀說明。對于圖5.41,在完全相同的桌球分布中找出最密集的區(qū)域。(a)隨機(jī)給出一感興趣區(qū)域(b)感興趣區(qū)域圓心移至質(zhì)心(c)感興趣區(qū)域圓心移至質(zhì)心(d)感興趣區(qū)域收斂至最密集的區(qū)域圖5.41

MeanShift算法原理舉例5.6視覺跟蹤2.算法步驟與粒子濾波跟蹤不同,MeanShift算法屬于基于特征模板匹配的確定性跟蹤方法。顏色分布特征對非剛體目標(biāo)和目標(biāo)旋轉(zhuǎn)形變保持較強(qiáng)的魯棒性,因此常被選擇作為目標(biāo)模板的描述。從起始圖像開始,通過手工選擇方式確定運(yùn)動目標(biāo)的特征模板,并計(jì)算該搜索窗口的核函數(shù)加權(quán)直方圖分布。MeanShift算法基于兩個分布的相似度(即Bhattacharyya系數(shù))最大化準(zhǔn)則,使搜索窗口沿梯度方向向目標(biāo)真實(shí)位置移動。在初始時刻,確定初始幀中目標(biāo)的窗口位置x0,以此窗口作為特征模板,利用上式計(jì)算其顏色直方圖分布。在開始跟蹤的后續(xù)各時刻,MeanShift跟蹤算法迭代過程如下:第1步:以上一時刻的跟蹤中心y作為當(dāng)前幀候選目標(biāo)區(qū)域D的中心,利用式(5.32)計(jì)算顏色直方圖分布,由式(5.33)估計(jì)其與特征模板的巴氏系數(shù)。第2步:計(jì)算候選區(qū)域內(nèi)各像素點(diǎn)的權(quán)值,公式如下。5.6視覺跟蹤第3步:計(jì)算目標(biāo)的新位置,公式如下。

(5.36)第4步:計(jì)算新位置的顏色直方圖分布,并估計(jì)其與特征模板的Bhattacharyya系數(shù)。第5步:判斷,若,則

。第6步:判斷。若,則跳出循環(huán);否則,令

,返回第1步。5.6視覺跟蹤3.算法特點(diǎn)(1)MeanShift算法就是沿著概率密度的梯度方向進(jìn)行迭代移動,最終達(dá)到密度分布的最值位置。其迭代過程本質(zhì)上是最速下降法,下降方向?yàn)橐浑A梯度方向,步長為固定值。(2)MeanShift算法基于特征模板的直方圖,假定了特征直方圖足夠確定目標(biāo)的位置,并且足夠穩(wěn)健,對其他運(yùn)動不敏感。該方法可以避免目標(biāo)形狀、外觀或運(yùn)動的復(fù)雜建模,建立相似度的統(tǒng)計(jì)測量和連續(xù)優(yōu)化之間的聯(lián)系。但是,該算法不能用于旋轉(zhuǎn)和尺度運(yùn)動的估計(jì)。5.7主動視覺5.7.1主動視覺與被動視覺機(jī)器人視覺系統(tǒng)可分為主動視覺和被動視覺兩大類。1.被動視覺的特點(diǎn)2.主動視覺的特點(diǎn)5.7.2主動視覺的控制機(jī)構(gòu)主動視覺強(qiáng)調(diào)與環(huán)境的動態(tài)交互與主動適應(yīng)和調(diào)整。從控制機(jī)構(gòu)的角度,可以對主動視覺進(jìn)行如下分類。1.根據(jù)環(huán)境控制視覺傳感器2.根據(jù)環(huán)境控制光源5.7主動視覺5.7.3主動視覺與傳感器融合傳感器融合是對特性互不相同的多個傳感器輸出進(jìn)行綜合,從而提高機(jī)器人對外觀測的數(shù)量和質(zhì)量的一種傳感器搭配形式。從融合的效果看,可以分為競爭融合和互補(bǔ)融合。1.競爭融合2.互補(bǔ)融合5.7.4主動視覺的實(shí)時性1.實(shí)時視覺2.實(shí)時視覺系統(tǒng)的構(gòu)成方法5.8視覺伺服視覺伺服是利用機(jī)器視覺的原理,直接基于圖像反饋信息快速進(jìn)行圖像處理,在盡量短的時間內(nèi)給出控制信號,構(gòu)成機(jī)器人的位置閉環(huán)控制。5.8.1主動視覺與傳感器融合1.根據(jù)攝像機(jī)的數(shù)目分類根據(jù)攝像機(jī)數(shù)目的不同,可分為單目視覺伺服系統(tǒng)、雙目視覺伺服系統(tǒng)及多目視覺伺服系統(tǒng)。1)單目視覺2)雙目視覺3)多目視覺2.根據(jù)攝像機(jī)放置位置分類1)固定攝像機(jī)系統(tǒng)2)手眼視覺系統(tǒng)3.根據(jù)誤差信號分類1)基于位置的視覺伺服2)基于圖像的視覺伺服3)混合視覺伺服方法5.8.2視覺伺服的技術(shù)問題5.8視覺伺服圖像處理,包括特征的選擇及匹配,仍然是視覺伺服在實(shí)際應(yīng)用中的瓶頸問題。而對于特征的選擇和匹配,如何提高其魯棒性,仍然是面臨的主要問題。多視覺信息融合的方法以及自動特征選擇的方法具有良好的發(fā)展前景。視覺伺服面臨的主要問題有以下兩方面。1.穩(wěn)定性2.實(shí)時性5.9深度學(xué)習(xí)在機(jī)器視覺領(lǐng)域的應(yīng)用5.9.1圖像分類圖像分類,是根據(jù)各自在圖像信息中反映的不同特征,把不同類別的目標(biāo)區(qū)分開來的圖像處理方法。它利用計(jì)算機(jī)對圖像進(jìn)行定量分析,把圖像或圖像中的每個像元或區(qū)域劃歸為若干個類別中的某一種,以代替人的視覺判讀。具體分類方法包括以下幾種。1.基于色彩特征的索引技術(shù)2.基于紋理的圖像分類技術(shù)3.基于形狀的圖像分類技術(shù)5.9.2目標(biāo)檢測目標(biāo)檢測,是一種基于目標(biāo)幾何和統(tǒng)計(jì)特征的圖像分割。它將目標(biāo)的分割和識別合二為一,其準(zhǔn)確性和實(shí)時性是整個系統(tǒng)的一項(xiàng)重要能力。尤其是在復(fù)雜場景中,需要對多個目標(biāo)進(jìn)行實(shí)時處理時,目標(biāo)自動提取和識別就顯得特別重要。5.9深度學(xué)習(xí)在機(jī)器視覺領(lǐng)域的應(yīng)用目標(biāo)檢測可以找到多個目標(biāo),并對它們進(jìn)行分類,并找到它們在圖像中的位置。目標(biāo)檢測模型可以為每個目標(biāo)預(yù)測一個邊界框和目標(biāo)的分類概率。但目標(biāo)檢測常常會預(yù)測太多的邊界框。每個錨框還有一個置信度分?jǐn)?shù),表示模型認(rèn)為該錨框確實(shí)包含一個目標(biāo)的可能性,如圖5.47所示。常見的目標(biāo)檢測算法主要有R-CNN、FastR-CNN、FasterR-CNN、SSD等,圖5.47目標(biāo)檢測5.9深度學(xué)習(xí)在機(jī)器視覺領(lǐng)域的應(yīng)用5.9.3圖像分割圖像分割的定義和分類具體內(nèi)容可見5.3.2節(jié)。基于深度學(xué)習(xí)的分割方法主要分為語義分割和實(shí)例分割,兩者區(qū)別如圖5.49所示。目前圖像分割可應(yīng)用于地理信息系統(tǒng)、無人車駕駛、醫(yī)療影像分析、機(jī)器人等領(lǐng)域。(a)語義分割(b)實(shí)例分割圖5.49圖像分割北京信息科技大學(xué)自動化學(xué)院“智能檢測技術(shù)與模式識別”研究所問答互動環(huán)節(jié)北京信息科技大學(xué)自動化學(xué)院智能機(jī)器人原理與應(yīng)用“智能檢測技術(shù)與模式識別”研究所第6章

智能機(jī)器人的語音合成與識別語言是人類最重要的交流工具,自然方便,準(zhǔn)確高效。讓機(jī)器與人之間進(jìn)行自然語言交流是智能機(jī)器人領(lǐng)域的一個重要研究方向。語音合成與識別技術(shù)涉及語音聲學(xué)、數(shù)字信號處理、人工智能、微機(jī)原理、模式識別、語言學(xué)和認(rèn)知科學(xué)等眾多前沿科學(xué),是一個涉及面很廣的綜合性科學(xué),其研究成果對人類的應(yīng)用領(lǐng)域和學(xué)術(shù)領(lǐng)域都具有重要價值。近年來,語音合成與識別取得顯著進(jìn)步,逐漸從實(shí)驗(yàn)室走向市場,應(yīng)用于工業(yè)、消費(fèi)電子產(chǎn)品、醫(yī)療、家庭服務(wù)、機(jī)器人等各個領(lǐng)域。6.1語音合成的基礎(chǔ)理論語音合成是指由人工通過一定的機(jī)器設(shè)備產(chǎn)生出語音。具體方法是利用計(jì)算機(jī)將任意組合的文本轉(zhuǎn)化為聲音文件,并通過聲卡等多媒體設(shè)備將聲音輸出。簡單地說,就是讓機(jī)器把文本資料讀出來。由圖6.1可知,語音合成系統(tǒng)完成文本到語音數(shù)據(jù)的轉(zhuǎn)化過程中可以簡單分為兩個步驟。圖6.1

語音合成技術(shù)原理示意圖(1)文本經(jīng)過前端的語法分析,通過詞典和規(guī)則的處理得到格式規(guī)范,攜帶語法層次的信息,傳送到后端。(2)后端在前端分析的結(jié)果基礎(chǔ)上,經(jīng)過韻律方面的分析處理得到語音的時長、音高等韻律信息,再根據(jù)這些信息在音庫中挑選最合適的語音單元,語音單元再經(jīng)過調(diào)整和拼接就能得到最終的語音數(shù)據(jù)。6.1.1語音合成分類6.1語音合成的基礎(chǔ)理論1.波形合成法波形合成法是一種相對簡單的語音合成技術(shù),它把人發(fā)音的語音數(shù)據(jù)直接存儲或進(jìn)行波形編碼后存儲,根據(jù)需要進(jìn)行編輯組合輸出。2.參數(shù)合成法參數(shù)合成法也稱為分析合成法,只在譜特性的基礎(chǔ)上來模擬聲道的輸出語音,而不考慮內(nèi)部發(fā)音器官是如何運(yùn)動的。3.規(guī)則合成法規(guī)則合成法通過語音學(xué)規(guī)則產(chǎn)生語音,可以合成無限詞匯的語句。合成的詞匯表不是事先確定,系統(tǒng)中存儲的是最小的語音單位的聲學(xué)參數(shù),以及由音素組成音節(jié)、由音節(jié)組成詞、由詞組成句子和控制音調(diào)、輕重音等韻律的各種規(guī)則。6.1語音合成的基礎(chǔ)理論6.1.2常用語音合成技術(shù)1.共振峰合成法習(xí)慣上,聲道傳輸頻率響應(yīng)上的極點(diǎn)稱為共振峰。語音的共振峰頻率(極點(diǎn)頻率)的分布特性決定著語音的音色。共振峰合成涉及共振峰的頻率、帶寬、幅度參數(shù)和基音周期等相關(guān)參數(shù)。要產(chǎn)生可理解的語音信號,至少要有3個共振峰;要產(chǎn)生高質(zhì)量合成語音信號,至少要有5個共振峰。基于共振峰合成法主要有以下3種實(shí)用模型。1)級聯(lián)型共振峰模型2)并聯(lián)型共振峰模型3)混合型共振峰模型6.1語音合成的基礎(chǔ)理論2.

LPC(線性預(yù)測)參數(shù)合成LPC合成技術(shù)本質(zhì)上是一種時間波形的編碼技術(shù),目的是為了降低時間域信號的傳輸速率。LPC合成技術(shù)的優(yōu)點(diǎn)是簡單直觀,其合成過程實(shí)質(zhì)上只是一種簡單的譯碼和拼接過程。另外,由于波形拼接技術(shù)的合成基元是語音的波形資料,保存了語音的全部信息,因而對于單個合成基元來說,能夠獲得較高的自然度。3.

PSOLA算法合成語音早期的波形編輯技術(shù)只能回放音庫中保存的東西。然而,任何一個語言單元在實(shí)際語流中都會隨著語言環(huán)境的變化而變化。20世紀(jì)80年代末,丹尼斯?德?維特和貝阿特?多瓦爾等提出了基音同步疊加技術(shù)(PSOLA)。PSOLA算法和早期波形編輯有原則性的差別,它既能保持原始語音的主要音段特征,又能在音節(jié)拼接時靈活調(diào)整其基音、能量和音長等韻律特征,因而很適合漢語語音的規(guī)則合成。由于韻律修改針對的側(cè)面不同,PSOLA算法的實(shí)現(xiàn)目前有以下3種方式。(1)時域基音同步疊加TD-PSOLA。(2)線性預(yù)測基音同步疊加LPC-PSOLA。(3)頻域基音同步疊加FD-PSOLA。6.1語音合成的基礎(chǔ)理論概括起來,用PSOLA算法實(shí)現(xiàn)語音合成時主要有以下3個步驟。1)基音同步分析2)基音同步修改3)基音同步合成6.2語音識別的基本原理6.2.1語音識別的基本原理語音識別系統(tǒng)本質(zhì)上是一個模式識別系統(tǒng),其原理如圖6.5所示。外界的模擬語音信號經(jīng)由麥克風(fēng)輸入計(jì)算機(jī),計(jì)算機(jī)平臺利用其A/D轉(zhuǎn)換器將模擬信號轉(zhuǎn)換成計(jì)算機(jī)能處理的語音信號,然后將該語音信號送入語音識別系統(tǒng)前端進(jìn)行預(yù)處理。預(yù)處理會過濾語音信息中不重要的信息與背景噪聲等,以方便后期的特征提取與訓(xùn)練識別。預(yù)處理主要包括語音信號的預(yù)加重,分幀加窗和端點(diǎn)檢測等工作。特征提取主要是為了提取語音信號中反映語音特征的聲學(xué)參數(shù),除掉相對無用的信息。語音識別中常用的特征參數(shù)有短時平均能量或幅度、短時自相關(guān)函數(shù)、短時平均過零率、線性預(yù)測系數(shù)(LPC)、線性預(yù)測倒譜系數(shù)(LPCC)等。圖6.5語音識別結(jié)構(gòu)圖6.2語音識別的基本原理1.語音訓(xùn)練語音訓(xùn)練是在語音識別之前進(jìn)行的,用戶多次從系統(tǒng)前端輸入訓(xùn)練語音,系統(tǒng)的前端語音處理部分會對訓(xùn)練語音進(jìn)行預(yù)處理和特征提取,之后利用特征提取得到的特征參數(shù)可以組建起一個訓(xùn)練語音的參考模型庫,或者是對此模型庫中己經(jīng)存在的參考模型作適當(dāng)?shù)男薷摹?.語音識別語音識別是指將待識別語音經(jīng)過特征提取后的特征參數(shù)與參考模型庫中的各個模式一一進(jìn)行比較,將相似度最高的模式作為識別的結(jié)果輸出,完成模式的匹配過程。模式匹配是整個語音識別系統(tǒng)的核心。6.2語音識別的基本原理6.2.2語音識別的預(yù)處理語音信號預(yù)處理包括采樣量化、分幀加窗和端點(diǎn)檢測等。1.采樣量化采樣就是在時間域上等間隔地抽取模擬信號,得到序列模擬音頻后,將其轉(zhuǎn)化成數(shù)字音頻的。實(shí)際上就是將模擬音頻的電信號轉(zhuǎn)換成二進(jìn)制碼0和1。0和1便構(gòu)成了數(shù)字音頻文件。采樣頻率越大,音質(zhì)越有保證。如圖6.6所示,采樣過程可表達(dá)如下:

(6.18)其中n為整數(shù),T為采樣周期,

為采樣頻率。圖6.6語音信號采樣示意圖6.2語音識別的基本原理2.分幀加窗語音信號本身是一種非平穩(wěn)的信號。但研究發(fā)現(xiàn),在一個很短的時間內(nèi)(10~30ms),信號很平穩(wěn)。所以可以對連續(xù)的語音信號進(jìn)行10~30ms分幀操作。假定每幀內(nèi)的信號是短時平穩(wěn)的,我們可以對每幀進(jìn)行短時分析,包括提取短時能量、短時自相關(guān)函數(shù)、短時過零率、短時頻譜等。同時,為了保證特征參數(shù)變化比較平滑,幀之間會有部分重疊,重疊的部分可以是1/2幀或1/3幀,此部分稱為幀移。對信號作適當(dāng)?shù)募哟疤幚?,可以減小語音幀之間的截?cái)嘈Ч股弦粠Y(jié)束處和下一幀起始處的信號更加連續(xù)。加窗函數(shù)常用的有矩陣窗和漢明窗等(其中N均為幀長)。矩陣窗為

(6.22)漢明窗為

(6.23)6.2語音識別的基本原理3.端點(diǎn)檢測端點(diǎn)檢測就是通過準(zhǔn)確地判斷輸入語音段的起點(diǎn)和終點(diǎn)來減少運(yùn)算量、數(shù)據(jù)量以及時間,進(jìn)而得到真正的語音數(shù)據(jù)。比較常用的端點(diǎn)檢測方法有兩種:多門限端點(diǎn)檢測法和雙門限端點(diǎn)檢測法。在語音信號檢測過程中,多門限檢測算法有較長的時間延時,不利于進(jìn)行語音過程實(shí)時控制,所以大多采用雙門限端點(diǎn)檢測方法。雙門限端點(diǎn)檢測方法是通過利用語音信號的短時能量和平均過零率的性質(zhì)來進(jìn)行端點(diǎn)檢測,其步驟如下。(1)設(shè)定閾值。(2)尋找語音信號端點(diǎn)檢測的起點(diǎn)。(3)尋找語音信號端點(diǎn)檢測的終點(diǎn)。(4)語音端點(diǎn)結(jié)果檢測。6.2語音識別的基本原理6.2.3語音識別的特征參數(shù)提取對語音信號完成端點(diǎn)檢測和分幀處理后,下一步就是特征參數(shù)的提取。語音信號數(shù)據(jù)量巨大,為了減小數(shù)據(jù)量,必須進(jìn)行特征提取。語音特征參數(shù)可以是共振峰值、基本頻率、能量等語音參數(shù)。目前,在語音識別中比較有效的特征參數(shù)為線性預(yù)測倒譜系數(shù)(LPCC)與Mel倒譜系數(shù)(MFCC)。1.線性預(yù)測系數(shù)線性預(yù)測(linearprediction,LP)普遍地應(yīng)用于語音信號處理的各個方面。線性預(yù)測是基于全極點(diǎn)模型的假設(shè),采用時域均方誤差最小準(zhǔn)則來估計(jì)模型參數(shù)。線性預(yù)測的計(jì)算效率很高,而且還能與聲管發(fā)音模型相聯(lián)系。線性預(yù)測分析的基本思想是每個語音信號采樣值都可以用它過去取樣值的加權(quán)和來表示,各加權(quán)系數(shù)應(yīng)使實(shí)際語音采樣值與線性預(yù)測采樣值之間誤差的平方和達(dá)到最小,即進(jìn)行最小均方誤差的逼近。線性預(yù)測是將被分析信號用一個模型來表示,即將語音信號看作是某一模型的輸出。因此,它可以用簡單的模型參數(shù)來描述。如圖6.7所示。圖6.7信號模型圖2.線性預(yù)測倒譜系數(shù)(LPCC)6.2語音識別的基本原理線性預(yù)測倒譜系數(shù)(LPCC)是線性預(yù)測系數(shù)在倒譜中的表示。該特征是基于語音信號為自回歸信號的假設(shè),利用線性預(yù)測分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對元音有較好的描述能力,缺點(diǎn)是對輔音的描述能力較差,抗噪聲性能較差。倒譜系數(shù)是利用同態(tài)處理方法,對語音信號求離散傅里葉變換DFT后取對數(shù),再求反變量IDFT就可以得到?;贚PC分析的倒譜在獲得線性預(yù)測系數(shù)后,可以用一個遞推公式計(jì)算得出L。

(6.31)公式中:——倒譜系數(shù);——預(yù)測系數(shù);n——倒譜系數(shù)的階數(shù)(n=1,2,…,p)p——預(yù)測系數(shù)的階數(shù)。6.2語音識別的基本原理3.Mel倒譜系數(shù)(MFCC)基于語音信號產(chǎn)生模型的特征參數(shù)強(qiáng)烈地依賴模型的精度,模型假設(shè)的語音信號的平穩(wěn)性并不能隨時滿足?,F(xiàn)在常用的另一個語音特征參數(shù)為基于人的聽覺模型的特征參數(shù)。Mel倒譜系數(shù)MFCC是受人的聽覺系統(tǒng)研究成果推動而導(dǎo)出的聲學(xué)特征,采用Mel頻率倒譜參數(shù)(Melfrequencycepstrumcoefficients,MFCC)運(yùn)算特征提取方法,己經(jīng)在語音識別中得到廣泛應(yīng)用。人耳聽到的聲音的高低與聲音的頻率并不成線形正比關(guān)系,與普通實(shí)際頻率倒譜分析不同,MFCC的分析著眼于人耳的聽覺特性。MFCC的具體步驟如下。運(yùn)用式(6.32)將實(shí)際頻率尺度轉(zhuǎn)化為Mel頻率尺度:

(6.32)在Mel頻率軸上配置L個通道的三角形濾波器組,每個三角形濾波器的中心頻率c(l)在Mel頻率軸上等間隔分配。設(shè)

,和

分別是第1個三角形濾波器的上限、中心和下限并滿足:(6.33)6.2語音識別的基本原理根據(jù)語音信號幅度譜,求每個三角形濾波器的輸出公式如下。

(6.34)式(6.34)中,(6.35)對所有濾波器輸出進(jìn)行對數(shù)運(yùn)算,再進(jìn)一步做離散余弦變換(DCT),即可得到MFCC:

(6.36)6.2語音識別的基本原理6.2.4模型訓(xùn)練和模式匹配語音識別核心部分的作用是實(shí)現(xiàn)參數(shù)化的語音特征矢量到語音文字符號的映射,一般包括模型訓(xùn)練和模式匹配技術(shù)。模型訓(xùn)練是指按照一定的準(zhǔn)則,從大量已知模式中獲取表征該模式本質(zhì)特征的模型參數(shù),而模式匹配則是根據(jù)一定準(zhǔn)則,使未知模式與模型庫中的某一個模型獲得最佳匹配。近幾十年比較成功的識別方法有隱馬爾可夫模型(HMM)、動態(tài)時間規(guī)整(DTW)技術(shù)、人工神經(jīng)網(wǎng)絡(luò)(ANN)等。1.隱馬爾可夫模型隱馬爾可夫模型是20世紀(jì)70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM方法現(xiàn)已成為語音識別的主流技術(shù)。目前,大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的??梢?,HMM合理地模仿了這一過程,很好地描述了語音信號的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。1)HMM語音模型2)HMM語音識別過程3)幾種不同的HMM模型

6.2語音識別的基本原理2.動態(tài)時間規(guī)整動態(tài)時間規(guī)整(DTW)是語音識別中較為經(jīng)典的一種算法,它將待識別語音信號的時間軸進(jìn)行不均勻的彎曲,使其特征與模板特征對齊,并在兩者之間不斷地進(jìn)行兩個矢量距離最小的匹配路徑計(jì)算,從而獲得這兩個矢量匹配時累積距離最小的規(guī)整函數(shù)。設(shè)測試語音參數(shù)共有N幀矢量,而參考模板共有M幀矢量,且N不等于M。要找時間規(guī)整函數(shù)j=w(i),使測試矢量的時間軸i非線性地映射到模板的時間軸j上,并滿足(6.37)式中:

表示第i幀測試矢量T(i)和第j幀模板矢量R(j)之間的距離測度;D為在最優(yōu)情況下的兩矢量之間的匹配路徑。3.矢量量化6.2語音識別的基本原理傳統(tǒng)的量化方法是標(biāo)量量化。標(biāo)量量化中的整個動態(tài)范圍被分成若干個小區(qū)間,每個小區(qū)間有一個代表值,對于一個輸入標(biāo)量信號,量化時落入小區(qū)間的值就要用這個代表值代替。隨著對數(shù)據(jù)壓縮的要求越來越高,矢量量化迅速發(fā)展起來。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。在實(shí)際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致可以分為以下兩類。(1)無記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級矢量量化。(2)有記憶的矢量量化。6.2語音識別的基本原理6.2.5視聽語音分離模型視聽語音分離模型(audio-visualspeechseparationmodel)的獨(dú)特之處在于,通過結(jié)合分析輸入視頻的音、視頻信號來識別分離所需的單一音軌。直觀來說,例如特定人物對象的音頻與其發(fā)聲時的嘴部動作相關(guān)聯(lián),這也就幫助模型系統(tǒng)區(qū)分哪一部分音頻(軌)對應(yīng)著哪一個特定對象。對視頻中的視覺信號進(jìn)行分析,不僅能夠在多種音頻混合的場景下顯著提升語音識別分離質(zhì)量(相較于只借助音頻來進(jìn)行特定對象語音分離),更加重要的還在于它能將分離后的純凈單一音軌與視頻中的可視對象聯(lián)系起來,如圖6.8所示。圖6.8視聽分離模型的輸入輸出6.3智能機(jī)器人的語音定向與導(dǎo)航與視覺一樣,聽覺是也是智能機(jī)器人的重要標(biāo)志之一,是實(shí)現(xiàn)人機(jī)交互、與環(huán)境交互的重要手段。由于聲音具有繞過障礙物的特性,在機(jī)器人多信息采集系統(tǒng)中,聽覺可以與機(jī)器人視覺相配合,彌補(bǔ)其視覺有限性及不能穿過非透光障礙物的局限性。機(jī)器人聽覺定位跟蹤聲源的研究主要分為基于麥克風(fēng)陣列和基于人耳聽覺機(jī)理的聲源定位系統(tǒng)研究?;邴溈孙L(fēng)陣列的聲源定位系統(tǒng)具有算法多樣、技術(shù)成熟、歷史悠久、定位準(zhǔn)確、抗干擾能力強(qiáng)等優(yōu)點(diǎn)。但是,該方法也具有計(jì)算量大、實(shí)時性差等不足,尤其是當(dāng)麥克風(fēng)數(shù)量很大時,不足顯得更加突出。隨著DSP硬件的發(fā)展,這些問題會逐漸解決。基于人耳聽覺機(jī)理的聲源定位系統(tǒng)研究是當(dāng)前國際前沿研究課題。它從人的聽覺生理和心理特性出發(fā),研究人在聲音識別過程中的規(guī)律,尋找人聽覺表達(dá)的各種線索,建立數(shù)學(xué)模型,用計(jì)算機(jī)來實(shí)現(xiàn)它,即計(jì)算聽覺場景分析所要研究的內(nèi)容。該方法符合人的聽覺機(jī)理,是智能科學(xué)研究的成果。由于人耳聽覺機(jī)理尚未完全被人類認(rèn)識,所以該系統(tǒng)研究還處在低級階段。6.3智能機(jī)器人的語音定向與導(dǎo)航麥克風(fēng)陣列聲源定位是指用麥克風(fēng)陣列采集聲音信號,通過對多道聲音信號進(jìn)行分析和處理,在空間中定出一個或多個聲源的平面或空間坐標(biāo),得到聲源的位置。現(xiàn)有聲源定位技術(shù)可分為以下3類。(1)基于最大輸出功率的可控波束形成技術(shù)。(2)基于高分辨率譜估計(jì)技術(shù)。(3)基于聲達(dá)時間差的定位技術(shù)。6.3.2基于人耳聽覺機(jī)理的聲源定位系統(tǒng)6.3.1基于麥克風(fēng)陣列的聲源定位系統(tǒng)人耳聽覺系統(tǒng)能夠同時定位和分離多個聲源,這種特性經(jīng)常被稱作雞尾酒會效應(yīng)。通過這一效應(yīng),一個人在嘈雜聲音的環(huán)境中能集中在一個特定的聲音或語音。一般認(rèn)為,聲音的空間定位主要依靠聲源的時相差和強(qiáng)度差確定。從人類聽覺生理和心理特性出發(fā),研究人在聲音或語音識別過程中的規(guī)律被稱為聽覺場景分析,而用計(jì)算機(jī)模仿人類聽覺生理和心理機(jī)制建立聽覺模型的研究范疇稱為計(jì)算聽覺場景析。6.4智能機(jī)器人的語音系統(tǒng)實(shí)例6.4.1InterPhonic6.5語音合成系統(tǒng)InterPhonic語音合成系統(tǒng)是由我國自主研發(fā)的中英文語音合成系統(tǒng),以先進(jìn)的大語料和TrainableTTS這兩種語音合成技術(shù)為基礎(chǔ),提供可比擬真人發(fā)音的高自然度、高流暢性、面向任意文本篇章的連續(xù)合成語音合成系統(tǒng)。InterPhonic6.5語音合成系統(tǒng)致力于建立和改善人—機(jī)語音界面,為大容量語音服務(wù)提供高效穩(wěn)定的語音合成功能,并提供從電信級、企業(yè)級到桌面級的全套應(yīng)用解決方案,是新概念聲訊服務(wù)、語音網(wǎng)站、多媒體辦公教學(xué)的核心動力。1.主要功能InterPhonic語音合成系統(tǒng)具有的主要功能如下。(1)高質(zhì)量語音。(2)多語種服務(wù)。(3)多音色服務(wù)。(4)高精度文本分析技術(shù)。(5)多字符集支持。(6)多種數(shù)據(jù)輸出格式。(7)提供預(yù)錄音合成模板。(8)靈活的接口。(9)語音調(diào)整功能。(10)配置和管理工具。(11)效果優(yōu)化。(12)一致的訪問方式。(13)背景音和預(yù)錄音。6.4智能機(jī)器人的語音系統(tǒng)實(shí)例2.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論