手語項目可行性報告_第1頁
手語項目可行性報告_第2頁
手語項目可行性報告_第3頁
手語項目可行性報告_第4頁
手語項目可行性報告_第5頁
已閱讀5頁,還剩67頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2010 年 省院合作 項目 重大科技 專項 可行性報告 項目 名稱: 基于數(shù)字電視的虛擬人手語播報系統(tǒng)關(guān)鍵技術(shù)及終端產(chǎn)品 項目承擔單位: 廣東中大訊通軟件科技有限公司 項目聯(lián)合單位: 中國科學院研究生院 項目負責人: 殷 偉 二 一 年 二 月 1 目 錄 一、立項依據(jù) . 3 (一)項目的目的及意義 . 3 (二)國內(nèi)外技術(shù)發(fā)展現(xiàn)狀與趨勢 . 5 (三)項目的產(chǎn)業(yè)化前景分析 . 9 二、研究開發(fā)內(nèi)容、方法、技術(shù)路線 . 12 (一)主要研究內(nèi)容 . 12 1.多 媒體流驅(qū)動的中國手語合成 . 12 2.虛擬人手語播報系統(tǒng)平臺 . 14 (二)擬解決的關(guān)鍵技術(shù) . 17 關(guān)鍵技術(shù)一:面向中國手語的自然語 言文本理解 . 17 關(guān)鍵技術(shù)二:基于多媒體流的虛擬人手語行為建模 . 17 關(guān)鍵技術(shù)三:手勢、文本、表情、唇動和語音信息的協(xié)同表達 . 18 關(guān)鍵技術(shù)四:數(shù)字電視嵌入式中間件平臺 . 18 關(guān)鍵技術(shù)五:面向數(shù)字電視訪問請求的手語動畫界面自適應表現(xiàn) . 19 關(guān)鍵技術(shù)六:基于數(shù)字電視的手語動畫壓縮及傳輸方法 . 19 (三)擬采用的方法、技術(shù)路線以及工藝流程 . 20 1.多媒體流驅(qū)動的中國手語合成 . 20 2.基于數(shù)字電視的虛擬人手語播報系統(tǒng) . 22 (四)項目的特色和創(chuàng)新突破點 . 31 項目特色一:人與人之間的無障礙信息交互 . 31 項目特色二: 基于數(shù)字電視的應用交互平臺 . 31 技術(shù)創(chuàng)新點一:多模式的手語信息同步表達 . 31 技術(shù)創(chuàng)新點二:基于腳本驅(qū)動的數(shù)字電視手語交互系統(tǒng) . 31 技術(shù)創(chuàng)新點三:基于數(shù)字電視的三維圖形數(shù)據(jù)壓縮及顯示技術(shù) . 32 (五)項目完成后預期實現(xiàn)的技術(shù)、經(jīng)濟指標及社會和經(jīng)濟效益,對產(chǎn)業(yè)的帶動和提升作用。 . 32 1.項目產(chǎn)品及成果 . 32 2.主要產(chǎn)品技術(shù)指標 . 33 3.主要經(jīng)濟指標 . 34 4.間接經(jīng)濟效益 . 34 5.社會效益 . 34 (六)項目的階段與進度 . 36 (七)項目的經(jīng)費預算情況 . 38 1.經(jīng)費的籌措 . 38 2.經(jīng)費 的配套 . 38 3.經(jīng)費的使用 . 38 三、省院合作優(yōu)勢分析(包括工作基礎、合作優(yōu)勢分析等) . 39 (一)承擔單位概況 (人員、資產(chǎn)、 業(yè)務與管理狀況 ) . 39 1.廣東中大訊通軟件科技有限公司 . 39 2.中國科學院研究生院 . 43 (二)本項目現(xiàn)有的研究工作基礎 (包 括已有的階段性成果、現(xiàn)有科研裝備條件、合作單位之間以往合作情況 ) . 44 2 1.已有階段性成果 . 44 2.現(xiàn)有科研裝備條件 . 50 3.合作單位以往合作情況 . 51 (三)項目的組織實施和運行機制 . 53 1.管理架構(gòu) . 53 2.合作單位間的任務分工 . 58 3.運行機制 . 58 4.技術(shù)推廣模式與保障措施 . 59 (四)合作單位之間的存在的優(yōu)勢互補(或強強聯(lián)合)情況分析。 . 62 四、以往承擔項目完成情況及主要成果 (近五年內(nèi) )(中科院、高校的主要以課題團隊的成績?yōu)橹鳎?. 64 (一)承擔國家省部級有關(guān)課題完成情況 . 64 (二 )以往科技成果轉(zhuǎn)化情況 . 65 (三)項目獲獎及已發(fā)表的與本課題研究有關(guān)的主要論文、專著情況 (年度刊物等說明 ). 68 (四)與項目相關(guān)的專利或版權(quán)情況列表 . 69 3 一、立項依據(jù) (一)項目的目的及意義 隨著我國數(shù)字家庭產(chǎn)業(yè)蓬勃發(fā)展、數(shù)字電視的整體轉(zhuǎn)換以及寬帶網(wǎng)絡的大規(guī)模普及,越來越多的進入千家萬戶,并被大眾所接受。 基于數(shù)字電視的手語播報系統(tǒng)的研究 作為一種 民族文化數(shù)字內(nèi)容動畫產(chǎn)品的開發(fā)及產(chǎn)業(yè)化 技術(shù) 具有重要的理論意義和應用價值,它不僅是針對 2010 年亞運會的研究課題,更是利用高科技手段為聾人 提供無障礙信息服務 的研究課題 。 通過手語播報系統(tǒng)與數(shù)字電視相結(jié)合, 并使 虛擬人動畫 融入互動內(nèi)容, 為聾人提供更加便捷、易于接受和可懂度更高的信息交流方式,使得聾人能夠擁有和健聽人同樣廣泛的信 息渠道,建立聾人與健聽人之間無障礙信息交流,使其能夠更好的融入社會。 目前,在我們的社會中存在著大量有聽力功能障礙的人群。 統(tǒng)計數(shù)字顯示,迄今全球大約有 1.2 億聾人,僅中國就有 2067 萬人以上,其中處于 1到 14 歲年齡段的就高達 117 萬,并且每年新生聾兒也以2到 3萬的速度在增加。他們在生活中所遇到的困難往往是健聽人難以想象的。如今我國正處于精神與物質(zhì)生活高速發(fā)展時期,人民生活水平穩(wěn)步提高,網(wǎng)絡、智能交互等高科技手段更是在不同層次豐富、便捷著我們的生活。但這些對于殘障人士來說卻往往是可望而不可及的,在一定程度上反 而使他們更加脫離了社會群體。隨著信息的飛速膨脹,交換信息早已成為我們?nèi)粘I钪胁豢苫蛉钡囊粋€重要組成部 4 分。研究如何能讓聾人與健聽人一樣快速而準確地獲得信息是一項富有挑戰(zhàn)性,但同時對提高聾人生活質(zhì)量極有意義的工作。 手語是聾人交流時使用的語言,其通過手形狀、位置與方向的變化來表達特定的語義。目前我國大多數(shù)聾人都使用中國標準手語作為交流的工具,而聾校等教育機構(gòu)已經(jīng)成為標準化手語表達的核心推動力量。有統(tǒng)計數(shù)字表明,聾人對文字信息的接受速度僅為 15-25WPM;與之相對比,而對于手語信息的接受速度卻高達 175-225WPM,是理解文字信息速度的 7到 10 倍左右。這主要是因為手語語法與漢語文法有著很大的不同,所以導致聾人在閱讀和理解速度上對文字信息有一定的障礙。由此可見,手語在聾人交流過程中起到了非常重要的作用,可以說手語是聾人掌握信息、交流信息的第一工具。 在實際生活中,人們已在通過手語的信息傳播方面進行了多種嘗試。例如將手語表達應用于信息傳播最通用的媒介 新聞播報。通過手語培訓的新聞播報員直接將新聞翻譯成手語動作來進行播報,從一定程度上解決了一部分聾人看新聞難的問題,但效果卻并不理想并且在推廣普及方面更存在著一定的 問題:首先,培訓手語播報員需要的周期長,對播報員本身的素質(zhì)要求很高;其次,由于媒體眾多,也沒有足夠的人力來滿足這么大的需求量;此外,對于未來的媒體發(fā)展形式來說,手語播報將是一種面向用戶的服務,需要它是一種多語種、可調(diào)控的自適應式的媒體,所以由人本身來實現(xiàn)這樣的需求,難度可想而知。正是由于手語播報在面向聾人的信息傳播上有著不可忽視的作用,并且通過人力本身難以達到實際的需求,這才引發(fā)了我們引入 5 動畫合成技術(shù)、用虛擬人來代替真人進行手語播報,利用數(shù)字視頻在數(shù)字電視中顯現(xiàn)出來。 數(shù)字電視和數(shù)字視頻點播系統(tǒng)是世界各國公 認的朝陽產(chǎn)業(yè)之一,隨著家庭數(shù)字化和網(wǎng)絡化的發(fā)展,人們在家里就可以通過數(shù)字電視和網(wǎng)絡開始來獲得信息,這使其成為一種理想的信息傳播渠道。我們獲得信息的方式主要有以下幾種:音頻、視頻、文字及其他媒體等 (如網(wǎng)頁瀏覽、 Flash 等 )。而對于聾人來講,音頻信息他們無法獲得,視頻信息也只得其形不得其聲,因而文字信息的理解速度也是遠遠低于實際需要。 在數(shù)字電視方面,我們 研究成功的數(shù)字電視機頂盒已經(jīng) 可以 提供有標清電視和高清電視以及數(shù)據(jù)廣播、電子政務等多項業(yè)務。為提高聾人的生活質(zhì)量同時也促進數(shù)字電視產(chǎn)業(yè)鏈發(fā)展,因此研究一種通 過數(shù)字電視進行手語信息播報的系統(tǒng)對于幫助聾人更快捷、有效的掌握信息,擴大聾人與正常人群的交流,增加他們的受教育機會與推廣手語的標準化過程都有著極為重要的作用和深遠的意義。 (二)國內(nèi)外技術(shù)發(fā)展現(xiàn)狀與趨勢 近些年來,國內(nèi)外在手語表達方面做出了大量的研究與探索。通過不斷的努力,使用虛擬人進行手語表達已經(jīng)在多個國家初具規(guī)模。但由于整個系統(tǒng)中涉及到多項技術(shù),包括計算機圖形學、計算機動畫、自然語言處理、機器學習等,所以對于實現(xiàn)一套完整的基于網(wǎng)絡的手語信息播報系統(tǒng)是具有相當?shù)碾y度的。在國外,最早的計算機手語合 6 成的研究是 1982 年美國的 Shantz 和 Poizner 制作了一種用計算機合成美國手語的程序。之后,許多國家都進行了自己國家的手語合成研究。日本日立研究中心以及通信研究中心分別將基于拼接的手語合成系統(tǒng)用于了從語音到手語的合成原型系統(tǒng)中。 Vcom3D 也發(fā)布了基于拼接的北美手語合成應用系統(tǒng),其中 Vcom3D 采用的是運動跟蹤數(shù)據(jù)而 SignTel 使用的是視頻數(shù)據(jù)。 Televirtual公司也開發(fā)了基于拼接合成的系統(tǒng) -Simon,目前這套系統(tǒng)被集成到 ViSiCAST系統(tǒng),主要用于英國手語識別與合成。有學者專門研究了在手語表 達中人臉表情還有其他模式的重要性,結(jié)果表明缺乏人臉動畫的手語合成的可懂度只有 60%-70%。 Normal Badler 提出 PAR(Parameterized Action Representation)參數(shù)化運動表達模型,用于 EMOTE 系統(tǒng)中,該模型根據(jù)知識可以讓虛擬人自動生成一些控制參數(shù)用于美國手語以及表情合成。 Vcom3D Inc 開發(fā)了一個 3D 虛擬人 Signing Avatar,可以通過手語和臉部表情在 Internet上與其他人交流。 I. Wachsmuth 和S. Kopp給出了基于時間的協(xié)同控制機 制,使虛擬人可以合成手語并保持與語音同步。 在國內(nèi),徐琳從機器翻譯的角度對中國手語進行了語言學方面的分析工作,并實現(xiàn)了語言上的中國語言拆分技術(shù)以及基于規(guī)則的中國手語合成系統(tǒng)。中國科學院 計算技術(shù) 研究所 、中國科學院研究生院和北京工業(yè)大學 通過數(shù)十人的研究人員以十年的研究時間研究出一整套中國手語的表達系統(tǒng),并可以在通過網(wǎng)絡進行手語信息的表達,目前已經(jīng)取得國家科技進步獎二等獎一項與 中國高等學校科技進步一 7 等獎 一項。 YiQiang Chen 實現(xiàn)了基于拼接的文本到手語的合成,在顯示方法上實現(xiàn)了基于多角色虛擬人模型的中國手語 三維顯示,采用了多模式行為協(xié)同韻律模型,實現(xiàn)了手勢運動與唇動、面部表情的協(xié)同同步。王海泉等也通過 OpenGL 制作出了手語表達系統(tǒng)等。從功能上講,中科院研究的手語表達系統(tǒng)與網(wǎng)上新聞發(fā)布系統(tǒng)已經(jīng)可以進行手語新聞播報。但是考慮到實際應用的效果,無論是在系統(tǒng)結(jié)構(gòu)上還是在進行新聞播報過程中,由于傳輸數(shù)據(jù)量過大而使服務吞吐量與魯棒性都受到了嚴重的影響,從而限制了系統(tǒng)的實用性。 而國內(nèi)數(shù)字電視發(fā)展是很快的,隨著數(shù)字化產(chǎn)品及信息服務在家庭不斷滲透并日益融合,數(shù)字家庭已成為新的消費熱點,并且迅速發(fā)展成一個規(guī)模巨大、產(chǎn)業(yè)關(guān)聯(lián) 性強的行業(yè)。為抓住數(shù)字家庭發(fā)展機遇,世界各國政府和企業(yè)紛紛采取有力的措施,促進數(shù)字家庭產(chǎn)業(yè)發(fā)展。國家發(fā)展改革委、廣電總局、信息產(chǎn)業(yè)部等部門也高度重視和支持數(shù)字電視的發(fā)展。國內(nèi)一些知名企業(yè)也積極參與產(chǎn)業(yè)推進工作。 數(shù)字電視取代模擬電視是全球廣播電視發(fā)展的必然趨勢。數(shù)字機頂盒是收看數(shù)字電視的必備設備,國際市場容量巨大并穩(wěn)步增長,國內(nèi)市場整體平移已實質(zhì)性啟動并快速增長。我國現(xiàn)有有線電視用戶 1億戶,模擬電視機 4.7 億臺。我國主要大中城市有線廣播電視網(wǎng)已經(jīng)基本完成了節(jié)目采集、制作、播出的數(shù)字化,衛(wèi)星和光纜干線也基本實 現(xiàn)了數(shù)字信號的傳輸。但是在接收環(huán)節(jié),由于用戶電視機還是模擬的,無法接收數(shù)字電視節(jié)目,已經(jīng)成為影響廣播電視數(shù)字化的瓶頸。要打破這個瓶頸,實現(xiàn)有線電視數(shù)字化,關(guān)鍵就是將接收環(huán)節(jié)的電視 8 機裝上機頂盒,能夠接收數(shù)字信號,從而使數(shù)字電視信號暢通無阻,實現(xiàn)全程數(shù)字化。廣播電視數(shù)字化就是將模擬用戶整體平移成數(shù)字用戶。 廣東省在 2005 年 10 月啟動了“ 廣東數(shù)字家庭行動計劃 ”,由于有線電視用戶與電腦用戶相差了一個數(shù)量級,兩者比例大概為 10:1,選擇以電視為中心的數(shù)字家庭模式更容易解決信息化成果進入家庭的問題 。按照計劃,在 2006 年底, 廣東 省數(shù)字電視整體轉(zhuǎn)換將在珠三角發(fā)達地區(qū)完成,在 2008 年底完成其它地市的數(shù)字電視整體轉(zhuǎn)換后,廣東省數(shù)字電視用戶 達 到 1000 萬戶,由于一戶多個終端的存在,實際終端數(shù)將遠遠超過 1000 萬臺。 而 在過去七年, 全國 有線數(shù)字電視用戶數(shù)量的增長呈現(xiàn)出飛速上升的勢頭, 2003-2006 年有線數(shù)字電視用戶數(shù)量分別為 28 萬戶、 102 萬戶、 345 萬戶、 1300 萬戶, 2007年突破了 2800 萬戶的大關(guān)。按規(guī)劃,到 2010 年全國絕大部分地區(qū)城鎮(zhèn)的有線電視基本實現(xiàn)數(shù)字化,有線數(shù)字電視用戶規(guī)模將超過 1 億戶 。 根據(jù)中國投資咨詢網(wǎng)發(fā) 布的 2008 年中國數(shù)字電視產(chǎn)業(yè)分析及投資咨詢報告,到 2010年中國數(shù)字電視機頂盒市場規(guī)模將達到 2050萬臺,整個數(shù)字電視產(chǎn)業(yè)的規(guī)模預計將達到 1.5 萬億元。 數(shù)字電視給用戶帶來的不僅僅是頻道更多、圖象質(zhì)量更清晰的電視節(jié)目。數(shù)字電視和模擬電視最大的不同是,提供豐富的綜合業(yè)務功能,促進業(yè)務內(nèi)容從單一化向綜合化、多樣化方向發(fā)展,從廣播性服務向個性化服務方向發(fā)展。用戶付費接收多媒體娛樂內(nèi)容,用戶購買的是服務。只有用戶享受到了傳統(tǒng)模擬電視所不能享受到的服務,認 9 為物有所值,才能心甘情愿地買單,用戶規(guī)模才能迅速發(fā)展。新 技術(shù)的發(fā)展,將為全面數(shù)字化提供有效手段,為數(shù)字電視提供了一系列新業(yè)務、新功能,將大大推動數(shù)字電視用戶的發(fā)展。電視營運模式也將從過去以廣告收入為主體的電視節(jié)目服務,改變?yōu)樵鲋捣铡⒏顿M電視等互動電視。數(shù)字家庭未來發(fā)展趨勢,從服務面來看未來將走向電視商務服務、增值服務、付費電視、視頻點播服務,從應用環(huán)境面看將朝家庭網(wǎng)絡 (Home Network)發(fā)展。充分交互、互動,面向多業(yè)務,促進收看方式個性化將充分展現(xiàn)數(shù)字電視的優(yōu)勢,充分拉動需求, 形成 巨大的 需求, 并帶動電子設備產(chǎn)業(yè)(電視機、電子元器件、核心軟件、集成電路、 付費電視等)、服務提供運營商(游戲開發(fā)商、學校、醫(yī)院、商場等)的產(chǎn)業(yè)發(fā)展 。 綜上所述,本項目旨在能夠在數(shù)字電視上利用虛擬人將手語表達出來,能夠為殘疾人事業(yè)的發(fā)展提供切實有利的幫助。設計一個功能強大、魯棒性強、服務吞吐量大、內(nèi)容完備的系統(tǒng)以滿足其在網(wǎng)絡推廣方面的需求。滿足殘疾人的實際需要。 (三)項目的產(chǎn)業(yè)化前景分析 而隨著數(shù)字電視產(chǎn)業(yè)化的發(fā)展,我們可以利用數(shù)字機頂盒來收看數(shù)字電視獲得相關(guān)信息,我們獲得信息的方式主要有以下幾種:音頻、視頻、文字及其他媒體等 (如網(wǎng)頁瀏覽、 Flash 等 )。而對于聾人來講,音頻信 息他們無法獲得,視頻信息也只得其形不得其聲,文字信息的理解速度也是遠遠低于實際需要。因此研究一種通過網(wǎng)絡進行手語信 10 息播報的系統(tǒng)對于幫助聾人更快捷、有效的掌握信息,提高聾人的生活質(zhì)量,擴大聾人與正常人群的交流,增加他們的受教育機會與推廣手語的標準化過程都有著極為重要的作用。 正是基于上述的需求,我們考慮設計并實現(xiàn)一個基于數(shù)字電視的通過虛擬人動畫的形式來傳遞信息的手語播報系統(tǒng)。通過虛擬人的手勢動作、表情等配合其他傳統(tǒng)媒體形式來使聾人能夠從多方面捕獲信息,幫助他們更加及時、準確而高效地獲得信息、分享信息以及利用信 息,進一步縮短他們與健聽人之間的交流障礙。 首先,本系統(tǒng)可以作為新型的數(shù)字視頻點播系統(tǒng)為廣大聾人所接受。 傳統(tǒng)的新聞發(fā)布系統(tǒng)只支持對于文字 、 音頻 、 視頻以及向 flash 這樣的傳統(tǒng)媒體的發(fā)布,但是 這樣的媒體是不適宜聾人所使用的。我們的系統(tǒng)提供將信息轉(zhuǎn)化為 手語 進行播報 ,使聾人能夠 真正 看懂 信息 。 這在科技亞運的推廣方面顯得尤為重要,本系統(tǒng)利用虛擬解說員通過手語對體育比賽做實況的播報,可以極大地活躍賽場聾人群體的氣氛、充分調(diào)動聾人的情緒,使聾人和健聽人一樣可以享受體育的快感,體會奧林匹克的精神,真正地參與到全民活動中 去。 其次,本系統(tǒng)還可以利用網(wǎng)絡這個全球化的信息平臺為聾人提供更加全面、便捷的資訊服務。目前,網(wǎng)絡對于我們健聽人來說早已成為了日常生活的百科全書和信息交換平臺。求醫(yī)問藥、咨詢、導購等都早已成為網(wǎng)絡的基本功能。其中絕大部分需求都是通過獲取相關(guān)的文字信息來實現(xiàn)信息的獲取,這對于聾人來說是困難且不便的。本系統(tǒng)恰可以提供這樣一個轉(zhuǎn)換的平臺,將文字信息轉(zhuǎn)換為聾人更易于接 11 受的手語視頻,使其能夠和所有健聽人一樣來享受網(wǎng)絡帶來的便捷生活,真正體現(xiàn)網(wǎng)絡“網(wǎng)聚一切”的力量。 此外,本系統(tǒng)還可以輔助于殘疾兒童的教育事業(yè)。 隨著現(xiàn)代 化步伐的加快,現(xiàn)代高科技越來越關(guān)注弱勢群體,相關(guān)技術(shù)成果在殘疾人康復、教育等方面的應用力度越來越大,應用領(lǐng)域越來越廣泛,尤其是在殘疾兒童少年的教育中愈來愈發(fā)揮著重要的作用。 本系統(tǒng)可以幫助學齡的兒童更早、更規(guī)范的掌握中國手語,為他們提供簡單的網(wǎng)絡教學課程,將生動有趣的課外讀本作成手語版的電子圖書。相信科技本身活潑、生動的特性將更有利于提升兒童的學習興趣,同時為他們提供更廣泛的學習環(huán)境以及更多的學習資源。 綜上所述,本系統(tǒng)自身具有非常廣泛的應用價值, 是 為殘疾人 提供無障礙信息服務一項核心技術(shù),可以為殘疾人 事業(yè)的發(fā) 展提供切實有利的幫助。并且,系統(tǒng)中涉及的理念及相關(guān)的技術(shù)點也具有很強的理論價值和推廣意義。如中國手語自動分詞對于針對中國手語的自然語言處理系統(tǒng)具有普遍的應用價值;真實感繪制部分提出的算法是提高系統(tǒng)可懂性的關(guān)鍵,同時也是提升各種虛擬人系統(tǒng)實用性、生動性、趣味性以及交互性的核心;壓縮傳輸部分的技術(shù)研究更是網(wǎng)絡環(huán)境下一直被普遍關(guān)注的問題,并且可以隨著數(shù)字電視產(chǎn)業(yè)的發(fā)展而普及開了。 12 二、研究開發(fā)內(nèi)容、方法、技術(shù)路線 (一)主要研究內(nèi)容 基于數(shù)字電視的虛擬人手語播報系統(tǒng)以數(shù)字電視節(jié)目中的多媒體流為驅(qū)動源,實現(xiàn)虛擬人動 畫形式的、與電視節(jié)目內(nèi)容對應的中國手語解說。 本項目的 主要設計構(gòu)想是 數(shù)字電視客戶端通過向數(shù)字電視媒體 服務器發(fā)送 信息點播 請求信息,在服務器端通過驗證后下載包含相應信息 多媒體流 , 通過數(shù)字電視機頂盒 解析正文并加載數(shù)據(jù),然后通過手語播報的方式將手語信息 進行自適應表現(xiàn),再 同傳統(tǒng)媒體信息一同進行發(fā)布,為客戶提供更加便捷、可懂度更高的信息接受方式。 圖 2 - 1 虛擬人手語播報系統(tǒng)體系結(jié)構(gòu) 1.多媒體流驅(qū)動的中國手語合成 ( 1)中國手語標記語言的研究 中國手語標記語言 是自然語言文本與手語行為動畫之間的橋梁, 13 其面向中文文本提供文本語義、語法標記,面向手語 行為建模 過程提供標記符號與手語基元之間的映射,提供文本驅(qū)動手語合成系統(tǒng)的框架解決方案。 自 然 語 言文 本 理 解多 模 式手 語 行 為 建 模虛 擬 人 繪 制文 本 標 記 語 言 文 本音 頻視 頻音 視 頻數(shù) 據(jù) 分 析韻 律 參 數(shù)動 畫 腳 本 文 件動畫多 媒 體 流圖 2 - 2 多媒體流驅(qū)動的中國手語合成 ( 2)虛擬人手語行為建模 虛擬人手語行為建?;跀?shù)字電視節(jié)目多媒體流中的文本提取手語行為的基本動作參數(shù)和基本韻律參數(shù),基于多媒體流中的視頻、音頻描述提取手語行為韻律參數(shù),后一類參數(shù)用于實現(xiàn)手語動作模型中關(guān)鍵點的實時修正,最大程度地實現(xiàn)手語動畫 與數(shù)字電視節(jié)目內(nèi)容在語義上的匹配。 圖 2 - 3 虛擬人建模范例 ( 3)多模式手語信息的同步表達 在多模式信息的協(xié)同中,相關(guān)的研究問題主要有兩個: 1)單一模式信息韻律模型的學習獲取,主要研究在合成單一模式信息過程 14 中,控制合成的韻律變化規(guī)律; 2)多模式信息協(xié)同韻律控制模型的學習生成,主要研究多模式信息之間如何保持精確和準確的同步和協(xié)調(diào)運動。 圖 2-4多模式手語信息協(xié)同表達 2.虛擬人手語播報系統(tǒng)平臺 基于數(shù)字電視的虛擬人手語播報系統(tǒng),采用 嵌入式 中間件組件化的設計思想,使其能夠運行于特定資源限制和功能性能要求系統(tǒng)的軟件平臺。針對數(shù)字電視的要求,建立靈活的硬件適配層, 實現(xiàn) 虛擬人手語播報系統(tǒng)。 基于數(shù)字電視的虛擬人手語播報系統(tǒng) 平臺中,服務器、固定計算終端被部署在社會公共服務網(wǎng)絡中, 由此形成了服務器、固定計算終端、移動終端資源共享、協(xié)同工作的分布 式計算網(wǎng)格。 15 數(shù) 字 電 視圖 2 - 5 手語交互系統(tǒng)的體系架構(gòu)圖 該系統(tǒng)主要包括資源主動察覺、傳輸控制、動畫控制、渲染顯示和資源信息自適應表現(xiàn)等模塊。 a.資源主動察覺模塊:通過分散在節(jié)點上的傳感器、存儲文件、目錄服務等技術(shù)方法,構(gòu)成普適計算環(huán)境中的資源主動覺察體系。自動、實時發(fā)現(xiàn)和收集這些計算資源的狀態(tài),從動態(tài)變化的資源池中采用高效的資源發(fā)現(xiàn)算法,選擇合適的計算資源進行協(xié)同計算。 b.傳輸控制模塊:通過操作系統(tǒng)提供的網(wǎng)絡接口 API,針對普適網(wǎng)絡條件,完成 對服務器或其他終端的訪問,獲得手語動畫的模型和腳本數(shù)據(jù)。考慮到普適網(wǎng)絡的動態(tài)性特點,為解決延時過長的問題,我們對數(shù)據(jù)采用流式傳輸?shù)姆椒?,即系統(tǒng)不等待整個文件完全下載,支持對已接收的部分進行動態(tài)流式的顯示。 c.動畫控制模塊:根據(jù)接收到的腳本數(shù)據(jù),對三維模型數(shù)據(jù)進行流式的操作。渲染顯示模塊利用 OpenGL ES 提供的 3D 圖形接口,根 16 據(jù)腳本數(shù)據(jù)中的顯示要求,完成三維人體模型在終端上的渲染和顯示,形成手語動畫。 d.資源信息自適應表現(xiàn)模塊:根據(jù)終端顯示性能,一方面對應用于手語動畫的三維模型進行調(diào)整,同時對動畫、圖 片和文本等界面元素進行自適應布局。用戶還可以在普適終端上通過鍵盤、鼠標或觸摸屏對手語動畫的內(nèi)容和顯示進行交互控制。 ( 1) 嵌入式系統(tǒng)平臺體系架構(gòu) 本項目針對數(shù)字電視的特點, 采用 嵌入式 中間件的設計思想 ,研究如何通過家庭中的數(shù)字電視機雙向互動機頂盒來完成虛擬人手語播報系統(tǒng) , 以 保證 項目中 程序的可移植性 ;并研究動態(tài)組件跟實時多任務內(nèi)核的交互技術(shù),以提高中間件平臺的性能和效率 。 ( 2)自適應交互界面生成及表示 本項目將研究面向數(shù)字電視訪問請求的界面自適應表現(xiàn)方法,需要根據(jù)訪問內(nèi)容的特征,在服務器端建立界面調(diào)配功能, 自適應生成基于 XML 標準的界面描述語句,定義多媒體信息在數(shù)字電視上的顯示風格和特征,實現(xiàn)內(nèi)容媒體在數(shù)字電視上的交互界面自適應表現(xiàn)。 ( 3) 手語動畫數(shù)據(jù)壓縮、傳輸及顯示 面向數(shù)字電視 的手語播報系統(tǒng)是一個服務密集型的應用,需要應付大吞吐量的業(yè)務,這就要求系統(tǒng)本身的性能是非常理想的。但是由于系統(tǒng)運作本身涉及大量數(shù)據(jù),因此網(wǎng)絡傳輸時如何能夠有效地壓縮數(shù)據(jù)并降低數(shù)據(jù)的傳輸量,成為了影響系統(tǒng)效應的瓶頸問題。所以, 17 我們有必要考慮數(shù)據(jù)的存儲以及傳輸方式,盡量降低網(wǎng)絡的負載,從而保證系統(tǒng)的性能。 本項目 研究手語動畫的 壓縮、傳輸 及表示方法,根據(jù)客戶端的能力和網(wǎng)絡傳輸?shù)韧庠谟绊懸蛩?,進行自適應傳輸,以實現(xiàn)手語動畫的實時繪制及顯示。 (二)擬解決的關(guān)鍵技術(shù) 關(guān)鍵技術(shù)一: 面向中國手語的自然語言文本理解 面向中國手語的自然語言文本理解實現(xiàn)自然語言文本到中國手語書面表達形式的轉(zhuǎn)換,給出自然語言文本的中國手語標記語言描述文本。中國手語標記語言的具體體現(xiàn)形式為基于 XML 的自定義符號及規(guī)則集合,其中的標記符號分層次定義,高層符號定義中國手語的韻律特征,底層符號定義中國手語表達的多維語義描述參數(shù)。 關(guān)鍵技術(shù)二: 基于多媒體流的虛擬人手語行為建模 基于 中國手語標記語言文本中的手語行為描述,輔助以從視頻流、音頻流獲取的行為韻律描述,實現(xiàn)虛擬人手語行為建模。一個文本形式的手語詞在手語動畫中可能需要虛擬人的多個不同模式的行為協(xié)同表達,不同模式行為間的協(xié)調(diào)、融合以及單個模式行為韻律的確定都是虛擬人手語行為建模部分要解決的關(guān)鍵問題。 18 圖 2 6 虛擬人手語手語行為建模 關(guān)鍵技術(shù)三: 手勢、文本、表情、唇動和語音信息的協(xié)同表達 因為聾人手語是一個典型的多模式人體行為協(xié)同的示例,需要有協(xié)同的手勢動作、口型和唇動、表情和頭部運動。因此,本項目將以中國聾人手語合成為示例,基于學習的方法,以多模式真實運動數(shù)據(jù)為素材,學習多模式人體行為的協(xié)同關(guān)系,將這些結(jié)果抽象為可以理解和使用的知識,并應用這些知識實現(xiàn)文本 /語音驅(qū)動的、多模式人體行為協(xié)同與合成。 圖 2 -7 多模式人體行為協(xié)同與合成。 關(guān)鍵技術(shù)四: 數(shù) 字電視嵌入式中間件平臺 本項目研發(fā)的虛擬人手語播報系統(tǒng)是 數(shù)字電視交互應用,需要以 19 數(shù)字電視為中心,利用數(shù)字 電視雙向互動機頂盒 實現(xiàn)數(shù)據(jù)的雙向傳輸。 在數(shù)字電視系統(tǒng)上,如何提供有效的動態(tài)組件支持,包括動態(tài)加載、重定位和中間線程庫等,提高靈活性和可擴展性,是數(shù)字電視 嵌入式 中間件平臺要研究的重要問題。 關(guān)鍵技術(shù)五: 面向數(shù)字電視訪問請求的手語動畫界面自適應表現(xiàn) 自適應交互界面生成技術(shù)是智能感知人機交互界面的表現(xiàn),體現(xiàn)了 數(shù)字電視 以用戶為中心的透明服務思想。因此,如何針對 數(shù)字電視設備訪問事務的特征,實現(xiàn)自適應交互界面生成技術(shù) ,是推進 數(shù)字電視服務人性化 的關(guān)鍵問題之一。 關(guān)鍵技術(shù)六: 基于數(shù)字電視的手語動畫壓縮及傳輸方法 在手語播報系統(tǒng)中,三維模型本身是由網(wǎng)格與紋理數(shù)據(jù)構(gòu)成的。本項目 重點研究在數(shù)字電視上的 3D圖形和 3D動畫的 壓縮傳輸及 顯示技術(shù) ,通過使用 基于幾何序列的多分辨率粗粒度壓縮算法 、 基于DC-LZMA的手語數(shù)據(jù)壓縮算法 和 基于自適應位平面的紋理數(shù)據(jù)壓縮算法 來提高交互電視系統(tǒng)的服務吞吐量與可用性 。 同時 研究 三維網(wǎng)格圖形數(shù)據(jù)在數(shù)字電視的上的顯示技術(shù)。通過使用 一種插值逼近細分的統(tǒng)一模式 實現(xiàn)手語模型的顯示。 在同一曲面內(nèi)實現(xiàn)部分插值部分逼近 。只通過修改一個參數(shù)值即可實現(xiàn)局部插值,計算時間復雜度為 O(1)。使得顯示能夠達到實時同步和逼真。 20 (三)擬采用的方法、技術(shù)路線以及工藝流程 項目 總體研究 技術(shù)路線 如下圖所示。 圖 2 - 8 項目 研究 技術(shù)路線示意圖 1.多媒體流驅(qū)動的中國手語合成 ( 1)中國手語標記語言的研究 中國手語標記語 言的研究目標是定義中國手語的機器語言描述方式,重點在于符合文本語義的手語韻律的定義與標記, 下圖 是擬采用的中國手語標記結(jié)構(gòu)圖。 21 圖 2 - 9 中國手語標記結(jié)構(gòu)圖 ( 2)基于多媒體流的虛擬人手語行為建模 數(shù)字電視節(jié)目的多媒體流提供了節(jié)目內(nèi)容對應的文本、視頻、音頻形式描述,虛擬人手語行為建模基于這些描述提取手語行為的基本參數(shù)和韻律參數(shù),建立富含韻律的、多模式協(xié)同的手語行為模型?;谖谋咎崛〉膭幼鲄?shù)和韻律參數(shù)給出了手語行為的基本描述,該描述中給出的手語行 為基本參數(shù)需要依據(jù)應用語境進行參數(shù)沖突消解、語義修正等相關(guān)計算,分析多媒體流中的視頻、音頻數(shù)據(jù)即可以獲取用于對手語行為描述進行實時修正的韻律參數(shù)。 中 國 手 語 標 記 語 言音 頻視 頻音 視 頻數(shù) 據(jù) 分 析動作韻律參數(shù)韻 律 參 數(shù)沖 突 消 解標 記 語 言 文 本處 理動作韻律參數(shù)動 作 韻 律 參 數(shù)動 作 參 數(shù)多 模 型 行 為協(xié) 同手 語 動 畫 參 數(shù)圖 2 - 10 基于多媒體流的中國手語行為建模 22 ( 3)多模式 手語 信息 同步 表達 多模式信息表達將首先利用運動跟蹤設備以及視頻采集卡,采集大量真實人在表達時的多模式行為數(shù)據(jù),在這些數(shù)據(jù)的基礎上,綜合利用各種統(tǒng)計學習,數(shù)據(jù)挖掘技術(shù),發(fā)現(xiàn)各種模式行為合成中的韻律模式以及這些模式行為之間的同步關(guān)系以及協(xié)同關(guān)系,并將這些關(guān)系用于虛擬人多模式行為的表達上,從而得到具有多 模式行為(語音,唇動,人臉,手語)表達能力的 虛擬人。 圖 2 -11 手部、頭部、口型等部位各關(guān)節(jié)點運動表達方法 2.基于數(shù)字電視的虛擬人手語播報系統(tǒng) ( 1)數(shù)字電視 嵌入式 中間件平臺 本課題建立數(shù)字電視嵌入式中間件平臺。我們按嵌入式產(chǎn)品生命周期,包括:產(chǎn)品定義、軟件與硬件劃分、詳細的硬件與軟 件設計、硬件與軟件的集成、產(chǎn)品測試與發(fā)布、持續(xù)維護與升級等階段,加速嵌入式產(chǎn)品軟件開發(fā),減少產(chǎn)品項目任務的風險。 課題 中還需要設計一些必要的應用支撐軟件,這些應用支撐軟件 23 需要設計得通用,擴展性好,使用靈活。在設計的過程中計劃按照面向?qū)ο蟮脑O計方式,組件對象模型的設計思想,盡量減少工具平臺中各個模塊之間的耦合性,使得整個工具平臺中各個模塊的結(jié)構(gòu)層 次清晰。同時還將提供一種低耦合的對象通訊機制,方便對象間的通訊 。 ( 2)面向數(shù)字電視的三維圖形及腳本手語動畫腳本的表示方法 腳本是用基于腳本的創(chuàng)作工具提供的語言所編寫 的一段代碼,以類似程序設計語言的形式控制多媒體素材。手語動畫腳本的定義,首先要考慮手語語意信息的表達。對于手語而言,影響信息表達的因素除了肢體,尤其是手部的動作之外,還包括面部的細節(jié)動作。像表情動作、唇動、眼動等面部的細節(jié)動作對于手語含義的理解都具有重要的輔助作用。同時,手語動畫的腳本還要考慮普適網(wǎng)絡環(huán)境的特點,根據(jù)腳本的傳輸需求設計相應的功能結(jié)構(gòu)。我們提出的腳本定義,使用 XML語言,以單個動畫幀為最小單位。 如下圖所示,一個單幀動畫腳本的主要結(jié)構(gòu)包括: 圖 2 - 13 手語動畫腳本定義圖 24 標簽 標簽部分是主要用于腳本流式傳輸?shù)目刂平Y(jié)構(gòu),其主要結(jié)構(gòu)如下 : 其中, (版本號)和 (編碼格式)包含了腳本的版本、格式及相應處理器等信息; (腳本信息)說明了該腳本的內(nèi)容及總幀數(shù)等信息; (該幀編號)和(幀間延時限制)分別標識了該動畫幀的編號和系統(tǒng)或動畫語意允許的該幀與下一幀之間的最大幀 間延時時間。 幀動作控制元素 幀動作控制元素主要包括幀控制時間、肢體動作控制數(shù)據(jù)和面部動作控制數(shù)據(jù),用于驅(qū)動三維人體模型,完成手語動畫。具體內(nèi)容如圖所示: 圖 2 - 14 幀動作控制元素內(nèi)容 其中 (幀控制時間)控制該動畫幀的播放時間,可以用于調(diào)整手語節(jié)奏和韻律; (肢體動作控制數(shù)據(jù))用于控制與手語表現(xiàn)有關(guān)的人體模型各肢體關(guān)節(jié)的轉(zhuǎn)動角度和方向,以生成動畫;(面部動作控制數(shù)據(jù))控制面部與表情、唇動和眼動有關(guān)的各 25 關(guān)鍵點的運動。 ( 3) 基于細分的模型精確顯示方法 細分作為一種 主流曲面建模工具之一,可以提供模型在終端上的精確顯示方法,幫助終端根據(jù)用戶選擇或者終端顯示能力,對粗糙網(wǎng)格進行細化,獲得更好的顯示效果。細分有插值細分和逼近細分之分,各具優(yōu)勢。我們給出一種插值逼近細分的統(tǒng)一模式,在同一曲面內(nèi)實現(xiàn)部分插值部分逼近。不同于現(xiàn)存的采用反求控制頂點的方法實現(xiàn)局部插值細分的方法,我們所提出的方法無需反求控制頂點,也即無需求解全局方程,只通過修改一個參數(shù)值即可實現(xiàn)局部插值,計算時間復雜度為 O(1)。 多分辨率分解作為細分方法的一個重要應用之一。然而逼近細分每次細分得到的網(wǎng)格相比上一層都 會“收縮”,而插值細分則相反,會“膨脹”。因而在做多分辨率分解和還原時,會產(chǎn)生“跳躍”現(xiàn)象。我們設計的插值逼近細分的統(tǒng)一模式在某個程度上很好的解決了這個問題。 下 圖是采用我們的方法實現(xiàn)的局部插值和用于解決“跳躍”問題的例子: 圖 2 - 15 統(tǒng)一插值逼近細分效果圖 針對目前 P3,P2 細分奇異點處 mask 的權(quán)值無法顯式表示的問 26 題。采用插值逼近細分的統(tǒng)一模式直接從逼近細分生成新的插值細分,無需再計算奇異點處 mask。解決了 P3,P2 細分奇異點處 mask 的權(quán)值無法顯式表示的問題。圖是采用插值逼近細分統(tǒng)一模 式生成的插值 P3細分 mask的細分例子: 圖 2 - 16 統(tǒng)一插值逼近細分效果圖 ( 4)手語數(shù)據(jù)壓縮與傳輸 a. 三維網(wǎng)格數(shù)據(jù)壓縮 在手語播報系統(tǒng)中,三維模型本身是由網(wǎng)格與紋理數(shù)據(jù)構(gòu)成的。為了有效地進行多分辨率網(wǎng)格壓縮,我們把幾何圖的概念擴展到幾何序列上。首先通過使用 Hoppe 提出 的方法將三維模型展開為一個多分辨率的描述 M0, M1 .Mn,定義網(wǎng)格質(zhì)量函數(shù) Q(M),使得 這樣的多分辨率網(wǎng)格定義就更加直接與明了。通過使用幾何圖方法,這一系列的網(wǎng)格就會被轉(zhuǎn)成一張張的幾何圖 GI0, GI1, ., GIn,它們滿足: GIi = Parameterize(Mi) 下圖所示為一個幾何序列的生成過程: 27 圖 2 - 17 幾何序列的生成過程 因為不同的幾何圖代表了不同的三維層次細節(jié),所以它們的 大小不同,而在視頻壓縮中,每幀的大小都是相同的,所以在這里需要經(jīng)過一個圖像對齊的過程,將圖像對齊到最大層次細節(jié)的幾何圖的大小,在對齊過程中涉及到將低分辨率的幾何圖放大的問題,我們使用雙線性插值算法對圖像中間的象素進行處理,使用近鄰法對邊緣象素進行插值,這樣就可以保證在恢復原始分辨率的時候,保證重構(gòu)模型可以正 常完成縫合。經(jīng)過了對齊過程之后,所有的幾何圖都處于同一大小上,就可以選用合適的視頻編碼器對幾何序列進行壓縮了。 b. 基于 DC-LZMA的手語數(shù)據(jù)壓縮 針對手語動作驅(qū)動數(shù)據(jù)的特征,我們設計了基于 DC-LZMA的手語動作數(shù)據(jù)壓縮算法。該算法的原理框圖如 下 圖所示: 圖 2 - 18 基于 DC-LZMA 的手語數(shù)據(jù)壓縮算法原理框圖 由于手語動作驅(qū)動數(shù)據(jù)與視頻序列有著相似的幀間相關(guān)性,在處 28 理這種相關(guān)性的時候是使用了運動補償?shù)姆椒?,相同的方法也可以被借鑒到手語動作數(shù)據(jù)的處理中。不同的是手語幀中這樣的相關(guān)性更容易被 消除,因為兩幀之間關(guān)節(jié)的位置是對應的,所以不需要使用位置匹配或是濾波預測等技術(shù)進行處理,而只是需要直接進行相差就可以。我們稱這一過程為差異補償 (DisparityCompensation,簡寫為DC)。 可以看出,通過連續(xù)兩幀之間的差異去相關(guān),動作角本文件的能量已經(jīng)大大下降。這樣也更有利于進一步的壓縮。在手語動作數(shù)據(jù)去相關(guān)之后,因為每個角度數(shù)據(jù)的浮點位后都只保留五位小數(shù)位,這樣我們就可以將手語動作數(shù)據(jù)中的所有空格都從角本中刪除,這在角本數(shù)據(jù)中就只有數(shù)字、小數(shù)點與負號需要進行壓縮了,這樣也有利于對上下文進行更 有效的建模。 c.基于自適應位平面的紋理數(shù)據(jù)壓縮算法研究 經(jīng)過小波分析, 原始紋理圖像 I 被分解為一系列的頻帶 LLn, LHn,HLn,HHn, LLn-1, ., HH0。其中 LLn 是最低頻的系數(shù),而HH0是最高頻的系數(shù)。低頻系數(shù)對重建原始系數(shù)的作用要大于高頻系數(shù),而且低頻系數(shù)的值也要遠大于高頻系數(shù)。圖像的小波系數(shù)建模方法是通過位平面的原則進行掃描的。也就是說對于一個系數(shù) M,假設當前編碼的位平面數(shù)為 n,那么對于系數(shù) M的顯著性測試是比較 M是否

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論