版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
語音交互控制智能相機(jī)
設(shè)計(jì)綜合實(shí)踐人工智能開源硬件與python編程實(shí)踐情境導(dǎo)入人們喜歡用手機(jī)自拍,留下紀(jì)念。市場上有專供自拍用的補(bǔ)光燈,給陰暗場景中的臉部補(bǔ)光。有些補(bǔ)光燈固定裝在手機(jī)上,也有補(bǔ)光燈發(fā)光亮度強(qiáng),手持獨(dú)立使用。自拍過程中既要注意表情取景,又要用手作觸摸實(shí)現(xiàn)拍照,指操起來不便,照片的質(zhì)量也難以保證。應(yīng)用語音識別技術(shù)有助于解決這一問題,通過語音交互控制拍照過程,通過光線檢測、人臉檢測、笑臉檢測等技術(shù)有助于捕捉最美瞬間,拍出高質(zhì)量的照片。任務(wù)與目標(biāo)綜合應(yīng)用語音識別、圖像處理、計(jì)算機(jī)視覺技術(shù)的原理和方法解決生活中的實(shí)際問題,設(shè)計(jì)語音交互的智能相機(jī)控制系統(tǒng);應(yīng)用人工智能開源硬件設(shè)計(jì)綜合語音識別與計(jì)算機(jī)視覺技術(shù)的智能系統(tǒng);提升Python編程能力,利用人工智能開源硬件和相關(guān)Python庫算法設(shè)計(jì)語音識別、計(jì)算機(jī)視覺功能;鞏固深化利用Python語言編程實(shí)現(xiàn)語音識別、計(jì)算機(jī)視覺應(yīng)用程序以及OpenAIEIDE編程工具編寫、上傳、運(yùn)行、調(diào)試的方法;針對生活應(yīng)用場景,進(jìn)一步開展創(chuàng)意設(shè)計(jì),設(shè)計(jì)具有實(shí)用價(jià)值的人機(jī)交互智能相機(jī)應(yīng)用系統(tǒng)。知識拓展:HMM語音識別系統(tǒng)框架
語音信號預(yù)處理與特征提取。梅爾刻度式倒頻譜參數(shù)考慮了人類發(fā)聲與接收聲音的特性,具有更好的魯棒性。聲學(xué)模型與模式匹配。聲學(xué)模型通常是將獲取的語音特征使用訓(xùn)練算法進(jìn)行訓(xùn)練后產(chǎn)生。在識別時(shí)將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識別結(jié)果。語言模型與語言處理。語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正,特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。知識拓展:音識別應(yīng)用的分類
特定人語音識別芯片是針對指定人的語音識別,其他人的話不識別,須先把使用者的語音參考樣本存入當(dāng)成比對的資料庫,即特定人語音識別在使用前必須要進(jìn)行語音訓(xùn)練,一般按照機(jī)器提示訓(xùn)練幾遍語音詞條即可使用;非特定人語音識別是不用針對指定的人的識別技術(shù),不分年齡、性別,只要說相同語言就可以,應(yīng)用模式是在產(chǎn)品定型前按照確定的十幾個(gè)語音交互詞條,采集200人左右的聲音樣本,經(jīng)過PC算法處理得到交互詞條的語音模型和特征數(shù)據(jù)庫,然后燒錄到芯片上。知識拓展:嵌入式語音識別
嵌入式語音識別系統(tǒng)中,錄入的語音信號首先經(jīng)過預(yù)處理,包括語音信號的采樣、反混疊濾波、語音增強(qiáng),接下來是特征提取,用以從語音信號波形中提取出能夠描述語音信號特征的參數(shù)。特征提取之后的處理分為兩個(gè)步驟:第一步是訓(xùn)練階段,構(gòu)建模型參數(shù)庫,詞表中每個(gè)詞重復(fù)發(fā)音多遍進(jìn)行采樣,再經(jīng)特征提取和某種訓(xùn)練中得到。第二步是識別階段,按照一定的準(zhǔn)則求取待測語音特征參數(shù)和語音信息與模式庫中相應(yīng)模板之間的失真測度,最匹配的就是識別結(jié)果。2023/1/30知識拓展:DNN進(jìn)行語音數(shù)據(jù)訓(xùn)練
基于DNN方法去訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)語音識別系統(tǒng)架構(gòu)的過程分為以下2步:從底往上的非監(jiān)督學(xué)習(xí),就是用無標(biāo)簽數(shù)據(jù)進(jìn)行每一層的預(yù)訓(xùn)練(pre-training),而每一層的訓(xùn)練結(jié)果作為其高一層的輸入,這是與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比最大的區(qū)別,這個(gè)過程可看做是特征學(xué)習(xí)(featurelearning)的過程。從頂向下的監(jiān)督學(xué)習(xí),就是用有標(biāo)簽的數(shù)據(jù)調(diào)整所有層的權(quán)值和閾值,按照誤差反向傳播算法(backpropagation,BP)自頂向下傳輸,對網(wǎng)絡(luò)進(jìn)行微調(diào)(tune-fining)。知識拓展:利用DNN進(jìn)行語音特征提取深度自動(dòng)編碼器是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),其輸入和輸出具有相同的維度。由于它以在輸出層重構(gòu)出原始輸入作為目標(biāo),不需要額外的監(jiān)督信息,因而可以直接從海量未標(biāo)注原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)數(shù)據(jù)特征。知識拓展:利用DNN進(jìn)行聲學(xué)建模實(shí)際工作中,使用5層DNN模型替換GMM-HMM系統(tǒng)中的混合高斯模型(GMM),并以單音素狀態(tài)作為建模單元,取得了成功。與現(xiàn)有建模分類器相比,DNN最主要的優(yōu)勢是加強(qiáng)了語音幀與幀之間的聯(lián)系。設(shè)計(jì)與實(shí)踐創(chuàng)意與總體設(shè)計(jì)語音識別庫的編程應(yīng)用語音識別、人臉檢測綜合程實(shí)踐自拍系統(tǒng)編程實(shí)現(xiàn)創(chuàng)意與總體設(shè)計(jì)
綜合應(yīng)用語音識別、圖像處理、計(jì)算機(jī)視覺技術(shù)的原理和方法,利用人工智能開源硬件設(shè)計(jì)一套基于語音交互與智能控制的自拍相機(jī)原型系統(tǒng):編寫語音識別程序模塊,實(shí)現(xiàn)對說話指令的識別;編寫人臉檢測程序模塊,實(shí)現(xiàn)人臉檢測功能,決定是否拍照;編寫板上LED控制程序,實(shí)現(xiàn)拍照補(bǔ)光功能;編寫提取和保存圖像幀程序,將當(dāng)前圖像幀保存成照片;語音交互與智能控制的自拍相機(jī)流程圖
啟動(dòng)視覺模塊啟動(dòng)語音識別模塊語音命令詞識別“拍照”指令人臉檢測笑臉檢測亮度檢測補(bǔ)光保存當(dāng)前圖像幀無線網(wǎng)絡(luò)發(fā)送圖像幀文件提示提示無無暗有有是亮有否語音識別庫編程方法ASR庫提供與語音識別相關(guān)的asr對象,pyb庫包括led、button、serial等對象,分別與板上集成的LED彩燈、按鍵、串口對應(yīng)。serial對象提供初始化set()、發(fā)送send()、接收receive()等方法。asr對象主要提供設(shè)置工作場景命令詞add_cmd()、啟動(dòng)識別過程run()、獲取識別結(jié)果get_res()等方法。語音識別過程
實(shí)現(xiàn)語音識別功能的流程是:初始化-->添加關(guān)鍵詞識別列表-->開始識別-->等待識別結(jié)果。實(shí)現(xiàn)ASR類導(dǎo)入及初始化、工作場景設(shè)置以及啟動(dòng)語音識別過程的Python程序代碼示例如下:#語音工作場景設(shè)置asr.add_cmd("qiezi",1) #添加關(guān)鍵詞“茄子”,作為拍照操作命令詞;asr.add_cmd("paizhao",1) #添加關(guān)鍵詞“拍照”,作為拍照操作命令詞;asr.run() #啟動(dòng)語音識別過程人臉檢測過程利用項(xiàng)目8中介紹的人臉檢測應(yīng)用方法,可以編寫相關(guān)的人臉檢測Python代碼,供參考:#加載人臉檢測模型face_cascade=image.HaarCascade("frontalface",stages=25)#進(jìn)行人臉檢測objects=img.find_features(face_cascade,threshold=0.75,scale=1.35)a=0forrinobjects:
img.draw_rectangle(r)a=1 #檢測到人臉后進(jìn)行標(biāo)記補(bǔ)光功能設(shè)計(jì)設(shè)計(jì)語音交互的智能相機(jī)控制系統(tǒng)可以增加一個(gè)創(chuàng)意,利用板上的LED燈對人臉進(jìn)行補(bǔ)光。點(diǎn)亮LED燈,使之發(fā)出白色光的代碼如下:
led.red.on() #進(jìn)行補(bǔ)光
led.green.on()led.blue.on()拍照功能設(shè)計(jì)將攝像頭拍攝到的視頻圖像流,提取出其中一幀,保存圖像到板上Flash存儲(chǔ)中,存為一個(gè)文件,就完成了拍照功能的設(shè)計(jì)。利用snapshot().save方法可以實(shí)現(xiàn)這一概念,具體編程可以參考項(xiàng)目2里的程序設(shè)計(jì)。系統(tǒng)編程與實(shí)現(xiàn)不斷進(jìn)行人臉檢測,一旦檢測到人臉,先綠燈提示,然后提取語音識別結(jié)果。如果發(fā)現(xiàn)拍照指令,就補(bǔ)光并保存當(dāng)前幀作為照片。如果當(dāng)前圖像幀中沒有人臉,就會(huì)顯示無人,提取語音識別的結(jié)果。如果發(fā)現(xiàn)當(dāng)前的圖像幀沒有保存成功,先去檢查板上存儲(chǔ)空間是否滿了,刪除以前存儲(chǔ)的圖像文件,再運(yùn)行程序。分析與思考OpenAIEIDE工具中不能直接動(dòng)態(tài)調(diào)試嵌入式Python程序,復(fù)雜些的Python程序有無調(diào)試方法?利用串口打印出的不同變量或狀
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年網(wǎng)絡(luò)平臺(tái)會(huì)員賬戶買賣協(xié)議
- 2025年度藝術(shù)交流合作合同模板-繪畫技藝交流與培訓(xùn)協(xié)議3篇
- 2024三方物流裝備采購與租賃合同范本3篇
- 2025版電子信息產(chǎn)業(yè)原材料采購合同樣本2篇
- 2023年留置導(dǎo)尿管項(xiàng)目融資計(jì)劃書
- 課題申報(bào)書:城鄉(xiāng)融合發(fā)展背景下新質(zhì)生產(chǎn)力驅(qū)動(dòng)的智慧物流協(xié)同配送研究
- 2024年礦產(chǎn)資源進(jìn)口與銷售合同標(biāo)的物與交易條件
- 2025年生活污水與垃圾協(xié)同處理合同3篇
- 2024年防火設(shè)施定期檢查合同3篇
- 2025版高端制造企業(yè)股東股權(quán)收購與內(nèi)部轉(zhuǎn)讓協(xié)議3篇
- 浙江農(nóng)林大學(xué)土壤肥料學(xué)
- “戲”說故宮智慧樹知到答案章節(jié)測試2023年中央戲劇學(xué)院
- 四大名著《西游記》語文課件PPT
- 三年級道德與法治下冊第一單元我和我的同伴教材解讀新人教版
- 紅星照耀中國思維導(dǎo)圖
- YY/T 0506.8-2019病人、醫(yī)護(hù)人員和器械用手術(shù)單、手術(shù)衣和潔凈服第8部分:產(chǎn)品專用要求
- GB/T 6478-2015冷鐓和冷擠壓用鋼
- QC成果降低AS系統(tǒng)的故障次數(shù)
- 超導(dǎo)簡介課件
- GB/T 22528-2008文物保護(hù)單位開放服務(wù)規(guī)范
- GB/T 20078-2006銅和銅合金鍛件
評論
0/150
提交評論