《AI硬件與Pyhthon編程實(shí)踐》16語音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫字字帖

上傳人：獨(dú)*** IP屬地：江蘇上傳時(shí)間：2023-01-30 格式：PPT 頁數(shù)：19 大?。?01.50KB 積分：15 舉報(bào) 版權(quán)申訴

《AI硬件與Pyhthon編程實(shí)踐》16語音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫字字帖_第2頁

《AI硬件與Pyhthon編程實(shí)踐》16語音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫字字帖_第3頁

《AI硬件與Pyhthon編程實(shí)踐》16語音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫字字帖_第4頁

《AI硬件與Pyhthon編程實(shí)踐》16語音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫字字帖_第5頁

已閱讀5頁，還剩14頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

語音交互控制智能相機(jī)

設(shè)計(jì)綜合實(shí)踐人工智能開源硬件與python編程實(shí)踐情境導(dǎo)入人們喜歡用手機(jī)自拍，留下紀(jì)念。市場上有專供自拍用的補(bǔ)光燈，給陰暗場景中的臉部補(bǔ)光。有些補(bǔ)光燈固定裝在手機(jī)上，也有補(bǔ)光燈發(fā)光亮度強(qiáng)，手持獨(dú)立使用。自拍過程中既要注意表情取景，又要用手作觸摸實(shí)現(xiàn)拍照，指操起來不便，照片的質(zhì)量也難以保證。應(yīng)用語音識別技術(shù)有助于解決這一問題，通過語音交互控制拍照過程，通過光線檢測、人臉檢測、笑臉檢測等技術(shù)有助于捕捉最美瞬間，拍出高質(zhì)量的照片。任務(wù)與目標(biāo)綜合應(yīng)用語音識別、圖像處理、計(jì)算機(jī)視覺技術(shù)的原理和方法解決生活中的實(shí)際問題，設(shè)計(jì)語音交互的智能相機(jī)控制系統(tǒng)；應(yīng)用人工智能開源硬件設(shè)計(jì)綜合語音識別與計(jì)算機(jī)視覺技術(shù)的智能系統(tǒng)；提升Python編程能力，利用人工智能開源硬件和相關(guān)Python庫算法設(shè)計(jì)語音識別、計(jì)算機(jī)視覺功能；鞏固深化利用Python語言編程實(shí)現(xiàn)語音識別、計(jì)算機(jī)視覺應(yīng)用程序以及OpenAIEIDE編程工具編寫、上傳、運(yùn)行、調(diào)試的方法；針對生活應(yīng)用場景，進(jìn)一步開展創(chuàng)意設(shè)計(jì)，設(shè)計(jì)具有實(shí)用價(jià)值的人機(jī)交互智能相機(jī)應(yīng)用系統(tǒng)。知識拓展：HMM語音識別系統(tǒng)框架

語音信號預(yù)處理與特征提取。梅爾刻度式倒頻譜參數(shù)考慮了人類發(fā)聲與接收聲音的特性，具有更好的魯棒性。聲學(xué)模型與模式匹配。聲學(xué)模型通常是將獲取的語音特征使用訓(xùn)練算法進(jìn)行訓(xùn)練后產(chǎn)生。在識別時(shí)將輸入的語音特征同聲學(xué)模型（模式）進(jìn)行匹配與比較，得到最佳的識別結(jié)果。語言模型與語言處理。語言模型對中、大詞匯量的語音識別系統(tǒng)特別重要。當(dāng)分類發(fā)生錯(cuò)誤時(shí)可以根據(jù)語言學(xué)模型、語法結(jié)構(gòu)、語義學(xué)進(jìn)行判斷糾正，特別是一些同音字則必須通過上下文結(jié)構(gòu)才能確定詞義。知識拓展：音識別應(yīng)用的分類

特定人語音識別芯片是針對指定人的語音識別，其他人的話不識別，須先把使用者的語音參考樣本存入當(dāng)成比對的資料庫，即特定人語音識別在使用前必須要進(jìn)行語音訓(xùn)練，一般按照機(jī)器提示訓(xùn)練幾遍語音詞條即可使用；非特定人語音識別是不用針對指定的人的識別技術(shù)，不分年齡、性別，只要說相同語言就可以，應(yīng)用模式是在產(chǎn)品定型前按照確定的十幾個(gè)語音交互詞條，采集200人左右的聲音樣本，經(jīng)過PC算法處理得到交互詞條的語音模型和特征數(shù)據(jù)庫，然后燒錄到芯片上。知識拓展：嵌入式語音識別

嵌入式語音識別系統(tǒng)中，錄入的語音信號首先經(jīng)過預(yù)處理，包括語音信號的采樣、反混疊濾波、語音增強(qiáng)，接下來是特征提取，用以從語音信號波形中提取出能夠描述語音信號特征的參數(shù)。特征提取之后的處理分為兩個(gè)步驟：第一步是訓(xùn)練階段，構(gòu)建模型參數(shù)庫，詞表中每個(gè)詞重復(fù)發(fā)音多遍進(jìn)行采樣，再經(jīng)特征提取和某種訓(xùn)練中得到。第二步是識別階段，按照一定的準(zhǔn)則求取待測語音特征參數(shù)和語音信息與模式庫中相應(yīng)模板之間的失真測度，最匹配的就是識別結(jié)果。2023/1/30知識拓展：DNN進(jìn)行語音數(shù)據(jù)訓(xùn)練

基于DNN方法去訓(xùn)練深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)語音識別系統(tǒng)架構(gòu)的過程分為以下2步：從底往上的非監(jiān)督學(xué)習(xí)，就是用無標(biāo)簽數(shù)據(jù)進(jìn)行每一層的預(yù)訓(xùn)練（pre-training），而每一層的訓(xùn)練結(jié)果作為其高一層的輸入，這是與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比最大的區(qū)別，這個(gè)過程可看做是特征學(xué)習(xí)(featurelearning)的過程。從頂向下的監(jiān)督學(xué)習(xí)，就是用有標(biāo)簽的數(shù)據(jù)調(diào)整所有層的權(quán)值和閾值，按照誤差反向傳播算法(backpropagation，BP)自頂向下傳輸，對網(wǎng)絡(luò)進(jìn)行微調(diào)(tune-fining)。知識拓展：利用DNN進(jìn)行語音特征提取深度自動(dòng)編碼器是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)，其輸入和輸出具有相同的維度。由于它以在輸出層重構(gòu)出原始輸入作為目標(biāo)，不需要額外的監(jiān)督信息，因而可以直接從海量未標(biāo)注原始數(shù)據(jù)中自動(dòng)學(xué)習(xí)數(shù)據(jù)特征。知識拓展：利用DNN進(jìn)行聲學(xué)建模實(shí)際工作中，使用5層DNN模型替換GMM-HMM系統(tǒng)中的混合高斯模型(GMM)，并以單音素狀態(tài)作為建模單元，取得了成功。與現(xiàn)有建模分類器相比，DNN最主要的優(yōu)勢是加強(qiáng)了語音幀與幀之間的聯(lián)系。設(shè)計(jì)與實(shí)踐創(chuàng)意與總體設(shè)計(jì)語音識別庫的編程應(yīng)用語音識別、人臉檢測綜合程實(shí)踐自拍系統(tǒng)編程實(shí)現(xiàn)創(chuàng)意與總體設(shè)計(jì)

綜合應(yīng)用語音識別、圖像處理、計(jì)算機(jī)視覺技術(shù)的原理和方法，利用人工智能開源硬件設(shè)計(jì)一套基于語音交互與智能控制的自拍相機(jī)原型系統(tǒng)：編寫語音識別程序模塊，實(shí)現(xiàn)對說話指令的識別；編寫人臉檢測程序模塊，實(shí)現(xiàn)人臉檢測功能，決定是否拍照；編寫板上LED控制程序，實(shí)現(xiàn)拍照補(bǔ)光功能；編寫提取和保存圖像幀程序，將當(dāng)前圖像幀保存成照片；語音交互與智能控制的自拍相機(jī)流程圖

啟動(dòng)視覺模塊啟動(dòng)語音識別模塊語音命令詞識別“拍照”指令人臉檢測笑臉檢測亮度檢測補(bǔ)光保存當(dāng)前圖像幀無線網(wǎng)絡(luò)發(fā)送圖像幀文件提示提示無無暗有有是亮有否語音識別庫編程方法ASR庫提供與語音識別相關(guān)的asr對象，pyb庫包括led、button、serial等對象，分別與板上集成的LED彩燈、按鍵、串口對應(yīng)。serial對象提供初始化set()、發(fā)送send()、接收receive()等方法。asr對象主要提供設(shè)置工作場景命令詞add_cmd()、啟動(dòng)識別過程run()、獲取識別結(jié)果get_res()等方法。語音識別過程

實(shí)現(xiàn)語音識別功能的流程是：初始化-->添加關(guān)鍵詞識別列表-->開始識別-->等待識別結(jié)果。實(shí)現(xiàn)ASR類導(dǎo)入及初始化、工作場景設(shè)置以及啟動(dòng)語音識別過程的Python程序代碼示例如下：#語音工作場景設(shè)置asr.add_cmd("qiezi",1) #添加關(guān)鍵詞“茄子”，作為拍照操作命令詞；asr.add_cmd("paizhao",1) #添加關(guān)鍵詞“拍照”，作為拍照操作命令詞；asr.run() #啟動(dòng)語音識別過程人臉檢測過程利用項(xiàng)目8中介紹的人臉檢測應(yīng)用方法，可以編寫相關(guān)的人臉檢測Python代碼，供參考：#加載人臉檢測模型face_cascade=image.HaarCascade("frontalface",stages=25)#進(jìn)行人臉檢測objects=img.find_features(face_cascade,threshold=0.75,scale=1.35)a=0forrinobjects:

img.draw_rectangle(r)a=1 #檢測到人臉后進(jìn)行標(biāo)記補(bǔ)光功能設(shè)計(jì)設(shè)計(jì)語音交互的智能相機(jī)控制系統(tǒng)可以增加一個(gè)創(chuàng)意，利用板上的LED燈對人臉進(jìn)行補(bǔ)光。點(diǎn)亮LED燈，使之發(fā)出白色光的代碼如下：

led.red.on() #進(jìn)行補(bǔ)光

led.green.on()led.blue.on()拍照功能設(shè)計(jì)將攝像頭拍攝到的視頻圖像流，提取出其中一幀，保存圖像到板上Flash存儲(chǔ)中，存為一個(gè)文件，就完成了拍照功能的設(shè)計(jì)。利用snapshot().save方法可以實(shí)現(xiàn)這一概念，具體編程可以參考項(xiàng)目2里的程序設(shè)計(jì)。系統(tǒng)編程與實(shí)現(xiàn)不斷進(jìn)行人臉檢測，一旦檢測到人臉，先綠燈提示，然后提取語音識別結(jié)果。如果發(fā)現(xiàn)拍照指令，就補(bǔ)光并保存當(dāng)前幀作為照片。如果當(dāng)前圖像幀中沒有人臉，就會(huì)顯示無人，提取語音識別的結(jié)果。如果發(fā)現(xiàn)當(dāng)前的圖像幀沒有保存成功，先去檢查板上存儲(chǔ)空間是否滿了，刪除以前存儲(chǔ)的圖像文件，再運(yùn)行程序。分析與思考OpenAIEIDE工具中不能直接動(dòng)態(tài)調(diào)試嵌入式Python程序，復(fù)雜些的Python程序有無調(diào)試方法？利用串口打印出的不同變量或狀

人人文庫> 全部分類> 行業(yè)資料 > 醫(yī)學(xué)制藥

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

《AI硬件與Pyhthon編程實(shí)踐》16語音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫字字帖

文檔簡介

溫馨提示

最新文檔

評論

《AI硬件與Pyhthon編程實(shí)踐》16語音交互控制智能相機(jī)設(shè)計(jì)綜合實(shí)踐寫字字帖

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔