版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第6章 學(xué)習(xí)控制 -迭代學(xué)習(xí)控制 智能控制基礎(chǔ)目錄6.1 迭代學(xué)習(xí)控制6.2 增強(qiáng)學(xué)習(xí)6.1.1 迭代學(xué)習(xí)控制的基本思想6.1.2 線性時(shí)變系統(tǒng)的迭代學(xué)習(xí)控制6.1.3 一類(lèi)非線性動(dòng)態(tài)系統(tǒng)的迭代學(xué)習(xí)控制6.1.4多關(guān)節(jié)機(jī)械手的迭代學(xué)習(xí)控制6.1.5 迭代學(xué)習(xí)控制面臨的挑戰(zhàn)6.1 迭代學(xué)習(xí)控制6.1.1 基本思想 迭代學(xué)習(xí)(Iterative learning)的基本思想在于總結(jié)人類(lèi)學(xué)習(xí)的方法,即通過(guò)多次的訓(xùn)練,從經(jīng)驗(yàn)中學(xué)會(huì)某種技能。 迭代學(xué)習(xí)控制是智能控制中具有嚴(yán)格數(shù)學(xué)描述的一個(gè)分支。它以極為簡(jiǎn)單的學(xué)習(xí)算法,在給定的時(shí)間區(qū)間上實(shí)現(xiàn)未知被控對(duì)象以任意精度跟蹤某一給定的期望軌跡的控制問(wèn)題。 特點(diǎn)控
2、制器在運(yùn)行過(guò)程中不需要辨識(shí)系統(tǒng)的參數(shù),屬于基于品質(zhì)的自學(xué)習(xí)控制。這種控制方法特別適用于具有重復(fù)運(yùn)行的場(chǎng)合。它的研究對(duì)諸如機(jī)器人那樣有著非線性、強(qiáng)耦合、難以建模又需要高精度軌跡控制的場(chǎng)合是非常有意義的。 6.1.1 迭代學(xué)習(xí)控制的基本思想6.1.2 線性時(shí)變系統(tǒng)的迭代學(xué)習(xí)控制6.1.3 一類(lèi)非線性動(dòng)態(tài)系統(tǒng)的迭代學(xué)習(xí)控制6.1.4多關(guān)節(jié)機(jī)械手的迭代學(xué)習(xí)控制6.1.5 迭代學(xué)習(xí)控制面臨的挑戰(zhàn)6.1 迭代學(xué)習(xí)控制6.1.2線性時(shí)變系統(tǒng)的迭代學(xué)習(xí)控制 考慮DC伺服驅(qū)動(dòng)控制的速度控制系統(tǒng)。 數(shù)學(xué)模型假設(shè)電樞電感足夠小,而且忽略機(jī)械摩擦。則系統(tǒng)可以簡(jiǎn)化為一階系統(tǒng)。y(t)、v(t)分別表示電機(jī)角速度和輸入控
3、制電壓;K - 力矩系數(shù)Tm- 電機(jī)的時(shí)間常數(shù) 求解簡(jiǎn)化模型a=(1+AB/K)/Tm; b=A/KTm。求解得:迭代學(xué)習(xí)的引入假設(shè)期望速度特性 足夠光滑,可以由離散數(shù)據(jù)來(lái)擬合。 則初始控制的系統(tǒng)誤差為根據(jù)則下一次校正后的輸出控制電壓可?。?迭代過(guò)程收斂性分析對(duì)于所有的k,取 ; 其中可見(jiàn),前述條件下,迭代學(xué)習(xí)的過(guò)程是收斂的。 參數(shù)的替換對(duì)于參數(shù)b預(yù)先不知道的情況 ,可以用另一近似值來(lái)代替 。只要滿(mǎn)足以下不等式 :迭代學(xué)習(xí)公式仍是收斂的 。具體證明請(qǐng)見(jiàn)定理6-1。線性時(shí)變系統(tǒng)的一般情況 系統(tǒng)模型解為狀態(tài)轉(zhuǎn)移矩陣。 迭代學(xué)習(xí)公式其中 是一個(gè)給定的矩陣函數(shù)。 定理6-1:收斂性定理假設(shè) 。若給定的
4、任一初始輸入矢量u0(t)在0,T區(qū)間內(nèi)連續(xù)。則存在正常數(shù)和0使得范數(shù) 定義:rr的矩陣F=(fij)范數(shù)F定義 證明 定義一矢量范數(shù)則有: 兩邊同乘e-t,并取范數(shù)可得: 其中可知,所以,總可以選擇較大的,使得:從而保證了時(shí), 。狀態(tài)空間表示 如果矩陣B,C是定常、BC是可逆的,只需滿(mǎn)足以下條件:即可滿(mǎn)足迭代學(xué)習(xí)的收斂性。6.1.1 迭代學(xué)習(xí)控制的基本思想6.1.2 線性時(shí)變系統(tǒng)的迭代學(xué)習(xí)控制6.1.3 一類(lèi)非線性動(dòng)態(tài)系統(tǒng)的迭代學(xué)習(xí)控制6.1.4多關(guān)節(jié)機(jī)械手的迭代學(xué)習(xí)控制6.1.5 迭代學(xué)習(xí)控制面臨的挑戰(zhàn)6.1 迭代學(xué)習(xí)控制1. 問(wèn)題的提出 考慮一個(gè)二階非線性動(dòng)力學(xué)系統(tǒng)可化為一階微分方程組
5、簡(jiǎn)記為: 假設(shè)xd(t),t0,T是系統(tǒng)的一個(gè)狀態(tài)矢量,且屬于R2n有界閉合子集W。則控制的問(wèn)題就是尋找分段連續(xù)的控制輸入uj(t)序列,使得系統(tǒng)的狀態(tài)xj(t)跟隨xd(t),其跟隨誤差小于某一給定的精度,即 其中j表示第j次迭代 。被控系統(tǒng)進(jìn)行控制的條件系統(tǒng)的運(yùn)行條件如采樣頻率、初始的控制結(jié)構(gòu)是固定的;系統(tǒng)不確定性時(shí),在時(shí)間0,T內(nèi)是重復(fù)作業(yè)的;函數(shù)f()、g()滿(mǎn)足Lipshitz連續(xù);g(x(t),t)在t0,T內(nèi)是齊次和正定函數(shù)。函數(shù)f()、g()滿(mǎn)足Lipshitz連續(xù),即:其中(t)、(t)為有界的正函數(shù),表示歐幾里德范數(shù),定義為: Lipshitz連續(xù) g(x(t),t)在t0
6、,T內(nèi)是齊次和正定函數(shù),即滿(mǎn)足: 00, b2 ,v, v=a+(2+1/a)(m+m|ud|m )精度分析定理(6-3)表明了系統(tǒng)的最大跟蹤誤差與的大小成正比。因此只要控制序列 在整個(gè)時(shí)間域0,T內(nèi)收斂于,則系統(tǒng)的跟蹤誤差可以達(dá)到任意精度。這樣,系統(tǒng)的軌跡跟蹤控制問(wèn)題就歸結(jié)為尋求在時(shí)間域0,T上一致收斂于 的前饋輸入控制序列的問(wèn)題了。 梯度法定義指標(biāo)函數(shù)應(yīng)用梯度法我們得到第j次迭代計(jì)算的公式:的取值范圍必須滿(mǎn)足00 (2-)db-1-(r0+2a/1)=l20 其中 p=min(al1,l2); q=(m+mu0)/1 。則新的迭代學(xué)習(xí)策略是收斂的,即: 其中 目標(biāo)函數(shù)定義為: 定理6-5:
7、如果狀態(tài)誤差?。簒d(t)-xj+1(t) 學(xué)習(xí)規(guī)則改為:則 a,b,d的取值滿(mǎn)足下列不等式:(2+)db-1-2r0=l10 (2+)db-1-(r0+2a/1)=l20 系統(tǒng)收斂。另一種迭代方法的收斂性迭代學(xué)習(xí)控制的特點(diǎn)不需要精確的模型參數(shù),只要一些模型的極限參數(shù); 對(duì)周期性的系統(tǒng)擾動(dòng)完全可以通過(guò)迭代學(xué)習(xí)來(lái)克服,對(duì)隨機(jī)擾動(dòng)也有較強(qiáng)的抑制能力。學(xué)習(xí)控制的結(jié)構(gòu)相當(dāng)簡(jiǎn)單,學(xué)習(xí)的信息只須利用線性反饋控制量。 學(xué)習(xí)算法的收斂條件非常簡(jiǎn)單,具有有界的不確定性。 6.1.1 迭代學(xué)習(xí)控制的基本思想6.1.2 線性時(shí)變系統(tǒng)的迭代學(xué)習(xí)控制6.1.3 一類(lèi)非線性動(dòng)態(tài)系統(tǒng)的迭代學(xué)習(xí)控制6.1.4多關(guān)節(jié)機(jī)械手的迭
8、代學(xué)習(xí)控制6.1.5 迭代學(xué)習(xí)控制面臨的挑戰(zhàn)6.1 迭代學(xué)習(xí)控制6.1.4多關(guān)節(jié)機(jī)械手的迭代學(xué)習(xí)控制 固定負(fù)載下的機(jī)器人迭代學(xué)習(xí)控制 負(fù)載經(jīng)常變化下的機(jī)器人軌跡跟蹤的迭代學(xué)習(xí)控制方法 機(jī)械手動(dòng)力學(xué)方程 D(q):慣量矩陣; : 非線性哥氏力和向心力; G(q): 重力項(xiàng); a :不確定力矩項(xiàng)(包括磨擦力矩等); :各關(guān)節(jié)的輸入力矩。狀態(tài)方程取迭代學(xué)習(xí)策略 10次迭代學(xué)習(xí)控制效果期望軌跡曲線實(shí)際系統(tǒng)響應(yīng)第一關(guān)節(jié)10次迭代學(xué)習(xí)控制效果期望軌跡曲線實(shí)際系統(tǒng)響應(yīng)第二關(guān)節(jié)10次迭代學(xué)習(xí)控制效果期望軌跡曲線實(shí)際系統(tǒng)響應(yīng)第三關(guān)節(jié) 負(fù)載經(jīng)常變化下的機(jī)器人迭代學(xué)習(xí)控制 一種基于知識(shí)庫(kù)的改進(jìn)迭代學(xué)習(xí)算法 改進(jìn)迭代學(xué)習(xí)算法的目的在于如何盡快地得到準(zhǔn)確的前饋補(bǔ)償力矩d,當(dāng)負(fù)載發(fā)生變化時(shí),它的基本思想是利用一組已知的、按一定規(guī)則排列的、與d相關(guān)的數(shù)據(jù)庫(kù),并通過(guò)推理機(jī)制來(lái)求得當(dāng)前負(fù)載m下準(zhǔn)確的前饋補(bǔ)償力矩d(m)。能經(jīng)過(guò)一個(gè)周期的運(yùn)行達(dá)到高精度跟蹤控制的目的。 6.1.1 迭代學(xué)習(xí)控制的基本思想6.1.2 線性時(shí)變系統(tǒng)的迭代學(xué)習(xí)控制6.1.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年醫(yī)生年終考核個(gè)人工作總結(jié)
- 第20課 正面戰(zhàn)場(chǎng)的抗戰(zhàn)(解析版)
- 寒假自習(xí)課 25春初中道德與法治八年級(jí)下冊(cè)教學(xué)課件 第四單元第七課 第1課時(shí) 自由平等的真諦
- 《游戲的基本理論》課件
- 新媒體風(fēng)云模板
- 2024企業(yè)主要負(fù)責(zé)人安全培訓(xùn)考試題加解析答案
- 乒乓球比賽作文300字集合九篇
- 2023年-2024年員工三級(jí)安全培訓(xùn)考試題含答案(能力提升)
- 2024企業(yè)主要負(fù)責(zé)人安全培訓(xùn)考試題及答案往年題考
- 七年級(jí)下《國(guó)寶大熊貓》蘇教版-課件
- 《個(gè)案工作介入涉罪未成年人的家庭幫教研究》
- 統(tǒng)編版(2024新版)七年級(jí)上冊(cè)道德與法治期末綜合測(cè)試卷(含答案)
- 文化創(chuàng)意合作戰(zhàn)略協(xié)議
- 國(guó)家開(kāi)放大學(xué)法學(xué)本科《商法》歷年期末考試試題及答案題庫(kù)
- 2024年婦??乒ぷ骺偨Y(jié)及計(jì)劃
- 北京理工大學(xué)《數(shù)據(jù)結(jié)構(gòu)與算法設(shè)計(jì)》2022-2023學(xué)年第一學(xué)期期末試卷
- 錨桿(索)支護(hù)工技能理論考試題庫(kù)200題(含答案)
- 影視后期制作團(tuán)隊(duì)薪酬激勵(lì)方案
- 2024年有限合伙股權(quán)代持
- 廣東珠海市駕車(chē)沖撞行人案件安全防范專(zhuān)題培訓(xùn)
- 花城版一年級(jí)上冊(cè)音樂(lè) 第3課 《國(guó)旗國(guó)旗真美麗》(教案)
評(píng)論
0/150
提交評(píng)論