版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
§6-9Bang—Bang控制從原理上說,應(yīng)用極小值原理求解最優(yōu)控制是方便的,但要具體解出u*(t)卻極難。現(xiàn)在討論一種特殊情況,在這種特殊情況下,控制矢量的各個分量都取控制域的邊界值,而且不斷地從一個邊界值切換到另一個邊界值,從而構(gòu)成一種最強(qiáng)的控制作用,稱為開關(guān)控制。如果擬聲,又稱Bang-Bang控制。時間最優(yōu)是Bang-Bang控制的一個典型例子。由于其性能指標(biāo)特別簡單,因而研究得最早,所得結(jié)果也最為成熟。設(shè)能控的線性定常系統(tǒng)狀態(tài)方程為性能指標(biāo)為(6-234)(6-235)控制約束為尋求最優(yōu)控制u*(t),使系統(tǒng)以最短時間從給定初態(tài)x(t0)轉(zhuǎn)移到原點x(tf)=0。(6-236)在這里,[x(tf),tf]=0,L[x(t),u(t),t]=1,故哈密爾頓函數(shù)為(6-237)為使H為全局最小,可知最優(yōu)控制為或(6-238)式中sgn是符號函數(shù),定義如下:解得(6-239)當(dāng)
為向量時,則用SGN表示。由正則方程組(6-242)(6-240)(6-241)式中(0)=0——協(xié)態(tài)矢量初值。顯然
0是一個非零矢量。否則由
0=0將導(dǎo)致(t)=0,進(jìn)而由式(6-237)引出1=0的錯誤結(jié)果。將式(6-242)代如式(6-238),得由此可見,時間最優(yōu)控制是開關(guān)控制(Bang-Bang控制),它要求控制變量只取邊界(最大)值,但符號與(t)相反。現(xiàn)在討論時間最優(yōu)控制的唯一性和開關(guān)次數(shù)問題。
定理
線性定常系統(tǒng)=(A,B,C),若存在時間最優(yōu)控制u*(t),則該控制ui(t),i=1,2,
,r是唯一的。證明
用反證法。設(shè)存在兩個控制矢量u1及u2,u1
u2,但都能以相同的最小時間tf,使系統(tǒng)完成從x0到零狀態(tài)的轉(zhuǎn)移。根據(jù)極小值原理,u1和u2都應(yīng)使H為全局最小,但二者可能一個大,一個小或者相等?,F(xiàn)設(shè)u1能使H更小,由式(6-237)可得即(6-244)在t=tf時,都要轉(zhuǎn)移到零狀態(tài),即x1(tf)=x2(tf)=0,于是有另一方面,從狀態(tài)方程的解來看,有
因為,故可化為兩邊同乘,得經(jīng)變量替換,得(6-245)式(6-244)是保證H全局最小的條件,式(6-245)是要求終態(tài)為零狀態(tài)的條件。二者必須同時滿足,故有在(A、B)為能控的前提下,只可能這表明控制矢量u(t)是唯一的。(6-246)定理
若線性定常系統(tǒng)∑=(A,B,C),存在時間最優(yōu)控制u*(t)滿足且矩陣A的特征值均為實數(shù)。則每一個ui(t)都是Bang-Bang控制,且在兩個邊界值之間至多切換n-1次。注意,若A的特征值出現(xiàn)復(fù)數(shù),情況就完全不同了。
因為此時無法確定其切換次數(shù)的上界,除非預(yù)先指定了時間間隔。
順便指出,若線性定常系統(tǒng)矩陣A特征值均非正的實部,控制u(t)為容許控制,則其時間最優(yōu)控制必定存在。§6-10雙積分系統(tǒng)的時間最優(yōu)控制設(shè)雙積分系統(tǒng)的狀態(tài)方程為(6-248)或?qū)懗删仃囆问匠跏紬l件終端條件控制約束性能指標(biāo)求最優(yōu)控制u*(t),把系統(tǒng)從初態(tài)轉(zhuǎn)移到終態(tài),使J=tf-t0為極小。一、根據(jù)極小值原理確定最優(yōu)控制列出哈密爾頓函數(shù)為使H
全局最小,可得最優(yōu)控制(6-250)(6-251)由協(xié)態(tài)方程得解得即故(6-252)(6-253)在
2(t)-t平面上,
2(t)是一條直線,其四種可能形狀以及與之對應(yīng)的u*(t),如圖6-15所示。顯而易見,可供選擇的最優(yōu)控制序列有下列四種:(6-254)切換次數(shù)至多一次。切換時刻為(6-255)二、狀態(tài)軌線及開關(guān)曲線為了用狀態(tài)反饋實現(xiàn)最優(yōu)控制,現(xiàn)在來尋找u*(t)
與x*(t)之間的關(guān)系。當(dāng)u=+1時,狀態(tài)方程的解為消去時間變量t,可得相應(yīng)的最優(yōu)軌線方程為(6-256)在圖6-16中用實線表示。由于x2(t)=x20+t隨t增大,故最優(yōu)軌線行進(jìn)的方向自下而上,如曲線上箭頭所示。在圖6-16中用虛線表示。由于x2(t)隨t減小,故曲線箭頭方向自上而下。當(dāng)u=-1時,狀態(tài)方程的解為相應(yīng)的最優(yōu)軌線方程為由圖可見,這種時間最優(yōu)系統(tǒng)中的狀態(tài)軌線是兩簇開口相反的拋物線。當(dāng)u=+1時,開口向右,當(dāng)u=-1時開口向左。每簇曲線中都只有一條曲線的半支能引向原點。在u=+1的曲線簇中,通過原點的曲線方程為(6-258)這半支拋物線記為
+。在u=-1的曲線簇中,通過原點的曲線方程為這半支拋物線記為
-。(6-259)開關(guān)曲線把x1-x2平面劃分為兩個區(qū)域,即R-及R+。在R-內(nèi)的點都滿足條件:如果將
+和
-合起來看成一條通過原點的曲線,方程為(6-260)這條曲線稱為開關(guān)曲線,如圖6-17所示。(6-261)在R+內(nèi)的點都滿足條件:(6-262)三、最優(yōu)控制律為了使系統(tǒng)的狀態(tài)能以最小時間從初態(tài)(x10,x20)轉(zhuǎn)移到終態(tài)(0,0)。當(dāng)初態(tài)所處位置不同時,應(yīng)當(dāng)采取的控制規(guī)律不同。但是,凡不在開關(guān)曲線上的點至少要經(jīng)過一次切換,轉(zhuǎn)到開關(guān)曲線后才能沿著
+或
-到達(dá)原點(0,0)。因此,按照初態(tài)(x10,x20)所處位置可得到下列最優(yōu)控制規(guī)律:在
-上在R-上在
+上在R+上到達(dá)原點進(jìn)一步,可綜合為若將開關(guān)曲線方程寫成則最優(yōu)控制律可表示成上式充分表達(dá)了系統(tǒng)所處狀態(tài)與最優(yōu)控制律之間的關(guān)系。(6-268)(6-267)四、最優(yōu)控制律的工程實現(xiàn)為了實現(xiàn)上述控制規(guī)律,需要設(shè)計一個非線性元件來模擬產(chǎn)生開關(guān)曲線,然后經(jīng)過一個繼電器把最優(yōu)控制作用于受控對象。圖6-18表示其工程實現(xiàn)的閉環(huán)結(jié)構(gòu)。當(dāng)(x1,x2)
R-,則狀態(tài)信號x2(t)經(jīng)非線性元件N,產(chǎn)生輸出信號。然后與x1(t)相加,形成開關(guān)曲線切換信號
再反相經(jīng)繼電器R輸出最優(yōu)控制u*(t)。實際上當(dāng)(x1,x2)
R+,則當(dāng)(x1,x2)
,
則在最后一種情況下,繼電器R的輸入信號將為零,但由于繼電器多少總有些慣性,使得繼電器真正換向并不是恰好在開關(guān)曲線
上,而是稍錯后一些,但這時繼電器的輸入已不為零。因此,它能基本上消除繼電器在零輸入信號下工作的不確定性。五、最優(yōu)時間計算
基本方法是把狀態(tài)轉(zhuǎn)移軌線按控制序列分成若干段,逐段計算所需時間然后求和。下面給出的是從初態(tài)(x1,x2)沿最優(yōu)軌線與開關(guān)曲線交點時間,以及從交點沿開關(guān)曲線到達(dá)原點時間的計算公式。在目前情況下,只要把這兩段時間加起來,即為狀態(tài)轉(zhuǎn)移的最小時間?!?-11動態(tài)規(guī)劃法動態(tài)規(guī)劃是貝爾曼(Bellman)在50年代作為多段(步)決策過程研究出來的,現(xiàn)已在許多技術(shù)領(lǐng)域中獲得廣泛應(yīng)用。
動態(tài)規(guī)劃是一種分段(步)最優(yōu)化方法,它既可用來求解約束條件下的函數(shù)極值問題,也可用于求解約束條件下的泛函極值問題。它與極小值原理一樣,是處理控制矢量被限制在一定閉集內(nèi),求解最優(yōu)控制問題的有效數(shù)學(xué)方法之一。動態(tài)規(guī)劃的核心是最優(yōu)性原理,它首先將一個多段(步)決策問題轉(zhuǎn)化為一系列單段(步)決策問題,然后從最后一段(步)狀態(tài)開始逆向遞推到初始段(步)狀態(tài)為止的一套求解最優(yōu)策略的完整方法。下面先介紹動態(tài)規(guī)劃的基本概念,然后討論離散型動態(tài)規(guī)劃,再推廣到連續(xù)型動態(tài)規(guī)劃。一、多段決策問題
所謂多段決策過程,是指把一個過程按時間或空間順序分為若干段(步),然后給每一段(步)作出“決策”,以使整個過程取得最優(yōu)的效果。如圖6-19所示。動態(tài)規(guī)劃是解決多段決策過程優(yōu)化問題的一種強(qiáng)有力的工具。
對于中間的任意一段,例如第k+1段作出相應(yīng)的“決策”(或控制)后,才能確定該段輸入狀態(tài)與輸出狀態(tài)間的關(guān)系,即從xk變化到xk+1的狀態(tài)轉(zhuǎn)移規(guī)律。在選擇好每一段的“決策”(或控制)uk以后,那么整個過程的狀態(tài)轉(zhuǎn)移規(guī)律從x0經(jīng)xk一直到xN(其中k=1,2,….N-1)也就完全被確定。全部“決策”的總體,稱為“策略”。當(dāng)然,如果對每一段的決策都是按照使某種性能指標(biāo)為最優(yōu)的原則作出的,那么這就是一個多段最優(yōu)決策過程。顯然,離散型最優(yōu)控制系統(tǒng)的動態(tài)過程是一個多段最優(yōu)決策過程的典型例子。容易理解,在多段決策過程中,每一段(如第k+1段)的輸出狀態(tài)(xk+1)都僅僅與該段的決策(uk)及該段的初始狀態(tài)(xk)有關(guān)。而與其前面各段的決策及狀態(tài)的轉(zhuǎn)移規(guī)律無關(guān)。這種性質(zhì),稱為無后效性。下面以最優(yōu)路線問題為例,來討論動態(tài)規(guī)劃求解多段決策問題。設(shè)汽車從A城出發(fā)到B城,途中需穿越三條河流,它們各有兩座橋P、Q可供選擇通過,如圖6-20所示。各段間的行車時間(或里程,或費用等)已標(biāo)注在相應(yīng)段旁。問題是要確定一條最優(yōu)行駛路線,使從A城到B城的行車時間最短(或里程最少,或費用最省等)。由圖6-20可知,所有可能的行車路線共有8條如果將各條路線所需的時間都一一計算出來,并作一比較,便可求得最優(yōu)路線是AQ1P2Q3B,歷時12。
這種一一計算的方法稱窮舉算法。這種方法計算量大,如本例就要做3
23=24次加法和7次比較?,F(xiàn)將A到B分成四段,每一段都要作一最優(yōu)決策,使總過程時間為最短。所以這是一個多段最優(yōu)決策問題。如果決策一個n段過程,則共需做(n-1)2n-1次加法和2n-1-1次比較??梢婋S著段數(shù)的增多,計算量將急劇增加。應(yīng)用動態(tài)規(guī)劃法可使計算量減少許多。
動態(tài)規(guī)劃法遵循一個最優(yōu)化原則:即所選擇的最優(yōu)路線必須保證其后部于路線是最優(yōu)的。例如在圖6-20中,如果AQ1P2Q3B是最優(yōu)路線,那么從這條路線上任一中間點至終點之間的一段路線必定也是最優(yōu)的,否則AQ1P2Q3B就不能是最優(yōu)路線了。根據(jù)這一原則,求解最優(yōu)路線問題,最好的辦法是從終點開始,按時間最短為目標(biāo),逐段向前逆推。依次計算出各站至終點站間的時間最優(yōu)值,并據(jù)此決策出每一站的最優(yōu)路線。如在圖6-20中終點站B開始逆推。
最后一段(第四段)終點B的前站是P3或Q3,不論汽車先前從哪一站始發(fā),行駛路線如何,在這最后一段,總不外乎是從P3到B,歷時為4,或從Q3到B,歷時為2,將其標(biāo)明在圖6-21中相應(yīng)的圓圈內(nèi)。比較P3與Q3這一最后一段最優(yōu)決策為Q3B。第三段P3、Q3的前站是P2、Q2,在這一段也不論其先前的情況如何,只需對從P2或Q2到B進(jìn)行最優(yōu)決策。從P2到B有兩條路線:P2P3B,歷時為6;P2Q3B,歷時為4,取最短歷時4,標(biāo)注在P2旁。從Q2到B也有兩條路線:Q2P3B,歷時為7;Q2P3B,歷時為5,取最短歷時5,標(biāo)注在Q2旁。比較P2與Q2的最優(yōu)值,可知這一段的最優(yōu)路線是P2Q3B。第二段P2、Q2的前站是P1、Q1。同樣不管汽車是如何到達(dá)P1、Q1的,重要的是保證從P1或Q1到B要構(gòu)成最優(yōu)路線。從P1到B的兩條路線中,P1P2Q3B,歷時為11;P1Q2Q3B,歷時為11,取最短歷時11,標(biāo)注在P1旁。從Q1到B也有兩條路線:Q1P2Q3B,歷時為8;Q1Q2Q3B,歷時為13,取最短歷時8,標(biāo)注在P1旁。比較P1與Q1的最優(yōu)值,可知這一段的最優(yōu)路線是Q1P2Q3B。綜上可見,動態(tài)規(guī)劃法的特點是:
1)與窮舉算法相比,可使計算量大大減少。如上述最優(yōu)路線問題,用動態(tài)規(guī)劃法只須做10次加法和6次比較。如果過程為n段,則需做4(n-2)+2次加法。以n=10為例,用窮舉法需作4608次加法,而后者只需作34次加法。
2)最優(yōu)路線的整體決策是從終點開始,采用逆推方法,通過計算、比較各段性能標(biāo),逐段決策逐步延伸完成的。第一段P1、Q1的前站是始發(fā)站A。顯見從A到B的最優(yōu)值為12,故得最優(yōu)路線為Q1P2Q3B。全部最優(yōu)路線的形成過程已充分表達(dá)在圖6-21中。從最后一段開始,通過比較P3、Q3,得到Q3B;倒數(shù)第二段,通過比較P2、Q2,得到P2Q3B;倒數(shù)第三段,比較P1、Q1,得最優(yōu)決策為Q1P2Q3B;直至最后形成最優(yōu)路線AQ1P2Q3B。
象這樣將一個多段決策問題轉(zhuǎn)化成多個單段決策的簡單問題來處理,正是動態(tài)規(guī)劃法的重要特點之一。3)動態(tài)規(guī)劃法體現(xiàn)了多段最優(yōu)決策的一個重要規(guī)律,即所謂最優(yōu)性原理。它是動態(tài)規(guī)劃的理論基礎(chǔ)。
對圖6-22所示的N段決策過程,如果在第k+1段處把全過程看成前k段子過程和后N-k段子過程兩部分。對于后部子過程來說,xk可看作是由x0及前k段初始決策(或控制)u0,u1,···,uk-1所形成的初始狀態(tài)。多段決策過程的最優(yōu)策略具有這樣的性質(zhì):不論初始狀態(tài)和初始決策如何,其余(后段)決策(或控制)對于由初始決策所形成的狀態(tài)來說,必定也是一個最優(yōu)策略。這個性質(zhì)稱為最優(yōu)性原理。最優(yōu)性原理同樣適用于連續(xù)系統(tǒng)。設(shè)圖6-23中:x*(t)是連續(xù)系統(tǒng)的一條最優(yōu)控制軌線。x(t1)是最優(yōu)軌線上的一點,那么最優(yōu)性原理說明,不管t=t1,t0<t1<tf時,系統(tǒng)是怎樣轉(zhuǎn)移到狀態(tài)x(t1)的,但從x(t1)到x(tf)這段軌線必定是最優(yōu)的。應(yīng)用最優(yōu)性原理可以將一個N段最優(yōu)決策問題化為N個一段最優(yōu)決策問題,從而大大減少求解最優(yōu)決策問題的計算量。因為最優(yōu)軌線的后一段從x(t1)到x(tf)如果還有另一條軌線是最優(yōu)的話,那么原來從x(t0)到x(tf)的軌線就不是最優(yōu)的,這與假設(shè)矛盾。因此,最優(yōu)性原理成立。二、離散系統(tǒng)的動態(tài)規(guī)劃設(shè)離散系統(tǒng)的狀態(tài)方程為(6-269)式中xk+1=x(k+1)—n維狀態(tài)矢量在(k+1)T時刻的值;
uk=u(k)—
維容許控制矢量或決策矢量在kT時刻的值;
f—n維矢量函數(shù)。狀態(tài)初值控制約束性能泛函式中[xN]—對終端狀態(tài)xN=x(N)的要求。(6-270)(6-271)問題是尋求一個最優(yōu)控制序列,使上述性能泛函取極值。求出后,代入式(6-269)可求得最優(yōu)軌線,再把代入式(6-271)即可求得最優(yōu)性能指標(biāo),顯然它只與初始狀態(tài)x0有關(guān)。前已指出,離散系統(tǒng)最優(yōu)控制問題是一個典型的多段最優(yōu)決策問題。它要求逐段作出決策,選擇最優(yōu)控制,完成從初始狀態(tài)x0到終端狀態(tài)xN的轉(zhuǎn)移,并使性能泛函為極小。
根據(jù)最優(yōu)性原理,對于一個N段最優(yōu)決策過程,不論第一段的u0怎樣選取,第二段以后的控制序列對于由x0和u0所形成的狀態(tài)x1=f[x0,u0]來說,一定是N-1段最優(yōu)控制序列。它應(yīng)使式(6-271)性能泛函中的后N-1項與[xN]之和為極小,即滿足(6-272)式中—N段決策過程的最優(yōu)性能泛函,其初始狀態(tài)為x0;—后N-1段子過程的最優(yōu)性能泛函,由式(6-272)確定,其初始狀態(tài)x1由式(6-274)確定。那么,對N段最優(yōu)決策過程,應(yīng)滿足(6-273)(6-274)
稱式(6-273)為動態(tài)規(guī)劃基本方程或貝爾量泛函方程。其遞推過程如下:根據(jù)初始狀態(tài)x0,由式(6-273)可以確定
,但必須知道。根據(jù)最優(yōu)性原理(6-275)式中,—后部N-2段子過程的最優(yōu)性能泛函,其初始狀態(tài)x2由式(6-276)決定。同理,由式(6-275)確定,又必須知道。依次類推,可得更一般的動態(tài)規(guī)劃遞推方程。(6-277)式中—以xk為初始狀態(tài)的后部N-k段子過程的最優(yōu)性能泛函,xk由x0及前k段控制{uk}(k=0,1,
,k-1)所決定。(6-278)—以式(6-278)為創(chuàng)始狀態(tài)的后部N-(k+1)段子過程的最優(yōu)性能泛函。類似可得及為了書寫統(tǒng)一,令(6-279)(6-280)(6-281)(6-282)則式(6-281)可寫成若[xN]=0,則綜上所述,可將應(yīng)用動態(tài)規(guī)劃遞推方程式(6-277)求解最優(yōu)控制序列的解題過程示于圖6-24。由圖可見,解題過程是從最后一段開始逆向逐步遞推的,通過解N個函數(shù)方程,可依次求得最優(yōu)解。
在一般情況下,由遞推方程式(6-277)難以取得解析解,只能用計算機(jī)求取數(shù)值解。[例6-14]設(shè)一階離散系統(tǒng)求最優(yōu)控制u*(k)及最優(yōu)軌線x*(k)。解為簡單計,取N=2。
問題是要確定最優(yōu)控制u*(0),u*(1);最優(yōu)軌線x*(1),x*(2)及最優(yōu)性能泛函,(見圖6-25)。先考慮最后一步,即由狀態(tài)x(1)轉(zhuǎn)移到x(2)這一步。如果采用控制u(1),則有最優(yōu)控制u(1)應(yīng)使由狀態(tài)x(1)出發(fā)時為最小,故有因此得實際上,它們都是這一段初始狀態(tài)x(1)的函數(shù)。
再考慮倒數(shù)第二步,即由初始狀態(tài)x(0)轉(zhuǎn)移到x(1)的一步。如果采用控制u(0),則為使u(0)為最優(yōu)控制,必須滿足故得它們也是該初始狀態(tài)x(0)的函數(shù)。
可見,它們都是初始狀態(tài)x(0)的函數(shù)。
最優(yōu)軌線為最優(yōu)性能泛函為最優(yōu)控制為綜上可得:[例6-15]設(shè)一維線性系統(tǒng)狀態(tài)方程及初始狀態(tài)為性能泛函為求最優(yōu)控制及性能泛函最優(yōu)值。其中a,b,q,
均為常數(shù)。解這是個離散二次型的三段最優(yōu)決策問題,N=3。,故第一步求u*(2)使?jié)M足有故第二步求u*(1)使?jié)M足由得令可得第三步求u*(0)使?jié)M足由上可見,最優(yōu)控制可由狀態(tài)的線性負(fù)反饋來實現(xiàn):其中[例6-16]設(shè)一階慣性系統(tǒng)如圖6-26所示,性能泛函x(tf)自由。假定采用離散控制,把[0,tf]分成三段,求最優(yōu)控制u*(0),u*(1),u*(2)。解將系統(tǒng)的狀態(tài)方程進(jìn)行離散化,得差分方程式中
t是小的時間間隔。離散化后的性能泛函為按照動態(tài)規(guī)劃遞推方程,這是個三段最優(yōu)決策問題,應(yīng)化為三個一段決策問題來解決。這里,第一步以x(2)為初始狀態(tài),求u*(2),使得第二步以x(1)為初始狀態(tài),求u*(1)使由得即第三步以x(0)為初始狀態(tài),求u*(1)使從已知的x(0),可求出u*(0),由x(1)和u*(0)可求出x(1),進(jìn)一步求出u*(1)。由上可見,最優(yōu)控制u*(0),u*(1),都是狀態(tài)變量的函數(shù),據(jù)此可實現(xiàn)反饋控制。令解得三、連續(xù)系統(tǒng)的動態(tài)規(guī)劃利用動態(tài)規(guī)劃最優(yōu)性原理,可以推導(dǎo)出性能泛函為極小應(yīng)滿足的條件—哈密爾頓-雅可比方程。它是動態(tài)規(guī)劃的連續(xù)形式,解此方程可求得最優(yōu)控制u*(t)?,F(xiàn)在來推導(dǎo)這一方程。設(shè)連續(xù)系統(tǒng)狀態(tài)方程為初始狀態(tài)終端約束(6-285)(6-286)使性能泛函(6-287)求最優(yōu)控制u*(t),u
U或u任意。根據(jù)最優(yōu)性原理,如果x*(t)是以x(t0)為初始狀態(tài)的最優(yōu)軌線,如圖6-27所示。設(shè)t=t
(t0<t
<tf)時,狀態(tài)為x(t
),它將軌線分成前后兩半段。那么以x(t
)為初始狀態(tài)的后半段也必是最優(yōu)軌線。而與系統(tǒng)先前如何到達(dá)x(t
)無關(guān)。若取t0=t,t
=t+t,式(6-287)可寫成(6-288)根據(jù)最優(yōu)性原理,如果t到tf的過程是最優(yōu)的,則從t+t到tf的后部子過程也是最優(yōu)的,其中t0<t+t<tf。因此可寫成當(dāng)
t很小時,有式(6-288)可近似表示為將x(t+t)進(jìn)行泰勒展開,取一次近似,有(6-289)將上式在[x,t]鄰域展成泰勒級數(shù),考慮到J*[x+
x,t+t]既是x的函數(shù),也與t有關(guān),所以(6-290)代如式(6-289),得(6-291)考察上式因為J*[x,t]與u無關(guān),故J*[x,t]與可提到min號外面。經(jīng)整理可得式(6-292)稱為連續(xù)系統(tǒng)動態(tài)規(guī)劃基本方程或貝爾曼方程。它是一個關(guān)于J*[x,t]的偏微分方程。解此方程可求得最優(yōu)控制使J為極小。(6-292)它的邊界條件為(6-293)如果令哈密爾頓函數(shù)為式中(6-294)(6-295)則式(6-292)可寫成(6-296)當(dāng)控制矢量u(t)不受限制時,則有上兩式稱為哈密爾頓-雅可比方程。上式說明,在最優(yōu)軌線上,最優(yōu)控制必須使H
達(dá)全局最小。實際上這就是極小值原理的另一形式。
由貝爾曼方程可推導(dǎo)出協(xié)態(tài)方程和橫截條件。式(6-292)可寫成對x
求偏導(dǎo)數(shù),得(6-297)由于對t
的全導(dǎo)數(shù),為(6-298)代入式(6-297)可寫成(6-299)令,則上式可寫成這就是所求的協(xié)態(tài)方程,與以前結(jié)果完全一致。當(dāng)t=tf時,在終端處性能泛函為式中—與N
同維的乘子矢量。對x(tf)求偏導(dǎo)數(shù),得(6-301)(6-302)即
將式(6-301)對tf
求偏導(dǎo)數(shù),得考慮式(6-296)、式(6-297)得(6-303)上述結(jié)果與極小值原理中推導(dǎo)的完全一致。上述推導(dǎo)過程實際上等于用動態(tài)規(guī)劃方法間接證明了極小值原理。
應(yīng)當(dāng)指出,與極小值原理比較,動態(tài)規(guī)劃法需要解偏微分方程式(6-292),它要求J=[x,t]具有連續(xù)的偏導(dǎo)數(shù),但在實際工程中,這一點常常不能滿足,因而限制了動態(tài)規(guī)劃法的使用范圍。
[例6-17]設(shè),求最優(yōu)控制u*(t)使解構(gòu)造哈密爾頓函數(shù)根據(jù)哈密爾頓-雅可比方程,有考慮控制u不受限制,得故邊界條件,因[x(tf),tf]=0,故如果令,則得,這正是應(yīng)用極小值原理所得結(jié)果,二者完全一致。[例6-18]設(shè)受控系統(tǒng)狀態(tài)方程為初始狀態(tài)性能泛函為試求在u無限制情況下,使J取極小時的最優(yōu)控制。由哈密爾頓-雅可比方程
解
構(gòu)造哈密爾頓函數(shù)因u無限制,可從求得代入上式,并注意到J*與t
無關(guān),因而,有為求解此微分方程,設(shè)其解為滿足方程,得各項系數(shù)為可得解為最優(yōu)控制最優(yōu)控制可由狀態(tài)反饋實現(xiàn),如圖6-28所示。進(jìn)一步考察系統(tǒng)的狀態(tài)軌線。系統(tǒng)的狀態(tài)方程為齊次方程,它的解為于是最優(yōu)控制為性能泛函最優(yōu)值為[例6-19]設(shè)受控系統(tǒng)的微分方程為使性能指標(biāo),即要求快速響應(yīng),求最優(yōu)控制u,且滿足
u1。解若選,可得系統(tǒng)的狀態(tài)方程根據(jù)哈密爾頓-貝爾曼方程為使取全局最小,可得在所論情況下,因J*與t無關(guān),故哈密爾頓-貝爾曼方程為這是一個非線性偏微分方程,需借助電子計算機(jī)求解J*,再求J*對x2的偏導(dǎo)數(shù)便可求得最優(yōu)控制。綜上所述,可將連續(xù)型動態(tài)規(guī)劃求解最優(yōu)控制問題的步驟歸納如下:1)構(gòu)造哈密爾頓函數(shù)2)以H[x,u,t]取極值為條件求,即(當(dāng)u取值無限制時)(當(dāng)uU為容許控制時)或由上述條件解出的是x,,t
的函數(shù)。4)將J*[x(t),t]代回,即得最優(yōu)控制u*[x(t),t],它是狀態(tài)變量的函數(shù),據(jù)此可實現(xiàn)閉環(huán)最優(yōu)控制。3)將代入哈密爾頓-貝爾曼方程,并根據(jù)邊界條件,解出J*[x(t),t]。
5)將u*[x(t),t]代入狀態(tài)方程,可進(jìn)一步解出最優(yōu)軌線x*(t)。6)再將x*(t)代入求得最優(yōu)性能泛函J*[x(t)]?!?-12線性二次型最優(yōu)控制問題
如果系統(tǒng)是線性的,性能泛函是狀態(tài)變量(或/和)控制變量的二次型函數(shù)的積分,則這樣的最優(yōu)控制問題稱為線性二次型最優(yōu)控制問題。簡稱線性二次型。
這種最優(yōu)控制問題的解最簡單,應(yīng)用十分廣泛,是現(xiàn)代控制理論中最重要的成果之一。線性二次型問題解出的控制規(guī)律是狀態(tài)變量的線性函數(shù),因而通過狀態(tài)反饋便可實現(xiàn)閉環(huán)最優(yōu)控制,這在工程上具有重要意義。先討論二次型性能泛函,然后討論調(diào)節(jié)器問題和跟蹤問題。一、二次型性能泛函二次型性能泛函的一般形式如下:式中Q1(t)—n
n維半正定的狀態(tài)加權(quán)矩陣;
Q2(t)—r
r維正定的控制加權(quán)矩陣;
Q0—n
n維半正定的終端加權(quán)矩陣。(6-304)在工程實際中,Q1(t)和Q2(t),是對稱矩陣而且常取對角陣。下面對性能泛函中各項的物理意義作一解析。
被積函數(shù)中第一項,若x表示誤差矢量,那么Lx表示誤差平方。因為Q1(t)半正定,所以只要出現(xiàn)誤差,Lx總是非負(fù)的。若x=0,Lx=0,若x增大,Lx也增大。由此可見,Lx是用以衡量誤差x大小的代價函數(shù),x越大,則支付的代價越大。在x是標(biāo)量函數(shù)的情況下,,那么表示誤差平方的積分。被積函數(shù)中第二項,表示動態(tài)過程中對控制的約束或要求。因為Q2(t)正定,所以只要存在控制,Lu總是正的。
Q1(t)通常是對角線常陣,對角線上的元素q1i分別表示對相應(yīng)誤差分量xi的重視程度。越加被重視的誤差分量,希望它越小,相應(yīng)地,其加權(quán)系數(shù)q1i就應(yīng)取得越大。如果對誤差在動態(tài)過程中不同階段有不同的強(qiáng)調(diào)時,那么,相應(yīng)的q1i就應(yīng)取成時變的。如果把u看作電壓或電流的函數(shù)的話,那么Lu與功率成正比,而則表示在[0,tf]區(qū)間內(nèi)消耗的能量。因此,Lu是用來衡量控制功率大小的代價函數(shù)。式中第二項突出了對終端誤差的要求,叫做終端代價函數(shù)。例如在宇航的交會問題中,由于要求兩個飛行體終態(tài)嚴(yán)格一致,因此,必須加入這一項以體現(xiàn)tf時的誤差足夠小。至于Q2(t),Q0的加權(quán)意義與Q1(t)
相仿。如果最優(yōu)控制的目標(biāo)是使J
min,則其實質(zhì)在于用不大的控制來保持較小的誤差,從而達(dá)到能量和誤差綜合最優(yōu)的目的.二、有限時間狀態(tài)調(diào)節(jié)器問題
狀態(tài)調(diào)節(jié)器的任務(wù):當(dāng)系統(tǒng)狀態(tài)由于任何原因偏離了平衡狀態(tài)時,能在不消耗過多能量的情況下,保持系統(tǒng)狀態(tài)各分量仍接近于平衡狀態(tài)。在研究這類問題時,通常是把初始狀態(tài)矢量看作擾動,而把零狀態(tài)取作平衡狀態(tài)。于是調(diào)節(jié)器問題就變?yōu)閷で笞顑?yōu)控制規(guī)律u,在有限的時間區(qū)間[t0,tf]內(nèi),將系統(tǒng)從初始狀態(tài)轉(zhuǎn)移到零點附近,并使給定的性能泛函取極值。設(shè)線性時變系統(tǒng)的狀態(tài)空間描述為式中x、u、y—分別為n、r、m維矢量;
A(t)—n
n維狀態(tài)矩陣;
B(t)—n
r維控制矩陣;
G(t)—m
n維輸出矩陣。性能泛函為(6-306)式中Q1(t)—n
n維半正定加權(quán)陣;
Q2(t)—r
r維正定加權(quán)陣;
Q0—n
n維半正定加權(quán)陣。設(shè)u取值不受限制,尋求最優(yōu)控制,使J取極值。根據(jù)極小值原理,引入n維協(xié)態(tài)矢量(t),構(gòu)造哈密爾頓函數(shù)(6-307)又因正定,故由式(6-308)所確定的最優(yōu)控制,對于J取極小值來說,既是必要的,又是充分的。最優(yōu)控制應(yīng)使H
取極值,因u不受限制,則成立由于Q2(t)正定、對稱,得由正則方程可解出x和
的關(guān)系(6-309)(6-310)邊界條件聯(lián)立求解式(6-309)和式(6-310),可求得x和
。(6-311)從式(6-303)可知u*是
的線性函數(shù)。為了使u*(t)能由狀態(tài)反饋實現(xiàn),尚應(yīng)求出(t)與x(t)的變換矩陣P(t),設(shè)式中P(t)—n
n維實對稱矩陣,待定。把式(6-312)代入式(6-308)可得(6-312)(6-313)(6-314)式中K(t)—n
n維最優(yōu)反饋增益矩陣。閉環(huán)系統(tǒng)方程為(6-315)式(6-313)說明,對于線性二次型問題,最優(yōu)控制可由全部狀態(tài)變量構(gòu)成的最優(yōu)線性反饋來實現(xiàn)。閉環(huán)系統(tǒng)的結(jié)構(gòu)如圖6-29所示。將式(6-312)代入正則方程組,消去
,得(6-316)(6-317)將式(6-312)求導(dǎo)數(shù),得把式(6-317)代入式(6-318)并注意到式(6-316)得(6-318)整理后(6-319)邊界條件(6-320)
式(6-319)稱為黎卡提(Riccati)矩陣微分方程。這是一個非線性矩陣微分方程。由于P(t)是一個對稱陣,所以實際只須解個一階微分方程組,便可確定P(t)的所有元素。為證明P(t)為對稱陣,可將式(6-319)和式(6-320)轉(zhuǎn)置,得可見,PT(t)和P(t)是滿足同一邊界條件的黎卡提微分方程的解,根據(jù)解的唯一性可知故P(t)是對稱矩陣。(6-321)由于黎卡提微分方程是非線性的,通常不能直接求得解析解,但可用數(shù)字計算機(jī)進(jìn)行離線計算并將其結(jié)果P(t)存貯起來備用。將式(6-319)代入得已知P(tf),以此為初始條件,即從終端時刻的P(tf)
出發(fā),以-
t為單位逆時間方向逐次求出各離散時刻t的值P(t)。將式(6-318)離散化,令(6-322)(6-323)
綜上所述,線性調(diào)節(jié)器的設(shè)計步驟如下:1)根據(jù)工藝要求和工程實踐經(jīng)驗,選定加權(quán)矩陣Q0、Q1(t)、Q2(t)。2)
由A(t)、B(t)、Q0、Q1(t)、Q2(t)按照式(6-319)和式(6-320),求解黎卡提矩陣微分方程,得矩陣P(t)。
3)
由式(6-314)和式(6-313)求反饋增益矩陣K(t)及最優(yōu)控制u*(t)。4)
解式(6-317)求相應(yīng)的最優(yōu)軌線x*(t)。5)
計算性能泛函最優(yōu)值。(6-324)將用狀態(tài)方程代入,用黎卡提方程代入,可得式(6-324)證明如下:對xT(t)P(t)x(t)求導(dǎo)數(shù)當(dāng)u(t)、x(t)取最優(yōu)函數(shù)u*(t),x*(t)時,有將上式兩邊從t0到tf積分并同乘以1/2,即上式代入式(6-306),得證畢。顯然,在任意時刻性能泛函為當(dāng)t=tf時,即為式(6-306)中終端性能的最優(yōu)值。順便指出,上述由全狀態(tài)反饋構(gòu)成的閉環(huán)最優(yōu)控制系統(tǒng)是漸近穩(wěn)定的。[例6-20]已知一階系統(tǒng)的狀態(tài)方程和性能泛函其中q1>0,q2>0,q0
0。求最優(yōu)控制u*(t)。解由式(6-313),知其中P(t)是黎卡提方程的解。由積分方程得式中最優(yōu)軌線是時變一階微分方程的解因6-30是最優(yōu)線性反饋系統(tǒng)的模擬結(jié)構(gòu)圖。圖中Π表示相乘。P(t)通過對黎卡提方程進(jìn)行模擬來獲得,其初值P(0)可由P(t)令t=0計算出來,也可以在模擬機(jī)上通過調(diào)整得到,即反復(fù)調(diào)整P(0),直到tf滿足P(tf)=q0為止。關(guān)于P(t)的性質(zhì)及相應(yīng)的x(t),u(t)變化情況如圖6-31所示。這組曲線是在a=-1,q0=0,q1=1,x(0)=1和tf=1的條件下得到的。圖6-31a表示以q2為參數(shù)時黎卡提方程解P(t)的變化規(guī)律。當(dāng)q2很小時,在控制區(qū)間的起始部分P(t)幾乎是常值,因而系統(tǒng)可近似為定常系統(tǒng);但當(dāng)q2增大后,P(t)隨時間發(fā)生較大變化,P(t)才成為真正時變的。圖6-31b是一組以q2為參數(shù)的狀態(tài)軌線。當(dāng)q2很小時,狀態(tài)變量x(t)將迅速接近到零值,否則x(t)的衰減緩慢。
圖6-31c是以q2為參數(shù)的一組最優(yōu)控制曲線。隨著q2的減少,過程起始部分控制變量的幅值變得很大,當(dāng)q20時,則u(t)在t0處將趨于一尖脈沖。當(dāng)終端時間tf不同時,黎卡提方程的解P(t)的曲線示于圖6-32上。這組曲線是在a=-1,q1=q2=1,q2取0和1的條件下得到的。這組曲線表明,從tf時刻起,隨著t的減小,P(t)趨近于一個“穩(wěn)態(tài)值”,該值與終端條件無關(guān)。隨著tf的增加,P(t)保常值的時間區(qū)間在加寬。
由此可見,只要將tf取得足夠大,在[t0,tf]區(qū)間的大部分時間內(nèi),tf可視為常數(shù)。事實上,如把a(bǔ)=-1,q1=q2=1代入,可得說明當(dāng)tf
時,P(t)是一個常數(shù)。[例6-21]設(shè)系統(tǒng)和性能泛函為求最優(yōu)控制u*(t)。解這是一個二階線性系統(tǒng)的二次型問題。已知P(t)是2
2對稱陣,設(shè)為式中P12(t)、P22(t)是如下黎卡提微分方程的解。則最優(yōu)控制為邊界條件在tf=3時,P(tf)=Q0,即滿足對上式展開整理,得終端條件為聯(lián)立求解以上三個一階非線性微分方程,求出P12(t)、P22(t),便能獲得最優(yōu)控制。但要獲得解析是困難的。三、無限時間狀態(tài)調(diào)節(jié)器問題上面討論的狀態(tài)調(diào)節(jié)器,雖然最優(yōu)反饋是線性的,然而由于控制時間區(qū)間[t0,tf]是有限的,因而這種系統(tǒng)總是時變的。甚至在狀態(tài)方程和性能泛函都是定常的,即矩陣A(t)、B(t)、Q1(t)、Q2(t)都是常陣的情況也是如此。這就大大增加了系統(tǒng)結(jié)構(gòu)的復(fù)雜性。顯然問題的癥結(jié)在于矩陣P(t)是時變的。為了探索使P(t)成為常陣的條件,可從圖6-32和式(6-325)得到啟發(fā),隨著終端時刻tf趨向無窮,P(t)將趨于某常數(shù),可見最優(yōu)反饋的時變系統(tǒng)也隨之轉(zhuǎn)化為定常系統(tǒng)。這樣就得到tf=
的所謂無限時間狀態(tài)調(diào)節(jié)器??梢宰C明,若線性定常系統(tǒng)能控,性能泛函為其中u不受限制,Q1是半正定常數(shù)矩陣,Q2為正定常數(shù)矩陣。則最優(yōu)控制存在,且唯一:式中P—n
n維正定常數(shù)矩陣,滿足下列黎卡提矩陣代數(shù)方程最優(yōu)軌線是下列線性定常齊次方程的解:性能泛函的最小值為(6-330)(6-331)對于無限時間狀態(tài)調(diào)節(jié)器,強(qiáng)調(diào)以下幾點:1)適用于線性定常系統(tǒng),且要求系統(tǒng)完全能控,而在有限時間狀態(tài)調(diào)節(jié)器中則不強(qiáng)調(diào)這一點。因為在無限時間調(diào)節(jié)器中,控制區(qū)間擴(kuò)大至無窮,倘若系統(tǒng)不能控,則無論哪一個控制矢量都將由于t=
,而使性能泛函趨于無窮,從而無法比較其優(yōu)劣。因此,能控性條件是從保證性能泛函的優(yōu)劣能進(jìn)行比較的角度考慮的。2)在性能泛函中,由于tf
,而使終端泛函失去了意義,即Q0=0。3)與有限時間狀態(tài)調(diào)節(jié)器一樣,最優(yōu)控制也是全狀態(tài)的線性反饋,結(jié)構(gòu)圖也與前面的相同。但是,這里的P是n
n維的實對稱常矩陣,是黎卡提短陣代數(shù)方程的解。因此,構(gòu)成的是一個線性定常閉環(huán)系統(tǒng)。4)閉環(huán)系統(tǒng)是漸近穩(wěn)定的,即系統(tǒng)矩陣的特征值均具負(fù)實部,而不論原受控系統(tǒng)A的特征值如何。證明如下:設(shè)李雅普諾夫函數(shù)因P
正定,故V(x)是正定的。將式(6-330)代入上式,得由于Q1,Q2均為正定矩陣,故負(fù)定,結(jié)論得證。實際上,若沿任意軌線不恒等于零,那么Q1可取為半正定矩陣。[例6-22]已知系統(tǒng)的的狀態(tài)方程性能泛函為求使J
min的最優(yōu)控制u*(t)。解已知為使Q1正定,假設(shè)a-b2>0。經(jīng)檢驗受控系統(tǒng)完全能控。Q1、Q2正定,因此存在最優(yōu)控制式中p12、p22是下列黎卡提代數(shù)方程的正定解展開整理得三個代數(shù)方程:解出在保證Q1和P為正定條件下,可得故最優(yōu)控制為閉環(huán)系統(tǒng)結(jié)構(gòu)如圖6-33所示。閉環(huán)系統(tǒng)的狀態(tài)方程為若以x1為輸出,則y=[10]x閉環(huán)系統(tǒng)的傳遞函數(shù)為閉環(huán)極點當(dāng)a=0時,閉環(huán)極點為這表示在性能指標(biāo)中,對x2沒有要求,加權(quán)為零。這在經(jīng)典控制理論中,相當(dāng)于阻尼比
=0.707的二階最佳阻尼振蕩系統(tǒng)。隨著a的增大,閉環(huán)極點趨向?qū)嵼S,振蕩減弱,響應(yīng)遲緩。圖6-34是以a為參量的根軌跡圖??梢妼2(即輸出量x1的變化率)加權(quán)放大,系統(tǒng)振蕩越小。當(dāng)a>2時,系統(tǒng)呈過阻尼響應(yīng),振蕩消失。順便指出,本例的受控系統(tǒng)是不穩(wěn)定的,但求得的閉環(huán)最優(yōu)系統(tǒng)卻是漸近穩(wěn)定的。實際上,如果僅考慮閉環(huán)系統(tǒng)的穩(wěn)定性,則只要Q1半正定即可,如a=0,b=0,是正定的,此時閉環(huán)系統(tǒng)的兩個極點與上述a=0的情況相同,系統(tǒng)當(dāng)然是穩(wěn)定的??山獾盟摹⑤敵稣{(diào)節(jié)器問題輸出調(diào)節(jié)器的任務(wù)是當(dāng)系統(tǒng)受到外擾時,在不消耗過多能量的前提下,維持系統(tǒng)的輸出矢量接近其平衡狀態(tài)。1.線性時變系統(tǒng)輸出調(diào)節(jié)器問題給定一個能觀的線性時變系統(tǒng)(6-332)性能泛函為(6-333)式中u(t)—任意取值;
Q2(t)—正定對稱矩陣;Q1(t)和Q0—半正定矩陣。要求在有限時間區(qū)間[t0,tf]內(nèi),在式(6-332)約束下,尋求u*(t),使J
min。這類問題的求解,是通過將式(6-333)轉(zhuǎn)化為類似于狀態(tài)調(diào)節(jié)器問題進(jìn)行的。為此用y(t)=C(t)x(t)代入式(6-333),得(6-334)比較式(6-334)和式(6-306)可知,這里用CTQ1C和CTQ0C分別取代以前的Q1和Q0,在系統(tǒng)完全能觀前提下,若Q1(t)和Q0是半正定矩陣,則轉(zhuǎn)換成狀態(tài)調(diào)節(jié)器問題后的CTQ1C和CTQ0C也是半正定短陣。證明如下:首先因為Q0和Q1(t)是對稱陣,故CT(tf)Q0C(tf)和CT(t)Q1C(t)也是對稱陣。如果系統(tǒng)式(6-332)能觀,則在所有t[t0,tf]上CT(t)不能為零。如果Q1(t)是半正定,則yT(t)Q1(t)y(t)0,對所有C(t)x(t)也成立,但能觀測意味著每個輸出由唯一的一個狀態(tài)x(t)所形成,因此我們歸結(jié)為xT(t)[CT(t)Q1(t)C(t)]x(t)0,對所有x(t)是成立的,從而CT(t)Q1(t)C(t)是半正定的,同理可知CT(t)Q0C(t)也是半正定的。于是可以用狀態(tài)調(diào)節(jié)器式(6-313)來確定最優(yōu)控制(6-335)式中P(t)—下列黎卡提矩陣微分方程的解(6-336)(6-337)邊界條件
其它如閉環(huán)系統(tǒng)的最優(yōu)軌線和最優(yōu)性能泛函都與有限時間狀態(tài)調(diào)節(jié)器的相應(yīng)表達(dá)式相同。
讀者可能感到疑惑:為什么最優(yōu)控制不是所想象的由輸出y(t)反饋,而仍然是由狀態(tài)x(t)反饋?這是因為狀態(tài)矢量包含了主宰過程未來演變的全部信息,而輸出矢量只包含部分信息,最優(yōu)控制必須利用全部信息,所以要用x(t)而不用y(t)作反饋。值得注意的是,盡管輸出調(diào)節(jié)器與狀態(tài)調(diào)節(jié)器在算式上,在系統(tǒng)結(jié)構(gòu)上類同,但黎卡提方程是不同的,因此它們的解P(t)并不一樣。2.線性定常系統(tǒng)輸出調(diào)節(jié)器問題式中u(t)—沒有約束;
Q2—正定對稱陣;
Q1—正定或半正定對稱陣。給定一個完全能控、能觀的線性定常系統(tǒng)性能泛函為(6-339)要求在系統(tǒng)方程約束下,尋求u*(t)使J
min。這與上述求解的結(jié)果類同。最優(yōu)控制為而P
是下列黎卡提矩陣代數(shù)方程的解(6-340)(6-341)[例6-23]系統(tǒng)如圖6-35實線所示,其中b>0,c>0。性能泛函為求u*(t)使J
min。解一階線性系統(tǒng)方程為顯然,系統(tǒng)是能控,能觀的。這里最優(yōu)控制為P滿足黎卡提方程解得。為使P>0,應(yīng)將舍去,取最優(yōu)控制它可以直接y(t)獲得,如圖6-35中虛線所示。[例6-24]設(shè)受控系統(tǒng)和性能泛函為求u*(t)使J
min。解經(jīng)檢驗系統(tǒng)能控能觀。又Q2=q2最優(yōu)控制類似地從黎卡提方程中求得三個代數(shù)方程為保證P
正定,必須解得代入得最優(yōu)控制五、跟蹤器問題跟蹤器的控制目的是使輸出y(t)緊緊跟隨希望的輸出z(t),而不消耗過多的控制能量。1.線性時變系統(tǒng)跟蹤器問題給定一個完全能觀的線性時變系統(tǒng)設(shè)u(t)不受約束。用矢量z(t)表示希望的輸出,維數(shù)與y(t)相同。(6-342)定義誤差矢量e(t)為或?qū)ふ铱刂苪(t),使下列性能泛函為最?。?6-343)(6-344)式中Q0和Q1(t)—半正定矩陣;
Q2(t)—正定矩陣;終端時刻tf給定。下面應(yīng)用極小值原理推導(dǎo)跟蹤器的必要條件。寫出哈密爾頓函數(shù)由條件
H/u=0推出下列方程即由于Q2(t)正定,故上式的u(t)可使H
為極小。(6-345)(6-346)由條件給出其終端條件為(6-348)(6-347)從式(6-342)、式(6-346)和式(6-347)得正則方程
解為式中(t,tf)—式(6-349)的2n
2n基本解矩陣。將(tf)的終端條件代入上式并予以簡化,可得與式(6-312)比較可見,這里多了一項由z(t)引起的g(t)項。g(t)與x(t)、(t)一樣,是n維矢量。P(t)是n
n維矩陣。將式(6-351)代入式(6-346)得(6-351)(6-352)由式(6-352)可見,為了確定u*(t),必須首先確定P(t)和g(t)。為此,對式(6-351)兩邊求導(dǎo)數(shù)得將式(6-352)代入狀態(tài)方程得(6-353)(6-354)(6-355)再將上式代入式(6-353)得另一方面,將式(6-351)代入式(6-347),得只要存在最優(yōu)解,則對所有x(t)、z(t)及t
[t0,tf],式(6-355)及式(6-356)均成立。由此得出下列結(jié)論:1)n
n維矩陣P(t)必須滿足下列矩陣微分方程:2)n維矢量g(t)必須滿足下列矩陣微分方程:(6-357)(6-358)或(6-359)它們的邊界條件可推導(dǎo)如下,由式(6-347)得由式(6-348)又知(6-360)(6-361)因式(6-360)和式(6-361)對所有x(tf)和z(tf)均成立,比較兩式可得由上述兩組方程解出P(t),g(t)代入式(6-352),即可求得最優(yōu)控制u*(t)。1)先看矩陣P(t)。應(yīng)當(dāng)注意到黎卡提矩陣微分方程式(6-357)和邊界條件式(6-362)都與希望的輸出z(t)無關(guān)。P(t)僅是矩陣A(t)、B(t)、C(t)、Q0和Q1(t)及終端時刻tf的函數(shù)。這意味著只要動態(tài)系統(tǒng)、性能泛函及終端時刻一旦給定,則矩陣P(t)也就隨之而定。下面對上述控制規(guī)律作些討論:將方程式(6-357)式(6-362)與方程式(6-336)、式(6-337)加以比較,可知它們是一樣的,這意味著最優(yōu)跟蹤器系統(tǒng)的反饋結(jié)構(gòu),與最優(yōu)輸出調(diào)節(jié)器系統(tǒng)的反饋結(jié)構(gòu)相同。更為明顯的是,從比較它們的狀態(tài)方程可以看出,它們具有完全相同的閉環(huán)系統(tǒng)狀態(tài)矩陣,和相同的特征值,因此,最優(yōu)跟蹤器的動態(tài)性能也與希望的輸出z(t)無關(guān)。2)再看矢量g(t)。矢量g(t)集中反映了最優(yōu)跟蹤器系統(tǒng)與最優(yōu)輸出調(diào)節(jié)器系統(tǒng)的本質(zhì)差異。這一點表現(xiàn)在狀態(tài)方程式(6-354)中,就是增加了一個與g(t)有關(guān)的強(qiáng)迫控制項,從而使調(diào)節(jié)器變成了跟蹤器。對照一下方程式(6-354)與式(6-359),可見它們齊次部分的矩陣存在負(fù)的轉(zhuǎn)置關(guān)系,因此由方程式(5-359)表示的系統(tǒng)正是式(6-354)閉環(huán)系統(tǒng)的伴隨系統(tǒng)。如果設(shè)(t,t0)為閉環(huán)系統(tǒng)的基本解矩陣,(t,t0)為伴隨系統(tǒng)的基本解矩陣,則成立下列關(guān)系:g(tf)可用基本解矩陣(t,t0)表示為于是對所有t[t0,tf],g(t)可寫作(6-365)(6-366)式(6-366)表明,要計算g(t),t[t0,tf],必須預(yù)先給出所有的z(
)[t,tf]。換句話說,為了計算的現(xiàn)時值,必須預(yù)先知道輸出z(
)的全部將來值。與g(t)有關(guān),因而最優(yōu)控制的現(xiàn)時值也要依賴于希望輸出z(
)的全部將來值。又因最優(yōu)控制由此可見,要想實現(xiàn)最優(yōu)跟蹤,關(guān)鍵在于預(yù)先掌握希望輸出z(
)的變化規(guī)律。但是,z(
)的實際變化規(guī)律往往難以預(yù)先確定。至于說到最優(yōu)控制是z(t)將來值的函數(shù)的問題,那是因為最優(yōu)控制必須充分利用所有獲得的全部信息。但是,在最優(yōu)控制解題時卻沒有充分考慮物理實現(xiàn)上的要求。設(shè)t為現(xiàn)在時刻,[t0,t]為過去時間,[t,tf]表示未來時間,現(xiàn)在時刻的控制u(t)只能影響系統(tǒng)未來的響應(yīng),而不能再改變過去的響應(yīng)。同時系統(tǒng)過去的控制對性能的影響已體現(xiàn)在現(xiàn)時狀態(tài)x(t)中,由于現(xiàn)時狀態(tài)x(t)可部分地影響未來的響應(yīng),故現(xiàn)時的最優(yōu)控制u(t)必須為現(xiàn)時狀態(tài)x(t)的函數(shù)。然而現(xiàn)時控制u(t)的作用應(yīng)使系統(tǒng)未來的誤差為小。顯然,這些將來誤差必與z(
)[t,tf]的將來值有關(guān)。因此,最優(yōu)控制的現(xiàn)時值u(t)必然依賴于z(
)的全部未來值.換句話說,若未來的z(
)無法準(zhǔn)確預(yù)知,那么系統(tǒng)現(xiàn)時就不能準(zhǔn)確地工作于最優(yōu)狀態(tài)。解決上列問題可以有兩種考慮,一種是以將來希望輸出的“預(yù)估值”代替實際希望輸出的將來值;另一種是把希望輸出看成是隨機(jī)的,使誤差函數(shù)的期望值為極小。
在前一種情況下,系統(tǒng)的最優(yōu)程度將取決于“預(yù)估值”與實際值是否相符;在后一種情況下,基本上是把確定性問題作為隨機(jī)性問題處理,設(shè)計出的系統(tǒng)只是“平均”意義下的最優(yōu),但不能保證任意一次試驗的系統(tǒng)購應(yīng)都是滿意的。綜上所說無非是強(qiáng)調(diào)希望輸出值必需預(yù)先給定。下面說明P(t)與g(t)的計算情況。因為P(t)與z(t)無關(guān),故可對所有的t[t0,tf],把P(t)一一計算出來。當(dāng)P(t)和z(t)己知后,就可對所有的t[t0,tf]逆時間計算出g(t),并將計算值存貯起來?;蛘咴谑?6-366)中,令t=t0,計算g0(t):(6-367)然后以g(t0)為初始值,按式(6-359)順時間解出g(t)。圖6-36給出了模擬產(chǎn)生g(t)的結(jié)構(gòu)圖。一旦g(t0)預(yù)先計算出來后,引入系統(tǒng)便可解出g(t)。整個最優(yōu)跟蹤系統(tǒng)的結(jié)構(gòu)如圖6-37所示。其中表示閉環(huán)系統(tǒng)的狀態(tài)矩陣。圖中用矢量反饋包圍積分環(huán)節(jié),以強(qiáng)調(diào)說明這兩個動態(tài)系統(tǒng)之間的伴隨性質(zhì)。2.線性定常系統(tǒng)以上討論了線性時變系統(tǒng)在有限時間[t0,tf]
內(nèi)的跟蹤問題。對于線性定常系統(tǒng),如果要求輸出矢量為常數(shù)矢量,終端時間tf很大時,在這些條件下,可用上面的方法推導(dǎo)出一個近似的最優(yōu)控制律。雖然這個結(jié)果并不適用于tf
的情況,但對一般工程系統(tǒng)是足夠精確的,很有實用意義。為此,給出下面結(jié)果,不作推導(dǎo)。給定能控、能觀的線性定常系統(tǒng),動態(tài)方程為(6-368)設(shè)要求輸出z是一常數(shù)矢量,誤差e(t)表示為性能泛函為(6-369)(6-370)式中矩陣Q1及Q2—正定陣(6-373)當(dāng)給定tf足夠大但為有限值時,仿照前面有關(guān)公式可得近似結(jié)果如下:最優(yōu)控制其中P,g
滿足下列方程:最優(yōu)軌線滿足線性定常系統(tǒng)結(jié)構(gòu)如圖6-38所示。(6-372)(6-371)(6-374)[例6-25]已知一階動態(tài)系統(tǒng)控制u(t)不受約束。用z(t)表示希望的輸出,e(t)=z(t)-y(t)=z(t)-x(t)表示誤差。性能泛函為其中q00,q1>0,q2>0。求最優(yōu)控制u(t)使J為最小。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《住宅平面分析》課件
- 小學(xué)五年級數(shù)學(xué)小數(shù)乘除法計算練習(xí)題集
- 小學(xué)四年級下冊四則混合運算及簡便運算
- 中考語文專題匯編-非連續(xù)性文本閱讀-人教版初中九年級全冊語文試題
- 小學(xué)三年級四則混合運算練習(xí)題
- 屆茶中學(xué)屆高三臨考模擬考試臨考模擬語文加試試題教師版語文加試題(選考?xì)v史)
- 波形梁護(hù)欄材料技術(shù)參數(shù)
- 激光焊接常見工藝參數(shù)解讀
- 血透室護(hù)理工作總結(jié)
- 優(yōu)化數(shù)學(xué)課程設(shè)置與教材使用提高教學(xué)效果
- 穴位貼敷護(hù)理培訓(xùn)
- 腰椎間盤突出癥護(hù)理查房課件
- 建德海螺二期施工組織設(shè)計
- 山東省菏澤市2023-2024學(xué)年高一上學(xué)期期末測試物理試題(解析版)
- 2024年學(xué)校后勤日用品采購合同范本2篇
- DB45T 2866-2024 靈芝菌種制備技術(shù)規(guī)程
- 2024年度區(qū)塊鏈軟件產(chǎn)品知識產(chǎn)權(quán)共享協(xié)議3篇
- 人教版九年級上學(xué)期物理期末復(fù)習(xí)(壓軸60題28大考點)
- 人教版(2024版)七年級上冊英語期末模擬測試卷(含答案)
- 2024年度企業(yè)環(huán)境、社會及治理(ESG)咨詢合同6篇
- 幼兒園中班美術(shù)活動《美麗的線條》課件
評論
0/150
提交評論