版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
新能源汽車(chē)與智能網(wǎng)聯(lián)技術(shù)第5章
決策規(guī)劃“十四五”時(shí)期國(guó)家重點(diǎn)出版物出版專項(xiàng)規(guī)劃項(xiàng)目新能源與智能網(wǎng)聯(lián)汽車(chē)新技術(shù)系列叢書(shū)中國(guó)機(jī)械工業(yè)教育協(xié)會(huì)“十四五”普通高等教育規(guī)劃教材課程負(fù)責(zé)人:靳文瑞譚理剛黃晉wrjin@本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車(chē)輛運(yùn)動(dòng)軌跡本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車(chē)輛運(yùn)動(dòng)軌跡5.1決策方法概述自動(dòng)駕駛高精地圖概述正確的決策方法是智能汽車(chē)行駛安全性及合理性的重要保障,其目的是接收最新的本車(chē)狀態(tài)信息以及環(huán)境感知信息,結(jié)合交通規(guī)則,決策產(chǎn)生一個(gè)能夠完成駕駛?cè)蝿?wù)的行駛行為,作為下層軌跡規(guī)劃的目標(biāo)。典型的行駛行為包括與道路相關(guān)的交叉口行駛、換道,以及與其他車(chē)輛相關(guān)的跟隨、超車(chē)、避讓等。顯然,行為決策一方面取決于當(dāng)前客觀環(huán)境信息以及相應(yīng)交通規(guī)則的潛在影響,另一方面,如果想要在動(dòng)態(tài)交通環(huán)境中安全、高效地行駛,其他交通參與物對(duì)智能汽車(chē)的影響也是必須考慮的。同時(shí),因?yàn)樾枰鶕?jù)實(shí)時(shí)獲得的傳感信息決策出合理的行駛行為,智能汽車(chē)行為決策模塊需要具備較高的實(shí)時(shí)性。決策方法分類目前的自動(dòng)駕駛決策規(guī)劃技術(shù)方案主要分為兩類,即分解式?jīng)Q策方案和集中式?jīng)Q策方案。兩種方案的決策過(guò)程不同,優(yōu)缺點(diǎn)各異,都有著各自的研究方法和實(shí)車(chē)應(yīng)用5.1決策方法概述表1兩類自動(dòng)駕駛決策規(guī)劃技術(shù)方案比較分解式?jīng)Q策方案將決策過(guò)程分解為相互獨(dú)立的子過(guò)程,一般分為交通情景理解、參與者運(yùn)動(dòng)預(yù)測(cè)、駕駛行為選擇、駕駛軌跡規(guī)劃4個(gè)部分。分解式?jīng)Q策方案各子過(guò)程獨(dú)立求解,因而決策代碼開(kāi)發(fā)的可控性好。集中式?jīng)Q策方案采用類似人類的駕駛決策過(guò)程,以環(huán)境感知結(jié)果為輸入,直接以期望路徑或執(zhí)行器控制命令為輸出,將決策過(guò)程視作一個(gè)不可分解的黑箱,體系框架相對(duì)簡(jiǎn)潔明了。5.1決策方法概述決策方法常用的智能汽車(chē)行為決策方法包括有限狀態(tài)機(jī)法、層次狀態(tài)機(jī)法、博弈論法和概率圖模型法等。有限狀態(tài)機(jī)(FiniteStateMachine,FSM)是一種描述特定對(duì)象的數(shù)學(xué)模型,它是由有限狀態(tài)組成的,決策過(guò)程根據(jù)當(dāng)前狀態(tài)以及接收事件產(chǎn)生相應(yīng)的動(dòng)作從而引起狀態(tài)的變換,適用于具有復(fù)雜控制邏輯系統(tǒng)(即事件響應(yīng)系統(tǒng))的建模。有限狀態(tài)機(jī)的基本組成元素包括事件、狀態(tài)、轉(zhuǎn)換和動(dòng)作:①事件是引起狀態(tài)機(jī)狀態(tài)變更的輸入條件,通常由系統(tǒng)的定性或定量數(shù)據(jù)輸入轉(zhuǎn)換而來(lái);②狀態(tài)是對(duì)象的一種形態(tài),可以由其屬性值、執(zhí)行特定的動(dòng)作或等待特定的事件來(lái)確定;③轉(zhuǎn)換表示狀態(tài)之間可能存在的路徑,在某個(gè)特定事件發(fā)生或者完成既定動(dòng)作后,轉(zhuǎn)移至對(duì)象的其他狀態(tài);④動(dòng)作表示有限狀態(tài)機(jī)中的一些基本“原子操作”,即在操作過(guò)程中不能被中斷的操作。按照結(jié)構(gòu)可將有限狀態(tài)機(jī)分為串聯(lián)式、并聯(lián)式和混聯(lián)式3種。5.1決策方法概述應(yīng)用有限狀態(tài)機(jī)解決智能汽車(chē)的行為決策問(wèn)題時(shí),可將自動(dòng)駕駛過(guò)程分解為幾種基本的駕駛行為模式,例如可以分為以下幾種:1)車(chē)道保持行為(A):自動(dòng)駕駛系統(tǒng)的默認(rèn)模式,是指智能汽車(chē)始終沿所在車(chē)道行駛的行為,按照所在的車(chē)道可分為主車(chē)道車(chē)道保持行為“A(主)”和超車(chē)道車(chē)道保持行為“A(超)”。2)車(chē)輛跟隨行為(B):是指智能汽車(chē)按照當(dāng)前車(chē)道前車(chē)行駛狀態(tài)自適應(yīng)調(diào)節(jié)自身行駛狀態(tài),使其以安全車(chē)距跟蹤前方車(chē)輛。3)車(chē)道變換行為(C):是指智能汽車(chē)當(dāng)前車(chē)道不具備通行條件或相鄰車(chē)道具有更高的通行效率時(shí),從當(dāng)前車(chē)道切換至相鄰車(chē)道行駛的過(guò)程。按照目標(biāo)車(chē)道的不同,車(chē)道變換行為可分為從主車(chē)道切換至超車(chē)道行為“C(主)”和從超車(chē)道切換至主車(chē)道行為“C(超)”。4)制動(dòng)避障行為(D):當(dāng)智能汽車(chē)前方出現(xiàn)緊急情況或意外危險(xiǎn)且不具備換道條件時(shí),智能汽車(chē)只能通過(guò)緊急制動(dòng)降低車(chē)速或停車(chē),以避免與前方車(chē)輛或障礙物發(fā)生碰撞。智能汽車(chē)的各種駕駛行為之間是相互關(guān)聯(lián)的,通過(guò)設(shè)置合理的駕駛行為觸發(fā)和轉(zhuǎn)化條件,能夠在簡(jiǎn)單的結(jié)構(gòu)化道路上實(shí)現(xiàn)自動(dòng)駕駛功能。5.1決策方法概述現(xiàn)階段,基于有限狀態(tài)機(jī)的智能汽車(chē)行為決策已經(jīng)在實(shí)車(chē)應(yīng)用中得到了驗(yàn)證,是基于機(jī)理和規(guī)則的代表性方法。但是該方法在實(shí)現(xiàn)功能復(fù)雜度和應(yīng)用場(chǎng)景復(fù)雜度上的上限較低,功能越復(fù)雜,意味著對(duì)應(yīng)的駕駛行為即狀態(tài)集合越龐大,且對(duì)于城市道路這種具有復(fù)雜、隨機(jī)、不確定性約束的場(chǎng)景,建立應(yīng)對(duì)所有工況的駕駛行為集合以及與其對(duì)應(yīng)的完備的觸發(fā)條件和狀態(tài)轉(zhuǎn)移函數(shù)是十分困難的,極易引起“狀態(tài)機(jī)爆炸”問(wèn)題,給設(shè)計(jì)者帶來(lái)很大的不便。此外,基于有限狀態(tài)機(jī)的決策方法在劃分駕駛行為即狀態(tài)時(shí)需要有明顯的劃分邊界,但實(shí)際駕駛過(guò)程中,駕駛行為之間存在某些“灰色地帶”,即同一場(chǎng)景下可能有一個(gè)以上合理的行為選擇,使駕駛狀態(tài)存在沖突。對(duì)于決策系統(tǒng)而言,一方面要避免沖突狀態(tài)強(qiáng)行劃分而造成智能汽車(chē)行為不連貫,另一方面要能夠判斷處于“灰色地帶”的智能汽車(chē)不同行為的最優(yōu)性。通過(guò)在決策系統(tǒng)中引入其他決策理論,如決策仲裁機(jī)制、博弈論法、狀態(tài)機(jī)與學(xué)習(xí)算法結(jié)合等方法可幫助解決該問(wèn)題。本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車(chē)輛運(yùn)動(dòng)軌跡5.2全局軌跡規(guī)劃全局軌跡規(guī)劃是指在全局地圖指導(dǎo)下,根據(jù)駕駛?cè)蝿?wù)等先驗(yàn)信息,基于車(chē)輛起點(diǎn)、終點(diǎn)及其他全局約束條件,在全局地圖上規(guī)劃出從起點(diǎn)到終點(diǎn)的路徑,無(wú)關(guān)時(shí)間序列和車(chē)輛動(dòng)力學(xué)。全局軌跡規(guī)劃主要是對(duì)局部路徑規(guī)劃起到導(dǎo)向和約束作用,使車(chē)輛沿著導(dǎo)航系統(tǒng)提供的一系列期望局部目標(biāo)點(diǎn)行駛。全局軌跡規(guī)劃在規(guī)劃時(shí)沒(méi)有考慮環(huán)境的現(xiàn)場(chǎng)約束,例如障礙物的形狀位置、道路的寬度、道路的曲率半徑等。根據(jù)算法原理的不同,全局軌跡規(guī)劃方法包括路徑搜索算法、智能仿生算法等。路徑搜索算法路徑搜索算法是一類重要的規(guī)劃和決策方法。常見(jiàn)的搜索算法有寬度優(yōu)先搜索(BreadthFirstSearch,BFS)、深度優(yōu)先搜索(DepthFirstSearch,DFS)、代價(jià)一致搜索、貪婪最佳優(yōu)先搜索、A?搜索、Dijkstra算法等。5.2全局軌跡規(guī)劃路徑搜索的評(píng)價(jià)特性主要有:1)完備性:當(dāng)問(wèn)題有解時(shí),該算法是否能保證找到解。2)最優(yōu)解:搜索策略能否找到最優(yōu)解。3)時(shí)間復(fù)雜度T(n):找到解需要花費(fèi)多長(zhǎng)時(shí)間。4)空間復(fù)雜度S(n):在執(zhí)行搜索的過(guò)程中需要多少內(nèi)存。對(duì)于時(shí)間復(fù)雜度,通常取一個(gè)算法需要進(jìn)行乘法的次數(shù),因?yàn)樵谟?jì)算機(jī)中,乘法運(yùn)行的時(shí)間明顯大于加法運(yùn)行的時(shí)間,記作T(n)=O(f(n)),其中O(f(n))代表最壞情況的復(fù)雜度,可以理解為復(fù)雜度的上限。對(duì)于空間復(fù)雜度,通常取算法運(yùn)行過(guò)程中臨時(shí)占用儲(chǔ)存空間的大小,記作S(n)=O(f(n))。搜索策略分為無(wú)信息搜索策略和有信息搜索策略,其差別在于是否使用了搜索問(wèn)題以外的信息。5.2全局軌跡規(guī)劃寬度優(yōu)先搜索寬度優(yōu)先搜索屬于無(wú)信息搜索策略,其搜索順序是遍歷完淺層的節(jié)點(diǎn)以后再遍歷深層的節(jié)點(diǎn)。該搜索策略因其枚舉法特性具有完備性,不具有最優(yōu)解特性,其空間復(fù)雜度和時(shí)間復(fù)雜度均為O(bd)。深度優(yōu)先搜索深度優(yōu)先搜索與寬度優(yōu)先搜索相反,從一個(gè)節(jié)點(diǎn)開(kāi)始往深層遍歷,直到找到目標(biāo)節(jié)點(diǎn)或者沒(méi)有子節(jié)點(diǎn)的節(jié)點(diǎn)。使用該搜索策略,若不加以相關(guān)限制,極有可能陷入死循環(huán),即該算法沒(méi)有完備性,與寬度優(yōu)先搜索類似,因?yàn)闆](méi)有使用任何信息,因此所得到的解也不是最優(yōu)解。代價(jià)一致搜索評(píng)估函數(shù)是用來(lái)評(píng)估研究對(duì)象整體以及局部性能的數(shù)學(xué)函數(shù)模型。在搜索策略中,評(píng)估函數(shù)起到為下一個(gè)節(jié)點(diǎn)選取提供擴(kuò)展依據(jù)的作用。5.2全局軌跡規(guī)劃圖1節(jié)點(diǎn)擴(kuò)展在搜索策略中,評(píng)估函數(shù)起到為下一個(gè)節(jié)點(diǎn)選取提供擴(kuò)展依據(jù)的作用。如圖1所示,當(dāng)擴(kuò)展到黑色節(jié)點(diǎn)時(shí),根據(jù)兩個(gè)評(píng)估函數(shù)的大小,選取最佳節(jié)點(diǎn)。代價(jià)一致搜索策略仍然屬于無(wú)信息搜索,但這并不代表它與寬度優(yōu)先搜索或者深度優(yōu)先搜索一樣不使用任何信息,它使用了每次遍歷后的節(jié)點(diǎn)的代價(jià)作為評(píng)估函數(shù),f(n)=g(n)。代價(jià)一致搜索每次遍歷到黑色節(jié)點(diǎn)之后,都會(huì)比較之后可以遍歷的節(jié)點(diǎn)已消耗的總代價(jià),從而遍歷最小代價(jià)消耗的節(jié)點(diǎn)。貪婪最佳優(yōu)先搜索有信息搜索指的是搜索策略會(huì)使用問(wèn)題以外的信息。貪婪最佳優(yōu)先搜索和Dijkstra算法搜索等用到了啟發(fā)式函數(shù),即預(yù)測(cè)終點(diǎn)到當(dāng)前節(jié)點(diǎn)所需要的代價(jià)。啟發(fā)式函數(shù)是一種用來(lái)估算當(dāng)前狀態(tài)和目標(biāo)狀態(tài)之間距離的函數(shù),用于路徑?jīng)Q策。該函數(shù)直接決定了尋找路徑的快慢和準(zhǔn)確度。5.2全局軌跡規(guī)劃A?搜索A?搜索的評(píng)估函數(shù)結(jié)合了代價(jià)一致搜索與貪婪最佳優(yōu)先搜索,其評(píng)估函數(shù)由一致路徑耗散代價(jià)和啟發(fā)式函數(shù)組成,f(n)=g(n)+h(n),A?搜索算法具有貪婪最佳優(yōu)先搜索的快速性,也具有代價(jià)一致搜索的完備性與最優(yōu)解特性。若啟發(fā)式函數(shù)計(jì)算得當(dāng),A?搜索算法為最佳搜索算法。表2各類算法優(yōu)缺點(diǎn)各算法優(yōu)缺點(diǎn)對(duì)比見(jiàn)下表。5.2全局軌跡規(guī)劃Dijkstra算法Dijkstra算法由荷蘭數(shù)學(xué)家迪杰斯特拉(Dijkstra)于1959年提出,適用于非負(fù)權(quán)值網(wǎng)絡(luò)的單源最短路徑搜索,是目前求解最短路徑問(wèn)題理論上最完備的方法。Dijkstra算法以起始點(diǎn)為中心向外層擴(kuò)展,直至擴(kuò)展到終點(diǎn)為止,其本質(zhì)上屬于貪心算法,即在選出最優(yōu)量度標(biāo)準(zhǔn)的情況下,根據(jù)最優(yōu)量度標(biāo)準(zhǔn)做出在當(dāng)前看來(lái)最好的選擇,但不是從整體角度得出最優(yōu)解,因此其產(chǎn)生的結(jié)果不一定達(dá)到全局最優(yōu)。Dijkstra算法的核心思想是,設(shè)置兩個(gè)點(diǎn)的集合S和U。集合S中存放已找到最短路徑的節(jié)點(diǎn),U集合中存放當(dāng)前還未找到最短路徑的節(jié)點(diǎn)。初始狀態(tài)時(shí),集合S中只包含起始點(diǎn),然后不斷從集合中選擇到起始點(diǎn)路徑長(zhǎng)度最短的節(jié)點(diǎn)加入集合S中。5.2全局軌跡規(guī)劃集合S中每加入一個(gè)新的節(jié)點(diǎn),都要修改從起始點(diǎn)到集合U中剩余節(jié)點(diǎn)的當(dāng)前最短路徑長(zhǎng)度值,集合S中各節(jié)點(diǎn)新的當(dāng)前最短路徑長(zhǎng)度值為原來(lái)最短路徑長(zhǎng)度值與從起始點(diǎn)過(guò)新加入節(jié)點(diǎn)到該節(jié)點(diǎn)的路徑長(zhǎng)度中的較小值。不斷重復(fù)上述過(guò)程,直至集合U中所有節(jié)點(diǎn)全部加入集合S為止。Dijkstra算法的時(shí)間復(fù)雜度為O(n2),其時(shí)間復(fù)雜度與節(jié)點(diǎn)數(shù)目相關(guān),當(dāng)節(jié)點(diǎn)數(shù)目較大時(shí),Dijkstra算法的時(shí)間復(fù)雜度將急劇增加。因此在較大、較復(fù)雜的城市交通路網(wǎng)中,直接應(yīng)用Dijkstra算法進(jìn)行最短路徑規(guī)劃并不是十分合理的選擇,其計(jì)算效率、實(shí)時(shí)性、準(zhǔn)確性都很難得到保證。智能仿生算法各種模擬自然界生物行為規(guī)律的智能仿生算法也可以應(yīng)用于智能汽車(chē)的路徑規(guī)劃。智能仿生算法具有自學(xué)習(xí)、自決定功能,典型的智能仿生算法包括蟻群優(yōu)化(AntColonyOptimization,ACO)算法等。本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車(chē)輛運(yùn)動(dòng)軌跡5.3局部軌跡規(guī)劃局部軌跡規(guī)劃是在全局路徑的基礎(chǔ)上,結(jié)合環(huán)境感知系統(tǒng)獲取的信息(道路及障礙物信息)計(jì)算出在換道、轉(zhuǎn)彎、躲避障礙物等情況下,局部范圍內(nèi)安全、平順、精確的行駛軌跡。局部軌跡規(guī)劃不僅要考慮空間,還要考慮時(shí)間序列。局部軌跡規(guī)劃要求算法具有較高的實(shí)時(shí)性,以應(yīng)對(duì)實(shí)時(shí)變化的環(huán)境信息,這對(duì)傳感器、算法的效率和處理器的運(yùn)算能力都是極大的挑戰(zhàn)。局部軌跡規(guī)劃方法可分為基于機(jī)理與規(guī)則的方法和基于數(shù)據(jù)驅(qū)動(dòng)的方法等?;跈C(jī)理與規(guī)則的方法基于機(jī)理與規(guī)則的軌跡規(guī)劃算法原理簡(jiǎn)單、參數(shù)少、易實(shí)現(xiàn),具有較強(qiáng)的魯棒性,并已得到廣泛應(yīng)用,主要包括曲線插值法、人工勢(shì)場(chǎng)法等。曲線插值法通過(guò)事先給定一系列先驗(yàn)路點(diǎn),擬合出一條滿足可行性、舒適性、車(chē)輛動(dòng)力學(xué)及其他約束條件的路徑,常用的軌跡規(guī)劃采用的曲線包括多項(xiàng)式曲線、B樣條曲線、回轉(zhuǎn)曲線等。5.3局部軌跡規(guī)劃多項(xiàng)式曲線主要通過(guò)起點(diǎn)與終點(diǎn)的位置、速度和加速度信息以及最小轉(zhuǎn)彎半徑、障礙物尺寸等約束,來(lái)確定擬合曲線的參數(shù)。在上述約束條件下,構(gòu)建一個(gè)n階多項(xiàng)式,在擬合曲線的各個(gè)節(jié)點(diǎn)上滿足對(duì)車(chē)輛位姿的要求,同時(shí)在指定時(shí)間間隔內(nèi)保證狀態(tài)信息的連續(xù)性。多項(xiàng)式曲線構(gòu)建流程一般根據(jù)已知信息求解n階多項(xiàng)式方程中的未知量。通過(guò)聯(lián)立方程組的形式得到未知量,也就是說(shuō),如果汽車(chē)想要依次通過(guò)起點(diǎn)、終點(diǎn)以及某個(gè)中間點(diǎn),那么每一段末端求解出的邊界位姿信息都可以作為下一階段行駛的初始條件。多項(xiàng)式擬合的階數(shù)一般為3~6階,擬合階數(shù)越高,算法復(fù)雜度越高,收斂速度越慢,并且容易出現(xiàn)過(guò)擬合的情況。通常認(rèn)為,光滑的軌跡更符合車(chē)輛實(shí)際運(yùn)動(dòng)狀態(tài)。為確保軌跡的光滑程度,需要軌跡至少具有連續(xù)的速度和加速度,因此軌跡通常至少由時(shí)間的3次多項(xiàng)式函數(shù)定義。5.3局部軌跡規(guī)劃然而,在實(shí)際中經(jīng)常使用高階多項(xiàng)式,尤其是5次多項(xiàng)式來(lái)獲得平滑的軌跡,主要因?yàn)?次多項(xiàng)式能夠解決3次多項(xiàng)式的速度變化不平滑和加速度跳變的情況,而且可以指定軌跡兩端位置、速度和加速度,提高車(chē)輛的機(jī)動(dòng)性與行車(chē)安全性。5次多項(xiàng)式軌跡規(guī)劃示意圖如圖2所示。將車(chē)輛起始點(diǎn)作為坐標(biāo)原點(diǎn),建立直角坐標(biāo)系OXY,其縱向前進(jìn)方向作為X軸正向,Y軸表示車(chē)輛的橫向運(yùn)動(dòng)。圖25次多項(xiàng)式軌跡規(guī)劃示意圖5.3局部軌跡規(guī)劃B樣條曲線是一種廣泛應(yīng)用于建模和設(shè)計(jì)等領(lǐng)域的曲線。高次B樣條曲線在滿足曲率連續(xù)要求的同時(shí)還具備局部性,即單個(gè)控制點(diǎn)的變化僅影響局部曲線的形狀,因此非常適合用作軌跡曲線??衫?次B樣條曲線進(jìn)行換道軌進(jìn)規(guī)劃。車(chē)輛換道過(guò)程可以劃為扭角、靠攏、收角和調(diào)整4個(gè)階段。其中在扭角和收角階段內(nèi),駕駛?cè)送ㄟ^(guò)轉(zhuǎn)動(dòng)轉(zhuǎn)向盤(pán)調(diào)整,而在靠攏階段內(nèi),車(chē)輛前輪轉(zhuǎn)角幾乎為0。人工勢(shì)場(chǎng)法是一種虛擬力法,通過(guò)模仿引力、斥力下的物體運(yùn)動(dòng)來(lái)規(guī)劃路徑。地點(diǎn)與運(yùn)動(dòng)物體之間的作用假設(shè)為引力,障礙物與運(yùn)動(dòng)物體之間的作用假設(shè)為斥力,那么物體被力場(chǎng)作用向目標(biāo)地點(diǎn)運(yùn)動(dòng),并通過(guò)建立引力場(chǎng)和斥力場(chǎng)的勢(shì)場(chǎng)函數(shù)來(lái)進(jìn)行路徑的尋優(yōu)。5.3局部軌跡規(guī)劃基于數(shù)據(jù)驅(qū)動(dòng)的方法隨著人工智能技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)算法越來(lái)越多地應(yīng)用到智能汽車(chē)研究領(lǐng)域中,監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)在解決智能汽車(chē)決策規(guī)劃的某些問(wèn)題上展現(xiàn)出了比基于機(jī)理和規(guī)則的傳統(tǒng)軌跡規(guī)則方法更優(yōu)異的性能。該類方法普遍采用端到端(EndtoEnd)架構(gòu),基于訓(xùn)練數(shù)據(jù)建立從狀態(tài)到動(dòng)作的映射模型,極大地簡(jiǎn)化了智能汽車(chē)決策規(guī)劃架構(gòu),且在駕駛場(chǎng)景深度遍歷上具有良好的性能,在處理復(fù)雜場(chǎng)景和高級(jí)別自動(dòng)駕駛?cè)蝿?wù)上頗具潛力。從數(shù)據(jù)驅(qū)動(dòng)方法原理角度,可大體將該方法分為基于強(qiáng)化學(xué)習(xí)的方法和基于監(jiān)督學(xué)習(xí)的方法?;趶?qiáng)化學(xué)習(xí)的方法智能汽車(chē)的局部路徑規(guī)劃本質(zhì)上是一種復(fù)雜、隨機(jī)、不確定性約束下的動(dòng)態(tài)多目標(biāo)協(xié)同優(yōu)化問(wèn)題,強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL)作為一種自學(xué)習(xí)算法在處理該類問(wèn)題上具有原理性優(yōu)勢(shì)。5.3局部軌跡規(guī)劃強(qiáng)化學(xué)習(xí)方法建立在馬爾可夫決策過(guò)程(MarkovDecision
Process,MDP)的基礎(chǔ)上,其框架如圖3所示,算法從真實(shí)駕駛環(huán)境或者模擬駕駛數(shù)值調(diào)整強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),從而不斷收斂得到最優(yōu)策略。環(huán)境中獲得狀態(tài)觀測(cè)量,輸出一個(gè)決策量或控制量。根據(jù)算法輸出的結(jié)果,可以從環(huán)境中獲得一個(gè)獎(jiǎng)勵(lì)(或者懲罰)值。在訓(xùn)練的過(guò)程中,可以根據(jù)獎(jiǎng)懲函數(shù)值調(diào)整強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的參數(shù),從而不斷收斂得到的最優(yōu)策略。圖3強(qiáng)化學(xué)習(xí)框架5.3局部軌跡規(guī)劃強(qiáng)化學(xué)習(xí)作為一種端到端的車(chē)輛控制方法,可以同時(shí)對(duì)感知、決策、規(guī)劃、控制部分進(jìn)行優(yōu)化,即可以完成綜合駕駛場(chǎng)景的特征表征、良好的時(shí)機(jī)判斷和決策輸出、精確的軌跡規(guī)劃和穩(wěn)定的控制。強(qiáng)化學(xué)習(xí)算法按照其求解最優(yōu)策略的方式可分為值函數(shù)近似法、策略優(yōu)化法、策略梯度法等。在智能汽車(chē)決策規(guī)劃中,常用的值函數(shù)近似法包括Sarsa算法、Q學(xué)習(xí)(Q-Learning)、深度Q學(xué)習(xí)網(wǎng)絡(luò)(DeepQ-LearningNetwork,DQN)算法等;常用的策略優(yōu)化法包括置信域策略優(yōu)化(TrustRegionPolicyOptimization,TRPO)算法等;常用的策略梯度法包括深度確定性策略梯度(DeepDeterministicPolicyGradient,DDPC)、近端策略優(yōu)化(ProximalPolicyOptimization,PPO)算法等。5.3局部軌跡規(guī)劃基于監(jiān)督學(xué)習(xí)的方法監(jiān)督學(xué)習(xí)需要通過(guò)大量帶有標(biāo)簽(Labe)的訓(xùn)練數(shù)據(jù)訓(xùn)練監(jiān)督學(xué)習(xí)模型,從而建立從指定輸入到輸出的黑箱映射模型。在智能汽車(chē)決策規(guī)劃領(lǐng)域,常用的監(jiān)督學(xué)習(xí)方法包括模仿學(xué)習(xí)(ImitationLearning,IL)和深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetwork,DNN)等。模仿學(xué)習(xí)又稱為示教學(xué)習(xí)(LearningFromDemonstrations),可以分為直接模仿學(xué)習(xí)和間接模仿學(xué)習(xí)。直接模仿學(xué)習(xí)相比于間接模仿學(xué)習(xí)邏輯較為簡(jiǎn)單,本質(zhì)上是采用監(jiān)督學(xué)習(xí)的方式學(xué)習(xí)人類駕駛?cè)嘶蚱渌麄鹘y(tǒng)機(jī)理規(guī)則算法的專家示教軌跡,從而得到狀態(tài)-動(dòng)作映射模型。間接模仿學(xué)習(xí)通常定義為逆向優(yōu)化控制(InverseOptimalControl,IOC)問(wèn)題,通常與強(qiáng)化學(xué)習(xí)結(jié)合轉(zhuǎn)化為逆強(qiáng)化學(xué)習(xí)(InverseReinforcementLearning,IRL)問(wèn)題。5.3局部軌跡規(guī)劃神經(jīng)網(wǎng)絡(luò)模型是監(jiān)督學(xué)習(xí)(SupervisedLearning)中的重要內(nèi)容。通過(guò)建立一定結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,基于人類駕駛?cè)藬?shù)據(jù)或傳統(tǒng)規(guī)劃算法產(chǎn)生的數(shù)據(jù)通過(guò)誤差反向傳播(BackPropagation,BP)和梯度下降(GradientDescent)等方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù),從而實(shí)現(xiàn)根據(jù)當(dāng)前交通態(tài)勢(shì)和車(chē)輛狀態(tài)進(jìn)行車(chē)輛軌跡規(guī)劃與預(yù)測(cè),且基于人類駕駛?cè)藬?shù)據(jù)訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型具有較好的擬人性,便于在決策規(guī)劃架構(gòu)中嵌入駕駛?cè)藗€(gè)性化風(fēng)格,提升智能汽車(chē)的駕駛習(xí)性適應(yīng)度。智能汽車(chē)軌跡規(guī)劃中常用的神經(jīng)網(wǎng)絡(luò)模型包括BP神經(jīng)網(wǎng)絡(luò)模型、循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)模型等。本章內(nèi)容5.1決策方法概述5.2全局軌跡規(guī)劃5.3局部軌跡規(guī)劃5.4車(chē)輛運(yùn)動(dòng)軌跡5.4車(chē)輛運(yùn)動(dòng)規(guī)劃動(dòng)態(tài)規(guī)劃算法動(dòng)態(tài)規(guī)劃(DynamicProgramming,DP)算法是運(yùn)籌學(xué)的一個(gè)分支,是求解多階段決策過(guò)程最優(yōu)化問(wèn)題的數(shù)學(xué)方法。各個(gè)階段決策的選取是任意確定的,它依賴于當(dāng)前面臨的狀態(tài),又影響以后的發(fā)展。當(dāng)各個(gè)階段的決策確定后,它們組成一個(gè)決策序列,也就決定了整個(gè)過(guò)程的一條活動(dòng)路線,這樣一個(gè)前后關(guān)聯(lián)、具有鏈狀結(jié)構(gòu)的多階段過(guò)程稱為多階段決策問(wèn)題。動(dòng)態(tài)規(guī)劃在車(chē)輛工程技術(shù)領(lǐng)域有著廣泛的應(yīng)用,如“兩檔變速器最優(yōu)換檔規(guī)律”“混合動(dòng)力汽車(chē)最優(yōu)能量管理策略”“柵格地圖最優(yōu)路徑搜索”等。其搜索策略主要是將
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024電商平臺(tái)交易安全保障協(xié)議3篇
- 2025年度離婚協(xié)議書(shū)規(guī)范文本包含子女撫養(yǎng)及探望權(quán)協(xié)議
- 2024石油化工行業(yè)水電安裝合同
- 家教實(shí)踐中的情感教育策略總結(jié)
- 2024版廢舊鋼材買(mǎi)賣(mài)合同
- 2024版貨車(chē)租賃合同中的維修義務(wù)規(guī)定
- 2024版專業(yè)山地承包協(xié)議范例全書(shū)版B版
- 家園共育與孩子自我認(rèn)知的培養(yǎng)
- 2024甲乙雙方關(guān)于某項(xiàng)新技術(shù)研發(fā)的股權(quán)轉(zhuǎn)讓合同
- 小學(xué)數(shù)學(xué)邏輯思維與商業(yè)決策
- 普通高中地理課程標(biāo)準(zhǔn)簡(jiǎn)介(湘教版)
- 超分子化學(xué)簡(jiǎn)介課件
- 文言文閱讀訓(xùn)練:《三國(guó)志-武帝紀(jì)》(附答案解析與譯文)
- (完整版)招聘面試方案設(shè)計(jì)與研究畢業(yè)論文設(shè)計(jì)
- 易制爆化學(xué)品合法用途說(shuō)明
- 調(diào)休單、加班申請(qǐng)單
- 肉制品生產(chǎn)企業(yè)名錄296家
- 規(guī)劃設(shè)計(jì)收費(fèi)標(biāo)準(zhǔn)
- 大氣喜慶迎新元旦晚會(huì)PPT背景
- 山區(qū)道路安全駕駛教案
- 常見(jiàn)浮游植物圖譜(1)
評(píng)論
0/150
提交評(píng)論