球隊(duì)決策策略

上傳人：l*** IP屬地：山西上傳時(shí)間：2022-06-11 格式：PPT 頁(yè)數(shù)：58 大?。?49.50KB 積分：40 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩53頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1第第7章章球隊(duì)決策策略球隊(duì)決策策略本章的主要內(nèi)容Robocup球隊(duì)策略里面應(yīng)該包含的那些內(nèi)容。一個(gè)經(jīng)典的跑位規(guī)劃方法FC Portugal的SBSP(Situation Based Strategic Positioning)介紹了一個(gè)局部戰(zhàn)術(shù)配合3Vs.2戰(zhàn)術(shù)。一般進(jìn)攻體系的設(shè)計(jì)，主要包含進(jìn)攻隊(duì)員的動(dòng)作選擇，一般隊(duì)員的協(xié)同以及跑位。一般防守體系的設(shè)計(jì)，涉及到防守點(diǎn)的選擇，防守動(dòng)作的評(píng)價(jià)、守門員的防守的動(dòng)作等方面的內(nèi)容。7.1 Robocup球隊(duì)策略綜述從足球比賽的角度來看，體現(xiàn)球隊(duì)整體策略的就是球隊(duì)的整體進(jìn)攻和防守體系，當(dāng)所有球員都按照相同的決策框架來進(jìn)行決策時(shí)，球員的決策依據(jù)都相同，對(duì)

2、其他隊(duì)員的預(yù)測(cè)就比較準(zhǔn)確，整個(gè)球隊(duì)就能夠體現(xiàn)出一定的協(xié)調(diào)性了。當(dāng)Agent間的意愿一致的時(shí)候他們就會(huì)進(jìn)行協(xié)作，當(dāng)他們的意愿不一致的時(shí)候，就要進(jìn)行協(xié)商，處理矛盾。Remco在他的論文中對(duì)球隊(duì)的整體策略進(jìn)行了一下歸納。7.1 RoboCup球隊(duì)策略綜述(1)整體策略指定了隊(duì)伍的陣型以及其中隊(duì)員的位置。更進(jìn)一步，它可以決定什么情況下應(yīng)該采用什么樣的陣型。(2)整體策略定義了陣型中不同的角色，并把角色分配給不同位置的球員，同時(shí)確定哪種異構(gòu)球員適合哪種角色。(3)對(duì)于每種類型的球員（后衛(wèi)，中場(chǎng)，前鋒等）球隊(duì)策略應(yīng)該根據(jù)它的角色確定分配給他哪些相應(yīng)的行為。如對(duì)一個(gè)防守隊(duì)員來說，一般它應(yīng)該比進(jìn)攻隊(duì)員保守，它

3、選擇的動(dòng)作也應(yīng)該是偏向防守的。7.1 RoboCup球隊(duì)策略綜述(4)整體策略一般還包括球員應(yīng)該如何根據(jù)場(chǎng)上形勢(shì)來調(diào)整行為的信息。比如在特定的策略下，一個(gè)球員在對(duì)自己的動(dòng)作進(jìn)行選擇的時(shí)候應(yīng)該考慮到位置和位置所在的區(qū)域，同時(shí)還要考慮隊(duì)友和對(duì)手的位置。 (5)整體策略應(yīng)該指定如何協(xié)調(diào)各個(gè)球員的行為因?yàn)椴煌那騿T由于感知的不同，在策略的執(zhí)行上可能出現(xiàn)不協(xié)調(diào)。如何減小這種潛在不協(xié)調(diào)的危險(xiǎn)是策略的一部分。 (6)整體策略還應(yīng)該能夠在比賽中合理的管理球員的體力。如球員在比賽中如果自己的體力特別低，除非萬(wàn)不得已一般盡量減少跑動(dòng)以恢復(fù)體力。7.1 RoboCup球隊(duì)策略綜述此外，球隊(duì)的整體策略還應(yīng)該考慮其他

4、一些因素。比如說(1)對(duì)手的強(qiáng)弱。對(duì)強(qiáng)弱不同的對(duì)手的動(dòng)作是不一樣的，如對(duì)手的截球能力強(qiáng)在傳球的時(shí)候?qū)髑虻募?xì)節(jié)考慮就應(yīng)該更細(xì)一點(diǎn)，對(duì)手弱，考慮的就少一點(diǎn)，可以為追求更好的結(jié)果而采用更加冒險(xiǎn)的傳球。(2)對(duì)方球隊(duì)的整體傾向。如對(duì)手是傾向于進(jìn)攻還是傾向于防守。 (3)比賽的場(chǎng)上情況。比如說場(chǎng)上的比分，是落后還是領(lǐng)先。 7.1 Robocup球隊(duì)策略綜述(4)場(chǎng)上是否處于關(guān)鍵狀態(tài)。如我們已經(jīng)攻入對(duì)方禁區(qū)或?qū)κ止ト胛曳降慕麉^(qū)采取緊急動(dòng)作。(5)其他一些因素。是否考慮換人、是否考慮球員類型的轉(zhuǎn)換等等。在設(shè)計(jì)的時(shí)候應(yīng)盡量考慮到上面的情況。7.2基于場(chǎng)上形勢(shì)的戰(zhàn)術(shù)跑位(SBSP) SBSP首先是由FC P

5、ortugal提出的，它是結(jié)合了Peter Stone在CMU球隊(duì)里面的陣型和位置的概念，并在此基礎(chǔ)上面引入了戰(zhàn)術(shù)、場(chǎng)上情況、隊(duì)員類型等概念。SBSP的一些定義SBSP的一些定義（續(xù)）SBSP的一些定義（續(xù)）SBSP的一些定義（續(xù)）SBSP的使用SBSP的使用（續(xù)）SBSP的使用（續(xù)）最后得出了球員(Agent)在場(chǎng)上的戰(zhàn)略跑位：SBSP小結(jié)SBSP是一個(gè)比較成功的球隊(duì)整體策略的應(yīng)用。它的基本思想是把場(chǎng)上狀態(tài)分為積極的和戰(zhàn)略的。球員的策略也分積極的和戰(zhàn)略的。當(dāng)場(chǎng)上狀態(tài)是積極的時(shí)候，一般這是也就是關(guān)鍵的時(shí)候，如已經(jīng)攻入了對(duì)方禁區(qū)，或進(jìn)行戰(zhàn)術(shù)配合的時(shí)候，這時(shí)Agent就不在考慮在進(jìn)行高層的決策直接

6、采用反應(yīng)式的方式，如進(jìn)入禁區(qū)面對(duì)守門員形成單刀，這是只有一個(gè)動(dòng)作選擇，那就是射門。當(dāng)場(chǎng)上狀態(tài)進(jìn)入戰(zhàn)略狀態(tài)的時(shí)候，如進(jìn)攻時(shí)，控球隊(duì)員是處于積極狀態(tài)，它進(jìn)行動(dòng)作的選擇，其他隊(duì)員都進(jìn)入戰(zhàn)略狀態(tài)，這時(shí)它們的選擇就是跑位，這就是使用SBSP，跑到一個(gè)戰(zhàn)略位置。防守時(shí)在考慮盯人、阻截球的情況下，其他隊(duì)員就要選擇合適的位置進(jìn)行跑位。這時(shí)使用的也是SBSP。SBSP的一般算法IF 場(chǎng)上是戰(zhàn)略狀態(tài) IF 本方進(jìn)攻進(jìn)攻球員進(jìn)行動(dòng)作選擇、其他隊(duì)員按SBSP跑位 ELSE 防守隊(duì)員截球、盯人、按SBSP跑位 ELSE 采用積極狀態(tài)下的即時(shí)動(dòng)作設(shè)計(jì)RoboCup仿真比賽程序的主要難點(diǎn)：在連續(xù)空間作連續(xù)的決策；多個(gè)

7、Agent的存在給狀態(tài)空間帶來維數(shù)災(zāi)難；環(huán)境的反饋延遲太長(zhǎng)。環(huán)境具有強(qiáng)實(shí)時(shí)性和動(dòng)態(tài)性；環(huán)境通訊帶寬很窄；環(huán)境有噪聲；環(huán)境具有部分可觀性；環(huán)境不具有馬爾可夫性；7.3強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)局部戰(zhàn)術(shù)實(shí)際上，機(jī)器人足球比賽中的動(dòng)作選擇可以看成是在一定的環(huán)境下Agent在自己獲取的世界狀態(tài)(s)情況下的選擇什么樣的a,由于系統(tǒng)實(shí)現(xiàn)的時(shí)候引入了噪音，因此環(huán)境不具有Markov性，也就是不可再現(xiàn)性，原則上說他就不具有使用強(qiáng)化學(xué)習(xí)的可能。當(dāng)如果簡(jiǎn)化這些影響，也可以把這個(gè)過程看成馬爾可夫過程，進(jìn)而采用強(qiáng)化學(xué)習(xí)的方法。強(qiáng)化學(xué)習(xí)的關(guān)鍵是Agent與環(huán)境的交互可以看成是一個(gè)馬爾可夫模型，也就是說，環(huán)境應(yīng)該具有再現(xiàn)

8、性。7.3強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)局部戰(zhàn)術(shù)在Robocup中，我們考慮“戰(zhàn)術(shù)”任務(wù)是這樣一種情況：進(jìn)攻一方在一活動(dòng)范圍內(nèi)試圖保持控球權(quán)，同時(shí)另一方試圖奪回控球權(quán)。無論何時(shí)防守方獲得控球權(quán)或球離開此區(qū)域，這個(gè)時(shí)間段就結(jié)束，球員便放置到另一個(gè)時(shí)間段（進(jìn)攻方再次被給予控球權(quán)）。7.3強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)局部戰(zhàn)術(shù)區(qū)域設(shè)定為20M*20M的正方形，并總有3個(gè)進(jìn)攻隊(duì)員和2個(gè)防守隊(duì)員。球員涉及的動(dòng)作主要有： HoldBall( )：持球，持球保持靜止并盡可能遠(yuǎn)離對(duì)手。PassBall(f)：傳球，將球直接踢給f。 GotoBall( )：跑向球。 GetOpen( )：跑位，跑到一個(gè)空曠的位置，在這個(gè)位置能得到傳出的球。所有

9、防守方都采用固定的策略GOTOBALL( )，也就是說他們?cè)噲D阻截球，拿到球后用HOLDBALL( )保持控球權(quán)。在學(xué)習(xí)的時(shí)候，使用一個(gè)全能的教練Trainer(也是agent)在控制比賽，當(dāng)防守隊(duì)員在設(shè)定時(shí)間里獲得控球權(quán)或球離開區(qū)域時(shí)Trainer就結(jié)束此時(shí)間段，就完成了一次對(duì)抗。在每個(gè)時(shí)間段開始，他在區(qū)域內(nèi)隨機(jī)的置球和球員的位置，兩個(gè)防守方隊(duì)員從區(qū)域的一個(gè)角落開始，而每個(gè)進(jìn)攻球員隨機(jī)放在其他三個(gè)角落，每個(gè)角落一個(gè)球員。學(xué)習(xí)過程學(xué)習(xí)過程（續(xù)）學(xué)習(xí)過程（續(xù)）13個(gè)函數(shù)表示狀態(tài)（WS）dist(F1,C)dist(F1,F2)dist(F1,F3)dist(F1,D1)dist(F1,D2)d

10、ist(F2,C)dist(F3,C)dist(D1,C)dist(D2,C)Minimum(dist(F2,D1),dist(F2,D2)Minimum(dist(F3,D1),dist(F3,D2)Minimum(ang(F2,F1,D1),ang(F2,F1,D2)Minimum(ang(F3,F1,D1),ang(F3,F1,D2)Tile Coding 采用Tile coding方法來進(jìn)行，狀態(tài)用一個(gè)13維的空間來表示，用網(wǎng)格表示每個(gè)具體狀態(tài)，在分析的時(shí)候，每個(gè)格對(duì)應(yīng)一個(gè)二進(jìn)制狀態(tài)，或是1（當(dāng)狀態(tài)在這個(gè)格內(nèi)）或是0（狀態(tài)不在這個(gè)格內(nèi)）。狀態(tài)評(píng)價(jià)函數(shù)這里是學(xué)習(xí)率，一個(gè)固定的參數(shù)，T是

11、從s開始的時(shí)間段內(nèi)經(jīng)過了T個(gè)時(shí)間步。規(guī)定，進(jìn)攻隊(duì)員能確切控球的狀態(tài)有最高值0；所有其他狀態(tài)是負(fù)值，立即失球的狀態(tài)值接近-1。1000( )|, tTttVsEr ssEss策略學(xué)習(xí) 強(qiáng)化學(xué)習(xí)去完善進(jìn)攻隊(duì)員的策略以達(dá)到盡可能長(zhǎng)的時(shí)間控球。使用Q-learning，即每個(gè)進(jìn)攻隊(duì)員獨(dú)立學(xué)習(xí)。這樣，所有的進(jìn)攻隊(duì)員都能學(xué)會(huì)相似的策略或不同的策略。每個(gè)進(jìn)攻隊(duì)員有三個(gè)動(dòng)作選擇，對(duì)應(yīng)于控球時(shí)的每個(gè)可能動(dòng)作（GetOpen( )，GotoBall( )，HoldBall(),PassBall(f)）這是我們的策略評(píng)價(jià)試驗(yàn)中最有效的情況。策略學(xué)習(xí) 給出一個(gè)被用于每個(gè)進(jìn)攻隊(duì)員的學(xué)習(xí)算法。函數(shù)UpdateRL(r

12、)在后面定義。counter=-1; If (球出界或防守方得到球)If (counter 0) UpdateRL(-1) else if (球不可踢) If (counter 0) counter+; If (可以跑向球達(dá)到控球) GoToBall(); else GetOpen(); else if (球可控) If (counter 0),UpdateRL(0) LastAction=Max(ActionValue(a,current state variables); Execute LastAction ; counter=0; Else (這時(shí)球被另外一個(gè)前鋒控制) If (cou

13、nter 0) UpdateRL(0); counter=-1;函數(shù)UpdateRL(r) UpdateRL(r):用TDError來更新狀態(tài)評(píng)價(jià)函數(shù)。11= + Max(ActionValue()-ActionValue()countercounterTdError ra,current,state,variablesLastAction,LastVariables注意事項(xiàng)：為了鼓勵(lì)策略空間的擴(kuò)展，可以使用簡(jiǎn)單的初始條件：未經(jīng)過訓(xùn)練的逼近函數(shù)開始輸出為0，這在所有真實(shí)值為負(fù)的情況下是可行的。由于任何沒有試過的動(dòng)作往往看上去比已經(jīng)試過多次并被確切賦值的動(dòng)作更好，這就使所有動(dòng)作都有機(jī)會(huì)被嘗試。

14、小結(jié)：使用強(qiáng)化學(xué)習(xí)進(jìn)行局部3VS.2戰(zhàn)術(shù)的學(xué)習(xí)要求對(duì)手的防守能力強(qiáng)，也就是對(duì)球的截球能力強(qiáng)，這方面存在兩個(gè)困難：（1）跟自己比賽，提高有限，（2）和強(qiáng)隊(duì)比賽，高層策略無法控制。另外，3VS.2只是一個(gè)針對(duì)局部區(qū)域的策略，理論上是可以擴(kuò)充到全局(11VS.11)，這時(shí)一個(gè)實(shí)際需要解決的問題是就是怎么解決龐大的狀態(tài)空間。這也是我們以后的研究方向。 7.4進(jìn)攻體系進(jìn)攻是從本方隊(duì)員控球開始，直到本方失去控球權(quán)為止。進(jìn)攻體系考慮的問題持球隊(duì)員進(jìn)行備選動(dòng)作的選擇，其他隊(duì)員或進(jìn)行策應(yīng)，或進(jìn)行合理的跑位。可以分為戰(zhàn)術(shù)配合（局部的幾個(gè)球員）和戰(zhàn)略配合。7.4.1戰(zhàn)術(shù)配合戰(zhàn)術(shù)觸發(fā)條件戰(zhàn)術(shù)的實(shí)施過程戰(zhàn)

15、術(shù)的終止條件戰(zhàn)術(shù)的設(shè)計(jì)主要涉及到2個(gè)方面：戰(zhàn)術(shù)本身的設(shè)計(jì) 通訊協(xié)議7.4.2戰(zhàn)略配合持球隊(duì)員（進(jìn)攻的核心球員）的動(dòng)作選擇設(shè)計(jì)。接球隊(duì)員的響應(yīng)設(shè)計(jì) 一般隊(duì)員的跑位設(shè)計(jì)7.4.2.1持球隊(duì)員的動(dòng)作選擇決策樹（if else規(guī)則）：這實(shí)際上是MAS中的策略學(xué)選取中的比較匹配函數(shù)、興趣或愛好函數(shù)的方法。基于效用對(duì)策論進(jìn)行動(dòng)作選擇。基于效用對(duì)策論前面介紹了HfutAgent的個(gè)體技術(shù)，一個(gè)球員在控球以后，它可以選擇帶球、開球、傳球（包括選擇哪個(gè)隊(duì)友進(jìn)行傳球）等動(dòng)作。如何恰當(dāng)?shù)剡x擇合適的動(dòng)作是比較重要的問題。歸根結(jié)底，在選擇這些動(dòng)作的時(shí)候必須考慮其他球員的利益，這就是多Agent的協(xié)作問題了。上

16、節(jié)介紹了使用強(qiáng)化學(xué)習(xí)的方法來進(jìn)行動(dòng)作的選擇。本節(jié)討論一下使用對(duì)策論的方法來進(jìn)行動(dòng)作的選擇。基于效用的對(duì)策論是MAS協(xié)作是的一種常用的方法。對(duì)策論對(duì)策論，又稱博弈論，是使用嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)模型研究沖突對(duì)抗條件下最優(yōu)決策問題的理論。它的研究方法和其他很多利用數(shù)學(xué)工具研究社會(huì)經(jīng)濟(jì)現(xiàn)象的學(xué)科一樣，是從復(fù)雜的現(xiàn)象中抽象出基本的元素，對(duì)這些基本元素構(gòu)成的數(shù)學(xué)模型進(jìn)行詳盡分析，而后逐步引入對(duì)其形勢(shì)產(chǎn)生影響的其他因素，從而分析其結(jié)果。為建立沖突對(duì)抗條件下決策的數(shù)學(xué)模型，必須數(shù)學(xué)化地描述沖突的參與者所有可能的行為方式及其行為結(jié)果，因此它也被視為數(shù)學(xué)的一個(gè)分支。對(duì)策論Robocup中對(duì)策論的方法實(shí)際上解決的就是在對(duì)抗

17、條件下(在考慮多方面影響因素)怎么使自己(本方球隊(duì))的利益最大化。MAS中的對(duì)策論就是求參與MAS協(xié)作和規(guī)劃的所有Agent的整體效用，針對(duì)Robocup，選擇動(dòng)作的影響因素，以及選擇該動(dòng)作的效用作為對(duì)策論的基礎(chǔ)，持球者計(jì)算得出所有參與進(jìn)攻的球員的效用最大值，并把最大值對(duì)應(yīng)下的動(dòng)作作為該持球隊(duì)員的輸出動(dòng)作。基于效用的對(duì)策論設(shè)影響的因素cond1, cond2 , ,condn，確定它們對(duì)動(dòng)作的影響P（act| condi），計(jì)算P（actcond1, cond2, ,condn），求出的動(dòng)作。其中U（a）為采取某種動(dòng)作后的效用，P（actcond1, cond2, ,condn）表示

18、條件概率，只有高于特定的閾值的動(dòng)作才被我們考慮作為備選動(dòng)作。 max( |1,2,.,) ( )a actionsetP a cond condcondnU a影響因素：(1)戰(zhàn)術(shù)。戰(zhàn)術(shù)需要分析的問題：當(dāng)前的戰(zhàn)術(shù)（特定陣型下的）、戰(zhàn)術(shù)是否要改變等方面的內(nèi)容。它主要包含陣型和進(jìn)攻的傾向性。(2)球員類型。在真實(shí)的足球比賽中，隊(duì)員之間的屬性是不同的。同人類的足球比賽一樣，我們給每個(gè)仿真隊(duì)員定義了一個(gè)類型。用attackness、leftness和aggressiveness三個(gè)取值在0和1之間的量來表示一個(gè)隊(duì)員的類型屬性。前兩個(gè)量標(biāo)明球員所打的位置。Attackness區(qū)分隊(duì)員的任務(wù)偏重于進(jìn)攻的程

19、度。Leftness區(qū)分隊(duì)員所在區(qū)域的偏左的程度，Aggressiveness標(biāo)明的是一個(gè)隊(duì)員的動(dòng)作侵略性。影響因素(續(xù))：(3)陣型。在足球比賽中，每個(gè)隊(duì)員的活動(dòng)區(qū)域是相對(duì)固定的，隨著球的位置變化，活動(dòng)區(qū)域也在變化，但是每個(gè)隊(duì)員的相對(duì)位置變化比較小，這在足球比賽中稱為陣型。 (4)對(duì)手模型。目前對(duì)對(duì)手模型考慮的較少，還沒有一個(gè)比較成熟的基于對(duì)手的建模機(jī)制。7.4.2.2接球隊(duì)員的響應(yīng)設(shè)計(jì) 傳球隊(duì)員一旦準(zhǔn)備傳球，就向需要響應(yīng)的接球隊(duì)員喊話(say)，可以出球的目標(biāo)狀態(tài)通過一定的通訊協(xié)議傳遞給接球隊(duì)員，指導(dǎo)接球隊(duì)員的跑位。7.4.2.3一般隊(duì)員的跑位設(shè)計(jì) 一般隊(duì)員按照SBSP跑位思想進(jìn)行跑位。

20、注：清華采用把隊(duì)員的跑位點(diǎn)通過神經(jīng)網(wǎng)絡(luò)做成關(guān)于球的位置和本身球員號(hào)碼的一個(gè)函數(shù)P(B,i).7.4防守體系防守是從本方失球以后就開始的，一直到本方球員重新獲得控球權(quán)。防守體系主要考慮的問題就是一般球員組成的防守體系和守門員的防守。更進(jìn)一步就是考慮加入了守門員的防守體系。防守動(dòng)作Mark（盯人，主要是指盯無球隊(duì)員）Block（卡位,堵截帶球隊(duì)員，防止其推進(jìn)）Press(貼身回追帶球隊(duì)員)Formation（跑本位點(diǎn)）。Intercept(截球)其它注：盯人的目的是防止被盯的對(duì)手接到傳球；Block的目的是阻礙對(duì)方控球隊(duì)員帶球前進(jìn)；跑本位點(diǎn)是指球員站在本位點(diǎn)處防守，即進(jìn)行區(qū)域防守。 7.4.1

21、一種防守方法的介紹該體系用防守動(dòng)作的目標(biāo)點(diǎn)（對(duì)于Mark來說，防守動(dòng)作的目標(biāo)點(diǎn)在被盯隊(duì)員附近；對(duì)于Intercept來說，防守動(dòng)作的目標(biāo)點(diǎn)在阻截點(diǎn)上）離本位點(diǎn)的遠(yuǎn)近、目標(biāo)點(diǎn)離球員當(dāng)前位置的遠(yuǎn)近和防守目標(biāo)的對(duì)防守的威脅程度來作為一個(gè)防守動(dòng)作的特征。目標(biāo)點(diǎn)離本位點(diǎn)遠(yuǎn)，說明隊(duì)員要離開自己的防守的區(qū)域去防守，這對(duì)整體的防守利益帶來不好的影響。目標(biāo)點(diǎn)離當(dāng)前位置遠(yuǎn)，說明該防守動(dòng)作短期內(nèi)不容易收到效果，因?yàn)榭赡茉谕朗啬繕?biāo)點(diǎn)移動(dòng)的過程中，原來的決策已經(jīng)失去意義了；如果目標(biāo)點(diǎn)離當(dāng)前位置近，說明該防守動(dòng)作可以很快見效，比如已經(jīng)貼著對(duì)手，這時(shí)如果能堅(jiān)持對(duì)目標(biāo)的防守可能收到很好的防守效果。威脅程度大致可以用被防守的

22、對(duì)手離球門的遠(yuǎn)近來衡量，離球門越近，威脅程度越大。一種防守方法的介紹如果考慮的細(xì)致些的話，可以把場(chǎng)上的區(qū)域離散化，根據(jù)足球?qū)＜业慕?jīng)驗(yàn)標(biāo)明每個(gè)區(qū)域大致的威脅程度，通過插值可以得到每個(gè)點(diǎn)的威脅程度。顯然防守威脅程度越高的隊(duì)員，防守動(dòng)作的利益越大。一種防守方法的介紹為了提高效率，在該防守體系中每個(gè)進(jìn)攻球員只有一個(gè)防守隊(duì)員負(fù)責(zé)防守。即針對(duì)同一名對(duì)方隊(duì)員防守隊(duì)員的動(dòng)作是互斥的。每個(gè)防守隊(duì)員在一個(gè)時(shí)刻只能執(zhí)行上述防守動(dòng)作中的一個(gè)。防守規(guī)劃：在體系中還對(duì)防守進(jìn)行了規(guī)劃，使用的方法是基于局部視覺的全局規(guī)劃。在該防守規(guī)劃中，每個(gè)防守隊(duì)員均考慮場(chǎng)上所有隊(duì)員的防守策略。首先對(duì)所有的進(jìn)攻-防守隊(duì)員配對(duì)以及防守

23、隊(duì)員-本位點(diǎn)配對(duì)生成防守動(dòng)作。接著根據(jù)前面提到的防守動(dòng)作的特征得出防守動(dòng)作的優(yōu)先級(jí)；然后用分支定界的方法，求出這個(gè)最優(yōu)的防守動(dòng)作集；最后防守隊(duì)員從方案中查詢應(yīng)該有自己執(zhí)行的動(dòng)作。具體算法：(1)判斷球被控制的類型。分為四種，雙方同時(shí)控球（爭(zhēng)球）、對(duì)方控球、我方控球、無人控球（搶球）。如果是對(duì)方控球或者無人控球但對(duì)方會(huì)先得球，我方隊(duì)員就采取防守策略，并預(yù)測(cè)球下一次被控制的位置。(2)判斷對(duì)方控球球員。如果是爭(zhēng)球情況，根據(jù)各種信息判斷最有可能控球的人。(3)判斷防守任務(wù)和可用人手。根據(jù)世界模型和內(nèi)部狀態(tài)，判斷有進(jìn)攻威脅的對(duì)方球員并確定防守任務(wù)和確定可用來防守的我方球員。(4)考慮所有用一個(gè)可用人

24、手執(zhí)行一個(gè)防守任務(wù)的情況，判斷所應(yīng)該采取的防守類型和相應(yīng)的防守細(xì)節(jié)，并確定該次防守行為的效益。(5)從防守任務(wù)和可用人手配對(duì)生成最優(yōu)的防守方案（最大化防守效益和），然后提交自己有關(guān)的防守請(qǐng)求。7.4.2守門員的防守在實(shí)際的足球比賽中我們經(jīng)常聽到一個(gè)好的守門員相當(dāng)于半支球隊(duì)。守門員的防守在Robocup中的影響也很大。經(jīng)過實(shí)踐證明，在守門員的防守當(dāng)中，最重要的是守門員的站位和守門員得球后的開球動(dòng)作。當(dāng)然，守門員的防單刀球、邊路防守等動(dòng)作也比較重要。下面首先給出守門員在比賽過程中的決策過程，然后著重介紹守門員的站位和開球動(dòng)作。守門員的一般決策過程：(1)判斷比賽是否開始；如果沒有則調(diào)整站位，否則轉(zhuǎn)(2)(2)判斷球的位置是否不可信，如果不可信則搜索球的位

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

球隊(duì)決策策略

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

球隊(duì)決策策略

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔