版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
人工智能06對(duì)抗搜索人工智能06對(duì)抗搜索1GamePlaying博弈博弈被被認(rèn)為是AI研究領(lǐng)域中的一個(gè)很好的難題:
–博弈是不平凡的
?玩家需要具備“human-like”般的智能
?游戲可能非常復(fù)雜(e.g.,Chess,Go)
?需要在有限時(shí)間內(nèi)作出決策
–gamesusuallyare:
?定義明確的且可重復(fù)的
?完全可觀察的環(huán)境是有限的
–能直接比較humansandcomputersGamePlaying博弈博弈被被認(rèn)為是AI研究領(lǐng)域中的一2ComputersPlayingChessComputersPlayingChess3對(duì)戰(zhàn)中的AI對(duì)戰(zhàn)中的AI4ComputersPlayingGoComputersPlayingGo5本章大綱博弈博弈中的優(yōu)化決策
—極小極大值算法
—α-β剪枝資源限制和近似評(píng)估包含幾率因素的游戲不完整信息的游戲本章大綱博弈6Gamesvs.searchproblems
不可預(yù)測的對(duì)手→解決方案是針對(duì)每一個(gè)可能的對(duì)手回復(fù)的策略
時(shí)間是有限的→不太可能找到最優(yōu)解,需找到近似解
游戲?qū)τ诘托视袊?yán)厲的懲罰
進(jìn)攻計(jì)劃:
?Computerconsiderspossiblelinesofplay(Babbage,1846)
?Algorithmforperfectplay(Zermelo,1912;VonNeumann,1944)
?Finitehorizon,approximateevaluation(Zuse,1945;Wiener,1948;
Shannon,1950)
?Firstchessprogram(Turing,1951)
?Machinelearningtoimproveevaluationaccuracy(Samuel,1952-57)
?Pruning(剪枝)toallowdeepersearch(McCarthy,1956)Gamesvs.searchproblems 不可預(yù)測7游戲的種類確定性的隨機(jī)的、策略的游戲的種類確定性的8博弈樹(2-player,確定性的,輪流出招)博弈樹(2-player,確定性的,輪流出招)9確定性的Two-PlayerE.g.井字棋,國際象棋,跳棋博弈搜索
–狀態(tài)-空間搜索樹
–玩家輪流出招
–每一層包含一輪行動(dòng)
–選擇能獲得最佳效用的行動(dòng)零和游戲
–一個(gè)玩家要最大化效用值
–而另一個(gè)要最小化效用值確定性的Two-PlayerE.g.井字棋,國際象棋,10極小極大值原理假設(shè)兩位玩家都按照最佳策略行動(dòng)
–computer假設(shè)在其行動(dòng)以后,其對(duì)手會(huì)選擇效用值最小的狀態(tài)來移動(dòng)
–computer在選擇其最佳行動(dòng)方案時(shí)要同時(shí)考慮自己以及對(duì)手的最佳行動(dòng)從max的角度顯示效用值極小極大值原理假設(shè)兩位玩家都按照最佳策略行動(dòng)
–comp11Minimax確定性的,完全信息的博弈的最優(yōu)策略Idea:choosemovetopositionwithhighestminimaxvalue
=bestachievablepayoffagainstbestplay
在對(duì)手也使用最優(yōu)策略的條件下,能導(dǎo)致至少不比其它策略差的結(jié)果
假設(shè)兩個(gè)游戲者都按照最優(yōu)策略進(jìn)行,那么節(jié)點(diǎn)的極小極大值就是對(duì)應(yīng)狀態(tài)的效用值(對(duì)于MAX)
?MAX優(yōu)先選擇有極大值的狀態(tài)
?MIN優(yōu)先選擇有極小值的狀態(tài)Minimax確定性的,完全信息的博弈的最優(yōu)策略12Minimax確定性的,完全信息的博弈的最優(yōu)策略Idea:choosemovetopositionwithhighestminimaxvalue
=bestachievablepayoffagainstbestplay
在對(duì)手也使用最優(yōu)策略的條件下,能導(dǎo)致至少不比其它策略差的結(jié)果E.g.,2-plygame:Minimax確定性的,完全信息的博弈的最優(yōu)策略13MinimaxalgorithmMinimaxalgorithm14Minimax的性能完整性??Minimax的性能完整性??15Minimax的性能完整性??
僅當(dāng)博弈樹是有限時(shí)(chesshasspecificrulesforthis).
但在一顆無限的博弈樹中也存在有限的策略~最優(yōu)性??Minimax的性能完整性??僅當(dāng)博弈樹是有限時(shí)(che16Minimax的性能完整性??Yes,僅當(dāng)博弈樹是有限時(shí)最優(yōu)性??Yes,遇到一個(gè)聰明的對(duì)手。Otherwise??時(shí)間復(fù)雜度??
Minimax的性能完整性??Yes,僅當(dāng)博弈樹是有限時(shí)17Minimax的性能完整性??Yes,僅當(dāng)博弈樹是有限時(shí)最優(yōu)性??Yes,遇到一個(gè)聰明的對(duì)手。Otherwise??時(shí)間復(fù)雜度??O(bm)空間復(fù)雜度??
Minimax的性能完整性??Yes,僅當(dāng)博弈樹是有限時(shí)18Minimax的性能完整性??Yes,僅當(dāng)博弈樹是有限時(shí)最優(yōu)性??Yes,遇到一個(gè)聰明的對(duì)手。Otherwise??時(shí)間復(fù)雜度??O(bm)空間復(fù)雜度??
O(bm)(深度優(yōu)先搜索)Forchess,b≈35,m≈100for“reasonable"games →尋找精確解時(shí)完全不可行的
Butdoweneedtoexploreeverypath?
Minimax的性能完整性??Yes,僅當(dāng)博弈樹是有限時(shí)19α-β剪枝?若與一個(gè)聰明的對(duì)手對(duì)弈,則博弈樹上的一些分枝絕不會(huì)發(fā)生?“Ifyouhaveanideathatissurelybad,don’ttakethetimetoseehowtrulyawfulitis.”
--PatWinston?剪枝能消除搜索樹的很大一部分分枝α-β剪枝?若與一個(gè)聰明的對(duì)手對(duì)弈,則博弈樹上的一20α?βpruningexampleα?βpruningexample21α?βpruningexampleα?βpruningexample22α?βpruningexampleα?βpruningexample23α?βpruningexampleα?βpruningexample24α?βpruningexampleα?βpruningexample25為什么叫α?β?αisthebestvalue(toMAX)foundsofaronthecurrentpath
到目前為止在路徑上的任意選擇點(diǎn)發(fā)現(xiàn)的MAX的最佳(即最大值)選擇?Ifvisworsethanα,MAXwillavoidit,socanstopconsideringv’sotherchildren→prunethatbranch?DefineβsimilarlyforMIN為什么叫α?β?αisthebestvalue(26Theα?βalgorithmTheα?βalgorithm27α?β剪枝技術(shù)對(duì)于一個(gè)MAX節(jié)點(diǎn)來說,它取值稱為α值對(duì)于一個(gè)MIN節(jié)點(diǎn)來說,它取值稱為β值β剪枝:任何MAX節(jié)點(diǎn)x的α值如果不能降低其父節(jié)點(diǎn)的β值,則對(duì)節(jié)點(diǎn)x以下的分枝可停止搜索。α剪枝:任何MIN節(jié)點(diǎn)x的β值如果不能升高其父節(jié)點(diǎn)的α值,則對(duì)節(jié)點(diǎn)x以下的分枝可停止搜索。α?β剪枝技術(shù)對(duì)于一個(gè)MAX節(jié)點(diǎn)來說,它取值稱為α值28α?β剪枝案例α?β剪枝案例29α?β搜索的效率?效率很大程度上取決于檢查后繼的順序;所以嘗試檢查可能較好的后繼是值得的?最壞情況:
–沒有分枝需要修剪
–相比于窮舉搜索沒有改進(jìn)?最好情況:
–每個(gè)玩家的最佳行動(dòng)都先被檢查?在實(shí)踐中,性能接近于最好情況,而不是最壞情況,但要依實(shí)際情況而定α?β搜索的效率?效率很大程度上取決于檢查后繼的順序;所30α?β的性能剪枝不影響最終結(jié)果好的行動(dòng)順序能提高剪枝的效率With“perfectordering,"timecomplexity=O(bd/2)
doublessolvabledepth不幸的是,3550
也是有可能的α?β的性能剪枝不影響最終結(jié)果31本章大綱博弈博弈中的優(yōu)化決策
—極小極大值算法
—α-β剪枝資源限制和近似評(píng)估包含幾率因素的游戲不完整信息的游戲本章大綱博弈32Resourcelimits資源限制標(biāo)準(zhǔn)方法:深度有限搜索
UseCUTOFF-TEST(截?cái)鄿y試)insteadofTERMINAL-TEST(終止測試)
e.g.,depthlimit(perhapsaddquiescencesearch靜態(tài)搜索)
UseEVALinsteadofUTILITY
用可以估計(jì)棋局效用值的啟發(fā)式評(píng)價(jià)函數(shù)EVAL取代效用函數(shù)
i.e.,估計(jì)位置期望值的評(píng)價(jià)函數(shù)假設(shè)我們有100seconds計(jì)算時(shí)間,探索速度為104nodes/second
→106nodespermove≈358/2
→α?β
reachesdepth8→prettygoodchessprogram4-plylookaheadisahopelesschessplayer!
–4-ply≈humannovice
–8-ply≈typicalPC,humanmaster
–12-ply≈DeepBlue,KasparovResourcelimits資源限制標(biāo)準(zhǔn)方法:深度有限搜33評(píng)價(jià)函數(shù)?評(píng)價(jià)非終止?fàn)顟B(tài)的函數(shù)
?理想函數(shù):返回每個(gè)位置的效用值?在實(shí)踐中:加權(quán)線性函數(shù):
Eval(s)=w1f1(s)+w2f2(s)+…+wnfn(s)
e.g.,forchess,w1=9with
f1(s)=(numberofwhitequeens)-(numberofblackqueens),etc.
評(píng)價(jià)函數(shù)?評(píng)價(jià)非終止?fàn)顟B(tài)的函數(shù)
?理想函數(shù):返回每個(gè)34Moreon評(píng)價(jià)函數(shù)?評(píng)價(jià)函數(shù)評(píng)估當(dāng)前局面配置的好壞?一個(gè)線性的評(píng)價(jià)函數(shù)是關(guān)于特征f1,f2,f3的加權(quán)和
–Moreimportantfeaturesgetmoreweight?對(duì)弈的質(zhì)量直接依賴于評(píng)價(jià)函數(shù)的質(zhì)量?為了構(gòu)建一個(gè)好的評(píng)價(jià)函數(shù),必須:
–利用行業(yè)知識(shí)提取好的特征
–選擇或?qū)W習(xí)更好的權(quán)重Moreon評(píng)價(jià)函數(shù)?評(píng)價(jià)函數(shù)評(píng)估當(dāng)前局面配置的好壞35題外話:精確的評(píng)價(jià)函數(shù)并不重要Behaviorispreservedunderanymonotonic(單調(diào)的)transformationofEVAL
題外話:精確的評(píng)價(jià)函數(shù)并不重要Behaviorispr36對(duì)待有限的時(shí)間?在實(shí)際游戲中,通常對(duì)每一步有時(shí)間限制T?我們?nèi)绾慰紤]這個(gè)問題?
–所以,我們可以設(shè)置一個(gè)保守的深度有限,以保證在T時(shí)間內(nèi)決定一次行動(dòng)
–但是,搜索可能提前結(jié)束,更多搜索的機(jī)會(huì)被浪費(fèi)了對(duì)待有限的時(shí)間?在實(shí)際游戲中,通常對(duì)每一步有時(shí)間限制T37對(duì)待有限的時(shí)間?在實(shí)踐中,迭代深入深度優(yōu)先搜索(IDS)被很好地使用
–運(yùn)行alpha-betasearch以深度限制逐漸增加的方式
–當(dāng)時(shí)間T快運(yùn)行完時(shí),返回最后一次完整的α?β搜索的結(jié)果(i.e.,thedeepestsearchthatwascompleted)
對(duì)待有限的時(shí)間?在實(shí)踐中,迭代深入深度優(yōu)先搜索(IDS)38現(xiàn)今一些確定性的游戲Chess(國際象棋):DeepBluedefeatedhumanworldchampionGaryKasparovinasix-gamematchin1997.DeepBluesearches200millionpositionspersecond,usesverysophisticatedevaluation,andundisclosedmethodsforextendingsomelinesofsearchupto40ply(層、厚度).
–計(jì)算機(jī)能夠預(yù)見它的決策中的長期棋局序列。機(jī)器拒絕走一步有決定性短期優(yōu)勢
的棋—顯示了非常類似于人類的對(duì)危險(xiǎn)的感覺。——Kasparov
–Kasparovlostthematch2winsto3winsand1tie
–DeepBlueplayedby“bruteforce”(i.e.,rawpowerfromcomputerspeedandmemory);itusedrelativelylittlethatissimilartohumanintuitionandcleverness
–Usedminimax,alpha-beta,sophisticatedheuristics現(xiàn)今一些確定性的游戲Chess(國際象棋):DeepB39現(xiàn)今一些確定性的游戲Checkers(西洋跳棋):Chinook,theWorldMan-MachineCheckersChampion.
?Chinookended40-year-reignofhumanworldchampionMarionTinsleyin1994.
?In2007,checkerswassolved:perfectplayleadstoadraw.
Chinookcannoteverlose
使用了一個(gè)提前計(jì)算好的存有443,748,401,247個(gè)不多于8個(gè)棋子的棋局?jǐn)?shù)據(jù)庫,使它的殘局(endgame)走棋沒有缺陷
50machinesworkinginparallelontheproblem
現(xiàn)今一些確定性的游戲Checkers(西洋跳棋):Chi40現(xiàn)今一些確定性的游戲黑白棋:人類冠軍已經(jīng)拒絕同計(jì)算機(jī)比賽了~Go(圍棋):2016年以前,人類冠軍拒絕與計(jì)算機(jī)比賽,因?yàn)橛?jì)算機(jī)是個(gè)小學(xué)生棋手。Ingo,b>300(棋盤為19x19),所以大多數(shù)程序使用基于模式識(shí)別的方法來提供一個(gè)貌似可行的解。GohasbecameanewbenchmarkforArtificialIntelligence(人工智能新的試金石)
現(xiàn)今一些確定性的游戲黑白棋:人類冠軍已經(jīng)拒絕同計(jì)算機(jī)比賽了41AlphaGo:第一次打敗人類in19x19Go?GoogleDeepMindcomputergoplayer
–deepneuralnetworks深度神經(jīng)網(wǎng)絡(luò):
?valuenetworks價(jià)值網(wǎng)絡(luò):toevaluateboardpositions
?policynetworks策略網(wǎng)絡(luò):toselectmoves
–trainedby
?supervisedlearning監(jiān)督學(xué)習(xí)
?reinforcementlearning(強(qiáng)化學(xué)習(xí))byself-play
–searchalgorithm
?Monte-Carlosimulation+value/policynetworksAlphaGo:第一次打敗人類in19x19Go?G42AlphaGo:Background?減少搜索空間:
–減少搜索深度
?positionevaluation
–減少搜索分枝
?movesamplingbasedonpolicy
?policy=probabilitydistributionp(a|s)AlphaGo:Background?減少搜索空間:
–43DeepNeuralNetworksinAlphaGoAlphaGousestwotypesofneuralnetworks:
–policynetwork:whatisthenextmove?
?learnedfromhumanexpertmoves
–valuenetwork:whatisthevalueofastate?
?learnedfromself-playusingapolicynetworkSL=supervisedlearning,RL=reinforcementlearningDeepNeuralNetworksinAlphaG44包含幾率因素的游戲西洋雙陸棋包含幾率因素的游戲西洋雙陸棋45非確定性游戲概述在非確定性的游戲中,幾率因素是由擲骰子,抽牌等引起的。
拋硬幣游戲的簡化示例:
非確定性游戲概述在非確定性的游戲中,幾率因素是由擲骰子,抽46非確定性游戲概述?權(quán)重取決于事件發(fā)生的概率?將極小極大值推廣為期望極小極大值?Choosemovewithhighest
expectedvalue非確定性游戲概述?權(quán)重取決于事件發(fā)生的概率47期望效用最大化?為什么我們要計(jì)算平均效用值?為什么不計(jì)算極小極大值??期望效用最大化原則:一個(gè)智能體基于其給定的知識(shí)庫,會(huì)根據(jù)期望效用最大化來選擇行動(dòng)方式?決策的一般性原則?經(jīng)常作為理性的定義?我們會(huì)在本課程中反復(fù)看到該觀點(diǎn)!期望效用最大化?為什么我們要計(jì)算平均效用值?為什么不計(jì)算48期望極小極大值算法EXPECTIMINIMAX類似于MINIMAX,多考慮一個(gè)幾率節(jié)點(diǎn)
ifstateisaMaxnodethen
returnthehighestEXPECTIMINIMAX-VALUEofSUCCESSORS(state)ifstateisaMinnodethen
returnthelowestEXPECTIMINIMAX-VALUEofSUCCESSORS(state)ifstateisachancenodethen
returnaverageofEXPECTIMINIMAX-VALUEofSUCCESSORS(state)
期望極小極大值算法EXPECTIMINIMAX類似于MIN49隨機(jī)的Two-Player?擲骰子增加分枝b:兩個(gè)骰子有21種可能的擲法
–西洋雙陸棋≈20種合法行動(dòng)
–Depth4=20x(21x20)3=1.2x109?當(dāng)深度增加時(shí),到達(dá)指定節(jié)點(diǎn)的概率會(huì)收窄
–此時(shí)再向前搜索的價(jià)值會(huì)減少
–所以限定搜索深度是OK的
–但是剪枝不太可能實(shí)現(xiàn)…?TDGammonusesdepth-2search+very
goodevalfunction+reinforcement
learning:world-championlevelplay隨機(jī)的Two-Player?擲骰子增加分枝b:兩個(gè)骰子有50題外話:精確的評(píng)價(jià)函數(shù)的重要性BehaviourispreservedonlybypositivelineartransformationofEVALHenceEVALshouldbeproportionaltotheexpectedpayoff
評(píng)價(jià)函數(shù)應(yīng)該是棋局的期望效用值的正線性變換題外話:精確的評(píng)價(jià)函數(shù)的重要性Behaviourispr51本章大綱博弈博弈中的優(yōu)化決策
—極小極大值算法
—α-β剪枝資源限制和近似評(píng)估包含幾率因素的游戲不完整信息的游戲本章大綱博弈52不完整信息的游戲E.g.,cardgames,whereopponent'sinitialcardsareunknownTypicallywecancalculateaprobabilityforeachpossibledealSeemsjustlikehavingonebigdicerollatthebeginningoftheGameIdea:computetheminimaxvalueofeachactionineachdeal,
thenchoosetheactionwithhighestexpectedvalueoverallDeals在評(píng)價(jià)一個(gè)有未知牌的給定行動(dòng)過程時(shí),首先計(jì)算出每副可能牌的出牌行動(dòng)的極小極大值,然后再用每副牌的概率來計(jì)算得到對(duì)所有發(fā)牌情況的期望值。
不完整信息的游戲E.g.,cardgames,wher53ExampleExample54ExampleExample55ExampleExample56合理的分析*所以從直覺上說用所有可能狀態(tài)的平均效用值來評(píng)價(jià)一次行動(dòng)的價(jià)值isWRONG
在局部觀察中,一個(gè)行動(dòng)的價(jià)值取決于信度狀態(tài)
這樣可以在信度狀態(tài)中生成和搜索博弈樹
以下行為可以幫助生成信度狀態(tài):
打出一張牌來刺探對(duì)手
給合伙人發(fā)信號(hào)
靠演技來最小化信息披露合理的分析*所以從直覺上說用所有可能狀態(tài)的平均效用值來評(píng)價(jià)一57Summary?Gamesarefuntoworkon!
–perfectionisunattainablemustapproximate
–GamesaretoAIasgrandprix
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 應(yīng)急預(yù)案的應(yīng)對(duì)社會(huì)安全事件
- 現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)園資金籌措與投資方案
- 農(nóng)業(yè)行業(yè)市場拓展總結(jié)
- 物流行業(yè)客服實(shí)踐總結(jié)
- 二零二五版機(jī)場停車場租賃與旅客交通服務(wù)合同3篇
- 二零二五年度房地產(chǎn)企業(yè)委托招聘項(xiàng)目管理人員合同范本3篇
- 二零二五年度頁巖磚裝配式建筑材料購銷協(xié)議4篇
- 二零二五版室內(nèi)木門定制加工與安裝服務(wù)協(xié)議3篇
- 二零二五年度車輛抵押債務(wù)重組及還款安排合同3篇
- 二零二五年度鋼材電商平臺(tái)合作合同2篇
- 新譯林版高中英語必修二全冊短語匯總
- 基于自適應(yīng)神經(jīng)網(wǎng)絡(luò)模糊推理系統(tǒng)的游客規(guī)模預(yù)測研究
- 河道保潔服務(wù)投標(biāo)方案(完整技術(shù)標(biāo))
- 品管圈(QCC)案例-縮短接臺(tái)手術(shù)送手術(shù)時(shí)間
- 精神科病程記錄
- 清華大學(xué)考博英語歷年真題詳解
- 人教版三年級(jí)上冊口算題(全冊完整20份 )
- 屋面及防水工程施工(第二版)PPT完整全套教學(xué)課件
- 2023年高一物理期末考試卷(人教版)
- 新生入學(xué)登記表
- 項(xiàng)目預(yù)可研報(bào)告編制格式
評(píng)論
0/150
提交評(píng)論