版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
6UCT算法UCT算法(UpperConfidenceBoundApplytoTree),即上限置信區(qū)間算法,是一種博弈樹搜索算法,該算法將蒙特卡洛樹搜索(Monte—CarloTreeSearch,MCTS)方法與UCB公式結合,在超大規(guī)模博弈樹的搜索過程中相對于傳統(tǒng)的搜索算法有著時間和空間方面的優(yōu)勢。6UCT算法UCT(UpperConfidenceboundsappliedtoTrees)的算法,是匈牙利國家科學院計算機與自動化研究所(位于布達佩斯)的列文特·科奇什(LeventeKocsis)與加拿大阿爾伯塔大學(UniversityofAlberta,位于埃德蒙頓)的喬鮑·塞派什瓦里(CsabaSzepesvári)合作提出的,是著名的蒙特卡羅方法(MonteCarlomethod)的擴展應用。6UCT算法示意圖6UCT算法
UCT算法與傳統(tǒng)搜索技術的最大區(qū)別在于不同的分支可以有不同的搜索深度。 UCT算法在不同的深度獲取評估值.對于最有“希望”求解問題的分支,UCT算法的搜索深度可以很深(遠大于d),而對于“希望”不大的分支,其搜索深度可以很淺(遠小于d)。
當最有“希望”求解問題的分支數量遠少于“希望”不大的分支數量時,UCT算法就可以把搜索資源有效地用于最有“希望”求解問題的分支,從而獲得比傳統(tǒng)搜索算法更深的有效深度d′。這個具有神奇力量的“希望”是由樹內選擇策略計算的.UCT算法四個步驟UCT算法共分四步完成:1、選擇2、擴展3、模擬4、方向傳播UCT算法-選擇1、選擇其中:
vi是以節(jié)點ni為根節(jié)點的子樹的所有仿真結果的平均值,反映了根據目前仿真結果觀測到的節(jié)點ni能提供的回報值的期。Ti是節(jié)點ni的訪問次數,也是節(jié)點ni被樹內選擇策略選中的次數?!芓i是節(jié)點n的訪問次數。c是一個手工設定的常數。c的作用是平衡UCT算法的利用需求(exploitation)和探索需求(exploration)。UCT算法-擴展2、擴展擴展是將節(jié)點添加到UCT搜索樹中當搜索到達葉子節(jié)點時,UCT算法執(zhí)行擴展操作(Expansion):把此葉子節(jié)點允許的所有合法下一步產生的子節(jié)點,作為新的葉子節(jié)點加入到搜索樹中,并正確初始化其v值和T值。UCT算法-模擬3、模擬UCT算法并沒有使用額外的評估函數來獲取新葉子節(jié)點的評估v值,而是使用缺省仿真策略來繼續(xù)搜索直到游戲進入結束狀態(tài)。此時,棋盤上每一個位置都有明確的歸屬,黑方贏還是白方贏可以很容易地計算出來.葉子結點的評估值就是當黑方勝時為1,白方贏為0。最簡單的缺省仿真策略就是在所有的合法下一步中,均勻地隨機選擇下一步。用隨機策略作為缺省仿真策略產生的程序棋力不高,因此大多數棋力不錯的程序都采用了更加復雜的缺省仿真策略。
UCT算法-反向傳播4、反向傳播結果回傳從葉子節(jié)點開始,沿搜索路徑逐級向上更新,直到根節(jié)點。UCT算法-優(yōu)勢一、UCT的工作模式是時間可控的我們可以在算法執(zhí)行過程中的任何時間突然終止算法,UCT算法可以返回一個差不多理想的結果。當然如果給與更為充分的時間的話,算法結果會非常逼近實際的最優(yōu)值。但是這一點在alpha-beta搜索中是絕對行不通的。UCT算法-優(yōu)勢二、UCT具有更好的魯棒性這是因為它使用一種平滑的方式處理搜索過程中的不確定性。在每個節(jié)點,其計算值取決于它的搜索節(jié)點序列上的所有子節(jié)點的計算值,其值是一個經過平滑的最大值的估計值。這樣,由于每個子節(jié)點的計算過程都經過重新的抽樣計算,不會因為個別嚴重偏離事實的抽樣結果而對最終的結果產生致命性的影響。同時,由于算法在確定計算的節(jié)點序列時,依賴于第一層子節(jié)點的估值以及該估值的可信度。UCT算法-優(yōu)勢三、在UCT搜索算法的過程中,博弈樹以一種非對稱的形式動態(tài)擴展出來這樣做有兩個好處。首先,傳統(tǒng)的博弈樹擴展方式,仍然以alpha-beta搜索樹為例,每向下擴展一層都意味著博弈書規(guī)模的指數型增長以及搜索時間的指數型增加。對于內存和CPU性能都有限的個人電腦來說,這一問題有的情況下是致命的。而在UCT算法搜索過程中,每次對于更深一層的擴展僅局限于搜索序列的最后一個節(jié)點。這樣的UCT算法可以在擴展節(jié)點的同時不斷的動態(tài)釋放計算過的節(jié)點內存,使得算法運行的時間復雜性和空間復雜性可以被更好的控制。UCT算法-優(yōu)勢其次,正因為上述特性,對于較好的作為被選候補的節(jié)點,算法往往可以進行更為深入的搜索,同時,這種非對稱性擴展完全是在算法的執(zhí)行過程中自動進行的。因此,和傳統(tǒng)的博弈樹算法相比較,UCT算法有著其獨有的優(yōu)勢,特別是當博弈樹規(guī)模非常大的時候。UCT算法首次應用的圍棋博弈系統(tǒng),以及本文即將討論的四國軍棋博弈系統(tǒng)都屬此例。因此,UCT搜索算法在本系統(tǒng)中的使用是切合實際的。MCT(UCT)算法-偽碼VoidMCTS(NoderootNode){ currentNode<-rootNode while(currentNode∈T) { lastNode<-currentNode currentNode<-select(current)//選擇 } lastNode<-Expand(lastNode)//擴展 R<-playSimulatedGame(lastNode)//模擬 while(currentNode∈T) { currentNode<-backPropagate(R)//反向傳播 currentNode.visitCount<-currentNode.visiteCount+1 currentNode<-currentNode.parent }}Return
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 26718-2024城市軌道交通安全防范系統(tǒng)技術要求
- 廣東酒店管理職業(yè)技術學院《經典劇目排練》2023-2024學年第一學期期末試卷
- 廣東交通職業(yè)技術學院《醫(yī)學是什么》2023-2024學年第一學期期末試卷
- 廣東技術師范大學《中醫(yī)藥文化傳播》2023-2024學年第一學期期末試卷
- 廣東海洋大學《幼兒園玩教具設計與制作》2023-2024學年第一學期期末試卷
- 廣東工商職業(yè)技術大學《中國經濟前沿(英語)》2023-2024學年第一學期期末試卷
- 小學生勞動課種花課件
- 《非平穩(wěn)信號分析》課件
- 贛西科技職業(yè)學院《材料力學D》2023-2024學年第一學期期末試卷
- 贛南師范大學《多媒體影像創(chuàng)作》2023-2024學年第一學期期末試卷
- CTD申報資料撰寫模板:模塊三之3.2.S.4原料藥的質量控制
- 汽車標準-商用車輛前軸總成
- 個人貸款月供款計算表模板
- 先玉335玉米品種介紹課件講解
- (正式版)JTT 1482-2023 道路運輸安全監(jiān)督檢查規(guī)范
- 康復醫(yī)院籌建計劃書
- 吊籃安裝拆卸專項施工方案
- 提升高中生領導能力和組織能力的建議
- 2024屆新高考物理沖刺復習:“正則動量”解決帶電粒子在磁場中的運動問題
- 圍手術期血糖的管理
- 國開電大行政管理??啤侗O(jiān)督學》期末考試總題庫2024版
評論
0/150
提交評論