人工智能入門 課件 5.行為智能_第1頁
人工智能入門 課件 5.行為智能_第2頁
人工智能入門 課件 5.行為智能_第3頁
人工智能入門 課件 5.行為智能_第4頁
人工智能入門 課件 5.行為智能_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

行為智能01AI:NouvelleAI2大綱智能體-結(jié)構(gòu)

?沒有表示和推理的智能

-學(xué)習(xí)強(qiáng)化學(xué)習(xí)-Q-學(xué)習(xí)AI:NouvelleAI3PartⅠ:智能體AI:NouvelleAI4機(jī)器人世界杯2008決賽

中國,蘇州到2050年,組建一個(gè)可以取勝人類足球冠軍隊(duì)的全自主機(jī)器人隊(duì)伍。

-AI:NouvelleAI5遠(yuǎn)程智能體實(shí)驗(yàn)(RAX)深空1號(hào)任務(wù)旨在驗(yàn)證技術(shù);讓AI軟件成為航天器的主要指揮官;1999年5月進(jìn)行測試。

NANA,USa

AI:NouvelleAI61.1智能體定義RussellandNorvig:“能夠通過傳感器感知環(huán)境并根據(jù)環(huán)境做出行動(dòng)的任何系統(tǒng)”AI:NouvelleAI7智能體的弱概念五個(gè)主要特點(diǎn):現(xiàn)場性:工作在某種環(huán)境中,并能與環(huán)境進(jìn)行交互自主性:在不用干涉的情況下自主運(yùn)行主動(dòng)性:在自身目標(biāo)驅(qū)動(dòng)下表現(xiàn)出主動(dòng)的行為反應(yīng)性:能感知外界環(huán)境并根據(jù)環(huán)境變化做出適當(dāng)反應(yīng)社會(huì)性:以其他智能體進(jìn)行通信AI:NouvelleAI81.2單智能體結(jié)構(gòu)慎思型智能體:符號(hào)化表示和處理-IRMA,GRATE反應(yīng)型智能體:感知-行為模式智能體系統(tǒng)-包容結(jié)構(gòu)-網(wǎng)絡(luò)結(jié)構(gòu)混合型智能體:可以直接對(duì)外界刺激作出反應(yīng),也可以在內(nèi)部推理的基礎(chǔ)上采取行動(dòng)-過程推理系統(tǒng)(PRS)-圖靈機(jī)模型-InteRRaPAI:NouvelleAI91.2.2反應(yīng)型結(jié)構(gòu)反應(yīng)型結(jié)構(gòu)不需要使用符號(hào)表示外部環(huán)境狀態(tài),也不需要復(fù)雜的符號(hào)推理。包容結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)沒有表示和推理的智能AI:NouvelleAI10包容結(jié)構(gòu)麻省理工大學(xué)智能研究所的布魯克斯基于包容結(jié)構(gòu)構(gòu)造了一些機(jī)器人。由任務(wù)導(dǎo)向的行為模塊構(gòu)成高層模塊有更多特殊任務(wù)單獨(dú)構(gòu)建各個(gè)模塊高層模塊對(duì)低層模塊起到一定的控制作用,但這種影響對(duì)于低層模塊是不可見的,高層模塊只在需要時(shí)插入來抑制低層模塊的行為。沒有明確的推理甚至沒有模式匹配.在構(gòu)造的初期生成智能體函數(shù)AI:NouvelleAI11布魯克斯包容結(jié)構(gòu)圖解不同的智能體并行構(gòu)建,但是以分級(jí)的形式?jīng)Q策行為。高層智能體能夠抑制低層智能體的輸出,并且接管行為的控制(b)一種應(yīng)用:腿部移動(dòng)控制腿向上或向下腿向前或向后霍爾克·克魯斯(HolkCruse):作為控制系統(tǒng)的神經(jīng)網(wǎng)絡(luò)(第二版),2006年包容結(jié)構(gòu)AI:NouvelleAI12MIT布魯克斯的機(jī)器人Genghis:過去在機(jī)器人實(shí)驗(yàn)室.目前在Smithsonian航空博物館.Cog:類人智能需要類似人的與外界交互方式Herbert:一個(gè)基于互動(dòng)的可以收集飲料瓶的機(jī)器人

Allen:機(jī)器人實(shí)驗(yàn)室的第一個(gè)移動(dòng)機(jī)器人./projects/humanoid-robotics-group/AI:NouvelleAI13網(wǎng)絡(luò)結(jié)構(gòu)動(dòng)作單元的集合各個(gè)動(dòng)作單元根據(jù)內(nèi)部需求和外部激勵(lì),競爭對(duì)智能體行為的控制。外部激勵(lì):環(huán)境條件內(nèi)部需求:通過鏈?zhǔn)浇Y(jié)構(gòu):激活模塊增加其后續(xù)模塊的興奮性未激活模塊增加其前面模塊的興奮性所有模塊抑制其他競爭者的興奮性AI:NouvelleAI14網(wǎng)絡(luò)結(jié)構(gòu)目標(biāo):保持文雅的同時(shí)解決口渴問題(即不讓嘴去主動(dòng)靠近水杯,而是拿起水杯送到嘴)Maes:Theagentnetworkarchitecture,1991AI:NouvelleAI151.2.3混合結(jié)構(gòu)完全的慎思型和完全的反應(yīng)型都不適合用來建立智能體。

結(jié)合二者:過程推理系統(tǒng)(PRS)圖靈機(jī)InteRRaPAI:NouvelleAI16圖靈機(jī)為動(dòng)態(tài)變化的現(xiàn)實(shí)世界中的自主智能體設(shè)計(jì)三層:反應(yīng)層:直接對(duì)外部激勵(lì)做出迅速的反應(yīng)規(guī)劃層:制定規(guī)劃建模層:對(duì)外部世界狀態(tài)進(jìn)行建模AI:NouvelleAI17圖靈機(jī)(續(xù))每層直接與感知器和控制器相連任意兩層之間存在相互聯(lián)系每一層都有獨(dú)自的反應(yīng),在不同的層間發(fā)生沖突時(shí):使用上下文觸發(fā)的控制規(guī)則解決.AI:NouvelleAI18圖靈機(jī)架構(gòu)InnesA.Ferguson:TouringMachines:AutonomousAgentswithAttitudes,1992AI:NouvelleAI19InteRRaP分層的混合結(jié)構(gòu):在不同的層次上對(duì)環(huán)境進(jìn)行建模存在不同層次的表示不同層次的知識(shí)和推理在垂直分層的結(jié)構(gòu)中只有相鄰層之間存在通信行為層(與領(lǐng)域相關(guān))規(guī)劃層(非社會(huì)性的目標(biāo)驅(qū)動(dòng)行為)協(xié)作層(社會(huì)行為,如聯(lián)合規(guī)劃等)AI:NouvelleAI20InteRRaP

結(jié)構(gòu)/~chrender/Agenten/Agenten.htmlAI:NouvelleAI211.3智能體的學(xué)習(xí)智能體要與動(dòng)態(tài)變化的負(fù)責(zé)的外部環(huán)境進(jìn)行交互,因此智能體需要進(jìn)行自主學(xué)習(xí)。學(xué)習(xí)的基本思想如下:智能體感知到的知識(shí)不只是用來決定下一步行動(dòng),也用來提高智能體的能力,以在后面的行動(dòng)中表現(xiàn)更佳。AI:NouvelleAI22學(xué)習(xí)類型監(jiān)督學(xué)習(xí)函數(shù)學(xué)習(xí)需要的輸入輸出對(duì)已經(jīng)給定或者可以推導(dǎo)得到。非監(jiān)督學(xué)習(xí)沒有輸出的信息強(qiáng)化學(xué)習(xí)智能體在環(huán)境中作出行動(dòng),對(duì)于智能體的每一步行動(dòng),都會(huì)得到一個(gè)評(píng)價(jià)值,但是不被告知如何行動(dòng)才可以正確的達(dá)到目標(biāo)?!藺I:NouvelleAI23PartⅡ:強(qiáng)化學(xué)習(xí)(RL)AI:NouvelleAI243.1強(qiáng)化學(xué)習(xí)簡介強(qiáng)化學(xué)習(xí)是一種通過獎(jiǎng)勵(lì)和懲罰來實(shí)現(xiàn)智能體的方式,無需指定完成何種任務(wù).(Kaelbling,1996)智能體怎樣如何從成功和失敗中學(xué)習(xí),從獎(jiǎng)勵(lì)和懲罰中學(xué)習(xí)?基于試錯(cuò)交互方式AI:NouvelleAI25強(qiáng)化學(xué)習(xí)模型Picture:R.Sutton:ReinforcementLearning:ATutorialAI:NouvelleAI26經(jīng)典示例-房間里的機(jī)器人向上的行為:80%移動(dòng)到了上方,10%移動(dòng)到了左方,10%移動(dòng)到了右方在[4,3]處獎(jiǎng)勵(lì)為+1,在[4,2]處的獎(jiǎng)勵(lì)為-1,其他步為0RussellandNorvig,ArtificialIntelligence:AModernApproach,2ededition,2006AI:NouvelleAI27經(jīng)典示例–桿平衡在一個(gè)移動(dòng)的平板車上面讓一個(gè)長桿平衡直立RussellandNorvig,ArtificialIntelligence:AModernApproach,2ededition,2006AI:NouvelleAI28不需要模型的方法:Q-學(xué)習(xí)算法學(xué)習(xí)V*(簡記為V*)對(duì)于任何狀態(tài)s,執(zhí)行向前搜索以選出最好的行動(dòng)如果智能體已知下面函數(shù)將會(huì)得到很好的效果fS:狀態(tài)

行為

狀態(tài)fR

:狀態(tài)

行為

R如果fS

和fR

未知,將不能通過這種方式選擇下一步行為AI:NouvelleAI29Q-值定義一個(gè)與

V*相似的新的函數(shù)如果智能體對(duì)Q進(jìn)行學(xué)習(xí),將能夠在fS

fR

未知的情況下選擇最優(yōu)行動(dòng)AI:NouvelleAI30r(狀態(tài),行為)立即收益值Q(狀態(tài),行為)值V*(狀態(tài))值100

0

0

100

G

0

0

0

0

0

0

0

0

0

90

81100

G

0

81

72

90

81

81

72

90

81

100

G

9010008190100Q-值的計(jì)算

使用折扣收益,折扣因子為0.981=0+0.9*90AI:NouvelleAI31學(xué)習(xí)Q-值注意:Q

V*密切相關(guān)將Q寫成遞歸形式:使用Q-值問題:如何學(xué)習(xí)?問題:如何選擇最優(yōu)行為?AI:NouvelleAI32Q-學(xué)習(xí)步驟對(duì)于每一個(gè)<s,a>初始化Q-值觀察到當(dāng)前狀態(tài)s重復(fù)以下步驟根據(jù)當(dāng)前Q-函數(shù)選擇動(dòng)作獲得獎(jiǎng)勵(lì)r觀察到新的狀態(tài)s’令令s=s’AI:NouvelleAI33Q-學(xué)習(xí)舉例:漢諾塔/kardi/tutorial/ReinforcementLearning/Tower-of-Hanoi.htmAI:NouvelleAI34帶獎(jiǎng)勵(lì)值的狀態(tài)圖AI:NouvelleAI35R矩陣初始QQ矩陣最終QQ矩陣更新AI:NouvelleAI36紅箭頭指示的是從起始節(jié)點(diǎn)到目標(biāo)節(jié)點(diǎn)的最優(yōu)路徑實(shí)際上,圖中的Q值可以用于從圖中任何一個(gè)起始節(jié)點(diǎn)(不只是狀態(tài)1)通過最短路徑走到目標(biāo)節(jié)點(diǎn)狀態(tài)圖里的解決路徑AI:NouvelleAI37Q-學(xué)習(xí)演示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論