版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、2 0 0 9年 第 1期Agent 是一種能在環(huán)境中自治地感知信息 , 并通過決策推理生成相應的規(guī)劃 , 作用于環(huán)境的計算實體或者功能單元 。 本文將 Agent 機理和技術應用于風光互補分布式發(fā)電系統(tǒng)中 , 將各個風機 、 太陽能均看作單獨的子系統(tǒng) , 每個子系統(tǒng)作為一個 Agent , 構成了一個多 Agent 的能量管理系統(tǒng) 。 以分布式的觀點 , 利用 Agent 所具有的學習 、 協(xié)調(diào)能力 、 適應性和自治性 , 引入強化學習技術來對多 Agent 之間的協(xié)作學習算法進行研究并應用于能量管理系統(tǒng) 。由于單個智能主體能力有限 , 很難完成大規(guī)模的復雜任務 。 而多個 Agent 的組
2、合 , 通過協(xié)作 、 協(xié)調(diào)與協(xié)商將會大大地提高系統(tǒng)的智能 。 隨著 Internet的逐漸普及與迅速擴大 , 網(wǎng)絡上的智能主體自然地形成一個 MAS 系統(tǒng) 。 因此 , 研究基于多智能主體的學習方法顯得分外迫切 。 但是在大多數(shù)的協(xié)作學習研究中 , 實際上仍然只有一個 Agent 在學習 。 本文提出了一種多 Agent 聯(lián)合動作強化學習算法 , 以分布 式觀點來考慮問題 , 每個 Agent 不僅要考慮自己的 動作 , 還要兼顧其它 Agent 所采取的動作及策略 。 1強化學習強化學習是一種不同于監(jiān)督學習的無監(jiān)督學習 方法 1, 強化學習技術的基本原理是 :在學習過程中 , 如果系統(tǒng)某個動
3、作導致環(huán)境正的增強 , 那么系統(tǒng)以 后產(chǎn)生這個動作的趨勢便會加強 ; 反之系統(tǒng)產(chǎn)生這 個動作的趨勢便減弱 。 強化學習問題可以描述為 :在 離散時間 、 有限狀態(tài) 、 有限動作集合的環(huán)境下 , 使智 能體所獲得的累積折扣回報最大化 , 在此情況下 , 強 化學習問題可用馬爾可夫決策過程 (Markov Deci -sion Process,MDP 建模 。 MDP 決策過程定義為一個 四元數(shù)組 (S 、 A 、 R 、 P , 其中 , S 為有限狀態(tài)集 ; A 為有 限動作集 ; R 為回報函數(shù) ; R :S ×A r , 為狀態(tài) -動作組 基于 Multi-Agent 協(xié)作強化學
4、習的 分布式發(fā)電系統(tǒng)的研究高臘梅 , 吳捷 , 曾君 , 李敏(華南理工大學電力學院 , 廣州 510640摘要 :隨著可再生能源技術的飛速發(fā)展, 風光互補分布式發(fā)電系統(tǒng)以其經(jīng)濟性和可靠性得 到了越來越廣泛的應用 。 文中提出了一種基于 Multi-Agent 的以能量管理為主要特征的分布式 風光互補發(fā)電系統(tǒng) , 將聯(lián)合動作學習 (JAL模式作為多 Agent 的協(xié)作策略, 并結合強化學習技術 描述了多 Agent 協(xié)作學習的過程 。 以一個風光互補發(fā)電系統(tǒng)為例進行仿真 , 實驗結果證明了這 種方法的有效性 。關鍵詞:分布式發(fā)電; Multi-Agent ; 強化學習; 聯(lián)合動作學習Abstr
5、act:With the development of renewable energy technology, the distributed wind-PV power system has a wider application. This paper proposes a distributed wind-PV power system based on Multi-Agent, whose main character is energy management, and describes the multi-agent cooperative reinforcement learn
6、ing process using the joint action learning pattern as the cooperative strategy. The experiment of a distributed wind-PV power system shows the efficiency.Key words:distributed power;multi-agent;reinforcement learning;joint action learning中圖分類號:TK81文獻標志碼:A 文章編號:1001-5523(200901-0026-04研究與探討26·&
7、#183;2009年 第 1期合到實數(shù)值的映射 ; P :S ×A 為變換函數(shù) , 為狀 態(tài)空間 S 的概率分布 。Q 學習是強化學習的主要算法之一 , 是一種無模型的學習方法 。 Q 函數(shù)的定義為在狀態(tài) s 時執(zhí)行 動作 a , 且此后按最優(yōu)動作序列執(zhí)行時的折扣累計強 化值 。 Q 學習的目標是尋找一個策略可以最大化來 獲得的報酬 。 最優(yōu) Q 值可表示為 Q *, 其定義是執(zhí)行 相關的動作并按照最優(yōu)策略執(zhí)行下去 , 將得到的回 報的總和 , 其定義如下 :Q *(s . a =P (s , a , s ' max Q *(s ' , a ' +(s , a
8、 (1其中 , P (s , a , s ' 表示在狀態(tài) s 下執(zhí)行動作 a 轉(zhuǎn)換到狀 態(tài) s ' 的概率 , (s , a 表示在狀態(tài) s 下執(zhí)行動作 a 將 得到的回報 , 表示折扣因子 。 Q 函數(shù)的更新等式表 示如下 :Q (s , a =(1- Q (s , a +r +max a ' AQ (s ' , a ' (2式中 , (0 <1為學習率 ; Q (s ' , a ' 是 Agent 在 狀 態(tài)s ' 下執(zhí)行動作 a ' 的 Q 函數(shù)值 23。2系統(tǒng)體系結構風光互補系統(tǒng)是分散的風機 、 太陽能以及蓄
9、電池等子系統(tǒng)構成的分布式發(fā)電系統(tǒng) 。 由于其系統(tǒng)規(guī) 模小以及空間上的分散性而難以采用集中供能 , 為 此 , 本文引入 Agent 技術將每個發(fā)電子系統(tǒng)看作一 個智能 Agent , 在每個子系統(tǒng)的內(nèi)部 , 都由感知模 塊 、 通信模塊 、 學習模塊 、 知識庫 、 決策模塊 、 執(zhí)行模 塊組成 , 其結構如圖 1所示 。3協(xié)作學習算法在多 Agent 系統(tǒng)中 , 由于環(huán)境是動態(tài)變化的 、 其他 Agent 行為是未知的 , 要建立領域完備的先驗模 型幾乎不可能 , 同樣許多領域知識也是在 Agent 和 其他 Agent 交互的過程中逐步獲得的 。 多 Agent 協(xié)作學習就是多個 Agen
10、t 在追求一個共同的目標過程 中彼此相互通信 、 合作 , 由于獲取信息而改變自身狀 態(tài)和周圍環(huán)境 , 每個 Agent 在學習過程中受到其它Agent 的知識 、 信念 、 意圖等的影響 。針對分布式風光互補發(fā)電系統(tǒng)這樣一個處于動 態(tài)變化環(huán)境的多 Agent 系統(tǒng) , 為了克服無完備的先 驗模型 、 先驗知識以及單 Agent 學習不全面等缺點 , 本文提出一種聯(lián)合動作學習 (JAL 模式 , 即 Agent 采 取的當前行動是針對其他 Agent 的某種行動組合的 最優(yōu)反應 。 因為本文討論的是一種分布式的多 A -gent 系統(tǒng) , 系統(tǒng)中各個 Agent 無主次之分 , 在這里所謂的聯(lián)
11、合動作學習是建立在每個 Agent 對其他 A -gent 行動的預測的基礎之上的一種學習方式 。 針對前面提出的系統(tǒng)結構設計學習模塊如圖 2所示 。下面結合圖 2的學習模塊結構對本文所提出的 協(xié)作學習算法描述如下 :(1 對 Agent i (i =1, 2, 3, , n 其有限的動作集 合為 A , 將 Q 值更新模塊中所有 Agent 的 Q 值初始 化為 0;(2 Agent i 觀察獲得當前狀態(tài) s S , S 是 Agent 所處的有限的環(huán)境狀態(tài)集 ;(3 在預測模塊中 , Agent i 根據(jù)當前狀態(tài) s 以及Agent i 的知識模塊中存儲的其他 Agent 的動作執(zhí)行率 P
12、 i a k=C j a ka' m AjCja ' m (即 Agent j 中動作 a k 的執(zhí)行率 , 其中 , C j a k為 Agent j 執(zhí)行動作 a k A j的次數(shù) 4 和 Q 值的歷史存儲數(shù)據(jù) , Agent i 將推測在當前狀態(tài) s 下 , 其 他 Agent 將會采取的動作 , 從而形成一個預測動作 組合 -i ;(4 在動作選擇模塊中 , Agent i 依動作選擇策略研究與探討高臘梅等 基于 協(xié)作強化學習的分布式發(fā)電系統(tǒng)的研究 圖 1多 Agent 系統(tǒng)體系結構圖圖 2學習模塊結構圖27··2 0 0 9年 第 1期*=-i *
13、=argmaxa i A iQ (s , a 1, , a i , a n (3選擇當前最優(yōu)動作 i *;(5 執(zhí)行動作 a i 得到新的狀態(tài) s ' , 同時從環(huán)境得到回報值 r ;(6 在 Q 值計算模塊中 , 將上述值代入 Q 函數(shù)的定義進行 Q 值更新 , 然后將得到的結果存入 Q 值更新模塊中 ;Q (s , a 1, , a i , a n =(1- Q (s , a 1, , a i , a n +r +maxa ' i A iQ (s , a 1, , a i , a n (4(7 每個 Agent 都將自己已更新了的知識模塊中的數(shù)據(jù)存入知識庫中 , 然后通過通
14、信來接收其他 A -gent 知識庫的更新信息 ;(8 一次學習過程結束 , 等待或者馬上進入下一個學習過程 。4算例分析本文以太陽能混合發(fā)電系統(tǒng)為研究背景 , 對其協(xié)作學習過程進行分析 。 該系統(tǒng)有發(fā)電機組 10個 , 由 6臺風機和 4臺光伏電池 (PV 組成 , 總容量 70kW 。 在本文的 MDP 決策過程四元組中定義 :S =W spead , W dir ,I sun , L need , S equip , 其中 :W spead 代表風速 , W dir 代表風向 , I sun代表日照 , L need 代表負載需求 , S equip 代表風機或太陽能當時的狀態(tài) (包括熱
15、備用 、 冷備用 、 停機 、 并網(wǎng)四種狀態(tài) ; 本文只考慮處于熱備用狀態(tài)的風機和太陽能 , 故每個 Agent 的動作集 A =a 1, a 2, a 1表示加入發(fā)電行列 , a 2表示不加入發(fā)電行列 。 本文將一次決策過程作為一個學習過程 , 每次決策可能由用戶側 A -gent 或者其他任意一個 Agent 所發(fā)起的 , 固在本系統(tǒng)中所考慮的學習過程是不定時地由不同 Agent 所發(fā)起的一次決策過程 , 因此在這里的 Q 值不考慮將 來值的影響 , 即令折扣因子 =0, 回報值 R 以供需是 否達到平衡 、 電能質(zhì)量的好壞以及電價為綜合評價 標準來給出 :R =1R 1+2R 2+3R
16、3(5其 中 , R 1=10供需達到平衡-5供需不到平衡 (R 1為 聯(lián) 合 動 作 的 回 報 值 R 2=10電能質(zhì)量高5電能質(zhì)量中等0電能質(zhì)量低R 3=1(P 為電價 令學習率 =0.5, 折扣因子 =0, 1=0.5, 2=0.3, 3=0.2, Q 值 均 初 始 化 為 0。 假 設 在 某 一 時 段 所 有 Agent 均 以 額 定 容 量 輸 出 功 率 , 且 此 時 段 內(nèi) 每 個 Agent 的電能質(zhì)量情況和電價已給出 , 見表 1。由于在開始階段每個 Agent 的知識庫存儲均為 空 , 需要通過很長時間的訓練來豐富知識庫 , 即最初 的動作選擇不可能遵循最優(yōu)策略
17、 , 而需要通過不斷 地探索來尋找最優(yōu)策略 。 我們通過下面的任務分解 過程來對決策過程進行探索尋優(yōu) , 同時進行 Q 值的 高臘梅等 基于 協(xié)作強化學習的分布式發(fā)電系統(tǒng)的研究 研究與探討更新 。 以一次由負荷 Agent 發(fā)起的任務 50kW 為例 , 具體過程如圖 3所示 。在上面的任務分解過程中 , 第一列代表加入任務行列的 Agent , 第二列代表當這個 Agent 加入任務 行列以后所剩余的需求數(shù)量 , 當出現(xiàn)負數(shù)時將退回 上一級重新傳遞給下一個 Agent 繼續(xù)對任務行列進 圖 3任務分解及 Q 值更新過程圖表 1系統(tǒng)參數(shù)表名 稱 類型 容量 /kW電能質(zhì)量 電 價 Agent
18、1風機 15高 0.6 Agent2風機 10中等 0.68 Agent 3風機 7.5高 0.7 Agent 4風機 5高 0.8 Agent 5風機 15中等 0.65 Agent 6風機 7.5低 0.6 Agent 7太陽能 1高 3.0 Agent 8太陽能 2中等 2.8 Agent 9太陽能 3中等 2.5 Agent 0太陽能 4低 2.028··2009年第 1期行分配 , 而此時每個 Agent 的 Q 值也同時更新在第 三列 , 直到剩余需求數(shù)量為 0時 , 這一次決策過程 同時也是一次學習過程結束 。 為了達到最終的尋優(yōu) 目的 , 我們將對同一狀態(tài)下
19、的決策過程進行多次學 習 , 每次過程都采用隨機探索方法 , 直到找到一種 不同于前面結果的決策過程 , 并將這些結果存儲在每個 Agent 的知識庫中 , 下面列出部分存儲的策略 , 如圖 4所示 。 在經(jīng)過大量的學習過程以后 , 每個Agent 的知識庫都存儲了學習結果 , 圖中 ,(50, S 表示負荷需求以及當前其它的狀態(tài) , 同時 , 在每次決策 過程 結 束 后 , 每 個 Agent 的 內(nèi) 部 知 識 庫 也 對 其 他Agent 的動作執(zhí)行率進行更新 , 截止到圖 4所進行過的決策過程為止 , 動作的執(zhí)行率更新為如表 2所示 的值 。在知識庫得到一定的豐富之后 , 假設系統(tǒng)負
20、荷Agent 再次發(fā)起請求 50kW , 每個 Agent 內(nèi)部將按照協(xié)作學習算法進行決策 。 以 Agent1的內(nèi)部為例 , 它 會先根據(jù)表 2的數(shù)據(jù)選出幾個組合 , 然后通過供需 平衡以及知識庫中的歷史 Q 值來評價哪個是比較好 的來最終決定自己是否加入發(fā)電行列 , 如下面的過 程 , 即 Agent1選擇加入發(fā)電行列 。 在每個 Agent 的 內(nèi)部都運行這樣的算法來決定自己是否加入 , 同時 對此次決策過程進行 Q 學習 , 結果存儲到知識庫中 。-1=A 2, A 3, A 4, A 6, A 7, A 01=A 1, A 2, A 3, A 4,A 6, A 7, A 0Q :4.
21、07586-1=A 2, A 4, A 5, A 7, A 02=A 1, A 2, A 4, A 5, A 7,A 0Q :4.41467-1=A 2, A 3, A 4, A 5, A 6, A 7, A 03=A 2, A 3, A 4,A 5, A 6, A 7, A 0Q :4.111575結論風光互補分布式發(fā)電系統(tǒng)是一種經(jīng)濟合理的 供電方式 , 在系統(tǒng)中引入多 Agent 技術對分布式的 能量管 理 系 統(tǒng) 具 有 重 要 的 意 義 。 對 多 Agent 系 統(tǒng)(MAS 協(xié)作機制的研究 , 通常都是強調(diào) Agent 的獨 立學習而不考慮其他 Agent 的行為 , 故 MAS 缺乏協(xié) 作機制 。 本文提出了聯(lián)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人消費信用貸款合同范本11篇
- 二零二五年度商業(yè)街區(qū)臨時房屋借用經(jīng)營合同3篇
- 二零二五山地旅游度假村租賃協(xié)議3篇
- 二零二五年度餐飲加盟店食品安全風險評估合同3篇
- 2025年度個人二手房買賣合同(含家具家電及搬家及清潔服務)
- 科技助力家庭教育老年人與子女的和諧互動
- 跨學科視角下的學生自主學習能力培養(yǎng)路徑分析
- 二零二五年度金融法律服務顧問合同2篇
- 二零二五年度地震監(jiān)測井建設施工合同3篇
- 煙臺2025年山東煙臺萊州市征兵結合事業(yè)單位招聘征集本科及以上學歷畢業(yè)生入伍筆試歷年參考題庫附帶答案詳解
- 云南省農(nóng)村信用社招聘筆試真題2023
- 《學前兒童文學與繪本閱讀》課程教學大綱
- 湖北十堰燃氣事故案例分析資料
- 三級綜合醫(yī)院全科醫(yī)療科設置基本標準
- 安全生產(chǎn)盡職免責
- IT項目外包服務商管理應急預案
- 河南省信陽市2024-2025學年高三上學期第一次質(zhì)量檢測試題 化學 含答案
- 公司企業(yè)標準模板版
- Unit 1 Cultural Heritage單元整體教學設計 人教版必修第二冊單元整體教學設計
- 養(yǎng)老護理員試題及答案
- 2024年山東省高中學業(yè)水平合格考生物試卷試題(含答案詳解)
評論
0/150
提交評論