TOP
0
0
【23號簡體館日】限時三天領券享優惠!!
基於函數逼近的強化學習與動態規劃(簡體書)
滿額折

基於函數逼近的強化學習與動態規劃(簡體書)

人民幣定價:129 元
定  價:NT$ 774 元
優惠價:87673
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:20 點
相關商品
商品簡介
作者簡介
目次

商品簡介

本書討論大規模連續空間的強化學習理論及方法,重點介紹使用函數逼近的強化學習和動態規劃方法。該研究已成為近年來計算機科學與技術領域中最活躍的研究分支之一。
全書共分6 章。第1 章為概述;第2 章為動態規劃與強化學習介紹;第3 章為大規模連續空間中的動態規劃與強化學習;第4 章為基於模糊表示的近似值迭代;第5 章為用於在線學習和連續動作控制的近似策略迭代;第6 章為基於交叉熵基函數優化的近似策略搜索。
本書可以作為理工科高等院校計算機專業和自動控制專業研究生的教材,也可以作為相關領域科技工作者和工程技術人員的參考書。

作者簡介

Lucian Buoniu,荷蘭代爾夫特理工大學代爾夫特系統與控制中心博士後研究員。2009 年獲得代爾夫特理工大學博士學位,2003 年獲得羅馬尼亞克盧日·納波卡科技大學碩士學位。他目前的主要研究方向包括強化學習與近似動態規劃、面向控制問題的智能與學習技術以及多Agent學習等。

Robert Babuka,荷蘭代爾夫特理工大學代爾夫特系統與控制中心教授。1997 年獲得代爾夫特理工大學控制專業博士學位,1990 年獲得布拉格捷克技術大學電機工程專業碩士學位。他目前的主要研究方向包括模糊系統建模與識別、神經模糊系統的數據驅動結構與自適應、基於模型的模糊控制和學習控制,並將這些技術應用于機器人、機電一體化和航空航天等領域。

Bart De Schutter,荷蘭代爾夫特理工大學代爾夫特系統與控制中心海洋與運輸技術系教授。1996 年獲得比利時魯汶大學應用科學博士學位。他目前的主要研究方向包括多Agent 系統、混雜系統控制、離散事件系統和智能交通系統控制等。

Damien Ernst,分別於1998 年和2003 年獲得比利時列日大學理學碩士及博士學位。他目前是比利時FRS-FNRS 的助理研究員,就職于列日大學的系統與建模研究院。Damien Ernst在2003―2006年間為FRS- FNRS 的博士後研究人員,並在此期間擔任劍橋管理機構、麻省理工學院和美國國立衛生研究院的訪問研究員,2006―2007學年在高等電力學院(法國)擔任教授。他目前的主要研究方向包括電力系統動力學、最優控制、強化學習和動態治療方案設計等。

目次

第 1章 概述 1
1.1 動態規劃與強化學習問題 2
1.2 動態規劃與強化學習中的逼近 5
1.3 關於本書 7

第 2章 動態規劃與強化學習介紹 9
2.1 引言 9
2.2 馬爾可夫決策過程 12
2.2.1 確定性情況 12
2.2.2 隨機性情況 16
2.3 值迭代 20
2.3.1 基於模型的值迭代 20
2.3.2 模型無關的值迭代與探索的必要性 25
2.4 策略迭代 27
2.4.1 基於模型的策略迭代 28
2.4.2 模型無關的策略迭代 33
2.5 策略搜索 35
2.6 總結與討論 38

第3章 大規模連續空間中的動態規劃與強化學習 40
3.1 介紹 40
3.2 大規模連續空間中近似的必要性 43
3.3 近似框架 45
3.3.1 帶參近似 45
3.3.2 無參近似 48
3.3.3 帶參與無參逼近器的比較 49
3.3.4 附注 50
3.4 近似值迭代 51
3.4.1 基於模型的帶參近似值迭代算法 51
3.4.2 模型無關的帶參近似值迭代算法 54
3.4.3 無參近似值迭代算法 58
3.4.4 非擴張近似的作用及收斂性 59
3.4.5 實例:用於直流電機的近似Q值迭代 62
3.5 近似策略迭代 67
3.5.1 用於近似策略評估的類值迭代算法 68
3.5.2 基於線性帶參近似的模型無關策略評估 70
3.5.3 基於無參近似的策略評估 80
3.5.4 帶回滾的基於模型的近似策略評估 80
3.5.5 策略改進與近似策略迭代 81
3.5.6 理論保障 84
3.5.7 實例:用於直流電機的最小二乘策略迭代 86
3.6 自動獲取值函數逼近器 90
3.6.1 基函數最優化方法 91
3.6.2 基函數構造 93
3.6.3 附注 95
3.7 近似策略搜索 95
3.7.1 策略梯度與行動者-評論家算法 96
3.7.2 梯度無關的策略搜索 101
3.7.3 實例:用於直流電機問題的梯度無關策略搜索 103
3.8 近似值迭代、近似策略迭代及近似策略搜索算法的比較 106
3.9 總結與討論 108

第4章 基於模糊表示的近似值迭代 110
4.1 引言 110
4.2 模糊Q值迭代 112
4.2.1 模糊Q值迭代的近似和投影映射 112
4.2.2 同步和異步模糊Q值迭代 116
4.3 模糊Q值迭代的分析 119
4.3.1 收斂性 119
4.3.2 一致性 126
4.3.3 計算複雜度 131
4.4 優化隸屬度函數 132
4.4.1 隸屬度函數優化的一般方法 132
4.4.2 交叉熵優化 133
4.4.3 基於交叉熵隸屬度函數優化的模糊Q值迭代 135
4.5 實驗研究 137
4.5.1 直流電機:收斂性和一致性研究 137
4.5.2 雙連杆機械臂:動作插值的效果以及與擬合Q值迭代的比較 142
4.5.3 倒立擺:實時控制 146
4.5.4 過山車:隸屬度函數優化的效果 149
4.6 總結與討論 152

第5章 用於在線學習和連續動作控制的近似策略迭代 154
5.1 引言 154
5.2 最小二乘策略迭代的概述 155
5.3 在線最小二乘策略迭代 157
5.4 使用先驗知識的在線LSPI 161
5.4.1 使用策略近似的在線LSPI 161
5.4.2 具有單調策略的在線LSPI 162
5.5 採用連續動作、多項式近似的LSPI 165
5.6 實驗研究 167
5.6.1 用於倒立擺的在線LSPI 167
5.6.2 用於雙連杆機械臂的在線LSPI 178
5.6.3 使用直流電機先驗知識的在線LSPI 181
5.6.4 在倒立擺中使用帶有連續動作逼近器的LSPI 183
5.7 總結與討論 187

第6章 基於交叉熵基函數優化的近似策略搜索 189
6.1 介紹 189
6.2 交叉熵優化方法 190
6.3 交叉熵策略搜索 192
6.3.1 一般方法 192
6.3.2 基於徑向基函數的交叉熵策略搜索 197
6.4 實驗研究 199
6.4.1 離散時間二重積分 199
6.4.2 自行車平衡 206
6.4.3 HIV傳染病控制的計劃性間斷治療 212
6.5 總結與討論 215

附錄A 極端隨機樹 217
附錄B 交叉熵方法 221
縮略語 227
參考文獻 232

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 673
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區