評論

滿額折

深度強化學習：入門與實踐指南（簡體書）

ISBN13：9787111668084
出版社：機械工業出版社
作者：(俄)馬克西姆
譯者：王靜怡;劉斌
裝訂／頁數：平裝／373頁
規格：24cm*17cm (高/寬)
版次：一版
出版日：2021/03/03
關鍵字：深度強化學習：入門與實踐指南（簡體書）、深度、度強、強化、化學、學習、入門、實踐、指南、簡體、機械工業出版社、 (俄)馬克西姆、簡體書、工業技術、自動化技術、計算技術、自動推理、機器學習、

中國圖書館分類：自動推理、機器學習

人民幣定價：119 元

定價：NT$ 714 元

優惠價：87 折 621 元

領券後再享88折

領

海外經銷商無庫存，到貨日平均30天至45天

可得紅利積點：18 點

相關商品

商品簡介

名人/編輯推薦

商品簡介

強化學習是機器學習發展非常迅速的一個領域，由於其靈活性和通用性，可以應用在從玩遊戲到優化複雜製造過程的許多實際情況。本書幫助讀者迅速理解深度強化學習，並從原理到新近算法進行全面探索。關於強化學習的新資料很多，但多數過於專業和抽象，很不容易理解，並且從理解原理到可以實際解決問題之間還有巨大差距，而本書意在填補強化學習方法在實用性和結構化信息方面的不足，以幫助讀者從整體上輕鬆理解深度強化學習。同時本書的另一個特點是面向實踐，從簡單到非常複雜，將每種方法實際應用在各種具體環境中，以幫助讀者在實際研究和工作中應用深度強化學習來解決問題。
本書適合深度強化學習、機器學習、人工智能相關行業從業者、學習者閱讀參考。

名人/編輯推薦

深度強化學習從原理到算法全面探索。面向實踐，掌握構建智能體、聊天機器人實戰項目

目　錄

原書前言
第1章　什麼是強化學習 // 1
1.1　學習―監督、無監督和強化 // 1
1.2　RL形式和關係 // 3
1.2.1　獎勵 // 4
1.2.2　智能體 // 5
1.2.3　環境 // 5
1.2.4　動作 // 6
1.2.5　觀察 // 6
1.3　馬爾可夫決策過程簡介 // 8
1.3.1　馬爾可夫過程 // 8
1.3.2　馬爾可夫獎勵過程 // 11
1.3.3　馬爾可夫決策過程 // 13
1.4　本章小結 // 16

第2章　OpenAI Gym開源平臺 // 17
2.1　智能體剖析 // 17
2.2　硬件和軟件要求 // 19
2.3　OpenAI Gym API // 20
2.3.1　動作空間 // 21
2.3.2　觀察空間 // 21
2.3.3　環境 // 22
2.3.4　創建環境 // 23
2.3.5　CartPole會話 // 25
2.4　隨機CartPole智能體 // 26
2.5　額外的Gym功能―Wrapper和Monitor // 27
2.5.1　Wrapper // 28
2.5.2　Monitor // 30
2.6　本章小結 // 32

第3章使用PyTorch進行深度學習 // 33
3.1　張量 // 33
3.1.1　創建張量 // 33
3.1.2　標量張量 // 35
3.1.3　張量操作 // 36
3.1.4　GPU張量 // 36
3.2　梯度 // 37
3.2.1　張量和梯度 // 38
3.3　NN構建塊 // 40
3.4　定制層級 // 41
3.5　最終的黏合劑―損失函數和優化器 // 43
3.5.1　損失函數 // 44
3.5.2　優化器 // 44
3.6　使用TensorBoard監控 // 45
3.6.1　TensorBoard簡介 // 46
3.6.2　繪圖工具 // 47
3.7　示例：在Atari圖像上使用GAN // 48
3.8　本章小結 // 52

第4章　交叉熵方法 // 53
4.1　RL方法的分類 // 53
4.2　實踐交叉熵 // 54
4.3　CartPole上的交叉熵方法 // 55
4.4　FrozenLake上的交叉熵方法 // 62
4.5　交叉熵方法的理論背景 // 67
4.6　本章小結 // 68

第5章表格學習與Bellman方程 // 69
5.1　值、狀態、最優性 // 69
5.2　最優的Bellman方程 // 70
5.3　動作的值 // 72
5.4　值迭代法 // 74
5.5　實踐中的值迭代 // 75
5.6　FrozenLake中的Q-learning // 80
5.7　本章小結 // 82

第6章　深度Q網絡 // 83
6.1　現實中的值迭代 // 83
6.2　表格式Q-learning // 84
6.3　深度Q-learning // 88
6.3.1　與環境的交互 // 89
6.3.2　SGD優化 // 90
6.3.3　步驟之間的相關性 // 90
6.3.4　馬爾可夫性 // 90
6.3.5　DQN訓練的最終形式 // 91
6.4　Pong上的DQN // 91
6.4.1　封裝 // 92
6.4.2　DQN模型 // 96
6.4.3　訓練 // 98
6.4.4　運行與性能 // 105
6.4.5　動作中的模型 // 107
6.5　本章小結 // 109

第7章　DQN擴展 // 110
7.1　PyTorch Agent Net函數庫 // 110
7.1.1　智能體 // 111
7.1.2　智能體的經驗 // 112
7.1.3　經驗緩衝區 // 113
7.1.4　Gym env封裝 // 113
7.2　基本DQN // 113
7.3　N步DQN // 119
7.3.1　實現 // 121
7.4　雙DQN // 123
7.4.1　實現 // 123
7.4.2　結果 // 126
7.5　有噪網絡 // 127
7.5.1　實現 // 127
7.5.2　結果 // 130
7.6　優先級重放緩衝區 // 132
7.6.1　實現 // 133
7.6.2　結果 // 137
7.7　競爭DQN // 137
7.7.1　實現 // 138
7.7.2　結果 // 139
7.8　分類 // 140
7.8.1　實現 // 142
7.8.2　結果 // 148
7.9　結合所有 // 149
7.9.1　實現 // 150
7.9.2　結果 // 154
7.10　本章小結 // 155
參考文獻 // 155

第8章　RL用於股票交易 // 156
8.1　貿易 // 156
8.2　數據 // 156
8.3　問題陳述和關鍵決策 // 157
8.4　交易環境 // 159
8.5　模型 // 165
8.6　訓練代碼 // 166
8.7　結果 // 167
8.7.1　前饋模型 // 167
8.7.2　卷積模型 // 170
8.8　要嘗試的事 // 173
8.9　本章小結 // 173

第9章策略梯度法：一種替代方案 // 174
9.1　值與策略 // 174
9.1.1　為什麼是策略 // 174
9.1.2　策略表示 // 175
9.1.3　策略梯度 // 175
9.2　強化方法 // 176
9.2.1　CartPole的例子 // 177
9.2.2　結果 // 180
9.2.3　基於策略的方法與基於值的方法 // 181
9.3　強化問題 // 181
9.3.1　完整episode是必需的 // 182
9.3.2　高梯度方差 // 182
9.3.3　探索 // 182
9.3.4　樣本之間的相關性 // 183
9.4　CartPole上的PG // 183
9.5　Pong上的PG // 187
9.6　本章小結 // 190

第10章　Actor-Critic方法 // 191
10.1　方差減少 // 191
10.2　CartPole方差 // 192
10.3　Actor-Critic // 194
10.4　Pong上的A2C // 196
10.5　Pong上的A2C的結果 // 201
10.6　調整超參數 // 202
10.6.1　學習率 // 203
10.6.2　熵beta // 203
10.6.3　環境數量 // 204
10.6.4　batch大小 // 204
10.7　本章小結 // 204

第11章異步優勢Actor-Critic方法 // 205
11.1　相關性和樣本效率 // 205
11.2　在A2C中添加另一個A // 206
11.3　Python中的多處理 // 208
11.4　A3C―數據並行 // 208
11.5　A3C―梯度並行 // 214
11.6　本章小結 // 219

第12章用 RL訓練聊天機器人 // 220

主題書展

主題書展

更多書展

本週66折

天台性具思想(平)

摺紙幾何學：60種特殊摺紙

德勒茲(精)

非常印象非常美：莫內和他的水蓮世界(二版)

信不信由你：從哲學看宗教

下班後1小時的極速學習攻略：職場進修達人不辭職，靠「偷時間」高效學語言、修課程，10年考取10張證照

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

深度強化學習：入門與實踐指南（簡體書）

商品簡介

名人/編輯推薦

目次

主題書展

主題書展

本週66折

您曾經瀏覽過的商品

購物須知

網路書店

復北店

重南店