TOP
0
0
【13悅讀日】4/13~4/17 消費滿699送100元E-coupon
深度強化學習:入門與實踐指南(簡體書)
滿額折

深度強化學習:入門與實踐指南(簡體書)

人民幣定價:119 元
定  價:NT$ 714 元
優惠價:87621
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:18 點
相關商品
商品簡介
名人/編輯推薦
目次

商品簡介

強化學習是機器學習發展非常迅速的一個領域,由於其靈活性和通用性,可以應用在從玩遊戲到優化複雜製造過程的許多實際情況。本書幫助讀者迅速理解深度強化學習,並從原理到新近算法進行全面探索。關於強化學習的新資料很多,但多數過於專業和抽象,很不容易理解,並且從理解原理到可以實際解決問題之間還有巨大差距,而本書意在填補強化學習方法在實用性和結構化信息方面的不足,以幫助讀者從整體上輕鬆理解深度強化學習。同時本書的另一個特點是面向實踐,從簡單到非常複雜,將每種方法實際應用在各種具體環境中,以幫助讀者在實際研究和工作中應用深度強化學習來解決問題。
本書適合深度強化學習、機器學習、人工智能相關行業從業者、學習者閱讀參考。

名人/編輯推薦

深度強化學習從原理到算法全面探索。面向實踐,掌握構建智能體、聊天機器人實戰項目

目次

目 錄

原書前言
第1章 什麼是強化學習 // 1
1.1 學習―監督、無監督和強化 // 1
1.2 RL形式和關係 // 3
1.2.1 獎勵 // 4
1.2.2 智能體 // 5
1.2.3 環境 // 5
1.2.4 動作 // 6
1.2.5 觀察 // 6
1.3 馬爾可夫決策過程簡介 // 8
1.3.1 馬爾可夫過程 // 8
1.3.2 馬爾可夫獎勵過程 // 11
1.3.3 馬爾可夫決策過程 // 13
1.4 本章小結 // 16

第2章 OpenAI Gym開源平臺 // 17
2.1 智能體剖析 // 17
2.2 硬件和軟件要求 // 19
2.3 OpenAI Gym API // 20
2.3.1 動作空間 // 21
2.3.2 觀察空間 // 21
2.3.3 環境 // 22
2.3.4 創建環境 // 23
2.3.5 CartPole會話 // 25
2.4 隨機CartPole智能體 // 26
2.5 額外的Gym功能―Wrapper和Monitor // 27
2.5.1 Wrapper // 28
2.5.2 Monitor // 30
2.6 本章小結 // 32

第3章 使用PyTorch進行深度學習 // 33
3.1 張量 // 33
3.1.1 創建張量 // 33
3.1.2 標量張量 // 35
3.1.3 張量操作 // 36
3.1.4 GPU張量 // 36
3.2 梯度 // 37
3.2.1 張量和梯度 // 38
3.3 NN構建塊 // 40
3.4 定制層級 // 41
3.5 最終的黏合劑―損失函數和優化器 // 43
3.5.1 損失函數 // 44
3.5.2 優化器 // 44
3.6 使用TensorBoard監控 // 45
3.6.1 TensorBoard簡介 // 46
3.6.2 繪圖工具 // 47
3.7 示例:在Atari圖像上使用GAN // 48
3.8 本章小結 // 52

第4章 交叉熵方法 // 53
4.1 RL方法的分類 // 53
4.2 實踐交叉熵 // 54
4.3 CartPole上的交叉熵方法 // 55
4.4 FrozenLake上的交叉熵方法 // 62
4.5 交叉熵方法的理論背景 // 67
4.6 本章小結 // 68

第5章 表格學習與Bellman方程 // 69
5.1 值、狀態、最優性 // 69
5.2 最優的Bellman方程 // 70
5.3 動作的值 // 72
5.4 值迭代法 // 74
5.5 實踐中的值迭代 // 75
5.6 FrozenLake中的Q-learning // 80
5.7 本章小結 // 82

第6章 深度Q網絡 // 83
6.1 現實中的值迭代 // 83
6.2 表格式Q-learning // 84
6.3 深度Q-learning // 88
6.3.1 與環境的交互 // 89
6.3.2 SGD優化 // 90
6.3.3 步驟之間的相關性 // 90
6.3.4 馬爾可夫性 // 90
6.3.5 DQN訓練的最終形式 // 91
6.4 Pong上的DQN // 91
6.4.1 封裝 // 92
6.4.2 DQN模型 // 96
6.4.3 訓練 // 98
6.4.4 運行與性能 // 105
6.4.5 動作中的模型 // 107
6.5 本章小結 // 109

第7章 DQN擴展 // 110
7.1 PyTorch Agent Net函數庫 // 110
7.1.1 智能體 // 111
7.1.2 智能體的經驗 // 112
7.1.3 經驗緩衝區 // 113
7.1.4 Gym env封裝 // 113
7.2 基本DQN // 113
7.3 N步DQN // 119
7.3.1 實現 // 121
7.4 雙DQN // 123
7.4.1 實現 // 123
7.4.2 結果 // 126
7.5 有噪網絡 // 127
7.5.1 實現 // 127
7.5.2 結果 // 130
7.6 優先級重放緩衝區 // 132
7.6.1 實現 // 133
7.6.2 結果 // 137
7.7 競爭DQN // 137
7.7.1 實現 // 138
7.7.2 結果 // 139
7.8 分類 // 140
7.8.1 實現 // 142
7.8.2 結果 // 148
7.9 結合所有 // 149
7.9.1 實現 // 150
7.9.2 結果 // 154
7.10 本章小結 // 155
參考文獻 // 155

第8章 RL用於股票交易 // 156
8.1 貿易 // 156
8.2 數據 // 156
8.3 問題陳述和關鍵決策 // 157
8.4 交易環境 // 159
8.5 模型 // 165
8.6 訓練代碼 // 166
8.7 結果 // 167
8.7.1 前饋模型 // 167
8.7.2 卷積模型 // 170
8.8 要嘗試的事 // 173
8.9 本章小結 // 173

第9章 策略梯度法:一種替代方案 // 174
9.1 值與策略 // 174
9.1.1 為什麼是策略 // 174
9.1.2 策略表示 // 175
9.1.3 策略梯度 // 175
9.2 強化方法 // 176
9.2.1 CartPole的例子 // 177
9.2.2 結果 // 180
9.2.3 基於策略的方法與基於值的方法 // 181
9.3 強化問題 // 181
9.3.1 完整episode是必需的 // 182
9.3.2 高梯度方差 // 182
9.3.3 探索 // 182
9.3.4 樣本之間的相關性 // 183
9.4 CartPole上的PG // 183
9.5 Pong上的PG // 187
9.6 本章小結 // 190

第10章 Actor-Critic方法 // 191
10.1 方差減少 // 191
10.2 CartPole方差 // 192
10.3 Actor-Critic // 194
10.4 Pong上的A2C // 196
10.5 Pong上的A2C的結果 // 201
10.6 調整超參數 // 202
10.6.1 學習率 // 203
10.6.2 熵beta // 203
10.6.3 環境數量 // 204
10.6.4 batch大小 // 204
10.7 本章小結 // 204

第11章 異步優勢Actor-Critic方法 // 205
11.1 相關性和樣本效率 // 205
11.2 在A2C中添加另一個A // 206
11.3 Python中的多處理 // 208
11.4 A3C―數據並行 // 208
11.5 A3C―梯度並行 // 214
11.6 本章小結 // 219

第12章 用 RL訓練聊天機器人 // 220

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 621
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區