TOP
0
0
【13悅讀日】4/13~4/17 消費滿699送100元E-coupon
強化學習入門:從原理到實踐(簡體書)
滿額折

強化學習入門:從原理到實踐(簡體書)

人民幣定價:79 元
定  價:NT$ 474 元
優惠價:87412
領券後再享88折
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:12 點
相關商品
商品簡介
名人/編輯推薦
目次

商品簡介

本書以理論和實踐相結合的形式深入淺出地介紹強化學習的歷史、基本概念、經典算法和一些前沿技術,共分為三大部分:第一部分(第1~5章)介紹強化學習的發展歷史、基本概念以及一些經典的強化學習算法;第二部分(第6~9章)在簡要回顧深度學習技術的基礎上著重介紹深度強化學習的一些前沿實用算法;第三部分(第10章)以五子棋為例詳細講解戰勝了人類頂級圍棋選手的AlphaZero算法的核心思想。對於本書介紹的每一個經典算法,我們都結合了一定的應用場景,詳細介紹如何用Python代碼來實現。

名人/編輯推薦

強化學習原理與實踐

目次

前言

致謝

常用數學符號

主要算法列表

第1章 概述1

1.1 強化學習的歷史1

1.2 強化學習的基本概念2

1.3 章節組織6

1.4 編程環境與代碼資源6

第2章 從一個示例到馬爾可夫決策過程7

2.1 馬爾可夫過程7

2.2 馬爾可夫獎勵過程9

2.3 馬爾可夫決策過程13

2.4 編程實踐:學生馬爾可夫決策示例20

2.4.1 收穫和價值的計算20

2.4.2 驗證貝爾曼方程22

第3章 動態規劃尋找最優策略29

3.1 策略評估29

3.2 策略迭代32

3.3 價值迭代33

3.4 異步動態規劃算法36

3.5 編程實踐:動態規劃求解小型格子世界最優策略37

3.5.1 小型格子世界MDP建模37

3.5.2 策略評估40

3.5.3 策略迭代41

3.5.4 價值迭代41

第4章 不基於模型的預測43

4.1 蒙特卡羅強化學習43

4.2 時序差分強化學習45

4.3 n步時序差分學習50

4.4 編程實踐:蒙特卡羅學習評估21點遊戲的玩家策略54

4.4.1 21點遊戲規則54

4.4.2 將21點遊戲建模為強化學習問題55

4.4.3 遊戲場景的搭建55

4.4.4 生成對局數據64

4.4.5 策略評估64

第5章 無模型的控制67

5.1 行為價值函數的重要性67

5.2 ?貪婪策略68

5.3 同策略蒙特卡羅控制69

5.4 同策略時序差分控制70

5.4.1 Sarsa算法70

5.4.2 Sarsa(λ)算法73

5.4.3 比較Sarsa和Sarsa(λ)74

5.5 異策略Q學習算法76

5.6 編程實踐:蒙特卡羅學習求解21點遊戲的最優策略78

5.7 編程實踐:構建基於gym的有風的格子世界及個體81

5.7.1 gym庫簡介81

5.7.2 狀態序列的管理83

5.7.3 個體基類的編寫84

5.8 編程實踐:各類學習算法的實現及與有風的格子世界的交互88

5.8.1 Sarsa算法89

5.8.2 Sarsa(λ)算法90

5.8.3 Q學習算法91

第6章 價值函數的近似表示93

6.1 價值近似的意義93

6.2 目標函數與梯度下降95

6.2.1 目標函數95

6.2.2 梯度和梯度下降97

6.3 常用的近似價值函數100

6.3.1 線性近似101

6.3.2 神經網絡101

6.3.3 卷積神經網絡近似104

6.4 DQN算法108

6.5 編程實踐:基於PyTorch實現DQN求解PuckWorld問題109

6.5.1 基於神經網絡的近似價值函數110

6.5.2 實現DQN求解PuckWorld問題113

第7章 基於策略梯度的深度強化學習117

7.1 基於策略學習的意義117

7.2 策略目標函數119

7.3 Actor-Critic算法121

7.4 深度確定性策略梯度算法124

7.5 編程實踐:DDPG算法實現125

7.5.1 連續行為空間的PuckWorld環境125

7.5.2 Actor-Critic網絡的實現127

7.5.3 確定性策略下探索的實現130

7.5.4 DDPG算法的實現130

7.5.5 DDPG算法在PuckWorld環境中的表現135

第8章 基於模型的學習和規劃137

8.1 環境的模型137

8.2 整合學習與規劃――Dyna算法139

8.3 基於模擬的搜索140

8.3.1 簡單蒙特卡羅搜索140

8.3.2 蒙特卡羅樹搜索141

第9章 探索與利用143

9.1 多臂遊戲機143

9.2 常用的探索方法145

9.2.1 衰減的?貪婪探索145

9.2.2 不確定行為優先探索146

9.2.3 基於信息價值的探索149

第10章 Alpha Zero算法實戰151

10.1 自博弈中的蒙特卡羅樹搜索154

10.2 模型評估中的蒙特卡羅搜索156

10.3 策略價值網絡結構及策略提升160

10.4 編程實踐:Alpha Zero算法在五子棋上的實現161

10.4.1 從零開始搭建棋盤環境161

10.4.2 搭建兩種MCTS以實現Alpha

Zero自博弈與模型評估168

10.4.3 搭建策略價值網絡並進行策略提升177

10.4.4 訓練自己的Alpha Zero

模型182

參考文獻184

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 412
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區