Python強化學習實戰:使用OpenAI Gym、TensorFlow和Keras(簡體書)
商品資訊
ISBN13:9787302570097
出版社:清華大學出版社(大陸)
作者:托威赫‧貝索洛
出版日:2021/02/01
裝訂/頁數:平裝/127頁
規格:21cm*14.5cm (高/寬)
版次:一版
商品簡介
《Python強化學習實戰:使用OpenAI Gym、TensorFlow和Keras》介紹了強化學習(RL)算法背後的理論及用於實現它們的代碼。讀者將依次學習OpenAIGym的各類功能,從應用標準庫,到創建自己的環境,再到掌握如何構建強化學習問題,從而能夠研究、開發和部署基於強化學習的解決方案。
作者簡介
Taweh Beysolow II是一位數據科學家和作家,目前居住在美國。他擁有美國聖約翰大學的經濟學學士學位和福特漢姆大學的應用統計學理學碩士學位。在成功退出與他人共同創立的初創公司後,他現在擔任總部位於舊金山的私人股本公司Industry Capital的董事,在那裡領導加密貨幣和區塊鏈平臺。
序
前 言
很榮幸第三次在Apress出版社出書!《Python強化學習實戰 使用OpenAI Gym、Tensorrflow和Keras》是我撰寫過的最復雜書籍,但對於每一位數據科學家和工程師來說都物有所值。在過去的幾年中,強化學習領域經歷了重大變革,熱愛人工智能的每個人都值得全身心投入。
作為人工智能研究的前沿,《Python強化學習實戰 使用OpenAI Gym、Tensorrflow和Keras》將是熟悉該領域狀況以及最常用技術的絕佳起點。基於這一點,我希望讀者能夠從中汲取力量,從而繼續自己的研究並在各自的領域進行創新。
目次
目 錄
第1章 強化學習導論 1
1.1 強化學習的發展史 2
1.2 MDP及其與強化學習的關係 3
1.3 強化學習算法和強化學習框架 5
1.4 Q學習 8
1.5 強化學習的應用 9
1.5.1 經典控制問題 9
1.5.2 《超級馬裡奧兄弟》遊戲 10
1.5.3 《毀滅戰士》遊戲 11
1.5.4 基於強化學習的做市策略 12
1.5.5 《刺猬索尼克》遊戲 12
1.6 本章小結 13
第2章 強化學習算法 15
2.1 OpenAI Gym 15
2.2 基於策略的學習 16
2.3 策略梯度的數學解釋 17
2.4 基於梯度上升的策略優化 19
2.5 使用普通策略梯度法求解車桿問題 20
2.6 什麼是折扣獎勵,為什麼要使用它們 23
2.7 策略梯度的不足 28
2.8 近端策略優化(PPO)和Actor-Critic模型 29
2.9 實現PPO並求解《超級馬裡奧兄弟》 30
2.9.1 《超級馬裡奧兄弟》概述 30
2.9.2 安裝環境軟件包 31
2.9.3 資源庫中的代碼結構 32
2.9.4 模型架構 32
2.10 應對難度更大的強化學習挑戰 37
2.11 容器化強化學習實驗 39
2.12 實驗結果 41
2.13 本章小結 41
第3章 強化學習算法:Q學習及其變種 43
3.1 Q學習 43
3.2 時序差分(TD)學習 45
3.3 epsilon-greedy算法 46
3.4 利用Q學習求解冰湖問題 47
3.5 深度Q學習 50
3.6 利用深度Q學習玩《毀滅戰士》遊戲 51
3.7 訓練與性能 56
3.8 深度Q學習的局限性 57
3.9 雙Q學習和雙深度Q網絡 58
3.10 本章小結 59
第4章 基於強化學習的做市策略 61
4.1 什麼是做市 61
4.2 Trading Gym 63
4.3 為什麼強化學習適用於做市 64
4.4 使用Trading Gym合成訂單簿數據 66
4.5 使用Trading Gym生成訂單簿數據 67
4.6 實驗設計 68
4.6.1 強化學習方法1:策略梯度 71
4.6.2 強化學習方法2:深度Q網絡 71
4.7 結果和討論 73
4.8 本章小結 74
第5章 自定義OpenAI強化學習環境 75
5.1 《刺猬索尼克》遊戲概述 75
5.2 下載該遊戲 76
5.3 編寫該環境的代碼 78
5.4 A3C Actor-Critic 82
5.5 本章小結 88
附錄A 源代碼 91
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

