商品簡介
作者簡介
名人/編輯推薦
目次
商品簡介
強化學習是機器學習的重要分支之一。《用Python動手學強化學習》結合實際可運行的Python代碼,通過簡明的文字、豐富的插圖和示例,通俗易懂地介紹了從基礎概念到前沿應用等方方面面的內容,包括根據環境和經驗制訂計劃的學習方法、強化學習與神經網絡的組合,以及強化學習的弱點和克服方法。讀者通過下載書中代碼並親自動手運行,可以快速入門強化學習並進行實踐。
作者簡介
[日]久保隆宏(作者)
任職於日本大型系統集成商TIS,具有豐富的機器學習研究和開發經驗。論文共享網站站arXivTimes運營者,積極致力於技術普及,著有《TensorFlow應用指南》(合著)。
梁垿(譯者)
碩士畢業於日本早稻田大學,研究方向為機器學習。目前在日本大型系統集成商TIS任自然語言處理工程師。熱愛長跑與讀書,喜歡科幻、蒸汽朋克、克蘇魯等題材的作品。
程引(譯者)
工學博士學位,畢業於上海交通大學。目前在日本BizReach公司(Visional Group)AI部門任算法工程師。業務方向為推薦系統與自然語言處理,研究興趣包括強化學習與自動控制。
任職於日本大型系統集成商TIS,具有豐富的機器學習研究和開發經驗。論文共享網站站arXivTimes運營者,積極致力於技術普及,著有《TensorFlow應用指南》(合著)。
梁垿(譯者)
碩士畢業於日本早稻田大學,研究方向為機器學習。目前在日本大型系統集成商TIS任自然語言處理工程師。熱愛長跑與讀書,喜歡科幻、蒸汽朋克、克蘇魯等題材的作品。
程引(譯者)
工學博士學位,畢業於上海交通大學。目前在日本BizReach公司(Visional Group)AI部門任算法工程師。業務方向為推薦系統與自然語言處理,研究興趣包括強化學習與自動控制。
名人/編輯推薦
1.從基礎到應用,一本書快速入門強化學習
2.基於Python實現強化學習,直觀理解運作過程
3.內容豐富,涵蓋強化學習基本概念、算法詳解、前沿應用、弱點及對策
4.132張圖表與大量示例,全彩印刷圖文並茂提供良好閱讀體驗
5.附免費下載源代碼為讀者提供親身實踐機會
2.基於Python實現強化學習,直觀理解運作過程
3.內容豐富,涵蓋強化學習基本概念、算法詳解、前沿應用、弱點及對策
4.132張圖表與大量示例,全彩印刷圖文並茂提供良好閱讀體驗
5.附免費下載源代碼為讀者提供親身實踐機會
目次
第 1章 了解強化學習 1
1.1 強化學習與各關鍵詞之間的關係 1
1.2 強化學習的優點和弱點 8
1.3 強化學習的問題設定:馬爾可夫決策過程 9
第 2章 強化學習的解法(1):根據環境制訂計劃 21
2.1 價值的定義和計算:貝爾曼方程 22
2.2 基於動態規劃法的價值近似的學習:價值迭代 28
2.3 基於動態規劃法的策略的學習:策略迭代 32
2.4 基於模型的方法和無模型的方法的區別 36
第3章 強化學習的解法(2):根據經驗制訂計劃 39
3.1 平衡經驗的積累與利用:Epsilon-Greedy 算法 41
3.2 是根據實際獎勵還是預測來修正計劃:蒙特卡洛方法和時序差分學習 46
3.3 用經驗來更新價值近似還是策略:基於價值和基於策略 62
第4章 使用面向強化學習的神經網絡 73
4.1 將神經網絡應用於強化學習 74
4.2 通過含有參數的函數實現價值近似:價值函數近似 100
4.3 將深度學習應用於價值近似:DQN 109
4.4 通過含有參數的函數實現策略:策略梯度 121
4.5 將深度學習應用於策略:A2C 133
4.6 是價值近似還是策略呢 153
第5章 強化學習的弱點 157
5.1 獲取樣本的效率低 157
5.2 容易陷入局部最優行動和過擬合160
5.3 復現性差 163
5.4 以弱點為前提的對策 164
第6章 克服強化學習弱點的方法 169
6.1 應對采樣效率低的方法:與基於模型的方法一起使用、表征學習 170
6.2 改善復現性的方法:進化策略 198
6.3 應對局部最優行動和過擬合的方法:模仿學習和逆強化學習 206
第7章 強化學習的應用領域 237
7.1 行動的最優化 239
7.2 學習的最優化 248
參考文獻 252
1.1 強化學習與各關鍵詞之間的關係 1
1.2 強化學習的優點和弱點 8
1.3 強化學習的問題設定:馬爾可夫決策過程 9
第 2章 強化學習的解法(1):根據環境制訂計劃 21
2.1 價值的定義和計算:貝爾曼方程 22
2.2 基於動態規劃法的價值近似的學習:價值迭代 28
2.3 基於動態規劃法的策略的學習:策略迭代 32
2.4 基於模型的方法和無模型的方法的區別 36
第3章 強化學習的解法(2):根據經驗制訂計劃 39
3.1 平衡經驗的積累與利用:Epsilon-Greedy 算法 41
3.2 是根據實際獎勵還是預測來修正計劃:蒙特卡洛方法和時序差分學習 46
3.3 用經驗來更新價值近似還是策略:基於價值和基於策略 62
第4章 使用面向強化學習的神經網絡 73
4.1 將神經網絡應用於強化學習 74
4.2 通過含有參數的函數實現價值近似:價值函數近似 100
4.3 將深度學習應用於價值近似:DQN 109
4.4 通過含有參數的函數實現策略:策略梯度 121
4.5 將深度學習應用於策略:A2C 133
4.6 是價值近似還是策略呢 153
第5章 強化學習的弱點 157
5.1 獲取樣本的效率低 157
5.2 容易陷入局部最優行動和過擬合160
5.3 復現性差 163
5.4 以弱點為前提的對策 164
第6章 克服強化學習弱點的方法 169
6.1 應對采樣效率低的方法:與基於模型的方法一起使用、表征學習 170
6.2 改善復現性的方法:進化策略 198
6.3 應對局部最優行動和過擬合的方法:模仿學習和逆強化學習 206
第7章 強化學習的應用領域 237
7.1 行動的最優化 239
7.2 學習的最優化 248
參考文獻 252
主題書展
更多
主題書展
更多書展購物須知
大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。
特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。
無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。
為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。
若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

