TOP
紅利積點抵現金,消費購書更貼心
Python深度強化學習:基於Chainer和OpenAI Gym(簡體書)
滿額折

Python深度強化學習:基於Chainer和OpenAI Gym(簡體書)

商品資訊

人民幣定價:79 元
定價
:NT$ 474 元
優惠價
87412
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點:12 點
商品簡介
名人/編輯推薦
目次

商品簡介

本書基於強化學的庫Chainer(Chainere)和AI模擬環境的OpenAI gym-不僅僅是軟件模擬-也詳述了使用RaspbbilryPi和ARduino的實際環境的應用。

名人/編輯推薦

可以從運行Python的實踐中學習深度強化學習的入門書,一本可以自己嘗試上手操作的指南性書籍

近年來-機器學習受到了人們的廣泛關注。在機器學習中-主要通過向學習器提供受訓目標(有標籤信息)來進行有監督學習-例如-大多數圖像識別和語音辨識都是通過有監督學習來進行的。
另外-還存在一種稱為半監督學習的方法-該方法不像有監督學習那樣提供有標籤信息-這種機器學習方法中典型的便是強化學習。強化學習是機器學習的一種-它根據特定環境(例如遊戲的棋盤盤面等)中的當前情況來決定下一步要採取的行動。例如-讓計算機學習下圍棋時-思考在某種局面下-接下來應該在哪裡放置棋子更好。
強化學習會對計算機考慮到的行動進行評估-並以獎勵的形式進行回饋-評估行動的好壞(例如在圍棋比賽中的贏或輸)- 這樣一來-計算機將自動採取在特定情況下會增加獎勵的行動。深度強化學習將強化學習與深度學習融合在一起-取得了很好的成效。其中讓我們記憶猶新的便是由DeepMind公司開發的圍棋智能體AlphaGo Zero。 它在不使用任何人類對弈資料的情況下和自己進行對局(計算機對戰計算機)-僅用一個多月就達到了很高的水準-而且幾乎沒有弱點。
深度學習成為眾人矚目的焦點已經將近10年了-但它並非一開始就是一種全新的技術-它是自1970年以來研究的人工神經網絡發展而來的一種方法。當前的深度學習熱潮也被稱為第三次人工智能熱潮-它與目前為止的人工智能熱潮的區別之一是-多家公司已經發佈了機器學習框架-非專業人士也可以免費使用它們-因而不論是學生還是在職人員都可以輕鬆嘗試深度學習。此外-機器學習的某些框架不僅支持深度學習-而且還支持結合了強化學習的深度強化學習。因此-當前學習深度學習的門檻遠低於此前的幾次人工智能熱潮。
在本書中-除了詳細的理論說明外-還有針對在Python上運行的深度強化學習框架ChainerRL的講解-從而引導讀者在實際中使用深度強化學習。如果你想通過模擬實驗檢驗深度強化學習的結果-只要有臺個人計算機就可以輕鬆嘗試。另外-如果你有一臺像Raspberry Pi這樣的小型計算機-則可以通過連接來控制電路元件和機器人。深度強化學習適用於“情況因操作而異”的問題-因此-它適用於在一方操作之後局面會發生改變的問題-如圍棋和將棋等棋局問題。此外-用機械臂自動識別物體-將其進行抓握和移動也是深度強化學習的擅長領域。因此-在本書中-我們會講解如何通過深度強化學習來進行黑白棋對戰-以及如何將其應用於實際的機器人上。
如前所述-由於深度強化學習將強化學習整合到了深度學習中-因此-如果瞭解了這兩種學習方法的原理-就能更好地運用深度強化學習。
本書第1章首先介紹進行深度強化學習所需的PC端環境構建。第2章介紹深度學習。為了理解深度強化學習-有必要瞭解深度學習的相關知識。由於市面上已經有許多有關深度學習的書籍-因此本書以讀者參考了那些書中的詳細信息為前提-在第2章中講解理解深度強化學習所需掌握的內容。使用Chainer進行過深度學習程序設計的人可以跳過這一章。接下來-第3章我們將講解強化學習中的一種典型方法Q學習-希望讀者能在這一章中瞭解強化學習的基礎。在第4章中我們將進入深度強化學習的討論。第5章介紹如何使用深度強化學習來控制移動機器人。
這樣一來-本書從基礎出發-通過從開發環境構建到深度學習、強化學習、深度強化學習的逐步深入-來對控制實際事物的應用進行講解。因此-深度學習和深度強化學習的初學者和中級學習者(例如-大學生或希望將深度學習和深度強化學習應用於工作的在職人員)可以在逐步學習的同時學習深度強化學習的基礎。本書將幫助這類讀者加深對強化學習的理解。
此外-本書的附錄中包含的信息有助於學習深度強化學習。例如-僅使用PC的CPU進行深度學習和深度強化學習的計算需要很長時間-因此我們將介紹一種使用圖形操作單元(GPU)加速學習過程的方法。對於使用Intel CPU的用戶-我們還會介紹一種使用由Intel發佈的Intel CPU矩陣計算優化引擎來加速的方法。
在編寫本書時-為了嘗試讓初學者也可以學習深度強化學習-山梨大學本科院醫工農學綜合教育學部的劉震先生和名取智紘先生在閱讀本書的手稿時構造了一個開發環境並檢查了程式的運行情況-在此對他們深表謝意。還要感謝協助進行運行檢查的山梨大學工程學院的佐野祐太先生、村田義倫先生和依田直樹先生。此外-作者所屬的山梨大學工學院信息機電工程學系的教職員工以及實驗室的本科生和研究生也提供了支援。最後-如果沒有OHM公司所有人的鼎力相助-本書也難以出版-我們要再次感謝所有向我們提供幫助的人。
使用本書時的注意事項
本書中涉及的程式可以從OHM公司的網站以及華章圖書官網進行下載。
本書的程式可以在以下環境中運行。
Windows 81 10
搭載了macOS 1013 High Sierra的MacBook和MacBook Pro
Raspbian OS(版本270) Raspberry Pi2 Model B或Raspberry Pi3 Model B
搭載Ubuntu 1604 Intel Core i7的PC 或 VirtualBox上的虛擬環境
Python 2714或Python 364
大部分程式在Pyt......

目次

譯者序
前言
第1章 引言 1
11 深度強化學習可以做什麼 1
12 本書的結構 4
13 框架:Chainer和ChainerRL 6
14 Python的運行檢查 6
15 Chainer的安裝 9
16 ChainerRL的安裝 12
17 模擬器:OpenAI Gym 14
第2章 深度學習 17
21 什麼是深度學習 17
22 神經網絡 18
23 基於Chainer的神經網絡 21
231 Chainer與神經網絡的對應 24
232 Chainer程式 25
233 參數設置 26
234 創建資料 27
235 定義神經網絡 27
236 各種聲明 28
237 顯示訓練狀態 28
238 保存訓練狀態 31
239 執行訓練 32
24 與其他神經網絡的對應 32
241 感知器 32
242 5層神經網絡(深度學習) 33
243 計算輸入中的1的數量 34
25 基於深度神經網絡的手寫數字識別 35
251 手寫數字的輸入格式 36
252 深度神經網絡的結構 39
253 8×8的手寫數字資料 41
26 基於卷積神經網絡的手寫數字識別 43
261 卷積 45
262 啟動函數 49
263 池化 49
264 執行 50
27 一些技巧 53
271 讀取檔資料 54
272 使用訓練模型 55
273 重啟訓練 56
274 檢查權重 56
275 從檔中讀取手寫數字 57
第3章 強化學習 59
31 什麼是強化學習 59
311 有監督學習 60
312 無監督學習 60
313 半監督學習 60
32 強化學習原理 61
33 通過簡單的示例來學習 61
34 應用到Q學習問題中 63
341 狀態 63
342 行動 63
343 獎勵 63
344 Q值 64
35 使用Python進行訓練 67
351 運行程式 67
352 說明程式 69
36 基於OpenAI Gym的倒立擺 73
361 運行程式 73
362 說明程式 74
37 如何保存和載入Q值 79
第4章 深度強化學習 81
41 什麼是深度強化學習 81
42 對於老鼠學習問題的應用 83
421 運行程式 83
422 說明程式 85
423 如何保存和讀取智能體模型 91
43 基於OpenAI Gym的倒立擺 91
431 運行程式 91
432 說明程式 92
44 基於OpenAI Gym的太空侵略者 97
45 基於OpenAI Gym的顛球 99
451 運行程式 101
452 說明程式 102
46 對戰遊戲 109
461 黑白棋 109
462 訓練方法 111
463 變更盤面 121
464 黑白棋實體 121
465 如何與人類對戰 123
466 卷積神經網絡的應用 127
47 使用物理引擎進行類比 128
471 物理引擎 129
472 運行程式 130
473 說明程式 131
48 物理引擎在顛球問題中的應用 132
49 物理引擎在倒立擺問題中的應用 140
410 物理引擎在機械臂問題中的應用 144
411 使用其他深度強化學習方法 151
4111 深度強化學習的類型 151
4112 將訓練方法更改為DDQN 153
4113 將訓練方法更改為PER-DQN 153
4114 將訓練方法更改為DDPG 153
4115 將訓練方法更改為A3C 155
第5章 實際環境中的應用 157
51 使用攝像機觀察環境(MNIST) 157
511 攝像機設置 158
512 通過卷積神經網絡對攝像機圖像進行分類 160
513 使用圖像大小為28×28的手寫數字進行訓練 163
52 實際環境中的老鼠學習問題 164
53 使用Raspberry Pi處理老鼠學習問題 168
531 環境構建 169
532 以輸入輸出為重點的簡化 169
533 使用攝像機測量環境 176
54 使用Arduino + PC處理老鼠學習問題 181
541 環境構建 182
542 以輸入輸出為重點的簡化 185
543 使用攝像機測量環境 193
55 使用Raspberry Pi + Arduino處理老鼠學習問題 197
56 結語 201
附錄 202

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 412
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區