TOP
月月讀書金,登入即領,滿600現折50!!
異策略安全約束強化學習 (簡體書)
滿額折

異策略安全約束強化學習 (簡體書)

商品資訊

人民幣定價:88 元
定價
:NT$ 528 元
優惠價
87459
海外經銷商無庫存,到貨日平均30天至45天
下單可得紅利積點 :13 點
商品簡介

商品簡介

在現實世界的強化學習應用中,安全性是一個至關重要的考量。本書深入探討了如何在強化學習框架內實現安全風險控制和訓練過程的安全性。首先,介紹Worst-Case Soft Actor Critic(WCSAC)算法,該算法通過分析累積安全成本的分佈,引入條件風險值作為安全約束,並自適應實現獎勵與安全之間的平衡。其次,介紹兩種估計安全成本分佈的方法:高斯近似法和分位數回歸算法,並通過仿真實驗展示它們在風險控制中的效果。再次,進一步地針對目標獎勵未知的情況,介紹Constrained Entropy Maximization(CEM)算法,旨在學習一個在安全前提下能夠均勻訪問所有狀態的探索策略。CEM算法利用無模型的熵估計器,並採用置信域算法在安全前提下最大化狀態密度函數的熵。最後,為了實現安全策略的快速遷移學習,介紹Safe Guide(SaGui)框架,該框架在目標策略成熟前,通過正則化和逐漸消除安全探索策略的影響,可促進對目標任務的快速學習。本書的研究不僅為強化學習在現實世界的應用提供了新的視角和方法,也為未來在累積安全成本分佈估計和訓練過程安全方面的研究奠定了基礎。本書適合從事強化學習、人工智能安全、機器人控制等領域的研究人員、工程師和高校師生,尤其對於關注如何在複雜環境中實現安全決策和策略優化的讀者具有重要參考價值。

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 459
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區