評論

滿額折

異策略安全約束強化學習（簡體書）

ISBN13：9787118137071
出版社：國防工業出版社
作者：楊奇松; 常燕; 武健; 李邦傑; 王順宏; 趙久奮
出版日：2025/07/01
裝訂／頁數：平裝／117頁
規格：24cm*17cm (高/寬)
關鍵字：異策略安全約束強化學習（簡體書）、策略、安全、約束、強化、化學、學習、簡體、國防工業出版社、楊奇松、常燕、武健、李邦傑、王順宏、趙久奮、簡體書、工業技術、自動化技術、計算技術、自動推理、機器學習、

中國圖書館分類

：

自動推理、機器學習

人民幣定價：88 元

定價

：NT$ 528 元

優惠價

： 87 折 459 元

領券後再享88折起

領

海外經銷商無庫存，到貨日平均30天至45天

下單可得紅利積點：13 點

商品簡介

在現實世界的強化學習應用中，安全性是一個至關重要的考量。本書深入探討了如何在強化學習框架內實現安全風險控制和訓練過程的安全性。首先，介紹Worst-Case Soft Actor Critic(WCSAC)算法，該算法通過分析累積安全成本的分佈，引入條件風險值作為安全約束，並自適應實現獎勵與安全之間的平衡。其次，介紹兩種估計安全成本分佈的方法：高斯近似法和分位數回歸算法，並通過仿真實驗展示它們在風險控制中的效果。再次，進一步地針對目標獎勵未知的情況，介紹Constrained Entropy Maximization(CEM)算法，旨在學習一個在安全前提下能夠均勻訪問所有狀態的探索策略。CEM算法利用無模型的熵估計器，並採用置信域算法在安全前提下最大化狀態密度函數的熵。最後，為了實現安全策略的快速遷移學習，介紹Safe Guide(SaGui)框架，該框架在目標策略成熟前，通過正則化和逐漸消除安全探索策略的影響，可促進對目標任務的快速學習。本書的研究不僅為強化學習在現實世界的應用提供了新的視角和方法，也為未來在累積安全成本分佈估計和訓練過程安全方面的研究奠定了基礎。本書適合從事強化學習、人工智能安全、機器人控制等領域的研究人員、工程師和高校師生，尤其對於關注如何在複雜環境中實現安全決策和策略優化的讀者具有重要參考價值。

主題書展

更多書展

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

熱搜：

兒童節書展2折起

乩身系列書展

參拜張愛玲

成何體統影劇小說

《逐玉》電視劇原著小說

台語文學書展

赤腳跑步

一看就懂50%西洋名畫新書講座

異策略安全約束強化學習（簡體書）

商品資訊

ISBN13：9787118137071

出版社：國防工業出版社

作者：楊奇松; 常燕; 武健; 李邦傑; 王順宏; 趙久奮

出版日：2025/07/01

裝訂／頁數：平裝／117頁

規格：24cm*17cm (高/寬)

中國圖書館分類

自動推理、機器學習

商品簡介

主題書展

三民月月讀書金

簡體每月選書

匯讀中外曬書展

簡體熱門影劇書展

大人的必修課

兒童節中英文書展

靠死亡遊戲混飯吃系列書展

易博士全書系書展

金繪獎書展

香港聯展

購物須知

熱搜：

異策略安全約束強化學習 （簡體書）

商品資訊

ISBN13：9787118137071

出版社：國防工業出版社

作者：楊奇松; 常燕; 武健; 李邦傑; 王順宏; 趙久奮

出版日：2025/07/01

裝訂／頁數：平裝／117頁

規格：24cm*17cm (高/寬)

商品簡介

主題書展

三民月月讀書金

簡體每月選書

匯讀中外曬書展

簡體熱門影劇書展

大人的必修課

兒童節中英文書展

靠死亡遊戲混飯吃系列書展

易博士全書系書展

金繪獎書展

香港聯展

購物須知

異策略安全約束強化學習（簡體書）