//cs-a.ecimg.tw/items/DJAA2VA900B74VX/000001_1616039400.jpg;
商品編號:DJAA2V-A900B74VX

深度強化式學習

$790
$1,000
  • P幣

    全盈+PAY單筆消費滿1200回饋80P幣(每帳號限乙次,限量5000名)

  • 登記送

    【7-11】單筆滿$350純取貨/取貨付款訂單登記送韓風拌拌炸雞兌換券乙張(限量)

  • 登記送

    【第四波】書店/閱讀器/寵物指定品單筆滿$1,500登記送100P幣(使用效期30/限量)

付款方式
出貨
  • PChome 倉庫出貨,24小時到貨
配送
宅配滿$490免運,超取滿$350免運
  • 宅配到府(本島/低溫)
    滿$699免運
  • 宅配到府(本島/常溫)
    滿$490免運
  • 超商取貨(常溫)
    滿$350免運
  • 超商取貨(低溫)
    滿$699免運
  • i郵箱(常溫)
    滿$290免運
商品詳情
作者:
ISBN:
9789863126522
出版社:
出版日期:
2021/04/02
  • 內文簡介

  • <內容簡介>

    深度強化式學習 (Deep Reinforcement Learning, DRL),就是將深度學習與強化式學習結合的技術。要讓 AI 應用落地,DRL 是必不可缺的技術。近期由兩位劍橋大學博士所帶領的 Wayve 團隊就利用了 DRL 技術,開發出可以自行從新環境中學習的自動駕駛技術,取代以往完全仰賴感測器的做法。除此之外,工廠內的自動化機器人, 或是打敗世界棋王的 AlphaGo 等,背後運作的演算法也都與 DRL 息息相關。

    然而 DRL 的演算法五花八門,讓人看了眼花繚亂。事實上,它們都是為了應付各式各樣的任務而發展出來的改良版本,其核心概念的差異不大,都是立足於 DRL 最基本的 DQN (Deep Q-Network) 之上。因此本書會花費較多的篇幅,一步步帶您把 DQN 的架構完全摸透,並時時提點各個技術細節的重點,讓您可以因應不同的任務或問題,加入適當的技術或技巧來克服,再進一步實作出各種進階的演算法。

    本書一共分成兩篇:基礎篇及進階篇。在基礎篇中,讀者將學習如何從無到有,建構出自己的第一個RL演算法,並用該演算法來解決多臂拉霸機問題。接著,讀者會認識RL中較為經典的演算法,如DQN、策略梯度法、A2C等。同時,各章節皆搭配數個專案,確保讀者可以在學習理論的過程中,培養實作出演算法的能力,不再只是紙上談兵。

    在進階篇中,作者將會介紹較為新穎,也較為複雜的RL演算法。基本上,這些演算法都是以DQN為出發點,再加上特殊的技巧,便能處理現實中的難題。舉個例子,利用平均場DQN,學者們成功模擬出了電子的自旋狀況,進而解決了RL中的多代理人問題。同時,讀者們還將學到如何將attention機制與DQN做結合,進而實作出關聯性DQN(relational DQN),提高演算法的可解釋性。

    本書提供了完整的學習架構,循序漸進地介紹各種演算法,包括:
    ● Deep Q-Network (DQN)
    ● 策略梯度法(Policy gradient methods)
    ● 優勢值演員-評論家(Advantage Actor-Critic, A2C)
    ● 分散式優勢值演員-評論家(Distributional Advantage Actor-Critic, DA2C)
    ● 進化演算法(Evolutionary algorithm)
    ● 分散式DQN(Distributional DQN)
    ● 鄰近Q-Learning(Neighborhood Q-Learning)
    ● 平均場Q-Learning(Mean field Q-Learning)
    ● 關聯性DQN(Relational DQN)

    除了 RL 相關演算法之外,書中也介紹了近期應用 RL 而發展出來的熱門模型,相信可以提升讀者的硬實力,其中包括:
    ● 圖神經網路(Graph Neural Network, GNN)
    ● Transformer模型
    ● Attention模型(Attention model)

    總的來說,本書是最全面、最白話的強化式學習演算法實戰解析。只要您有基本的深度學習知識,並且想要認識強化式學習領域,那麼您就是本書在尋找的合適讀者!


    ★本書特色:

    ●囊括各種強化式學習的基礎及進階演算法,學習架構完整
    ●適當地補充數學及統計基礎,必要知識直接回顧,不用東翻西找其他資源
    ●重點整理深度強化式學習的基本架構,打好基礎、再先進的改良模型也看得懂
    ●以日常案例來實踐 DRL,理解起來事半功倍
    ●利用Python+PyTorch實作各章專案,不會只是紙上談兵
    ●所有程式皆已整理成Colab筆記本,一鍵即可檢驗結果
    ●本書由施威銘研究室監修,內容易讀易懂,並加入大量「編註」與「小編補充」以幫助理解及補充必要知識。


    ★目錄:

    第一篇:基礎篇
    第1章:強化式學習的基本觀念
    1.1 深度強化式學習中的『深度』
    12 強化式學習
    1.3 動態規劃 vs. 蒙地卡羅法
    1.4 強化式學習架構
    1.5 強化式學習有什麼應用?
    1.6 為什麼要使用『深度』強化式學習?
    1.7 有用的說明工具 – 線圖(string diagram)
    1.8 未來各章的內容安排

    第2章:模型化強化式學習問題:馬可夫決策過程
    2.1 多臂拉霸機問題
    2.2 利用拉霸機問題的演算法來優化廣告推送策略
    2.3 使用PyTorch建構神經網路
    2.4 解決廣告推送問題
    2.5 馬可夫性質與MDP(馬可夫決策過程)
    2.6 策略與價值函數

    第3章:Deep Q-Network
    3.1 狀態價值函數及動作價值函數
    3.2 利用Q-Learning進行探索
    3.3 避免災難性失憶的發生:經驗回放
    3.4 使用目標網路來提升學習穩定性
    3.5 回顧

    第4章:利用『策略梯度法』選擇最佳策略
    4.1 利用神經網路實現策略函數的功能
    4.2 策略梯度演算法:強化高價值動作
    4.3 使用OpenAI Gym
    4.4 REINFORCE演算法

    第5章:演員-評論家模型與分散式訓練
    5.1 結合『價值函數』與『策略函數』
    5.2 分散式訓練
    5.3 分散式優勢演員-評論家模型
    5.4 N步演員-評論家

    第二篇:進階篇
    第6章:進化演算法
    6.1 梯度下降演算法的缺點
    6.2 利用進化策略實現強化式學習
    6.3 用基因演算法來玩Cartpole
    6.4 進化演算法的好處與壞處
    6.5 進化演算法是可『調整規模』的

    第7章:分散式DQN
    7.1 期望值Q-Learning的不足
    7.2 機率與統計學
    7.3 Bellman方程式
    7.4 分散式Q-Learning
    7.5 比較機率分佈
    7.6 利用Dist-DQN處理模擬資料
    7.7 進行Freeway遊戲

    第8章:培養代理人的好奇心
    8.1 預測編碼器模型
    8.2 反向動態預測
    8.3 設定瑪利歐遊戲
    8.4 處理原始的遊戲狀態資料
    8.5 建立Q網路與策略函數
    8.6 內在好奇心模組(ICM)
    8.7 另一種內在回饋值機制

    第9章:多代理人的環境
    9.1 多個代理人之間的互動
    9.2 鄰近Q-Learning
    9.3 1D Ising模型
    9.4 平均場Q-Learning
    9.5 包含『競爭』與『合作』關係的遊戲

    第10章:具解釋性的模型:attention與關聯性模型
    10.1 圖神經網路
    10.2 以attention為基礎的關聯性推理
    10.3 利用self-attention處理MNIST資料集
    10.4 多端口的attention和關聯性DQN
    10.5 雙重Q-Learning
    10.6 訓練與視覺化結果

    第11章:回顧與學習規劃
    11.1 回顧學習歷程
    11.2 有待探索的深度強化式學習問題
    11.3 結語

    第A章:數學、深度學習及PyTorch之額外知識補充
    A.1 線性代數
    A.2 微積分
    A.3 深度學習
    A.4 PyTorch


    <作者簡介>

    Alex Zai 曾任 Codesmith 的首席技術長(Codesmith 為沉浸式 coding bootcamp,Alex 至今仍在其中擔任技術顧問)、Uber 的程式設計師、以及 Banjo 和 Amazon 的機器學習工程師。他同時也是開源深度學習架構Apache MXNet 的貢獻者之一。Alex Zai 還是一名創立了兩間公司的企業家,其中一間為 Y-combinator 的子公司。

    Brandon Brown 自幼學習程式設計、並在大學時期兼職當軟體工程師,但最後他選擇進入了醫學行業。目前,他仍在醫療科技領域從事軟體工程工作。Brandon 目前是一名醫生,並從事與計算精神醫學(computational psychiatry,該領域即是受 DRL 啟發)有關的研究。
購物須知
寄送時間
全台灣24h到貨,遲到提供100元現金積點。全年無休,週末假日照常出貨。例外說明
送貨方式
透過宅配送達。除網頁另有特別標示外,均為常溫配送。
消費者訂購之商品若經配送兩次無法送達,再經本公司以電話與Email均無法聯繫逾三天者,本公司將取消該筆訂單,並且全額退款。
送貨範圍
限台灣本島與離島地區註,部分離島地區包括連江馬祖、綠島、蘭嶼、琉球鄉…等貨件,將送至到岸船公司碼頭,需請收貨人自行至碼頭取貨。注意!收件地址請勿為郵政信箱。
註:離島地區不配送安裝商品、手機門號商品、超大材商品及四機商品。
售後服務
缺掉頁更換新品
執照證號&登錄字號
本公司食品業者登錄字號A-116606102-00000-0
關於退貨
  • PChome24h購物的消費者,都可以依照消費者保護法的規定,享有商品貨到次日起七天猶豫期的權益。(請留意猶豫期非試用期!!)您所退回的商品必須回復原狀(復原至商品到貨時的原始狀態並且保持完整包裝,包括商品本體、配件、贈品、保證書、原廠包裝及所有附隨文件或資料的完整性)。商品一經拆封/啟用保固,將使商品價值減損,您理解本公司將依法收取回復原狀必要之費用(若無法復原,費用將以商品價值損失計算),請先確認商品正確、外觀可接受再行使用,以免影響您的權利,祝您購物順心。
  • 如果您所購買商品是下列特殊商品,請留意下述退貨注意事項:
    1. 易於腐敗之商品、保存期限較短之商品、客製化商品、報紙、期刊、雜誌,依據消費者保護法之規定,於收受商品後將無法享有七天猶豫期之權益且不得辦理退貨。
    2. 影音商品、電腦軟體或個人衛生用品等一經拆封即無法回復原狀的商品,在您還不確定是否要辦理退貨以前,請勿拆封,一經拆封則依消費者保護法之規定,無法享有七天猶豫期之權益且不得辦理退貨。
    3. 非以有形媒介提供之數位內容或一經提供即為完成之線上服務,一經您事先同意後始提供者,依消費者保護法之規定,您將無法享有七天猶豫期之權益且不得辦理退貨。
    4. 組合商品於辦理退貨時,應將組合銷售商品一同退貨,若有遺失、毀損或缺件,PChome將可能要求您依照損毀程度負擔回復原狀必要之費用。
  • 若您需辦理退貨,請利用顧客中心「查訂單」或「退訂/退款查詢」的「退訂/退貨」功能填寫申請,我們將於接獲申請之次日起1個工作天內檢視您的退貨要求,檢視完畢後將以E-mail回覆通知您,並將委託本公司指定之宅配公司,在5個工作天內透過電話與您連絡前往取回退貨商品。請您保持電話暢通,並備妥原商品及所有包裝及附件,以便於交付予本公司指定之宅配公司取回(宅配公司僅負責收件,退貨商品仍由特約廠商進行驗收),宅配公司取件後會提供簽收單據給您,請注意留存。
  • 退回商品時,請以本公司或特約廠商寄送商品給您時所使用的外包裝(紙箱或包裝袋),原封包裝後交付給前來取件的宅配公司;如果本公司或特約廠商寄送商品給您時所使用的外包裝(紙箱或包裝袋)已經遺失,請您在商品原廠外盒之外,再以其他適當的包裝盒進行包裝,切勿任由宅配單直接粘貼在商品原廠外盒上或書寫文字。
  • 若因您要求退貨或換貨、或因本公司無法接受您全部或部分之訂單、或因契約解除或失其效力,而需為您辦理退款事宜時,您同意本公司得代您處理發票或折讓單等相關法令所要求之單據,以利本公司為您辦理退款。
  • 本公司收到您所提出的申請後,若經確認無誤,將依消費者保護法之相關規定,返還您已支付之對價(含信用卡交易),退款日當天會再發送E-mail通知函給您。