軟體王

xyz

會員登錄
您現在的位置:網站首頁 >> 補習班分類 >> 2024年知名線上課程教學 >> 碟片詳情
商品編號:
DUE3306
商品名稱:
Udemy線上課程 強化學習——原理與實例精講 建立者:三節課 sanjieke 影音教學 中文發音 中文版(DVD版)
語系版本:
中文發音中文版
運行平台:
官方原版畫質MP4檔,沒有任何平台限制,終身使用
官方網站:
https://xyzcd.ai
更新日期:
2024-04-10
碟片數量:
1片
銷售價格:
150
瀏覽次數:
1981

轉載TXT文檔】  
您可能感興趣:
Udemy線上課程 強化學習——原理與實例精講 建立者:三節課 sanjieke 影音教學 中文發音 中文版(DVD版)

Udemy線上課程 強化學習——原理與實例精講 建立者:三節課 sanjieke 影音教學 中文發音 中文版(DVD版)

內容說明:
強化學習是一種學習如何從狀態映射到行為以使得獲取的獎勵最大的學習機制。
這樣的一箇agent需要不斷地在環境中進行實驗,通過環境給予的反饋(獎勵)來不斷優化狀態——行為的對應關係。
因此,反覆實驗(trial and error)和延遲獎勵(delayed reward)是強化學習最重要的兩個特徵。
本套強化學習課程主要包括經典算法原理講解與案例實戰兩大部分。
通俗講解當下主流強化學習算法思想,結合實例解讀算法整理應用流程並結合案例展開代碼實戰。
整體風格通俗易懂,適合準備入門強化學習並進階提升的同學們。
課程內容:
01 - 課程導讀
001 課程簡介.html
002 講師介紹.html
003 課程大綱.html

02 - 強化學習簡介及其應用
001 強化學習簡介.mp4
002 應用領域與工作流程.mp4
003 計算機眼中的狀態與行為.mp4

03 - PPO算法與公式推導
001 PPO算法簡介.mp4
002 任務概述.mp4
003 目標分析公式推導.mp4
004 baseline方法.mp4
005 On Policy與Off Policy策略.mp4
006 Importance Sampling的作用.mp4
007 PPO算法整體思路解析.mp4

04 - PPO實戰:月球登陸器訓練實例
001 Critic的作用與效果.mp4
002 PPO2版本公式解讀.mp4
003 參數與網絡結構定義.mp4
004 得到動作結果.mp4
005 獎勵獲得與計算.mp4
006 參數迭代與更新.mp4

05 - 課程回顧
001 課後寄語.html


相關商品:
  • Udemy線上課程 小紅書運營實操指南 建立者:三節課 sanjieke 影音教學 中文發音 中文版(DVD版)
  • Udemy線上課程 軟件系統架構設計與技術管理 建立者:三節課 sanjieke 影音教學 中文發音 中文版(DVD版)
  • Udemy線上課程 SEM實戰:高效精準營銷獲客廣告 建立者:三節課 sanjieke 影音教學 中文發音 中文版(DVD版)
  • Udemy線上課程 情緒賦能領導力:善用情緒的力量,打造高績效團隊 建立者:三節課 sanjieke 影音教學 中文發音 中文版(DVD版)
  • Udemy線上課程 KVP教你輕鬆學會WPS表格 建立者:三節課 sanjieke 影音教學 中文發音 中文版(DVD版)
  • 購物清單