Udemy線上課程 強化學習——原理與實例精講 建立者:三節課 sanjieke 影音教學 中文發音 中文版(DVD版)
強化學習是一種學習如何從狀態映射到行為以使得獲取的獎勵最大的學習機制。
這樣的一箇agent需要不斷地在環境中進行實驗,通過環境給予的反饋(獎勵)來不斷優化狀態——行為的對應關係。
因此,反覆實驗(trial and error)和延遲獎勵(delayed reward)是強化學習最重要的兩個特徵。
本套強化學習課程主要包括經典算法原理講解與案例實戰兩大部分。
通俗講解當下主流強化學習算法思想,結合實例解讀算法整理應用流程並結合案例展開代碼實戰。
整體風格通俗易懂,適合準備入門強化學習並進階提升的同學們。
01 - 課程導讀
001 課程簡介.html
002 講師介紹.html
003 課程大綱.html
02 - 強化學習簡介及其應用
001 強化學習簡介.mp4
002 應用領域與工作流程.mp4
003 計算機眼中的狀態與行為.mp4
03 - PPO算法與公式推導
001 PPO算法簡介.mp4
002 任務概述.mp4
003 目標分析公式推導.mp4
004 baseline方法.mp4
005 On Policy與Off Policy策略.mp4
006 Importance Sampling的作用.mp4
007 PPO算法整體思路解析.mp4
04 - PPO實戰:月球登陸器訓練實例
001 Critic的作用與效果.mp4
002 PPO2版本公式解讀.mp4
003 參數與網絡結構定義.mp4
004 得到動作結果.mp4
005 獎勵獲得與計算.mp4
006 參數迭代與更新.mp4
05 - 課程回顧
001 課後寄語.html
|
|