À propos de ce cours

198,987 consultations récentes
Certificat partageable
Obtenez un Certificat lorsque vous terminez
100 % en ligne
Commencez dès maintenant et apprenez aux horaires qui vous conviennent.
Dates limites flexibles
Réinitialisez les dates limites selon votre disponibilité.
Niveau intermédiaire

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Approx. 15 heures pour terminer
Anglais

Ce que vous allez apprendre

  • Formalize problems as Markov Decision Processes

  • Understand basic exploration methods and the exploration / exploitation tradeoff

  • Understand value functions, as a general-purpose tool for optimal decision-making

  • Know how to implement dynamic programming as an efficient solution approach to an industrial control problem

Compétences que vous acquerrez

Artificial Intelligence (AI)Machine LearningReinforcement LearningFunction ApproximationIntelligent Systems
Certificat partageable
Obtenez un Certificat lorsque vous terminez
100 % en ligne
Commencez dès maintenant et apprenez aux horaires qui vous conviennent.
Dates limites flexibles
Réinitialisez les dates limites selon votre disponibilité.
Niveau intermédiaire

Probabilities & Expectations, basic linear algebra, basic calculus, Python 3.0 (at least 1 year), implementing algorithms from pseudocode.

Approx. 15 heures pour terminer
Anglais

Offert par

Placeholder

Université de l'Alberta

Placeholder

Alberta Machine Intelligence Institute

Programme du cours : ce que vous apprendrez dans ce cours

Évaluation du contenuThumbs Up93%(9,740 notes)Info
Semaine
1

Semaine 1

1 heure pour terminer

Welcome to the Course!

1 heure pour terminer
4 vidéos (Total 20 min), 2 lectures
4 vidéos
Course Introduction5 min
Meet your instructors!8 min
Your Specialization Roadmap3 min
2 lectures
Reinforcement Learning Textbook10 min
Read Me: Pre-requisites and Learning Objectives10 min
4 heures pour terminer

An Introduction to Sequential Decision-Making

4 heures pour terminer
8 vidéos (Total 46 min), 3 lectures, 2 quiz
8 vidéos
Learning Action Values4 min
Estimating Action Values Incrementally5 min
What is the trade-off?7 min
Optimistic Initial Values6 min
Upper-Confidence Bound (UCB) Action Selection5 min
Jonathan Langford: Contextual Bandits for Real World Reinforcement Learning8 min
Week 1 Summary3 min
3 lectures
Module 1 Learning Objectives10 min
Weekly Reading30 min
Chapter Summary30 min
1 exercice pour s'entraîner
Sequential Decision-Making45 min
Semaine
2

Semaine 2

3 heures pour terminer

Markov Decision Processes

3 heures pour terminer
7 vidéos (Total 36 min), 2 lectures, 2 quiz
7 vidéos
Examples of MDPs4 min
The Goal of Reinforcement Learning3 min
Michael Littman: The Reward Hypothesis12 min
Continuing Tasks5 min
Examples of Episodic and Continuing Tasks3 min
Week 2 Summary1 min
2 lectures
Module 2 Learning Objectives10 min
Weekly Reading30 min
1 exercice pour s'entraîner
MDPs45 min
Semaine
3

Semaine 3

3 heures pour terminer

Value Functions & Bellman Equations

3 heures pour terminer
9 vidéos (Total 56 min), 3 lectures, 2 quiz
9 vidéos
Value Functions6 min
Rich Sutton and Andy Barto: A brief History of RL7 min
Bellman Equation Derivation6 min
Why Bellman Equations?5 min
Optimal Policies7 min
Optimal Value Functions5 min
Using Optimal Value Functions to Get Optimal Policies8 min
Week 3 Summary4 min
3 lectures
Module 3 Learning Objectives10 min
Weekly Reading30 min
Chapter Summary13 min
2 exercices pour s'entraîner
[Practice] Value Functions and Bellman Equations45 min
Value Functions and Bellman Equations45 min
Semaine
4

Semaine 4

4 heures pour terminer

Dynamic Programming

4 heures pour terminer
10 vidéos (Total 72 min), 3 lectures, 2 quiz
10 vidéos
Iterative Policy Evaluation8 min
Policy Improvement4 min
Policy Iteration8 min
Flexibility of the Policy Iteration Framework4 min
Efficiency of Dynamic Programming5 min
Warren Powell: Approximate Dynamic Programming for Fleet Management (Short)7 min
Warren Powell: Approximate Dynamic Programming for Fleet Management (Long)21 min
Week 4 Summary2 min
Congratulations!3 min
3 lectures
Module 4 Learning Objectives10 min
Weekly Reading30 min
Chapter Summary30 min
1 exercice pour s'entraîner
Dynamic Programming45 min

Avis

Meilleurs avis pour FUNDAMENTALS OF REINFORCEMENT LEARNING

Voir tous les avis

À propos du Spécialisation Apprentissage par renforcement

Apprentissage par renforcement

Foire Aux Questions

D'autres questions ? Visitez le Centre d'Aide pour les Etudiants.