terminal

On donne ici une version algorithmique basique de l’apprentissage par renforcement, particulièrement du TD-learning. Cette version a pour but de permettre au lecteur intéressé de faire une rapide implémentation informatique de l’algorithme afin de mieux comprendre son fonctionnement itératif. On se place ici dans le cas le plus simple où on ne cherche pas à améliorer le comportement (ou politique) de l’agent, mais on cherche à évaluer une politique donnée lorsqu’elle est mise en œuvre par un agent dans un environnement donné.

On initialise V(s) aléatoirement, qui est la valeur que l’agent attribuera à chaque état s.

On initialise la politique π à évaluer.
On répète (pour chaque épisode) :

On initialise s
On répète (à chaque pas de temps de l’épisode) :

a ← action donnée par π pour s
L’agent effectue l’action a; on observe la récompense r et l’état suivant s’
V(s) ← V(s) + α [r + γV(s’) – V(s)]
s ← s’

Jusqu’à ce que s soit terminal

via Apprentissage par renforcement — Wikipédia

nightsight.jpg

https://fr.wikipedia.org/wiki/Carotte

 

 

 

Publicités

Laisser un commentaire

Choisissez une méthode de connexion pour poster votre commentaire:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s