formule le probleme de trouver de facon sequentielle la meilleure decision a prendre en fonction de l'etat actuel du systeme et les actions possibles.
Le MDP requiert un environnement completement observable: le systeme connait l'etat ou il est parfaitement!
Il y a une incertitude sur l'effet des actions.
Il est compose de:
- etat initial
- ensemble de transitions entre les etats. la valeur des transitions depend seulement de l'etat courant, pas de l'historique!
- une fonction recompense qui depend d'un etat.
Le but est de trouver quelles actions faire en fonction de l'etat courant, des actions possibles, des probabilites de resultats possibles et des gains possibles.
La decision de choisir l'action a faire en fonction de l'etat actuel est appele la politique.
C'est plutot adapte pour les systemes et environnements stables, c.a.d qui ne changent pas au cours du temps ou des interactions..
voir l'article Wikipedia.
Aucun commentaire:
Enregistrer un commentaire