L’estimation des récompenses futures est cruciale en apprentissage par renforcement (RL) pour prévoir les récompenses cumulées qu’un agent pourrait recevoir, généralement via les fonctions de Q-value ou de state-value. Toutefois, ces sorties scalaires manquent de précision quant au moment ou à la nature spécifique des récompenses attendues. Cette limitation est notable dans les applications où la collaboration humaine et l’explicabilité sont essentielles. Par exemple, dans une situation où un drone doit choisir entre deux chemins avec des récompenses différentes, les Q-values seules ne révèlent pas la nature de ces récompenses, ce qui est vital pour comprendre le processus décisionnel de l’agent.

Des chercheurs de l’Université de Southampton et du Kings College London ont présenté la Décomposition Temporelle des Récompenses (TRD) pour améliorer la transparence en RL. TRD modifie l’estimateur de récompenses futures de l’agent pour prédire les N prochaines récompenses attendues, révélant ainsi le moment et la nature des récompenses anticipées.

Cette approche permet une interprétation plus fine des décisions de l’agent, en expliquant la valeur et la synchronisation des récompenses attendues ainsi que l’influence des diverses actions.

La TRD peut être intégrée dans les modèles RL existants, comme les agents DQN, avec un impact minimal sur la performance, offrant des aperçus précieux sur le comportement et la prise de décision de l’agent dans des environnements complexes.

L’étude aborde les méthodes existantes pour expliquer la prise de décision des agents RL basée sur les récompenses. Les travaux précédents ont exploré la décomposition des Q-values en composants de récompense ou en états futurs. Cependant, ces approches ne traitent pas du timing des récompenses et peuvent ne pas s’étendre à des environnements complexes.

Les alternatives comme le reward-shaping ou les cartes de saillance offrent des explications mais nécessitent des modifications de l’environnement ou se concentrent sur des régions visuelles plutôt que sur des récompenses spécifiques. TRD introduit une approche en décomposant les Q-values au fil du temps, permettant ainsi de nouvelles techniques d’explication.

L’étude introduit des concepts essentiels pour comprendre le cadre de TRD, en commençant par les Processus Décisionnels de Markov (MDP), une fondation de l’apprentissage par renforcement modélisant les environnements avec états, actions, récompenses et transitions. Elle discute ensuite du Deep Q-learning qui utilise des réseaux de neurones pour approximer les Q-values dans des environnements complexes. Le QDagger est introduit pour réduire le temps d’entraînement en distillant les connaissances d’un agent enseignant. Enfin, GradCAM est expliqué comme un outil pour visualiser quelles fonctionnalités influencent les décisions des réseaux neuronaux, fournissant une interprétabilité pour les sorties des modèles.

L’étude présente trois méthodes pour expliquer les récompenses futures et la prise de décision des agents dans les environnements de RL. Premièrement, elle décrit comment TRD prédit quand et quelles récompenses un agent attend, aidant à comprendre le comportement de l’agent dans des contextes complexes comme les jeux Atari. Deuxièmement, elle utilise GradCAM pour visualiser quelles caractéristiques d’une observation influencent les prédictions de récompenses à court versus long terme. Enfin, elle emploie des explications contrastives pour comparer l’impact de différentes actions sur les récompenses futures, mettant en lumière comment les récompenses immédiates versus différées affectent la prise de décision.

En conclusion, TRD améliore la compréhension des agents RL en fournissant des aperçus détaillés sur les récompenses futures. TRD peut être intégré dans des agents Atari pré-entraînés avec une perte de performance minimale. Il offre trois outils explicatifs clés : la prédiction des récompenses futures et la confiance de l’agent en celles-ci, l’identification de l’évolution de l’importance des caractéristiques avec le timing des récompenses, et la comparaison des effets des différentes actions sur les récompenses futures. TRD dévoile des détails plus granulaires sur le comportement de l’agent, tels que le timing et la confiance des récompenses, et peut être étendu avec des approches de décomposition supplémentaires ou des distributions de probabilité pour des recherches futures.