L’apprentissage par renforcement (RL) est un domaine spécialisé de l’apprentissage machine où les agents sont formés à prendre des décisions en interaction avec leur environnement par le biais de récompenses ou de pénalités. L’un des grands défis du RL est de gérer la complexité des environnements avec de grands espaces d’action discrets. Les méthodes traditionnelles comme le Q-learning sont coûteuses en termes de calcul car elles nécessitent l’évaluation de toutes les actions possibles. Les chercheurs de KAUST et de l’Université Purdue ont introduit des méthodes innovantes stochastiques basées sur la valeur, comme le Stochastic Q-learning, StochDQN, et StochDDQN, pour réduire cette charge computationnelle. Ces méthodes utilisent des techniques de maximisation stochastique, considérant seulement un sous-ensemble d’actions possibles à chaque itération. Par exemple, dans l’environnement FrozenLake-v1, le Stochastic Q-learning a atteint des récompenses optimales en 50% moins d’étapes que le Q-learning traditionnel. Ces innovations montrent une amélioration significative de la performance et de l’efficacité du RL dans des applications réelles.