Le raisonnement sur la fiabilité dans les jeux multijoueurs avec des informations incomplètes présente des défis significatifs. Les joueurs doivent évaluer la fiabilité des autres sur la base d’informations partielles et souvent trompeuses tout en prenant des décisions en temps réel. Les approches traditionnelles, dépendant fortement de modèles pré-entraînés, ont du mal à s’adapter aux environnements dynamiques à cause de leur dépendance aux données spécifiques au domaine et aux récompenses de rétroaction. Ces limitations entraînent un manque d’adaptabilité en temps réel, crucial pour une prise de décision efficace dans des scénarios qui évoluent rapidement. Aborder ces défis est essentiel pour l’avancement de l’application de l’IA dans des environnements complexes, notamment là où l’évaluation de la fiabilité en temps réel est cruciale, comme dans les systèmes autonomes et les jeux stratégiques.

Actuellement, les méthodes de raisonnement sur la fiabilité dans de tels environnements incluent le raisonnement symbolique, le raisonnement bayésien et l’apprentissage par renforcement (RL). Le raisonnement symbolique se concentre sur la cohérence des modèles mais manque de flexibilité dans les contextes dynamiques. Le raisonnement bayésien, bien qu’efficace pour la mise à jour des croyances en fonction des preuves, exige des ressources computationnelles importantes et est sujet à des inexactitudes lorsqu’il s’agit de données limitées ou bruitées. Bien que puissant pour la prise de décision, RL nécessite de vastes quantités de données de formation spécifiques au domaine, ce qui le rend inapproprié pour les applications en temps réel. Ces méthodes sont généralement confrontées à des problèmes de complexité computationnelle, d’efficacité des données limitée et d’incapacité à gérer efficacement les environnements dynamiques en temps réel.

Les chercheurs de l’Université des Sciences et Technologies de l’Information de Nanjing et de l’Université Dianzi de Hangzhou ont introduit le cadre Graph Retrieval Augmented Trustworthiness Reasoning (GRATR), une approche novatrice utilisant la génération augmentée par récupération (RAG) pour améliorer le raisonnement sur la fiabilité. GRATR construit un graphique de fiabilité dynamique qui se met à jour en temps réel, intégrant des informations probantes au fur et à mesure qu’elles deviennent disponibles. Cette méthode adossée à un graphique aborde les limites du traitement des données statiques par les modèles RAG existants, permettant au système de s’adapter à la nature évolutive des interactions et des relations de confiance en temps réel. GRATR améliore le raisonnement en récupérant et intégrant les données de confiance les plus pertinentes à partir du graphique, améliorant la prise de décision et réduisant les hallucinations dans les grands modèles de langage (LLM). Cette approche représente une avancée significative en fournissant une solution plus précise et efficace pour le raisonnement en temps réel sur la fiabilité.

Le cadre GRATR commence par un graphe de preuves dynamique, où les nœuds représentent les joueurs et les arêtes représentent les relations de confiance. Le graphe est continuellement mis à jour à mesure que de nouvelles observations sont faites, avec des listes de preuves attachées aux arêtes et des valeurs de fiabilité attachées aux nœuds. Les composants clés incluent la phase de fusion des preuves, où les preuves sont agrégées et évaluées, et la phase de récupération vers l’avant, où les valeurs de fiabilité sont mises à jour en fonction des chaînes de preuves récupérées. GRATR a été validé à l’aide du jeu multijoueur « Werewolf », avec des expériences comparant ses performances à celles des LLM de base et des LLM augmentés avec Native RAG et Rerank RAG. Le jeu test consistait en 50 itérations avec huit joueurs, comprenant divers rôles tels que loup-garou, villageois et leaders (sorcière, garde et voyant).

GRATR surpasse significativement les méthodes de base en termes de taux de victoire et de précision du raisonnement. Par exemple, GRATR a atteint un taux de victoire total de 76,0 % dans un groupe expérimental, contre 24,0 % pour le LLM de base. De même, le taux de victoire pour le rôle de loup-garou était de 72,4 % avec GRATR, contre 27,6 % pour le LLM de base. GRATR a systématiquement surpassé à la fois Native RAG et Rerank RAG sur divers indicateurs, y compris le taux de victoire total, le taux de victoire des loups-garous et le taux de victoire des leaders. Par exemple, dans une comparaison, GRATR a atteint un taux de victoire total de 83,7 %, et le taux de victoire pour le rôle de loup-garou était de 83,5 %, ce qui est nettement supérieur aux performances des LLM augmentés avec Rerank RAG.

GRATR représente une avancée significative dans le raisonnement sur la fiabilité pour les jeux multijoueurs avec des informations incomplètes. En exploitant une structure de graphe dynamique qui se met à jour en temps réel, GRATR aborde les limites des méthodes existantes, offrant une solution plus précise et efficace pour la prise de décision en temps réel. Les résultats expérimentaux mettent en évidence les performances supérieures de GRATR, en particulier dans l’amélioration des capacités de raisonnement des LLM tout en atténuant des problèmes tels que les hallucinations. Cette contribution est appelée à avoir un impact substantiel sur la recherche en IA, notamment dans les domaines nécessitant une évaluation robuste de la fiabilité en temps réel, tels que les systèmes autonomes et les environnements de jeux stratégiques.