Une équipe de psychologues et de chercheurs de divers instituts européens a étudié les capacités mentales évolutives des modèles de langage (LLMs) comme GPT-4, GPT-3.5 et LLaMA2-70B en les comparant aux performances humaines. La « théorie de l’esprit », qui permet de percevoir les états mentaux des autres et de soi-même, est essentielle dans les interactions sociales. L’objectif de cette étude est de comparer ces capacités entre les LLMs et les humains.
Utilisant une approche expérimentale inspirée de la psychologie, l’étude emploie divers tests de théorie de l’esprit, tels que les tâches de fausse croyance et la compréhension de l’ironie. Chaque modèle de LLM a subi ces tests à plusieurs reprises pour assurer une comparaison robuste avec les humains. GPT-4 excelle en compréhension de l’ironie et des indices subtils mais peine face aux incertitudes sociales. Les modèles GPT-3.5 et LLaMA2-70B montrent une tendance à confirmer des déclarations inappropriées, révélant un manque de différenciation.
En conclusion, bien que les LLMs comme GPT-4 montrent des avancées notables dans certaines tâches, ils échouent dans des scénarios moins clairs, ce qui souligne la nécessité de poursuivre le développement pour qu’ils puissent naviguer plus efficacement dans les interactions sociales humaines.