Les modèles de langage de grande taille (LLMs) ont prouvé leur talent impressionnant dans la génération de contenus. Cependant, leur formation, qui repose sur l’apprentissage non supervisé à partir de vastes ensembles de données suivi d’un affinage supervisé, pose des défis significatifs. Le principal problème réside dans la nature des ensembles de données de pré-formation, tel que Common Crawl, qui contiennent souvent des contenus indésirables. En conséquence, les LLMs acquièrent involontairement la capacité de générer un langage offensant et des conseils potentiellement dangereux. Cette capacité pose un risque sérieux pour la sécurité, car ces modèles peuvent produire des réponses cohérentes sans filtrage adéquat des contenus. Le défi pour les chercheurs est de développer des méthodes permettant de maintenir les capacités de génération de langage tout en atténuant efficacement la production de contenus non sûrs ou non éthiques.

Les tentatives actuelles pour surmonter ces préoccupations en matière de sécurité se concentrent principalement sur deux approches : l’affinage de la sécurité et l’implémentation de garde-fous. L’affinage de la sécurité vise à optimiser les modèles pour qu’ils répondent d’une manière alignée avec les valeurs humaines et les considérations de sécurité. Cependant, ces modèles de chat restent vulnérables aux attaques de contournement, qui utilisent diverses stratégies pour contourner les mesures de sécurité, y compris l’utilisation de langues à faibles ressources, la suppression du refus, l’escalade des privilèges et les distractions.

Pour contrecarrer ces vulnérabilités, les chercheurs ont développé des garde-fous pour surveiller les échanges entre les modèles de chat et les utilisateurs. Une approche notable implique l’utilisation de modèles de garde séparés des modèles de chat eux-mêmes. Ces modèles de garde sont conçus pour signaler les contenus nuisibles et constituent un élément crucial des piles de sécurité de l’IA dans les systèmes déployés.

Cependant, les méthodes actuelles rencontrent des défis significatifs. L’utilisation de modèles de garde séparés introduit une surcharge computationnelle substantielle, les rendant impraticables dans des environnements à faibles ressources. De plus, le processus d’apprentissage est inefficace en raison du chevauchement considérable des capacités de compréhension du langage entre les modèles de chat et les modèles de garde, les deux nécessitant d’effectuer respectivement leurs tâches de génération de réponses et de modération de contenu de manière efficace.

Des chercheurs de l’Institut R&D de Samsung ont présenté LoRA-Guard, un système innovant intégrant des modèles de chat et de garde, résolvant les problèmes d’efficacité en matière de sécurité des LLMs. Il utilise un adaptateur à faible rang sur la colonne vertébrale du transformateur du modèle de chat pour détecter les contenus nuisibles. Le système fonctionne en modes doubles : activation des paramètres LoRA pour le garde-fou avec une tête de classification, et désactivation de ces derniers pour les fonctions de chat normales. Cette approche réduit considérablement la surcharge des paramètres de 100 à 1000 fois par rapport aux méthodes précédentes, rendant le déploiement faisable dans des environnements contraints en ressources. LoRA-Guard a été évalué sur divers ensembles de données, y compris des scénarios zéro-shot, et ses poids de modèle ont été publiés pour soutenir d’autres recherches.

L’architecture de LoRA-Guard est conçue pour intégrer efficacement les capacités de garde dans un modèle de chat. Elle utilise la même intégration et le même tokenizer pour les deux modèles, C (chat) et G (garde). L’innovation clé réside dans la carte des caractéristiques : tandis que C utilise la carte des caractéristiques originale f, G emploie f’ avec des adaptateurs LoRA attachés à f. G utilise également une tête de sortie séparée hguard pour la classification dans des catégories de nuisances.

Ce design à double chemin permet une commutation fluide entre les fonctions de chat et de garde. En activant ou désactivant les adaptateurs LoRA et en changeant les têtes de sortie, le système peut exécuter l’une ou l’autre tâche sans dégradation des performances. Le partage de paramètres entre les chemins réduit considérablement la surcharge computationnelle, le modèle de garde ajoutant généralement seulement une fraction (souvent 1/1000ème) des paramètres du modèle original.

LoRA-Guard est formé grâce à un affinage supervisé de f’ et hguard sur des ensembles de données étiquetées, gardant les paramètres du modèle de chat gelés. Cette approche utilise les connaissances existantes du modèle de chat tout en apprenant à détecter efficacement les contenus nuisibles.

LoRA-Guard démontre des performances exceptionnelles sur plusieurs ensembles de données. Sur ToxicChat, il surpasse les baselines en AUPRC tout en utilisant considérablement moins de paramètres – jusqu’à 1500 fois moins que les modèles entièrement affinés. Pour OpenAIModEval, il égale les méthodes alternatives avec 100 fois moins de paramètres. Les évaluations cross-domain révèlent des asymétries intéressantes : les modèles formés sur ToxicChat se généralisent bien à OpenAIModEval, mais l’inverse montre des baisses de performance considérables. Cette asymétrie peut être due à des différences dans les caractéristiques des ensembles de données ou à la présence d’échantillons de contournement dans ToxicChat. Globalement, LoRA-Guard s’avère être une solution efficace et efficiente pour la modération de contenu dans les modèles de langage.