Les journaux fournissent des aperçus cruciaux et représentent souvent les premiers signes de problèmes systémiques, les rendant ainsi essentiels pour la maintenance des programmes et le diagnostic des défaillances. Pour réaliser des tâches automatisées telles que l’identification d’anomalies, le dépannage et l’investigation des causes profondes, ces journaux doivent être efficacement analysés. Cette transformation des messages de journal semi-structurés en modèles structurés est appelée « parsing » des journaux.

Cependant, plusieurs obstacles se présentent avec les technologies actuelles de parsing des journaux, menant fréquemment à des problèmes de performance dus à trois facteurs principaux.

**1. Dépendance aux analyseurs basés sur des heuristiques :** Ces techniques nécessitent des fonctionnalités élaborées manuellement et une compréhension approfondie du domaine concerné. Bien qu’efficaces dans des contextes restreints, elles peinent à s’adapter aux divers formats et structures de journaux des systèmes à grande échelle.

**2. Limitations des analyseurs basés sur les modèles de langage (LLM) :** Bien que les LLMs soient utilisés pour analyser les journaux, ils fonctionnent souvent hors ligne, ce qui limite leur utilité dans les applications en temps réel où une analyse rapide est cruciale.

**3. Difficultés avec les algorithmes de parsing en ligne :** Certains analyseurs sont conçus pour traiter les journaux en temps réel, mais ils rencontrent des problèmes de « log drift », où des modifications mineures dans les journaux augmentent les faux positifs, encombrant le système.

Pour remédier à ces problèmes, le Hierarchical Embeddings-based Log Parser (HELP) a été développé. Ce nouvel analyseur sémantique en ligne combine la puissance des LLMs avec un module d’embedding hiérarchique, optimisant ainsi l’analyse des journaux. Pour lutter contre le « log drift », HELP inclut également un module de rééquilibrage itératif, actualisant les regroupements des journaux pour maintenir la précision.

HELP a montré son efficacité sur 14 ensembles de données publics à grande échelle, surpassant les analyseurs en ligne actuels en termes de précision. Il a également été intégré avec succès dans la plateforme de production d’Iudex, démontrant sa fiabilité et son adaptabilité dans les environnements de haute production.

En résumé, HELP représente une avancée majeure dans la technologie de traitement des journaux, offrant une solution évolutive, fiable et efficace pour le parsing en temps réel des systèmes logiciels modernes.