Ces dernières années, la vision par ordinateur a réalisé des progrès significatifs en utilisant des architectures de réseaux neuronaux avancées pour aborder des tâches complexes comme la classification d’images, la détection d’objets et la segmentation sémantique. Des modèles comme les Transformers et les Réseaux Neurones Convolutionnels (CNN) sont devenus des outils fondamentaux, améliorant considérablement la performance de la reconnaissance visuelle. Ces avancées ont ouvert la voie à des systèmes plus efficaces et précis dans diverses applications, allant de la conduite autonome à l’imagerie médicale.

Un défi majeur en vision par ordinateur est la complexité quadratique du mécanisme d’attention utilisé dans les transformers, ce qui limite leur efficacité sur de longues séquences. Ce problème est crucial pour les tâches visuelles où la longueur de la séquence, définie par le nombre de patches d’image, peut affecter significativement les ressources computationnelles et le temps de traitement. Résoudre ce problème est essentiel pour améliorer la scalabilité et la performance des modèles visuels, surtout quand il s’agit d’images ou de vidéos haute résolution nécessitant une puissance de calcul importante.

Les recherches existantes incluent divers mélangeurs de jetons à complexité linéaire, tels que la convolution dynamique, Linformer, Longformer, et Performer. De plus, des modèles similaires aux RNN comme RWKV et Mamba ont été développés pour gérer efficacement les longues séquences. Les modèles visuels intégrant Mamba incluent Vision Mamba, VMamba, LocalMamba, et PlainMamba. Ces modèles exploitent des modèles d’espace d’état structurés (SSM) pour améliorer les performances dans les tâches de reconnaissance visuelle, démontrant leur potentiel à relever les défis de complexité posés par les mécanismes d’attention traditionnels dans les transformers.

Des chercheurs de l’Université Nationale de Singapour ont introduit MambaOut, une architecture dérivée du bloc CNN Gated, conçue pour évaluer la nécessité du Mamba pour les tâches visuelles. Contrairement aux modèles Mamba traditionnels, MambaOut enlève le composant SSM, visant à simplifier l’architecture tout en maintenant la performance. Cette approche innovante cherche à déterminer si les complexités introduites par le Mamba sont vraiment nécessaires pour atteindre une haute performance dans les tâches visuelles, en particulier dans la classification d’images sur ImageNet.

L’architecture MambaOut utilise des blocs CNN Gated, intégrant le mélange de jetons via la convolution en profondeur. Cette approche permet à MambaOut de maintenir une complexité computationnelle plus basse que les modèles Mamba traditionnels. En empilant ces blocs, MambaOut construit un modèle hiérarchique, similaire à ResNet, pour gérer efficacement diverses tâches de reconnaissance visuelle. Les chercheurs ont implémenté MambaOut avec les bibliothèques PyTorch et timm, en entraînant les modèles sur TPU v3 avec une taille de lot de 4096 et un taux d’apprentissage initial de 0,004. Le schéma d’entraînement a suivi celui de DeiT sans distillation, incorporant des techniques d’augmentation de données telles que la découpe aléatoire redimensionnée, le flip horizontal, et des techniques de régularisation comme le weight decay et la profondeur stochastique.

Les résultats empiriques indiquent que MambaOut surpasse tous les modèles visuels Mamba dans la classification d’images sur ImageNet. Spécifiquement, MambaOut atteint une précision de 84,1% en classification top-1, dépassant LocalVMamba-S de 0,4%, avec seulement 79% des opérations MACs. Par exemple, le modèle MambaOut-Small réalise une précision de 84,1%, soit 0,4% de plus que LocalVMamba-S, tout en nécessitant seulement 79% des Multiply-Accumulate Operations (MACs). MambaOut est l’épine dorsale de Mask R-CNN, initialisé avec des poids pré-entraînés sur ImageNet pour la détection d’objets et la segmentation d’instances sur COCO. Malgré ses performances supérieures à certains modèles visuels Mamba, il reste en deçà des modèles de pointe comme VMamba et LocalVMamba de respectivement 1,4 APb et 1,1 APm. Cette disparité de performance met en évidence les avantages d’intégrer Mamba dans les tâches visuelles à longues séquences, renforçant l’hypothèse que Mamba est mieux adapté pour ces tâches.