La capacité de convertir des questions en langage naturel en langage de requête structuré (SQL), connue sous le nom de text-to-SQL, facilite l’interaction des non-experts avec les bases de données en utilisant le langage naturel. Des études récentes ont mis en lumière des réalisations significatives dans les grands modèles de langage (LLM) puissants à source fermée comme GPT-4, utilisant des techniques de sollicitation avancées. Cependant, l’adoption de LLM à source fermée suscite des préoccupations liées à la transparence, à la vie privée et aux coûts. Par conséquent, les LLM open-source ont attiré une grande attention en offrant des performances similaires aux modèles fermés dans diverses tâches de traitement du langage naturel.
Des méthodes antérieures comme IRNET utilisaient des modèles basés sur l’attention pour l’apprentissage des représentations pour l’analyse text-to-SQL, tandis que des méthodes plus récentes introduisaient des modèles basés sur le fine-tuning. Dernièrement, les LLM sont au centre de l’attention, avec divers travaux explorant de nouvelles techniques de sollicitation. Par exemple, ACT-SQL génère automatiquement des exemples de chaîne de pensée, DIN-SQL décompose les tâches complexes en sous-tâches, et DAIL-SQL organise des échantillons, améliorant ainsi considérablement les performances dans le domaine du text-to-SQL. Cependant, la plupart de ces méthodes dépendent des LLM à source fermée. Des progrès récents incluent la génération de données synthétiques, comme le cadre Self-Instruct, qui améliore les compétences en suivi des instructions.
Des chercheurs de divers instituts chinois et d’Alibaba Group ont proposé une approche de données synthétiques qui combine des données puissantes générées par de grands modèles avec des données plus faibles générées par des modèles plus petits et moins précis. Cette méthode améliore la généralisation des domaines dans les modèles text-to-SQL et explore le potentiel de supervision par des données faibles à travers l’apprentissage par préférence. En utilisant cette méthodologie, les chercheurs ont affiné les modèles open-source LLM, créant SENSE, un modèle text-to-SQL spécialisé. SENSE a prouvé son efficacité en obtenant des résultats de pointe sur les benchmarks SPIDER et BIRD.
L’efficacité de SENSE est testée sur cinq ensembles de données text-to-SQL populaires. Le benchmark général Spider contient 7 000 paires text-SQL dans son ensemble d’entraînement et 1 034 paires dans son ensemble de développement, couvrant 200 bases de données et 138 domaines. Le benchmark de défi BIRD se concentre sur de grandes bases de données réelles avec 95 grandes bases de données contenant 33,4 Go de données réparties sur 37 champs. Contrairement à Spider, BIRD met en avant le contenu des bases de données réelles nécessitant des connaissances pour raisonner entre les questions en langage naturel et le contenu des bases de données.
Les résultats montrent que les méthodes de sollicitation surpassent le fine-tuning dans les tâches text-to-SQL, en raison des atouts des LLM à source fermée et des demandes personnalisées. Cependant, les LLM open-source posent encore des défis en matière de généralisation. Il est constaté que les grands modèles tendent à produire de meilleurs résultats et que le fine-tuning des instructions améliore les performances, soulignant la valeur de l’utilisation de données synthétiques. De plus, le modèle SENSE créé par les chercheurs établit une nouvelle norme pour le dataset Spider, dépassant le DAILSQL basé sur GPT-4. Notamment, le modèle SENSE-13B montre une amélioration de 21,8% par rapport à CodeLLaMA-13B-Instruct sur l’ensemble de développement et surpasse légèrement DAILSQL.