Le 5 mai 2025, la startup américaine Subquadratic a annoncé la sortie de SubQ, un nouveau modèle de langage (LLM) reposant sur une architecture d’attention dite « sous-quadratique ». Selon Numerama, cette innovation pourrait réduire significativement les coûts de calcul tout en permettant de traiter des fenêtres de contexte atteignant 12 millions de tokens. Une performance qui, si elle se confirme, marquerait une avancée majeure dans l’évolution des modèles d’intelligence artificielle.
Ce qu'il faut retenir
- SubQ est le premier LLM à utiliser une architecture d’attention parcimonieuse entièrement sous-quadratique, selon Subquadratic.
- Le modèle revendique une fenêtre de contexte pouvant atteindre 12 millions de tokens, contre quelques centaines de milliers pour les meilleurs modèles actuels.
- Subquadratic affirme que SubQ serait jusqu’à 52 fois plus performant que FlashAttention sur des contextes d’un million de tokens, avec jusqu’à 1 000 fois moins d’opérations de calcul dans certains scénarios.
- La communauté scientifique reste prudente en l’absence de benchmarks indépendants et de transparence totale sur les performances réelles.
- SubQ est déjà accessible en accès anticipé via une API et un outil dédié à la programmation, baptisé « SubQ Code ».
Cette annonce intervient alors que les modèles de langage actuels, comme ceux développés par OpenAI, Anthropic ou Google, reposent presque tous sur la même architecture de base : le Transformer. Au cœur de ce mécanisme se trouve l’opération d’« attention », qui permet au modèle de comparer chaque mot avec l’ensemble du texte pour en extraire le sens global. Cependant, cette approche présente un défaut majeur : lorsque la taille du contexte augmente, les coûts de calcul et de mémoire explosent. En effet, dans un Transformer classique, la complexité est dite « quadratique » : doubler la taille du contexte quadruple le nombre d’interactions nécessaires.
Une approche innovante pour contourner les limites des Transformers
C’est précisément ce problème que SubQ cherche à résoudre. Plutôt que de traiter chaque token en interaction avec tous les autres, l’architecture de SubQ utilise une méthode d’attention parcimonieuse : elle ne conserve que les interactions jugées pertinentes. Concrètement, cela signifie que la matrice d’attention n’est plus dense, mais structurée de manière à réduire drastiquement le nombre de comparaisons nécessaires. Le terme « sous-quadratique » renvoie à une complexité qui augmente moins vite que dans un Transformer classique à mesure que le contexte grandit.
Les avantages théoriques sont immédiats : il devient possible de traiter des documents de très grande taille, comme des bases de code complètes, des livres entiers ou de longues conversations, sans que les besoins en puissance de calcul n’explosent. Subquadratic évoque ainsi la possibilité de manipuler des contextes allant jusqu’à 12 millions de tokens, un chiffre bien supérieur aux fenêtres de contexte actuelles, limitées à quelques centaines de milliers de tokens pour les modèles les plus avancés.
Des promesses ambitieuses, mais une réception prudente
Pourtant, l’histoire de l’IA regorge de promesses similaires qui n’ont pas tenu leurs engagements une fois mises à l’épreuve à grande échelle. Plusieurs chercheurs et observateurs soulignent le manque de transparence et de benchmarks indépendants pour valider les performances annoncées par Subquadratic. « L’idée d’une attention plus efficace n’est pas nouvelle, rappelle Numerama. Depuis des années, des variantes dites sparse, linear ou récurrentes sont explorées pour réduire la complexité des Transformers. Mais le défi reste de conserver les performances tout en diminuant les coûts de calcul. »
SubQ n’est pas non plus un modèle ouvert, ce qui limite la possibilité pour la communauté scientifique de le tester et de l’améliorer. Par ailleurs, certaines contraintes théoriques persistent : des opérations comme la recherche d’informations précises dans un contexte gigantesque pourraient rester coûteuses, même avec une attention sous-quadratique. « Réduire fortement cette complexité sans dégrader la qualité du raisonnement ou de la récupération d’information reste un défi majeur », souligne Numerama.
« SubQ apparaît davantage comme une démonstration prometteuse que comme une rupture déjà validée. Reste à voir si l’architecture tiendra ses promesses face aux benchmarks ouverts et aux usages réels à grande échelle. » — Numerama
Un accès anticipé pour les développeurs, mais pas encore de validation large
Malgré ces incertitudes, SubQ est déjà accessible en accès anticipé. Les développeurs peuvent l’utiliser via une API dédiée aux longs contextes, ainsi qu’à travers un outil spécifique à la programmation, « SubQ Code ». Cette mise à disposition précoce permet à Subquadratic de recueillir des retours concrets, tout en limitant les risques liés à une adoption massive prématurée. « Nous visons d’abord les cas d’usage où la gestion de très longs contextes est cruciale, comme l’analyse de code ou le traitement de documents juridiques », explique la startup.
Pour l’instant, SubQ se positionne donc comme une piste sérieuse pour l’avenir des LLM, mais son succès dépendra de plusieurs facteurs : la publication de benchmarks indépendants, la transparence sur les performances réelles, et la capacité à maintenir une qualité de réponse satisfaisante malgré la réduction des coûts de calcul.
Une chose est sûre : l’enjeu est de taille. Les modèles de langage actuels butent sur des limites techniques et économiques qui freinent leur adoption dans des domaines exigeant des contextes ultra-longs. Si SubQ tient ses promesses, il pourrait bien redéfinir les standards de l’industrie, à condition de convaincre au-delà des annonces.