Lorsque nous parlons de recherche dans les systèmes d'intelligence artificielle, l'image dominante est celle de bases de données vectorielles sophistiquées. Ces systèmes convertissent chaque texte en une suite de nombres représentant son sens sémantique. Ils promettent de trouver des informations même quand les mots utilisés diffèrent entre la question et le document. Pourtant, une étude publiée le 14 mai 2026 par Sahil Sen, Akhil Kasturi et leurs collègues, remet cette orthodoxie en cause de manière radicale.
Les chercheurs ont comparé deux approches de recherche dans des boucles d'agents autonomes. D'un côté, la recherche par mots-clés, une technique ancienne et simple que les programmeurs appellent grep. De l'autre, les bases de données vectorielles, la technologie phare derrière la génération augmentée par récupération (RAG). Le résultat est étonnant. Dans la grande majorité des cas testés, la recherche par mots-clés obtient de meilleurs scores que les vecteurs. Ce n'est pas une anomalie technique. C'est une leçon architecturale profonde.
Comment une technologie datant des années soixante-dix peut-elle battre des millions de dollars d'investissements en apprentissage automatique, et pourquoi ce résultat oblige-t-il à repenser la construction des agents IA ?
L'expérience qui remet tout en question
L'étude s'oriente autour d'un phénomène de plus en plus répandu. Les grands modèles de langage ne se contentent plus de produire du texte. Ils deviennent des agents qui appellent des outils, lisent des fichiers, et raisonnent sur de vastes corpus pour accomplir des tâches complexes. Cette architecture s'appelle la recherche augmentée par agents. Elle combine la génération de texte avec la récupération d'informations en temps réel. La majorité des systèmes actuels utilisent des bases de données vectorielles pour cette récupération. L'idée est que la similarité sémantique permet de trouver les passages pertinents même sans correspondance exacte de mots.
Sen et ses collègues ont remarqué un manque dans la littérature scientifique. Personne n'avait comparé de manière systématique les stratégies de récupération et l'architecture des agents. Peu de travaux s'intéressaient à deux dimensions essentielles. Premièrement, la manière dont les résultats de recherche sont présentés au modèle. Deuxièmement, la façon dont les performances évoluent lorsque la recherche doit traiter un texte de plus en plus chargé d'informations sans rapport avec la question. Ces dimensions ne sont pas des détails techniques. Elles déterminent si un agent réussit ou échoue sur une tâche réelle.
Les chercheurs ont construit deux expériences sur une base de données nommée LongMemEval. Cette base contient cent seize questions conçues pour tester la mémoire et la recherche d'informations sur de longues conversations. Les expériences comparent plusieurs harnais d'agents. Un harnais est l'environnement logiciel qui connecte le modèle aux outils. Il détermine comment le modèle formule ses requêtes, comment il reçoit les réponses, et comment il décide de la suite de ses actions. L'étude utilise Chronos, un harnais personnalisé, ainsi que les interfaces en ligne de commande officielles de Claude Code, Codex et Gemini CLI.
Quand grep bat les bases vectorielles
Dans la première expérience, les chercheurs ont comparé deux modes de récupération. Le mode grep recherche les mots exacts ou proches dans les documents. Le mode vectoriel convertit les textes en représentations numériques et cherche les plus proches dans un espace mathématique à haute dimension. Chaque méthode a été testée avec deux styles d'appel d'outils. Dans le style intégré, les résultats de recherche sont placés directement dans le contexte de conversation du modèle. Dans le style basé sur les fichiers, le modèle lit les données depuis des fichiers séparés à l'aide d'un outil dédié.
Les résultats sont homogènes et déroutants. Dans toutes les configurations testées, la recherche par mots-clés surpasse la recherche vectorielle. Chronos avec grep intégré obtient un score supérieur à Chronos avec vecteurs intégrés. La même avance se produit chez les fournisseurs commerciaux. Claude Code, Codex et Gemini CLI performent mieux en mode grep qu'en mode vectoriel sur les questions de LongMemEval. Ce n'est pas une petite différence de quelques points de pourcentage. L'écart est significatif et constant à travers les plateformes.
Le tableau suivant résume les scores obtenus par chaque combinaison dans l'expérience principale.
| Harnais | Mode de recherche | Score approximatif | Observations |
|---|---|---|---|
| Chronos (personnalisé) | Grep intégré | Le plus élevé | Score supérieur à toutes les versions vectorielles |
| Chronos (personnalisé) | Vecteurs intégrés | Moins élevé | Retard constant face au grep |
| Claude Code | Grep | Élevé | Meilleur que le mode vectoriel |
| Claude Code | Vecteurs | Moins élevé | Même corpus, score inférieur |
| Codex | Grep | Élevé | Surligne grep face aux vecteurs |
| Codex | Vecteurs | Moins élevé | Aligné avec les autres fournisseurs |
| Gemini CLI | Grep | Élevé | La même tendance se répète |
| Gemini CLI | Vecteurs | Moins élevé | Aucune exception trouvée |
💡 Le savais-tu ? Grep est un outil de recherche né en 1974 dans le système Unix. Son nom vient de global regular expression print. Il remplit le même rôle depuis cinquante ans : trouver rapidement des lignes de texte qui correspondent à un motif donné. Sa simplicité en fait aussi sa force.
Dans la deuxième expérience, les chercheurs ont testé une situation plus réaliste et plus difficile. Ils ont progressivement ajouté des conversations sans rapport avec la question initiale. Cela simule un environnement réel où un agent accumule un historique long et bruyant. À chaque étape, la question de l'utilisateur est noyée dans un volume croissant de texte inutile. Les résultats montrent que la robustesse face au bruit dépend fortement du harnais utilisé. Ce n'est pas la recherche seule qui détermine la réussite. C'est la manière dont le harnais présente les résultats au modèle et gère le contexte.
Pourquoi le harnais compte plus que l'algorithme
Ces résultats contredisent l'idée reçue selon laquelle plus la technologie de recherche est sophistiquée, meilleurs sont les résultats. Les bases de données vectorielles excellent à trouver des concepts voisins. Elles peuvent identifier qu'un texte sur les véhicules électriques est pertinent pour une question sur les batteries. Mais dans les boucles d'agents, la pertinence sémantique ne suffit pas. Ce qui compte, c'est la récupération exacte des passages qui contiennent la réponse.
La recherche par mots-clés excelle précisément à cette tâche. Elle ne cherche pas à deviner le sens. Elle cherche les mots présents dans la question. Si l'utilisateur demande un détail technique précis, grep rapporte les documents qui contiennent les termes exacts. La recherche vectorielle, en revanche, peut privilégier un passage qui parle d'un sujet voisin. Ce passage n'inclut pas toujours l'information précise recherchée. Les chercheurs appellent ce phénomène une confusion sémantique. Le modèle reçoit un passage qui ressemble à la réponse sans l'être réellement.
Un constat encore plus important émerge de l'expérience. Les scores globaux varient énormément selon le harnais utilisé, même quand les données de conversation restent identiques. Chronos, Claude Code, Codex et Gemini CLI n'obtiennent pas les mêmes résultats sur les mêmes questions. Cela signifie que la conception de l'environnement d'exécution transforme la performance autant que, sinon plus que, le choix de la méthode de recherche. Le harnais détermine comment le modèle lit les résultats, comment il formule ses propres requêtes suivantes, et comment il raisonne sur les informations récupérées.
Le style d'appel d'outils a aussi un impact majeur. Les résultats intégrés directement dans la conversation ont un comportement différent de ceux lus depuis des fichiers externes. Le modèle peut traiter différemment une information qu'il voit dans son propre historique et une information qu'il doit aller chercher activement. Ces détails d'implémentation, souvent négligés dans les discussions publiques, sont des leviers de performance aussi puissants que le choix du modèle de langage lui-même.
Ce que cela change pour la construction des agents IA
Cette étude porte une leçon architecturale claire pour les équipes qui construisent des agents IA. La course à la sophistication algorithmique ne doit pas faire oublier les fondamentaux. Une recherche textuelle rapide et bien calibrée peut surpasser des infrastructures d'apprentissage automatique coûteuses. Le coût de calcul des bases vectorielles est réel. Elles nécessitent des serveurs spécialisés, des processus d'indexation complexes, et des mises à jour régulières. Grep, en comparaison, demande presque rien en ressources et ne nécessite aucune infrastructure d'entraînement.
Les limites de cette étude méritent d'être mentionnées de manière transparente. Premièrement, le corpus de test se limite à cent seize questions issues d'une seule base de référence (LongMemEval). Ce corpus est centré sur la récupération d'informations factuelles dans des conversations. Il ne reflète pas toutes les formes de tâches agentiques. Deuxièmement, les versions testées des outils Claude Code, Codex et Gemini CLI datent du printemps 2026. Ces produits évoluent si vite que leurs performances actuelles peuvent déjà différer. Troisièmement, la recherche par mots-clés a ses propres faiblesses. Elle échoue quand les termes de la question n'apparaissent pas littéralement dans les documents, même si le sens y est présent.
Malgré ces limites, les implications pratiques sont immédiates. Les constructeurs d'agents devraient tester la recherche textuelle simple avant d'investir dans des infrastructures vectorielles complexes. Le choix du harnais mérite une attention égale au choix du modèle. La présentation des résultats de recherche, la gestion de l'historique de conversation, et la logique d'appel d'outils sont des leviers. Ils sont souvent sous-estimés.
En définitive, cette étude rappelle que l'intelligence artificielle ne progresse pas seulement par accumulation de complexité. Elle progresse aussi par une meilleure compréhension de quand utiliser la simplicité. Un chercheur talentueux sait quand une règle de calcul suffit et quand un réseau de neurones est nécessaire. De même, un architecte d'agents devrait savoir quand grep suffit et quand les vecteurs apportent une réelle valeur ajoutée. Le risque actuel est que l'industrie adopte les bases vectorielles par défaut. Ce ne sera pas parce qu'elles sont les meilleures sur chaque tâche. Ce sera parce qu'elles sont les plus médiatisées.
Ainsi, la prochaine fois qu'un vendeur te promettra que sa base de données vectorielle va révolutionner ton agent, pose cette question. Si une recherche par mots-clés datant de 1974 surpasse systématiquement cette technologie sur un test de référence moderne, est-ce la simplicité qui est obsolète, ou notre jugement sur ce qui compte vraiment ? La réponse n'est pas dans l'algorithme. Elle est dans la manière dont nous posons le problème.
Pour Aller Plus Loin (Sources et Lectures)
Sources Originales
- 📄 arXiv (Sen et al., 2026) : Is Grep All You Need? How Agent Harnesses Reshape Agentic Search (en anglais)
- 📄 LongMemEval : Base de référence pour l'évaluation de la mémoire longue dans les agents de conversation (en anglais)
- 📄 TechCrunch : OpenAI says Codex is coming to your phone (contexte agentique, en anglais)
💬 Rejoins la Discussion
Tu as des questions sur cet article ? Des retours d'expérience à partager ?
→ Facebook — nous en parlons en direct avec la communauté.