Ethan

Claude Opus 4.6 : Anthropic lance son IA la plus puissante et déclenche la riposte immédiate d’OpenAI

anthropic, chatgpt, claude, Claude code, codex, ia, IA générative, openai

Anthropic vient de frapper un grand coup dans la guerre de l’intelligence artificielle. Avec Claude Opus 4.6, la start-up dévoile un modèle capable de piloter des équipes d’agents autonomes et d’écraser les benchmarks. OpenAI a répondu 20 minutes plus tard avec GPT-5.3-Codex. La bataille pour dominer le marché du développement logiciel n’a jamais été aussi intense.

Vingt minutes. C’est le temps qu’il aura fallu à OpenAI pour répliquer à Anthropic. Le 5 février 2026 à 18h45, la start-up cofondée par Dario Amodei a dévoilé Claude Opus 4.6, présenté comme son modèle d’IA le plus intelligent à ce jour. À 19h05, Sam Altman annonçait sur X la sortie de GPT-5.3-Codex. Les deux entreprises avaient convenu d’un lancement simultané à 19h, mais Anthropic a avancé de 15 minutes — forçant OpenAI à accélérer sa communication.

Ce ballet de communiqués illustre une réalité : le marché des outils de développement IA est devenu le terrain de guerre numéro un entre les géants du secteur.

Ce que Claude Opus 4.6 change concrètement

Suivez LJG sur Google

Ajoutez LJG à vos sources préférées pour voir nos articles en priorité dans "À la une".

Claude Opus 4.6 n’est pas une simple mise à jour incrémentale. Pour la première fois, un modèle de la gamme Opus d’Anthropic bénéficie d’une fenêtre contextuelle d’un million de tokens — soit l’équivalent de 750 000 mots traités en une seule session. Cette capacité permet de charger et d’analyser des bases de code entières, des centaines de documents ou des projets complets sans perte de contexte.

Le modèle peut également générer jusqu’à 128 000 tokens en sortie, contre 32 000 pour la plupart des modèles concurrents. Pour les développeurs et les analystes, cela signifie des rapports, des analyses financières ou des blocs de code beaucoup plus longs en une seule requête.

Mais la vraie révolution se cache dans une fonctionnalité baptisée « agent teams ». Disponible en bêta dans Claude Code, elle permet à plusieurs instances de Claude de travailler en parallèle sur un même projet, chacune prenant en charge une partie spécifique du travail. Concrètement : un agent peut gérer l’architecture d’une application, un autre le front-end, un troisième les tests, et tous se coordonnent sans intervention humaine.

Rakuten, l’un des premiers testeurs, a utilisé cette fonctionnalité pour gérer une organisation de 50 personnes réparties sur six dépôts de code. Résultat : 13 tickets résolus en une seule journée par les agents, avec une supervision humaine minimale.

Des benchmarks qui écrasent la concurrence

Anthropic a accompagné ce lancement de résultats impressionnants sur les principaux benchmarks du secteur.

Sur Terminal-Bench 2.0, qui mesure les capacités de codage agentique en terminal, Claude Opus 4.6 atteint 65,4 %, contre 59,8 % pour Opus 4.5. Sur OSWorld, le benchmark d’utilisation autonome d’ordinateur, le score passe de 66,3 % à 72,7 %. Ces résultats placent Opus 4.6 devant GPT-5.2 d’OpenAI et Gemini 3 Pro de Google DeepMind.

Mais c’est sur ARC-AGI 2 que le bond est le plus spectaculaire. Ce benchmark mesure la capacité d’un modèle à résoudre des problèmes simples pour les humains mais difficiles pour l’IA — une métrique de « raisonnement général ». Opus 4.6 atteint 68,8 %, contre 37,6 % pour Opus 4.5, 54,2 % pour GPT-5.2 et 45,1 % pour Gemini 3 Pro. Presque le double de son prédécesseur.

A lire :  Anthropic mise 100 Md$ sur l'efficience. OpenAI en brûle 1 400 Md$. Qui gagne ?

Sur GDPval-AA, qui évalue les performances sur des tâches professionnelles réelles (finance, juridique, analyse de données), Opus 4.6 devance GPT-5.2 de 144 points Elo et Opus 4.5 de 190 points. En clair : face à GPT-5.2, Opus 4.6 obtient un meilleur résultat environ 70 % du temps sur ces tâches.

Enfin, sur Humanity’s Last Exam, un test de raisonnement multidisciplinaire complexe, Claude Opus 4.6 obtient le meilleur score de tous les modèles frontière. Sur BigLaw Bench, dédié aux tâches juridiques, il atteint 90,2 % — un record pour la gamme Claude.

L’offensive sur le grand public : Excel et PowerPoint

Si Anthropic a bâti sa réputation auprès des développeurs avec Claude Code, l’entreprise vise désormais les cols blancs. Claude Opus 4.6 a été spécifiquement entraîné pour exceller dans la création de présentations PowerPoint et de feuilles de calcul Excel.

Claude in Excel peut désormais gérer des tâches longues et complexes impliquant des données non structurées. Claude in PowerPoint, lancé en preview, est capable de lire les mises en page et les masques de diapositives pour respecter l’identité visuelle d’une entreprise.

Cette stratégie s’articule avec Cowork, la version grand public de Claude Code lancée en janvier 2026. Cowork permet à des profils non techniques — marketing, finance, RH — de confier des tâches à un agent IA qui agit directement sur leur ordinateur : trier des fichiers, créer des rapports, extraire des données de captures d’écran.

L’objectif d’Anthropic est clair : produire des documents, tableurs et présentations qui nécessitent moins d’itérations correctives, augmentant la productivité des équipes sans compétences techniques avancées.

OpenAI réplique en 20 minutes avec GPT-5.3-Codex

La réponse de San Francisco n’a pas tardé. GPT-5.3-Codex est présenté par OpenAI comme son modèle de codage agentique le plus avancé. Il combine les performances de GPT-5.2-Codex avec une vitesse d’exécution accrue de 25 %.

Mais le fait marquant de ce lancement réside ailleurs : GPT-5.3-Codex est le premier modèle d’OpenAI à avoir participé à sa propre création. Les ingénieurs ont utilisé les versions alpha du modèle pour déboguer son entraînement, diagnostiquer les résultats des tests et gérer son déploiement. Le modèle a même identifié des bugs de rendu contextuel et optimisé dynamiquement l’allocation des GPU lors du lancement.

Sam Altman a commenté sur X : « C’était incroyable de voir à quelle vitesse nous avons pu livrer 5.3-Codex en utilisant 5.3-Codex. C’est définitivement un signe de ce qui va suivre. »

Sur SWE-Bench Pro, qui teste l’ingénierie logicielle dans quatre langages de programmation, GPT-5.3-Codex établit un nouveau record. OpenAI revendique également 77,3 % sur Terminal-Bench 2.0, soit 12 points de plus que Claude Opus 4.6 — bien que ce chiffre soit contesté par certains analystes qui soulignent des différences de méthodologie.

Fait notable : GPT-5.3-Codex est déployé avec des restrictions de cybersécurité sans précédent. OpenAI a détecté plus de 500 vulnérabilités zero-day de haute gravité dans du code open source pendant les tests. L’accès API complet est retardé et soumis à un programme d’accès de confiance pour les professionnels de la sécurité.

Une guerre de milliards

Derrière ces annonces se joue une bataille économique colossale. Selon les données du dernier rapport Andreessen Horowitz (a16z), les dépenses moyennes des entreprises en modèles de langage ont atteint 7 millions de dollars en 2025, soit une hausse de 180 % par rapport à 2024. Les projections pour 2026 tablent sur 11,6 millions de dollars par entreprise.

OpenAI reste le leader en termes de part de marché : environ 77 % des entreprises sondées l’utilisent en production en janvier 2026. Mais cette part s’érode, passant de 62 % du portefeuille IA des entreprises en 2024 à 53 % projeté en 2026. Dans le même temps, la part d’Anthropic est passée de quasi-zéro début 2024 à 40 % des entreprises l’utilisant en production début 2026.

A lire :  « Fais-moi un apéro pour quatre à moins de 30 euros » — Carrefour lance ses courses sur ChatGPT, une première en Europe

Un chiffre frappe : 75 % des clients Anthropic utilisent ses modèles les plus puissants en production, contre seulement 46 % pour les clients OpenAI. Cela suggère que les utilisateurs d’Anthropic s’engagent plus profondément dans l’adoption de l’IA pour des tâches critiques.

Claude Code, lancé il y a seulement six mois, génère déjà 1 milliard de dollars de revenus annualisés selon Anthropic. L’entreprise serait en discussions pour une levée de fonds de plus de 20 milliards de dollars à une valorisation d’au moins 350 milliards de dollars, selon Bloomberg.

De son côté, OpenAI a révélé devoir plus de 1 000 milliards de dollars en obligations financières à ses investisseurs — Oracle, Microsoft et Nvidia — qui avancent les coûts de calcul en échange de rendements futurs.

La sécurité au cœur des préoccupations

Anthropic a soumis Claude Opus 4.6 à son protocole de tests de sécurité le plus complet à ce jour. Six nouvelles sondes spécifiques ont été intégrées pour détecter les usages malveillants potentiels en cybersécurité. Le modèle a été évalué sur sa capacité à refuser des requêtes dangereuses et à ne pas accomplir secrètement des actions nuisibles.

Les tests ont également vérifié les comportements de « désalignement » : tromperie, flagornerie, renforcement des délires de l’utilisateur. Anthropic affirme qu’Opus 4.6 présente des taux de comportements problématiques équivalents ou inférieurs à ceux d’Opus 4.5, tout en affichant le taux de refus excessif le plus bas de tous les modèles Claude récents.

Côté OpenAI, le constat est plus préoccupant. L’entreprise reconnaît que GPT-5.3-Codex est son premier modèle à atteindre un seuil de risque cybersécuritaire nécessitant des contrôles renforcés. Sans « preuve définitive » que le modèle peut automatiser complètement des cyberattaques, OpenAI adopte une « approche de précaution » avec une pile de sécurité inédite : entraînement spécifique, surveillance automatisée, programme d’accès de confiance et pipelines de détection des menaces.

Ce qu’il faut retenir

Le 5 février 2026 restera comme un tournant dans la course à l’intelligence artificielle. En moins d’une demi-heure, Anthropic et OpenAI ont chacun dévoilé des modèles qui repoussent les limites de ce que l’IA peut accomplir de manière autonome.

Claude Opus 4.6 mise sur les équipes d’agents, la fenêtre contextuelle géante et l’excellence sur les tâches professionnelles réelles. GPT-5.3-Codex joue la carte de l’auto-amélioration et de la vitesse d’exécution, tout en soulevant des questions inédites sur les risques cyber.

Pour les développeurs et les entreprises, le message est clair : l’ère des assistants IA qui suggèrent du code est terminée. Celle des agents qui construisent des applications entières vient de commencer.


Sources :

  • Anthropic — « Introducing Claude Opus 4.6 » (5 février 2026)
  • VentureBeat — « Anthropic’s Claude Opus 4.6 brings 1M token context and agent teams » (5 février 2026)
  • The New Stack — « Anthropic’s Opus 4.6 is a step change for the enterprise » (5 février 2026)
  • Fortune — « OpenAI’s new model leaps ahead in coding capabilities—but raises unprecedented cybersecurity risks » (5 février 2026)

Je suis Ethan, journaliste spécialisé en intelligence artificielle et nouvelles technologies. Je couvre l’actualité de l’IA agentique, des grands modèles de langage et des outils qui transforment nos usages numériques. Mon objectif : rendre accessibles les avancées technologiques les plus complexes, avec rigueur et sans jargon inutile.