Un mois après avoir déboursé 20 milliards de dollars pour s’emparer des actifs de Groq, Nvidia poursuit sa stratégie de conquête du marché de l’inférence IA. Le fabricant de puces vient d’injecter 150 millions de dollars dans Baseten, une startup spécialisée dans l’infrastructure d’inférence. Ce tour de table de 300 millions de dollars, co-mené par IVP et CapitalG (le fonds d’Alphabet), valorise la jeune entreprise à 5 milliards de dollars, plus du double de sa valorisation de septembre 2025.
L’inférence, nouveau champ de bataille de l’IA
Suivez LJG sur Google
Ajoutez LJG à vos sources préférées pour voir nos articles en priorité dans "À la une".
L’industrie de l’intelligence artificielle traverse une mutation fondamentale. Après des années focalisées sur l’entraînement des modèles, le marché bascule vers l’inférence, cette phase où les modèles génèrent des réponses en temps réel. Selon les analystes, près des deux tiers des dépenses en calcul IA sont désormais consacrés à l’exécution des modèles existants plutôt qu’à la création de nouveaux.
Nvidia domine outrageusement le marché des puces pour l’entraînement avec plus de 90% de parts de marché. Mais l’inférence représente un défi différent : la vitesse et la latence comptent autant que la puissance brute. Des alternatives comme les TPU de Google ou les puces personnalisées d’Amazon et Meta commencent à grignoter ce segment.
L’investissement dans Baseten s’inscrit dans une stratégie plus large. En décembre 2025, Nvidia a conclu un accord de licence de 20 milliards de dollars avec Groq, absorbant la quasi-totalité de ses ingénieurs et sa technologie de puces LPU, réputées pour leur inférence ultra-rapide. Avec Baseten, Nvidia sécurise la couche logicielle qui permet de déployer et d’optimiser les modèles à grande échelle.
Baseten : l’AWS de l’inférence IA
Fondée en 2019 à San Francisco par Tuhin Srivastava et Amir Haghighat, Baseten s’est positionnée comme la plateforme de référence pour déployer des modèles d’IA en production. Son offre permet aux entreprises de faire tourner leurs modèles de manière fiable, rapide et économique, sans gérer l’infrastructure sous-jacente.
La startup revendique des performances jusqu’à 50% supérieures à ses concurrents grâce à des techniques d’optimisation avancées. Elle utilise notamment la fusion d’opérateurs pour combiner des calculs habituellement séparés, et des outils de quantification pour réduire l’empreinte mémoire des réseaux de neurones. Sa plateforme s’adapte automatiquement à la charge en provisionnant des GPU sur dix fournisseurs d’infrastructure différents.
Parmi ses clients figurent Patreon, Writer, Abridge et des centaines d’autres entreprises qui lui confient leurs pipelines de transcription vocale, de génération de texte ou de modèles personnalisés. Selon son PDG, la plateforme alimente déjà des applications utilisées par des centaines de millions de personnes.
Une croissance fulgurante
Les chiffres de Baseten donnent le vertige. Son chiffre d’affaires a été multiplié par dix sur l’exercice fiscal se terminant en janvier 2026, selon Tuhin Srivastava. La startup compte environ 60 employés et plus de 100 clients entreprises, auxquels s’ajoutent des centaines d’équipes plus petites.
L’émergence de DeepSeek en janvier 2025 a accéléré cette dynamique. Le modèle R1 du laboratoire chinois, qui rivalise avec GPT d’OpenAI pour une fraction du coût, a poussé de nombreuses entreprises à repenser leur infrastructure. Baseten promet des économies de 40% ou plus par rapport aux architectures développées en interne.
Avant ce tour de table, Baseten avait déjà levé 285 millions de dollars au total : 40 millions en mars 2024, 75 millions en février 2025, puis 150 millions en septembre 2025 à une valorisation de 2,15 milliards. Les investisseurs historiques incluent Bond, Greylock, Spark Capital et Premji Invest.
La relation préexistante avec Nvidia
L’investissement de Nvidia n’arrive pas de nulle part. Les deux entreprises collaborent déjà étroitement. Baseten prend en charge Nemotron 3 Nano, un modèle développé par Nvidia qui combine précision et efficacité énergétique.
Plus récemment, Baseten s’est associé à Nebius pour proposer de l’inférence text-to-video dans trois régions : États-Unis, Finlande et France. Cette expansion géographique répond à la demande croissante des entreprises européennes qui souhaitent garder leurs données sur le continent.
En décembre 2025, Baseten a également acquis Parsed, une startup spécialisée dans l’apprentissage par renforcement et le fine-tuning de modèles. Cette acquisition permet de boucler la boucle entre le déploiement et l’amélioration continue des modèles grâce aux données de production.
Une stratégie à deux étages
Pour les analystes, l’investissement de Nvidia dans Baseten complète parfaitement l’acquisition de Groq. La première sécurise la couche matérielle avec des puces LPU optimisées pour la latence ultra-faible. La seconde verrouille la couche logicielle avec une plateforme qui simplifie le déploiement à grande échelle.
Cette approche répond à une évolution du marché. Les fournisseurs de GPU en location pure se retrouvent commoditisés, pris dans une course aux marges décroissantes. Les plateformes d’inférence comme Baseten, qui ajoutent une couche de valeur logicielle, conservent un avantage compétitif plus durable.
Nvidia investit également dans ses propres clients, ce qui soulève quelques questions. En finançant les entreprises qui achètent ses puces, le géant crée un écosystème captif. Mais pour Baseten, l’afflux de capitaux permettra d’accélérer la recherche sur les performances, d’étoffer les outils développeurs et d’élargir les équipes commerciales.
L’ère de l’inférence
Comme l’a résumé Tuhin Srivastava dans un communiqué : “Alors que les produits pilotés par des modèles deviennent omniprésents, nous serons l’infrastructure invisible derrière l’économie IA-first.” Une ambition qui rappelle le rôle joué par AWS dans l’économie du cloud.
Les analystes de Wall Street restent massivement optimistes sur Nvidia, avec 39 recommandations à l’achat sur 41 analystes couvrant le titre. L’inférence représente peut-être le prochain goulot d’étranglement de l’IA et la prochaine source de profits. Nvidia, clairement, veut avoir la main sur les deux.
Sources
- Wall Street Journal
- TipRanks
- SiliconANGLE

Je suis Ethan, journaliste spécialisé en intelligence artificielle et nouvelles technologies. Je couvre l’actualité de l’IA agentique, des grands modèles de langage et des outils qui transforment nos usages numériques. Mon objectif : rendre accessibles les avancées technologiques les plus complexes, avec rigueur et sans jargon inutile.