Le 21 avril 2026, OpenAI a dévoilé ChatGPT Images 2.0, une refonte complète de son moteur de génération d’images. Le changement le plus marquant ne se voit pas. Il se passe avant que l’image n’apparaisse : le modèle raisonne sur la composition, planifie la mise en page, vérifie ses propres résultats, et peut même consulter le web en temps réel pour intégrer des informations actualisées dans l’image. OpenAI parle d’un « partenaire de pensée visuel », pas d’un simple outil de rendu.
Il y a deux ans, demander à DALL-E de créer un menu de restaurant mexicain produisait des mots comme « enchuita », « churiros » et « burrto ». Aujourd’hui, ChatGPT Images 2.0 génère un menu utilisable immédiatement en restaurant, avec des prix cohérents et une orthographe parfaite. Le fossé entre les deux générations est spectaculaire.
Ce qui change techniquement
Le modèle (nom API : gpt-image-2) apporte plusieurs avancées mesurables par rapport à la génération précédente.
Résolution : jusqu’à 2K (2 048 pixels), dans des ratios allant de 3:1 à 1:3. Les bannières ultra-larges et les formats stories mobiles sont couverts nativement. C’est un doublement de la résolution par rapport au modèle précédent.
Texte dans l’image : c’est le progrès le plus visible. GPT-Image-2 sait écrire du texte lisible et correctement orthographié directement dans les images, en alphabet latin mais aussi en caractères CJK (chinois, japonais, coréen), hindi, bengali et dans d’autres systèmes d’écriture non latins. Les titres de magazines, les interfaces d’applications, les affiches avec du texte dense sont désormais réalistes.
Multi-images : le modèle peut générer jusqu’à huit images cohérentes en une seule requête. C’est essentiel pour les planches de bandes dessinées, les séries de visuels marketing déclinés en plusieurs formats, ou les storyboards.
Vitesse : OpenAI annonce une exécution deux fois plus rapide que le modèle précédent. Pour les créatifs et les marketeurs qui produisent des variations en série, c’est un gain de productivité direct.
Cutoff de connaissance : décembre 2025. Le modèle peut consulter le web pour enrichir ses productions avec des informations postérieures, mais sa base de connaissances propre s’arrête fin 2025.

Le mode « Thinking » : raisonner avant de dessiner
La vraie rupture conceptuelle est le mode Thinking, réservé aux abonnés payants (Plus, Pro, Team, Enterprise). Avant de générer l’image, le modèle effectue une étape de raisonnement : il analyse la composition demandée, anticipe les incohérences, planifie la disposition des éléments, et corrige les erreurs potentielles. Ce n’est qu’après cette phase de réflexion que le rendu visuel commence.
Le mode Thinking permet aussi au modèle de consulter le web, ce qui ouvre des usages concrets : créer un visuel lié à l’actualité du jour, intégrer des données récentes dans une infographie, ou produire une image qui référence un événement survenu après le cutoff de décembre 2025.
La version standard (« Instant ») reste accessible gratuitement à tous les comptes ChatGPT, sans la couche de raisonnement.
Deux variantes, un même objectif
OpenAI propose donc deux expériences distinctes. La variante Instant, rapide et gratuite, pour les usages courants. La variante Thinking, plus lente mais plus précise, pour les usages professionnels. C’est le même schéma que les modèles de langage (GPT-5.4 standard vs GPT-5.4 avec raisonnement étendu) appliqué à la génération d’images.
L’API gpt-image-2 est disponible pour les développeurs, avec une tarification variable selon la qualité et la résolution. Les agences de création, les éditeurs de CMS, les plateformes de design automatisé ont désormais accès à un moteur d’images de dernière génération via une simple requête API.
La riposte à Claude Design
Le timing de cette annonce n’est pas un hasard. Trois jours avant, Anthropic avait lancé Claude Design, un outil de prototypage et de design par prompt qui avait fait chuter l’action Figma de 7 %. OpenAI répond sur un terrain adjacent mais distinct.
Claude Design génère des prototypes d’applications, des maquettes interactives, des présentations. C’est un outil de design fonctionnel. ChatGPT Images 2.0 génère des images, des visuels, du matériel marketing. C’est un outil de création visuelle.
Les deux convergent vers le même objectif : permettre à n’importe qui de produire du matériel visuel professionnel sans compétences spécialisées. Un fondateur de startup qui a besoin d’un pitch deck peut utiliser Claude Design pour la structure et ChatGPT Images 2.0 pour les visuels. Un marketeur peut créer une campagne complète sans ouvrir Photoshop, Figma ou Canva.
La philosophie diffère. Anthropic mise sur le design d’interface (UI/UX, prototypes, maquettes). OpenAI mise sur la création d’images polyvalente (marketing, éditorial, illustration, diagrammes). Google, avec Imagen et les visualisations 3D de Gemini, occupe un troisième angle. La guerre du visuel IA est lancée sur trois fronts simultanés.
Ce qu’OpenAI ne dit pas
OpenAI a refusé de préciser quel type de modèle alimente ChatGPT Images 2.0. S’agit-il d’un modèle de diffusion classique amélioré, d’un modèle autorégressif, ou d’une architecture hybride ? L’entreprise n’a pas répondu lors du briefing presse. Cette opacité technique est inhabituelle dans un domaine où les concurrents (Midjourney, Stability AI, Google) documentent leur architecture.
La question du copyright reste aussi en suspens. Les images générées par le modèle sont-elles utilisables commercialement sans restriction ? Sur quelles données le modèle a-t-il été entraîné ? OpenAI n’a pas fourni de détails sur les datasets d’entraînement, un sujet brûlant alors que des procès pour violation de copyright sont en cours contre plusieurs générateurs d’images IA.
Enfin, le modèle reconnaît lui-même des limites sur les textures très denses et les diagrammes très détaillés. Le mode Thinking améliore la précision, mais ne la rend pas parfaite. Les designers professionnels continueront de retoucher les résultats.
L’image comme langage
La phrase la plus révélatrice du communiqué d’OpenAI : « Les images sont un langage, pas une décoration. Une bonne image fait ce qu’une bonne phrase fait : elle sélectionne, arrange et révèle. Elle peut expliquer un mécanisme, créer une ambiance, tester une idée ou construire un argument. »
C’est un changement de paradigme dans la manière dont OpenAI pense la génération d’images. DALL-E était un jouet créatif. ChatGPT Images 2.0 est un outil de communication. La différence, c’est que les jouets ne menacent personne. Les outils de communication menacent les photographes, les illustrateurs, les graphistes, les directeurs artistiques, et les agences de création qui facturent des milliers d’euros pour des visuels que cette IA produit en quelques secondes.
Avec Claude Design qui attaque Figma et ChatGPT Images 2.0 qui attaque Photoshop/Canva, la semaine du 18 au 22 avril 2026 restera comme celle où l’IA a déclaré la guerre au design visuel. Les deux fronts en même temps. Les créatifs sont prévenus.

Je suis Ethan, journaliste spécialisé en intelligence artificielle et nouvelles technologies. Je couvre l’actualité de l’IA agentique, des grands modèles de langage et des outils qui transforment nos usages numériques. Mon objectif : rendre accessibles les avancées technologiques les plus complexes, avec rigueur et sans jargon inutile.