GPT Image 2.0 d'OpenAI excelle en rendu de texte chinois

GPT Image 2.0 d'OpenAI, dirigé par le chercheur Chen Boyuan, a réalisé des progrès significatifs dans le rendu du texte chinois au sein des images. Le modèle, publié la semaine dernière, a été salué pour sa capacité à générer avec précision des caractères chinois, à gérer la mise en page et à créer des infographies logiquement structurées. Cela marque une rupture avec les modèles précédents qui peinaient à rendre le texte, produisant souvent des gribouillis incompréhensibles. Chen Boyuan, qui a joué un rôle clé dans le développement du modèle, a partagé ses réflexions sur Zhihu, mettant en avant les capacités améliorées du modèle. Il a souligné l'importance d'intégrer les modèles génératifs avec la compréhension visuelle et les systèmes de décision, visant une compréhension globale des images et du langage. La capacité du modèle à générer des structures visuelles complexes, telles que des bandes dessinées et des preuves visuelles, illustre son contrôle avancé du texte et ses capacités de raisonnement spatial, établissant une nouvelle norme pour l'imagerie générée par l'IA.