GPT Image 2.0 de OpenAI, liderado por el científico investigador Chen Boyuan, ha logrado avances significativos en la representación de texto chino dentro de imágenes. El modelo, lanzado la semana pasada, ha sido elogiado por su capacidad para generar caracteres chinos con precisión, manejar el diseño y crear infografías estructuradas lógicamente. Esto marca una desviación de los modelos anteriores que tenían dificultades con la representación del texto, produciendo a menudo garabatos ininteligibles. Chen Boyuan, quien desempeñó un papel fundamental en el desarrollo del modelo, compartió sus perspectivas en Zhihu, destacando las capacidades mejoradas del modelo. Enfatizó la importancia de integrar modelos generativos con la comprensión visual y sistemas de decisión, con el objetivo de lograr una comprensión integral de las imágenes y el lenguaje. La capacidad del modelo para generar estructuras visuales complejas, como cómics y pruebas visuales, demuestra su avanzado control del texto y habilidades de razonamiento espacial, estableciendo un nuevo estándar para las imágenes generadas por IA.