O GPT Image 2.0 da OpenAI, liderado pelo cientista pesquisador Chen Boyuan, fez avanços significativos na renderização de texto chinês dentro de imagens. O modelo, lançado na semana passada, foi elogiado por sua capacidade de gerar caracteres chineses com precisão, lidar com o layout e criar infográficos logicamente estruturados. Isso representa uma ruptura em relação aos modelos anteriores, que tinham dificuldades com a renderização de texto, frequentemente produzindo rabiscos ininteligíveis. Chen Boyuan, que desempenhou um papel fundamental no desenvolvimento do modelo, compartilhou insights no Zhihu, destacando as capacidades aprimoradas do modelo. Ele enfatizou a importância de integrar modelos generativos com compreensão visual e sistemas de decisão, visando uma compreensão abrangente de imagens e linguagem. A capacidade do modelo de gerar estruturas visuais complexas, como quadrinhos e provas visuais, demonstra seu avançado controle de texto e habilidades de raciocínio espacial, estabelecendo um novo padrão para imagens geradas por IA.