GPT Image 2.0 от OpenAI, разработанный под руководством научного сотрудника Чен Боюаня, достиг значительных успехов в отображении китайского текста на изображениях. Модель, выпущенная на прошлой неделе, была высоко оценена за способность точно генерировать китайские иероглифы, управлять компоновкой и создавать логически структурированные инфографики. Это стало отходом от предыдущих моделей, которые испытывали трудности с отображением текста и часто создавали неразборчивые каракули. Чен Боюань, сыгравший ключевую роль в разработке модели, поделился своими наблюдениями на Zhihu, подчеркнув улучшенные возможности модели. Он акцентировал внимание на важности интеграции генеративных моделей с системами визуального понимания и принятия решений, стремясь к всестороннему пониманию изображений и языка. Способность модели создавать сложные визуальные структуры, такие как комиксы и визуальные доказательства, демонстрирует её продвинутый контроль над текстом и пространственное мышление, устанавливая новый стандарт для изображений, созданных ИИ.