OpenAIの研究科学者チェン・ボーユアンが率いるGPT Image 2.0は、画像内の中国語テキストのレンダリングにおいて大きな進歩を遂げました。先週リリースされたこのモデルは、中国語の文字を正確に生成し、レイアウトを処理し、論理的に構成されたインフォグラフィックを作成する能力が高く評価されています。これは、テキストのレンダリングに苦労し、しばしば意味不明な落書きを生成していた以前のモデルからの大きな転換点となります。 モデルの開発に重要な役割を果たしたチェン・ボーユアンは、Zhihuで洞察を共有し、モデルの強化された能力を強調しました。彼は、生成モデルを視覚的理解や意思決定システムと統合することの重要性を強調し、画像と言語の包括的な理解を目指しています。このモデルが漫画や視覚的証明のような複雑な視覚構造を生成する能力は、高度なテキスト制御と空間推論能力を示しており、AI生成画像の新たな基準を打ち立てています。