GPT Image 2.0 của OpenAI, do nhà khoa học nghiên cứu Chen Boyuan dẫn đầu, đã đạt được những bước tiến đáng kể trong việc hiển thị văn bản tiếng Trung trong hình ảnh. Mô hình này, được phát hành vào tuần trước, đã được khen ngợi vì khả năng tạo chính xác các ký tự tiếng Trung, xử lý bố cục và tạo ra các đồ họa thông tin có cấu trúc logic. Điều này đánh dấu sự khác biệt so với các mô hình trước đây vốn gặp khó khăn trong việc hiển thị văn bản, thường tạo ra những nét nguệch ngoạc không thể hiểu được. Chen Boyuan, người đóng vai trò then chốt trong việc phát triển mô hình, đã chia sẻ những hiểu biết trên Zhihu, nhấn mạnh các khả năng nâng cao của mô hình. Ông nhấn mạnh tầm quan trọng của việc tích hợp các mô hình sinh tạo với khả năng hiểu hình ảnh và hệ thống ra quyết định, nhằm hướng tới sự hiểu biết toàn diện về hình ảnh và ngôn ngữ. Khả năng của mô hình trong việc tạo ra các cấu trúc hình ảnh phức tạp, như truyện tranh và các bằng chứng hình ảnh, thể hiện khả năng kiểm soát văn bản tiên tiến và tư duy không gian, thiết lập một tiêu chuẩn mới cho hình ảnh do AI tạo ra.