Google DeepMind đã công khai mã nguồn của dòng mô hình đa phương tiện Gemma 4, hỗ trợ đầu vào văn bản và hình ảnh, với các mô hình nhỏ hơn cũng hỗ trợ âm thanh. Các mô hình này tạo ra đầu ra văn bản và có sẵn dưới dạng đã được huấn luyện trước và biến thể được điều chỉnh theo hướng dẫn. Chúng có cửa sổ ngữ cảnh lên đến 256K token và hỗ trợ hơn 140 ngôn ngữ, được cung cấp trong hai kiến trúc — kiến trúc dày đặc và hỗn hợp chuyên gia (MoE) — với bốn kích thước: E2B, E4B, 26B A4B và 31B.
Các mô hình Gemma 4 tự hào về khả năng suy luận hiệu suất cao, xử lý đa phương tiện mở rộng và tối ưu hóa trên thiết bị. Chúng sử dụng cơ chế chú ý lai với các cặp khóa-giá trị thống nhất và RoPE được mở rộng (p-RoPE) trên các lớp toàn cục. Đáng chú ý, mô hình 26B A4B MoE chỉ kích hoạt 3,8 tỷ tham số trong quá trình suy luận, đạt tốc độ tương đương với mô hình 4 tỷ tham số, nâng cao hiệu quả và hiệu suất.
Google DeepMind Mở Mã Nguồn Bộ Mô Hình Đa Modal Gemma 4
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
