MiniMax AI Tiết Lộ Tốc Độ Suy Diễn Mô Hình M2.7 Trên Các GPU Khác Nhau

MiniMax AI đã công bố kết quả kiểm tra hiệu suất cho mô hình 230 tỷ tham số của mình, M2.7, trình bày tốc độ suy luận trên các cấu hình phần cứng khác nhau. Sử dụng phiên bản lượng tử hóa UD-IQ3_XXS (80GB) của Unsloth, mô hình đạt tốc độ suy luận 71,52 token mỗi giây (tok/s) với thời gian đến token đầu tiên (TTFT) là 1045 mili giây trên bốn GPU RTX 4090 (96GB). Hiệu suất được cải thiện trên bốn GPU RTX 5090 (128GB), đạt 120,54 tok/s với TTFT là 725 ms. Ngoài ra, một GPU RTX PRO 6000 (96GB) đơn lẻ ghi nhận tốc độ 118,74 tok/s với TTFT là 765 ms. Các bài kiểm tra trên hệ thống DGX cũng đã được thực hiện, mặc dù kết quả cụ thể không được tiết lộ.

Nguồn: Hiển thị bản gốc

Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.