Xiaomi đã phát hành ControlFoley, một khung công tác mã nguồn mở được thiết kế để nâng cao việc tạo hiệu ứng âm thanh cho video. Khác với các mô hình lồng tiếng AI truyền thống dựa trên việc suy luận âm thanh từ hình ảnh, ControlFoley cung cấp cho người sáng tạo khả năng kiểm soát chính xác phong cách âm thanh bằng cách tạo ra âm thanh dựa trên nội dung video và chấp nhận mô tả bằng văn bản hoặc âm thanh tham khảo. Điều này cho phép các biến đổi như chuyển một tiếng gõ thành "tiếng kim loại va chạm" trong khi vẫn duy trì đồng bộ với hình ảnh video.
ControlFoley sử dụng bộ mã hóa âm thanh hình ảnh không gian-thời gian và chiến lược "tách rời thời gian-timbre", đạt hiệu suất tiên tiến nhất trên các tiêu chuẩn đánh giá lồng tiếng video. Nó cạnh tranh sát sao với các hệ thống thương mại như Kling-Foley về các chỉ số như sự phù hợp ngữ nghĩa và đồng bộ, mặc dù hơi kém hơn một chút ở một số chỉ số phân kỳ KL. Báo cáo kỹ thuật, mã nguồn và bản demo của khung công tác này hiện đã được công khai.
Xiaomi Mở Mã Nguồn ControlFoley để Tăng Cường Tạo Âm Thanh Video
Tuyên bố miễn trừ trách nhiệm: Nội dung được cung cấp trên Phemex News chỉ nhằm mục đích cung cấp thông tin.Chúng tôi không đảm bảo chất lượng, độ chính xác hoặc tính đầy đủ của thông tin có nguồn từ các bài viết của bên thứ ba.Nội dung trên trang này không cấu thành lời khuyên về tài chính hoặc đầu tư.Chúng tôi đặc biệt khuyến khích bạn tự tiến hành nghiên cứu và tham khảo ý kiến của cố vấn tài chính đủ tiêu chuẩn trước khi đưa ra bất kỳ quyết định đầu tư nào.
