Một bài báo mới của Richard Sutton và các cộng sự từ Đại học Alberta và Viện Openmind đề cập đến "rào cản streaming" trong học tăng cường. Nghiên cứu, có tiêu đề "Cập nhật có chủ ý cho học tăng cường streaming," cho rằng nguyên nhân gốc rễ của rào cản không phải là dữ liệu không đủ mà là việc chọn sai đơn vị kích thước bước. Nhóm nghiên cứu đề xuất một phương pháp mới, trong đó kích thước bước được xác định bởi sự thay đổi mong muốn trong đầu ra hàm, thay vì sự di chuyển của tham số, giúp tăng cường sự ổn định trong quá trình học. Bài báo giới thiệu phương pháp "Cập nhật có chủ ý," xác định kết quả dự kiến của mỗi lần cập nhật, cho phép kiểm soát học tập chính xác hơn. Phương pháp này đã cho thấy kết quả đầy hứa hẹn, đạt hiệu suất tương đương với các thuật toán tiên tiến như SAC trong các nhiệm vụ điều khiển liên tục mà không cần dựa vào bộ đệm phát lại lô lớn. Nghiên cứu nhấn mạnh tiềm năng của học tăng cường streaming trong việc cung cấp một mô hình học thích ứng và tiết kiệm chi phí hơn, đặc biệt cho các ứng dụng có tài nguyên tính toán hạn chế.