Un nouvel article de Richard Sutton et de ses collaborateurs de l'Université de l'Alberta et de l'Openmind Institute aborde la « barrière du streaming » dans l'apprentissage par renforcement. Cette recherche, intitulée « Mises à jour intentionnelles pour l'apprentissage par renforcement en streaming », suggère que la cause principale de cette barrière n'est pas un manque de données, mais des unités de taille de pas mal choisies. L'équipe propose une approche novatrice où la taille du pas est déterminée par le changement souhaité dans la sortie de la fonction, plutôt que par le déplacement des paramètres, ce qui améliore la stabilité des processus d'apprentissage. L'article présente la méthode des « mises à jour intentionnelles », qui spécifie le résultat attendu de chaque mise à jour, permettant un contrôle plus précis de l'apprentissage. Cette approche a montré des résultats prometteurs, atteignant une performance équivalente à celle des algorithmes de pointe comme SAC sur des tâches de contrôle continu, sans recourir à de grands tampons de relecture par lots. La recherche souligne le potentiel de l'apprentissage par renforcement en streaming pour offrir un paradigme d'apprentissage plus adaptatif et rentable, notamment pour les applications disposant de ressources informatiques limitées.