Reinforcement Learning

Efficient Multi-task Reinforcement Learning with Cross-Task Policy Guidance

26 September 2024·3190 words·15 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 Tencent AI Lab

Boost multi-task reinforcement learning with Cross-Task Policy Guidance (CTPG)! CTPG cleverly uses policies from already mastered tasks to guide the learning of new tasks, significantly improving effi…

Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes

26 September 2024·1443 words·7 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 Morgan Stanley

This paper proposes a novel, statistically efficient offline policy evaluation method robust to environmental shifts and unobserved confounding, providing sharp bounds with theoretical guarantees.

Effective Exploration Based on the Structural Information Principles

26 September 2024·3035 words·15 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 State Key Laboratory of Software Development Environment, Beihang University

SI2E, a novel RL exploration framework, leverages structural information principles to maximize value-conditional structural entropy, significantly outperforming state-of-the-art baselines in various …

EASI: Evolutionary Adversarial Simulator Identification for Sim-to-Real Transfer

26 September 2024·2314 words·11 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 Nanjing University

EASI: Evolutionary Adversarial Simulator Identification bridges the reality gap in robotics by using GAN and ES to find optimal simulator parameters, enabling seamless sim-to-real transfer with minima…

DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning

26 September 2024·2927 words·14 mins· loading · loading

AI Generated Machine Learning Reinforcement Learning 🏢 Google Research

DynaMITE-RL: A new meta-RL approach masters environments with evolving latent states by cleverly modeling episode sessions and refining existing meta-RL techniques.

Dynamics of Supervised and Reinforcement Learning in the Non-Linear Perceptron

26 September 2024·1774 words·9 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 University of Oregon

Researchers developed a novel stochastic-process approach to precisely analyze learning dynamics in nonlinear perceptrons, revealing how input noise and learning rules significantly impact learning sp…

Dynamic Model Predictive Shielding for Provably Safe Reinforcement Learning

26 September 2024·1800 words·9 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 University of Texas at Austin

Dynamic Model Predictive Shielding (DMPS) ensures provably safe reinforcement learning by dynamically optimizing reinforcement learning objectives while maintaining provable safety, achieving higher r…

Dual Critic Reinforcement Learning under Partial Observability

26 September 2024·2549 words·12 mins· loading · loading

AI Generated Machine Learning Reinforcement Learning 🏢 Tsinghua University

DCRL, a Dual Critic Reinforcement Learning framework, effectively mitigates high variance in reinforcement learning under partial observability by synergistically combining an oracle critic (with full…

Doubly Mild Generalization for Offline Reinforcement Learning

26 September 2024·2279 words·11 mins· loading · loading

AI Generated Machine Learning Reinforcement Learning 🏢 Tsinghua University

Doubly Mild Generalization (DMG) improves offline reinforcement learning by selectively leveraging generalization beyond training data, achieving state-of-the-art results.

Do's and Don'ts: Learning Desirable Skills with Instruction Videos

26 September 2024·2781 words·14 mins· loading · loading

AI Generated Machine Learning Reinforcement Learning 🏢 KAIST

DoDont, a novel algorithm, uses instruction videos to guide unsupervised skill discovery, effectively learning desirable behaviors while avoiding undesirable ones in complex continuous control tasks.

Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithms

26 September 2024·518 words·3 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 Stanford University

Provably sample-efficient robust RL via interactive data collection is achieved by introducing the vanishing minimal value assumption to mitigate the curse of support shift, enabling near-optimal algo…

Distributional Successor Features Enable Zero-Shot Policy Optimization

26 September 2024·2834 words·14 mins· loading · loading

AI Generated Machine Learning Reinforcement Learning 🏢 University of Washington

DiSPOs: a novel model for zero-shot policy optimization in reinforcement learning, enabling quick adaptation to new tasks by learning a distribution of successor features and avoiding compounding erro…

Distributional Reinforcement Learning with Regularized Wasserstein Loss

26 September 2024·2196 words·11 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 University of Alberta

Sinkhorn distributional RL (SinkhornDRL) uses a regularized Wasserstein loss to improve distributional reinforcement learning.

Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning

26 September 2024·1850 words·9 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 University of Texas at Austin

DUSDi: A novel method for learning disentangled skills in unsupervised reinforcement learning, enabling efficient reuse for diverse downstream tasks.

Discovering Creative Behaviors through DUPLEX: Diverse Universal Features for Policy Exploration

26 September 2024·1669 words·8 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 University of Texas at Austin

DUPLEX: a novel RL method trains diverse, near-optimal policies in complex, dynamic environments by explicitly maximizing policy diversity using successor features. It outperforms existing methods in…

Diffusion-Reward Adversarial Imitation Learning

26 September 2024·2028 words·10 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 NVIDIA

Diffusion-Reward Adversarial Imitation Learning (DRAIL) enhances Generative Adversarial Imitation Learning by integrating diffusion models, resulting in more stable and smoother reward functions for s…

Diffusion-DICE: In-Sample Diffusion Guidance for Offline Reinforcement Learning

26 September 2024·2760 words·13 mins· loading · loading

AI Generated Machine Learning Reinforcement Learning 🏢 Shanghai Jiao Tong University

Diffusion-DICE: A novel offline RL method using in-sample diffusion guidance for optimal policy transformation, achieving state-of-the-art performance.

Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization

26 September 2024·1971 words·10 mins· loading · loading

AI Generated Machine Learning Reinforcement Learning 🏢 ShanghaiTech University

QVPO, a novel online RL algorithm, leverages diffusion models’ multimodality to boost performance in continuous control tasks, overcoming limitations of unimodal policies.

Diffusion-based Curriculum Reinforcement Learning

26 September 2024·2391 words·12 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 Technical University of Munich

DiCuRL uses diffusion models to generate challenging yet achievable RL training curricula, outperforming nine state-of-the-art methods.

Diffusion Spectral Representation for Reinforcement Learning

26 September 2024·1737 words·9 mins· loading · loading

Machine Learning Reinforcement Learning 🏢 Georgia Tech

Diffusion Spectral Representation (Diff-SR) enables efficient reinforcement learning by extracting sufficient value function representations from diffusion models, bypassing slow sampling and facilita…