Reward Hacking Articles

Page 1 of 1 (3 articles)

1/15/2026 • EN

Quoting Boaz Barak, Gabriel Wu, Jeremy Chen and Manas Joglekar

OpenAI researchers propose 'confessions' as a method to improve AI honesty by training models to self-report misbehavior in reinforcement learning.

AI Alignment Model Honesty Proxy Optimization Reinforcement Learning Reward Hacking

Simon Willison

1/15/2026 • EN

Quoting Boaz Barak, Gabriel Wu, Jeremy Chen and Manas Joglekar

OpenAI researchers propose 'confessions' as a method to improve AI honesty by training models to self-report misbehavior in reinforcement learning.

AI Safety Model Honesty Openai Reinforcement Learning Reward Hacking

Simon Willison

11/28/2024 • EN

Reward Hacking in Reinforcement Learning

Explores reward hacking in reinforcement learning, where AI agents exploit reward function flaws, and its critical impact on RLHF and language model alignment.

Alignment Language Models Reinforcement Learning Reward Hacking Rlhf

Lilian Weng

Reward Hacking Articles

Quoting Boaz Barak, Gabriel Wu, Jeremy Chen and Manas Joglekar

Quoting Boaz Barak, Gabriel Wu, Jeremy Chen and Manas Joglekar

Reward Hacking in Reinforcement Learning

Select Language

We use cookies