Grpo Articles

Page 1 of 1 (3 articles)

2/1/2025 • EN

Finetune Granite3.1 for Reasoning

A technical guide on fine-tuning IBM's Granite3.1 AI model using Guided Reward Policy Optimization (GRPO) to enhance its reasoning capabilities.

Finetuning Granite31 Grpo Reasoning Reinforcement Learning

Ruslan Magana Vsevolodovna

1/30/2025 • EN

Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial

A tutorial on reproducing DeepSeek R1's RL 'aha moment' using Group Relative Policy Optimization (GRPO) to train a model on the Countdown numbers game.

Deepseek R1 Group Relative Policy Optimization Grpo Reasoning Reinforcement Learning

Philipp Schmid

1/17/2025 • EN

Bite: How Deepseek R1 was trained

Explains the training of DeepSeek-R1, focusing on the Group Relative Policy Optimization (GRPO) reinforcement learning method.

Deepseek Grpo LLM Training Proximal Policy Optimization Reinforcement Learning

Philipp Schmid

Grpo Articles

Finetune Granite3.1 for Reasoning

Mini-R1: Reproduce Deepseek R1 „aha moment“ a RL tutorial

Bite: How Deepseek R1 was trained

Select Language

We use cookies