利用TRL库和自定义奖励函数实现GRPO算法完整流程,使Qwen2.5-0.5B-Instruct模型同样具备数学思维能力!
Latest commits.
Builders behind this project.