写在前面

笔者将在这篇文章中，写下有关过程监督，反馈对齐，奖励模型，和数据构造相关的论文的笔记。

论文主要来自Openai的论文。

论文挖坑列表

一篇Openai中提到的用于训练奖励模型的方法

K. Cobbe, V. Kosaraju, M. Bavarian, M. Chen, H. Jun, L. Kaiser, M. Plappert, J. Tworek, J. Hilton, R. Nakano, et al. Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168, 2021.

基于过程监督+奖励模型实现复杂数学题的求解

Improving mathematical reasoning with process supervision (openai.com)

训练数据的收集和处理技巧

0，设计了PRM（过程监督奖励模型）

1，采用了15亿个数学相关的Token（数据集为MathMix）进行微调，发现能够提高性能模型的数学性能。

2，训练过generater以一行一行的形式输出该问题的解决方案

3，Openai采用了一个叫做PRM800K的数据集，基于12k个问题，生成了75k个solution，共有800k个steps。

4，数据标记过程为对每一个steps进行标记。

5，数据标记时没有对全部的数据进行标记（因为有一些明显就错了），选择了能骗过PRM的数据集进行标记（也就是模型看不出有问题的，但结果是错的答案）

JZTXT

强化学习及过程监督学习笔记

写在前面

论文挖坑列表

基于过程监督+奖励模型实现复杂数学题的求解