RLFH (Reinforcement Learning from Human Feedback) 从人类反馈中学习的强化学习
# 训练过程

Collect human feedback 收集人类反馈
Train reward model 训练奖励模型

Train policy with PPO 训练策略模型

LLM (Large language model) 大型语言模型
RL Reinforcement Learning 强化学习
强化学习是一种机器学习类型,它通过最大化奖励来训练代理在环境中做出决策