AI 相关术语了解记录-JZTXT

RLFH (Reinforcement Learning from Human Feedback) 从人类反馈中学习的强化学习

# 训练过程

Collect human feedback 收集人类反馈

Train reward model 训练奖励模型

Train policy with PPO 训练策略模型

LLM (Large language model) 大型语言模型

RL Reinforcement Learning 强化学习

强化学习是一种机器学习类型，它通过最大化奖励来训练代理在环境中做出决策