AI 相关术语了解记录

发布时间 2023-04-25 08:51:12作者: Cong0ks

RLFH (Reinforcement Learning from Human Feedback)  从人类反馈中学习的强化学习

# 训练过程

Collect human feedback 收集人类反馈 

Train reward model 训练奖励模型

 

Train policy with PPO  训练策略模型

 

LLM (Large language model) 大型语言模型

 

RL Reinforcement Learning 强化学习

强化学习是一种机器学习类型,它通过最大化奖励来训练代理在环境中做出决策