JZTXT
  • 首页
  • Ai
  • Java
  • Python
  • Android
  • Mysql
  • JavaScript
  • Html
  • CSS

RLHF

发布时间 2023-05-30 17:28:32作者: 风生水起
RLHF不擅长推理、事实等固定答案的优化,擅长自由度更高的生成;RLHF的上限取决于预训练模型本身的能力,对于多项选择这种需要推理、知识和输出格式固定的任务,预训练后的GPT-4[2]能到73.7%,RLHF之后只到了74%,单独看很多任务还有下降。
    本栏目推荐文章
  • RLHF · PbRL | 选择 near on-policy query,加速 policy learning 收敛速度
  • 使用Huggingface创建大语言模型RLHF训练流程的完整教程
  • RLHF · PBRL | B-Pref:生成多样非理性 preference,建立 PBRL benchmark
  • 使用 PPO 算法进行 RLHF 的 N 步实现细节
  • RLHF · PBRL | 发现部分 D4RL tasks 不适合做 offline reward learning 的 benchmark
  • RLHF · PBRL | SURF:使用半监督学习,对 labeled segment pair 进行数据增强
  • RLHF · PBRL | RUNE:鼓励 agent 探索 reward model 更不确定的 (s,a)
  • RLHF · PBRL | PEBBLE:通过 human preference 学习 reward model
  • 基于LoRA的RLHF
  • RLHF总结
版权声明:本网站为非赢利性站点,本网站所有内容均来源于互联网相关站点自动搜索采集信息,相关链接已经注明来源。
联系我们