新闻中心

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

2024-02-15
浏览次数:
返回列表

效果更稳定,实现更简单。

大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF 可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的行为,训练一个奖励模型,通过分类目标为前者分配更高的分数。然后通过某种强化学习算法优化这个奖励函数。然而,奖励模型的关键要素可能会产生一些不良影响。

来自卡内基梅隆大学(CMU)和 Google Research 的研究者联合提出了一种简单的、理论上严格的、实验上有效的 RLHF 新方法 —— 自我博弈偏好优化(Self-Play Preference Optimization,SPO)。该方法消除了奖励模型,并且不需要对抗性训练。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

论文:A Minimaximalist Approach to Reinforcement Learning from Human Feedback
论文地址:https://arxiv.org/abs/2401.04056

方法简介

SPO 方法主要包括两个方面。首先,该研究通过将 RLHF 构建为两者零和博弈(zero-sum game),真正消除了奖励模型,从而更有能力处理实践中经常出现的噪声、非马尔可夫偏好。其次,通过利用博弈的对称性,该研究证明可以简单地以自我博弈的方式训练单个智能体,从而消除了不稳定对抗训练的需要。

实际上,这相当于从智能体中采样多个轨迹,要求评估者或偏好模型比较每对轨迹,并将奖励设置为轨迹的获胜率。
谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练
SPO 避免了奖励建模、复合 error 和对抗性训练。通过从社会选择理论(social choice theory)中建立最小最大获胜者的概念,该研究将 RLHF 构建为两者零和博弈,并利用该博弈支付矩阵的对称性来证明可以简单地训练单个智能体来对抗其自身。

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

该研究还分析了 SPO 的收敛特性,并证明在潜在奖励函数确实存在的情况下,SPO 能以与标准方法相媲美的快速速度收敛到最优策略。

实验

该研究在一系列具有现实偏好函数的连续控制任务上,证明了 SPO 比基于奖励模型的方法性能更好。SPO 在各种偏好设置中能够比基于奖励模型的方法更有效地学习样本,如下图 2 所示。

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客
该研究从多个维度将 SPO 与迭代奖励建模 (RM) 方法进行比较,旨在回答 4 个问题

  1. 当面 intransitive 偏好时,SPO 能否计算 MW?
  2. 在具有独特 Copeland Winners / 最优策略的问题上,SPO 能否匹配或超过 RM 样本效率?
  3. SPO 对随机偏好的稳健性如何?
  4. SPO 可以处理非马尔可夫偏好吗?

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

在最大奖励偏好、噪声偏好、非马尔可夫偏好方面,该研究的实验结果分别如下图 6、7、8 所示:

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练

感兴趣的读者可以阅读论文原文,了解更多研究内容。

以上就是谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练的详细内容,更多请关注其它相关文章!


# 个月  # 济南谷歌seo哪家好点  # 东城区自制网站建设配置  # 南昌seo优化排行  # 济南seo出名企汇优  # 富阳关键词排名优化  # 广州市全网营销seo推广报价  # 企业营销推广渠道有哪些  # 陕西网站建设优化推广  # seo高级 网站加速  # 保定网站推广联盟  # 命令行  # 最优  # 工程  # 首款  # 所示  # 可夫  # 法相  # 博客  # 多个  # 马尔  # type  # spo  # 卡内基梅隆大学  # rlhf 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 开机如何进入命令行模式  划水是什么意思  type-c全能接口是什么意思  电动车power灯亮红灯是什么意思  所有删除的聊天记录都可以恢复吗?  react怎么用typescript  单片机*计步器怎么用  域名解析后为什么要进行域名备案  春运抢票最好抢什么票啊  市盈率300是什么意思  1kb等于多少字节  j*a 数组怎么循环输出  2026年将会大爆发的15个新科技  春运抢票可以抢几次票  春运抢票需要抢几天  车子上面nfc功能是什么意思  如何用命令查看数据库日志文件  苹果16有哪些亮点功能  阿里云盘扩容工具怎么用  mysql的datediff函数怎么用  固态硬盘如何下载网页  如何查看硬盘是固态硬盘  平板键盘nfc功能是什么意思  typescript为什么能运行  adb 命令如何后台运行  5G手机导航怎么旋转  j*a如何运行curl命令行  折叠屏有哪些手机  硬盘和固态硬盘如何区分  cmd如何定时执行命令  命令行如何启动应用程序  市盈率tt的扣非是什么意思  锤子手机怎么不出5g  固态硬盘如何4k对其  typescript如何生成uuid  春运车站抢票和网上抢票  导航power在汽车上是什么意思  mac如何使用vi命令  路由器上的power按钮是什么意思  双十一的哪一天最优惠呢  哪些编程软件需用typescript  2025年国外最佳语音聊天软件排行榜  固态硬盘如何启动  市盈率为负值是什么意思  硬件如何执行命令  命令行下如何导出数据库  typescript接口怎么选  对应市盈率是30X是什么意思  a股等权市盈率中位数是什么意思  苹果16系统有哪些改变 

搜索