执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路

2025-01-27

浏览次数：次

返回列表

google deepmind 和 google research 联合发表的论文提出了一种名为 infalign (推理感知型对齐) 的新框架，旨在优化生成式语言模型在特定推理过程下的胜率。传统的 kl 正则化强化学习 (kl-rl) 方法通常忽略推理阶段，导致训练目标与实际应用脱节。infalign 则直接针对推理时间胜率进行优化。

该论文指出，直接优化推理时间胜率非常困难，但可以通过巧妙地设计奖励函数来实现。InfAlign 的核心思想是：设计一个新的奖励函数 R，该函数基于原始奖励模型 r、推理过程 T 和参考策略 π_ref。通过求解带有变换后奖励 R 的 KL-RL 问题，InfAlign 能够有效地逼近最优解，从而最大化推理时间胜率。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文中给出了一个数学框架，证明了对于特定类型的语言模型（δ 限定模型），存在一个最优的奖励变换 R，能够将推理时间胜率优化问题转化为一个可解的 KL-RL 问题。该框架的核心是一个耦合方程组，描述了最优策略和变换后奖励之间的关系。

然而，直接求解该方程组在计算上存在挑战。因此，论文提出了一种更实用的方法：CTRL (校准和变换式强化学习)。CTRL 算法包含三个步骤：奖励校准、奖励变换和标准 KL-RL 求解。论文中详细介绍了如何通过经验校准和分位数方法来近似计算校准奖励，以及如何选择合适的奖励变换函数 Φ 来优化不同推理过程（例如 best-of-N 和 worst-of-N）下的胜率。

Reachout.ai

一个AI驱动的视频开发平台，专为忙碌的企业家和销售团队打造

142 查看详情 Reachout.ai

实验结果表明，InfAlign 框架和 CTRL 算法能够显著提升语言模型在 best-of-N 和 worst-of-N 推理过程下的胜率，并且相比于传统的 KL-RL 方法具有更好的胜率-KL 散度权衡。特别是，论文发现奖励模型通常没有正确校准，而经过校准的奖励能够显著提高模型的性能。论文还探讨了不同奖励变换函数的有效性，并为 best-of-N 和 worst-of-N 过程推荐了最佳的变换函数。

论文地址：https://www.php.cn/link/7fb15019103809d7311d26d2e8bb47ed

以上就是执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路的详细内容，更多请关注其它相关文章！

# 可以通过 # 北京网站建设培训 # 珍岛seo主管 # 寻甸推广互联网营销招聘 # 安庆网站推广后台 # 百度seo外包推荐 # 体育馆营销策划与推广 # 私房菜网络营销推广方案 # 宁波网站优化照片多少钱 # 研学学校营销推广方案 # 营销推广经理考核内容 # 谷歌 # 相关文章 # 出了 # 明年 # 是一个 # 多项 # 提出了 # 接棒 # 最优 # 胜率 # 工程

相关栏目：【行业资讯67740 】【技术百科0 】【网络运营39195 】

上一篇：DARWIN 1.5 来啦！材料设计通用大语言模型，刷新多项实验性质预测记录

下一篇：Video Depth Anything来了！字节开源首款10分钟级长视频深度估计模型，性能SOTA

首页

关于我们

产品展示

咨询研究

新闻中心

留言板

联系我们

新闻中心 NEWS CENTER

执行推理时能对齐语言模型吗？谷歌InfAlign带来一种对齐新思路