新闻中心

ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B

2025-01-30
浏览次数:
返回列表

基于探索驱动的大模型对齐方法copo:赋予llm探索能力,突破性能边界

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏持续报道全球顶尖AI研究成果。 如果您有优秀的研究成果,欢迎投稿至liyazhou@jiqizhixin.com或zhaoyunfeng@jiqizhixin.com。

自然界生物的探索精神驱动着进化,人类亦是如此。 在人工智能领域,尤其大型语言模型(LLM)的研究中,赋予LLM类似的探索能力,是突破其现有能力边界,提升性能和安全性的关键。

中国电信人工智能研究院(TeleAI)院长李学龙教授团队,联合清华大学、香港城市大学等机构,基于全模态星辰大模型体系,提出了一种新型探索驱动的大模型对齐方法——Count-based Online Preference Optimization (COPO)。 COPO将人类的探索本能融入LLM的后训练(Post-Training)阶段,引导模型在人类反馈强化学习(RLHF)框架下主动探索未知知识,有效解决了现有对齐框架受限于偏好数据集覆盖范围的问题。 该研究为智传网(AI Flow)“基于连接与交互的智能涌现”提供了重要技术支撑,使模型在动态交互中持续学习和进步。 相关论文已被ICLR 2025录用,TeleAI研究科学家白辰甲为第一作者。

图片

  • 论文标题: Online Preference Alignment for Language Models via Count-based Exploration
  • 论文地址: https://www.php.cn/link/8295ef3608eee6550ef7ef27d4000177
  • 开源代码: https://www.php.cn/link/db90e948252c7d1753efe6fc9612dabe

研究背景与挑战

尽管LLM在多种语言任务中表现出色,但其与人类价值观和意图的对齐仍面临挑战。 现有的RLHF框架依赖预先收集的偏好数据集,其性能受限于数据集对提示-回复(Prompt-Response)的覆盖范围。 收集高质量偏好数据集成本高昂,且难以覆盖所有可能情况。

因此,研究人员开始探索在线RLHF,让LLM在与语言环境交互中持续学习。 COPO旨在解决在线RLHF中的核心问题:如何高效探索语言空间,以扩大偏好数据覆盖范围。

COPO方法

COPO通过结合基于计数的探索和直接偏好优化(DPO)框架,利用轻量级伪计数模块平衡探索和优化。 该方法在理论上对线性奖励函数和离散状态空间进行了分析,并提供了误差界限和置信集合。

Reachout.ai Reachout.ai

一个AI驱动的视频开发平台,专为忙碌的企业家和销售团队打造

Reachout.ai 142 查看详情 Reachout.ai

COPO的核心在于其探索机制,它通过增加对较少产生的提示-回复组合的对数似然,鼓励模型生成新的回复,从而解决探索-利用权衡问题。 研究证明,COPO算法的在线学习范式能够将总后悔值限制在O(√T)量级。

算法细节

COPO算法框架基于DPO,将乐观探索项转化为基于状态-动作计数的学习目标。 由于语言空间的无限性,COPO使用Coin Flipping Network (CFN)来估计“伪计数”,该网络通过一个简单的回归问题来预测基于计数的探索奖励。 CFN利用Rademacher试验来模拟计数,并接受LLM提取的提示-回复对的最后隐藏状态作为输入,输出与状态“伪计数”成反比的预测值。

实验结果与结论

实验在Zephyr-7B和Llama3-8B模型上进行,使用了UltraFeedback 60K偏好数据集和PairRM 0.4B奖励模型。 结果显示,COPO在AlpacaEval 2.0和MT-Bench基准测试中显著提升了模型性能,超越了其他在线对齐方法,并以8B的模型容量超越了许多大体量模型的性能。 这证明了COPO在提升LLM探索能力、扩大数据覆盖范围和优化策略方面的有效性。

团队介绍

李学龙教授,中国电信集团CTO、首席科学家、TeleAI院长,主要关注大模型、智能光电、临地安防和智传网(AI Flow)。

图片

以上就是ICLR 2025|大模型也需要好奇心,TeleAI 提出探索驱动的对齐方法,8B越级胜70B的详细内容,更多请关注其它相关文章!


# copo  # 工程  # 句话  # 网易  # 开源  # 中国电信  # 神技  # LLaMA  # 2025  # ai  # git  # seo工资上海  # 闵行区官方网站优化费用  # 通化seo排名技巧  # 玉环seo优化网站  # 水杯的网店营销推广方案  # 营销推广公司只信n火19星  # 营销策略的推广意义  # 雅虎seo虾哥网络  # 合川区网站建设电话  # seo公司技术  # 如果您  # 新玩法  # 写歌  # 如何应对  # 你该 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何正确使用固态硬盘  j*a怎么保存到数组  折叠手机内屏为什么会坏  如何显示固态硬盘  typescript能开发什么  单片机的速度怎么求  净水器上的power是什么意思  双十一的哪一天最优惠呢  冰柜power是什么意思这个黄灯怎么不亮  折叠屏手机信号哪个最强  npm如何声明命令  充电器上的power是什么意思  春运抢票如何抢连坐的票  typescript怎么使用vue  折叠屏手机为什么凉凉  皓影混动仪表盘上power是什么意思  阿里云盘扩容工具怎么用  什么是泛域名解析  开机如何运行dos命令提示符  怎么看手机是不是双模5g手机  春运抢票需要抢几天  为什么用typescript  NoSQL数据库有哪些特点  单片机log怎么看  满射和单射定义  联想手机如何输入命令行  如何用命令提示符显示隐藏分区  typescript如何开发  苹果16讲解有哪些功能  typescript的文件如何执行  统计学中power值是什么意思  怎么在typescript定义集合  电脑命令如何删除账号  typescript怎么拼接  j*a数组元素怎么用  单片机怎么储存和显示  单片机蜂鸣器响了怎么停  什么是typescript  怎么确定手机是5g  type-c接口接地是什么意思  一帧是多少秒  市盈率ttm写的亏损是什么意思  如何打开win10命令  linux如何切换到命令行模式  固态硬盘如何显示  爱奇艺fun会员可以几个人用?  手机如何运行ping命令  苹果16会有哪些更新  一年多少周  笔记本如何选择固态硬盘 

搜索