新闻中心

补齐Transformer规划短板,田渊栋团队的Searchformer火了

2024-02-26
浏览次数:
返回列表

transformer 强大的泛化能力再次得到证明!

近年来,基于Transformer的结构在各种任务中展现出色的性能,引起了全球的关注。利用这种结构并结合大量数据,产生的大型语言模型(LLM)等模型可以很好地适用于实际应用场景。

尽管在某些领域取得了成功,但基于 Transformer 的结构和 LLM 仍然面临挑战,尤其是在处理规划和推理任务方面。先前的研究表明,LLM 在应对多步规划任务或高阶推理任务时存在困难。

为了提升 Transformer 的推理和规划性能,近些年研究社区也提出了一些方法。一种最常见且有效的方法是模拟人类的思考过程:先生成中间「思维」,然后再输出响应。比如思维链(CoT)提示法就是鼓励模型预测中间步骤,进行按步骤的「思考」。思维树(ToT)则使用了分支策略和评判方法,让模型生成多个不同的思维路径,然后从中选出最佳路径。尽管这些技术通常是有效的,但也有研究表明,在很多案例中,这些方法会让模型的性能下降,原因包括自我强制(self-enforcing)。

在某个数据集上表现良好的技术,可能在处理其他数据集时效果不佳。这可能是因为所需的推理类型发生了变化,例如从空间推理转变为数学推理或常识推理。

相比之下,传统的符号式规划和搜索技术展现出了出色的推理能力。此外,这些传统方法所计算出的解决方案通常拥有形式上的保证,因为符号规划算法通常遵循着明确定义的基于规则的搜索过程。

为了让 Transformer 具备复杂推理能力,Meta FAIR 田渊栋团队近日提出了 Searchformer。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

补齐Transformer规划短板,田渊栋团队的Searchformer火了

  • 论文标题:Beyond A∗: Better Planning with Transformers via Search Dynamics Bootstrapping

  • 论文地址:https://arxiv.org/pdf/2402.14083.pdf

Searchformer 是一种 Transformer 模型,但针对迷宫导航和推箱子等多步规划任务,它却能计算出最优规划并且所用搜索步骤数也能远少于 A∗ 搜索等符号规划算法。

为了做到这一点,该团队提出了一种新方法:搜索动态引导(search dynamics bootstrapping)。该方法首先是训练一个 Transformer 模型来模仿 A∗ 的搜索过程(如图 1 所示,然后对其进行微调,使其能用更少的搜索步数找到最优规划。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

更详细地说,第一步,训练一个模仿 A∗ 搜索的 Transformer 模型。这里,该团队的做法是针对随机生成的规划任务实例运行 A* 搜索。在执行 A∗ 时,该团队会记录执行的计算和最优规划并将其整理成词序列,即 token。这样一来,所得到的训练数据集就包含了 A∗ 的执行轨迹并编码了有关 A∗ 本身的搜索动态的信息。然后,训练一个 Transformer 模型,让其能针对任意规划任务沿最优规划生成这些 token 序列。

第二步,使用专家迭代(expert iteration)方法进一步提升使用上述经过搜索增强的序列(包含 A∗ 的执行轨迹)训练的 Searchformer。专家迭代方法可让 Transformer 凭借更少的搜索步骤生成最优解。这个过程会得到一种神经规划算法,其隐式地编码在该 Transformer 的网络权重之中,并且它有很高的概率以少于 A∗ 搜索的搜索步数找到最优规划。比如说,在执行推箱子任务时,新模型能解答 93.7% 的测试任务,同时搜索步数比 A∗ 搜索平均少 26.8%。

该团队表示:这为 Transformer 超越传统符号规划算法铺平了道路。

实验

为了更好地理解训练数据和模型参数量对所得模型性能的影响,他们进行了一些消融研究。

他们使用了两类数据集训练模型:一种的 token 序列中只包含解(solution-only,其中只有任务描述和最终规划);另一种则是搜索增强型序列(search-augmented,其中包含任务描述、搜索树动态和最终规划)。

实验中,该团队使用了 A∗ 搜索的一种确定性和非确定性变体来生成每个序列数据集。

迷宫导航

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

在第一个实验中,该团队训练了一组编码器 - 解码器 Transformer 模型来预测 30×30 迷宫中的最优路径。

图 4 表明,通过预测中间计算步骤,可在数据量少时获得更稳健的性能表现。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

图 5 给出了仅使用解训练的模型的性能。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

图 6 展示了任务难度对每个模型的性能的影响。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

整体而言,尽管当使用的训练数据集足够大和足够多样化时,仅使用解训练的模型也能预测得到最优规划,但当数据量少时,经过搜索增强的模型的表现明显好得多,并且也能更好地扩展用于更困难的任务。

推箱子

补齐Transformer规划短板,田渊栋团队的Searchformer火了

为了测试能否在不同且更复杂的任务(具有不同的 token 化模式)上得到类似的结果,该团队还生成了一个推箱子的规划数据集进行测试。

图 7 展示了每种模型针对每个测试任务生成正确规划的概率。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

可以看到,和上一个实验一样,通过使用执行轨迹进行训练,搜索增强型模型的表现优于仅使用解训练的模型。

Searchformer:通过引导方法提升搜索动态

最后一个实验,该团队研究了搜索增强型模型可以如何迭代提升,从而凭借更少的搜索步数计算出最优规划。这里的目标是在缩短搜索轨迹长度的同时依然得到最优解。

补齐Transformer规划短板,田渊栋团队的Searchformer火了

图 8 表明,新提出的搜索动态引导方法能够迭代式地缩短 Searchformer 模型生成的序列的长度。

以上就是补齐Transformer规划短板,田渊栋团队的Searchformer火了的详细内容,更多请关注其它相关文章!


# type  # 牡丹江推广短信营销  # 广州seo推广怎么收费  # 迭代  # 推箱子  # 华纳  # 南极  # 提出了  # 也能  # 短板  # 补齐  # 火了  # 最优  # 产业  # 海安seo公司  # 列举seo白帽技术  # 铂悦公寓网站建设图  # 重庆seo软件首选乐云seo  # 南昌网站seo优化公司  # 雄鹰网站建设银行  # 武威短视频推广营销招聘  # 南京网站建设优化案例 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何提高固态硬盘速度  awk命令如何对两列加分隔符  春运返程如何抢票成功  如何提高固态硬盘性能  满射为什么没有逆映射  华为的type-c接口是什么接口  手机拍显示屏有条纹怎么去除  苹果16如何预购  j*a数组怎么取元素  市盈率20a21e是什么意思  如何创建sql命令  充电器上的power是什么意思  显示器上power键是什么意思  新三板市盈率是什么意思  a股等权市盈率中位数是什么意思  ai怎么找链接文件位置教程  微波炉power中文是什么意思  学typescript要求什么  宵衣旰食是什么意思  爱奇艺vip会员可以同时几个人用?  为什么选择typescript  单片机计时程序怎么写  市盈率ttm是什么意思  开机如何运行dos命令提示符  光猫power灯一直闪是什么意思  苹果16改掉了哪些  ai文件里无法找到链接文件怎么解决  固态硬盘如何检查  5g手机4g卡怎么没有网络  react怎么使用 typescript  显卡上面TYPE-C是什么接口  如何用adb命令停用系统软件  j*a整形怎么转数组  反向春运抢票方式  选哪个折叠屏手机好  单片机怎么进行排序操作  固态硬盘颗粒如何修理  固态硬盘4k如何看  如何打开命令框  如何在命令提示符播放音频  苹果16有哪些系统  跑步机power键是什么意思  固态硬盘质量如何  typescript怎么理解的  春运抢票何时开始抢票的  市盈率是负数是什么意思  typescript如何做项目  新装固态硬盘如何安装  如何提高import命令的性能  如何操作fixup命令 

搜索