新闻中心

MotionLM:多智能体运动预测的语言建模技术

2023-10-13
浏览次数:
返回列表

本文经自动驾驶之心公众号授权转载,转载请联系出处。

原标题:MotionLM: Multi-Agent Motion Forecasting as Language Modeling

论文链接:https://arxiv.org/pdf/2309.16534.pdf

作者单位:Waymo

会议:ICCV 2025

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

MotionLM:多智能体运动预测的语言建模技术

论文思路:

对于自动驾驶车辆安全规划来说,可靠地预测道路代理未来行为是至关重要的。本研究将连续轨迹表示为离散运动令牌序列,并将多智能体运动预测视为语言建模任务。我们提出的模型MotionLM具有以下几个优点:首先,它不需要使用锚点或显式潜变量来优化学习多模态分布。相反,我们利用标准的语言建模目标,最大化序列令牌的平均对数概率。其次,我们的方法避免了事后交互启发法,其中个体代理轨迹生成是在交互评分之后进行的。相反,MotionLM在单个自回归解码过程中生成了交互式代理未来的联合分布。此外,模型的顺序分解可以实现时间上的因果条件推断。我们提出的方法在Waymo Open Motion Dataset上取得了新的最先进性能,排名第一于交互式挑战排行榜

主要贡献:

在这篇文章中,我们将多智能体运动预测作为一项语言建模任务进行讨论。我们引入了时间因果解码器,对经过因果语言建模损失训练的离散运动令牌进行解码

本文将结合模型中的采样和简单的 rollout 聚合方案,以提高联合轨迹的加权模式识别能力。我们通过在 Waymo Open Motion Dataset 交互预测挑战中的实验,证明了这一新的方法在排名联合 mAP 指标上提高了6%,达到了最先进的性能水平

本文对本文的方法进行了广泛的消融实验,并对它的时间因果条件预测进行了分析,这在很大程度上是目前的联合预测模型所不支持的。

网络设计:

本文的目标是以一种通用的方式对多智能体交互上的分布建模,这种分布可以应用于不同的下游任务,包括最低限度的、联合的和条件预测。为了实现这一目标,需要一个有表现力的生成框架,能够捕捉到驾驶场景中的多种形态。此外,本文在这里考虑保存时间依赖性;即,在本文的模型中,推理遵循一个有向无环图,每个节点的父节点在时间上较早,子节点在时间上较晚,这使得条件预测更接近于因果干预,因为它消除了某些虚假的相关性,否则就会导致不服从时间因果关系。本文观察到,不保留时间依赖关系的联合模型可能在预测实际agent反应方面的能力有限,这是规划中的一个关键用途。为此,本文利用了未来解码器的自回归分解,其中代理的运动tokens有条件地依赖于所有先前采样的tokens,并且轨迹按顺序推出

MotionLM:多智能体运动预测的语言建模技术

图1。本文的模型自回归地为一组代理生成离散运动tokens序列,以产生一致的交互式轨迹预测。

MotionLM:多智能体运动预测的语言建模技术

请看图2,这是MotionLM的架构

本文首先将与每个建模代理相关的异构场景特征(左)编码为形状R、N、·、H的场景嵌入。其中,R为首次推出(rollouts)的数量,N为联合建模的代理数量,H为每次嵌入的维数。在推理过程中,为了并行采样,本文在批量维度上重复嵌入R次。接下来,一个轨迹解码器以一种时间因果的方式(中心)为多个代理推出(rolls out) T 个离散运动tokens。最后,通过使用非最大抑制初始化的k-means聚类的简单聚合,可以恢复 rollouts 典型模式(右图)。

MotionLM:多智能体运动预测的语言建模技术

图3。展示了三个WOMD场景的前两种预测联合推出(joint rollout)模式。

颜色梯度表示了从t = 0秒到t = 8秒的时间变化。联合模式由绿色过渡到蓝色,次联合模式由橙色过渡到紫色的概率最大。我们观察到了三种类型的交互:相邻车道中的智能体会根据变道时间给予变道智能体让行(左侧),行人会根据车辆的进度走在过往车辆后面(中间),转弯车辆要么会给过路的骑车人让路(最可能的模式),要么会在骑车人接近之前转弯(次要模式)(右侧)

MotionLM:多智能体运动预测的语言建模技术

请看图4。这张图展示了联合推出(左侧)、干预后因果贝叶斯网络(中间)和因果条件反射(右侧)的因果贝叶斯网络表示

实线表示时间上的因果相关性,而虚线表示因果信息流。没有时间依赖约束的模型将支持因果条件作用,但不支持时间因果条件作用,这在试图预测agent反应时可能是有问题的。

实验结果:

MotionLM:多智能体运动预测的语言建模技术

MotionLM:多智能体运动预测的语言建模技术

MotionLM:多智能体运动预测的语言建模技术

MotionLM:多智能体运动预测的语言建模技术

MotionLM:多智能体运动预测的语言建模技术

MotionLM:多智能体运动预测的语言建模技术

MotionLM:多智能体运动预测的语言建模技术

引用:

Seff, A., Cera, B., Chen, D., Ng, M., Zhou, A., Nayakanti, N., Refaat, K. S., & Sapp, B. (2025). MotionLM: Multi-Agent Motion Forecasting as Language Modeling. ArXiv. /abs/2309.16534

MotionLM:多智能体运动预测的语言建模技术

原文链接:https://mp.weixin.qq.com/s/mtai0ra8penfuj7ujcfd6a

IMCart开源网店系统(外贸B2C) IMCart开源网店系统(外贸B2C)

IMCart是目前国内首家最为完善的开源b2c商城系统。同时也是PAYPAL官方认证建站系统的金牌合作伙伴。系统支持多语言,多站点,移动端, 本地国际化,API对接等,丰富的营销功能跟完善的商品体系,优良的下单体验,更为符合SEO优化,完善的插件支持/模板中心更是让IMCART更加无法 替代。而IMCART全新的技术架构、全新的UI设计、丰富的促销体系、官方各项服务支持能从根源上解决了目前市面上一

IMCart开源网店系统(外贸B2C) 0 查看详情 IMCart开源网店系统(外贸B2C)

以上就是MotionLM:多智能体运动预测的语言建模技术的详细内容,更多请关注其它相关文章!


# 看图  # 美发线上营销推广方案  # 中小型网站建设讯息  # 天水行业关键词排名  # 趁人网站建设管理文案  # 五金seo优化  # 资阳小企业网站建设  # 酒店网站建设与制作公司  # 网络营销推广考核指标  # 学seo有年龄限制  # 常熟seo外包服务价格  # 模型  # 最先进  # 这在  # 未来  # 将于  # 三大  # 这是  # 令牌  # 网店  # 开源  # 智能 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 单片机怎么储存和显示  单片机计时程序怎么写  苹果16有哪些改装模式  typescript需要学多久  单片机计数程序怎么写  如何加装固态硬盘  爱玛电动车power模式是什么意思  单片机是怎么计时的  市盈率高是什么意思  j*a map数组怎么用  固态硬盘如何安装win10系统安装  ts什么意思  mac 如何启动命令行模式  迅达热水器显示power是什么意思  市盈率300是什么意思  什么是域名解析 域名解析中采用了什么  夸克链信有什么用  双十一的哪一天最优惠呢  路由器power闪红绿灯闪是什么意思  xdm是什么意思  typescript怎么添加css样式  单片机程序负数怎么表示  固态硬盘如何显示  折叠屏手机为什么凉凉  如何在一串数字前面去掉四位数的命令  华为的nfc功能是什么意思  手机如何运行ping命令  春运高速高铁抢票攻略  单片机显存怎么设置最佳  苹果16关闭哪些功能好  怎么用win7系统盘重装系统  typescript怎么写游戏  苹果16有哪些bug  j*a中怎么截取数组  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程  内在市盈率是什么意思  typescript与es6学哪个  电瓶车的power是什么意思  市盈率为负数是什么意思  市盈率ttm市盈动静是什么意思  闪光灯power闪烁是什么意思  苹果16系统有哪些功能  位置控制单片机怎么用的  5G类似微信的聊天软件有哪些  如何使用命令行界面  苹果16改掉了哪些  为什么程序员热爱typescript  5r是多少钱  如何自己加装固态硬盘  360n4怎么关闭锁屏壁纸 

搜索