新闻中心

Exciting!GPT-4V在自动驾驶中初探

2023-10-19
浏览次数:
返回列表

update: 增加了一个新的例子,自动驾驶配送车驶入新浦水泥地

万众瞩目之下,今天GPT4终于推送了vision相关的功能。今天下午抓紧和小伙伴一起测试了一下GPT对于图像感知的能力,虽有预期,但是还是大大震惊了我们。TL;DR 就是我认为自动驾驶中和语义相关的问题应该大模型都已经解决得很好了,但是大模型的可信性和空间感知能力方面仍然不尽如人意。解决一些所谓和效率相关的corner case应该是绰绰有余,但是想完全依赖大模型去独立完成驾驶保证安全性仍然十分遥远。

1 Example1: 路上出现了一些未知障碍物

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Exciting!GPT-4V在自动驾驶中初探

Exciting!GPT-4V在自动驾驶中初探

GPT4的描述

准确的部分:检测到了3辆卡车,前车车牌号基本正确(有汉字就忽略吧),天气和环境正确,在没有提示的情况下准确识别到了前方的未知障碍物

不准确的部分:第三辆卡车的位置左右不分,第二辆卡车头顶的文字瞎猜了一个(因为分辨率不足?)

这还不够,我们继续给一点提示,去问这个物体是什么,是不是可以压过去。

Exciting!GPT-4V在自动驾驶中初探

Impressive!类似的场景测试了多个,对于未知障碍物的表现可以说非常惊人了。

2 Example2: 路面积水的理解

Exciting!GPT-4V在自动驾驶中初探

没有提示能自动识别到标牌这个应该是基操了,我们继续给一些hint

Exciting!GPT-4V在自动驾驶中初探

再次被震惊了。。。能自动讲出来卡车背后的雾气,也主动提到了水坑,但是再一次把方向说成了左侧。。。感觉这里可能需要一些prompt engineering能更好的让GPT输出位置和方向。

3 Example3:有车辆掉头时直接撞上了护栏

Exciting!GPT-4V在自动驾驶中初探

第一帧输入进去,因为没有时序信息,只是将右侧的卡车当做是停靠的了。于是再来一帧:

NameGPT NameGPT

免费的名称生成器,AI驱动在线生成企业名称及Logo

NameGPT 119 查看详情 NameGPT

Exciting!GPT-4V在自动驾驶中初探

已经可以自动讲出,这两撞破了护栏,悬停在公路边缘,太棒了。。。但是反而看上去更容易的道路标志出现了错误。。。只能说,这很大模型了,它永远能震惊你也永远不知道什么时候能蠢哭你。。。再来一帧:

Exciting!GPT-4V在自动驾驶中初探

这次,直接讲到了路面上的碎片,再次赞叹。。。只不过有一次把路上的箭头说错了。。。总体而言,这个场景中需要特别关注的信息都有覆盖,道路标志这种问题,瑕不掩瑜吧

4 Example4: 来一个搞笑的

Exciting!GPT-4V在自动驾驶中初探

只能说非常到位了,相比之下之前看上去无比困难的“有个人冲着你挥了挥手”这样的case就像小儿科一样,语义上的corner case可解。

5 Example5 来一个名场面。。。配送车误入新修路

Exciting!GPT-4V在自动驾驶中初探

Exciting!GPT-4V在自动驾驶中初探

Exciting!GPT-4V在自动驾驶中初探

Exciting!GPT-4V在自动驾驶中初探

开始比较保守,并没有直接猜测原因,给了多种猜测,这个也倒是符合alignment的目标。使用CoT之后问题发现问题是在于并不了解这辆车是个自动驾驶车辆,故通过prompt给出这个信息能给出比较准确的信息。最后通过一堆prompt,能够输出新铺设沥青,不适合驾驶这样的结论。最终结果来说还是OK,但是过程比较曲折,需要比较多的prompt engineering,要好好设计。这个原因可能也是因为不是第一视角的图片,只能通过第三视角去推测。所以这个例子并不十分精确。

6 总结

快速的一些尝试已经完全证明了GPT4V的强大与泛化性能,适当的prompt应当可以完全发挥出GPT4V的实力。解决语义上的corner case应该非常可期,但幻觉的问题会仍然困扰着一些和安全相关场景中的应用。非常exciting,个人认为合理使用这样的大模型可以大大加快L4乃至L5自动驾驶的发展,然而是否LLM一定是要直接开车?尤其是端到端开车,仍然是一个值得商榷的问题。最近也有很多思考,找时间再来写个文章和大家聊聊~

Exciting!GPT-4V在自动驾驶中初探

原文链接:https://mp.weixin.qq.com/s/RtEek6HadErxXLSdtsMWHQ

以上就是Exciting!GPT-4V在自动驾驶中初探的详细内容,更多请关注其它相关文章!


# 自动驾驶  # 社区团购营销推广案例  # 贺州公司有网络营销推广  # 正规网站建设全包  # 邢台网络公司seo  # 增加排名关键词方法  # 网络营销与网络推广的关系  # 湛江网站开发建设  # 广州seo效果评估  # 是一个  # 应该是  # 出现了  # 或将  # 欧盟  # 最好用  # 前车  # 将于  # 三大  # 再来  # 技术  # 佛山seo内部优化  # seo服务渠道 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: unix时间戳是什么意思  复制 命令如何撤销  如何让固态硬盘坏掉  手机拍显示屏有条纹怎么去除  恋爱软件免费聊天不收费的有哪些  如何查询固态硬盘寿命  如何用命令提示符显示隐藏分区  ai文件里无法找到链接文件怎么解决  记录仪power灯亮是什么意思  苹果16系统网站有哪些  闲鱼上面的power是什么意思  金色cmyk色值是多少  如何通过命令系统还原  电动车仪表盘上的power是什么意思  sql isnull函数如何使用  光刻机的作用及工作原理  苹果16有哪些款式的  video是什么意思  系统如何装进固态硬盘  软件命令行参数如何设置  苹果16系统有哪些改变  单片机程序负数怎么表示  typescript怎么理解的  三星固态硬盘如何安装  苹果16系统有哪些系列  没网环境如何安装typescript  夸克投屏为什么那么卡  如何使用批处理命令编译vc程序  8英寸等于多少厘米  typescript书籍哪个好  固态硬盘如何启动  如何看固态硬盘信息  通配符的用法  固态硬盘如何装入机箱  如何引用typescript中的方法  j*a二数组怎么创建  制冰机power1灯亮是什么意思  单片机串口接收怎么实现  typescript多久能学会  固态硬盘如何测试  统计学中power值是什么意思  为什么夸克网盘下载不了  j*a数组怎么放字符  如何设置sql命令  什么叫typescript  如何判断固态硬盘端口  如何学习typescript  苹果16日发售哪些机型  怎么在typescript写原型链  如何增加固态硬盘 

搜索