新闻中心

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

2023-10-16
浏览次数:
返回列表

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

万众瞩目之下,今天GPT4终于推送了vision相关的功能。

今天下午抓紧和小伙伴一起测试了一下GPT对于图像感知的能力,虽有预期,但是还是大大震惊了我们。

核心观点:

我认为自动驾驶中和语义相关的问题应该大模型都已经解决得很好了,但是大模型的可信性和空间感知能力方面仍然不尽如人意。

解决一些所谓和效率相关的corner case应该是绰绰有余,但是想完全依赖大模型去独立完成驾驶保证安全性仍然十分遥远。

Example1: 路上出现了一些未知障碍物

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

△GPT4的描述

准确的部分:检测到了3辆卡车,前车车牌号基本正确(有汉字就忽略吧),天气和环境正确,在没有提示的情况下准确识别到了前方的未知障碍物

不准确的部分:第三辆卡车的位置左右不分,第二辆卡车头顶的文字瞎猜了一个(因为分辨率不足?)。

这还不够,我们继续给一点提示,去问这个物体是什么,是不是可以压过去。

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

Impressive!类似的场景测试了多个,对于未知障碍物的表现可以说非常惊人了。

Example2: 路面积水的理解

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

没有提示能自动识别到标牌这个应该是基操了,我们继续给一些hint。

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

再次被震惊了。。。能自动讲出来卡车背后的雾气,也主动提到了水坑,但是再一次把方向说成了左侧。。。感觉这里可能需要一些prompt engineering能更好的让GPT输出位置和方向。

Example3:有车辆掉头时直接撞上了护栏

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

第一帧输入进去,因为没有时序信息,只是将右侧的卡车当做是停靠的了。于是再来一帧:

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

已经可以自动讲出,这辆撞破了护栏,悬停在公路边缘,太棒了。。。但是反而看上去更容易的道路标志出现了错误。。。只能说,这很大模型了,它永远能震惊你也永远不知道什么时候能蠢哭你。。。再来一帧:

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

这次,直接讲到了路面上的碎片,再次赞叹。。。只不过有一次把路上的箭头说错了。。。总体而言,这个场景中需要特别关注的信息都有覆盖,道路标志这种问题,瑕不掩瑜吧。

Example4: 来一个搞笑的

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

只能说非常到位了,相比之下之前看上去无比困难的“有个人冲着你挥了挥手”这样的case就像小儿科一样,语义上的corner case可解。

Example5 来一个名场面。。。配送车误入新修路

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

“大大震惊”一位CTO:GPT-4V自动驾驶五连测

开始比较保守,并没有直接猜测原因,给了多种猜测,这个也倒是符合alignment的目标。

使用CoT之后问题发现问题是在于并不了解这辆车是个自动驾驶车辆,故通过prompt给出这个信息能给出比较准确的信息。

最后通过一堆prompt,能够输出新铺设沥青,不适合驾驶这样的结论。最终结果来说还是OK,但是过程比较曲折,需要比较多的prompt engineering,要好好设计。

这个原因可能也是因为不是第一视角的图片,只能通过第三视角去推测。所以这个例子并不十分精确。

总结

快速的一些尝试已经完全证明了GPT4V的强大与泛化性能,适当的prompt应当可以完全发挥出GPT4V的实力。

解决语义上的corner case应该非常可期,但幻觉的问题会仍然困扰着一些和安全相关场景中的应用。

非常exciting,个人认为合理使用这样的大模型可以大大加快L4乃至L5自动驾驶的发展,然而是否LLM一定是要直接开车?尤其是端到端开车,仍然是一个值得商榷的问题。

以上就是“大大震惊”一位CTO:GPT-4V自动驾驶五连测的详细内容,更多请关注其它相关文章!


# 出现了  # 唐山网站优化流程  # 贵州抖音seo趋势  # 内丘网站建设咨询热线  # 无锡健康产品营销推广  # seo 白帽和黑帽  # 西夏区网站建设均价  # 赣州网站建设培训哪家好  # 怎样优化监控网站内容  # 秦皇岛网站建设全网推广  # 泰州网站建设风格优化  # 技术  # 或将  # 这辆  # 欧盟  # 最好用  # 前车  # 再来  # 将于  # 三大  # 五连  # 自动驾驶 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何安装台式机固态硬盘  一尺是多少厘米  手机如何运行ping命令  爱奇艺会员qq登录可以几个人用?  ts什么意思  路由器上的power按钮是什么意思  爱奇艺视频怎么下载到手机u盘怎么转换格式方法  汽车收音机power是什么意思  春运抢票哪里最火热  5G类似微信的聊天软件有哪些  linux下如何重定位命令  dos命令如何复制目录结构  怎么在项目中使用typescript  1tb等于多少mb  选哪个折叠屏手机好用  如何让固态硬盘坏掉  win7如何打开命令行窗口  为什么程序员热爱typescript  固态硬盘如何判断大小  夸克的答案为什么不对  md5解密是什么意思  如何用好typescript  学typescript需要什么基础么  尼桑越野车中控前power是什么意思  市盈率底下 18A 19E 是什么意思  youtube受限模式是什么_youtube受限模式是什么意思  苹果16关闭哪些功能好  考勤机power红灯是什么意思  vivo怎么投屏到电视看爱奇艺教程  如何ping测试命令  如何用dos命令分区  新版路由器如何设置路由命令  react怎么用typescript  夸克解压什么意思  ai文件在线打开工具有哪些  openwrt有哪些功能  为什么youtube音乐打不开  j*a怎么保存到数组  什么是域名解析 域名解析中采用了什么  typescript中文怎么读  路由器power灯一直亮是什么意思  苹果16系统有哪些系列  没基础做单片机怎么样  春运什么时候开始抢票  网络光刻机是干什么用的  单片机for循环怎么用  本科一批和本科二批是什么意思  没网环境如何安装typescript  市盈率中1stdv是什么意思  为什么夸克无法注销账户 

搜索