新闻中心
Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远
由10枚IOI金牌在手的创业团队Cognition AI开发的全球首个AI程序员智能体Devin,一发布就让科技圈坐立不安。
在演示中,Devin几乎已经可以独立完成许多需要普通程序员花费大量时间才能完成的任务,而且表现一点也不逊色于普通程序员。
但是,产品能力的边界在哪里,实际体验和演示时候有差距,还的看上手实测之后的效果。
这位斯坦福的小哥在Devin发布的第一时间就联系了团队,获得了第一手体验的资格。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
他让Devin帮它做了几个难度不一的项目,录制了一个视频,在推上写下了自己的使用感受。
下一个任务是让Devin做一个可以让普通用户直接与大模型下棋的网站。
需求复杂的编程任务还搞不定
用户每走一步棋,系统会将其转换成提示词传递给GPT-4,GPT-4会做出回应,这个回应再被转化为具体的下棋步骤展现在棋盘上。
按照小哥的要求,系统需要由相当多的部件组成。
他个人最为关注在这个系统的开发过程中,Devin能不能做到以下几点:
- 知道如何准确地使用GPT-4 API,因为大多数LLM实际上并不知道如何使用,并且API的调用存在版本冲突。
- 正确地请求API密钥并安全地处理。
- 处理包错误。
- 了解如何提示LLM下棋并能精确地返回提示词。

令小哥想不到的是,Devin不仅要求小哥提供API密钥,而且在试用过程中还可以正确地保护它。

不过,Devin目前反馈速度还相当慢,小哥推测是因为后台发生的代理提示远远比要看到的要多得多。
从小哥发起请求开始,它花了大约19分钟才询问API密钥。
小哥猜测,如果延迟是由于他们在后台运行大量提示造成的,那么延迟应该会随着时间的推移而加快。
因为他们以后可以访问专用GPU或与Claude或OpenAI合作降低延迟(估计是GPT-4或Claude Opus)。
Devin首先制定了一个规划。
在右上角,用户可以切换「跟随」状态,这样用户可以将屏幕自动移动到#Devin当前激活了的选项卡上。

小哥没有打开跟随状态,因为他希望随时观察各个位置的变化。
规划器会随时保持针对当前任务的更新状态。
Shell看起来和普通的Shell没什么区别,但用起来真的很有趣!
Devin在工作过程中会打开多个shell,在shell的底部,用户可以拖动蓝色滑块来往前查看Devin编写的命令。

下图是它当在尝试调试棋盘未渲染的内容。

与此同时,小哥要求它再执行一个数据分析的任务。
小哥让Devin去「创建一张过去五十年南极洲海水温度的地图」。
对于这个请求,小哥觉得有两个方面可能很具有挑战性:
- 处理空间数据绘图/可视化。
- 知道在哪里下载数据,而且了解如何使用数据源,因为地理空间数据处理起来很麻烦。
Devin能像一个优秀的程序员一样聪明地阅读自述文件,并且还执行一些基本的EDA来理解数据结构。

数据居然是一个ascii文件,小哥觉得有点奇怪。
小哥单击对话「调试Python脚本...」中的其中一个步骤时,它会打开与该步骤相关的代码库部分,因此可以跟踪某一个具体时间点发生的情况。
小哥比较担心的是,如果不是必须要询问API密钥,Devin似乎会不停地编码停不下来。
所以他试了试是否可以更改他之前提出的请求或指定其他内容,中断Devin的编码过程。
因为对于大部分用户在编码时,都有可能会改变主意或者有一些新的东西想要添加进系统之中,能够处理这种情况是很有必要的。
这是编码过程中的截图:

浏览器界面的呈现方式如下:

然后小哥又提了针对数据可视化的任务又提了一个要求,让系统将高温设置为蓝色,低温设置为红色。

为了不中断编码的过程,似乎Devin又开启了一个工作线程来记录小哥的临时要求。
最终,Devin将APP部署到了Netlify上了,一个应用已经上线了。

网页的链接:https://t.co/wTbtz2waDn
就像人类写的程序一样,第一个版本肯定是有Bug的。

因为小哥要求的是南极洲的温度记录,似乎对于Devin来说它理解起来有些障碍。

于是小哥把要求显示的位置改为了北美。

总结
小哥没有给出Devin修改了Bug的结果,只是初步总结了用Devin开发的第一个网站的使用体验。
先说优点:
Devin产品化做得很好,他给人的使用体验是一个完整的产品而不是只是一个简单的对话框。
AI是系统最关键的部分,但支撑AI功能的产品化的结构是Devin的亮点。
Devin能够完成自动部署,API密钥保护,随时修改和添加需求等等非常好的各种功能。
产品的完成度已经非常高了,远远超过了一般的演示Demo。
再说缺点:
Devin的反应还很慢,当然小哥也说,因为他用的是1M的Starlink来上网,所以反应慢很有可能是他自己的原因。
其次就是还不能允许用户直接自己编辑代码,而且也没法协作完成。
当
然,最初那个下棋的应用,难住了Devin,最终没有完成部署。而那个数据可视化的任务,似乎也有些Bug。
最终,小哥用Devin做了一个chrom插件,可以帮助用户把Github repo转化成Claude prompt。

插件下载地址:https://t.co/k3l8jtwk7z
刺鸟创客
一款专业高效稳定的AI内容创作平台
110
查看详情
网友评价
网友看了这个实测之后还是感觉有点失望,毕竟这个任务一个初级程序员是能做到的,但是Devin的可视化项目的结果只做出了一个有Bug的网页。

看样子Devin本质上还只是一个可以上网的大模型,现在要让他解决实际问题还有难度。

以上就是Devin第一手使用体验:完成度很高,开始编码就停不下来,但要替代程序员还很远的详细内容,更多请关注其它相关文章!
# 程序员
# b2b网站推广方式选择
# 太原关键词排名图片大全
# 上海Seo推广上玄
# 汕尾网站建设代理商
# seo按天计费方案
# 唐山市计算机网站建设
# 怎样搞一个外国网站推广
# 福田网站优化服务商排名
# 自己的
# 省电
# 数据结构
# 如何使用
# 南极洲
# 的是
# 但要
# 很远
# 很高
# 小哥
# opus
# claude
# devin
# python脚本
# ai
# 抖音搜索关键词排名技巧
# 网站制作推广怎么学
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
iphone拍电子屏有横条如何解决
vivo怎么投屏到电视看爱奇艺教程
单片机log怎么看
m*en repository的作用是什么
单片机软件keil怎么运行
云淡风轻什么意思
sofa是什么意思
dos命令 如何将变量 作为路径的一部分
j*a怎么处理json数组
固态硬盘如何打开软件
固态硬盘电脑如何设置
tft单片机怎么写彩屏
2025年国外最佳语音聊天软件排行榜
油烟机上的power是什么意思
负市盈率是什么意思
power在充电器上是什么意思
如何通过命令检测u盘启动
广东春运几点抢票
春运抢票如何快速抢到票
nfc近场通讯功能是什么意思
选哪个折叠屏手机好
哪个品牌有折叠屏手机卖
苹果16有哪些款式的
如何找出命令行
typescript怎么加号
如何打开命令提示符
手机nfc功能功能是什么意思
电信开通nfc功能是什么意思
manager是什么意思
美食音乐每日推荐怎么写
苹果16新增哪些功能
为什么ai老是说链接面板中缺少某些文件
夸克链信有什么用
typescript和es6先学哪个
如何设置从固态硬盘启动
主板如何禁用固态硬盘
5G类似微信的聊天软件有哪些
市盈率为负值是什么意思
vs如何输入命令行参数
市盈率20a21e是什么意思
命令行如何运行j*a
j*a中如何创建列表数组
征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程
什么软件能下载夸克视频
adb 命令如何后台运行
税负是什么意思
typescript怎么理解的
显卡上面TYPE-C是什么接口
linux如何使用db2命令
夸克加载什么要会员


2024-03-18
浏览次数:次
返回列表