新闻中心
超越Devin,姚班带队OpenCSG创造大模型编程新世界纪录
来自中国大型模型初创公司opencsg推出的starship codegen agent,通过创新使得普林斯webench(大型模型真实独立编程评测)排行榜,取得了全球第二名的成绩。同时创造了一个基于gpt-4o模型的最高纪录(sota)。(字数: 37)
SWEBench评测高度贴近真实编程场景,难度极高,不仅要求模型能理解需求、协调多个函数/类之间的变更,还要求模型与执行环境交互,处理超长上下文并执行远超传统代码生成任务的复杂逻辑推理。 在这种高难度的真实测试中,行业中最先进的GPT4和Devin,也仅能解决1.74%和13.86%的问题。OpenCSG的这一成绩,标志着国内公司在推动语言模型向更实用、智能和自主化方向发展迈出了领先的一步。
Devin - 大模型编程的创新
在2025年3月,首个AI软件工程师Devin的横空出世,引爆了整个技术界。虽然然伴随着一系列争议,但Devin本身强大的创新能力和巨大的潜力,带给众多AI爱好者和从业者新的期待。Devin不仅能够够轻松解决编码任务,更可以自主完成软件开发的整个周期——从项目规划到部署,涵盖但不限于构建网站、自主寻找并修复BUG、训练以及微调AI模型等等。
大模型编程的真实挑战
为什么Devin敢于挑战GPT4等基础模型的编程能力呢?核心在于软件工程师并不只是编写代码,更涉及到需求理解、代码解读、编程计划、代码生成、调试与异常修复等等环节,这里面的每个环节都会影响大模型编程的可用性和效果。
针对于这类真实场景,普林斯顿大学提出了SWEBench(https://arxiv.org/abs/2310.06770),这是一种量化评估端到端代码生成能力的工具。GPT-4在SWEBench上的评分仅仅为1.74%,即使加上RAG技术,评分也不超过3%,这表明单纯依靠基础模型来直接解决现实世界中的编程问题是不可行的。
Devin的技术创新是基于Agent构建工作流程,将SWEBench的解决率提升到了一个新高度。3月份,Devin以独立解决了13.86%的问题解决率高居榜首,这直接将“大模型编程”从几乎不可用的状态提升到了“看到了曙光”。硅谷大厂和大模型创业公司纷纷招揽LLM for SE这个领域,这项记录被连续修改写。截至2025年4月底,最好的记录由Amazon AI团队推出的 Amazon Q Developer Agent 创造了20.33%。较为遗憾的是,相比于基础模型榜单上中国公司的“百花齐放”,这项高难度的挑战中国公司鲜少参与,直到这一次OpenCSG修改了这一纪录。
中国创业公司的突破
近日SWEBench最新评测结果更新,OpenCSG跃居榜单第二名,该公司推出的OpenCSG StarShip CodeGen Agent在Lite评测中取得了23.67%的通过率,这一成绩不仅超过了Devin和Amazon的成绩,同时也创造了革命性的GPT4-o基模的历史最高纪录(SOTA)。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

OpenCSG成立仅一年,是一个有着深厚开源及大模型复合经验的团队:CEO陈冉是开源软件领域的知名企业家,曾成功打造过多家开源领域的商业公司;CTO王伟来自清华05级姚班,在人工智能领域有多年研发经验;公司核心研发团队中还汇聚了来自清华、北大、沃顿、港科大等学府的精英学子。这样一支团队是如何打造出新的记录的呢?
新纪录,模型+Agent齐发力
当前许多企业正在积极探索和实践基础模型、垂直领域模型及RAG等技术,而OpenCSG则选择了专注的方向:致力于编程Agent的创新开发和大型模型算法的深度优化。
Agent层面:不同于LLM+RAG或者通用Agent框架,OpenCSG StarShip CodeGen Agent针对软件研发领域高度定制优化Agent而设计:将研发各个阶段(需求理解、代码检索、编程计划、编写代码、循环验证等)通过LLM Agent实现,并结合软件工程方法,例如AST语法分析、依赖检索等进行深度优化的方式,在各个环节精益求精,最终整合实现了更高精度的代码生成。
算法层面:针对代码版本变更引起的API冲突等典型问题,OpenCSG提出了自适应教师模式,通过教师模型分析代码版本变更记录,生成高质量编程数据并用于改善基础模型的生成效果。根据评测这些创新带来的改进,显著优于当前的RAG模式,尤其是在API结构高频更新的热门项目场景中。这部分的相关成果已经形成论文投递到国际会议中。
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情
正是这种算法+工程双管齐下、精益求精的模式,让OpenCSG CodeGen Agent能在一众模型中脱颖而出。
StarShip的星辰大海
如果说CodeGen Agent的真实评测是牛刀小试,那么StarShip则是承载着OpenCSG的宏伟蓝图。对于StarShip的产品定位,OpenCSG CEO陈冉表示:“StarShip承担着我们对于大模型重塑软件开发的愿景。用户通过StarShip内置的智能体(Agent)组建自己的数字员工团队。CodeGen Agent是平台内置的数字程序员,目前已经发布的还有CodeReview Agent代码评审员和CodeSearch代码问答工程师。不同于代码辅助工具,我们希望这些数字员工能直接独立工作而不需要人工辅助干预。未来我们将发布更多类型的数字员工,全面覆盖需求、设计、编码、测试和运维各个环节。”
CTO王伟表示这条路径充满挑战但非常有趣,“从第一性原理来看,大模型对于生产力的提升已经不是'是'或者'否'的问题,而是何时、何地、何种形态的问题,StarShip正是我们尝试给出的一个回答。”

高产团队,聚沙成塔
除StarShip之外,OpenCSG团队还相当高产:CSGHub开源模型平台、wukong预训练模型、CSGCoder微调代码模型等,这些产品定位精准,在业内颇受好评。
这些产品的快速推出与迭代,既满足了市场需求,同时也为了一个共同的目标:让大模型赋能每一个企业每一个人。“让大模型赋能每个企业、每个人,就需要让大模型变成水和电一样。如果说大模型是电能,那么CSGH
ub是电力网络,StarShip则是各种各样的家电电器,最终赋能到千家万户。”
拥抱开源,超越开源
OpenCSG的理念是开源开放,作为一家坚持以开源为核心的公司,不仅实现了模型开源、代码开源,甚至将平台开源。
“我们是一家年轻的公司,受益于开源,才能在较短的时间做出一些成果,同时也会全面回馈开源社区,这是开源社区的基本原则。除此之外,我非常认同Sam Altman的说法,开源只是一种模式,比模式更重要的是产品价值。”CTO王伟总结道。
“Benchmark本身只是一个数字,随着GPT4-o的推出,SWEBench的测试成绩预计将会很快超过30%,乐观估计明年可以突破50%。而我们更关注这些数字背后的产品价值:随着模型能力和工程技术的提升,数字员工将会从量变引发质变,从能用到好用,在各行业迎来全面的爆发”王伟解释道“这可能会是大模型时代背景下的一个重大变化,从公司到个人,我们都要为此做好准备。”
以上就是超越Devin,姚班带队OpenCSG创造大模型编程新世界纪录的详细内容,更多请关注其它相关文章!
# devin
# 开源
# 这一
# 软件工程
# 的是
# 产业
# 品牌网站建设方案优化
# 亳州营销推广选哪家好
# 爱马仕网站建设方案
# 网站建设营销策略分析
# 泸州网站排名搜索推广
# 江苏品质网站建设哪个好
# 金昌抖音营销推广中心
# seo做弊 找人互点
# 社团周年庆营销推广活动
# 网站编辑转网站推广
# 则是
# 都能
# 将会
# 中国
# 华纳
# 南极
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
windows 如何连接ftp命令行
如何在昇腾Ascend 910B上运行Qwen2.5教程
光刻机的分类及特点
华为5g手机怎么选择
如何进入安卓命令行
typescript怎么写call方法
如何查询固态硬盘序列
命令行如何启动应用程序
如何在一串数字前面去掉四位数的命令
如何使用ping命令
python 如何执行linux命令
镜像ao3链接入口
单片机log怎么看
typescript和node学哪个
手机nfc功能功能是什么意思
喇叭上POWER4欧是什么意思
焊机上power灯闪是什么意思
微波炉power中文是什么意思
关系型数据库和非关系型数据库有哪些
系统如何装在固态硬盘
typescript怎么解析vue TypeScript在vue中的使用最新解读
为什么程序员热爱typescript
公司的tm市盈率为负是什么意思
soup是什么意思
animal是什么意思
datediff函数怎么用视频
输入命令如何换行
电动车power灯亮是什么意思
为什么有的夸克带电
冰柜power是什么意思这个黄灯怎么不亮
电动车eco和power是什么意思
如何更新苹果ios16
如何查看bash内置的命令
市盈率是负数是什么意思
苹果16有哪些改善
双十一的哪一天最优惠呢
苹果怎么没出5g手机
苹果16会升级哪些
shell如何注释所有命令
固态硬盘如何迁移系统
苹果16都有哪些亮点
如何知道固态硬盘
typescript的语法格式是什么
65寸电视长宽多少厘米
如何用好typescript
哪些编程软件需用typescript
power在充电器上是什么意思
j*a数组怎么取元素
固态硬盘如何打开软件
命令指示符如何打开盘符


2024-05-31
浏览次数:次
返回列表