昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,DeepSeek-R1-Lite-Preview 模型已经大幅超越了 GPT-4o 等顶尖模型,有三项成绩还领先于 OpenAI o1-preview。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
更多的强化学习、原生的思维链、更长的推理时间,能让大模型的性能更强,这在领域内已经是广泛共识。这种模式其实非常像人类大脑的深度思考。与 OpenAI o1 有点不一样的是,DeepSeek-R1-Lite-Preview 会在回复中展示「思路链」推理,也就是响应查询和输入的不同链或「思路」,并解释它在做什么以及为什么这样做。就像是解题时,有人喜欢将每一步骤都详尽地写
在卷子上,而 DeepSeek-R1-Lite-Preview 更进一步:把内心 OS 也都写出来了。DeepSeek 官方表示,DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。已经发布的 DeepSeek-R1-Lite-Preview 使用的是一个较小的基座模型,尚未完全释放长思维链的潜力。对于用户的 Prompt,DeepSeek-R1-Lite-Preview 会有一个很长的推理过程。如上图中的红色实线所示,模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票(Majority Voting),模型思维链长度增加展现出了更高的效率。最惊艳的是,发布即上线:所有用户均可通过官网开启与 DeepSeek-R1-Lite-Preview 的对话,但注意要先在输入框中打开「深度思考」模式,每天限制 50 次使用。体验地址:http://chat.deepseek.com/不得不说,对 o1 直接发起冲击的 DeepSeek,着实让国内 AI 社区振奋了一把: 图源:https://www.zhihu.com/question/4689435060/answer/36575793425由于 DeepSeek-R1-Lite-Preview 目前仅支持网页使用,没有发布完整代码供独立第三方分析或基准测试,也没有通过 API 提供 DeepSeek-R1-Lite-Preview 以进行同类独立测试,也没有解释 DeepSeek-R1-Lite-Preview 是如何训练或构建的博客文章或技术论文,大家心中其实还有许多的「问号」。但 DeepSeek 已经表示,正式版 DeepSeek-R1 模型会完全开源,还会公开技术报告,部署 API 服务。 图源:https://www.zhihu.com/question/4689435060/answer/36604051127回想起上一次,DeepSeek-V2 的开源和 API 降价,直接引发了国产大模型厂商的降价浪潮。同样的力度再来一波,不知道大家如何顶住。与 OpenAI o1 相同的是,根据问题的复杂程度,它也需要「思考」数十秒后再回答。虽然有些过程中的思路在人类看来可能毫无意义,甚至是错误的,但据初步测评,DeepSeek-R1-Lite-Preview 回复的最终整体准确率还是比较高的。比如它可以回答 GPT-4o 和 Claude 系列都翻车过的问题 —— 经典陷阱题「Strawberry 这个词中有多少个字母 R?」和「9.11 和 9.9 哪个更大?」。有用户在 DeepSeek Chat 上使用这些 Prompt 进行测试,回复结果和思考用时情况如下: Strawberry 这个词中有多少个字母 R?用时 29 秒。不过在数草莓的问题上,R1-Lite-Preview 有时也会困惑,数出「只有 2 个 r」的答案:本站也实测了一把,似乎对于中文,R1-Lite-Preview 的准确率更高:对于需要动脑的问题,R1-Lite-Preview 的表现也可圈可点,比如它可以破解行测题的逻辑陷阱:由 LeCun 提出的物理题:圆周上均匀分布了 7 根轴,每根轴上都有一个齿轮。每个齿轮都与其左边和右边的齿轮啮合。齿轮从 1 到 7 编号,依次沿圆周排列。问题是:如果齿轮 3 顺时针旋转,问齿轮 7 会沿什么方向旋转?接下来,给 R1-Lite-Preview 上点强度,看看它能否笑对大学物理的噩梦:《电磁学千题解》。在 34 秒内,它根据题意列出了对应的公式,得到了正确答案:至于 R1-Lite-Preview 被全球顶级编程竞赛(codeforces)等权威评测检验过的代码能力,让它手撕大厂秋招级别的 Leetcode 经典题「岛屿问题」试一下:然而,相比推理、物理和编程,R1-Lite-Preview 的数学能力可能没那么让人放心。比如科技博主 @Transformer - 周问了一道中学水平的数列题,只有 o1 和 o1mini 做对了,R1-Lite-Preview 没想出关键的破题思路,而是「蒙」出了答案。而对于最能考验人类大脑的深度思考能力的 IMO 国际数学奥林匹克竞赛试题,R1-Lite-Preview 的表现是这样的:这道代数题相当难,全球仅有 5 个人全对。在长达 162 秒的思考过程中,R1-Lite-Preview 洋洋洒洒地把解题思路写成了一篇小论文,可能它的老师也教过 —— 把解题过程写上能得一半分。令人遗憾的是,最终答案 c=1 是错的,正确答案如下:而另一位「解题过程没写全」的选手 OpenAI o1 却给出了正确答案:这说明,DeepSeek-R1-Lite-Preview 仍有进步空间,也更让我们期待完整版模型的发布了。各位读者已经试用了吗?欢迎在评论区分享有趣的实测案例。https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fwhttps://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/以上就是推理性能直逼o1,DeepSeek再次出手,重点:即将开源的详细内容,更多请关注其它相关文章!
# deepseek
# 更大
# 华纳
# 南极
# 神技
# 出了
# 的是
# 直逼
# 为什么
# 排列
# claude
# ai
# qq
# 产业
# 开源
# seo精准语言
# 开县网站建设咨询电话
# 鱼台seo推广服务商
# 滁州网站建设工具
# 安徽视频网站优化价格
# 关键词描述与seo
# 宜川路街道网站营销推广
# 纪梵希网站优化
# 蓬安县网站关键词优化
# seo网站建设优化
# 五大
# 更高
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
unix时间戳转换公式
怎么把手机里爱奇艺的视频下载到u盘里
linux命令行如何使用中文输入法
苹果16有哪些改善
typescript 如何使用
typescript怎么使用vue
楔子是什么意思
春运抢票到哪里抢票啊
开机如何进入命令行模式
如何用dos命令分区
自己如何安装固态硬盘
新买的固态硬盘如何查
shell如何注释所有命令
苹果16哪些型号好用
苹果16有哪些不同
命令行如何运行c
单片机怎么进行排序操作
苹果手机16有哪些功能
单片机怎么判定高电平
固态硬盘如何装入机箱
hive中datediff函数怎么用 Hive中DATEDIFF函数的使用指南
苹果16系统有哪些系列
win7怎么关闭360壁纸屏保
夸克是什么用途
access 如何输入命令
自己如何加装固态硬盘
统计学中power值是什么意思
为什么夸克无法注销账户
折叠屏手机好不好,耐不耐用
尼桑越野车中控前power是什么意思
html怎么使用typescript
电脑如何查看固态硬盘
苹果手机16新款颜色有哪些
阿里云盘扩容工具怎么用
夸克网盘为什么解析错误
壁挂炉power常亮是什么意思
苹果16哪些功能好用
夸克网盘下载为什么要钱
win10如何开启命令行
typescript性能如何
市盈率3.2是什么意思
春运哪天抢票最好预约
夸克解压什么意思
电动车仪表盘上的power是什么意思
linux如何使用db2命令
苹果16都有哪些型号
东芝固态硬盘如何保修
51单片机怎么用flash
animal是什么意思
苹果16有哪些改装模式