推理性能直逼o1，DeepSeek再次出手，重点：即将开源_陕西然坤悦科技有限公司

400-5689-0921
客服咨询
- 在线咨询

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

2024-11-21

浏览次数：次

DeepSeek 又出手了，这次又是重磅炸弹。

昨晚，DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ，直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。

在美国数学竞赛（AMC）中难度等级最高的 AIME 以及全球顶级编程竞赛（codeforces）等权威评测中，DeepSeek-R1-Lite-Preview 模型已经大幅超越了 GPT-4o 等顶尖模型，有三项成绩还领先于 OpenAI o1-preview。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

背后的秘诀，就是「深度思考」。

更多的强化学习、原生的思维链、更长的推理时间，能让大模型的性能更强，这在领域内已经是广泛共识。这种模式其实非常像人类大脑的深度思考。

与 OpenAI o1 有点不一样的是，DeepSeek-R1-Lite-Preview 会在回复中展示「思路链」推理，也就是响应查询和输入的不同链或「思路」，并解释它在做什么以及为什么这样做。

就像是解题时，有人喜欢将每一步骤都详尽地写

在卷子上，而 DeepSeek-R1-Lite-Preview 更进一步：把内心 OS 也都写出来了。

DeepSeek 官方表示，DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。已经发布的 DeepSeek-R1-Lite-Preview 使用的是一个较小的基座模型，尚未完全释放长思维链的潜力。

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

对于用户的 Prompt，DeepSeek-R1-Lite-Preview 会有一个很长的推理过程。如上图中的红色实线所示，模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票（Majority Voting），模型思维链长度增加展现出了更高的效率。

最惊艳的是，发布即上线：所有用户均可通过官网开启与 DeepSeek-R1-Lite-Preview 的对话，但注意要先在输入框中打开「深度思考」模式，每天限制 50 次使用。

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

体验地址：http://chat.deepseek.com/

不得不说，对 o1 直接发起冲击的 DeepSeek，着实让国内 AI 社区振奋了一把：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

^{图源：https://www.zhihu.com/question/4689435060/answer/36575793425}

由于 DeepSeek-R1-Lite-Preview 目前仅支持网页使用，没有发布完整代码供独立第三方分析或基准测试，也没有通过 API 提供 DeepSeek-R1-Lite-Preview 以进行同类独立测试，也没有解释 DeepSeek-R1-Lite-Preview 是如何训练或构建的博客文章或技术论文，大家心中其实还有许多的「问号」。

但 DeepSeek 已经表示，正式版 DeepSeek-R1 模型会完全开源，还会公开技术报告，部署 API 服务。

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

^{图源：https://www.zhihu.com/question/4689435060/answer/36604051127}

回想起上一次，DeepSeek-V2 的开源和 API 降价，直接引发了国产大模型厂商的降价浪潮。同样的力度再来一波，不知道大家如何顶住。

耐心等待的时间里，我们先来实测一下。

一手实测体验

与 OpenAI o1 相同的是，根据问题的复杂程度，它也需要「思考」数十秒后再回答。

虽然有些过程中的思路在人类看来可能毫无意义，甚至是错误的，但据初步测评，DeepSeek-R1-Lite-Preview 回复的最终整体准确率还是比较高的。

比如它可以回答 GPT-4o 和 Claude 系列都翻车过的问题 —— 经典陷阱题「Strawberry 这个词中有多少个字母 R？」和「9.11 和 9.9 哪个更大？」。

有用户在 DeepSeek Chat 上使用这些 Prompt 进行测试，回复结果和思考用时情况如下：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

^{Strawberry 这个词中有多少个字母 R？用时 29 秒。}

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

^{9.11 和 9.9 哪个更大？用时 9 秒。}

不过在数草莓的问题上，R1-Lite-Preview 有时也会困惑，数出「只有 2 个 r」的答案：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

本站也实测了一把，似乎对于中文，R1-Lite-Preview 的准确率更高：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

对于需要动脑的问题，R1-Lite-Preview 的表现也可圈可点，比如它可以破解行测题的逻辑陷阱：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

由 LeCun 提出的物理题：圆周上均匀分布了 7 根轴，每根轴上都有一个齿轮。每个齿轮都与其左边和右边的齿轮啮合。齿轮从 1 到 7 编号，依次沿圆周排列。问题是：如果齿轮 3 顺时针旋转，问齿轮 7 会沿什么方向旋转？

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

得出解来十分丝滑：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

接下来，给 R1-Lite-Preview 上点强度，看看它能否笑对大学物理的噩梦：《电磁学千题解》。

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

在 34 秒内，它根据题意列出了对应的公式，得到了正确答案：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

至于 R1-Lite-Preview 被全球顶级编程竞赛（codeforces）等权威评测检验过的代码能力，让它手撕大厂秋招级别的 Leetcode 经典题「岛屿问题」试一下：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

运行起来也没大问题。

然而，相比推理、物理和编程，R1-Lite-Preview 的数学能力可能没那么让人放心。

比如科技博主 @Transformer - 周问了一道中学水平的数列题，只有 o1 和 o1mini 做对了，R1-Lite-Preview 没想出关键的破题思路，而是「蒙」出了答案。

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

而对于最能考验人类大脑的深度思考能力的 IMO 国际数学奥林匹克竞赛试题，R1-Lite-Preview 的表现是这样的：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

这道代数题相当难，全球仅有 5 个人全对。在长达 162 秒的思考过程中，R1-Lite-Preview 洋洋洒洒地把解题思路写成了一篇小论文，可能它的老师也教过 —— 把解题过程写上能得一半分。

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

令人遗憾的是，最终答案 c=1 是错的，正确答案如下：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

而另一位「解题过程没写全」的选手 OpenAI o1 却给出了正确答案：

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

这说明，DeepSeek-R1-Lite-Preview 仍有进步空间，也更让我们期待完整版模型的发布了。

各位读者已经试用了吗？欢迎在评论区分享有趣的实测案例。

^{参考链接：}

^{https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fw}

^{https://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/}

以上就是推理性能直逼o1，DeepSeek再次出手，重点：即将开源的详细内容，更多请关注其它相关文章！

# deepseek # 更大 # 华纳 # 南极 # 神技 # 出了 # 的是 # 直逼 # 为什么 # 排列 # claude # ai # qq # 产业 # 开源 # seo精准语言 # 开县网站建设咨询电话 # 鱼台seo推广服务商 # 滁州网站建设工具 # 安徽视频网站优化价格 # 关键词描述与seo # 宜川路街道网站营销推广 # 纪梵希网站优化 # 蓬安县网站关键词优化 # seo网站建设优化 # 五大 # 更高

相关栏目：【行业资讯67740 】【技术百科0 】【网络运营39195 】

相关推荐： unix时间戳转换公式怎么把手机里爱奇艺的视频下载到u盘里 linux命令行如何使用中文输入法苹果16有哪些改善 typescript 如何使用 typescript怎么使用vue 楔子是什么意思春运抢票到哪里抢票啊开机如何进入命令行模式如何用dos命令分区自己如何安装固态硬盘新买的固态硬盘如何查 shell如何注释所有命令苹果16哪些型号好用苹果16有哪些不同命令行如何运行c 单片机怎么进行排序操作苹果手机16有哪些功能单片机怎么判定高电平固态硬盘如何装入机箱 hive中datediff函数怎么用 Hive中DATEDIFF函数的使用指南苹果16系统有哪些系列 win7怎么关闭360壁纸屏保夸克是什么用途 access 如何输入命令自己如何加装固态硬盘统计学中power值是什么意思为什么夸克无法注销账户折叠屏手机好不好,耐不耐用尼桑越野车中控前power是什么意思 html怎么使用typescript 电脑如何查看固态硬盘苹果手机16新款颜色有哪些阿里云盘扩容工具怎么用夸克网盘为什么解析错误壁挂炉power常亮是什么意思苹果16哪些功能好用夸克网盘下载为什么要钱 win10如何开启命令行 typescript性能如何市盈率3.2是什么意思春运哪天抢票最好预约夸克解压什么意思电动车仪表盘上的power是什么意思 linux如何使用db2命令苹果16都有哪些型号东芝固态硬盘如何保修 51单片机怎么用flash animal是什么意思苹果16有哪些改装模式

上一篇：2025年临港化合物半导体论坛成功举办，引领化合物半导体产业发展新趋

下一篇：咨询业大规模变革背后的三大长期转变

: 电话

: 客服

: 地图

: 搜索