新闻中心
3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源
大幅提升小模型性能:hugging face开源deepmind技术,1b参数模型超越70b模型!
近期,业界对小模型的关注度空前高涨,许多“实用技巧”让小模型性能超越了更大规模的模型。这
种趋势源于大模型训练成本的急剧增加,动辄数十亿美元的集群投入使得探索更经济高效的方案成为必然。
因此,“测试时计算扩展”(test-time compute scaling)应运而生。该方法并非依赖于扩大预训练规模,而是通过动态推理策略,让模型在复杂问题上“思考更久”。OpenAI的o1模型就是一个典型案例,其在困难的数学问题上,性能随着测试时计算量的增加而持续提升。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

虽然o1的训练细节未公开,但DeepMind的研究表明,迭代自我改进或基于奖励模型的解决方案空间搜索等策略,能够实现测试时计算的最佳扩展。通过自适应地分配测试时计算资源,小模型可以与大型模型性能相当,甚至超越后者。尤其在内存受限、硬件资源不足的情况下,这种方法更具优势。然而,DeepMind的研究结果主要基于闭源模型,缺乏实现细节和代码公开。
DeepMind论文:https://www.php.cn/link/d69aed2be954d4c17700d4a99d79e42a
Hugging Face积极跟进DeepMind的研究,并取得了显著成果。他们开源了相关技术,主要包括:
- 计算最优扩展 (compute-optimal scaling):通过复现DeepMind的技术,提升开放模型的数学能力。
- 多样性验证器树搜索 (DVTS):验证器引导树搜索技术的扩展,提升多样性,尤其在测试时计算预算较大时性能更佳。
- 搜索和学习:一个轻量级工具包,用于实现基于LLM的搜索策略,并利用vLLM加速。
实验结果令人振奋:在MATH-500基准测试中,给予足够“思考时间”,1B和3B参数的Llama Instruct模型,性能超越了8B和70B参数的模型。

Hugging Face联合创始人兼CEO Clem Delangue表示,仅在OpenAI o1发布十天后,他们就开源了其核心技术的复现版本,证明了通过延长模型“思考时间”,小模型也能战胜大型模型。



千鹿Pr助手
智能Pr插件,融入众多AI功能和海量素材
128
查看详情
测试时计算扩展策略
主要策略包括:
- 自我改进:模型迭代改进自身输出,但需模型具备自我改进机制,适用性受限。
- 基于验证器的搜索:生成多个候选答案,用验证器选择最佳答案。验证器可以是硬编码启发式方法或学习型奖励模型。本文重点介绍学习型奖励模型,包括Best-of-N采样和树搜索等技术。
Hugging Face专注于基于搜索的方法,主要包括:

- Best-of-N:生成多个响应,用奖励模型评分,选择最高分的答案。
- 集束搜索:系统探索解决方案空间,通常与过程奖励模型(PRM)结合使用,优化问题解决的中间步骤。
- 多样性验证器树搜索 (DVTS):集束搜索的扩展,提升解决方案多样性和性能。
实验设置及结果
实验使用meta-llama/Llama-3.2-1B-Instruct模型,RLHFlow/Llama3.1-8B-PRM-Deepseek-Data作为PRM,以及MATH-500数据集。
结果显示,集束搜索在计算效率上显著优于Best-of-N和多数投票,性能与Llama 3.1 8B模型相当。DVTS则在较大计算预算下表现更佳,提升了简单/中等难度问题的性能。 计算最优扩展策略则在3B参数模型上取得了超越70B模型的惊人效果。



未来方向
未来研究方向包括:提升验证器性能,实现模型自我验证,将思维融入生成过程,利用搜索生成高质量训练数据,以及开发更多领域的PRM。
原文链接:https://www.php.cn/link/9f7c4bb3946f029b56eebff3203cc5d5
以上就是3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源的详细内容,更多请关注其它相关文章!
# ai
# deepseek
# hugging face
# 理论
# 网络营销 网络推广培训
# 沈阳网站建设配置公司
# 广州seo骆诗设计
# 苏州抖音营销推广哪家好
# 网站建设制作心得
# 沙田企业网站建设哪家好
# 汕尾网站seo优化推广
# 外贸网站推广公司最大
# 国家林业建设协会网站
# 成都网站推广价格
# 取得了
# 更佳
# 官网
# 最优
# 学习型
# 主要包括
# 则在
# 多个
# 开源
# 时计
# llama
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
eraser是什么意思
折叠屏手机为什么这么小
市盈率是负数是什么意思
怎么用win7系统盘重装系统
油电混动车仪表盘上的power是什么意思
命令行如何运行c
faq是什么意思
如何使用ping命令
怎么下载360桌面壁纸
苹果16有哪些不同
路由器power灯一直亮是什么意思
单片机.lib文件怎么打开
五十铃x-power是什么意思
夸克为什么会变小
2025年国外最佳语音聊天软件排行榜
选哪个折叠屏手机好
如何管理员打开cmd命令行窗口
j*a怎么讲数组打印
市盈率中的19a是什么意思
软件命令行参数如何设置
苹果16有哪些黑科技
typescript属性只读如何修改
43寸电视长宽多少厘米
typescript怎么用
春运抢票最快几天能成功
花呗征信不好如何恢复 如何修复不良的花呗征信
element ui的好处
npm如何声明命令
个人征信不好如何恢复 个人征信不良的全面修复指南
夸克转存中是什么意思
如何修改域名解析
折叠屏手机哪个牌子性价比高
j*a怎么创建json数组
ai文件里无法找到链接文件怎么解决
春运抢票软件哪个最好用
如何退出数据库命令行
j*a怎么处理json数组
ospf中交换机命令如何设置
固态硬盘电脑如何设置
如何测固态硬盘芯片
win7怎么取消360显示的壁纸
光猫power灯一直闪是什么意思
windows 如何连接ftp命令行
春运抢票极速版怎么抢票
video是什么意思
如何用命令打开光驱
双十一的哪一天最优惠呢
360手机壁纸怎么改
12306放票时间规律(2025)
阿里云盘共享账户怎么用


2024-12-18
浏览次数:次
返回列表