新闻中心

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

2024-09-08
浏览次数:
返回列表

最近,开源大模型社区再次「热闹」了起来,主角是 ai 写作初创公司 hyperwrite 开发的新模型 reflection 70b。

它的底层模型建立在 Meta Llama 3.1 70B Instruct 上,并使用原始的 Llama chat 格式,确保了与现有工具和 pipeline 的兼容性。

这个模型横扫了 MMLU、MATH、IFEval、GSM8K,在每项基准测试上都超过了 GPT-4o,还击败了 405B 的 Llama 3.1。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

凭借如此惊艳的效果,Reflection 70B 被冠以开源大模型新王。该模型更是由两位开发者(HyperWrite CEO Matt Shumer 和 Glaive AI 创始人 Sahil Chaudhary)花了 3 周完成,效率可谓惊人。

Reflection 70B 能不能经受住社区的考验呢?今天 AI 模型独立分析机构 Artificial Analysis 进行了独立评估测试,结果有点出乎意料。

该机构表示,Reflection Llama 3.1 70B 的 MMLU 得分仅与 Llama 3 70B 相同,并且明显低于 Llama 3.1 70B

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

                                          图源:https://x.com/ArtificialAnlys/status/1832505338991395131

还有科学推理与知识(GPQA)和定量推理(MATH)基准测试的结果,同样不如 Llama 3.1 70B。

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

                                    图源:https://x.com/ArtificialAnlys/status/1832457791010959539

此外,Reddit 上 LocalLLaMA 社区的一个帖子比较了 Reflection 70B 与Llama 3.1、Llama 3 权重的差异,结果显示,Reflection 模型似乎是使用了经过 LoRA 调整的 Llama 3 而不是 Llama 3.1

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

贴主还提供了以上模型权重比较结果的代码来源。

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI
from transformers import AutoModelForCausalLM, AutoTokenizerimport torchimport matplotlib.pyplot as pltimport seaborn as snsbase_model_name = "meta-llama/Meta-Llama-3-70B-Instruct"chat_model_name = "mattshumer/Reflection-Llama-3.1-70B"base_model = AutoModelForCausalLM.from_pretrained(base_model_name, torch_dtype=torch.bfloat16)chat_model = AutoModelForCausalLM.from_pretrained(chat_model_name, torch_dtype=torch.bfloat16)def calculate_weight_diff(base_weight, chat_weight):return torch.abs(base_weight - chat_weight).mean().item()def calculate_layer_diffs(base_model, chat_model):layer_diffs = []for base_layer, chat_layer in zip(base_model.model.layers, chat_model.model.layers):layer_diff = {'input_layernorm': calculate_weight_diff(base_layer.input_layernorm.weight, chat_layer.input_layernorm.weight),# 'mlp_down_proj': calculate_weight_diff(base_layer.mlp.down_proj.weight, chat_layer.mlp.down_proj.weight),# 'mlp_gate_proj': calculate_weight_diff(base_layer.mlp.gate_proj.weight, chat_layer.mlp.gate_proj.weight),# 'mlp_up_proj': calculate_weight_diff(base_layer.mlp.up_proj.weight, chat_layer.mlp.up_proj.weight),'post_attention_layernorm': calculate_weight_diff(base_layer.post_attention_layernorm.weight, chat_layer.post_attention_layernorm.weight),'self_attn_q_proj': calculate_weight_diff(base_layer.self_attn.q_proj.weight, chat_layer.self_attn.q_proj.weight),'self_attn_k_proj': calculate_weight_diff(base_layer.self_attn.k_proj.weight, chat_layer.self_attn.k_proj.weight),'self_attn_v_proj': calculate_weight_diff(base_layer.self_attn.v_proj.weight, chat_layer.self_attn.v_proj.weight),'self_attn_o_proj': calculate_weight_diff(base_layer.self_attn.o_proj.weight, chat_layer.self_attn.o_proj.weight)}layer_diffs.append(layer_diff)return layer_diffsdef visualize_layer_diffs(layer_diffs):num_layers = len(layer_diffs)num_components = len(layer_diffs[0])fig, axs = plt.subplots(1, num_components, figsize=(24, 8))fig.suptitle(f"{base_model_name} <> {chat_model_name}", fontsize=16)for i, component in enumerate(layer_diffs[0].keys()):component_diffs = [[layer_diff[component]] for layer_diff in layer_diffs]sns.heatmap(component_diffs, annot=True, fmt=".6f", cmap="YlGnBu", ax=axs[i], cbar_kws={"shrink": 0.8})axs[i].set_title(component)axs[i].set_xlabel("Layer")axs[i].set_ylabel("Difference")axs[i].set_xticks([])axs[i].set_yticks(range(num_layers))axs[i].set_yticklabels(range(num_layers))axs[i].invert_yaxis()plt.tight_layout()plt.show()layer_diffs = calculate_layer_diffs(base_model, chat_model)visualize_layer_diffs(layer_diffs)

还有人贴出了 Matt Shumer 在 Hugging Face 对 Reflection 70B 配置文件名称的更改,可以看到从 Llama 3 70B Instruct 到 Llama 3.1 70B Instruct 的变化。

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

这样的事实摆在眼前,似乎让人不得不信。各路网友也开始发声附和,有人表示自己从一开始就怀疑它是 Llama 3,当用德语问模型一些事情时,它却用英语回答。这种行为对于 Llama 3 非常常见。

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

还有人奇怪为什么 Reflection 70B 模型一开始就得到了如此多的炒作和关注,毕竟第一个谈论它是「顶级开源模型」的人是开发者本人(Matt)。而且更确切地说,模型是微调的。

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

更有人开始质疑开发者(Matt),认为他只是这家公司(GlaiveAI)的利益相关者,试图通过炒作来增加价值,实际上却对这项技术一无所知。

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

在被质疑 Reflection 70B 的基础模型可能是 Llama 3 而非 Llama 3.1 70B 时,Matt Shumer 坐不住了,现身进行了澄清,并表示是 Hugging Face 权重出现了问题

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

就在几个小时前,Matt Shumer 称已经重新上传了权重,但仍然存在问题。同时他们开始重新训练模型并上传,从而消除任何可能出现的问题,应该很快就会完成

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

当被问到为何需要重新训练时,Matt Shumer 表示本不需要这样做,但已经尝试了所有方法。无论做什么,Hugging Face 上 Reflection 70B 模型都会出现问题,导致离预期中的性能差得远。

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

当然 Matt Shumer 还面临更多质疑,比如对 GlaiveAI 的投资情况、为什么 Hugging Face 上的基础模型为 Llama 3 而不是 Llama 3.1 以及基准中有关 LORAing 的问题。

这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练

Matt Shumer 一一进行了解释。(以下标引用)

1. 我是一个超级小的投资者(1000 美元),只是一次支持性的投资,因为我认为 Sahil Chaudhary 很棒。
2. 至于为什么基础模型是 Llama 3,我们不知道。这就是为什么我们从头开始再训练,应该很快完成。 
3. 那些尝试了 Playground 并拥有早期访问权限的用户获得了与托管 API 截然不同的体验,我们需要弄清楚这一点。 
4. 不确定什么是 LORAing,但我们检查了污染,将在下周与 405B(或更早)一起发布数据集,到时候可以查看。

至于重新训练后的 Reflection 70B 表现如何?我们拭目以待。

参考链接:
https://www.reddit.com/r/LocalLLaMA/comments/1fb6jdy/reflectionllama3170b_is_actually_llama3/

以上就是这就翻车了?Reflection 70B遭质疑基模为Llama 3,作者:重新训练的详细内容,更多请关注其它相关文章!


# python  # hugging face  # llama  # follow  # playground  # 产业  # 句话  # 汉沽seo优化咨询  # 网站建设升级工具下载  # 口碑好电商网站品牌推广  # 新媒体营销推广方案格式  # 丹东求职网站建设工作  # 网站乱优化怎么处理  # 利辛抖音推广营销  # 合肥网站优化推广企业  # 郴州获客网站建设平台  # 谷城seo推广  # 五大  # 它是  # 进行了  # 开源  # 华纳  # 南极  # 神技  # 车了  # 这就  # hype  # type  # fig 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: vue中datediff函数怎么用  手机拍显示屏有条纹怎么去除  热水器没热水显示power是什么意思  ftp$如何执行宏命令  如何安装笔记本固态硬盘  typescript是什么类型的语言  sausage是什么意思  hen是什么意思  苹果16哪些型号好  如何看固态硬盘型号  j*a数组怎么放字符  typescript的语法格式是什么  ssd固态硬盘如何选择  华为如何面对苹果16  dos命令 如何将变量 作为路径的一部分  j*a数组对象怎么取  苹果的type-c接口是什么  win10如何打开dos命令窗口大小  夸克*免费吗  春运抢票到哪里抢票啊  路亚竿上的power是什么意思  春运预约抢票能抢到吗  对应市盈率是30X是什么意思  typescript多久能学会  华为5g手机怎么用4g网络  系统如何装在固态硬盘  苹果16改掉了哪些  折叠屏手机选择哪个好  python 如何执行linux命令  make命令如何使用  雅迪电动车上的power是什么意思  windows 如何连接ftp命令行  如何找出命令行  j*a数组怎么比较abc  a股等权市盈率中位数是什么意思  j*a怎么处理json数组  video是什么意思  怎么把手机里爱奇艺的视频下载到u盘里  春运抢票可以抢几次啊  得物怎样降低手续费 得物如何降低手续费教程  typescript怎么写多个构造方法  win7怎么关闭360壁纸屏保  win10电脑如何使用命令提示符  夸克用的什么服务器  如果公司ttm市盈率为负数是什么意思  如何用命令行连接本地数据库  尼桑越野车中控前power是什么意思  苹果手机16系统有哪些  市盈率估值1stdv是什么意思  一年多少周 

搜索