新闻中心

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

2023-10-14
浏览次数:
返回列表

当前,大型语言模型(llm)在推理任务上展示了惊人的能力,尤其是在提供样例和中间步骤的情况下。然而,prompt 方法通常依赖于llm中的隐含知识,当隐含知识存在错误或与任务不一致时,llm可能会给出错误的答案

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

NameGPT NameGPT

免费的名称生成器,AI驱动在线生成企业名称及Logo

NameGPT 119 查看详情 NameGPT

现在,来自谷歌、Mila 研究所等研究机构的研究者们联合探索了一种新的方法 - 让LLM学习推理规则,并提出了一种名为假设到理论(Hypotheses-to-Theories,HtT)的新框架。这种新方法不仅改进了多步推理,还具有可解释性和可迁移性等优势

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

论文地址:https://arxiv.org/abs/2310.07064

根据对数值推理和关系推理问题的实验结果显示,HtT方法对现有的提示方法进行了改进,准确率提高了11-27%。同时,所学到的规则也可以迁移到不同的模型或同一问题的不同形式中

方法简介

总的来说,HtT 框架包含两个阶段 —— 归纳阶段和演绎阶段,类似于传统机器学习中的训练和测试。

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

在归纳阶段,LLM 首先需要生成并验证一组训练样例的规则。本研究采用 CoT 来声明规则并推导答案,评估规则的出现频率和准确性,收集经常出现且导致正确答案的规则,形成规则库

有了良好的规则库,下一步该研究如何应用这些规则来解决问题。为此,在演绎阶段,该研究在 prompt 中添加规则库,并要求 LLM 从规则库中检索规则来进行演绎,将隐式推理转换为显式推理。

然而,研究发现,即使是非常强大的LLM(例如GPT-4),也很难在每一步都检索到正确的规则。因此,该研究开发了XML标记技巧,以增强LLM的上下文检索能力

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

实验结果

为了评估 HtT,该研究针对两个多步骤推理问题进行了基准测试。实验结果表明,HtT 改进了少样本 prompt 方法。作者还进行了广泛的消融研究,以提供对 HtT 更全面的了解。

他们在数值推理和关系推理问题上评估新方法。在数值推理中,他们观察到 GPT-4 的准确率提高了 21.0%。在关系推理中,GPT-4 的准确性提高了 13.7%,GPT-3.5 则获益更多,性能提高了一倍。性能增益主要来自于规则幻觉的减少。

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

具体来说,下表 1 显示了在算术的 base-16、base-11 和 base-9 数据集上的结果。在所有 base 系统中,0-shot CoT 在两个 LLM 中的性能都最差。

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

表 2 呈现了在 CLUTRR 上比较不同方法的结果。可以观察到,在 GPT3.5 和 GPT4 中,0-shot CoT 的性能最差。对于 few-shot 提示方法,CoT 和 LtM 的性能相似。在平均准确率方面,HtT 始终比两种模型的提示方法高出 11.1-27.2%。值得注意的是,GPT3.5 在检索 CLUTRR 规则方面并不差,而且比 GPT4 从 HtT 中获益更多,这可能是因为 CLUTRR 中的规则比算术中的规则少。

值得一提的是,使用 GPT4 的规则,GPT3.5 上的 CoT 性能提高了 27.2%,是 CoT 性能的两倍多,接近 GPT4 上的 CoT 性能。因此,作者认为 HtT 可以作为从强 LLM 到弱 LLM 的一种新的知识蒸馏形式。

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

表 3 显示,HtT 显著提高了 GPT-4(文本版)的性能。对于 GPT3.5 来说,这种改进并不显著,因为在处理文本输入时,它经常产生除规则幻觉以外的错误。

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力

以上就是GPT-4通过DeepMind的训练,提高了13.7%的准确率,实现了更好的归纳和演绎能力的详细内容,更多请关注其它相关文章!


# 是在  # 专业seo推广爆料  # 营销推广论文题目怎么定  # 安宁市网站推广费用  # 仙桃网络推广营销软件  # 沧州市场营销推广加盟  # 恩平网站外贸推广  # 金华省心的网站推广优化  # 锦州seo排名如何做  # 对seo的独特了解  # 智能营销网站推广方式  # 机器学习  # 新进展  # 迁移性  # 开源  # 多项  # 解决问题  # 进行了  # 的是  # 实现了  # 提高了  # 大模型 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 苹果16将会带来哪些升级  阿里云盘修复工具怎么用  如何看固态硬盘信息  angluar如何命令删除dist  为什么都用typescript  智能锁type-c接口是什么  typescript接口有什么用  5g手机怎么没视频通话功能  宝马x5仪表盘上边有power是什么意思  三星固态硬盘如何保修  市盈率动亏损是什么意思  win10如何打开dos命令窗口大小  tft单片机怎么写彩屏  春运返程如何抢票成功  交管12123协议头是什么  hen是什么意思  固态硬盘如何启动  什么是泛域名解析  固态硬盘如何打开软件  空调控制面板power灯一直亮是什么意思  什么是域名解析 域名解析中采用了什么  单片机怎么连接电路图  如何打开win10命令  如何将系统移到固态硬盘  如何以管理员身份打开命令提示符  光刻机的分类及特点  单片机怎么加死循环  360n5锁屏壁纸怎么设置  如何管理员打开cmd命令行窗口  光猫power灯一直闪是什么意思  如何修改域名解析  苹果手机16新款颜色有哪些  春运抢票在哪儿抢票  小屏折叠屏手机有哪些  交管12123协议头不完整是啥意思  喇叭上标的power30w是什么意思  如何用命令查看数据库日志文件  汽车排量是什么意思  固态硬盘损坏如何修复  如何使用程序编译 执行的命令  为什么夸克无法注销账户  固态硬盘如何区分好坏  iphone拍电子屏有横条如何解决  oracle中datediff函数怎么用 Oracle中DATEDIFF函数详解  怎么看手机是不是双模5g手机  cron表达式在线工具有哪些  折叠屏手机选择哪个好  夸克是什么用途  三菱变频器POWER是什么意思  更换固态硬盘如何检查 

搜索