新闻中心

350亿参数、开放权重,Transformer作者创业后推出新大模型

2024-03-13
浏览次数:
返回列表

今天,由 Transformer 作者之一 Aidan Gomez 参与创立的人工智能初创公司 Cohere 迎来了自家大模型的发布。

Cohere 最新发布的模型被命名为「Command-R」,拥有 35B 参数量,专为处理大规模生产工作负载而设计。这一模型属于「可扩展」类别,具备高效率和高精度的平衡特性,有助于企业用户在超越概念验证的基础上进入生产阶段。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

350亿参数、开放权重,Transformer作者创业后推出新大模型

Command-R 是一种生成模型,专门针对检索增强生成(RAG)以及其他长上下文任务进行优化。通过结合外部 API 和工具,该模型旨在提高 RAG 应用程序的性能。它与行业领先的嵌入和重新排序模型协同工作,为企业用例提供出色的表现和一流的集成能力。

Command-R采用了经过优化的transformer架构,是一种自回归语言模型。在预训练完成后,该模型通过监督微调(SFT)和偏好训练的方式来确保与人类偏好保持一致,以实现更好的有用性和安全性。

具体而言,Command-R 具有以下功能特征:

  • RAG 和工具使用方面的高度准确性
  • 低延迟、高吞吐量
  • 更长的 128k 上下文和更低的价格
  • 跨 10 种主要语言的强大功能
  • HuggingFace 上提供模型权重以供研究和评估

Command-R目前可在Cohere的托管API上使用,并计划不久将在主要云服务商上推出。这个版本是一系列模型中的首个,旨在提升对企业大规模采用至关重要的功能。

目前,Cohere 在 Huggingface 上开放了模型权重。

350亿参数、开放权重,Transformer作者创业后推出新大模型

huggingface 地址:https://huggingface.co/cohereforai/c4ai-command-r-v01

高性能检索增强生成(RAG)

检索增强生成(RAG)已成为大语言模型部署中的关键模式。通过 RAG,企业能够让模型访问原本无法获得的私有知识,搜索私有数据库并使用相关信息形成响应,从而准确性和实用性将显著提升。RAG 的关键组件是:

  • 检索:搜索与响应用户相关的信息语料库。
  • 增强生成:使用检索到的信息形成更明智的响应。

对于检索,Cohere 的 Embed 模型通过搜索数百万甚至数十亿文档来改善上下文和语义理解,显著提高了检索步骤的实用性和准确性。同时,Cohere 的 Rerank 模型有助于进一步提高检索到信息的价值,优化相关性和个性化等自定义指标的结果。

对于增强生成,通过识别最相关的信息,Command-R 可以总结、分析、打包这些信息,并帮助员工提高工作效率或者创造全新的产品体验。Command-R 的独特之处在于:该模型的输出带有明确的引文,可以降低出现幻觉的风险,并能够从源材料中呈现更多背景信息。

即使不使用自家的 Embed 和 Rerank 模型,Command-R 在可扩展的生成模型类别中也优于其他模型。不过当配合使用时,领先优势显著扩大,从而在更复杂的领域实现更高的性能。

下图左为 Command-R 与 Mixtral 在一系列与企业相关的 RAG 应用上,进行了 Head-to-Head 整体人类偏好评估,充分考虑流畅度、答案实用性和引用。图右为 Command-R(Embed+Rerank)、Command-R 与 Llama 2 70B(chat)、Mixtral、GPT3.5-Turbo 等模型在 Natural Questions、TriviaQA 和 HotpotQA 等基准上的比较结果。Cohere 的大模型实现了领先。

350亿参数、开放权重,Transformer作者创业后推出新大模型

强大的工具使用能力

大语言模型应该是核心的推理引擎,可以自动执行任务并采取实际行动,而不仅仅提取和生成文本的机器。Command-R 通过使用工具(API)来实现这一目标,例如代码解释器和其他用户定义的工具,使模型能够自动执行高度复杂的任务。

Tool Use 功能使企业开发人员能够将 Command-R 转变为引擎,以支持需要使用「数据库和软件工具等内部基础设施」以及「CRM、搜索引擎等外部工具」的任务和工作流程的自动化。这样一来,我们可以实现跨多个系统且需要复杂推理和决策的耗时手动任务的自动化。

下图为 Command-R 与 Llama 2 70B(chat)、Mixtral、GPT3.5-turbo,在使用搜索工具时的多步推理能力比较。这里使用到的数据集为 HotpotQA 和 Bamboogle。

350亿参数、开放权重,Transformer作者创业后推出新大模型

多语言生成能力

Command-R 模型擅长全球 10 种主要商业语言,包括英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文。

此外,Cohere 的 Embed 和 Rerank 模型本身就支持 100 多种语言。这使得用户能够从大量数据源中得出答案,无论使用何种语言,都能以母语提供清晰准确的对话。

下图为 Command-R 与 Llama 2 70B(chat)、Mixtral、GPT3.5-turbo 在多语言 MMLU 和 FLORES 上的比较。

350亿参数、开放权重,Transformer作者创业后推出新大模型

更长的上下文和更低的价格

Command-R 支持了更长的上下文窗口 ——128k tokens。此次升级还降低了 Cohere 托管 API 的价格,并显著提高了 Cohere 私有云部署的效率。通过将更长的上下文窗口与更便宜的定价相结合,Command-R 解锁了 RAG 用例,其中附加上下文可以显著提高性能。

350亿参数、开放权重,Transformer作者创业后推出新大模型

具体定价如下,其中 Command 版本 100 万输入 tokens 1 美元,100 万输出 tokens 2 美元;Command-R 版本 100 万输入 tokens 0.5 美元,100 万输出 tokens 1.5 美元。

350亿参数、开放权重,Transformer作者创业后推出新大模型

不久后,Cohere 还将放出一份简短的技术报告,展示更多模型细节。

350亿参数、开放权重,Transformer作者创业后推出新大模型

博客地址:https://txt.cohere.com/command-r/

Yaara Yaara

使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…

Yaara 95 查看详情 Yaara

以上就是350亿参数、开放权重,Transformer作者创业后推出新大模型的详细内容,更多请关注其它相关文章!


# 阿拉伯语  # seo竞价托管关键词  # 华润优化人员招聘网站  # seo网站结构优化指标优化内容  # 蜘蛛seo 关键词  # 微博关键词排名优化方法  # 兰州网站建设怎么设置  # 线下商铺营销推广中  # 娄底律师网站推广  # 独立博客seo  # seo优化网站关键字  # 如何使用  # 数据  # 葡萄牙语  # 图为  # 新能源  # 腾讯  # 是一种  # 进阶  # 更长  # 新大  # llama  # 训练 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 开机如何运行dos命令提示符  燃气热水器上的power是什么意思  ssd固态硬盘如何选择  市盈率292是什么意思  苹果16改进了哪些  春运抢票何时开始抢票的  1s等于多少ms  市盈率底下 18A 19E 是什么意思  微信最多可以加多少好友  如何用ftp连接命令行  市盈率高是什么意思  自己如何加装固态硬盘  苹果16哪些会降价的  nosql数据库的应用场景有哪些  什么是typescript  迅达热水器显示power是什么意思  净水器上的power是什么意思  juice是什么意思  固态硬盘如何4k对其  grub命令如何进dos  破太岁是什么意思  eraser是什么意思  索尼type-c接口是什么  j*a怎么声明byte数组  冰柜power是什么意思这个黄灯怎么不亮  华为使用nfc功能是什么意思  折叠屏手机好不好,耐不耐用  如何开发typescript  苹果16将会带来哪些升级  typescript干什么的  春运抢票软件哪个好  iPhone无法打开YouTube原因分析与解决方案  typescript在浏览器里怎么用  typescript怎么用  夸克缺什么登录不了  nfc近场通讯功能是什么意思  如何去除计算器的命令  市盈率pe是什么意思  企业征信不好如何恢复 企业征信不好怎么恢复步骤  春运抢票最快几天能成功  win10系统如何打开cmd命令  ai显示无法找到链接的文件是什么意思  内网和外网区别 内网和外网有什么区别  怎么看手机是不是双模5g手机  typescript如何生成uuid  三星 nfc什么功能是什么意思  命令不执行如何处理  春运抢票最多能抢几趟车  typescript用在哪里  如何在命令行执行存储过程 

搜索