新闻中心
350亿参数、开放权重,Transformer作者创业后推出新大模型
今天,由 Transformer 作者之一 Aidan Gomez 参与创立的人工智能初创公司 Cohere 迎来了自家大模型的发布。
Cohere 最新发布的模型被命名为「Command-R」,拥有 35B 参数量,专为处理大规模生产工作负载而设计。这一模型属于「可扩展」类别,具备高效率和高精度的平衡特性,有助于企业用户在超越概念验证的基础上进入生产阶段。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Command-R 是一种生成模型,专门针对检索增强生成(RAG)以及其他长上下文任务进行优化。通过结合外部 API 和工具,该模型旨在提高 RAG 应用程序的性能。它与行业领先的嵌入和重新排序模型协同工作,为企业用例提供出色的表现和一流的集成能力。
Command-R采用了经过优化的transformer架构,是一种自回归语言模型。在预训练完成后,该模型通过监督微调(SFT)和偏好训练的方式来确保与人类偏好保持一致,以实现更好的有用性和安全性。
具体而言,Command-R 具有以下功能特征:
- RAG 和工具使用方面的高度准确性
- 低延迟、高吞吐量
- 更长的 128k 上下文和更低的价格
- 跨 10 种主要语言的强大功能
- HuggingFace 上提供模型权重以供研究和评估
Command-R目前可在Cohere的托管API上使用,并计划不久将在主要云服务商上推出。这个版本是一系列模型中的首个,旨在提升对企业大规模采用至关重要的功能。
目前,Cohere 在 Huggingface 上开放了模型权重。

huggingface 地址:https://huggingface.co/cohereforai/c4ai-command-r-v01
高性能检索增强生成(RAG)
检索增强生成(RAG)已成为大语言模型部署中的关键模式。通过 RAG,企业能够让模型访问原本无法获得的私有知识,搜索私有数据库并使用相关信息形成响应,从而准确性和实用性将显著提升。RAG 的关键组件是:
- 检索:搜索与响应用户相关的信息语料库。
- 增强生成:使用检索到的信息形成更明智的响应。
对于检索,Cohere 的 Embed 模型通过搜索数百万甚至数十亿文档来改善上下文和语义理解,显著提高了检索步骤的实用性和准确性。同时,Cohere 的 Rerank 模型有助于进一步提高检索到信息的价值,优化相关性和个性化等自定义指标的结果。
对于增强生成,通过识别最相关的信息,Command-R 可以总结、分析、打包这些信息,并帮助员工提高工作效率或者创造全新的产品体验。Command-R 的独特之处在于:该模型的输出带有明确的引文,可以降低出现幻觉的风险,并能够从源材料中呈现更多背景信息。
即使不使用自家的 Embed 和 Rerank 模型,Command-R 在可扩展的生成模型类别中也优于其他模型。不过当配合使用时,领先优势显著扩大,从而在更复杂的领域实现更高的性能。
下图左为 Command-R 与 Mixtral 在一系列与企业相关的 RAG 应用上,进行了 Head-to-Head 整体人类偏好评估,充分考虑流畅度、答案实用性和引用。图右为 Command-R(Embed+Rerank)、Command-R 与 Llama 2 70B(chat)、Mixtral、GPT3.5-Turbo 等模型在 Natural Questions、TriviaQA 和 HotpotQA 等基准上的比较结果。Cohere 的大模型实现了领先。

强大的工具使用能力
大语言模型应该是核心的推理引擎,可以自动执行任务并采取实际行动,而不仅仅提取和生成文本的机器。Command-R 通过使用工具(API)来实现这一目标,例如代码解释器和其他用户定义的工具,使模型能够自动执行高度复杂的任务。
Tool Use 功能使企业开发人员能够将 Command-R 转变为引擎,以支持需要使用「数据库和软件工具等内部基础设施」以及「CRM、搜索引擎等外部工具」的任务和工作流程的自动化。这样一来,
我们可以实现跨多个系统且需要复杂推理和决策的耗时手动任务的自动化。
下图为 Command-R 与 Llama 2 70B(chat)、Mixtral、GPT3.5-turbo,在使用搜索工具时的多步推理能力比较。这里使用到的数据集为 HotpotQA 和 Bamboogle。

多语言生成能力
Command-R 模型擅长全球 10 种主要商业语言,包括英语、法语、西班牙语、意大利语、德语、葡萄牙语、日语、韩语、阿拉伯语和中文。
此外,Cohere 的 Embed 和 Rerank 模型本身就支持 100 多种语言。这使得用户能够从大量数据源中得出答案,无论使用何种语言,都能以母语提供清晰准确的对话。
下图为 Command-R 与 Llama 2 70B(chat)、Mixtral、GPT3.5-turbo 在多语言 MMLU 和 FLORES 上的比较。

更长的上下文和更低的价格
Command-R 支持了更长的上下文窗口 ——128k tokens。此次升级还降低了 Cohere 托管 API 的价格,并显著提高了 Cohere 私有云部署的效率。通过将更长的上下文窗口与更便宜的定价相结合,Command-R 解锁了 RAG 用例,其中附加上下文可以显著提高性能。

具体定价如下,其中 Command 版本 100 万输入 tokens 1 美元,100 万输出 tokens 2 美元;Command-R 版本 100 万输入 tokens 0.5 美元,100 万输出 tokens 1.5 美元。

不久后,Cohere 还将放出一份简短的技术报告,展示更多模型细节。

博客地址:https://txt.cohere.com/command-r/
Yaara
使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…
95
查看详情
以上就是350亿参数、开放权重,Transformer作者创业后推出新大模型的详细内容,更多请关注其它相关文章!
# 阿拉伯语
# seo竞价托管关键词
# 华润优化人员招聘网站
# seo网站结构优化指标优化内容
# 蜘蛛seo 关键词
# 微博关键词排名优化方法
# 兰州网站建设怎么设置
# 线下商铺营销推广中
# 娄底律师网站推广
# 独立博客seo
# seo优化网站关键字
# 如何使用
# 数据
# 葡萄牙语
# 图为
# 新能源
# 腾讯
# 是一种
# 进阶
# 更长
# 新大
# llama
# 训练
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
开机如何运行dos命令提示符
燃气热水器上的power是什么意思
ssd固态硬盘如何选择
市盈率292是什么意思
苹果16改进了哪些
春运抢票何时开始抢票的
1s等于多少ms
市盈率底下 18A 19E 是什么意思
微信最多可以加多少好友
如何用ftp连接命令行
市盈率高是什么意思
自己如何加装固态硬盘
苹果16哪些会降价的
nosql数据库的应用场景有哪些
什么是typescript
迅达热水器显示power是什么意思
净水器上的power是什么意思
juice是什么意思
固态硬盘如何4k对其
grub命令如何进dos
破太岁是什么意思
eraser是什么意思
索尼type-c接口是什么
j*a怎么声明byte数组
冰柜power是什么意思这个黄灯怎么不亮
华为使用nfc功能是什么意思
折叠屏手机好不好,耐不耐用
如何开发typescript
苹果16将会带来哪些升级
typescript干什么的
春运抢票软件哪个好
iPhone无法打开YouTube原因分析与解决方案
typescript在浏览器里怎么用
typescript怎么用
夸克缺什么登录不了
nfc近场通讯功能是什么意思
如何去除计算器的命令
市盈率pe是什么意思
企业征信不好如何恢复 企业征信不好怎么恢复步骤
春运抢票最快几天能成功
win10系统如何打开cmd命令
ai显示无法找到链接的文件是什么意思
内网和外网区别 内网和外网有什么区别
怎么看手机是不是双模5g手机
typescript如何生成uuid
三星 nfc什么功能是什么意思
命令不执行如何处理
春运抢票最多能抢几趟车
typescript用在哪里
如何在命令行执行存储过程


2024-03-13
浏览次数:次
返回列表