新闻中心
Mamba作者带斯坦福同学、导师创业,Cartesia获2700万美元种子轮融资
要用 mamba 做可以在任何地方运行的实时智能系统。
Mamba 这种状态空间模型(SSM)被认为是 Transformer 架构的有力挑战者。近段时间,相关研究成果接连不断。而就在不久前,Mamba 作者 Albert Gu 与 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同创立的 Cartesia 获得 2700 万美元种子轮融资。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Cartesia 创立于 2025 年。该团队在相关博客中写到,他们的使命是「构建具有长记忆能力的实时智能,无论你身在何处都能运行。」而其中一部分目标便是「把(Mamba)这些前沿模型带给我们的客户,帮助他们构建实时 AI 应用的未来。」

Albert Gu 的推文
Cartesia 是斯坦福人工智能实验室(Stanford AI Lab)多年来在 SSM 上研究成果的结晶,算得上是学术界到产业界成果转化的又一典范。该团队写到:「在过去四年中,我们构建了 SSM 背后的理论,并对其进行了扩展,让其可在文本、音频、视频、图像和时间序列数据等多种模态下达到 SOTA 的结果。」
消息发布后,人们纷纷点赞,包括 Hugging Face 联合创始人 Thomas Wolf 以及 Vercel CEO Guillermo Rauch。

Mamba 要落地,第一步是文本转语音?
Transformer 的最大痛点就是线性注意力机制,这导致模型在处理长文本时计算量暴增,比如上下文增加 32 倍时,计算量将增加 1000 倍。Mamba 通过引入「SSM」,成功将计算量增长从平方级降至线性,不仅能处理百万级 token 的长序列,还实现了 5 倍的推理吞吐量提升。

论文链接:https://arxiv.org/ftp/arxiv/papers/2312/2312.00752.pdf
「SSM」的突破让 Mamba 在语言建模方面的效果尤为出色,甚至能击败 Transformer。但从 Cartesia 的产品来看,Mamba 的主要作者 Albert Gu 首先把宝押在了文本转语音上。
千鹿Pr助手
智能Pr插件,融入众多AI功能和海量素材
128
查看详情
他们将 Cartesia 的使命定位为打造具有长期记忆能力、可以在任何地方运行的实时智能系统。
Cartesia 的官方博客写道:「基于 Transformer 架构的模型仍有重要局限,它们一次只能处理和生成很短的信息(几分钟的音频或几秒钟的视频),无法高效地保持交互状态,在大多数硬件上实时运行的成本也太过昂贵。」而能将长序列数据压缩成固定大小的状态的 S4 和 Mamba 架构正好是这些问题的「特效药」。
基于这样的理念,Cartesia 在今年推出了第一个产品 Sonic。这是一个可部署在移动设备上的文本转语音模型,并提供 API 服务。

试玩链接:https://play.cartesia.ai/text-to-speech
除了基础的文本转语音功能,Sonic 还支持声音克隆,并允许用户调节语速、情感、发音和口音等参数。

Sonic 目前支持 15 种语言,还可以按性别调整男性、女性和中性三种选项:

Cartesia 选择了「最快、质量最高」作为 Sonic 的宣传语:它可以在仅 90 毫秒内(大约是眨两次眼睛的时间)流式输出第一个音频字节,完美适用于实时和对话式体验。
本站也尝试了一下,Sonic 的速度确实是「超音速」级的,有点偏科,更擅长英语「母语」,中文的 AI 味仍然很重。





提示词:你在以下时间有空吗?上午 10:00、10:05、10:10、10:15、10:20、10:25、10:30、10:35、10:40、10:45、10:50 或 10:55?

提示词:How much wood could a woodchuck chuck if a woodchuck could chuck wood? A woodchuck would chuck as much wood as a woodchuck could chuck if a woodchuck could chuck wood.

Sonic Preview 目前还未开放除英语外的其他语种。不过,据我们在官方提供的 Playgound 中实测,Sonic Preview 的表现一般,「买家秀」和「卖家秀」差得还是有点大。至于博客中写的「超高真实感」嘛,可能还需继续努力。 



论文地址:https://stacks.stanford.edu/file/druid:mb976vf9362/gu_dissertation-augmented.pdf

el Patching)、机器学习交互式数据系统(Meerkat)、序列建模新原语(S4)以及序列模型在音频生成(SaShiMi)、图像和视频分类(S4ND)、时间序列预测和医疗应用(GERD Diagnosis)中的应用。




Tri Dao:Together AI 首席科学家、普林斯顿大学计算机科学助理教授、Flash Attention 提出者、Mamba 的另一位作者。 Stefano Ermon,斯坦福大学计算机科学副教授。 Simran Arora,Stanford AI Lab 在读博士,其一作论文《Ask Me Anything: A simple strategy for prompting language models》是 ICLR 2025 的 Spotlight 论文。 Sabri Eyuboglu,Stanford AI Lab 在读博士,其一作论文《Simple linear attention models balance the recall-throughput tradeoff》获得了 ICML 2025(用于基础模型的高效系统研讨会) 的最佳论文奖。 Ishaan Preet Singh,投资者之一,曾参与投资了多家创业公司。
挑战Transformer的Mamba是什么来头?作者博士论文理清SSM进化路径 五倍吞吐量,性能全面包围Transformer:新架构Mamba引爆AI圈
以上就是Mamba作者带斯坦福同学、导师创业,Cartesia获2700万美元种子轮融资的详细内容,更多请关注其它相关文章!
# mamba
# 多位
# 写到
# 都是
# 神技
# 斯坦福
# t
# deepl
# hugging face
# ai
# qq
# 谷歌
# cad
# cartesia
# sonic
# 产业
# yy
# seo引流平台
# 沂南县seo网站推广
# 常平企石网站建设招标
# 淮阴专业seo页面优化
# 团购网站优化策略
# seo设置如何写
# seo学习文章
# 东营网站建设程序
# 打印机关键词网站排名
# 介休市妇联网站建设
# 多家
# 博客
# 端到
# 基础上
# 第一个
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
手机如何更改固态硬盘
65寸电视长宽多少厘米
type-c接口接地是什么意思
如何看固态硬盘信息
春运抢票用不用取票码
typescript和nodejs哪个好
typescript如何标记私有方法
4800日元等于多少人民币
grep命令的是如何实现
有什么基础可以学typescript
如何设置从固态硬盘启动
路由器power闪红绿灯闪是什么意思
春运订票什么时候抢票
满射为什么没有逆映射
ai如何重复使用上一命令
制冰机power1灯亮是什么意思
显卡上面TYPE-C是什么接口
为什么夸克书架书单没了
rxjs和typescript什么意思
苹果16充电方式有哪些
win7怎么关闭360壁纸屏保
固态硬盘如何下载网页
市盈率tt的扣非是什么意思
怎么确定手机是5g
进口超级维特拉三门版power是什么意思
linux如何用命令修改ip
阿里云盘修复工具怎么用
j*a中怎么截取数组
硬盘和固态硬盘如何区分
typescript和哪个语音很像
春运抢票准备什么
手机全功能type-c接口是什么意思
vfp 命令窗口如何实现换行
三星 nfc什么功能是什么意思
typescript干什么的
油烟机上的power是什么意思
360n5锁屏壁纸怎么设置
手机nfc功能功能是什么意思
datediff快捷函数怎么用
video是什么意思
路由器power灯一直亮是什么意思
j*a对数组怎么使用
win10系统如何打开cmd命令
如何用命令查看数据库日志文件
汽车中控导航机power线是什么意思
如何修改cad中的命令
春运抢票可以抢几次票
固态硬盘如何外接
typescript如何遍历map
苹果16更新了哪些版本


2024-12-13
浏览次数:次
返回列表