新闻中心
实测昆仑万维音乐大模型Mureka V7.5,唱中文歌终于不违和!
近日,昆仑万维发布了专门为中文升级的音乐大模型mureka v7.5。这两年,ai做音乐竞争激烈,suno、udio、riffusion等在英文歌演唱方面表现出色,人声真假难辨,节奏旋律也无可挑剔。所以,起初看到mureka的更新,并未引起太多关注。但后来发现,与很多强调“多语言支持”“风格多样化”的模型不同,mureka此次将重点放在了「中文音乐表现」上,这一下就勾起了兴趣。这或许是首次有人把「中文歌」作为核心目标去打磨。
下面进行实测,看看它的实力究竟如何。网址为https://www.mureka.ai(需要魔法)。打开「创作音乐」页面,中间栏有三种生成模式:
简单模式适合初次使用AI写歌的人。可以用自然语言表达创作想法,如“我想写一首温柔又有点心酸的民谣”或“想模仿周杰伦的《晴天》”,它能自动理解情绪、题材、参考风格,完成整首歌的创作。高级模式更适合“熟练创作者”。能精细控制歌词结构、段落内容,还可选择参考歌曲、指定演唱人声、限制歌曲风格,如同与专业制作人合作构建音乐世界。音频编辑部分最像“DAW(数字音频工作站)”。支持乐句级别的重新生成、延长歌曲时长、乐器分轨、精确裁剪,适合对已生成歌曲进行精修的音乐人。为完整演示,选择高级模式。生成流程与官方三步法一致:第一步写歌词,可粘贴自己写的,也可用系统自动生成草稿后修改;第二步选择风格,可搭配情绪关键词,也可上传旋律或参考音频;第三步点击“创作”按钮,稍等几分钟,歌曲即可生成。
实测中有几个令人印象深刻的案例。比如民谣《凌晨两点的火车站》,旋律轻快如夜风掠过站台,歌词温暖。与市面上其他AI唱歌模型相比,它最像深夜有人清唱。换成R&B风格,歌曲氛围甜蜜,仿佛置身恋爱中。切到摇滚风格,前奏电吉他炸裂,编曲激昂,人声情绪激烈。
整体输出结果超出预期。查看技术报告发现,在「中文歌曲」生成场景的主观测评中,统一输入歌词和提示,每个模型各出四首歌,听众盲听投票。Mureka V7.5在歌曲质量(Song Quality)和提示契合度(Prompt Follow)两个维度均排名第一,是目前唯一能在「旋律打动人」和「内容贴合主题」两方面拉开差距的模型。
Mureka V7.5能做到这一点,是因为在底层做了三件事。
一是构建模型时,不把音乐当成单纯的音符序列,而是放在文化语境和语言风格中理解。围绕中文语境重新训练模型架构,系统性地捕捉中文音乐的语义结构和情感走向。二是在演唱层面引入ASR技术反向建模。通过对大量真实中文演唱数据的识别和分析,让模型掌握换气、断句、拖音等技巧,模*实歌手的唱法细节。三是将“听起来像人唱”作为训练目标之一。在模型优化过程中引入人类主观听感评分机制,主动规避易暴露AI痕迹的音色特征和情绪处理方式。与Suno V4.5对比,Mureka V7.5演唱更自然,懂得“适可而止”。除音乐模型本身,昆仑万维还同步发布了重要的语音合成技术MoE-TTS(Mixture-of-Experts Text-to-Speech)。它是支撑Mureka V7.5唱出“更像人”的关键语音底座之一。MoE-TTS的最大创新是将语音控制从传统标签式模板解放出来,转向开放式自然语言建模。用户可用日常语言描述目标声音,背后是大语言模型(LLM)驱动的语义解析系统。它将自然语言拆解为高维表达向量,由多个语音专家模块分别建模,最终通过模态路由器动态聚合输出结果,实现“按语言思维驱动声音表现”。
GoEnhance
全能AI视频制作平台:通过GoEnhance AI让视频创作变得比以往任何时候都更简单。
347
查看详情
评测结果显示,MoE-TTS在两类任务上优势明显。In-domain场景下,与ElevenLabs、MiniMax相比,在风格贴合度(SEA)、语音质量(SQ)等核心指标上领先,整体评分稳定在4分以上。Out-of-domain场景下,泛化能力更突出,能更好还原语义意图与风格细节。从一个demo能更直观感受其优势:输入特定描述,Mureka V7.5能精准模拟,而11labs音色平淡,MiniMax缺乏风格理解能力。
技术架构上,MoE-TTS抛弃传统统一建模逻辑,采用文本与语音解耦 + 多专家并行建模策略。在Transformer框架下,各语音专家独立聚焦不同表达维度,参数分别优化,提升了对复杂语言的理解力,且语义保持能力更强,实现跨模态语义迁移时的“知识零损失”。
MoE-TTS并非孤立成果,是昆仑万维「SkyWork AI技术发布周」的压轴之作,也是多模态技术体系的收官拼图。它不仅服务于Mureka的音乐生成,还适用于情绪播报、个性化阅读、AI对话角色建模、*配音 / 游戏语音包、无障碍阅读等场景。
Mureka O1模型与Mure
ka V6模型自3月底发布后,收获全球用户广泛好评,新增注册用户近300万。自8月11日起,连续五天推出多个关键方向的模型成果,推进多模态架构,延续研发开放性与协作共享的技术理念。
在音乐赛道,AI竞争的不是“效率”“准确率”“生成力”,而是“谁的文化留下来”。如果没人愿意为中文音乐单独努力,未来AI世界里可能难有像样的中文歌被记住。Mureka V7.5专注于中文音乐,拉着中文音乐向前迈进。能听见它唱得越来越像我们,是因为有人愿意花时间和心思,将中文的旋律、情绪、韵脚和呼吸教给AI。有些旋律只有中文能唱,也许,AI也该学会用心去唱中文歌。
以上就是实测昆仑万维音乐大模型Mureka V7.5,唱中文歌终于不违和!的详细内容,更多请关注其它相关文章!
# 自然语言
# 罗源网络seo技术
# 番禺企业搜索seo优化
# 病毒性营销推广概念
# 网站关键词优化工作室
# 黄冈营销网站建设
# 焦作靠谱seo优化
# 网站建设怎么样赚钱
# 美团门店怎么营销推广
# 贵阳美业推广招聘网站
# 天津信息化网站推广前景
# 的人
# 好用
# 多个
# 亿元
# 放在
# mureka
# 是因为
# 腾讯
# 关键词
# peech
# riffusion
# udio
# suno
# follow
# 大模型
# 多语言
# 音乐
# 路由
# ai
# 路由器
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
html怎么使用typescript
喇叭上POWER4欧是什么意思
rxjs和typescript什么意思
电脑如何查看固态硬盘
夸克网盘下载为什么要钱
如何通过命令系统还原
汽车排量是什么意思
忐忑不安是什么意思
5g手机怎么没视频通话功能
夸克是什么空间单位
交管12123协议头是什么
虚拟机如何用命令清除垃圾
j*a怎么复制数组中
一年多少周
typescript入门要多久
华为5g手机怎么选择
如何以命令符运行程序
液位传感器power是什么意思
为什么夸克流畅播失败
苹果16日发售哪些机型
43寸电视长宽多少厘米
j*a中数组怎么传递
春运什么时候开始抢票
如何提高固态硬盘性能
显示器power接口是什么意思
为什么夸克运行不了
sql isnull函数如何使用
linux如何跳回命令行界面
4800日元等于多少人民币
命令不执行如何处理
苹果16都有哪些亮点
单片机计时程序怎么写
driver是什么意思
如何拍屏幕不出条纹详细方法
faq是什么意思
typescript的语法格式是什么
夸克为什么老是投屏失败
电动车eco和power是什么意思
typescript怎么传json
破太岁是什么意思
所有删除的聊天记录都可以恢复吗?
2025年国外最佳语音聊天软件排行榜
夸克缺什么登录不了
如何利用固态硬盘
导航power在汽车上是什么意思
如何去掉拍电脑的纹路详细教程
爱玛电动车power模式是什么意思
路由器上面的power红灯是什么意思
如何管理员打开cmd命令行窗口
为什么要出折叠屏手机


2025-09-19
浏览次数:次
返回列表