新闻中心

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新

2023-07-07
浏览次数:
返回列表

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

近日,2025年国际顶级语音会议ASRU(IEEE Automatic Speech Recognition and Understanding,自动语音识别与理解)的多通道多方会议转录挑战赛(M2MeT2.0)圆满结束,喜马拉雅珠峰实验室取得了卓越成绩,荣获冠军殊荣。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

ASRU研讨会是IEEE语音和语言处理技术委员会(SLTC)的旗舰技术活动,每两年举办一次,汇集了来自学术界和工业界的顶级专家和研究人员,共同探讨广泛的语音识别与理解问题。M2MeT2.0挑战赛是ASRU 2025年的一项关键赛事,其目标是解决离线会议室语音重叠的转录问题。会议场景作为典型的多人自由交谈的"鸡尾酒会场景"一直是语音识别领域的难点和关注焦点,对于开发会议场景的语音人工智能和探索相关问题的工业级解决方案具有重要意义。

值得注意的是,喜马拉雅不是第一次参加ASRU的M2MeT挑战赛。在首届M2MeT挑战赛中,喜马拉雅与中国科学技术大学合作,在说话人日志赛道中荣获第三名,并且取得了仅有4.05%的日志错误率。在首届挑战赛中,评估使用字符错误率(CER)作为指标,仅将音频转录为文本,而不考虑说话人标签。基于首届的成功,M2MeT2.0挑战赛将着重于说话人相关的评估,推动多说话人语音识别系统的实用化,并设立了限定数据和不限定数据两个子赛道。

为了应对这一挑战,喜马拉雅珠峰实验室从语音识别基础框架出发,展开了混叠语音检测技术和说话人日志技术等方面的技术探索。喜马拉雅在M2MeT2.0挑战赛的限定数据集和开放数据集两个子赛道上均获得了优异的第一名成绩。

今年的M2MeT2.0挑战赛数据集包含了真实、多场景、多模态的大规模数据,涵盖了不同规模和布局的多种会议室,模拟了各种家具、不同主题的例会以及各种室内噪音。这些交错重叠的声音,如人声、电视声、风扇空调声、键盘声、开门/关门声、气泡声等,为比赛增加了难度。通过同时使用麦克风阵列记录远距离声音和耳机麦克风记录近距离声音,确保了对应说话者的语音准确转录。这一数据集对于多说话人语音识别和语音重叠问题的研究具有重要的学术意义,并为寻找工业级解决方案提供了真实且多样化的数据资源。

Pippit AI Pippit AI

CapCut推出的AI创意内容生成工具

Pippit AI 133 查看详情 Pippit AI

M2MeT2.0挑战赛数据集中所有说话人的母语均为汉语,喜马拉雅通过产学研相结合的方式积极参与其中,致力于为中国本土语音识别技术的发展作出贡献。在M2MeT2.0挑战赛中,喜马拉雅展示了出色的说话人和语音识别技术(ASR)展现出了卓越的性能,其珠峰实验室团队通过自研的说话人识别、语音增强和语音识别等模块的优化和经验,在语音重叠和多说话人环境下取得了显著突破。通过结合深度学习和神经网络模型,喜马拉雅珠峰实验室能够实时转录并精准识别分离多个说话人的语音。

喜马拉雅相关技术不仅在ASRU 2025年M2MeT2.0挑战赛中得到验证,还已应用赋能于喜马拉雅AIGC内容生产中。目前,喜马拉雅自动语音识别(ASR)技术已广泛应用到了喜马拉雅App的AI文稿功能,对喜马拉雅平台中无文稿的声音内容进行语音转写,并输出相应的文字,从而便于听众更好地理解声音内容。同时,对于已有原始文稿的声音内容,喜马拉雅的AI文稿功能通过超长音频与文本的对齐技术,将声音与文稿进行时间戳对轨,实现声音播放与相应文字的同步高亮,让用户能够更便捷地享受边听边看的内容消费体验。

喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速ai创新

除了ASR技术,喜马拉雅的TTS(语音合成)技术也处于行业前列,并已经广泛被运用于评书、新闻、小说等多种内容的制作中,喜马拉雅通过将自主设计单独的韵律提取模块融入到HiTTS 技术框架,完美复现了单田芳的“声音”。据报道,喜马拉雅上线了逾100张由单田芳AI合成音合成的专辑,累计播放量已超过1亿次。

多年来,喜马拉雅一直在AI语音技术领域进行深入研究,其珠峰实验室长期专注于语音合成、情感分析、语音识别等领域的研究和创新。通过参与ASRU 2025年M2MeT2.0挑战赛并获得冠军,喜马拉雅进一步巩固了在语音技术领域的领先地位,并展示了在解决复杂语音场景下的出色能力。

作为备受用户喜爱的在线音频平台,喜马拉雅一直秉持着以科技赋能文化的理念,不断将技术与创作者、用户相结合,提升内容生产效率并提供卓越的内容体验。喜马拉雅也将持续通过科技赋能和产学研相结合的方式,将先进而智能的语音技术与声音相结合,为用户提供卓越的语音技术产品和服务。

以上就是喜马拉雅在国际会议挑战赛中突破语音重叠难题斩获第一 加速AI创新的详细内容,更多请关注其它相关文章!


# 喜马拉雅  # 赛中  # 语音识别  # 转录  # 珠峰  # 多说  # 人日  # peech  # 商丘产品推广营销费用  # 卢龙大型网站建设配置  # 秦皇岛网站推广怎么样  # 武汉网站推广教程  # 武汉谷歌seo哪家好点  # 开封百度推广营销费用  # 营销推广方案项目名称  # 黑龙江影楼网站建设  # 校园网站建设报价表  # 南京seo排名代理公司  # 的是  # 取得了  # 这一 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 苹果16哪些型号好  如何利用固态硬盘  固态硬盘如何打开软件  进口超级维特拉三门版power是什么意思  如何打开管理员命令提示符  solidworks打开igs文件看不见要怎么办解决方法  每日推荐电声音乐软件有哪些  春运抢票最多能抢几趟车  苹果16多有哪些功能  如何查询固态硬盘寿命  苹果16更新了哪些功能  固态硬盘如何下载网页  如何打开命令提示符  更换固态硬盘如何检查  如何查看网站域名解析  春运抢票还用取票吗  新装固态硬盘如何安装  夸克还原排版是什么意思  三菱变频器POWER是什么意思  怎么打印数组j*a  夸克转存中是什么意思  typescript怎么传json  dos命令如何复制目录结构  linux如何使用db2命令  typescript怎么使用vue  哪些明星在用苹果16  如何查看固态硬盘速度  面包车收音机power是什么意思  手机的nfc是什么功能是什么意思  access 如何输入命令  typescript性能如何  如何使用ping命令  油电混动车仪表盘上的power是什么意思  unix时间戳转换公式  手机如何更改固态硬盘  苹果16有哪些自带配件  爱奇艺fun会员可以几个人用?  j*a对数组怎么使用  单片机程序负数怎么表示  j*a中怎么截取数组  苹果16要升级哪些功能  爱奇艺中下载的视频怎么在PPT中播放操作方法  angluar如何命令删除dist  solidworks打开IGS文件作图教程  折叠屏有哪些手机  docs命令如何进入d  咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤  wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享  如何判断固态硬盘  manager是什么意思 

搜索